JPH08286680A - Sound extracting device - Google Patents

Sound extracting device

Info

Publication number
JPH08286680A
JPH08286680A JP7217859A JP21785995A JPH08286680A JP H08286680 A JPH08286680 A JP H08286680A JP 7217859 A JP7217859 A JP 7217859A JP 21785995 A JP21785995 A JP 21785995A JP H08286680 A JPH08286680 A JP H08286680A
Authority
JP
Japan
Prior art keywords
sound
image
extraction
collected
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7217859A
Other languages
Japanese (ja)
Other versions
JP3714706B2 (en
Inventor
Kenichi Harakawa
健一 原川
Norio Igawa
憲男 井川
Daisaku Sou
大作 荘
Kenji Kageyama
健二 影山
Tatsumi Nakajima
立美 中島
Yoshitaka Wakinaka
義孝 脇中
Sukeo Yamada
祐生 山田
Kenichi Unno
健一 海野
Nobuyoshi Murai
信義 村井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Takenaka Komuten Co Ltd
Original Assignee
Takenaka Komuten Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Takenaka Komuten Co Ltd filed Critical Takenaka Komuten Co Ltd
Priority to JP21785995A priority Critical patent/JP3714706B2/en
Publication of JPH08286680A publication Critical patent/JPH08286680A/en
Application granted granted Critical
Publication of JP3714706B2 publication Critical patent/JP3714706B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE: To detect a position of an object whose position is uncertainty and to extract a sound generated by the object based on its position. CONSTITUTION: When a person A moves, the inside of a room 50 is continuously photographed by plural television cameras 16, a sound extracting device recognizes its position based on the picture information regarding a region provided with specific feature quantity in a human head of which almost surface is covered by hair and which has much black part and almost spherical shape as a region corresponding to a head part P. Next, sound signals of each collected sound are delayed by a delay time in accordance with a distance between positions of each microphone 22 and a position of a head part P so that a voice part of the person A in a voice signal of a collected sound collected by plural microphones 22 is synchronized along time base. And only a voice of the person A is extracted by adding and averaging a delayed voice signal.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音抽出装置に係
り、より詳しくは、オブジェクト(本発明では、音を発
すると予想される人間又は物体)の発する音を抽出する
音抽出装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a sound extraction device, and more particularly to a sound extraction device for extracting a sound emitted by an object (in the present invention, a human or an object expected to emit a sound).

【0002】[0002]

【従来の技術及び発明が解決しようとする課題】従来、
建物や橋等の建造物の老朽化の度合いを検査する場合、
該建造物の所定の部位から発せられるきしみ音等を主に
シミュレーションにより算出することにより老朽化の度
合いを検査していた。しかし前記シミュレーションによ
り算出される値はあくまでも予測値であるので、より厳
密な検査を行うためには該建造物の所定の部位から発せ
られる実際のきしみ音を周辺の雑音と弁別して抽出する
ことが望まれていた。
2. Description of the Related Art Conventionally, the problems to be solved by the invention
When inspecting the degree of deterioration of buildings and bridges,
The degree of aging was inspected by calculating the squeaking sound and the like emitted from a predetermined part of the building mainly by simulation. However, since the value calculated by the simulation is a predicted value to the last, in order to perform a more rigorous inspection, the actual squeaking sound emitted from a predetermined part of the building may be discriminated from the surrounding noise and extracted. Was wanted.

【0003】一方、上記に関連して、複数のマイクロフ
ォンにより集音された音の音声信号を同じ時間軸上に重
ね、それらの音の各々に対しマイクロフォンと目的とす
る音源との距離に応じて適切な遅延操作を行ってから加
算平均することにより、目的とする音源から発せられた
音のみを抽出する技術が知られている。またこの技術を
撮影と録音とを同時に行う手持ち式のビデオカメラに適
用し、撮影における被写体から発せられた音を抽出する
ことにより、被写体の映像の焦点と録音の焦点とを一致
させる技術が知られている(特開平5−308553号
公報参照)。
On the other hand, in relation to the above, the voice signals of the sounds collected by the plurality of microphones are superimposed on the same time axis, and for each of these sounds, the microphones are responsive to the distance between the microphone and the target sound source. A technique is known in which only the sound emitted from a target sound source is extracted by performing an appropriate delay operation and then performing averaging. It is also known that this technology is applied to a handheld video camera that simultaneously shoots and records, and the sound emitted from the subject during shooting is extracted to match the focus of the image of the subject with the focus of recording. (See Japanese Patent Laid-Open No. 5-305855).

【0004】しかし、上記の手持ち式のビデオカメラに
関する技術は、実際には当該ビデオカメラの撮影視野内
という狭い領域内に位置する単一の被写体に対してのみ
有効であり、手持ち式であるためにビデオカメラに付属
したマイクロフォンは少数であり、それらの配置間隔が
狭いため、雑音の影響が大きく、臨場感の高い音声を集
音することは比較的困難であった。
However, the above-mentioned technique relating to the hand-held video camera is actually effective only for a single subject located within a narrow area such as the photographing field of view of the video camera, and is hand-held. Since the number of microphones attached to the video camera is small and the intervals between them are small, it is relatively difficult to collect highly realistic voices because of the large influence of noise.

【0005】ところで、従来より天井に複数のテレビカ
メラを配置し、該複数のテレビカメラにより撮影した画
像情報に基づいて、部屋の中に存在するオブジェクトの
位置を検出する画像認識技術が存在する。
By the way, conventionally, there is an image recognition technique in which a plurality of television cameras are arranged on the ceiling and the position of an object existing in a room is detected based on image information taken by the plurality of television cameras.

【0006】しかしながら、オブジェクトが移動する場
合、この移動するオブジェクトに合わせて複数のテレビ
カメラを動かし且つ焦点調整を行うことにより、当該移
動するオブジェクトを撮影していた。このように、テレ
ビカメラを動かし焦点調整を行う必要があるので、オブ
ジェクトを含む画像データを得るまでに遅延時間が発生
するという問題点があった。
However, when an object moves, the moving object is photographed by moving a plurality of television cameras and adjusting the focus in accordance with the moving object. As described above, since it is necessary to move the television camera to adjust the focus, there is a problem that a delay time occurs until the image data including the object is obtained.

【0007】本発明は、上記のような事実を考慮して成
されたものであり、上記の位置の検出に関する画像認識
技術と音抽出技術とを組合せ、位置が不確定であるオブ
ジェクトの位置を検出し且つその位置に基づいてオブジ
ェクトが発する音を抽出することができる音抽出装置を
提供することを第1の目的とする。また、より効率的に
オブジェクトの位置検出を行った上で、その検出位置に
基づいてオブジェクトが発する音を抽出することができ
る音抽出装置を提供することを第2の目的とする。
The present invention has been made in consideration of the above facts, and combines the image recognition technology and the sound extraction technology related to the above position detection to detect the position of an object whose position is indeterminate. It is a first object of the present invention to provide a sound extraction device that can detect a sound emitted by an object based on the detected position. A second object of the present invention is to provide a sound extraction device capable of more efficiently detecting the position of an object and extracting the sound emitted by the object based on the detected position.

【0008】[0008]

【課題を解決するための手段】上記第1の目的を達成す
るために、請求項1記載の発明は、音源としてのオブジ
ェクトを含む領域を撮影する撮影手段と、前記撮影手段
により撮影された領域の画像情報よりオブジェクトの位
置を認識する画像認識手段と、予め定められた位置に配
置され前記オブジェクトが発する音を採取する複数のマ
イクロフォンと、前記複数のマイクロフォンの各々によ
り採取された採取音の時系列データのうち複数の採取音
の時系列データを選択し、選択した採取音の時系列デー
タを、前記画像認識手段により認識されたオブジェクト
の位置及び該選択した採取音を採取したマイクロフォン
の位置に基づいて、オブジェクトが発する音が同期する
ようにシフトし、シフトした採取音の時系列データを平
均することにより、オブジェクトが発する音を抽出する
抽出手段と、を有することを特徴とする。
In order to achieve the first object, the invention according to claim 1 is a photographing means for photographing an area including an object as a sound source, and an area photographed by the photographing means. Image recognition means for recognizing the position of the object based on the image information, a plurality of microphones arranged at a predetermined position for collecting sounds emitted by the object, and a sampling sound collected by each of the plurality of microphones Time-series data of a plurality of collected sounds is selected from the series data, and the time-series data of the selected collected sounds is set to the position of the object recognized by the image recognition means and the position of the microphone collecting the selected collected sound. Based on this, the sounds emitted by the objects are shifted in synchronization, and the time-series data of the shifted sampled sounds are averaged. Characterized in that it has extracting means for extracting a sound object emits, the.

【0009】この請求項1記載の発明では、撮影手段が
音源としてのオブジェクトを含む領域を撮影し、画像認
識手段が撮影手段により撮影された領域の画像情報より
オブジェクトの位置を認識する。
According to the first aspect of the present invention, the photographing means photographs the area including the object as the sound source, and the image recognition means recognizes the position of the object from the image information of the area photographed by the photographing means.

【0010】例えば、図2に示すように天井52に設置
された複数のテレビカメラ16の各々により撮影された
部屋50の中の画像情報より以下のようにして、オブジ
ェクトとしての対象人物Aの頭部Pの位置を認識する。
即ち、画像情報より、表面の多くが毛髪で覆われており
黒色部分が多い略球状である等のように人間の頭部に特
有の特徴量を備えた領域を、対象人物Aの頭部Pに相当
する領域として抽出する。そして、抽出した頭部Pに相
当する領域が、部屋50を矢印X方向、矢印Y方向、矢
印Z方向の各々に沿って仮想的に等分割することにより
得られる多数の直方体状の領域のうち何れの領域に相当
するかを認識する。
For example, as shown in FIG. 2, from the image information in the room 50 taken by each of the plurality of television cameras 16 installed on the ceiling 52, the head of the target person A as an object is obtained as follows. The position of the part P is recognized.
That is, according to the image information, a region having a characteristic amount peculiar to the human head, such as a substantially spherical shape with many black surfaces covered with hair and the like, is defined as the head P of the target person A. Is extracted as a region corresponding to. A region corresponding to the extracted head P is among a number of rectangular parallelepiped regions obtained by virtually equally dividing the room 50 in each of the arrow X direction, the arrow Y direction, and the arrow Z direction. Recognize which area it corresponds to.

【0011】一方、オブジェクトの発した音は、予め定
められた位置に配置された複数のマイクロフォン(以
下、マイクと略称する)により採取される。例えば、図
2に示すように2人の人物が存在する部屋の天井に配置
されたマイクにより2人の対象人物A、Bの声と若干の
雑音とを含んだ採取音が集音される。各マイクにより集
音された採取音の時系列データが図1(A)に示す波形
であるとする(なお、説明の都合上マイク数は7個とし
ているが、本発明はこれに限定されるものでなくその数
はもっと増やすこともできる)。
On the other hand, the sound produced by the object is sampled by a plurality of microphones (hereinafter, abbreviated as microphones) arranged at predetermined positions. For example, as shown in FIG. 2, the collected sound including the voices of the two target persons A and B and some noise is collected by the microphone arranged on the ceiling of the room where the two persons are present. It is assumed that the time-series data of the collected sound collected by each microphone has the waveform shown in FIG. 1A (the number of microphones is 7 for convenience of explanation, but the present invention is not limited to this). The number can be increased more than just one).

【0012】図1(A)に示すように、各マイクで集音
される採取音の時系列データの波形における対象人物A
の声や対象人物Bの声に対応する部分は、各マイク毎に
時間軸(横軸)に沿ってずれる。即ち、各対象人物と各
マイクとの距離の大小により、対象人物の声がマイクに
到達する時間が異なるためである。例えば、マイク1は
対象人物Aに近く対象人物Bからは遠いため、該マイク
1での時系列データは時間軸に沿って先に対象人物Aの
声に対応する部分が表れ、後に対象人物Bの声に対応す
る部分が表れることになる。
As shown in FIG. 1A, the target person A in the waveform of the time-series data of the collected sound collected by each microphone
Of the target person B and the voice of the target person B are shifted along the time axis (horizontal axis) for each microphone. That is, the time required for the voice of the target person to reach the microphone differs depending on the size of the distance between each target person and each microphone. For example, since the microphone 1 is close to the target person A and far from the target person B, the time-series data of the microphone 1 shows a portion corresponding to the voice of the target person A first along the time axis, and the target person B later. The part corresponding to the voice of will appear.

【0013】抽出手段は、複数のマイクの各々により採
取された採取音の時系列データのうち複数の採取音の時
系列データを選択する。ここでは、全てのマイクにより
採取された採取音の時系列データを選択しても良いし、
後述する請求項8記載の発明のように、オブジェクトの
位置から所定距離以上離れたマイクにより採取された採
取音の時系列データを除外し、それ以外の採取音の時系
列データを選択しても良い。
The extracting means selects the time-series data of the plurality of collected sounds from the time-series data of the collected sounds collected by each of the plurality of microphones. Here, you may select the time-series data of the collected sounds collected by all microphones,
As in the invention described in claim 8 described later, even if the time-series data of the collected sound collected by the microphone separated by a predetermined distance or more from the position of the object is excluded and the time-series data of other collected sounds is selected. good.

【0014】そして、抽出手段は、選択した採取音の時
系列データを、画像認識手段により認識されたオブジェ
クトの位置及び該選択した採取音を採取したマイクの位
置に基づいて、オブジェクトが発する音が同期するよう
にシフトする。
Then, the extraction means determines the time series data of the selected sampling sound based on the position of the object recognized by the image recognizing means and the position of the microphone collecting the selected sampling sound. Shift to be in sync.

【0015】例えば、図2の対象人物Aをオブジェクト
とし、該対象人物Aの声の抽出を例にして説明すると、
対象人物Aの頭部Pと各マイクとの距離を音速で除算す
ることにより、対象人物Aの発した声に対する各マイク
での集音の遅延時間を求める。そして、図1(B)に示
すように各マイクについて、該マイクにより集音された
採取音の時系列データを時間軸に沿って遅延時間だけ遅
延させた時系列データを求める。これにより、各マイク
で対象人物Aの声に対応する部分が時間軸に沿ってほぼ
同期する(同じ位相に揃う)ことになる。一方、当該対
象人物Aの声以外の対象人物Bの声やその他の雑音に対
応する部分は時間軸に沿って位相が揃わない状態のまま
である。
For example, when the target person A in FIG. 2 is used as an object and the voice of the target person A is extracted as an example, description will be given.
By dividing the distance between the head P of the target person A and each microphone by the speed of sound, the delay time of sound collection by each microphone for the voice uttered by the target person A is obtained. Then, as shown in FIG. 1B, the time-series data obtained by delaying the time-series data of the collected sound collected by the microphone by the delay time along the time axis is obtained for each microphone. As a result, the portions of the microphones corresponding to the voice of the target person A are substantially synchronized (aligned in the same phase) along the time axis. On the other hand, the portions other than the voice of the target person A and corresponding to the voice of the target person B and other noise remain in a state where the phases are not aligned along the time axis.

【0016】さらに、抽出手段は、シフトした採取音の
時系列データを平均することにより、オブジェクトが発
する音を抽出する。例えば、図1(B)に示すマイク1
〜7における時系列データを全て同期加算(重畳)し、
加算した後の波形の振幅をマイク数「7」で除算する。
これにより、相加平均した時系列データは図1(C)に
示すように、対象人物Aの声以外の対象人物Bの声やそ
の他の雑音に対応する部分ではその振幅が極めて小さく
なりほぼ誤差の範囲内の振幅値となるため、対象人物A
の声に対応する部分のみが抽出されることになる。
Further, the extraction means extracts the sound emitted by the object by averaging the time-series data of the shifted collected sounds. For example, the microphone 1 shown in FIG.
Synchronously add (superimpose) all the time series data in
The amplitude of the waveform after addition is divided by the number of microphones “7”.
As a result, as shown in FIG. 1C, the amplitude of the arithmetically averaged time-series data becomes extremely small in a portion corresponding to the voice of the target person B other than the voice of the target person A and other noises, and an error is almost generated. Since the amplitude value is within the range of
Only the part corresponding to the voice of will be extracted.

【0017】以上のように、請求項1記載の発明によれ
ば、オブジェクトの位置を認識し且つその位置に基づい
てオブジェクトが発する音を周囲の雑音と弁別して抽出
することができる。
As described above, according to the first aspect of the present invention, the position of the object can be recognized, and the sound emitted by the object can be extracted based on the position while being discriminated from the ambient noise.

【0018】また、第1の目的を達成するために、請求
項2記載の発明は、請求項1記載の発明において、前記
画像認識手段は、オブジェクトを含む領域の画像情報よ
り該オブジェクトが音を発する方向も認識し、さらにオ
ブジェクトの位置及び該オブジェクトが音を発する方向
に基づいて、オブジェクトが発する音を良好に抽出可能
な位置をオブジェクトの位置と改めて認識する、ことを
特徴とする。
Further, in order to achieve the first object, the invention according to claim 2 is the invention according to claim 1, wherein the image recognition means causes the object to generate a sound based on the image information of the area including the object. It is also characterized in that the direction in which the sound is emitted is recognized, and the position where the sound emitted by the object can be satisfactorily extracted is recognized again based on the position of the object and the direction in which the object emits sound.

【0019】この請求項2記載の発明では、画像認識手
段は、オブジェクトを含む領域の画像情報より、該オブ
ジェクトが音を発する方向も認識する。例えば、図2に
示す対象人物Aが音(声)を発する方向は、以下のよう
にして認識する。即ち、まず頭部Pを前述した要領で認
識した後、その頭部Pの下に位置する胴体Sを認識し、
その胴体Sにおいて胸幅L2は肩幅L1よりも小さいと
いうことから、対象人物Aは矢印V方向又はその逆方向
を向いていると推定する。次に、頭部Pの表面における
毛髪の占める比率は顔の位置する側よりも顔の位置しな
い側の方が高いという一般的特徴に基づいて、図2にお
いて紙面奥側の方が紙面手前側よりも黒色の度合いが高
いことから、頭部Pは矢印V方向を向いていると推定
し、対象人物Aが声を発する方向は矢印V方向であると
認識する。
According to the second aspect of the invention, the image recognizing means also recognizes the direction in which the object makes a sound from the image information of the area including the object. For example, the direction in which the target person A shown in FIG. 2 makes a sound (voice) is recognized as follows. That is, first, after recognizing the head P in the manner described above, the body S located below the head P is recognized,
Since the chest width L2 is smaller than the shoulder width L1 in the body S, it is estimated that the target person A faces the arrow V direction or the opposite direction. Next, based on the general characteristic that the proportion of hair on the surface of the head P is higher on the side where the face is not located than on the side where the face is located, the back side of the paper in FIG. 2 is the front side of the paper. Since the degree of black is higher than that of the head P, it is estimated that the head P faces the direction of the arrow V, and the direction in which the target person A speaks is recognized as the direction of the arrow V.

【0020】さらに、画像認識手段は、オブジェクトの
位置及び該オブジェクトが音を発する方向に基づいて、
オブジェクトが発する音を良好に抽出可能な位置、即ち
低周波域〜高周波域にわたる全ての周波数成分をもれな
く原音と略同一レベルで抽出できる位置(例えばオブジ
ェクトの位置から前記音を発する方向に所定距離(数十
cm)離間した位置)をオブジェクトの位置と改めて認識
する。
Further, the image recognizing means is based on the position of the object and the direction in which the object emits a sound,
A position at which the sound emitted by the object can be satisfactorily extracted, that is, a position at which all the frequency components ranging from the low frequency region to the high frequency region can be extracted at substantially the same level as the original sound (for example, a predetermined distance in the direction in which the sound is emitted from the position of the object ( dozens
Recognize (cm) separated position) as the position of the object.

【0021】このようにして認識されたオブジェクトの
位置、即ちオブジェクトが発する音を良好に抽出可能な
位置に基づいて、前述したような音の抽出を行うので、
特にオブジェクトが発する音の指向性が強い場合等に
は、より高い精度の音の抽出を行うことができる。
Since the sound is extracted as described above based on the position of the object recognized in this way, that is, the position at which the sound emitted by the object can be satisfactorily extracted,
In particular, when the directivity of the sound emitted by the object is strong, it is possible to extract the sound with higher accuracy.

【0022】また、第1の目的を達成するために、請求
項3記載の発明は、請求項1記載の発明において、オブ
ジェクトが移動する場合、前記撮影手段はオブジェクト
の移動に追従して該オブジェクトを含む領域を撮影す
る、ことを特徴とする。
In order to achieve the first object, according to the invention of claim 3, in the invention of claim 1, when the object moves, the photographing means follows the movement of the object. It is characterized in that an area including is photographed.

【0023】この請求項3記載の発明ではオブジェクト
が移動する場合、撮影手段はオブジェクトの移動に追従
して該オブジェクトを含む領域を撮影する。これによ
り、画像認識手段は撮影された領域の画像情報より、移
動するオブジェクトの位置を認識し、抽出手段は画像認
識手段により認識されたオブジェクトの位置に基づいて
前述した要領で当該移動するオブジェクトからの音を抽
出する。従って、移動するオブジェクトに対しても該オ
ブジェクトからの音を抽出することができる。
In the invention according to the third aspect, when the object moves, the photographing means follows the movement of the object and photographs the area including the object. Thereby, the image recognition means recognizes the position of the moving object from the image information of the photographed area, and the extraction means detects the position of the moving object from the moving object in the above-described manner based on the position of the object recognized by the image recognition means. Extract the sound of. Therefore, the sound from the moving object can be extracted.

【0024】また、第1の目的を達成するために、請求
項4記載の発明は、請求項1記載の発明において、オブ
ジェクトが複数存在する場合、前記撮影手段は複数のオ
ブジェクトを含む領域を撮影し、前記画像認識手段は撮
影された領域の画像情報より複数のオブジェクトの各々
の位置を認識し、前記抽出手段は該複数のオブジェクト
の各々からの音を抽出する、ことを特徴とする。
In order to achieve the first object, according to the invention of claim 4, in the invention of claim 1, when there are a plurality of objects, the photographing means photographs a region including a plurality of objects. However, the image recognition means recognizes the position of each of the plurality of objects from the image information of the photographed area, and the extraction means extracts the sound from each of the plurality of objects.

【0025】この請求項4記載の発明では、オブジェク
トが複数存在する場合、撮影手段は複数のオブジェクト
を含む領域を撮影し、画像認識手段は撮影された領域の
画像情報より複数のオブジェクトの各々の位置を個別に
認識する。そして、抽出手段は画像認識手段により認識
された複数のオブジェクトの各々の位置に基づいて前述
した要領で、複数のオブジェクトの各々からの音を抽出
する。これにより、複数のオブジェクトに対しても、該
複数のオブジェクトの各々からの音を抽出することがで
きる。
In the invention according to the fourth aspect, when there are a plurality of objects, the photographing means photographs the area including the plurality of objects, and the image recognition means determines each of the plurality of objects from the image information of the photographed area. Recognize position individually. Then, the extraction means extracts the sound from each of the plurality of objects based on the position of each of the plurality of objects recognized by the image recognition means in the manner described above. As a result, the sound from each of the plurality of objects can be extracted for the plurality of objects.

【0026】また、第1の目的を達成するために、請求
項5記載の発明は、請求項1記載の発明において、前記
オブジェクト及び前記複数のマイクロフォンを含む領域
において少なくとも音速及び音伝搬経路の一方に影響を
及ぼす要因とされる音響環境状態を検出する検出手段を
更に備え、前記抽出手段は、前記検出手段によって検出
された音響環境状態が変化した場合に、変化した音響環
境状態に基づいて、前記採取音の時系列データのシフト
を補正することを特徴とする。
Further, in order to achieve the first object, the invention according to claim 5 is the invention according to claim 1, wherein at least one of a sound velocity and a sound propagation path is provided in a region including the object and the plurality of microphones. Further comprising a detection means for detecting an acoustic environment state that is a factor affecting, the extraction means, when the acoustic environment state detected by the detection means changes, based on the changed acoustic environment state, It is characterized in that the shift of the time series data of the collected sound is corrected.

【0027】この請求項5記載の発明では、検出手段
が、オブジェクト及び複数のマイクロフォンを含む領域
において少なくとも音速及び音伝搬経路の一方に影響を
及ぼす要因とされる音響環境状態、例えば温度や風力、
風向を検出する。そして、抽出手段は、検出手段によっ
て検出された音響環境状態が変化した場合に、変化した
音響環境の状態に基づいて、例えば以下のようにして採
取音の時系列データのシフトを補正する。
In the invention according to claim 5, the detecting means has an acoustic environment condition that is a factor affecting at least one of the sound velocity and the sound propagation path in the region including the object and the plurality of microphones, such as temperature and wind force.
Detect the wind direction. Then, when the acoustic environment state detected by the detecting means changes, the extracting means corrects the shift of the time-series data of the collected sound based on the changed state of the acoustic environment, for example, as follows.

【0028】即ち、予め算出された検出温度に対応した
音速と標準音速との比が、該検出温度に対応させて予め
記憶された音速補正テーブルを参照することにより、検
出温度に対応した音速と標準音速との比を得て、その比
に基づいて各マイクでの集音の遅延時間を補正し、この
補正された遅延時間に従って遅延操作を行う。又は、検
出温度に対応した音速によって、オブジェクトの位置と
各マイクの位置との距離を除算することにより、各マイ
クでの集音の遅延時間を補正し、この補正された遅延時
間に従って遅延操作を行う。
That is, the ratio of the sound velocity corresponding to the detected temperature calculated in advance to the standard sound velocity is determined by referring to the sound velocity correction table stored in advance corresponding to the detected temperature to obtain the sound velocity corresponding to the detected temperature. The ratio to the standard sound velocity is obtained, the delay time of sound collection in each microphone is corrected based on the ratio, and the delay operation is performed according to the corrected delay time. Alternatively, the sound collection speed at each microphone is corrected by dividing the distance between the position of the object and the position of each microphone by the speed of sound corresponding to the detected temperature, and the delay operation is performed according to this corrected delay time. To do.

【0029】また、例えば、検出した風力、風向の下で
のオブジェクトの位置から各マイクの位置への音の伝搬
経路を、予め各種の風力値、風向値を想定してシミュレ
ーションすることにより求められた伝搬経路の曲がり
(変化)に関する情報に基づいて推定し、推定された伝
搬経路に沿った距離を音速で除算することにより、各マ
イクでの集音の遅延時間を補正し、この補正された遅延
時間に従って遅延操作を行う。
Further, for example, the propagation path of sound from the position of the object under the detected wind force and wind direction to the position of each microphone is obtained by simulating various wind force values and wind direction values in advance. Estimated based on the information about the bend (change) of the propagation path, and by dividing the distance along the estimated propagation path by the sound velocity, the delay time of the sound collection at each microphone was corrected, and this was corrected. Delay operation is performed according to the delay time.

【0030】以上のようにして、音響環境状態の変化に
応じて精度の高い音の抽出を行うことができる。
As described above, it is possible to extract sounds with high accuracy according to changes in the acoustic environment condition.

【0031】また、第1の目的を達成するために、請求
項6記載の発明は、請求項1記載の発明において、前記
抽出手段は、高音域の指向性に関する情報に基づき、高
音域の採取音の時系列データを重み付けして平均するこ
とを特徴とする。
Further, in order to achieve the first object, the invention according to claim 6 is the invention according to claim 1, wherein the extracting means extracts the high frequency range based on the information on the directivity of the high frequency range. It is characterized in that time series data of sounds are weighted and averaged.

【0032】図11に音の周波数帯毎の成分が伝搬する
領域を示す。高音域は殆ど音の方向(矢印D)にのみ伝
搬するのに対し、低音域ほどより広い範囲に伝搬するこ
とがわかる。即ち、音の指向性は、周波数帯により異な
り、低音域ほど指向性が緩く、高音域は指向性が強くな
るのが一般的である。よって、オブジェクトが音を発す
る方向に位置するマイクでは、低音域から高音域までほ
ぼ全域の周波数成分が集音されるのに対し、その他のマ
イクでは低音域は集音されるものの高音域はあまり集音
されない。
FIG. 11 shows a region where a component of each frequency band of sound propagates. It can be seen that the treble range propagates almost only in the sound direction (arrow D), while the bass range propagates in a wider range. That is, the directivity of the sound differs depending on the frequency band, and it is general that the directivity is lower in the low sound range and the directivity is higher in the high sound range. Therefore, the microphone located in the direction in which the object emits sound collects almost all frequency components from the low range to the high range, while other microphones collect the low range but not the high range. No sound is collected.

【0033】ところが、この請求項6記載の発明では、
抽出手段は、高音域の指向性に関する情報に基づき、オ
ブジェクトが音を発する方向に位置するマイクによる高
音域の採取音と、他のマイクによる高音域の採取音と、
の不均衡を是正すべく、重み付けして平均する。これに
より、高音域が低音域よりも相対的に弱くなることを防
止することができる。
However, according to the invention of claim 6,
Extraction means, based on the information about the directivity of the high range, the high-range sampled sound by the microphone located in the direction in which the object emits sound, the high-range sampled sound by other microphones,
In order to correct the imbalance of, the weighted average is applied. This makes it possible to prevent the high range from becoming relatively weaker than the low range.

【0034】また、第1の目的を達成するために、請求
項7記載の発明は、請求項1記載の発明において、前記
画像認識手段は、オブジェクトを含む領域の画像情報よ
り該オブジェクトが音を発する方向、該オブジェクトの
周辺に位置する音の反射面の位置及び向きもさらに認識
し、前記抽出手段は、前記選択した採取音を採取したマ
イクロフォンの位置、オブジェクトの位置、該オブジェ
クトが音を発する方向、及び前記反射面の位置並びに向
きに基づいて、前記選択した採取音の時系列データを、
オブジェクトからの直接音又は前記反射面で反射された
反射音の何れか一方が同期するようにシフトする、こと
を特徴とする。
Further, in order to achieve the first object, the invention according to claim 7 is the invention according to claim 1, wherein the image recognition means causes the object to generate a sound based on the image information of the area including the object. Further, the direction of emission, the position and the direction of the reflection surface of the sound located around the object are further recognized, and the extraction means makes the position of the microphone collecting the selected sampled sound, the position of the object, the object emits sound. Based on the direction and the position and orientation of the reflecting surface, the time-series data of the selected collected sound,
One of the direct sound from the object and the reflected sound reflected by the reflecting surface is shifted so as to be synchronized.

【0035】ところで、オブジェクトの発した音が所定
の反射面に反射されてマイクにより集音された場合、そ
れらの反射音は通常直接音に比べ非常に弱いため、加算
平均することにより他の雑音成分と共に自動的に除去さ
れる。しかし、オブジェクトから近い位置であり且つ該
オブジェクトが音を発する方向に、反射面が位置し、該
反射面による反射音の進行方向にマイクロフォンが位置
している場合等には、該反射面での反射音は直接音より
も大きくなるため、むしろ該反射面での反射音を集音し
た方がオブジェクトの発する音の抽出効果が高い。
By the way, when the sound emitted by the object is reflected by a predetermined reflection surface and collected by the microphone, since the reflected sound is usually much weaker than the direct sound, other noise is added by averaging. Automatically removed with the ingredients. However, in the case where the reflecting surface is located near the object and in the direction in which the object emits sound, and the microphone is located in the traveling direction of the sound reflected by the reflecting surface, the Since the reflected sound becomes louder than the direct sound, the effect of extracting the sound emitted by the object is higher when the reflected sound on the reflecting surface is collected.

【0036】そこで、この請求項7記載の発明では、画
像認識手段は、オブジェクトを含む領域の画像情報よ
り、該オブジェクトが音を発する方向、該オブジェクト
の周辺に位置する音の反射面の位置及び向きもさらに認
識する。抽出手段は、前記選択した採取音を採取したマ
イクロフォンの位置、オブジェクトの位置、該オブジェ
クトが音を発する方向、及び前記反射面の位置並びに向
きに基づいて、前記選択した採取音の時系列データを、
オブジェクトからの直接音又は前記反射面で反射された
反射音の何れか一方が同期するようにシフトする。
In view of the above, according to the present invention, the image recognizing means determines, based on the image information of the area including the object, the direction in which the object emits sound, the position of the sound reflecting surface located around the object, and Also recognize the direction. Extraction means, based on the position of the microphone that collected the selected collected sound, the position of the object, the direction in which the object emits sound, and the position and orientation of the reflective surface, the time-series data of the selected collected sound. ,
Either the direct sound from the object or the reflected sound reflected by the reflecting surface shifts in synchronization.

【0037】例えば、反射面が、オブジェクトから近い
位置であり且つ該オブジェクトが音を発する方向に位置
しており、該反射面による反射音の進行方向にマイクロ
フォンが位置している場合には、反射面で反射された反
射音の伝搬時間に応じた遅延操作を実行する。このよう
に、オブジェクトの周辺の反射面等の配置状況に応じて
より適切な音の抽出を行うことができる。
For example, when the reflecting surface is located near the object and is located in the direction in which the object emits sound and the microphone is located in the traveling direction of the sound reflected by the reflecting surface, The delay operation is executed according to the propagation time of the reflected sound reflected by the surface. In this way, more appropriate sound extraction can be performed according to the arrangement of the reflective surface around the object.

【0038】また、第1の目的を達成するために、請求
項8記載の発明は、請求項1記載の発明において、前記
抽出手段は、前記複数のマイクロフォンの各々により採
取された採取音の時系列データのうち、前記オブジェク
トの位置から所定距離以上離れて位置するマイクロフォ
ンによって採取された採取音の時系列データを、選択の
対象から除外することを特徴とする。
[0038] In order to achieve the first object, the invention according to claim 8 is the invention according to claim 1, wherein the extraction means outputs a sampling sound collected by each of the plurality of microphones. Among the series data, time series data of collected sounds collected by a microphone located at a predetermined distance or more from the position of the object is excluded from the selection target.

【0039】一般的に音はその伝搬距離に応じて減衰す
るため、オブジェクトの発した音が長い伝搬距離を経て
マイクに集音された場合に、当該マイクにより集音され
た採取音は、該オブジェクトの発した音の成分を少しし
か含んでいないため、オブジェクトの音の時系列データ
を求める際に、該時系列データの形成に寄与する度合い
が小さい。
In general, sound is attenuated according to its propagation distance. Therefore, when the sound emitted by the object is collected by the microphone through a long propagation distance, the collected sound collected by the microphone is Since it contains only a small amount of the sound component emitted by the object, the degree of contribution to the formation of the time-series data is small when the time-series data of the sound of the object is obtained.

【0040】そこで、この請求項8記載の発明では、抽
出手段は、複数のマイクのうちオブジェクトの位置から
遠いマイク、即ち予め実験により求められた所定距離以
上離れて位置するマイクによって採取された採取音の時
系列データを、選択の対象から除外する。これにより、
音の抽出の精度を低下させることなく、音の抽出に係る
処理(抽出手段によるシフト及び平均処理)の負荷を軽
減することができる。
Therefore, in the invention according to the eighth aspect, the extraction means collects the plurality of microphones that are far from the position of the object, that is, the microphones that are located at a predetermined distance or more determined in advance by an experiment. The time series data of sound is excluded from the selection target. This allows
The load of processing related to sound extraction (shifting and averaging processing by the extraction means) can be reduced without lowering the accuracy of sound extraction.

【0041】なお、上記と同じ目的で、複数のマイクの
うち、該マイクによって取られた採取音の音量が小さい
マイク、即ち採取音の音量が予め実験により求められた
所定音量レベルより小さいマイクによって取られた採取
音を、選択の対象から除外するようにしても良い。
For the same purpose as described above, among a plurality of microphones, a microphone having a small volume of a collected sound taken by the microphone, that is, a microphone having a volume of the collected sound smaller than a predetermined volume level obtained by an experiment in advance is used. The collected sounds that have been taken may be excluded from the selection targets.

【0042】また、第1の目的を達成するために、請求
項9記載の発明は、請求項1記載の発明において、前記
抽出手段により抽出されたオブジェクトが発する音を所
定の音声認識装置へ出力する出力手段を更に備えたこと
を特徴とする。
In order to achieve the first object, the invention according to claim 9 is the invention according to claim 1, wherein the sound emitted by the object extracted by the extracting means is output to a predetermined voice recognition device. It further comprises an output means for

【0043】ところで、請求項1記載の発明では、オブ
ジェクトの近くに配置されたより多くのマイクで取られ
た採取音の時系列データに対して上記のようにシフト及
び平均を行うことにより、信号対雑音比を改善させてオ
ブジェクトの音を抽出することができる。しかも通常の
マイクで集音した音よりも信号対雑音比が高い音を抽出
することも可能である。このように良質な音は、音声認
識装置への入力として活用することができる。
By the way, according to the first aspect of the present invention, the time series data of the sampled sounds taken by more microphones arranged near the object are shifted and averaged as described above to obtain a signal pair. It is possible to improve the noise ratio and extract the sound of the object. Moreover, it is also possible to extract a sound having a higher signal-to-noise ratio than the sound collected by a normal microphone. Such a good sound can be utilized as an input to the voice recognition device.

【0044】そこで、この請求項9記載の発明では、出
力手段が抽出手段により抽出されたオブジェクトからの
音を所定の音声認識装置へ出力する。これにより、音抽
出装置により音の抽出が可能な領域内にいる人(一人又
は複数人)が発した声を音声認識装置へ入力することが
できる。特に、身体の不自由な老人や障害者が音声認識
装置を用いて声により家庭内の電気製品等のスイッチの
オン/オフ等を制御する場合に、適用することができ
る。
Therefore, in the invention according to the ninth aspect, the output means outputs the sound from the object extracted by the extraction means to a predetermined voice recognition device. Accordingly, it is possible to input the voice uttered by a person (one or more people) in the area where the sound can be extracted by the sound extraction device to the voice recognition device. In particular, the present invention can be applied to a case where an elderly person or a handicapped person with physical disabilities controls on / off of switches of home electric appliances and the like by voice using a voice recognition device.

【0045】また、第2の目的を達成するために、請求
項10記載の発明は、予め定められた位置に配置された
広角固定焦点レンズを備え、音源としてのオブジェクト
を含む領域を撮影する撮影手段と、前記撮影手段により
撮影された領域の画像情報よりオブジェクトの位置を認
識する画像認識手段と、予め定められた位置に配置され
前記オブジェクトが発する音を採取する複数のマイクロ
フォンと、前記複数のマイクロフォンの各々により採取
された採取音の時系列データのうち複数の採取音の時系
列データを選択し、選択した採取音の時系列データを、
前記画像認識手段により認識されたオブジェクトの位置
及び該選択した採取音を採取したマイクロフォンの位置
に基づいて、オブジェクトが発する音が同期するように
シフトし、シフトした採取音の時系列データを平均する
ことにより、オブジェクトが発する音を抽出する抽出手
段と、を有することを特徴とする。
Further, in order to achieve the second object, the invention according to claim 10 is provided with a wide-angle fixed focus lens arranged at a predetermined position, and photographing for photographing an area including an object as a sound source. Means, image recognition means for recognizing the position of the object based on the image information of the area photographed by the photographing means, a plurality of microphones arranged at a predetermined position for collecting sounds emitted by the object, and the plurality of microphones. Select the time series data of a plurality of collected sounds from the time series data of the collected sounds collected by each of the microphones, and select the time series data of the selected collected sounds,
Based on the position of the object recognized by the image recognition means and the position of the microphone collecting the selected collected sound, the sound emitted by the object is shifted in synchronization, and the time-series data of the shifted collected sound is averaged. Accordingly, an extraction unit that extracts the sound emitted by the object is included.

【0046】この請求項10記載の発明では、撮影手段
は、予め定められた位置に配置された広角固定焦点レン
ズを備えている。これにより、オブジェクトが移動して
いる場合、静止している場合を問わず、撮影手段(例え
ばテレビカメラ等)の向きをオブジェクトの移動に追従
させて変更させることなく、オブジェクトを撮影するこ
とができる。また、物や人・動物等のオブジェクトは床
や地面からの高さが概ね決まっており、更に、広角固定
焦点レンズは焦点深度が大きいという特性を有している
ので、撮影手段が焦点調整機構を有していなくても、即
ち焦点調整を行うことなく、オブジェクトを撮影するこ
とができる。
According to the tenth aspect of the invention, the photographing means includes a wide-angle fixed focus lens arranged at a predetermined position. As a result, regardless of whether the object is moving or stationary, the object can be photographed without changing the direction of the photographing means (such as a television camera) following the movement of the object. . In addition, since the height of objects, people, animals, etc. from the floor and the ground is almost fixed, and the wide-angle fixed-focus lens has the characteristic that the depth of focus is large. The object can be photographed without having it, that is, without performing focus adjustment.

【0047】このように、オブジェクトの移動に追従し
た撮影手段の向きの変更や焦点調整を行うことなく、オ
ブジェクトの位置を速やかに認識することができる。ま
た、上記のような撮影手段の向きの変更や焦点調整を行
うための機械的な作動機構が不要となるので、撮影手段
並びに音抽出装置の構造を簡単にすることができると共
に、機械的な作動部を減らすことにより耐久性を向上さ
せることができる。
In this way, the position of the object can be quickly recognized without changing the orientation of the photographing means or adjusting the focus following the movement of the object. Further, since the mechanical actuation mechanism for changing the orientation of the photographing means and adjusting the focus as described above is not required, the structure of the photographing means and the sound extraction device can be simplified and the mechanical operation can be simplified. Durability can be improved by reducing the number of operating parts.

【0048】なお、広角固定焦点レンズの配置位置とし
ては、例えば、部屋の天井等の平面部の他、天井と壁と
の2面が作る角部や、天井と壁2面との計3面が作る角
部とすることができる。
The wide-angle fixed-focus lens is arranged at, for example, a flat portion such as the ceiling of a room, a corner formed by two surfaces of the ceiling and a wall, and a total of three surfaces including the ceiling and the wall. It can be a corner made by.

【0049】また、請求項10記載の発明では、上記の
ような撮影手段により撮影された領域の画像情報より、
請求項1記載の発明と同様の要領で画像認識手段によっ
てオブジェクトの位置を認識し、抽出手段によってオブ
ジェクトが発する音を周囲の雑音と弁別して抽出するこ
とができる。
According to the tenth aspect of the invention, from the image information of the area photographed by the photographing means as described above,
The position of the object can be recognized by the image recognition means and the sound emitted by the object can be discriminated from the ambient noise and extracted by the extraction means in the same manner as in the first aspect of the invention.

【0050】また、第2の目的を達成するために、請求
項11記載の発明は、請求項10記載の発明において、
前記撮影手段は複数設けられており、各撮影手段は、前
記広角固定焦点レンズによる結像点に配置されたエリア
センサを更に備え、前記画像認識手段は、該複数の撮影
手段により撮影された各々異なる撮影情報を処理してオ
ブジェクトの形状を認識する形状認識手段と、前記形状
認識手段により認識されたオブジェクトの3次元座標を
演算する3次元座標演算手段と、を含んで構成された、
ことを特徴とする。
In order to achieve the second object, the invention according to claim 11 is the same as the invention according to claim 10,
A plurality of the photographing means are provided, each of the photographing means further includes an area sensor arranged at an image forming point of the wide-angle fixed focus lens, and the image recognizing means is photographed by the plurality of photographing means. A shape recognizing unit that processes different photographic information to recognize the shape of the object, and a three-dimensional coordinate calculating unit that calculates the three-dimensional coordinates of the object recognized by the shape recognizing unit are included.
It is characterized by the following.

【0051】この請求項11記載の発明では、撮影手段
は複数設けられており、各撮影手段は、広角固定焦点レ
ンズによる結像点に配置されたエリアセンサを更に備え
ている。即ち、撮影手段によって、広角固定焦点レンズ
を介して撮影されたオブジェクトの像はエリアセンサ上
に結像される。このようにして、複数の撮影手段によ
り、オブジェクトを含む領域が各々異なる位置から撮影
される。
According to the invention described in claim 11, a plurality of photographing means are provided, and each photographing means further comprises an area sensor arranged at the image forming point of the wide-angle fixed focus lens. That is, the image of the object photographed by the photographing means through the wide-angle fixed focus lens is formed on the area sensor. In this way, the regions including the object are photographed from different positions by the plurality of photographing means.

【0052】形状認識手段により複数の撮影手段で撮影
された各々異なる撮影情報が処理されてオブジェクトの
形状が認識される。オブジェクトの形状を認識するに
は、例えば、後述する請求項12記載の発明のように、
3次元空間をX軸、Y軸及びZ軸の各方向に沿って仮想
的に細分割することにより得られる多数の立方体状の微
小空間のうち、オブジェクトが占有する微小空間により
形成される領域を求めることにより認識してもよいし、
また、例えば、複数の撮影手段により各々異なる撮影情
報を平面化した画像情報に変換し、該変換された画像情
報から少なくともオブジェクトの正面、背面、左側面、
右側面及び平面の画像情報を求め、該求められた画像情
報を合成して認識してもよい。
The shape recognition means processes the different photographing information photographed by the plurality of photographing means to recognize the shape of the object. To recognize the shape of an object, for example, as in the invention of claim 12 described later,
Of a large number of cubic microspaces obtained by virtually subdividing the three-dimensional space along each of the X-axis, Y-axis, and Z-axis, the region formed by the microspace occupied by the object You may recognize by asking,
Further, for example, different photographing information is converted into flattened image information by a plurality of photographing means, and at least the front surface, the back surface, the left side surface of the object are converted from the converted image information.
The image information of the right side surface and the plane surface may be obtained, and the obtained image information may be combined and recognized.

【0053】3次元座標演算手段により形状認識手段で
認識されたオブジェクト又は該オブジェクトの所定の部
位の3次元座標が演算される。一般にオブジェクトは点
とは限らず点の集合体であるので、オブジェクトが含む
点の全ての3次元座標を全て演算してもよいし、オブジ
ェクトと3次元空間とを画する境界に属する点の全ての
3次元座標を演算してもよい。また、例えば特定の位置
を予め設定(記憶)しておいて該特定の位置の3次元座
標を演算することにより、高さや長さ等を求めても良
い。
The three-dimensional coordinate calculation means calculates the three-dimensional coordinates of the object recognized by the shape recognition means or a predetermined part of the object. In general, an object is not limited to points, but is a set of points. Therefore, all three-dimensional coordinates of points included in an object may be calculated, or all points belonging to a boundary that demarcates the object and the three-dimensional space. The three-dimensional coordinates of may be calculated. Further, for example, the height or length may be obtained by presetting (storing) a specific position and calculating the three-dimensional coordinates of the specific position.

【0054】このようにして画像認識手段を構成する形
状認識手段及び3次元座標演算手段によって、オブジェ
クトの3次元座標を速やかに求め、オブジェクトの位置
を速やかに認識することができる。
The shape recognizing means and the three-dimensional coordinate calculating means, which constitute the image recognizing means in this way, can promptly obtain the three-dimensional coordinates of the object and promptly recognize the position of the object.

【0055】また、第2の目的を達成するために、請求
項12記載の発明は、請求項11記載の発明において、
前記形状認識手段は、前記複数の撮影手段により撮影さ
れた各々異なる画像情報に基づいて、3次元空間をX
軸、Y軸及びZ軸の各方向に沿って仮想的に細分割する
ことにより得られる多数の立方体状の微小空間のうち、
オブジェクトが占有する微小空間により形成される領域
を求めることによりオブジェクトの形状を認識すること
を特徴とする。
In order to achieve the second object, the invention according to claim 12 is the same as the invention according to claim 11,
The shape recognizing means calculates an X-ray space in a three-dimensional space based on different image information captured by the plurality of capturing means.
Of a large number of cubic microspaces obtained by virtually subdividing along the axes, Y-axis and Z-axis,
The feature of the present invention is that the shape of the object is recognized by obtaining the area formed by the minute space occupied by the object.

【0056】この請求項12記載の発明では、形状認識
手段により、3次元空間をX軸、Y軸及びZ軸の各方向
に沿って仮想的に細分割することにより得られる多数の
立方体状の微小空間のうち、オブジェクトが占有する微
小空間により形成される領域を求めることによりオブジ
ェクトの形状を認識する。ここで、微小領域はエリアセ
ンサの解像度の限界まで細分化することができる。この
ため、オブジェクトの形状を細部まで認識することがで
きる。
According to the twelfth aspect of the present invention, a large number of cubic shapes obtained by virtually subdividing the three-dimensional space along the X-axis, Y-axis, and Z-axis by the shape recognition means are obtained. The shape of the object is recognized by determining the area formed by the minute space occupied by the object in the minute space. Here, the minute area can be subdivided to the limit of the resolution of the area sensor. Therefore, the shape of the object can be recognized in detail.

【0057】また、第2の目的を達成するために、請求
項13記載の発明は、請求項11記載の発明において、
前記形状認識手段は、前記複数の撮影手段により撮影さ
れた各々異なる画像情報に基づいて、3次元空間をX
軸、Y軸及びZ軸の各方向に沿って仮想的に細分割する
ことにより得られる多数の立方体状の微小空間のうち、
各撮影手段からオブジェクトを投影する視野角内に含ま
れる微小空間をそれぞれ抽出し、抽出した微小空間の全
てに含まれる微小空間により形成される領域を求めるこ
とによりオブジェクトの形状を認識することを特徴とす
る。
In order to achieve the second object, the invention of claim 13 is the same as the invention of claim 11,
The shape recognizing means calculates an X-ray space in a three-dimensional space based on different image information captured by the plurality of capturing means.
Of a large number of cubic microspaces obtained by virtually subdividing along the axes, Y-axis and Z-axis,
Characteristic of recognizing the shape of an object by extracting each of the minute spaces included in the viewing angle for projecting the object from each photographing means and determining the area formed by the minute spaces included in all of the extracted minute spaces And

【0058】上述した請求項11記載の複数の撮影手段
により撮影された画像情報には、図19に示したように
影(死角)の領域が生ずる。そこで、請求項13に記載
したように、形状認識手段が、複数の撮影手段により撮
影された各々異なる画像情報に基づいて、3次元空間を
X軸、Y軸及びZ軸の各方向に沿って仮想的に細分割す
ることにより得られる多数の立方体状の微小空間のう
ち、各撮影手段からオブジェクトを投影する視野角内に
含まれる微小空間をそれぞれ抽出し、抽出した微小空間
の全てに含まれる微小空間により形成される領域を求め
ることによりオブジェクトの形状を認識する。
In the image information photographed by the plurality of photographing means according to the eleventh aspect, there is a shadow (blind spot) area as shown in FIG. Therefore, as described in claim 13, the shape recognition means sets the three-dimensional space along each of the X-axis, Y-axis, and Z-axis based on the different image information captured by the plurality of image capturing means. Of a large number of cubic microspaces obtained by virtually subdividing, microspaces included in the viewing angle for projecting an object from each photographing means are extracted, and included in all of the extracted microspaces. The shape of the object is recognized by finding the area formed by the minute space.

【0059】このようにしてオブジェクトの形状を認識
することにより、影(死角)の領域を排除することがで
き、オブジェクトの形状を正確に認識することができ
る。
By recognizing the shape of the object in this way, the shadow (blind spot) region can be eliminated, and the shape of the object can be accurately recognized.

【0060】また、第2の目的を達成するために、請求
項14記載の発明は、請求項10記載の発明において、
前記撮影手段は複数設けられており、各撮影手段は、前
記広角固定焦点レンズによる結像点に配置されたエリア
センサを更に備え、前記画像認識手段は、各撮影手段の
エリアセンサ上に結像された2次元座標を取得し、該取
得した複数の2次元座標に基づいてオブジェクトの位置
を認識することを特徴とする。
In order to achieve the second object, the invention of claim 14 is the same as the invention of claim 10,
A plurality of the photographing means are provided, each photographing means further comprises an area sensor arranged at an image forming point by the wide-angle fixed focus lens, and the image recognition means forms an image on the area sensor of each photographing means. It is characterized in that the acquired two-dimensional coordinates are acquired, and the position of the object is recognized based on the plurality of acquired two-dimensional coordinates.

【0061】この請求項14記載の発明では、複数の撮
影手段の各々のエリアセンサ上の点の2次元座標が分か
れば3次元座標を逆算することができるので、画像認識
手段が、各撮影手段のエリアセンサ上に結像された2次
元座標を取得し、該取得した複数の2次元座標に基づい
てオブジェクトの位置(3次元座標)を正確に認識する
ことができる。また、第2の目的を達成するために、請
求項15記載の発明は、予め定められた位置に配置され
た広角固定焦点レンズ及び該レンズによる結像点に配設
されたエリアセンサを備え、音源としてのオブジェクト
を含む領域を撮影する撮影手段と、前記撮影手段の近傍
に配置され、前記エリアセンサ上に結像するようにオブ
ジェクトの像を反射する反射手段と、前記反射手段によ
り反射されて前記エリアセンサ上に結像されたオブジェ
クト像、及び前記反射手段により反射されることなく前
記エリアセンサ上に結像されたオブジェクト像の各々の
該エリアセンサ上における2次元座標を取得し、該取得
した複数の2次元座標に基づいてオブジェクトの3次元
座標を演算することにより、オブジェクトの位置を認識
する画像認識手段と、予め定められた位置に配置され前
記オブジェクトが発する音を採取する複数のマイクロフ
ォンと、前記複数のマイクロフォンの各々により採取さ
れた採取音の時系列データのうち複数の採取音の時系列
データを選択し、選択した採取音の時系列データを、前
記画像認識手段により認識されたオブジェクトの位置及
び該選択した採取音を採取したマイクロフォンの位置に
基づいて、オブジェクトが発する音が同期するようにシ
フトし、シフトした採取音の時系列データを平均するこ
とにより、オブジェクトが発する音を抽出する抽出手段
と、を有することを特徴とする。
According to the fourteenth aspect of the present invention, the three-dimensional coordinates can be calculated back if the two-dimensional coordinates of the points on the area sensors of the plurality of photographing means are known. The two-dimensional coordinates imaged on the area sensor can be acquired, and the position (three-dimensional coordinates) of the object can be accurately recognized based on the acquired two-dimensional coordinates. Further, in order to achieve the second object, the invention according to claim 15 comprises a wide-angle fixed focus lens arranged at a predetermined position and an area sensor arranged at an image forming point by the lens, A photographing means for photographing an area including an object as a sound source, a reflecting means arranged in the vicinity of the photographing means for reflecting the image of the object so as to form an image on the area sensor, and a reflecting means for reflecting the image of the object. Two-dimensional coordinates of each of the object image formed on the area sensor and the object image formed on the area sensor without being reflected by the reflection unit are acquired, and the acquisition is performed. Image recognition means for recognizing the position of the object by calculating the three-dimensional coordinates of the object based on the plurality of two-dimensional coordinates. A plurality of microphones arranged at different positions for collecting sounds emitted by the object, and time series data of a plurality of collected sounds selected from time series data of the collected sounds collected by each of the plurality of microphones, and selected. Based on the position of the object recognized by the image recognition means and the position of the microphone collecting the selected sampling sound, the time-series data of the sampling sound is shifted so that the sound emitted by the object is synchronized, and the shifted sampling is performed. Extraction means for extracting the sound emitted by the object by averaging the time-series data of the sound.

【0062】この請求項15記載の発明では、撮影手段
が、予め定められた位置に配置された広角固定焦点レン
ズ及び該レンズによる結像点に配設されたエリアセンサ
を備えている。また、撮影手段により、オブジェクトを
含む領域が撮影される。
According to the fifteenth aspect of the present invention, the photographing means includes a wide-angle fixed focus lens arranged at a predetermined position and an area sensor arranged at an image forming point of the lens. Moreover, the area including the object is photographed by the photographing means.

【0063】反射手段は撮影手段の近傍に配置されてい
る。この反射手段は、例えば図24の(G)〜(L)に
示したように、壁に沿って配置したり、L字型でもよ
く、また、湾曲したものであってもよい。反射手段によ
りエリアセンサ上に結像するようにオブジェクトの像が
反射される。
The reflecting means is arranged near the photographing means. The reflecting means may be arranged along a wall, may be L-shaped, or may be curved, as shown in (G) to (L) of FIG. 24, for example. The image of the object is reflected by the reflecting means so as to form an image on the area sensor.

【0064】そして、画像認識手段は、反射手段により
反射されてエリアセンサ上に結像されたオブジェクト
像、及び反射手段により反射されることなくエリアセン
サ上に結像されたオブジェクト像の各々のエリアセンサ
上における2次元座標を取得する。このようにして、撮
影手段がたとえ1つであっても、その単一の撮影手段に
備えたエリアセンサに複数のオブジェクト像が結像さ
れ、複数の2次元座標が取得されることになる。従っ
て、上述した請求項14記載の発明と同様に、画像認識
手段は、取得した複数の2次元座標に基づいてオブジェ
クトの位置(3次元座標)を正確に認識することができ
る。
Then, the image recognizing means includes areas of the object image reflected on the area sensor by being reflected by the reflecting means and the object image formed on the area sensor without being reflected by the reflecting means. Obtain two-dimensional coordinates on the sensor. In this way, even if there is only one photographing means, a plurality of object images are formed on the area sensor provided in the single photographing means, and a plurality of two-dimensional coordinates are acquired. Therefore, similarly to the above-described fourteenth aspect of the invention, the image recognition means can accurately recognize the position (three-dimensional coordinate) of the object based on the acquired plurality of two-dimensional coordinates.

【0065】このように反射手段により、もう1つのオ
ブジェクト像をエリアセンサ上に結像させることができ
るので、撮影手段が1つであってもオブジェクトの3次
元座標を演算し、オブジェクトの位置を正確に認識する
ことができる。
As described above, since the reflecting means can form another object image on the area sensor, the three-dimensional coordinates of the object can be calculated and the position of the object can be calculated even if there is only one photographing means. Can be accurately recognized.

【0066】また、請求項15記載の発明では、上記の
ようにして画像認識手段によってオブジェクトの位置を
認識し、請求項1記載の発明と同様の要領で抽出手段に
よってオブジェクトが発する音を周囲の雑音と弁別して
抽出することができる。
In the fifteenth aspect of the invention, the position of the object is recognized by the image recognition means as described above, and the sound emitted by the object is detected by the extraction means in the same manner as in the first aspect of the invention. It can be extracted by discriminating it from noise.

【0067】また、第1及び第2の目的を達成するため
に、請求項16記載の発明は、請求項10乃至15の何
れか1項に記載の発明において、前記画像認識手段は、
オブジェクトを含む領域の画像情報より該オブジェクト
が音を発する方向も認識し、さらにオブジェクトの位置
及び該オブジェクトが音を発する方向に基づいて、オブ
ジェクトが発する音を良好に抽出可能な位置をオブジェ
クトの位置と改めて認識することを特徴とする。
In order to achieve the first and second objects, the invention according to claim 16 is the invention according to any one of claims 10 to 15, wherein the image recognition means is
The position in which the sound emitted by the object can be satisfactorily extracted is also determined based on the position of the object and the direction in which the object emits sound based on the image information of the area including the object. It is characterized by recognizing again.

【0068】この請求項16記載の発明では、前述した
請求項2記載の発明と同様に、オブジェクトの位置、即
ちオブジェクトが発する音を良好に抽出可能な位置に基
づいて、音の抽出を行うので、特にオブジェクトが発す
る音の指向性が強い場合やオブジェクトの音を発する部
分(面)が大きい場合等には、より高い精度の音の抽出
を行うことができる。
According to the sixteenth aspect of the invention, similarly to the second aspect of the invention, the sound is extracted based on the position of the object, that is, the position at which the sound emitted by the object can be favorably extracted. Particularly, when the directivity of the sound emitted by the object is strong, or when the part (face) of the object that emits the sound is large, the sound can be extracted with higher accuracy.

【0069】また、第1及び第2の目的を達成するため
に、請求項17記載の発明は、請求項10乃至15の何
れか1項に記載の発明において、オブジェクトが複数存
在する場合、前記撮影手段は複数のオブジェクトを含む
領域を撮影し、前記画像認識手段は撮影された領域の画
像情報より複数のオブジェクトの各々の位置を認識し、
前記抽出手段は該複数のオブジェクトの各々からの音を
抽出する、ことを特徴とする。
Further, in order to achieve the first and second objects, the invention according to claim 17 is the invention according to any one of claims 10 to 15 in which when a plurality of objects are present, The photographing means photographs an area including a plurality of objects, and the image recognition means recognizes each position of the plurality of objects from image information of the photographed area,
The extraction means extracts a sound from each of the plurality of objects.

【0070】この請求項17記載の発明では、オブジェ
クトが複数存在する場合、前述した請求項4記載の発明
と同様に、撮影手段は複数のオブジェクトを含む領域を
撮影し、画像認識手段は撮影された領域の画像情報より
複数のオブジェクトの各々の位置を認識する。そして、
抽出手段は画像認識手段により認識された複数のオブジ
ェクトの各々の位置に基づいて前述した請求項1記載の
発明と同様の要領で、複数のオブジェクトの各々からの
音を抽出する。これにより、複数のオブジェクトに対し
ても、該複数のオブジェクトの各々からの音を抽出する
ことができる。
According to the seventeenth aspect of the invention, when there are a plurality of objects, the photographing means photographs the area including the plurality of objects and the image recognition means photographs the same as in the fourth aspect of the invention. The position of each of the plurality of objects is recognized based on the image information of the region. And
The extracting means extracts the sound from each of the plurality of objects based on the position of each of the plurality of objects recognized by the image recognizing means in the same manner as the invention according to claim 1 described above. As a result, the sound from each of the plurality of objects can be extracted for the plurality of objects.

【0071】また、第1及び第2の目的を達成するため
に、請求項18記載の発明は、請求項10乃至15の何
れか1項に記載の発明において、前記オブジェクト及び
前記複数のマイクロフォンを含む領域において音速及び
音伝搬経路の少なくとも一方に影響を及ぼす要因とされ
る音響環境状態を検出する検出手段を更に備え、前記抽
出手段は、前記検出手段によって検出された音響環境状
態が変化した場合に、変化した音響環境状態に基づい
て、前記採取音の時系列データのシフトを補正すること
を特徴とする。
In order to achieve the first and second objects, the invention according to claim 18 is the invention according to any one of claims 10 to 15, wherein the object and the plurality of microphones are When the acoustic environment state detected by the detecting means is changed, the detecting means further includes a detecting means for detecting an acoustic environment state which is a factor affecting at least one of the sound velocity and the sound propagation path in the area including In addition, the shift of the time-series data of the collected sound is corrected based on the changed acoustic environment state.

【0072】この請求項18記載の発明では、抽出手段
が、検出手段によって検出された音響環境状態が変化し
た場合に、変化した音響環境の状態に基づいて、前述し
た請求項5記載の発明と同様に採取音の時系列データの
シフトを補正する。これにより、音響環境状態の変化に
応じて精度の高い音の抽出を行うことができる。
According to the eighteenth aspect of the present invention, when the extraction means changes the acoustic environment state detected by the detection means, the extraction means is based on the changed state of the acoustic environment. Similarly, the shift of the time series data of the collected sound is corrected. This makes it possible to extract sounds with high accuracy according to changes in the acoustic environment state.

【0073】また、第1及び第2の目的を達成するため
に、請求項19記載の発明は、請求項10乃至15の何
れか1項に記載の発明において、前記抽出手段は、高音
域の指向性に関する情報に基づき、高音域の採取音の時
系列データを重み付けして平均することを特徴とする。
In order to achieve the first and second objects, the invention according to claim 19 is the invention according to any one of claims 10 to 15, in which the extracting means is in the high range. It is characterized by weighting and averaging time-series data of collected sounds in the high frequency range based on information on directivity.

【0074】この請求項19記載の発明では、前述した
請求項6記載の発明と同様に、抽出手段は、高音域の指
向性に関する情報に基づき、オブジェクトが音を発する
方向に位置するマイクによる高音域の採取音と、他のマ
イクによる高音域の採取音と、の不均衡を是正すべく、
重み付けして平均する。これにより、高音域が低音域よ
りも相対的に弱くなることを防止することができる。
According to the nineteenth aspect of the present invention, as in the case of the above-described sixth aspect of the invention, the extracting means uses the microphones located in the direction in which the object emits sound based on the information on the directivity in the high frequency range. In order to correct the imbalance between the sampling sound of the range and the sampling sound of the high range by other microphones,
Weight and average. This makes it possible to prevent the high range from becoming relatively weaker than the low range.

【0075】また、第1及び第2の目的を達成するため
に、請求項20記載の発明は、請求項10乃至15の何
れか1項に記載の発明において、前記画像認識手段は、
オブジェクトを含む領域の画像情報より該オブジェクト
が音を発する方向、該オブジェクトの周辺に位置する音
の反射面の位置及び向きもさらに認識し、前記抽出手段
は、前記選択した採取音を採取したマイクロフォンの位
置、オブジェクトの位置、該オブジェクトが音を発する
方向、及び前記反射面の位置並びに向きに基づいて、前
記選択した採取音の時系列データを、オブジェクトから
の直接音又は前記反射面で反射された反射音の何れか一
方が同期するようにシフトすることを特徴とする。
In order to achieve the first and second objects, the invention according to claim 20 is the invention according to any one of claims 10 to 15, wherein the image recognition means is
From the image information of the area including the object, the direction in which the object emits sound, and the position and direction of the reflection surface of the sound located around the object are further recognized, and the extraction means collects the selected collected sound. Based on the position of the object, the position of the object, the direction in which the object emits sound, and the position and direction of the reflective surface, the time-series data of the selected sampled sound is reflected by the direct sound from the object or the reflective surface. One of the reflected sounds is shifted so as to be synchronized with each other.

【0076】この請求項20記載の発明では、前述した
請求項7記載の発明と同様に、例えば、反射面が、オブ
ジェクトから近い位置であり且つ該オブジェクトが音を
発する方向に位置しており、該反射面による反射音の進
行方向にマイクロフォンが位置している場合には、反射
面で反射された反射音の伝搬時間に応じた遅延操作を実
行する。このように、オブジェクトの周辺の反射面等の
配置状況に応じてより適切な音の抽出を行うことができ
る。
According to the twentieth aspect of the invention, similarly to the above-described seventh aspect of the invention, for example, the reflecting surface is located at a position close to the object, and the object is located in the direction in which sound is emitted. When the microphone is located in the traveling direction of the sound reflected by the reflecting surface, the delay operation is executed according to the propagation time of the sound reflected by the reflecting surface. In this way, more appropriate sound extraction can be performed according to the arrangement of the reflective surface around the object.

【0077】また、第1及び第2の目的を達成するため
に、請求項21記載の発明は、請求項10乃至15の何
れか1項に記載の発明において、前記抽出手段は、前記
複数のマイクロフォンの各々により採取された採取音の
時系列データのうち、前記オブジェクトの位置から所定
距離以上離れて位置するマイクロフォンによって採取さ
れた採取音の時系列データを、選択の対象から除外する
ことを特徴とする。
In order to achieve the first and second objects, the invention according to claim 21 is the invention according to any one of claims 10 to 15, wherein the extracting means is the plurality of Among the time-series data of the sound collected by each of the microphones, the time-series data of the sound collected by the microphone located at a predetermined distance or more from the position of the object is excluded from the selection target. And

【0078】この請求項21記載の発明では、前述した
請求項8記載の発明と同様に、抽出手段は、複数のマイ
クのうちオブジェクトの位置から遠いマイク、即ち予め
実験により求められた所定距離以上離れて位置するマイ
クによって取られた採取音を、選択の対象から除外す
る。これにより、音の抽出の精度を低下させることな
く、音の抽出に係る処理(抽出手段によるシフト及び平
均処理)の負荷を軽減することができる。
According to the twenty-first aspect of the invention, as in the case of the eighth aspect of the invention described above, the extracting means is a microphone far from the position of the object among the plurality of microphones, that is, a predetermined distance or more previously obtained by an experiment. Collected sounds taken by remotely located microphones are excluded from selection. As a result, it is possible to reduce the load of processing related to sound extraction (shifting and averaging processing by the extraction unit) without degrading the accuracy of sound extraction.

【0079】また、第1及び第2の目的を達成するため
に、請求項22記載の発明は、請求項10乃至15の何
れか1項に記載の発明において、前記抽出手段により抽
出されたオブジェクトが発する音を所定の音声認識装置
へ出力する出力手段を更に備えたことを特徴とする。
Further, in order to achieve the first and second objects, the invention according to claim 22 is the object according to any one of claims 10 to 15, wherein the object extracted by the extracting means. It is characterized by further comprising output means for outputting the sound emitted by the device to a predetermined voice recognition device.

【0080】この請求項22記載の発明では、前述した
請求項9記載の発明と同様に、出力手段が抽出手段によ
り抽出されたオブジェクトの音を所定の音声認識装置へ
出力する。これにより、音抽出装置により音の抽出が可
能な領域内にいる人(一人又は複数人)が発した声を音
声認識装置へ入力することができる。
According to the twenty-second aspect of the invention, the output means outputs the sound of the object extracted by the extraction means to a predetermined voice recognition device, as in the case of the ninth aspect of the invention. Accordingly, it is possible to input the voice uttered by a person (one or more people) in the area where the sound can be extracted by the sound extraction device to the voice recognition device.

【0081】[0081]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

〔第1の実施形態〕以下、図面を参照して本発明の第1
の実施形態を説明する。本第1の実施形態では、図2に
示す所定の部屋50の中にいる対象人物Aの声のみを抽
出する例を示す。
[First Embodiment] Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
Will be described. The first embodiment shows an example in which only the voice of the target person A in the predetermined room 50 shown in FIG. 2 is extracted.

【0082】図2及び図3に示すように、第1の実施形
態に係る音抽出装置10は、部屋50の天井52の所定
位置に配置された複数のテレビカメラ16と、各テレビ
カメラ16に接続され該テレビカメラ16により撮影さ
れた画像情報に基づいて音の抽出位置を設定する抽出位
置演算プロセッサ14と、天井52に略等間隔にマトリ
ックス状に配置された複数(n個、図2には8×8個の
例を示す)のマイク22を含むマイクロフォンアレイ部
18と、各マイク22に接続され該マイク22により集
音された音から対象人物の声を抽出する音声抽出ボード
12と、抽出された音を出力するための出力端子ボード
20と、を備えている。
As shown in FIGS. 2 and 3, the sound extraction device 10 according to the first embodiment includes a plurality of television cameras 16 arranged at predetermined positions on the ceiling 52 of the room 50 and the television cameras 16. The extraction position arithmetic processor 14 that is connected and sets the extraction position of the sound based on the image information captured by the television camera 16, and a plurality of (n in FIG. 2) arranged in a matrix at substantially equal intervals on the ceiling 52. Is an example of 8 × 8 microphones), a microphone array unit 18 including microphones 22, a voice extraction board 12 that is connected to each microphone 22 and extracts a voice of a target person from sounds collected by the microphones 22, And an output terminal board 20 for outputting the extracted sound.

【0083】各マイク22は、集音部24と、該集音部
24に接続され音声信号のノイズカット及び増幅を行う
アンプフィルタ26と、該アンプフィルタ26に接続さ
れアナログ信号のデジタル信号への変換を行うA/Dコ
ンバータ28と、を含んで構成されている。また、抽出
位置演算プロセッサ14は、CPU14Aと、ROM1
4Bと、作業用記憶域として主に用いられるRAM14
Cと、入出力コントローラ(以後、I/Oと称す)14
Dと、を含んで構成されており、これらのCPU14
A、ROM14B、RAM14C及びI/O14Dは互
いにバス14Eによって接続されている。
Each microphone 22 is connected to the sound collecting section 24, an amplifier filter 26 connected to the sound collecting section 24 for performing noise cutting and amplification of a voice signal, and connected to the amplifier filter 26 to convert an analog signal into a digital signal. And an A / D converter 28 for performing conversion. The extraction position calculation processor 14 includes a CPU 14A and a ROM 1
4B and RAM 14 mainly used as a working storage area
C and input / output controller (hereinafter referred to as I / O) 14
D and D, and these CPU 14
A, ROM 14B, RAM 14C and I / O 14D are connected to each other by a bus 14E.

【0084】また、音声抽出ボード12には、デジタル
回線30を介して各マイク22と一対一の対応で接続さ
れ該マイク22から送信されてきた音声データを一時記
憶するためのn個の入力バッファメモリi(i:1、2
・・・n)から構成された入力バッファメモリ群32
と、各入力バッファメモリiに接続され音声抽出ボード
12全体の制御等を行うプロセッサ34と、プロセッサ
34に各々接続されプロセッサ34から出力された各マ
イク22に対応する音声データを一時記憶するためのn
個の出力バッファメモリi(i:1、2・・・n)から
構成された出力バッファメモリ群44と、各出力バッフ
ァメモリiに接続され各出力バッファメモリiから出力
された各マイク22に対応する音声データを加算するた
めの加算器46と、加算器46に接続されデジタル信号
のアナログ信号への変換を行うD/Aコンバータ48
と、が設けられている。なお、プロセッサ34は、上記
抽出位置演算プロセッサ14と同様に、CPU38、R
OM40、RAM42及びI/O36を含んで構成され
ており、これらは互いにバス37によって接続されてい
る。I/O36には上記の各入力バッファメモリi、各
出力バッファメモリi及び抽出位置演算プロセッサ14
が接続されている。また、プロセッサ34は、音抽出装
置10における各構成機器の動作の同期を取るための制
御信号等を各構成機器に送信するために、各構成機器、
即ち各マイク22、入力バッファメモリ群32、出力バ
ッファメモリ群44、加算器46、及びD/Aコンバー
タ48、の各々と制御信号線43を介して接続されてい
る。なお、上記ROM40には、後述する音声抽出処理
の制御プログラム、上記マイク22の各々の配置位置に
関する位置情報、後述する遅延テーブル等が予め記憶さ
れている。
The sound extraction board 12 is connected to the microphones 22 in a one-to-one correspondence with each other via the digital line 30, and n input buffers for temporarily storing the sound data transmitted from the microphones 22. Memory i (i: 1, 2
... Input buffer memory group 32 composed of n)
A processor 34 connected to each input buffer memory i for controlling the entire voice extraction board 12 and the like, and for temporarily storing voice data corresponding to each microphone 22 connected to each processor 34 and output from the processor 34. n
It corresponds to the output buffer memory group 44 composed of one output buffer memory i (i: 1, 2, ... N), and each microphone 22 connected to each output buffer memory i and output from each output buffer memory i. Adder 46 for adding the audio data to be reproduced, and a D / A converter 48 connected to the adder 46 for converting a digital signal into an analog signal
And are provided. The processor 34 is similar to the extraction position calculation processor 14 in that the CPU 38, R
It is configured to include an OM 40, a RAM 42 and an I / O 36, which are connected to each other by a bus 37. The I / O 36 includes the input buffer memories i, the output buffer memories i, and the extraction position calculation processor 14 described above.
Is connected. In addition, the processor 34 transmits the control signals and the like for synchronizing the operation of each component in the sound extraction device 10 to each component,
That is, each microphone 22, the input buffer memory group 32, the output buffer memory group 44, the adder 46, and the D / A converter 48 are connected to each other via the control signal line 43. The ROM 40 stores in advance a control program for voice extraction processing, which will be described later, position information regarding the respective positions where the microphones 22 are arranged, a delay table which will be described later, and the like.

【0085】また、出力端子ボード20は音声出力端子
21を備えており、該音声出力端子21は音声抽出ボー
ド12のD/Aコンバータ48に接続されている。
The output terminal board 20 is also provided with an audio output terminal 21, and the audio output terminal 21 is connected to the D / A converter 48 of the audio extraction board 12.

【0086】なお、抽出位置演算プロセッサ14に内蔵
されたROM14Bには、上記テレビカメラ16の各々
の配置位置を表す位置情報や後述する抽出位置演算処理
の制御プログラム等が予め記憶されている。
The ROM 14B built in the extraction position calculation processor 14 stores in advance the position information indicating the respective arrangement positions of the television camera 16 and a control program for the extraction position calculation process described later.

【0087】次に、本第1の実施形態の作用を説明す
る。音抽出装置10の図示しないスタートボタンがオペ
レータによりオンされると、図4に示す抽出位置演算処
理の制御ルーチンが抽出位置演算プロセッサ14のCP
U14Aにより、図5に示す音声抽出処理の制御ルーチ
ンが音声抽出ボード12のCPU38により、それぞれ
実行される。なお、これらの制御ルーチンは何れも所定
時間間隔で繰り返し実行される。
Next, the operation of the first embodiment will be described. When the start button (not shown) of the sound extraction device 10 is turned on by the operator, the control routine of the extraction position calculation processing shown in FIG.
U14A causes the CPU 38 of the voice extraction board 12 to execute the control routine of the voice extraction process shown in FIG. Note that all of these control routines are repeatedly executed at predetermined time intervals.

【0088】まず、図4に示す抽出位置演算処理の制御
ルーチンから説明する。ステップ102では、各テレビ
カメラ16からの撮影情報を取り込む。次のステップ1
04では取り込んだ撮影情報より対象人物A(図2参
照)の頭部Pの位置を演算する。なお、この時の位置と
しては、一例として図2に示すように部屋50を矢印X
方向、矢印Y方向、矢印Z方向の各々に沿って仮想的に
等分割することにより得られる多数の直方体状の領域の
うち何れの領域内に対象人物Aが位置するかを表す情報
を用いることができる。図2では部屋50を各方向に1
6等分した場合を例として示している。即ちステップ1
04では、撮影画像から、表面の多くが毛髪で覆われて
おり黒色部分が多い略球状である等のように人間の頭部
に特有の特徴量を備えた領域を、対象人物Aの頭部Pに
相当する領域として抽出し、抽出した領域の撮影画像上
における位置に基づいて上述した仮想的な3次元座標上
における頭部Pの位置を演算する。
First, the control routine of the extraction position calculation processing shown in FIG. 4 will be described. In step 102, shooting information from each TV camera 16 is fetched. Next Step 1
In 04, the position of the head P of the target person A (see FIG. 2) is calculated from the captured photographing information. In addition, as a position at this time, as shown in FIG.
Direction, arrow Y direction, arrow Z direction using information indicating in which region of the target person A is located among a large number of rectangular parallelepiped-shaped regions obtained by equally dividing You can In Figure 2, room 50 is 1 in each direction
The case of dividing into 6 equal parts is shown as an example. That is, step 1
In 04, from the photographed image, a region having a characteristic amount peculiar to the human head, such as a substantially spherical shape with many surfaces covered with hair and a black portion, is identified as the head of the target person A. It is extracted as a region corresponding to P, and the position of the head P on the virtual three-dimensional coordinates described above is calculated based on the position of the extracted region on the captured image.

【0089】また、ステップ104では対象人物Aの頭
部Pの向きの推定も行う。即ち、まず図2に示す頭部P
の下に位置する胴体Sを認識し、その胴体Sにおいて胸
幅L2は肩幅L1よりも小さいという一般的な特徴に基
づいて、胸幅L2及び肩幅L1の大きさから対象人物A
が矢印V方向又はその逆方向を向いていると推定する。
次に、頭部Pの表面における毛髪の占める比率は顔の位
置する側よりも顔の位置しない側の方が高いという一般
的特徴に基づいて、図2において紙面奥側の方が紙面手
前側よりも黒色の度合いが高いことから、対象人物Aは
矢印V方向を向いていると推定する。
In step 104, the orientation of the head P of the target person A is also estimated. That is, first, the head P shown in FIG.
Recognizing the torso S located below the human body S, and based on the general feature that the chest width L2 is smaller than the shoulder width L1 in the torso S, the target person A is determined from the chest width L2 and the shoulder width L1.
Is in the direction of arrow V or the opposite direction.
Next, based on the general characteristic that the proportion of hair on the surface of the head P is higher on the side where the face is not located than on the side where the face is located, the back side of the paper in FIG. 2 is the front side of the paper. Since the degree of black is higher than that of the target person A, it is estimated that the target person A faces the arrow V direction.

【0090】次のステップ106では、ステップ104
で求めた頭部Pの位置から矢印V方向に所定距離(例え
ば約30センチメートル)離間した位置を、対象人物A
に対する抽出位置として設定する。そして次のステップ
108で、設定した抽出位置の位置情報を音声抽出ボー
ド12へ送信する。
In the next step 106, step 104
The position separated by a predetermined distance (for example, about 30 cm) in the direction of arrow V from the position of the head P obtained in
Set as the extraction position for. Then, in the next step 108, the position information of the set extraction position is transmitted to the voice extraction board 12.

【0091】次に図5に示す、音声抽出ボード12に備
えられたプロセッサ34のCPU38により実行される
音声抽出処理の制御ルーチンを説明する。ステップ20
0では、上記のステップ108で抽出位置演算プロセッ
サ14から送信された抽出位置の情報を受信したか否か
を判定する。抽出位置の情報を受信していない場合は制
御ルーチンを終了し、抽出位置の情報を受信した場合は
ステップ202へ進む。ステップ202では、ROM4
0から取り出した各マイク22の設置位置情報と受信し
た抽出位置情報とに基づいて、抽出位置から所定距離以
上離れた位置に設置されたマイク22を除外することに
より抽出位置の音の抽出に適したマイク22を選択す
る。
Next, the control routine of the voice extraction processing executed by the CPU 38 of the processor 34 provided in the voice extraction board 12 shown in FIG. 5 will be described. Step 20
At 0, it is judged whether or not the information on the extraction position transmitted from the extraction position calculation processor 14 in the above step 108 is received. If the extraction position information has not been received, the control routine is ended, and if the extraction position information has been received, the routine proceeds to step 202. In step 202, ROM4
Suitable for extracting the sound at the extraction position by excluding the microphones 22 installed at a position more than a predetermined distance from the extraction position based on the installation position information of each microphone 22 extracted from 0 and the received extraction position information Select the microphone 22

【0092】一方、対象人物Aから発せられた音は、ま
ずマイク22の集音部24により捉えられ、さらにアン
プフィルタ26によりノイズがカットされると共に所定
増幅率で増幅されて図1(A)に示すような音声信号と
なる。そしてそれらの音声信号はA/Dコンバータ28
によりデジタル化された音声データに変換される。
On the other hand, the sound emitted from the target person A is first captured by the sound collecting section 24 of the microphone 22, and further, the noise is cut by the amplifier filter 26 and is amplified by a predetermined amplification factor, and then the sound is amplified by a predetermined amplification factor as shown in FIG. The audio signal is as shown in. Then, those audio signals are sent to the A / D converter 28.
Is converted into digitized voice data by.

【0093】そして、音声抽出処理のステップ203に
おいて、ステップ202で選択したマイク22の各々か
らデジタル回線30を介して、上記のようにして集音さ
れ変換された音声データを取り込み、該音声データを各
マイク22に対応した入力バッファメモリiへ書き込
む。即ち、図1(A)に示すような音声信号に対応する
音声データが入力バッファメモリiへ書き込まれる。こ
の際、入力バッファメモリiの所定の基準アドレスから
順に書き込まれる。そして次に音声抽出処理ルーチンを
実行する時には、前記基準アドレスから所定アドレスだ
けずらした新たな基準アドレスを設定し、該新たな基準
アドレスから順に書き込まれる。そして入力バッファメ
モリiへの書き込みが3回終了したときには、次の4回
目には新たな基準アドレスを入力バッファメモリiの先
頭アドレスへ戻し、先頭アドレスから順に音声データが
書き込まれる。このように入力バッファメモリiは所謂
リングバッファとして使用される。
Then, in step 203 of the voice extraction processing, the voice data collected and converted as described above is taken in from each of the microphones 22 selected in step 202 via the digital line 30, and the voice data is collected. Write to the input buffer memory i corresponding to each microphone 22. That is, the audio data corresponding to the audio signal as shown in FIG. 1A is written in the input buffer memory i. At this time, data is sequentially written from a predetermined reference address of the input buffer memory i. Then, when the voice extraction processing routine is executed next time, a new reference address which is shifted from the reference address by a predetermined address is set, and the new reference address is written in order. When the writing to the input buffer memory i is completed three times, a new reference address is returned to the head address of the input buffer memory i at the next fourth time, and the audio data is written in order from the head address. Thus, the input buffer memory i is used as a so-called ring buffer.

【0094】次のステップ212では、選択したマイク
22のうちの1つのマイク22の位置と抽出位置との距
離に対応する遅延時間を、ROM40に予め記憶された
遅延テーブルから取り込む。なお、遅延テーブルは、部
屋50の範囲内で変動しうる抽出位置の個々の抽出位置
について、該抽出位置と各マイク22との距離を標準室
温における音速で除算することにより予め求められた音
の伝搬時間(遅延時間)を記録したテーブルであり、部
屋50の範囲内で変動しうる抽出位置の候補数だけ予め
準備されている。
In the next step 212, the delay time corresponding to the distance between the position of one microphone 22 of the selected microphones 22 and the extraction position is fetched from the delay table stored in advance in the ROM 40. It should be noted that the delay table indicates that for each extraction position of the extraction positions that can fluctuate within the room 50, the distance between the extraction position and each microphone 22 is divided by the sound velocity at the standard room temperature to obtain the sound It is a table in which the propagation time (delay time) is recorded, and is prepared in advance by the number of extraction position candidates that can vary within the range of the room 50.

【0095】次のステップ214では、当該1つのマイ
ク22からの音声データを、前記所定の基準アドレス
(即ち入力バッファメモリiへの書き込み開始アドレ
ス)から遅延時間に対応するメモリアドレスだけずらし
たアドレスを取り出しの先頭として、入力バッファメモ
リiから取り出す。これにより、対象人物Aが発した音
が当該1つのマイク22に到達する前に入力バッファメ
モリiに書き込まれた音声データが切捨てられ、対象人
物Aが発し当該1つのマイク22に到達した音が取り出
されることになる。
In the next step 214, an address obtained by shifting the audio data from the one microphone 22 by the memory address corresponding to the delay time from the predetermined reference address (that is, the write start address to the input buffer memory i) is obtained. As the beginning of the extraction, it is extracted from the input buffer memory i. As a result, the sound data written in the input buffer memory i before the sound emitted by the target person A reaches the one microphone 22 is cut off, and the sound emitted by the target person A and reaching the one microphone 22 is cut off. Will be taken out.

【0096】そして次のステップ216では、取り出し
た音声データを、該1つのマイク22に対応する出力バ
ッファメモリiへ書き込む。即ち、図1(B)に示すよ
うな音声信号に対応する音声データが出力バッファメモ
リiへ書き込まれる。なお、出力バッファメモリiも上
記の入力バッファメモリiと同様に所謂リングバッファ
として使用される。
Then, in the next step 216, the extracted voice data is written in the output buffer memory i corresponding to the one microphone 22. That is, the audio data corresponding to the audio signal as shown in FIG. 1B is written in the output buffer memory i. The output buffer memory i is also used as a so-called ring buffer, like the input buffer memory i.

【0097】そして、上記のステップ212、214、
216は、選択したマイクの全てに対して実行される。
ステップ212、214、216の処理が、選択したマ
イクの全てに対して実行されると、ステップ218で肯
定され、ステップ220へ進み選択したマイクの各々に
対応する音声データを加算器46により加算処理させ
る。
Then, the above steps 212, 214,
216 is executed for all the selected microphones.
When the processes of steps 212, 214, and 216 have been executed for all the selected microphones, the determination at step 218 is affirmative, and the process proceeds to step 220, where the adder 46 adds the audio data corresponding to each of the selected microphones. Let

【0098】次のステップ222では、加算された音声
データをINT(log2 M)の桁数だけ小数点位置を
上位にずらしてD/Aコンバータ48へ出力する。これ
により、加算された音声データをマイク数Mで除算した
場合と略同様の結果を得ることができる。なお、ここで
は上記以外に、加算器46の演算結果をプロセッサ34
で取り込み通常の除算を行っても良い。
In the next step 222, the added voice data is output to the D / A converter 48 by shifting the decimal point position to the upper position by the number of digits of INT (log 2 M). As a result, it is possible to obtain substantially the same result as when the added voice data is divided by the number M of microphones. Here, in addition to the above, the calculation result of the adder 46 is stored in the processor 34.
You can take in and perform normal division.

【0099】その後加算器46から出力された音声デー
タは、D/Aコンバータ48により図1(C)に示すよ
うなアナログの音声信号に変換され、変換された音声信
号は出力端子ボード20の音声出力端子21へ送出され
る。なお、この音声出力端子21には、音声再生装置等
を接続することにより、抽出された対象人物Aの声を再
生し聞くことができる。
Thereafter, the voice data output from the adder 46 is converted into an analog voice signal as shown in FIG. 1C by the D / A converter 48, and the converted voice signal is output from the output terminal board 20. It is sent to the output terminal 21. By connecting an audio reproducing device or the like to the audio output terminal 21, the extracted voice of the target person A can be reproduced and heard.

【0100】以上の説明から明らかなように、複数の
(図1の例では7個の)マイク22により集音された音
に対し上記のような遅延操作及び加算平均を行うことに
より、目的とする対象人物Aの声以外の雑音成分はその
振幅が極めて小さくなってしまうため、対象人物Aの声
のみを抽出することができる。
As is clear from the above description, the delay operation and the addition averaging as described above are performed on the sounds collected by a plurality of (7 in the example of FIG. 1) microphones 22 to achieve the purpose. Since the noise components other than the voice of the target person A are extremely small in amplitude, only the voice of the target person A can be extracted.

【0101】また、上記の抽出位置演算処理(図4)及
び音声抽出処理(図5)は、所定時間間隔で繰り返し実
行される。これにより、対象人物Aが移動した場合、複
数のテレビカメラ16により部屋50の内部が継続して
撮影され、その画像情報に基づいて上記対象人物Aの移
動に伴い変化する頭部Pの位置及び向きが求められ、そ
の時点の頭部Pの位置及び向きに応じた抽出位置が設定
される。そして音声抽出ボード12で、その抽出位置に
応じて上記の音声抽出処理を行うことにより、対象人物
Aが移動した場合でも、その声を抽出することができ
る。
The extraction position calculation process (FIG. 4) and the voice extraction process (FIG. 5) described above are repeatedly executed at predetermined time intervals. Accordingly, when the target person A moves, the inside of the room 50 is continuously photographed by the plurality of TV cameras 16, and the position of the head P that changes with the movement of the target person A based on the image information and The orientation is obtained, and the extraction position corresponding to the position and orientation of the head P at that time is set. Then, by performing the above-described voice extraction processing on the voice extraction board 12 according to the extraction position, even if the target person A moves, that voice can be extracted.

【0102】なお、本第1の実施形態の音声抽出処理で
は、設定された抽出位置に近いマイク(例えば7個のマ
イク)を選択し、選択したマイクからの音声データのみ
を取り込み、入力バッファメモリへ書き込む例を示した
が、一旦全ての(n個の)マイクからの音声データを取
り込んで各入力バッファメモリへ書き込み、選択したマ
イク(例えば7個のマイク)からの音声データのみを、
遅延時間に対応するメモリアドレスだけずらして入力バ
ッファメモリから取り出すようにしても良い。
In the voice extraction processing of the first embodiment, the microphones close to the set extraction position (for example, 7 microphones) are selected, only the voice data from the selected microphones are fetched, and the input buffer memory is used. Although the example of writing the audio data from all (n) microphones is once taken and written to each input buffer memory, only the audio data from the selected microphones (for example, 7 microphones) is written.
It is also possible to shift the memory address corresponding to the delay time and fetch it from the input buffer memory.

【0103】また、本発明の音声抽出処理では、抽出位
置の近くに配置された多数のマイクで対象人物(又は対
象物)の音を集音し、集音された音声信号を前述したよ
うに遅延操作及び加算平均を行うことにより、信号対雑
音比の改善された音の抽出を行うことができる。しかも
通常のマイクで集音した音よりも信号対雑音比が高い音
を抽出することも可能である。このように良質な音は、
音声認識装置への入力として活用することができる。即
ち、音抽出装置で音の抽出が可能な領域内にいる人(一
人又は複数人)が話した声を音声認識装置へ入力するこ
とができる。
Further, in the voice extraction processing of the present invention, the sound of the target person (or the target object) is collected by a large number of microphones arranged near the extraction position, and the collected voice signal is processed as described above. By performing the delay operation and the averaging, it is possible to extract the sound with the improved signal-to-noise ratio. Moreover, it is also possible to extract a sound having a higher signal-to-noise ratio than the sound collected by a normal microphone. Such a good sound,
It can be used as an input to a voice recognition device. That is, it is possible to input to the voice recognition device the voice spoken by a person (one or more people) in the area where the sound can be extracted by the sound extraction device.

【0104】〔第2の実施形態〕次に、本発明の第2の
実施形態を説明する。本第2の実施形態では、図2に示
す所定の部屋50の中にいる対象人物Aの声と対象人物
Bの声とを別々に抽出する例を示す。なお、第1の実施
形態と同一の部分には同一の符号を付し、説明を省略す
る。
[Second Embodiment] Next, a second embodiment of the present invention will be described. The second embodiment shows an example in which the voice of the target person A and the voice of the target person B in the predetermined room 50 shown in FIG. 2 are separately extracted. The same parts as those in the first embodiment are designated by the same reference numerals and the description thereof will be omitted.

【0105】図6に示すように、本第2の実施形態にお
ける音抽出装置10には、第1の実施形態で説明した音
声抽出ボード12が複数個(N個)備えられており、さ
らに各マイク22と各音声抽出ボード12とを接続する
ための音声データ中継ボード56が設置されている。ま
た、抽出位置演算プロセッサ14は各音声抽出ボード1
2に備えられたプロセッサ34に接続されている。さら
に、出力端子ボード20には各音声抽出ボード12に対
応する音声出力端子21が設置されており、各音声出力
端子21は対応する音声抽出ボード12のD/Aコンバ
ータ48に接続されている。
As shown in FIG. 6, the sound extraction device 10 according to the second embodiment is provided with a plurality (N) of the sound extraction boards 12 described in the first embodiment. A voice data relay board 56 for connecting the microphone 22 and each voice extraction board 12 is installed. In addition, the extraction position calculation processor 14 uses the sound extraction boards 1
2 is connected to the processor 34. Further, the output terminal board 20 is provided with a sound output terminal 21 corresponding to each sound extraction board 12, and each sound output terminal 21 is connected to the D / A converter 48 of the corresponding sound extraction board 12.

【0106】次に本第2の実施形態の作用を説明する。
音抽出装置10の図示しないスタートボタンがオペレー
タによりオンされると、図7に示す複数の抽出位置を対
象とした抽出位置演算処理の制御ルーチンが抽出位置演
算プロセッサ14のCPU14Aにより、図5に示す上
記第1の実施形態と同じ音声抽出処理の制御ルーチンが
2枚の音声抽出ボード12の各々のCPU38により、
それぞれ実行される。
Next, the operation of the second embodiment will be described.
When the start button (not shown) of the sound extraction device 10 is turned on by the operator, the control routine of the extraction position calculation processing shown in FIG. 7 for the plurality of extraction positions is shown by the CPU 14A of the extraction position calculation processor 14 in FIG. The same control routine of the voice extraction processing as that of the first embodiment is executed by each CPU 38 of the two voice extraction boards 12.
Executed respectively.

【0107】図7に示す抽出位置演算処理の制御ルーチ
ンから説明する。なお、以下の説明では、対象人物A、
Bをそれぞれ対象人物1、2と便宜上称する。ステップ
102で各テレビカメラ16からの撮影情報を取り込
み、次のステップ103では対象人物の数として「2」
を変数Kに代入すると共に変数Lを「1」に初期設定す
る。
The control routine of the extraction position calculation processing shown in FIG. 7 will be described. In the following description, the target person A,
For the sake of convenience, B is referred to as target persons 1 and 2, respectively. In step 102, the shooting information from each TV camera 16 is fetched, and in the next step 103, the number of target persons is “2”.
Is substituted into the variable K and the variable L is initialized to "1".

【0108】次のステップ105では、対象人物L(即
ち対象人物1)の頭部の位置の演算と向きの推定を上記
第1の実施形態と同じ要領で行い、次のステップ107
では当該対象人物Lの声を抽出するための抽出位置L
(即ち抽出位置1)を設定する。そして、次のステップ
109でその抽出位置Lの情報を、対応する音声抽出ボ
ードLへ送信する。
In the next step 105, the calculation of the position of the head of the target person L (that is, the target person 1) and the estimation of the direction are performed in the same manner as in the first embodiment, and the next step 107
Then, the extraction position L for extracting the voice of the target person L
(Namely, extraction position 1) is set. Then, in the next step 109, the information of the extraction position L is transmitted to the corresponding voice extraction board L.

【0109】次のステップ110では変数Lが対象人物
の数を示す変数Kに等しいか否かを判定することによ
り、全ての対象人物に対して上記ステップ105、10
7、109の処理が完了したか否かを判定する。この場
合初めは否定され、ステップ112へ進み、変数Lを増
分1だけインクリメントする。これにより変数Lの値は
「2」となる。
In the next step 110, it is judged whether or not the variable L is equal to the variable K indicating the number of target persons.
It is determined whether or not the processes of 7 and 109 are completed. In this case, it is initially denied, and the routine proceeds to step 112, where the variable L is incremented by one. As a result, the value of the variable L becomes "2".

【0110】その後ステップ105へ戻り対象人物L
(即ち対象人物2)に対して、上記のステップ105、
107、109の処理を行う。それらの処理が完了する
と、ステップ110では、変数Lと変数Kとが等しいた
め肯定され、制御ルーチンを終了する。
Thereafter, the process returns to step 105 and the target person L
(That is, the target person 2), the above step 105,
The processing of 107 and 109 is performed. When these processes are completed, in step 110, the variable L and the variable K are equal and the determination is affirmative, and the control routine ends.

【0111】対象人物1、2にそれぞれ対応する音声抽
出ボード12では、上記ステップ109により抽出位置
演算プロセッサ14から送信された抽出位置1又は抽出
位置2の情報をそれぞれ受信し、該受信した情報に基づ
いて、第1の実施形態と同じ図5に示す音声抽出処理を
実行する。説明は省略するが、対象人物1、2にそれぞ
れ対応する各音声抽出ボード12での音声抽出処理によ
り、対象人物1、2の声をそれぞれ独立に抽出すること
ができる。
The voice extraction boards 12 corresponding to the target persons 1 and 2 respectively receive the information of the extraction position 1 or the extraction position 2 transmitted from the extraction position calculation processor 14 in the above step 109, and use the received information as the received information. Based on this, the voice extraction processing shown in FIG. 5, which is the same as in the first embodiment, is executed. Although description is omitted, the voices of the target persons 1 and 2 can be independently extracted by the voice extraction processing in the voice extraction boards 12 corresponding to the target persons 1 and 2, respectively.

【0112】なお、本第2の実施形態では、複数の音声
抽出ボード12を備え、各音声抽出ボード12で1つの
抽出位置から音を抽出する例を示したが、音声抽出の即
時性があまり高く要求されない場合等には、単一の音声
抽出ボード12において複数の抽出位置の各々に対する
音声抽出処理を順次実行するようにしても良い。
In the second embodiment, an example in which a plurality of voice extraction boards 12 are provided and sound is extracted from one extraction position by each voice extraction board 12 is shown, but the immediacy of voice extraction is not so great. When the demand is not high, the voice extraction processing may be sequentially executed on each of the plurality of extraction positions on the single voice extraction board 12.

【0113】〔第3の実施形態〕次に、本発明の第3の
実施形態を説明する。本第3の実施形態では、図2に示
す部屋50内の温度変化による影響を考慮して該部屋5
0の中にいる対象人物Aの声のみを抽出する例を示す。
なお、第1の実施形態と同一の部分には同一の符号を付
し、説明を省略する。
[Third Embodiment] Next, a third embodiment of the present invention will be described. In the third embodiment, the room 5 is considered in consideration of the influence of the temperature change in the room 50 shown in FIG.
An example of extracting only the voice of the target person A in 0 will be shown.
The same parts as those in the first embodiment are designated by the same reference numerals and the description thereof will be omitted.

【0114】図8に示すように、本第3の実施形態にお
ける音抽出装置10は、複数の温度センサ58を備えて
おり、該温度センサ58は部屋50内の複数の温度測定
地点に1台ずつ設置されている。各温度センサ58はプ
ロセッサ34内のI/O36に接続されている。また、
プロセッサ34内のROM40には、温度センサ58に
より測定された部屋50の複数の温度測定地点の温度に
基づいて、部屋50内の温度分布を推定するための温度
分布情報が予め記憶されている。
As shown in FIG. 8, the sound extraction device 10 according to the third embodiment includes a plurality of temperature sensors 58, and one temperature sensor 58 is provided at each of a plurality of temperature measurement points in the room 50. Are installed one by one. Each temperature sensor 58 is connected to the I / O 36 in the processor 34. Also,
The ROM 40 in the processor 34 stores in advance temperature distribution information for estimating the temperature distribution in the room 50 based on the temperatures at the plurality of temperature measurement points in the room 50 measured by the temperature sensor 58.

【0115】次に本第3の実施形態の作用を説明する。
音抽出装置10の図示しないスタートボタンがオペレー
タによりオンされると、図4に示す上記第1の実施形態
と同じ抽出位置演算処理の制御ルーチンが抽出位置演算
プロセッサ14のCPU14Aにより、図9に示す音声
抽出処理の制御ルーチンが音声抽出ボード12のCPU
38により、それぞれ実行される。以下では、抽出位置
演算処理の説明は省略し、図9を用いて本第3の実施形
態における音声抽出処理について説明する。
Next, the operation of the third embodiment will be described.
When the start button (not shown) of the sound extraction device 10 is turned on by the operator, the same control routine of the extraction position calculation processing as that of the first embodiment shown in FIG. 4 is shown in FIG. 9 by the CPU 14A of the extraction position calculation processor 14. The control routine of the voice extraction processing is the CPU of the voice extraction board 12.
38, respectively. Hereinafter, the description of the extraction position calculation process will be omitted, and the voice extraction process in the third embodiment will be described with reference to FIG. 9.

【0116】ステップ203では、選択したマイク22
の各々について、該マイク22からの音声データの取り
込みと、取り込んだ音声データの入力バッファメモリi
への書き込みと、を実行し、次のステップ204では選
択したマイク22のうちの1つのマイク22に対して、
該マイク22と抽出位置との距離を算出する。
At step 203, the selected microphone 22
For each of the above, the voice data is captured from the microphone 22, and the input buffer memory i of the captured voice data is input.
And write to, and in the next step 204, for one microphone 22 of the selected microphones 22,
The distance between the microphone 22 and the extraction position is calculated.

【0117】次のステップ205で複数の温度センサ5
8の各々から部屋50の所定の温度測定地点における温
度を取り込み、次のステップ206では、取り込んだ複
数の温度測定地点の温度に基づき、ROM40に記憶さ
れた上記の温度分布情報を参照することによって、部屋
50内の温度分布を推定し、抽出位置から発せられた音
が該マイク22に到達するまでの音伝搬経路上の平均温
度を算出する。
In the next step 205, a plurality of temperature sensors 5
The temperature at a predetermined temperature measurement point of the room 50 is fetched from each of the eight, and in the next step 206, the temperature distribution information stored in the ROM 40 is referred to based on the fetched temperatures of the plurality of temperature measurement points. The temperature distribution in the room 50 is estimated, and the average temperature on the sound propagation path until the sound emitted from the extraction position reaches the microphone 22 is calculated.

【0118】次のステップ207で音伝搬経路上の平均
温度に基づいて該音伝搬経路上の音速を算出し、次のス
テップ208では、ステップ204で算出した該マイク
22と抽出位置との距離を、ステップ207で算出した
音速で除算することにより、該マイク22に到達する音
の伝搬時間、即ち該マイク22についての遅延時間を算
出する。そして次のステップ209では、算出した遅延
時間を該マイク22の識別番号と対応付けた形で、RA
M42に確保された遅延テーブルへ記憶する。なお、本
第3の実施形態における遅延テーブルは、算出した各マ
イク22についての遅延時間を一時記憶するための一時
記憶域として使用される。
In the next step 207, the sound velocity on the sound propagation path is calculated based on the average temperature on the sound propagation path, and in the next step 208, the distance between the microphone 22 calculated in step 204 and the extraction position is calculated. , The propagation time of the sound that reaches the microphone 22, that is, the delay time for the microphone 22 is calculated by dividing by the sound velocity calculated in step 207. Then, in the next step 209, the calculated delay time is associated with the identification number of the microphone 22 and RA
Store in the delay table secured in M42. The delay table in the third embodiment is used as a temporary storage area for temporarily storing the calculated delay time for each microphone 22.

【0119】上記ステップ204〜209は、選択した
マイク22の各々に対して実行される。選択したマイク
22の全てに対して実行が完了すると、選択したマイク
22の各々についての遅延時間が記録された遅延テーブ
ルが完成する。その後、上記第1の実施形態と同様に、
ステップ214で1つのマイク22からの音声データを
上記遅延テーブルから得られた該マイク22に対する遅
延時間に対応するメモリアドレスだけずらして入力バッ
ファメモリiから取り出す。次のステップ216では取
り出した音声データを出力バッファメモリiへ書き込
む。
The above steps 204 to 209 are executed for each of the selected microphones 22. When the execution is completed for all the selected microphones 22, the delay table in which the delay time for each of the selected microphones 22 is recorded is completed. Then, as in the first embodiment,
In step 214, the voice data from one microphone 22 is shifted from the input buffer memory i by shifting the memory address corresponding to the delay time for the microphone 22 obtained from the delay table. In the next step 216, the extracted audio data is written in the output buffer memory i.

【0120】これらのステップ214、216の処理
を、選択したマイク22の全てに対して実行完了する
と、ステップ218で肯定され、ステップ220へ進
む。ステップ220、222では、選択したマイク22
の各々における音声データを加算平均し、D/Aコンバ
ータ48へ出力する。音声データは、D/Aコンバータ
48によりアナログの音声信号に変換され、変換された
音声信号は出力端子ボード20の音声出力端子21へ出
力される。
When the processing of these steps 214 and 216 has been completed for all the selected microphones 22, the affirmative answer is obtained in step 218 and the operation proceeds to step 220. In steps 220 and 222, the selected microphone 22
The audio data in each of the above are averaged and output to the D / A converter 48. The voice data is converted into an analog voice signal by the D / A converter 48, and the converted voice signal is output to the voice output terminal 21 of the output terminal board 20.

【0121】このように本第3の実施形態によれば、部
屋50内の温度の変化に応じて精度の高い音の抽出を行
うことができる。
As described above, according to the third embodiment, it is possible to extract the sound with high accuracy according to the change in the temperature in the room 50.

【0122】なお、本発明の音抽出装置10は、上記と
同様の要領で風(風向、風力)の影響による音の伝搬経
路の曲がりを考慮して音の抽出を行うことができる。例
えば図10に示すように、矢印R方向に走行する列車6
4が鉄橋66を渡る時に鉄橋66の特定の測定部位66
Aが発するきしみ音を抽出する場合について説明する。
この場合、屋外の音響環境であるので、音の伝搬に対し
温度以外に風の影響が生じる。例えば、鉄橋66の測定
部位66Aから発せられ1つのマイク22Aに到達する
音の伝搬経路が、破線K1で示す直線経路ではなく実線
K2で示す曲線経路となり、音の伝搬経路長L1(曲線
経路の長さ)が測定部位66Aとマイク22Aとの距離
L2(直線経路の長さ)よりも長くなる。そこで、音抽
出装置10では、風力計60により風力を、風向計62
により風向を、それぞれ検出する。そして、音の伝搬経
路が風力及び風向の影響でどのような経路(曲線経路)
に変わり、その伝搬経路長L1は距離L2に比べどの程
度長くなるかを、抽出位置演算プロセッサ14又は音声
抽出ボード12のプロセッサ34で演算して求め、求め
られた伝搬経路長L1に基づいてマイク22Aにおける
遅延時間を算出する。他のマイク22についても同様に
音の伝搬経路長を求め、遅延時間を算出する。そして、
算出した遅延時間に基づいて、以後の遅延操作及び加算
平均を行い、測定部位66Aから発せられる音の抽出を
行う。このようにして、風(風向、風力)の影響による
音の伝搬経路の曲がりを考慮して音の抽出を行うことが
できる。
The sound extraction device 10 of the present invention can extract a sound in the same manner as described above in consideration of the bending of the sound propagation path due to the influence of the wind (wind direction, wind force). For example, as shown in FIG. 10, a train 6 traveling in the direction of arrow R
When the 4 crosses the iron bridge 66, a specific measurement portion 66 of the iron bridge 66
The case of extracting the squeaking sound emitted by A will be described.
In this case, because of the outdoor acoustic environment, the influence of wind in addition to temperature affects sound propagation. For example, the sound propagation path emitted from the measurement site 66A of the iron bridge 66 and reaching one microphone 22A is not the straight path indicated by the broken line K1 but the curved path indicated by the solid line K2, and the sound propagation path length L1 (the curved path The length) is longer than the distance L2 (the length of the straight path) between the measurement site 66A and the microphone 22A. Therefore, in the sound extraction device 10, the wind force is measured by the anemometer 60 and the wind direction meter 62 is used.
To detect the wind direction. And what kind of path (curved path) the sound propagation path is due to the influence of wind force and wind direction
Then, it is calculated how much the propagation path length L1 becomes longer than the distance L2 by the extraction position calculation processor 14 or the processor 34 of the voice extraction board 12, and the microphone is calculated based on the calculated propagation path length L1. The delay time at 22A is calculated. Similarly, for the other microphones 22, the sound propagation path length is obtained and the delay time is calculated. And
Based on the calculated delay time, the subsequent delay operation and arithmetic averaging are performed to extract the sound emitted from the measurement site 66A. In this way, the sound can be extracted in consideration of the bending of the sound propagation path due to the influence of the wind (wind direction, wind force).

【0123】〔第4の実施形態〕次に、本発明の第4の
実施形態を説明する。本第4の実施形態では、音声にお
ける周波数による指向性の違いを考慮した上で図11に
示す部屋50の中にいる対象人物Cの声を抽出する例を
示す。なお、第1の実施形態と同一の部分には同一の符
号を付し、説明を省略する。
[Fourth Embodiment] Next, a fourth embodiment of the present invention will be described. The fourth embodiment shows an example in which the voice of the target person C in the room 50 shown in FIG. 11 is extracted in consideration of the difference in directivity depending on the frequency of the voice. The same parts as those in the first embodiment are designated by the same reference numerals and the description thereof will be omitted.

【0124】本第4の実施形態における音抽出装置10
の構成は、前述した第1の実施形態における音抽出装置
10の構成と同一であるので、その説明は省略する。但
し、音声抽出ボード12のプロセッサ34内のROM4
0には、後述する重み付け定数が記録された重み付けテ
ーブルが予め記憶されている。
The sound extraction device 10 according to the fourth embodiment.
Since the configuration is the same as the configuration of the sound extraction device 10 in the first embodiment described above, the description thereof will be omitted. However, the ROM 4 in the processor 34 of the voice extraction board 12
In 0, a weighting table in which weighting constants described later are recorded is stored in advance.

【0125】次に本第4の実施形態の作用を説明する。
まず、音における周波数による指向性の違いについて説
明する。図11に示すように音の指向性は、周波数によ
り異なり、低い周波数ほど指向性が緩く、高い周波数で
は指向性が強くなるのが一般的である。従って、対象人
物Cが声を発する方向Dに位置するマイクでは、低周波
数から高周波数までほぼ全域の周波数の音が集音される
のに対し、その他のマイクでは低周波数の音は集音され
るものの高周波数の音はあまり集音されないことにな
る。
Next, the operation of the fourth embodiment will be described.
First, the difference in directivity depending on the frequency of sound will be described. As shown in FIG. 11, the directivity of sound varies depending on the frequency. Generally, the directivity is lower at lower frequencies and stronger at higher frequencies. Therefore, the microphones located in the direction D in which the target person C speaks collects sounds of frequencies in almost all ranges from low frequencies to high frequencies, whereas other microphones collect sounds of low frequencies. However, high frequency sounds are not collected much.

【0126】そこで、本第4の実施形態では、上記の方
向Dに位置するマイク22により集音された採取音の高
音域の音量と、他のマイク22により集音された採取音
の高音域の音量と、の不均衡を是正すべく、両者に重み
付け操作をすることにより、上記の課題を解消する例を
示す。
Therefore, in the fourth embodiment, the volume of the high range of the collected sound collected by the microphone 22 located in the direction D and the high range of the collected sound collected by the other microphone 22. In order to correct the imbalance between the volume and the volume, an example in which the above problem is solved by performing a weighting operation on both is shown.

【0127】なお、抽出位置演算処理は第1の実施形態
と同一であるので説明は省略し、音声抽出処理について
図12を用いて説明する。
Since the extraction position calculation process is the same as that of the first embodiment, the description thereof will be omitted, and the voice extraction process will be described with reference to FIG.

【0128】ステップ200、202、203では、第
1の実施形態と同様に抽出位置演算プロセッサ14から
受信した抽出位置情報に基づいてマイクを選択し、選択
したマイクからの音声データの取り込みと該音声データ
の入力バッファメモリiへの書き込みとを行う。次のス
テップ213では、1つのマイク22に対する抽出位置
の相対的位置に対応した遅延テーブルから遅延時間を取
り込むと共に、該マイク22に対する抽出位置の相対的
位置及び音の方向に対応した重み付けテーブルから重み
付け定数を取り込む。なお、人物Cが声を発する方向D
に位置するマイク22に対応する重み付け定数には、方
向Dから外れた位置に位置するマイク22に対応する重
み付け定数よりも相対的に小さい値が設定されている。
In steps 200, 202 and 203, the microphone is selected based on the extraction position information received from the extraction position calculation processor 14 as in the first embodiment, and the voice data is taken in from the selected microphone and the voice is extracted. Data is written in the input buffer memory i. In the next step 213, the delay time is fetched from the delay table corresponding to the relative position of the extraction position with respect to one microphone 22, and weighted from the weighting table corresponding to the relative position of the extraction position with respect to the microphone 22 and the sound direction. Take in a constant. The direction D in which the person C speaks
The weighting constant corresponding to the microphone 22 located at is set to a value relatively smaller than the weighting constant corresponding to the microphone 22 located at a position deviated from the direction D.

【0129】次のステップ214では第1の実施形態と
同様に、該マイク22からの音声データを上記遅延時間
に対応するメモリアドレスだけずらして入力バッファメ
モリiから取り出し、次のステップ217では取り出し
た音声データにおける高周波数成分に対して、上記重み
付け定数に従って重み付けして(レベルの増幅又は減縮
を行って)出力バッファメモリiへ書き込む。
In the next step 214, the voice data from the microphone 22 is shifted from the input buffer memory i by shifting the memory address corresponding to the delay time, and is fetched in the next step 217, as in the first embodiment. The high frequency components in the audio data are weighted (amplified or reduced in level) according to the weighting constants and written in the output buffer memory i.

【0130】上記ステップ213、214、217は、
選択したマイク22の各々に対して実行される。こうし
て、方向Dに位置するマイク22により集音された採取
音の高周波数成分はレベルが減縮される一方、方向Dか
ら外れた位置に位置するマイク22により集音された採
取音の高周波数成分はレベルが増幅される。
The above steps 213, 214 and 217 are
It is executed for each of the selected microphones 22. Thus, the high-frequency component of the collected sound collected by the microphone 22 located in the direction D is reduced in level, while the high-frequency component of the collected sound collected by the microphone 22 located outside the direction D is reduced. Is amplified in level.

【0131】次のステップ220、222では選択した
マイク22の各々における音声データを加算平均し、D
/Aコンバータ48へ出力する。音声データは、D/A
コンバータ48によりアナログの音声信号に変換され、
変換された音声信号は出力端子ボード20の音声出力端
子21へ出力される。
In the next steps 220 and 222, the voice data in each of the selected microphones 22 is added and averaged to obtain D
It outputs to the / A converter 48. Audio data is D / A
Converted into an analog audio signal by the converter 48,
The converted audio signal is output to the audio output terminal 21 of the output terminal board 20.

【0132】本第4の実施形態によれば、方向Dに位置
するマイクにより集音された採取音の高周波数成分と、
方向Dから外れた位置に位置するマイク22により集音
された採取音の高周波数成分と、でレベルの不均衡が改
善され、高周波数の音の有する強い指向性に起因した高
周波数の音の低周波数の音に対する相対的なレベル低下
を防止することができる。
According to the fourth embodiment, the high frequency component of the collected sound collected by the microphone located in the direction D,
The level imbalance between the high frequency component of the collected sound collected by the microphone 22 located at a position deviated from the direction D and the high frequency component of the high frequency sound due to the strong directivity of the high frequency sound is improved. It is possible to prevent a relative decrease in level for low-frequency sounds.

【0133】なお、上記第1乃至第4の実施形態では、
対象人物(又は対象物)から発せられマイクに直接到達
する直接音のみを抽出する例を示した。一般に、反射面
としての壁面等から反射された後マイクに到達した反射
音は、その大きさが上記直接音に比べ非常に小さいた
め、加算平均を行うことにより他の雑音成分と共に除去
される。
In the above first to fourth embodiments,
An example is shown in which only the direct sound emitted from the target person (or the target object) and directly reaching the microphone is extracted. In general, the reflected sound that reaches the microphone after being reflected from the wall surface or the like as the reflecting surface is much smaller in size than the direct sound, and is therefore removed together with other noise components by averaging.

【0134】しかし、壁面が対象人物から近い位置であ
り且つ該対象人物が音を発する方向に位置している場合
には、壁面での反射音は直接音よりも大きくなるため、
むしろ該反射音を集音した方が対象人物が発する音の抽
出効果が高いと言える。
However, when the wall surface is close to the target person and the target person is located in the direction in which the sound is emitted, the reflected sound on the wall surface becomes louder than the direct sound.
Rather, it can be said that the effect of extracting the sound emitted by the target person is higher when the reflected sound is collected.

【0135】従って、テレビカメラ16により撮影され
た画像情報に基づいて、壁面が対象人物から近い位置で
あり且つ該対象人物が音を発する方向に位置していると
認識された場合、プロセッサ34のCPU38で実行さ
れる音声抽出処理において、各マイクについての遅延時
間を演算するためのマイクと抽出位置との距離として両
者の直接の距離ではなく、壁面で反射された反射音の伝
搬距離を採用し、該反射音の伝搬距離に応じた遅延時間
を算出し、そしてこの反射音の伝搬距離に応じた遅延時
間に従って遅延操作を行えば良い。
Therefore, when it is recognized that the wall surface is close to the target person and the target person is located in the direction of producing sound based on the image information captured by the television camera 16, the processor 34 In the voice extraction processing executed by the CPU 38, the propagation distance of the reflected sound reflected by the wall surface is adopted as the distance between the microphone and the extraction position for calculating the delay time for each microphone, not the direct distance between them. The delay time may be calculated according to the propagation distance of the reflected sound, and the delay operation may be performed according to the delay time according to the propagation distance of the reflected sound.

【0136】これにより、対象人物から各マイクに直接
到達した音は雑音成分として除去され、代わりに壁面で
反射された後各マイクに到達した反射音が対象人物の音
として抽出される。このように、各マイクに到達した反
射音の方が直接音よりも対象人物(対象物)の音の抽出
のために適当である場合には、反射音の方を抽出するこ
とができる。
As a result, the sound that directly reaches each microphone from the target person is removed as a noise component, and the reflected sound that reaches each microphone after being reflected by the wall surface is extracted as the sound of the target person. Thus, when the reflected sound reaching each microphone is more suitable for extracting the sound of the target person (object) than the direct sound, the reflected sound can be extracted.

【0137】なお、本発明の音抽出装置は、上記の各種
の実施形態以外にも以下のように適用することができ
る。例えば、講演会場において聴衆の中の質問者の声を
拡声する場合、聴衆を複数のテレビカメラで撮影してお
き、係員が該質問者の映った画面で該質問者の口元付近
をマウス等でポイントすると、抽出位置演算プロセッサ
が該質問者の口元付近を抽出位置に設定する。そして、
音声抽出ボードでその抽出位置からの音の抽出を行い、
所定のスピーカから抽出された音を出力する。これによ
り、聴衆の中の質問者の位置まで都度マイクを持ってい
く必要は無くなり、スムーズな講演会の進行の一助とな
る。
The sound extraction device of the present invention can be applied as follows in addition to the various embodiments described above. For example, in the case of expanding the voice of a questioner in the audience at a lecture hall, the audience is photographed with a plurality of TV cameras, and a staff member uses a mouse or the like in the vicinity of the questioner's mouth on the screen showing the questioner. When pointed, the extraction position calculation processor sets the vicinity of the questioner's mouth to the extraction position. And
Extract the sound from the extraction position with the voice extraction board,
The sound extracted from a predetermined speaker is output. This eliminates the need to bring the microphone to the position of the questioner in the audience each time, which helps to facilitate a smooth lecture.

【0138】また、例えば図10に示す列車64のよう
に移動経路の定まった移動体から発せられる音を時間の
経過と共に抽出し続ける(トレースする)場合には、移
動経路上に略等間隔の複数の抽出位置(例えば鉄橋の部
位66B、66C、66D)を予め設定し、これらの抽
出位置における音を時間の経過に沿って順に抽出すれば
良い。こうすれば、抽出位置を設定するために移動体の
動きをテレビカメラ16により撮影された画像から把握
する処理は不要となり、移動体の速い動きに追随して音
をトレースすることができる。
Further, in the case of continuously extracting (tracing) the sound emitted from a moving body whose moving route is fixed, such as a train 64 shown in FIG. 10, at substantially equal intervals on the moving route. It suffices to set a plurality of extraction positions (for example, iron bridge parts 66B, 66C, 66D) in advance and sequentially extract sounds at these extraction positions along the passage of time. This eliminates the need for the process of grasping the movement of the moving body from the image captured by the television camera 16 to set the extraction position, and the sound can be traced following the rapid movement of the moving body.

【0139】〔第5の実施形態〕次に、本発明に係る第
5の実施形態を説明する。本第5の実施形態では、オブ
ジェクトの音の抽出を行うにあたり、広角固定焦点レン
ズを備えた複数のテレビカメラによりオブジェクトを含
む画像を撮影し、その画像データに基づいてオブジェク
トの位置を認識する例を示す。
[Fifth Embodiment] Next, a fifth embodiment of the present invention will be described. In the fifth embodiment, in extracting the sound of the object, an example in which an image including the object is captured by a plurality of television cameras having a wide-angle fixed focus lens, and the position of the object is recognized based on the image data Indicates.

【0140】図13に示すように、天井52には、テレ
ビカメラ16が複数台(一例として4台)設置されてお
り、各テレビカメラ16には、広角固定焦点レンズとし
ての魚眼レンズ16Aが設置されている。各魚眼レンズ
16Aの視野角は90°以上に予め設定されている。よ
って、オブジェクトが移動している場合、静止している
場合を問わず、テレビカメラ16を動かさずに該オブジ
ェクトを撮影可能となっている。
As shown in FIG. 13, a plurality of TV cameras 16 (four as an example) are installed on the ceiling 52, and a fish-eye lens 16A as a wide-angle fixed focus lens is installed on each TV camera 16. ing. The viewing angle of each fisheye lens 16A is preset to 90 ° or more. Therefore, regardless of whether the object is moving or stationary, the object can be photographed without moving the television camera 16.

【0141】この魚眼レンズとしては、例えば、等距離
射影(equidistanceprojectio
n)型、立体射影型、等立体角射影型、正射影型等の種
々の種類があり、本実施形態では何れの魚眼レンズも使
用可能であるが、以下、等距離射影型の魚眼レンズを使
用した例を説明する。また、各テレビカメラ16はCC
D(Charge−Coupled Device)エ
リアイメージセンサ16B(図18参照)を備えてい
る。また、物や人・動物等のオブジェクトは床や地面か
らの高さが概ね決まっており、更に、広角固定焦点レン
ズとしての魚眼レンズ16Aは焦点深度が大きいという
特性を有しているので、テレビカメラ16が焦点調整機
構を有していなくても、鮮明にCCDエリアイメージセ
ンサ16B上にオブジェクト像を結像することができ
る。このようにして、複数のテレビカメラ16の各々に
より、オブジェクトを含む所定の領域が各々異なる位置
から撮影される。
The fish-eye lens may be, for example, equidistant projection.
There are various types such as n) type, stereoscopic projection type, equisolid angle projection type, orthographic projection type, and any fisheye lens can be used in the present embodiment. However, in the following, the equidistant projection type fisheye lens is used. An example will be described. Also, each TV camera 16 is CC
A D- (Charge-Coupled Device) area image sensor 16B (see FIG. 18) is provided. In addition, since the heights of objects, people, animals, and the like from the floor and the ground are almost fixed, and the fish-eye lens 16A as a wide-angle fixed focus lens has a large depth of focus. Even if does not have a focus adjusting mechanism, it is possible to clearly form an object image on the CCD area image sensor 16B. In this way, each of the plurality of television cameras 16 shoots a predetermined area including the object from different positions.

【0142】次に、本第5の実施形態の作用を説明す
る。オペレータが、オブジェクトとして対象人物Aを指
定し、音抽出装置10の図示しないスタートボタンをオ
ンすると、前述した第1の実施形態と同じ図5に示す音
声抽出処理の制御ルーチンが音声抽出ボード12のCP
U38により実行開始されると共に、図14に示す抽出
位置演算処理の制御ルーチンがCPU14Aにより実行
開始される。以下では、音声抽出処理の説明は省略し、
図14〜24を用いて本第5の実施形態における抽出位
置演算処理について説明する。
Next, the operation of the fifth embodiment will be described. When the operator designates the target person A as an object and turns on a start button (not shown) of the sound extraction device 10, the control routine of the voice extraction processing shown in FIG. CP
At the same time the execution is started by U38, the control routine of the extraction position calculation processing shown in FIG. 14 is started by the CPU 14A. In the following, the description of the voice extraction process is omitted,
The extraction position calculation process in the fifth embodiment will be described with reference to FIGS.

【0143】図14に示すステップ120では、オブジ
ェクト分別処理が行われる。このオブジェクト分別処理
では、図15に示すサブルーチンが実行される。図15
のステップ140では、オブジェクト(対象人物A)が
部屋50内に存在しないときの画像データAをROM1
4Bから読み出し、次のステップ142において各テレ
ビカメラ16で撮影した画像データBを各々取り込んで
RAM14Cに記憶する。次のステップ144では画像
データBと画像データAとの差をとって部屋50に存在
する対象人物Aを認識する(図17参照)。
In step 120 shown in FIG. 14, object classification processing is performed. In this object classification processing, the subroutine shown in FIG. 15 is executed. FIG.
In step 140 of the above, the image data A when the object (target person A) does not exist in the room 50 is stored in the ROM 1
4B, and in the next step 142, the image data B taken by each television camera 16 is fetched and stored in the RAM 14C. In the next step 144, the target person A present in the room 50 is recognized by taking the difference between the image data B and the image data A (see FIG. 17).

【0144】次にステップ146では所定時間Tのタイ
マを設定し、次のステップ148では、所定時間Tの時
間待ちに入り、タイムアウトになると、ステップ150
へ進む。
Next, in step 146, a timer of a predetermined time T is set, and in the next step 148, the process waits for the predetermined time T, and when a time-out occurs, step 150
Go to.

【0145】ステップ150では、各テレビカメラ16
で撮影した画像データC(即ち、画像データBから所定
時間T経過後の画像データ)を取り込む。そして、次の
ステップ152では、RAM14Cに記憶した画像デー
タBを読み出し、画像データBと画像データCとを比較
し、次のステップ154ではこの比較結果に基づいて対
象人物Aが移動しているか否かを判断する。
At step 150, each television camera 16
The image data C captured in (i.e., the image data after a predetermined time T has elapsed from the image data B) is captured. Then, in the next step 152, the image data B stored in the RAM 14C is read, the image data B and the image data C are compared, and in the next step 154, whether or not the target person A is moving based on the comparison result. To judge.

【0146】対象人物Aが移動していない(静止してい
る)場合は、ステップ154で否定判断され図14のメ
インルーチンへリターンする。一方、対象人物Aが移動
している場合は、ステップ154で肯定判断されステッ
プ156へ進み、画像データBと画像データCとの差異
から対象人物Aの進行方向を求め(図17参照)、求め
た進行方向から対象人物Aの前後を判断する。そして、
次のステップ158で、対象人物Aの進行方向及び前後
に関する情報をRAM14Cに記憶し、図14のメイン
ルーチンへリターンする。
If the target person A is not moving (still), a negative decision is made in step 154 and the process returns to the main routine of FIG. On the other hand, if the target person A is moving, an affirmative decision is made in step 154 and the operation proceeds to step 156, in which the traveling direction of the target person A is obtained from the difference between the image data B and the image data C (see FIG. 17), The front and back of the target person A are determined from the traveling direction. And
In the next step 158, the information regarding the traveling direction and the front and back of the target person A is stored in the RAM 14C, and the process returns to the main routine of FIG.

【0147】次のステップ122では、対象人物Aの位
置及び高さを演算する。図18に示すように、点Oに固
定された等距離射影型魚眼レンズ16Aの焦点距離を
f、点Oから部屋50の床面54に垂直に下ろした点Q
までの距離をH、点Qから対象人物Aの床面54上の点
Pまでの距離をR、対象人物Aの高さ(対象人物Aの天
井方向の先端を点P’としたときに点P’と点Pとの距
離)をhとする。また、点POQのなす角をθ、点P’
OQのなす角をθ’、CCDエリアイメージセンサ16
BのCCD面上のオブジェクト像の高さに対応する距離
をh’、オブジェクト像h’のうち点Pに対応して結像
した点をp、オブジェクト像h’のうち点P’に対応し
て結像した点をp’、CCD面の画像中心(CCD面の
中心)oから点pまでの距離をr、CCD面の画像中心
oから点p’までの距離をr’とすると、角θ、θ’、
距離r、r’は次式(1)〜(4)により求めることが
できる。
At the next step 122, the position and height of the target person A are calculated. As shown in FIG. 18, the focal length of the equidistant projection type fisheye lens 16A fixed to the point O is f, and the point Q is the point O lowered from the point O vertically to the floor surface 54 of the room 50.
To H, the distance from the point Q to the point P on the floor 54 of the target person A is R, and the height of the target person A (when the tip of the target person A in the ceiling direction is point P ′, The distance between P'and the point P) is h. Further, the angle formed by the point POQ is θ, and the point P ′ is
The angle formed by OQ is θ ', CCD area image sensor 16
The distance corresponding to the height of the object image on the CCD surface of B is h ′, the point of the object image h ′ formed corresponding to the point P is p, and the point formed of the object image h ′ is the point P ′. If the point formed by the image formation is p ′, the distance from the image center of the CCD surface (center of the CCD surface) o to the point p is r, and the distance from the image center o of the CCD surface to the point p ′ is r ′, the angle is θ, θ ',
The distances r and r'can be calculated by the following equations (1) to (4).

【0148】 θ=tan-1(R/H) ・・・・・(1) θ’=tan-1{R/(H−h)} ・・・・・(2) r=fθ ・・・・・(3) r’=fθ’ ・・・・・(4) 従って、高さh及び距離Rは次式(5)及び(6)によ
り求めることができる。
Θ = tan −1 (R / H) (1) θ ′ = tan −1 {R / (H−h)} (2) r = fθ .. (3) r '= f?' (4) Therefore, the height h and the distance R can be obtained by the following equations (5) and (6).

【0149】 h=H{1−tan(r/f)/tan(r’/f)}・・・(5) R=Htan(r/f) ・・・・・(6) なお、距離H及び焦点距離fは予め定められており、式
(5)及び式(6)はROM14Bに記憶されている。
このため、このステップ122では、式(5)をROM
14Bから読み出して1台のテレビカメラ16のCCD
面上の情報から高さhを演算し、式(6)を読み出して
2台のテレビカメラ16のCCD面上の情報からそれぞ
れ距離Rを求め、求めた2つの距離Rから対象人物Aの
2次元位置を演算する。
H = H {1-tan (r / f) / tan (r ′ / f)} (5) R = Htan (r / f) (6) Note that the distance H And the focal length f are predetermined, and the equations (5) and (6) are stored in the ROM 14B.
Therefore, in this step 122, the equation (5) is stored in the ROM.
CCD of one TV camera 16 read from 14B
The height h is calculated from the information on the surface, the formula (6) is read out, the distance R is calculated from the information on the CCD surfaces of the two TV cameras 16, and the two distances R of the target person A are calculated from the calculated two distances R. Calculate the dimensional position.

【0150】次のステップ124では、上記ステップ1
22で演算した位置を中心として3次元空間をX方向、
Y方向及びZ方向に沿って仮想的に細分割したマトリク
ス状の微小空間(以後、ボクセルと称す)を設定する。
これにより、画像データCはボクセルの集合体に変換さ
れる。図19は4台のテレビカメラA、B、C及びDか
ら対象人物Aを投影したとき、対象人物Aが占有するボ
クセルを概念的に示す。
In the next step 124, the above step 1
In the X direction in the three-dimensional space with the position calculated in 22 as the center,
A matrix-shaped minute space (hereinafter referred to as a voxel) that is virtually subdivided along the Y direction and the Z direction is set.
As a result, the image data C is converted into a set of voxels. FIG. 19 conceptually shows voxels occupied by the target person A when the target person A is projected from the four television cameras A, B, C, and D.

【0151】即ち、各テレビカメラから対象人物Aを投
影したときの、対象人物Aの視野角内に位置するボクセ
ルは、影(死角)の部分RA 、RB 、RC 、RD も含め
て、対象人物Aが占有するボクセルとして設定される。
なお、ボクセルは、CCDエリアイメージセンサ16B
の解像度の限界まで細分割することが可能である。
That is, the voxels located within the viewing angle of the target person A when the target person A is projected from each TV camera include the shadow (blind spot) portions R A , R B , R C , and R D. Are set as voxels occupied by the target person A.
The voxels are the CCD area image sensor 16B.
It is possible to subdivide to the resolution limit of.

【0152】次のステップ126では、画像データのう
ち対象人物Aが占有するボクセルを、対象人物Aの高さ
hに基づいて以下のようにして限定する第1次絞り込み
を行う。
In the next step 126, the primary narrowing is performed in which the voxels occupied by the target person A in the image data are limited based on the height h of the target person A as follows.

【0153】対象人物Aの高さhは、成人の平均身長か
ら概ねその値が予め設定可能であるので、図20(A)
〜(D)に示すように各テレビカメラから対象人物Aを
投影したときに対象人物Aの視野角内に位置するボクセ
ルのうち、高さが0〜hの範囲のものを、対象人物Aが
占有するボクセルとして絞り込む。なお、ここで絞り込
まれたボクセルで形成される領域を第1次絞り込み領域
とする。
The height h of the target person A can be set in advance from the average height of an adult, so that FIG.
As shown in (D), when the target person A is projected from each TV camera, among the voxels positioned within the viewing angle of the target person A, those having a height range of 0 to h are Filter as occupied voxels. The region formed by the voxels narrowed down here is referred to as a primary narrowed region.

【0154】次にステップ128では各画像データにお
ける第1次絞り込み領域から、それら全てに重複する領
域に絞り込む第2次絞り込みを行う。これにより、図1
9に示した影の領域RA 、RB 、RC 及びRD は対象人
物Aが占有するボクセルから排除され、図21に示すよ
うに、対象人物Aが占めるボクセル70に絞りこまれ
る。次のステップ130では、このボクセル70によっ
て、オブジェクトの位置及び形状を正確に認識する。な
お、ボクセルはCCDエリアイメージセンサ16Bの解
像度の限界まで細分化することができるので、オブジェ
クトの形状を細部まで認識することも可能である。
Next, at step 128, the secondary narrowing-down is performed from the primary narrowing-down area in each image data to the area overlapping all of them. As a result, FIG.
Region R A shadow shown in 9, R B, R C and R D are excluded from voxels target person A is occupied, as shown in FIG. 21, it is narrowed to a voxel 70 occupied by the target person A. In the next step 130, the voxel 70 accurately recognizes the position and shape of the object. Since the voxels can be subdivided to the resolution limit of the CCD area image sensor 16B, the shape of the object can be recognized in detail.

【0155】次のステップ132では、図22に示すよ
うに、ボクセル70の高さ、太さ等の寸法や、予めRO
M14Bに記憶された頭部の色差、目、鼻、口、耳の位
置、腕の長さや位置、つま先の向き、関節の自由度等の
人間の特徴に関する情報、さらに対象人物Aが移動して
いる場合にはRAM14Cに記憶した対象人物Aの進行
方向や前後に関する情報に基づいて、ダミーモデル72
へ変換する。
In the next step 132, as shown in FIG. 22, dimensions such as the height and thickness of the voxel 70 and RO beforehand are set.
Information about human characteristics such as the color difference of the head, the positions of the eyes, the nose, the mouth, the ears, the length and position of the arms, the direction of the toes, and the degrees of freedom of the joints, which are stored in the M14B, and the target person A moves. If the dummy model 72 is stored in the RAM 14C, the dummy model 72
Convert to.

【0156】次のステップ134では、図16に示す抽
出位置設定処理のサブルーチンを実行する。図16のス
テップ160では、対象人物Aの頭部を撮影対象とした
所定数(一例として2台)のテレビカメラの選択を行
い、選択した各テレビカメラのCCD面上における対象
人物Aの頭部の位置に対応する2次元座標を取り込む。
なお、テレビカメラの選択においては、例えば、対象人
物Aを写した際のオブジェクト像が大きい順に選択して
もよいし、対象人物Aの正面を捉えたテレビカメラを選
択してもよい。また、選択された2台のテレビカメラを
それぞれカメラL、カメラRとする。
At the next step 134, the extraction position setting process subroutine shown in FIG. 16 is executed. In step 160 of FIG. 16, a predetermined number (two as an example) of TV cameras whose target is the head of the target person A is selected, and the head of the target person A on the CCD surface of each selected TV camera is selected. Take in the two-dimensional coordinates corresponding to the position.
In selecting the television camera, for example, the object image when the target person A is photographed may be selected in descending order, or the television camera that captures the front of the target person A may be selected. The two selected TV cameras are referred to as camera L and camera R, respectively.

【0157】次のステップ162では3次元座標を演算
する。図23に示すように、カメラLの3次元座標Cを
(X,0,Z)、カメラRの3次元座標C’を(X’,
0,Z)とする。また、対象人物Aの頭部の位置に対応
するカメラLのCCD面上の座標PL を(α1
β1 )、カメラLのCCD面の画像中心OL から座標P
L までの距離をr、対象人物Aの頭部の位置に対応する
カメラRのCCD面上の座標PR を(α1 ’,
β1 ’)、カメラRのCCD面の画像中心OR から座標
R までの距離をr’、座標PL 及び座標PR から出た
光を仮想したときに2つの光が交わる点、即ち、対象人
物Aの頭部の3次元座標Pを(x,y,z)とする。
In the next step 162, three-dimensional coordinates are calculated. As shown in FIG. 23, the three-dimensional coordinate C of the camera L is (X, 0, Z) and the three-dimensional coordinate C ′ of the camera R is (X ′,
0, Z). Further, the coordinate P L on the CCD surface of the camera L corresponding to the position of the head of the target person A is (α 1 ,
β 1 ), coordinates P from the image center O L on the CCD surface of the camera L
The distance to L is r, and the coordinate P R on the CCD surface of the camera R corresponding to the position of the head of the target person A is (α 1 ',
beta 1 '), the distance from the image center O R of the CCD of the camera R to the coordinates P R r', that is two light intersect when virtual light emitted from the coordinate P L and coordinates P R, i.e. , The three-dimensional coordinate P of the head of the target person A is (x, y, z).

【0158】また、カメラLの3次元座標位置からZ軸
に平行に下ろした垂線の足と、点Pを含みZ軸に垂直な
平面と、の交点Sの座標を(X,0,z)とし、カメラ
Rの3次元座標位置からZ軸に平行に下ろした垂線の足
と、点Pを含みZ軸に垂直な平面と、の交点S’の座標
を(X’,0,z)とする。更に、点PCSのなす角を
θ1 、点PC’S’のなす角をθ1 ’、点PSS’のな
す角をφ、点PS’Sのなす角をφ’とする。
Further, the coordinates of the intersection point S of the perpendicular leg drawn parallel to the Z-axis from the three-dimensional coordinate position of the camera L and the plane including the point P and perpendicular to the Z-axis are (X, 0, z). And the coordinates of the intersection S'of the perpendicular leg dropped from the three-dimensional coordinate position of the camera R parallel to the Z axis and the plane including the point P and perpendicular to the Z axis are (X ', 0, z). To do. Further, the angle formed by the point PCS is θ 1 , the angle formed by the point PC ′S ′ is θ 1 ′, the angle formed by the point PSS ′ is φ, and the angle formed by the point PS ′S is φ ′.

【0159】CCD面上で画像中心OL から像までの距
離rは、上述した式(3)により、 r=fθ1 として求められる。
The distance r from the image center O L to the image on the CCD surface is obtained by the above equation (3) as r = fθ 1 .

【0160】また、それぞれα1 、β1 は、 α1 =fθ1 cos(π−φ)=−fθ1 cosφ β1 =fθ1 sin(π−φ)=fθ1 sinφ ・・・(7) である。ここで、 sinφ=y/{(x−X)2 +y2 1/2 ・・・(8) cosφ=(x−X)/{(x−X)2 +y2 1/2 であるので、α1 、β1 は、 α1 =−fθ1 (x−X)/{(x−X)2 +y2 1/2 ・・・・(9) β1 =fθ1 y/{(x−X)2 +y2 1/2 ・・・(10) として求めることができる。式(10)を式(9)で割
ることにより、 y=(β1 /α1 )(X−x) ・・・(11) 同様に、 y=(β1 ’/α1 ’)(X’−x) ・・・(12) 式(11)と式(12)とからyを消去して、 x=(α1 β1 ’X’−α1 ’β1 X)/(α1 β1 ’−α1 ’β1 ) ・・・(13) により3次元座標PのX座標を求めることができる。
[0160] In addition, each α 1, β 1 is, α 1 = fθ 1 cos ( π-φ) = - fθ 1 cosφ β 1 = fθ 1 sin (π-φ) = fθ 1 sinφ ··· (7) Is. Here, sin φ = y / {(x−X) 2 + y 2 } 1/2 (8) cos φ = (x−X) / {(x−X) 2 + y 2 } 1/2 , Α 1 and β 1 are α 1 = −fθ 1 (x−X) / {(x−X) 2 + y 2 } 1/2 ... (9) β 1 = fθ 1 y / {(x -X) 2 + y 2 } 1/2 ... (10) By dividing Expression (10) by Expression (9), y = (β 1 / α 1 ) (X−x) (11) Similarly, y = (β 1 ′ / α 1 ′) (X '−x) (12) Eliminating y from equation (11) and equation (12), x = (α 1 β 1 'X'-α 11 X) / (α 1 β 1 '-α 1' β 1) by (13) can be determined X-coordinate of the three-dimensional coordinates P.

【0161】次に、式(11)と式(13)とからxを
消去して、 y=β1 β1 ’(X−X’)/(α1 β1 ’−α1 ’β1 )・・(14) により3次元座標PのY座標を求めることができる。
Next, x is eliminated from the equations (11) and (13), and y = β 1 β 1 ′ (X−X ′) / (α 1 β 1 ′ −α 1 ′ β 1 ). The Y coordinate of the three-dimensional coordinate P can be calculated by (14).

【0162】ところで、 θ1 =tan-1[{(x−X)2 +y2 1/2 /(Z−z)] であるので、式(7)、式(8)から β1 /(fsinφ)=tan-1[{(x−X)2 +y2 1/2 /(Z−z)] 従って、 z=Z−[{(x−X)2 +y2 1/2 /tan[(β1 /f) ×{(x−X)2 +y2 1/2 /y] ・・・(15) また、式(11)から {(x−X)2 +y2 1/2 =(x−X)×{1+(β1 /α1 2 1/2 式(11)と式(14)とから (x−X)=(X’−X)/{1−(α1 ’/α1 )×(β1 /β1 ’)} であるので、式(15)は、 z=Z+[(X’−X)×{1+(β1 /α1 2 1/2 /{1−(α1 ’/α1 )×(β1 /β1 ’)}] /tan{(α1 2 +β1 2 1/2 /f} ・・・(16) と表すことができ、3次元座標PのZ座標を求めること
ができる。
By the way, since θ 1 = tan −1 [{(x−X) 2 + y 2 } 1/2 / (Z−z)], β 1 / (from the formulas (7) and (8) fsin φ) = tan −1 [{(x−X) 2 + y 2 } 1/2 / (Z−z)] Therefore, z = Z − [{(x−X) 2 + y 2 } 1/2 / tan [ (Β 1 / f) × {(x−X) 2 + y 2 } 1/2 / y] (15) Further, from the formula (11), {(x−X) 2 + y 2 } 1/2 = (X−X) × {1+ (β 1 / α 1 ) 2 } 1/2 From formula (11) and formula (14), (x−X) = (X′−X) / {1− (α 1 Since '/ α 1 ) × (β 1 / β 1 ')}, the equation (15) is expressed by z = Z + [(X′−X) × {1+ (β 1 / α 1 ) 2 } 1/2 / {1- (α 1 '/ α 1 ) × (β 1 / β 1 ')}] / tan {(α 1 2 + β 1 2 ) 1/2 / f} (16) Yes, three-dimensional coordinates The Z coordinate of P can be obtained.

【0163】なお、各テレビカメラ16の3次元座標は
予め定められているので、ステップ162では、ROM
14Bから式(13)、(14)及び(16)を読み出
し、ステップ160で取り込んだカメラLのCCD面上
の座標PL (α1 ,β1 )及びカメラRのCCD面上の
座標PR (α1 ’,β1 ’)の値を、式(13)、(1
4)及び(16)に代入することにより、対象人物Aの
頭部の3次元座標P(x,y,z)を求めることができ
る。
Since the three-dimensional coordinates of each television camera 16 are predetermined, the ROM is determined in step 162.
Equations (13), (14) and (16) are read from 14B, and the coordinates P L1 , β 1 ) on the CCD surface of the camera L and the coordinates P R on the CCD surface of the camera R read in step 160 are read. The value of (α 1 ', β 1 ') is calculated by using equations (13) and (1
By substituting in 4) and (16), the three-dimensional coordinates P (x, y, z) of the head of the target person A can be obtained.

【0164】次のステップ164では、前述した第1の
実施形態と同様に(図4のステップ104における処理
と同様に)対象人物Aの頭部の向きを推定する。次のス
テップ166では、ステップ162で求めた頭部の位置
から矢印V方向(図13参照)に所定距離(例えば約3
0センチメートル)離間した位置を、対象人物Aに対す
る抽出位置として設定する。そして次のステップ168
で、前記設定した抽出位置の位置情報を音声抽出ボード
12へ送信してリターンする。
At the next step 164, the orientation of the head of the target person A is estimated as in the first embodiment described above (similar to the processing at step 104 in FIG. 4). In the next step 166, a predetermined distance (eg, about 3) from the position of the head obtained in step 162 in the direction of arrow V (see FIG. 13).
A position separated by 0 cm) is set as an extraction position for the target person A. And the next step 168
Then, the position information of the set extraction position is transmitted to the voice extraction board 12 and the process returns.

【0165】このように本第5の実施形態によれば、広
角固定焦点レンズ16Aを用いて撮影しているので、テ
レビカメラ16を動かしたり焦点調整を行う必要はな
い。このため、オブジェクト(対象人物A)を捉えるま
での時間を短縮することができ、速やかにオブジェクト
の位置を認識することができる。
As described above, according to the fifth embodiment, since the wide-angle fixed focus lens 16A is used for photographing, it is not necessary to move the television camera 16 or adjust the focus. Therefore, it is possible to shorten the time until the object (target person A) is captured, and it is possible to quickly recognize the position of the object.

【0166】また、テレビカメラの向きを変えたり焦点
を調整調整するための機構が不要となるので、オブジェ
クトを捉える作業を自動化することができると共に、駆
動部分がなくなるので、テレビカメラの耐久性や信頼性
を高めることができる。
Further, since the mechanism for changing the direction of the television camera and adjusting the focus is unnecessary, the work for capturing the object can be automated and the driving part is eliminated, so that the durability of the television camera can be improved. The reliability can be increased.

【0167】また、1つのオブジェクトに対して複数の
テレビカメラにより撮影しているので、例えば家具等の
視野を遮る障害物や他のオブジェクトが存在していて
も、3次元座標を演算することができる。
Also, since one object is photographed by a plurality of television cameras, the three-dimensional coordinates can be calculated even if there are obstacles such as furniture that obstruct the visual field and other objects. it can.

【0168】また、テレビカメラは3次元空間を構成す
る部屋の天井に配置されているので、壁面を有効に使用
することができる。
Further, since the television camera is arranged on the ceiling of the room forming the three-dimensional space, the wall surface can be effectively used.

【0169】なお、本第5の実施形態では複数のテレビ
カメラ16を天井52に配置したが、図24の(A)〜
(F)に示すように、壁の近くに配置したり壁に埋め込
んで配置してもよく、天井と壁で構成される2面のコー
ナー部や天井と2面の壁で構成される3面のコーナー部
に配置してもよい。更に、図24の(M)〜(O)に示
すように、等距離射影型魚眼レンズ16Aを部屋の中心
に向けるようにしてもよい。
In the fifth embodiment, the plurality of television cameras 16 are arranged on the ceiling 52, but FIGS.
As shown in (F), it may be arranged near the wall or embedded in the wall, and a two-sided corner portion composed of the ceiling and the wall, or three surfaces composed of the ceiling and the two-sided wall. You may arrange in the corner part of. Further, as shown in (M) to (O) of FIG. 24, the equidistant projection type fisheye lens 16A may be directed to the center of the room.

【0170】また、本第5の実施形態では、図15に示
すオブジェクト分別処理におけるステップ140で、オ
ブジェクトが部屋50内に存在しないときの画像データ
Aを読み出したが、このステップ140を行わないで、
テレビカメラ16で撮影した画像データBと画像データ
Bから所定時間T経過後の画像データCとに基づいて、
オブジェクトを認識するようにしてもよい。
Further, in the fifth embodiment, the image data A when the object does not exist in the room 50 is read in step 140 in the object classification processing shown in FIG. 15, but this step 140 is not performed. ,
Based on the image data B captured by the television camera 16 and the image data C after a predetermined time T has elapsed from the image data B,
You may make it recognize an object.

【0171】また、本第5の実施形態では2台のテレビ
カメラを用いてオブジェクトを含む画像を撮影したが、
3台以上のテレビカメラを用いても良い。
In addition, in the fifth embodiment, two television cameras are used to shoot an image including an object.
You may use three or more TV cameras.

【0172】また、本第5の実施形態では、等距離射影
型魚眼レンズを用いたが、上述したように等立体角射影
型魚眼レンズ、立体射影型魚眼レンズや正射影型魚眼レ
ンズを用いても、上記と同様に対象人物Aの頭部の3次
元座標を演算することができる。以下に等立体角射影型
魚眼レンズを用いたときの式(1)〜式(6)に相当す
る式をそれぞれ次の式(1)’〜式(6)’を示す。
Further, in the fifth embodiment, the equidistant projection type fisheye lens is used. However, as described above, the equisolid angle projection type fisheye lens, the stereoscopic projection type fisheye lens and the orthographic projection type fisheye lens are also used. Similarly, the three-dimensional coordinates of the head of the target person A can be calculated. The following equations (1) ′ to (6) ′ are equations corresponding to the equations (1) to (6) when the equisolid angle projection type fisheye lens is used.

【0173】 θ=tan-1(R/H) ・・・・・(1)’ θ’=tan-1{R/(H−h)} ・・・・・(2)’ r=2fsin(θ/2) ・・・・・(3)’ r’=2fsin(θ’/2) ・・・・・(4)’ h=H[1−tan{2sin-1(r/2f)} /tan{2sin-1(r’/2f)}] ・・・・・(5)’ R=Htan{2sin-1(r/2f)} ・・・・・(6)’ 〔第6の実施形態〕次に、本発明に係る第6の実施形態
について説明する。本第6の実施形態では、オブジェク
トの音の抽出を行うにあたり、1台のテレビカメラと1
枚の鏡とを用いて得たオブジェクトを含む画像データに
基づいて、オブジェクトの3次元座標を演算し、オブジ
ェクトの位置を認識する例を示す。なお、本第6の実施
形態は前記第5の実施形態と略同一であるので、図13
乃至図16において同一の部分には同一の符号を付し、
説明を省略する。
Θ = tan −1 (R / H) (1) ′ θ ′ = tan −1 {R / (H−h)} (2) ′ r = 2fsin ( θ / 2) (3) 'r' = 2 fsin (θ '/ 2) ... (4)' h = H [1-tan {2 sin -1 (r / 2f)} / tan {2sin −1 (r ′ / 2f)}] (5) ′ R = Htan {2sin −1 (r / 2f)} (6) ′ [Sixth embodiment] Next, a sixth embodiment according to the present invention will be described. In the sixth embodiment, one TV camera and one TV camera are used to extract the sound of the object.
An example in which the three-dimensional coordinates of the object are calculated based on the image data including the object obtained by using the mirror and the position of the object is recognized will be described. Note that the sixth embodiment is substantially the same as the fifth embodiment, so that FIG.
Throughout FIG. 16, the same parts are designated by the same reference numerals,
Description is omitted.

【0174】図25に示すように、各テレビカメラ16
の1側面には、CCDエリアイメージセンサ16Bの1
端面の方向(X方向)と平行で鉛直方向(Z方向)に縦
長の鏡74が天井52に固設されている。
As shown in FIG. 25, each television camera 16
1 side of the CCD area image sensor 16B
A vertically long mirror 74 is fixed to the ceiling 52 in the vertical direction (Z direction) in parallel with the direction of the end surface (X direction).

【0175】次に、本第6の実施形態の等距離射影型魚
眼レンズ16A、CCDエリアイメージセンサ16B及
び鏡74の位置、距離及び角度等の諸量を図25、26
を参照して説明する。なお、図26は等距離射影型魚眼
レンズ16AとCCDエリアイメージセンサ16Bとの
距離は微小であるものとして無視したときの上記諸量の
詳細を表したものである。
Next, various quantities such as the position, distance and angle of the equidistant projection type fisheye lens 16A, the CCD area image sensor 16B and the mirror 74 of the sixth embodiment are shown in FIGS.
Will be described with reference to. Note that FIG. 26 shows the details of the above-mentioned various amounts when the distance between the equidistant projection type fisheye lens 16A and the CCD area image sensor 16B is negligible.

【0176】図25に示すように、CCDエリアイメー
ジセンサ16BのCCD面と同一のXY平面上にある鏡
74の上端部の中央を3次元座標の原点O(0,0,
0)にとる。CCD面の画像中心Hは原点OからY方向
に距離hだけ離れており、画像中心Hの3次元座標を
(0,h,0)にとる。なお、対象人物Aの所定部位
(例えば頭部)Pの3次元座標を(x,y,z)とし、
点Pから出た光は等距離射影型魚眼レンズ16Aで屈折
してCCD面上の点Dに結像する。このCCD面上の点
Dの2次元座標を(αD ,βD )とする。また、点Pか
ら出た光で鏡74により反射した光は等距離射影型魚眼
レンズ16Aで屈折してCCD面上の点Rに結像する。
このCCD面上の点Rの2次元座標を(αR ,βR )と
する。なお、鏡74がないときの仮想のテレビカメラ1
7を想定し、CCD面の画像中心H’の3次元座標を
(0,−h,0)にとったときに、点Pから出た光は仮
想の等距離射影型魚眼レンズ17Aで屈折して仮想のC
CDエリアイメージセンサ17BのCCD面上の点R’
に結像するものとし、上述した点Rと仮想した点R’と
は鏡74に対して対称であるものとする。また、CCD
面上の画像中心Hから点Dまでの距離をrD 、CCD面
上の画像中心Hから点Rまでの距離をrR とする。
As shown in FIG. 25, the center of the upper end of the mirror 74 on the same XY plane as the CCD surface of the CCD area image sensor 16B is located at the origin O (0, 0, 0, 0, 0, 0, 0) of the three-dimensional coordinate.
Take 0). The image center H of the CCD surface is separated from the origin O in the Y direction by a distance h, and the three-dimensional coordinate of the image center H is set to (0, h, 0). In addition, the three-dimensional coordinates of a predetermined part (for example, head) P of the target person A are (x, y, z),
The light emitted from the point P is refracted by the equidistant projection type fisheye lens 16A and forms an image at the point D on the CCD surface. The two-dimensional coordinates of the point D on the CCD surface are (α D , β D ). Further, the light emitted from the point P and reflected by the mirror 74 is refracted by the equidistant projection type fisheye lens 16A and imaged at the point R on the CCD surface.
The two-dimensional coordinates of the point R on the CCD surface are (α R , β R ). The virtual TV camera 1 without the mirror 74
7 is assumed and the three-dimensional coordinate of the image center H'of the CCD surface is (0, -h, 0), the light emitted from the point P is refracted by the virtual equidistant projection fisheye lens 17A. Virtual C
Point R'on the CCD surface of the CD area image sensor 17B
It is assumed that the image is formed on the image, and the point R and the virtual point R ′ described above are symmetrical with respect to the mirror 74. Also CCD
The distance from the image center H on the surface to the point D is r D , and the distance from the image center H on the CCD surface to the point R is r R.

【0177】図26に示したように、点HからZ方向に
下ろした垂線上にある任意の点を点Vとし、点H’から
Z方向に下ろした垂線上にある任意の点を点V’とした
とき、点PHVのなす角を角θD 、点PH’V’のなす
角を角θR'とする。また、3次元座標(x,y,0)で
表される点を点S、点Sと点Hとの距離を距離BR 、点
Sと点H’との距離を距離BR'、点Pと点Hとの距離を
距離AD 、点Pと点H’との距離を距離AR'とする。
As shown in FIG. 26, an arbitrary point on the perpendicular drawn from the point H in the Z direction is defined as a point V, and an arbitrary point on the perpendicular drawn from the point H ′ in the Z direction to the point V. The angle formed by the point PHV is the angle θ D , and the angle formed by the point PH'V 'is the angle θ R' . Also, three-dimensional coordinates (x, y, 0) point S to the point represented by the distance the distance B R between points S and H, 'distance the distance B R of the' points S and H, the point The distance between P and the point H is defined as a distance A D , and the distance between the point P and a point H ′ is defined as a distance A R ′ .

【0178】次に、本第6の実施形態の作用について説
明する。図16に示す抽出位置設定処理におけるステッ
プ160では、対象人物Aを撮影するための1台のテレ
ビカメラ16を選択(例えば距離rD が最も小さいテレ
ビカメラを選択)し、対象人物Aの頭部の位置に対応す
るCCD面上の点D(αD ,βD )及び点R(αR ,β
R )の各々の2次元座標値を取り込む。
Next, the operation of the sixth embodiment will be described. In step 160 in the extraction position setting process shown in FIG. 16, one TV camera 16 for shooting the target person A is selected (for example, the TV camera with the smallest distance r D is selected), and the head of the target person A is selected. Point D (α D , β D ) and point R (α R , β on the CCD surface corresponding to the position
Each two-dimensional coordinate value of R ) is taken in.

【0179】次のステップ162では、3次元座標を演
算する。ここで、図25及び26を参照して上述した諸
量について更に説明する。
In the next step 162, three-dimensional coordinates are calculated. Here, the various quantities described above will be further described with reference to FIGS.

【0180】角θD 及びθR'はそれぞれ、 θD =tan-1(BD /Q) =tan-1[{(y−h)2 +x2 1/2 /z] θR'=tan-1(BR'/Q) =tan-1[{(y+h)2 +x2 1/2 /z] により求めることができるので、上記式(3)から距離
D 及びrR は次式により表される。
The angles θ D and θ R ′ are respectively θ D = tan −1 (B D / Q) = tan −1 [{(y−h) 2 + x 2 } 1/2 / z] θ R ′ = tan −1 (BR / Q) = tan −1 [{(y + h) 2 + x 2 } 1/2 / z], the distances r D and r R can be calculated from the above equation (3) as follows. It is represented by a formula.

【0181】 rD =f・tan-1[{(y−h)2 +x2 1/2 /z] rR =f・tan-1[{(y+h)2 +x2 1/2 /z] ところで、 αD =rD cos(π−φD )=−rD cosφD ・・・(17) βD =rD sin(π−φD )=rD sinφD ・・・(18) αR =rR cosφR' (∵φR'=φR ) ・・・(19) βR =rR sinφR' (∵φR'=φR ) ・・・(20) また、 cosφD =(y−h)/{(y−h)2 +x2 1/2 ・・・(21) sinφD =x/{(y−h)2 +x2 1/2 ・・・(22) cosφR'=(y+h)/{(y+h)2 +x2 1/2 ・・・(23) sinφR'=x/{(y+h)2 +x2 1/2 ・・・(24) であるので、式(17)及び式(21)並びに式(1
8)及び式(22)から、 αD =−fθD (y−h)/{(y−h)2 +x2 1/2 ・・・(25) βD =fθD x/{(y−h)2 +x2 1/2 ・・・(26) と表すことができる。この2つの式からfθD を消去す
ると、 y=h−(αD /βD )x ・・・(27) 同様に、 αR =fθR'(y+h)/{(y+h)2 +x2 1/2 ・・・(28) βR =fθR'x/{(y+h)2 +x2 1/2 ・・・(29) y=−h+(αR /βR )x ・・・(30) 式(27)及び(30)から x=2hβD βR /(αD βR +αR βD ) ・・・(31) により3次元座標PのX座標を求めることができる。
R D = f · tan -1 [{(y-h) 2 + x 2 } 1/2 / z] r R = f · tan -1 [{(y + h) 2 + x 2 } 1/2 / z Incidentally, α D = r D cos ( π-φ D) = - r D cosφ D ··· (17) β D = r D sin (π-φ D) = r D sinφ D ··· (18) α R = r R cos φ R ' (∵ φ R' = φ R ) ・ ・ ・ (19) β R = r R sin φ R ' (∵ φ R ' = φ R ) ・ ・ ・ (20) Also, cos φ D = (Y−h) / {(y−h) 2 + x 2 } 1/2 ... (21) sin φ D = x / {(y−h) 2 + x 2 } 1/2 ... (22) cos φ R ' = (y + h) / {(y + h) 2 + x 2 } 1/2 ... (23) sin φ R' = x / {(y + h) 2 + x 2 } 1/2 ... (24) Therefore, equation (17) and equation (21) and equation (1
8) and equation (22), α D = −fθ D (y−h) / {(y−h) 2 + x 2 } 1/2 ... (25) β D = fθ D x / {(y -H) 2 + x 2 } 1/2 ... (26) Eliminating fθ D from these two equations, y = h− (α D / β D ) x (27) Similarly, α R = fθ R ′ (y + h) / {(y + h) 2 + x 2 } 1/2 ··· (28) β R = fθ R 'x / {(y + h) 2 + x 2} 1/2 ··· (29) y = -h + (α R / β R) x ··· ( 30) (27) and (can be obtained X coordinate of from 30) x = 2hβ D β R / (α D β R + α R β D) 3 -dimensional coordinate P by ... (31).

【0182】次に、式(31)を式(27)に代入し
て、 y=h(αR βD −αD βR )/(αD βR +αR βD )・・・(32) により3次元座標PのY座標を求めることができる。
Next, by substituting the equation (31) into the equation (27), y = h (α R β D −α D β R ) / (α D β R + α R β D ) (32) ), The Y coordinate of the three-dimensional coordinate P can be obtained.

【0183】また、 βD =rD sinφD =fθD sinφD =f・tan-1[{(y−h)2 +x2 1/2 /z]・sinφD この式を変形して、 z={(y−h)2 +x2 1/2 /tan(βD /fsinφD ) ={(y−h)2 +x2 1/2 /tan[(βD /f)×{(y−h)2 +x2 1/2 /x] ところで、式(31)及び式(32)から、 {(y−h)2 +x2 1/2 =2hβR (αD 2 +βD 2 1/2 /(αD βR +αR βD ) であるので、 z=2hβR (αD 2 +βD 2 1/2 /[(αD βR +αR βD )×tan{(αD 2 +βD 2 1/2 /f}] ・・・(33) により3次元座標PのZ座標を求めることができる。Β D = r D sin φ D = f θ D sin φ D = f · tan −1 [{(y−h) 2 + x 2 } 1/2 / z] · sin φ D z = {(y-h) 2 + x 2} 1/2 / tan (β D / fsinφ D) = {(y-h) 2 + x 2} 1/2 / tan [(β D / f) × {( y−h) 2 + x 2 } 1/2 / x] By the way, from the formula (31) and the formula (32), {(y−h) 2 + x 2 } 1/2 = 2hβ RD 2 + β D 2 ) 1/2 / (α D β R + α R β D ), so z = 2hβ RD 2 + β D 2 ) 1/2 / [(α D β R + α R β D ) × tan {( α D 2 + β D 2 ) 1/2 / f}] ... (33) The Z coordinate of the three-dimensional coordinate P can be obtained.

【0184】なお、鏡74からのCCD面の画像中心H
までの距離hは予め定められている。従って、ステップ
162では、ROM14Bから式(31)、(32)及
び(33)を読み出し、ステップ160で取り込んだC
CD面上の点D(αD ,βD)及び点R(αR ,βR
の各々の2次元座標値を代入して対象人物Aの頭部の3
次元座標P(x,y,z)を演算する。
Incidentally, the image center H from the mirror 74 on the CCD surface
The distance h up to is predetermined. Therefore, in step 162, the equations (31), (32), and (33) are read from the ROM 14B and the C read in in step 160 is read.
Point D (α D , β D ) and point R (α R , β R ) on the CD surface
Substituting each two-dimensional coordinate value of
The dimensional coordinate P (x, y, z) is calculated.

【0185】このように本第6の実施形態によれば、1
台のテレビカメラによって対象人物Aの頭部の3次元座
標を演算することができるので、天井52に設置するテ
レビカメラの台数を少なくすることができる。
As described above, according to the sixth embodiment, 1
Since the three-dimensional coordinates of the head of the target person A can be calculated by one TV camera, the number of TV cameras installed on the ceiling 52 can be reduced.

【0186】なお、本第6の実施形態では、天井52に
設置された1台のテレビカメラ及び1枚の鏡によりオブ
ジェクトの3次元座標を演算する例を示したが、図24
の(G)〜(L)に示したように、鏡を壁面に取付ける
ようにしてもよいし、1台のテレビカメラ及び複数の鏡
を使用してもよい。また、湾曲した鏡を使用してもよ
い。複数の鏡を使用した場合、CCD面にはより多くの
オブジェクト像が形成されるので、他の物体(例えば家
具や柱等)により死角が生じても、上記のようにして3
次元座標を演算することができる。
In the sixth embodiment, one television camera and one mirror installed on the ceiling 52 are used to calculate the three-dimensional coordinates of the object.
As shown in (G) to (L), the mirror may be attached to the wall surface, or one TV camera and a plurality of mirrors may be used. Also, curved mirrors may be used. When a plurality of mirrors are used, more object images are formed on the CCD surface, so even if a blind spot occurs due to another object (furniture, pillar, etc.)
Dimensional coordinates can be calculated.

【0187】〔第7の実施形態〕次に、本発明に係る第
7の実施形態について説明する。本第7の実施形態で
は、オブジェクトの音の抽出を行うにあたり、ボクセル
を設定することなくオブジェクトの形状を認識する例を
示す。なお、本第7の実施形態は上記第5の実施形態と
略同一であるので、図13及び図16の同一の部分には
同一の符号を付し、説明を省略する。また、本第7の実
施形態では、説明を簡単にするために、図28に示した
ように対象人物AをテレビカメラA、B、C、Dで捉え
た場合を想定する。
[Seventh Embodiment] Next, a seventh embodiment according to the present invention will be described. In the seventh embodiment, an example of recognizing the shape of an object without setting voxels when extracting the sound of the object will be shown. Since the seventh embodiment is substantially the same as the fifth embodiment, the same parts in FIGS. 13 and 16 are designated by the same reference numerals and the description thereof will be omitted. In addition, in the seventh embodiment, in order to simplify the description, it is assumed that the target person A is captured by the television cameras A, B, C, and D as illustrated in FIG. 28.

【0188】本第7の実施形態における抽出位置演算プ
ロセッサ14は、オブジェクト像を含む歪曲した画像デ
ータを、平面化した画像データに変換し、該変換した画
像データに基づいて少なくともオブジェクト像の正面、
背面、左側面、右側面及び平面の画像データを求め、該
求めた画像データを合成してオブジェクトを認識する機
能を有する。
The extraction position arithmetic processor 14 in the seventh embodiment converts the distorted image data including the object image into flattened image data, and based on the converted image data, at least the front of the object image,
It has a function of obtaining image data of the back surface, the left side surface, the right side surface, and the plane, and synthesizing the obtained image data to recognize an object.

【0189】次に、本第7の実施形態の作用について説
明する。図27に示す抽出位置演算処理におけるステッ
プ121では、テレビカメラA、B、C、Dにより撮影
された画像データを取り込む。このステップ121で取
り込んだ画像データの画像は、図29(A)〜(D)に
示すように、歪曲が生じている。次のステップ123で
は、これらの歪曲した画像の画像データを、平面化した
画像データに変換し、図30(A)〜(D)に示すよう
な画像データとする。
Next, the operation of the seventh embodiment will be described. At step 121 in the extraction position calculation process shown in FIG. 27, the image data captured by the television cameras A, B, C and D is captured. The image of the image data captured in step 121 is distorted as shown in FIGS. 29 (A) to (D). In the next step 123, the image data of these distorted images are converted into flattened image data to obtain image data as shown in FIGS.

【0190】次のステップ125では、平面化した画像
データから対象人物Aの前面、背面、左側面、右側面及
び平面の画像データを求める。図31(A)〜(C)に
は、このステップ125で求められた対象人物Aの前
面、右側面及び平面の画像データをそれぞれ示す。次の
ステップ127では、ステップ125で求めた前面、背
面、左側面、右側面及び平面の画像データを合成する。
これにより、オブジェクトの形状を認識することができ
る。次のステップ134では、前記合成した対象人物A
の画像データに基づいて、図16に示す抽出位置設定処
理を上記第5の実施形態と同様に実行する。
At the next step 125, the image data of the front face, the back face, the left side face, the right side face and the plane of the target person A is obtained from the flattened image data. 31A to 31C show image data of the front face, the right side face, and the plane of the target person A obtained in step 125, respectively. In the next step 127, the image data of the front surface, the back surface, the left side surface, the right side surface and the plane surface obtained in step 125 are combined.
Thereby, the shape of the object can be recognized. In the next step 134, the synthesized target person A
The extraction position setting process shown in FIG. 16 is executed based on the image data of the same as in the fifth embodiment.

【0191】このように本第7の実施形態によれば、ボ
クセルを設定することなくオブジェクトの形状を認識す
ることができる。
As described above, according to the seventh embodiment, the shape of the object can be recognized without setting voxels.

【0192】なお、上記第1〜第7の実施形態のテレビ
カメラ16は可視光のテレビカメラを用いたが、これを
例えば、赤外線カメラのように可視光以外の波長域で撮
影するようにしてもよい。このようにすれば、照明灯が
点灯していないときにもオブジェクトを撮影することが
できるので、防犯装置や監視装置としても使用すること
が可能となる。
The TV cameras 16 of the first to seventh embodiments are visible light TV cameras. However, for example, an infrared camera is used to shoot in a wavelength range other than visible light. Good. With this configuration, the object can be photographed even when the illumination lamp is not turned on, and thus the object can be used as a crime prevention device or a monitoring device.

【0193】また、上記第5〜第7の実施形態では、第
1の実施形態の音抽出装置10に、広角固定焦点レンズ
としての魚眼レンズ16A及びCCDエリアイメージセ
ンサ16Bを備えたテレビカメラ16を適用することに
より、オブジェクトの位置、形状を効率的に(速やか
に)求める例を示したが、上記第2〜第4の実施形態の
音抽出装置10に、広角固定焦点レンズとしての魚眼レ
ンズ16A及びCCDエリアイメージセンサ16Bを備
えたテレビカメラ16を適用しても同様の効果を得るこ
とができる。
In the fifth to seventh embodiments, the television camera 16 including the fish-eye lens 16A as a wide-angle fixed focus lens and the CCD area image sensor 16B is applied to the sound extraction device 10 of the first embodiment. By doing so, an example of efficiently (quickly) obtaining the position and shape of the object has been shown. However, in the sound extraction device 10 of the second to fourth embodiments, the fisheye lens 16A as a wide-angle fixed focus lens and the CCD are used. The same effect can be obtained by applying the television camera 16 including the area image sensor 16B.

【0194】以上の説明からも明らかなように、本発明
は次の技術的態様を含むものである。
As is clear from the above description, the present invention includes the following technical aspects.

【0195】前記撮影手段は、3次元空間を構成する部
屋の天井に配置されたことを特徴とする請求項1乃至1
4の何れか1項に記載の音抽出装置。
[0195] The photographing means is arranged on a ceiling of a room forming a three-dimensional space.
The sound extraction device according to any one of 4 above.

【0196】前記撮影手段は、可視光以外の波長域で撮
影することを特徴とする請求項1乃至14の何れか1項
に記載の音抽出装置。
15. The sound extraction device according to claim 1, wherein the photographing means photographs in a wavelength range other than visible light.

【0197】前記形状認識手段は、オブジェクト像を含
む歪曲した画像情報を、平面化した画像情報に変換し、
該変換した画像情報に基づいて少なくともオブジェクト
像の正面、背面、左側面、右側面及び平面の画像情報を
求め、該求めた画像情報を合成してオブジェクトを認識
することを特徴とする請求項10乃至14の何れか1項
に記載の音抽出装置。
The shape recognizing means converts the distorted image information including the object image into flattened image information,
11. The object is recognized by obtaining image information of at least a front surface, a back surface, a left side surface, a right side surface, and a plane of an object image based on the converted image information, and synthesizing the obtained image information to recognize an object. 15. The sound extraction device according to any one of 14 to 14.

【0198】人の特徴である高さ、太さ、頭、腕、手、
足、顔、目、鼻、口、耳、つま先及び関節に関する情報
としての特徴情報の少なくとも1つを予め記憶した記憶
手段を更に備え、前記形状認識手段は、前記記憶手段に
記憶された特徴情報を読み出し、該特徴情報と撮影手段
により撮影された画像情報とに基づいて、オブジェクト
が人であることを認識することを特徴とする請求項10
乃至14の何れか1項に記載の音抽出装置。
Height, thickness, head, arms, hands, which are characteristics of a person,
The shape recognition unit further includes a storage unit that stores in advance at least one of feature information as information about the foot, face, eyes, nose, mouth, ear, toes, and joints, and the shape recognition unit stores the feature information stored in the storage unit. 11. The object is recognized as a person based on the characteristic information and the image information captured by the image capturing unit.
15. The sound extraction device according to any one of 14 to 14.

【0199】[0199]

【発明の効果】請求項1記載の発明によれば、オブジェ
クトの位置を認識し且つその位置に基づいてオブジェク
トが発する音を周囲の雑音と弁別して抽出することがで
きる、という効果が得られる。
According to the first aspect of the present invention, it is possible to recognize the position of an object and to extract the sound emitted by the object based on the position by discriminating the noise from the ambient noise.

【0200】また、請求項2及び16に記載の発明によ
れば、特にオブジェクトが発する音の指向性が強い場合
やオブジェクトの音を発する部分(面)が大きい場合等
には、より高い精度の音の抽出を行うことができる、と
いう効果が得られる。
Further, according to the invention described in claims 2 and 16, it is possible to obtain higher accuracy especially when the directivity of the sound emitted by the object is strong or when the part (face) of the object which emits the sound is large. The effect that sound can be extracted is obtained.

【0201】また、請求項3記載の発明によれば、移動
するオブジェクトに対しても、該オブジェクトからの音
を抽出することができる、という効果が得られる。
According to the third aspect of the invention, the effect that the sound from the moving object can be extracted can be obtained.

【0202】また、請求項4及び17に記載の発明によ
れば、複数のオブジェクトに対しても、該複数のオブジ
ェクトの各々からの音を抽出することができる、という
効果が得られる。
Further, according to the invention described in claims 4 and 17, it is possible to obtain the effect that the sound from each of the plurality of objects can be extracted even for the plurality of objects.

【0203】また、請求項5及び18に記載の発明によ
れば、音響環境の状態の変化に応じて精度の高い音の抽
出を行うことができる、という効果が得られる。
Further, according to the invention described in claims 5 and 18, it is possible to obtain the effect that the sound can be extracted with high accuracy according to the change in the state of the acoustic environment.

【0204】また、請求項6及び19に記載の発明によ
れば、高音域が低い周波数成分よりも相対的に弱くなる
ことを防止することができる、という効果が得られる。
Further, according to the invention described in claims 6 and 19, it is possible to prevent the treble range from being relatively weaker than the low frequency component.

【0205】また、請求項7及び20に記載の発明によ
れば、オブジェクトの周辺の反射面等の配置状況に応じ
てより適切な音の抽出を行うことができる、という効果
が得られる。
Further, according to the invention described in claims 7 and 20, it is possible to obtain an effect that more appropriate sound can be extracted according to the arrangement condition of the reflecting surface and the like around the object.

【0206】また、請求項8及び21に記載の発明によ
れば、音の抽出の精度を低下させることなく、音の抽出
に係る処理(抽出手段によるシフト及び抽出処理)の負
荷を軽減することができる、という効果が得られる。
According to the eighth and twenty-first aspects of the present invention, the load of processing relating to sound extraction (shifting and extraction processing by the extraction means) can be reduced without lowering the accuracy of sound extraction. The effect is obtained.

【0207】また、請求項9及び22に記載の発明によ
れば、音抽出装置により音の抽出が可能な領域内にいる
人(一人又は複数人)が発した声を音声認識装置へ入力
することができる、という効果が得られる。
According to the ninth and twenty-second aspects of the present invention, the voice uttered by a person (one or more people) in the area where the sound extraction device can extract the sound is input to the voice recognition device. The effect that can be obtained is obtained.

【0208】また、請求項10記載の発明によれば、オ
ブジェクトの移動に追従した撮影手段の向きの変更や焦
点調整を行うことなく、オブジェクトの位置を速やかに
認識することができる、という効果が得られる。また、
撮影手段の向きの変更や焦点調整を行うための機械的な
作動機構が不要となるので、撮影手段並びに音抽出装置
の構造を簡単にすることができると共に、機械的な作動
部を減らすことにより耐久性を向上させることができ
る、という効果も得られる。さらに、認識されたオブジ
ェクトの位置に基づいてオブジェクトが発する音を周囲
の雑音と弁別して抽出することができる、という効果も
得られる。
According to the invention as set forth in claim 10, there is an effect that the position of the object can be promptly recognized without changing the direction of the photographing means and the focus adjustment following the movement of the object. can get. Also,
Since a mechanical operating mechanism for changing the direction of the photographing means and adjusting the focus is unnecessary, the structure of the photographing means and the sound extraction device can be simplified, and the number of mechanical actuation parts is reduced. The effect that the durability can be improved is also obtained. Furthermore, there is an effect that the sound emitted by the object can be discriminated and extracted from the ambient noise based on the recognized position of the object.

【0209】また、請求項11記載の発明によれば、画
像認識手段を構成する形状認識手段及び3次元座標演算
手段によって、オブジェクトの3次元座標を速やかに求
め、オブジェクトの位置を速やかに認識することができ
る、という効果が得られる。
According to the eleventh aspect of the invention, the three-dimensional coordinate of the object is promptly obtained by the shape recognizing means and the three-dimensional coordinate calculating means constituting the image recognizing means, and the position of the object is promptly recognized. The effect that can be obtained is obtained.

【0210】また、請求項12記載の発明によれば、微
小領域はエリアセンサの解像度の限界まで細分化するこ
とができるので、画像情報からオブジェクトが占有する
微小領域を求めることにより、オブジェクトの形状を細
部まで認識することができる、という効果が得られる。
According to the twelfth aspect of the invention, since the minute area can be subdivided to the limit of the resolution of the area sensor, the shape of the object can be obtained by obtaining the minute area occupied by the object from the image information. The effect of being able to recognize the details is obtained.

【0211】また、請求項13記載の発明によれば、複
数の撮影手段により撮影された各々異なる画像情報にお
ける影の領域を排除することができ、オブジェクトの形
状を正確に認識することができる、という効果が得られ
る。
According to the thirteenth aspect of the present invention, it is possible to eliminate shadow regions in different image information captured by a plurality of image capturing means, and to accurately recognize the shape of the object. The effect is obtained.

【0212】また、請求項14記載の発明によれば、エ
リアセンサ上に結像された2次元座標を取得し、該取得
した複数の2次元座標に基づいてオブジェクトの3次元
座標を演算することができる、という効果が得られる。
According to the fourteenth aspect of the present invention, the two-dimensional coordinates formed on the area sensor are acquired, and the three-dimensional coordinates of the object are calculated based on the acquired two-dimensional coordinates. The effect is obtained.

【0213】また、請求項15記載の発明によれば、反
射手段によりオブジェクト像をエリアセンサ上に結像さ
せることができるので、撮影手段が1つのみであっても
オブジェクトの位置を速やかに認識することができ、さ
らにその位置に基づいてオブジェクトが発する音を周囲
の雑音と弁別して抽出することができる、という効果が
得られる。
According to the fifteenth aspect of the invention, since the object image can be formed on the area sensor by the reflecting means, the position of the object can be quickly recognized even if there is only one photographing means. In addition, the effect that the sound emitted by the object can be discriminated from the ambient noise and extracted based on the position can be obtained.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る集音の原理を示す模式図である。FIG. 1 is a schematic diagram showing the principle of sound collection according to the present invention.

【図2】第1〜第4の実施形態に係る集音環境を示す模
式図である。
FIG. 2 is a schematic diagram showing a sound collection environment according to the first to fourth embodiments.

【図3】第1、第4の実施形態に係る音抽出装置の概略
構成図である。
FIG. 3 is a schematic configuration diagram of a sound extraction device according to first and fourth embodiments.

【図4】第1、第3、第4の実施形態に係る集音位置演
算プロセッサで実行される制御ルーチンを示す流図であ
る。
FIG. 4 is a flow chart showing a control routine executed by the sound collection position calculation processor according to the first, third and fourth embodiments.

【図5】第1、第2の実施形態に係る音声抽出ボードの
プロセッサで実行される制御ルーチンを示す流図であ
る。
FIG. 5 is a flowchart showing a control routine executed by a processor of the voice extraction board according to the first and second embodiments.

【図6】第2の実施形態に係る音抽出装置の概略構成図
である。
FIG. 6 is a schematic configuration diagram of a sound extraction device according to a second embodiment.

【図7】第2の実施形態に係る集音位置演算プロセッサ
で実行される制御ルーチンを示す流図である。
FIG. 7 is a flow chart showing a control routine executed by the sound collection position calculation processor according to the second embodiment.

【図8】第3の実施形態に係る音抽出装置の概略構成図
である。
FIG. 8 is a schematic configuration diagram of a sound extraction device according to a third embodiment.

【図9】第3の実施形態に係る音声抽出ボードのプロセ
ッサで実行される制御ルーチンを示す流図である。
FIG. 9 is a flowchart showing a control routine executed by the processor of the voice extraction board according to the third embodiment.

【図10】屋外での音の抽出に本発明の音抽出装置を適
用した場合の構成例である。
FIG. 10 is a configuration example in which the sound extraction device of the present invention is applied to the extraction of sounds outdoors.

【図11】第4の実施形態に係る音の音域による指向性
の違いを示す模式図である。
FIG. 11 is a schematic diagram showing a difference in directivity depending on a sound range of a sound according to the fourth embodiment.

【図12】第4の実施形態に係る音声抽出ボードのプロ
セッサで実行される制御ルーチンを示す流図である。
FIG. 12 is a flowchart showing a control routine executed by the processor of the voice extraction board according to the fourth embodiment.

【図13】第5〜第7の実施形態に係る集音環境を示す
模式図である。
FIG. 13 is a schematic diagram showing a sound collection environment according to fifth to seventh embodiments.

【図14】第5、第6の実施形態に係る集音位置演算プ
ロセッサで実行される制御ルーチンを示す流図である。
FIG. 14 is a flowchart showing a control routine executed by a sound collection position calculation processor according to fifth and sixth embodiments.

【図15】オブジェクト分別処理のサブルーチンを示す
流図である。
FIG. 15 is a flowchart showing a subroutine of object classification processing.

【図16】抽出位置設定処理のサブルーチンを示す流図
である。
FIG. 16 is a flowchart showing a subroutine of extraction position setting processing.

【図17】オブジェクトを分別する概念を説明する説明
図である。
FIG. 17 is an explanatory diagram illustrating a concept of separating objects.

【図18】オブジェクトの高さ等の諸量を説明する説明
図である。
FIG. 18 is an explanatory diagram illustrating various amounts such as the height of an object.

【図19】オブジェクトの影の部分とボクセルとの関係
を説明する説明図である。
FIG. 19 is an explanatory diagram illustrating a relationship between a shadow portion of an object and a voxel.

【図20】(A)はテレビカメラAの画像データによる
ボクセルを示す図であり、(B)はテレビカメラBの画
像データによるボクセルを示す図であり、(C)はテレ
ビカメラCの画像データによるボクセルを示す図であ
り、(D)はテレビカメラDの画像データによるボクセ
ルを示す図である。
20A is a diagram showing voxels based on image data of the television camera A, FIG. 20B is a diagram showing voxels based on image data of the television camera B, and FIG. 20C is image data of the television camera C. 3D is a diagram showing voxels according to FIG. 3, and FIG. 3D is a diagram showing voxels according to image data of the television camera D.

【図21】第2次絞り込みで絞り込まれたボクセルの概
念を説明する説明図である。
FIG. 21 is an explanatory diagram illustrating the concept of voxels narrowed down by the second narrowing down.

【図22】第2次絞り込みで絞り込まれたボクセルから
ダミーモデルに変換する概念を説明する説明図である。
FIG. 22 is an explanatory diagram illustrating a concept of converting voxels narrowed down by the second narrowing down to a dummy model.

【図23】2つのテレビカメラにより3次元座標を演算
するときの諸量を説明する概念図である。
FIG. 23 is a conceptual diagram illustrating various amounts when three-dimensional coordinates are calculated by two television cameras.

【図24】テレビカメラ又は鏡の各種配置を示す図であ
る。
FIG. 24 is a diagram showing various arrangements of a television camera or a mirror.

【図25】第6の実施形態に係る3次元位置認識装置の
構成図である。
FIG. 25 is a configuration diagram of a three-dimensional position recognition device according to a sixth embodiment.

【図26】第6の実施形態のCCDエリアイメージセン
サ等の位置を説明するための説明図である。
FIG. 26 is an explanatory diagram for explaining the positions of the CCD area image sensor and the like of the sixth embodiment.

【図27】第7の実施形態に係る集音位置演算プロセッ
サで実行される制御ルーチンを示す流図である。
FIG. 27 is a flow chart showing a control routine executed by the sound collection position calculation processor according to the seventh embodiment.

【図28】第7の実施形態のオブジェクト及びテレビカ
メラの配置を示す平面図である。
FIG. 28 is a plan view showing the arrangement of an object and a television camera of the seventh embodiment.

【図29】(A)はテレビカメラAの画像データの画像
を示す図であり、(B)はテレビカメラBの画像データ
の画像を示す図であり、(C)はテレビカメラCの画像
データの画像を示す図であり、(D)はテレビカメラD
の画像データの画像を示す図である。
29A is a diagram showing an image of image data of the television camera A, FIG. 29B is a diagram showing an image of image data of the television camera B, and FIG. 29C is image data of the television camera C. It is a figure which shows the image of, and (D) is a television camera D.
It is a figure which shows the image of the image data of.

【図30】(A)は歪曲したテレビカメラAの画像デー
タを平面化した画像データに変換したときの画像を示す
図であり、(B)は歪曲したテレビカメラBの画像デー
タを平面化した画像データに変換したときの画像を示す
図であり、(C)は歪曲したテレビカメラCの画像デー
タを平面化した画像データに変換したときの画像を示す
図であり、(D)は歪曲したテレビカメラDの画像デー
タを平面化した画像データに変換したときの画像を示す
図である。
FIG. 30A is a diagram showing an image when the distorted image data of the television camera A is converted into flattened image data, and FIG. 30B is a diagram showing the distorted image data of the television camera B. It is a figure which shows the image when converting into image data, (C) is a figure which shows the image when converting the image data of the distorted television camera C into the planarized image data, (D) is distorted. It is a figure which shows the image when converting the image data of the television camera D into the planarized image data.

【図31】(A)は真正面の画像データの画像を示す図
であり、(B)は真横の画像データの画像を示す図であ
り、(C)は真上の画像データの画像を示す図である。
FIG. 31A is a diagram showing an image of image data directly in front, FIG. 31B is a diagram showing an image of image data directly beside, and FIG. 31C is a diagram showing an image of image data immediately above. Is.

【符号の説明】[Explanation of symbols]

10 音抽出装置 12 音声抽出ボード 14 抽出位置演算プロセッサ 16 テレビカメラ(撮影手段) 16A 等距離射影型魚眼レンズ(広角固定焦点レン
ズ) 16B CCDエリアイメージセンサ(エリアセンサ) 21 音声出力端子 22 マイク 32 入力バッファメモリ 34 プロセッサ 44 出力バッファメモリ 46 加算器 58 温度センサ 60 風力計 62 風向計 74 鏡(反射手段)
10 sound extraction device 12 audio extraction board 14 extraction position calculation processor 16 TV camera (imaging means) 16A equidistant projection fisheye lens (wide-angle fixed focus lens) 16B CCD area image sensor (area sensor) 21 audio output terminal 22 microphone 32 input buffer Memory 34 Processor 44 Output buffer memory 46 Adder 58 Temperature sensor 60 Anemometer 62 Anemoscope 74 Mirror (reflecting means)

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H04N 7/18 G06F 15/62 415 9061−5H 15/70 460C G10K 15/00 M B (72)発明者 影山 健二 千葉県印旛郡印西町大塚1−5 株式会社 竹中工務店技術研究所内 (72)発明者 中島 立美 千葉県印旛郡印西町大塚1−5 株式会社 竹中工務店技術研究所内 (72)発明者 脇中 義孝 千葉県印旛郡印西町大塚1−5 株式会社 竹中工務店技術研究所内 (72)発明者 山田 祐生 千葉県印旛郡印西町大塚1−5 株式会社 竹中工務店技術研究所内 (72)発明者 海野 健一 千葉県印旛郡印西町大塚1−5 株式会社 竹中工務店技術研究所内 (72)発明者 村井 信義 千葉県印旛郡印西町大塚1−5 株式会社 竹中工務店技術研究所内─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification code Internal reference number FI Technical display location H04N 7/18 G06F 15/62 415 9061-5H 15/70 460C G10K 15/00 MB (72) Inventor Kenji Kageyama 1-5 Otsuka, Inzai-cho, Inba-gun, Chiba Prefecture Takenaka Corporation Technical Research Institute (72) Inventor Tatsumi Nakajima 1-5, Otsuka, Inzai-cho, Inba-gun Chiba Prefecture Takenaka Corporation Technical Research Institute (72) Inventor Yoshitaka Wanaka Naka 1-5, Otsuka, Inzai-cho, Inba-gun, Chiba Prefecture Technical Research Institute of Takenaka Corporation (72) Inventor Yusei Yamada 1-5 Otsuka, Inzai-cho, Inba-gun, Chiba Prefecture Technical Research Institute of Takenaka Corporation (72 ) Inventor Kenichi Unno 1-5 Otsuka, Inzai-cho, Inba-gun, Chiba Prefecture In the Technical Research Institute of Takenaka Corporation (72) Inventor Nobuyoshi Murai Inba, Chiba Prefecture 1-5 Otsuka, Inzai Town, Gunnaka Takenaka Corporation Technical Research Institute

Claims (22)

【特許請求の範囲】[Claims] 【請求項1】 音源としてのオブジェクトを含む領域を
撮影する撮影手段と、 前記撮影手段により撮影された領域の画像情報よりオブ
ジェクトの位置を認識する画像認識手段と、 予め定められた位置に配置され前記オブジェクトが発す
る音を採取する複数のマイクロフォンと、 前記複数のマイクロフォンの各々により採取された採取
音の時系列データのうち複数の採取音の時系列データを
選択し、選択した採取音の時系列データを、前記画像認
識手段により認識されたオブジェクトの位置及び該選択
した採取音を採取したマイクロフォンの位置に基づい
て、オブジェクトが発する音が同期するようにシフト
し、シフトした採取音の時系列データを平均することに
より、オブジェクトが発する音を抽出する抽出手段と、 を有する音抽出装置。
1. A photographing means for photographing an area including an object as a sound source, an image recognizing means for recognizing the position of the object from image information of the area photographed by the photographing means, and arranged at a predetermined position. A plurality of microphones for collecting sounds emitted by the object, and time series data of a plurality of collected sounds selected from time series data of the collected sounds collected by each of the plurality of microphones, and a time series of the selected collected sounds. The data is shifted based on the position of the object recognized by the image recognition means and the position of the microphone collecting the selected sampling sound so that the sound emitted by the object is synchronized, and the time-series data of the shifted sampling sound. A sound extraction device comprising: an extraction unit that extracts the sound emitted by the object by averaging the.
【請求項2】 前記画像認識手段は、オブジェクトを含
む領域の画像情報より該オブジェクトが音を発する方向
も認識し、さらにオブジェクトの位置及び該オブジェク
トが音を発する方向に基づいて、オブジェクトが発する
音を良好に抽出可能な位置をオブジェクトの位置と改め
て認識する、 ことを特徴とする請求項1記載の音抽出装置。
2. The image recognition means also recognizes a direction in which the object emits sound based on image information of an area including the object, and further, a sound emitted by the object based on the position of the object and the direction in which the object emits sound. The sound extraction device according to claim 1, wherein a position at which the sound can be properly extracted is recognized again as a position of the object.
【請求項3】 オブジェクトが移動する場合、前記撮影
手段はオブジェクトの移動に追従して該オブジェクトを
含む領域を撮影する、 ことを特徴とする請求項1記載の音抽出装置。
3. The sound extraction device according to claim 1, wherein when the object moves, the photographing means photographs the region including the object in accordance with the movement of the object.
【請求項4】 オブジェクトが複数存在する場合、前記
撮影手段は複数のオブジェクトを含む領域を撮影し、 前記画像認識手段は撮影された領域の画像情報より複数
のオブジェクトの各々の位置を認識し、 前記抽出手段は該複数のオブジェクトの各々からの音を
抽出する、 ことを特徴とする請求項1記載の音抽出装置。
4. When there are a plurality of objects, the photographing means photographs an area including the plurality of objects, and the image recognition means recognizes each position of the plurality of objects from image information of the photographed area, The sound extraction device according to claim 1, wherein the extraction unit extracts a sound from each of the plurality of objects.
【請求項5】 前記オブジェクト及び前記複数のマイク
ロフォンを含む領域において音速及び音伝搬経路の少な
くとも一方に影響を及ぼす要因とされる音響環境状態を
検出する検出手段を更に備え、 前記抽出手段は、前記検出手段によって検出された音響
環境状態が変化した場合に、変化した音響環境状態に基
づいて、前記採取音の時系列データのシフトを補正する
ことを特徴とする請求項1記載の音抽出装置。
5. A detection means for detecting an acoustic environment state that is a factor affecting at least one of a sound velocity and a sound propagation path in a region including the object and the plurality of microphones, and the extraction means includes: The sound extraction device according to claim 1, wherein, when the acoustic environment state detected by the detection means changes, the shift of the time-series data of the collected sound is corrected based on the changed acoustic environment state.
【請求項6】 前記抽出手段は、高音域の指向性に関す
る情報に基づき、高音域の採取音の時系列データを重み
付けして平均することを特徴とする請求項1記載の音抽
出装置。
6. The sound extraction device according to claim 1, wherein the extraction means weights and averages time-series data of collected sounds in the high frequency range based on information on directivity in the high frequency range.
【請求項7】 前記画像認識手段は、オブジェクトを含
む領域の画像情報より該オブジェクトが音を発する方
向、該オブジェクトの周辺に位置する音の反射面の位置
及び向きもさらに認識し、 前記抽出手段は、前記選択した採取音を採取したマイク
ロフォンの位置、オブジェクトの位置、該オブジェクト
が音を発する方向、及び前記反射面の位置並びに向きに
基づいて、前記選択した採取音の時系列データを、オブ
ジェクトからの直接音又は前記反射面で反射された反射
音の何れか一方が同期するようにシフトする、 ことを特徴とする請求項1記載の音抽出装置。
7. The image recognizing means further recognizes a direction in which the object emits sound and a position and direction of a sound reflecting surface located around the object based on image information of an area including the object, and the extracting means. Is the time series data of the selected collected sound based on the position of the microphone collecting the selected collected sound, the position of the object, the direction in which the object emits sound, and the position and the direction of the reflective surface. The sound extraction device according to claim 1, wherein either the direct sound from the sound or the reflected sound reflected by the reflection surface is shifted so as to be synchronized.
【請求項8】 前記抽出手段は、前記複数のマイクロフ
ォンの各々により採取された採取音の時系列データのう
ち、前記オブジェクトの位置から所定距離以上離れて位
置するマイクロフォンによって採取された採取音の時系
列データを、選択の対象から除外することを特徴とする
請求項1記載の音抽出装置。
8. The extraction means, when the time-series data of the sound collected by each of the plurality of microphones is a sound collected by a microphone located at a predetermined distance or more from the position of the object. The sound extraction device according to claim 1, wherein the sequence data is excluded from the selection target.
【請求項9】 前記抽出手段により抽出されたオブジェ
クトが発する音を所定の音声認識装置へ出力する出力手
段を更に備えたことを特徴とする請求項1記載の音抽出
装置。
9. The sound extraction device according to claim 1, further comprising output means for outputting a sound generated by the object extracted by the extraction means to a predetermined voice recognition device.
【請求項10】 予め定められた位置に配置された広角
固定焦点レンズを備え、音源としてのオブジェクトを含
む領域を撮影する撮影手段と、 前記撮影手段により撮影された領域の画像情報よりオブ
ジェクトの位置を認識する画像認識手段と、 予め定められた位置に配置され前記オブジェクトが発す
る音を採取する複数のマイクロフォンと、 前記複数のマイクロフォンの各々により採取された採取
音の時系列データのうち複数の採取音の時系列データを
選択し、選択した採取音の時系列データを、前記画像認
識手段により認識されたオブジェクトの位置及び該選択
した採取音を採取したマイクロフォンの位置に基づい
て、オブジェクトが発する音が同期するようにシフト
し、シフトした採取音の時系列データを平均することに
より、オブジェクトが発する音を抽出する抽出手段と、 を有する音抽出装置。
10. A photographing means for photographing a region including an object as a sound source, comprising a wide-angle fixed focus lens arranged at a predetermined position, and a position of the object based on image information of the region photographed by said photographing means. Image recognizing means for recognizing, a plurality of microphones arranged at a predetermined position for collecting sounds emitted by the object, and a plurality of collecting time-series data of collected sounds collected by each of the plurality of microphones. The time-series data of the sound is selected, and the time-series data of the selected sampled sound is generated based on the position of the object recognized by the image recognition means and the position of the microphone collecting the selected sampled sound. Are synchronized so that the time-series data of the shifted sampled sounds are averaged. A sound extraction device including: an extraction unit configured to extract a sound emitted by a sound source.
【請求項11】 前記撮影手段は複数設けられており、
各撮影手段は、前記広角固定焦点レンズによる結像点に
配置されたエリアセンサを更に備え、 前記画像認識手段は、該複数の撮影手段により撮影され
た各々異なる撮影情報を処理してオブジェクトの形状を
認識する形状認識手段と、前記形状認識手段により認識
されたオブジェクトの3次元座標を演算する3次元座標
演算手段と、を含んで構成された、 ことを特徴とする請求項10記載の音抽出装置。
11. A plurality of the photographing means are provided,
Each photographing means further includes an area sensor arranged at an image forming point by the wide-angle fixed focus lens, and the image recognition means processes different photographing information photographed by the plurality of photographing means to shape the object. 11. The sound extraction according to claim 10, further comprising: a shape recognizing means for recognizing the object, and a three-dimensional coordinate calculating means for calculating the three-dimensional coordinate of the object recognized by the shape recognizing means. apparatus.
【請求項12】 前記形状認識手段は、前記複数の撮影
手段により撮影された各々異なる画像情報に基づいて、
3次元空間をX軸、Y軸及びZ軸の各方向に沿って仮想
的に細分割することにより得られる多数の立方体状の微
小空間のうち、オブジェクトが占有する微小空間により
形成される領域を求めることによりオブジェクトの形状
を認識することを特徴とする請求項11記載の音抽出装
置。
12. The shape recognizing means, based on different image information captured by the plurality of image capturing means,
Of a large number of cubic microspaces obtained by virtually subdividing the three-dimensional space along each of the X-axis, Y-axis, and Z-axis, the region formed by the microspace occupied by the object The sound extraction device according to claim 11, wherein the shape of the object is recognized by obtaining the shape.
【請求項13】 前記形状認識手段は、前記複数の撮影
手段により撮影された各々異なる画像情報に基づいて、
3次元空間をX軸、Y軸及びZ軸の各方向に沿って仮想
的に細分割することにより得られる多数の立方体状の微
小空間のうち、各撮影手段からオブジェクトを投影する
視野角内に含まれる微小空間をそれぞれ抽出し、抽出し
た微小空間の全てに含まれる微小空間により形成される
領域を求めることによりオブジェクトの形状を認識する
ことを特徴とする請求項11記載の音抽出装置。
13. The shape recognition means, based on different image information captured by the plurality of imaging means,
Of a large number of cubic microspaces obtained by virtually subdividing a three-dimensional space along each of the X-axis, Y-axis, and Z-axis, within the viewing angle at which an object is projected from each photographing means. The sound extraction device according to claim 11, wherein the shape of the object is recognized by extracting each of the contained microspaces and obtaining a region formed by the microspaces included in all of the extracted microspaces.
【請求項14】 前記撮影手段は複数設けられており、
各撮影手段は、前記広角固定焦点レンズによる結像点に
配置されたエリアセンサを更に備え、 前記画像認識手段は、各撮影手段のエリアセンサ上に結
像された2次元座標を取得し、該取得した複数の2次元
座標に基づいてオブジェクトの位置を認識する、 ことを特徴とする請求項10記載の音抽出装置。
14. A plurality of the photographing means are provided,
Each photographing means further comprises an area sensor arranged at an image forming point by the wide-angle fixed focus lens, and the image recognition means acquires two-dimensional coordinates formed on the area sensor of each photographing means, The sound extraction device according to claim 10, wherein the position of the object is recognized based on the acquired plurality of two-dimensional coordinates.
【請求項15】 予め定められた位置に配置された広角
固定焦点レンズ及び該レンズによる結像点に配設された
エリアセンサを備え、音源としてのオブジェクトを含む
領域を撮影する撮影手段と、 前記撮影手段の近傍に配置され、前記エリアセンサ上に
結像するようにオブジェクトの像を反射する反射手段
と、 前記反射手段により反射されて前記エリアセンサ上に結
像されたオブジェクト像、及び前記反射手段により反射
されることなく前記エリアセンサ上に結像されたオブジ
ェクト像の各々の該エリアセンサ上における2次元座標
を取得し、該取得した複数の2次元座標に基づいてオブ
ジェクトの3次元座標を演算することにより、オブジェ
クトの位置を認識する画像認識手段と、 予め定められた位置に配置され前記オブジェクトが発す
る音を採取する複数のマイクロフォンと、 前記複数のマイクロフォンの各々により採取された採取
音の時系列データのうち複数の採取音の時系列データを
選択し、選択した採取音の時系列データを、前記画像認
識手段により認識されたオブジェクトの位置及び該選択
した採取音を採取したマイクロフォンの位置に基づい
て、オブジェクトが発する音が同期するようにシフト
し、シフトした採取音の時系列データを平均することに
より、オブジェクトが発する音を抽出する抽出手段と、 を有する音抽出装置。
15. A photographing means for photographing a region including an object as a sound source, comprising: a wide-angle fixed focus lens arranged at a predetermined position; and an area sensor arranged at an image forming point by the lens, Reflecting means arranged near the photographing means for reflecting the image of the object so as to form an image on the area sensor, an object image reflected by the reflecting means and formed on the area sensor, and the reflection The two-dimensional coordinates of each of the object images formed on the area sensor without being reflected by the means are acquired on the area sensor, and the three-dimensional coordinates of the object are calculated based on the acquired two-dimensional coordinates. Image recognition means for recognizing the position of the object by calculation, and the object being emitted at the predetermined position A plurality of microphones for collecting sounds, and time series data of a plurality of collected sounds is selected from time series data of the collected sounds collected by each of the plurality of microphones, and the time series data of the selected collected sounds is Shifting the sound emitted by the object so as to be synchronous, based on the position of the object recognized by the image recognition means and the position of the microphone collecting the selected sampling sound, and averaging the time-series data of the shifted sampling sound. A sound extraction device having: an extraction unit that extracts a sound emitted by the object.
【請求項16】 前記画像認識手段は、オブジェクトを
含む領域の画像情報より該オブジェクトが音を発する方
向も認識し、さらにオブジェクトの位置及び該オブジェ
クトが音を発する方向に基づいて、オブジェクトが発す
る音を良好に抽出可能な位置をオブジェクトの位置と改
めて認識する、 ことを特徴とする請求項10乃至15の何れか1項に記
載の音抽出装置。
16. The image recognition means also recognizes a direction in which the object emits sound based on image information of an area including the object, and further, a sound emitted by the object based on the position of the object and the direction in which the object emits sound. 16. The sound extraction device according to claim 10, further recognizing a position at which can be extracted satisfactorily as a position of the object.
【請求項17】 オブジェクトが複数存在する場合、前
記撮影手段は複数のオブジェクトを含む領域を撮影し、 前記画像認識手段は撮影された領域の画像情報より複数
のオブジェクトの各々の位置を認識し、 前記抽出手段は該複数のオブジェクトの各々からの音を
抽出する、 ことを特徴とする請求項10乃至15の何れか1項に記
載の音抽出装置。
17. When there are a plurality of objects, the photographing means photographs an area including the plurality of objects, and the image recognition means recognizes each position of the plurality of objects from image information of the photographed area, The sound extraction device according to any one of claims 10 to 15, wherein the extraction means extracts a sound from each of the plurality of objects.
【請求項18】 前記オブジェクト及び前記複数のマイ
クロフォンを含む領域において音速及び音伝搬経路の少
なくとも一方に影響を及ぼす要因とされる音響環境状態
を検出する検出手段を更に備え、 前記抽出手段は、前記検出手段によって検出された音響
環境状態が変化した場合に、変化した音響環境状態に基
づいて、前記採取音の時系列データのシフトを補正する
ことを特徴とする請求項10乃至15の何れか1項に記
載の音抽出装置。
18. A detection means for detecting an acoustic environment state that is a factor affecting at least one of a sound velocity and a sound propagation path in a region including the object and the plurality of microphones, the extraction means comprising: 16. When the acoustic environment state detected by the detection means changes, the shift of the time-series data of the collected sound is corrected based on the changed acoustic environment state. The sound extraction device according to item.
【請求項19】 前記抽出手段は、高音域の指向性に関
する情報に基づき、高音域の採取音の時系列データを重
み付けして平均することを特徴とする請求項10乃至1
5の何れか1項に記載の音抽出装置。
19. The method according to claim 10, wherein the extraction means weights and averages time-series data of collected sounds in the high frequency range based on information on directivity in the high frequency range.
The sound extraction device according to any one of 5 above.
【請求項20】 前記画像認識手段は、オブジェクトを
含む領域の画像情報より該オブジェクトが音を発する方
向、該オブジェクトの周辺に位置する音の反射面の位置
及び向きもさらに認識し、 前記抽出手段は、前記選択した採取音を採取したマイク
ロフォンの位置、オブジェクトの位置、該オブジェクト
が音を発する方向、及び前記反射面の位置並びに向きに
基づいて、前記選択した採取音の時系列データを、オブ
ジェクトからの直接音又は前記反射面で反射された反射
音の何れか一方が同期するようにシフトする、 ことを特徴とする請求項10乃至15の何れか1項に記
載の音抽出装置。
20. The image recognizing means further recognizes a direction in which the object emits a sound and a position and a direction of a sound reflecting surface located around the object, based on image information of a region including the object, and the extracting means. Is the time series data of the selected collected sound based on the position of the microphone collecting the selected collected sound, the position of the object, the direction in which the object emits sound, and the position and the direction of the reflective surface. The sound extraction device according to any one of claims 10 to 15, wherein either the direct sound from the sound or the reflected sound reflected by the reflection surface is shifted in synchronization.
【請求項21】 前記抽出手段は、前記複数のマイクロ
フォンの各々により採取された採取音の時系列データの
うち、前記オブジェクトの位置から所定距離以上離れて
位置するマイクロフォンによって採取された採取音の時
系列データを、選択の対象から除外することを特徴とす
る請求項10乃至15の何れか1項に記載の音抽出装
置。
21. When the sampling means collects a sound collected by a microphone located at a predetermined distance or more from the position of the object in the time-series data of the sound collected by each of the plurality of microphones. 16. The sound extraction device according to claim 10, wherein the series data is excluded from the selection targets.
【請求項22】 前記抽出手段により抽出されたオブジ
ェクトが発する音を所定の音声認識装置へ出力する出力
手段を更に備えたことを特徴とする請求項10乃至15
の何れか1項に記載の音抽出装置。
22. An output means for outputting the sound generated by the object extracted by the extraction means to a predetermined voice recognition device.
The sound extraction device according to any one of 1.
JP21785995A 1995-02-17 1995-08-25 Sound extraction device Expired - Fee Related JP3714706B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21785995A JP3714706B2 (en) 1995-02-17 1995-08-25 Sound extraction device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2918595 1995-02-17
JP7-29185 1995-02-17
JP21785995A JP3714706B2 (en) 1995-02-17 1995-08-25 Sound extraction device

Publications (2)

Publication Number Publication Date
JPH08286680A true JPH08286680A (en) 1996-11-01
JP3714706B2 JP3714706B2 (en) 2005-11-09

Family

ID=26367347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21785995A Expired - Fee Related JP3714706B2 (en) 1995-02-17 1995-08-25 Sound extraction device

Country Status (1)

Country Link
JP (1) JP3714706B2 (en)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000077537A1 (en) * 1999-06-11 2000-12-21 Japan Science And Technology Corporation Method and apparatus for determining sound source
WO2001045045A1 (en) * 1999-12-15 2001-06-21 Koninklijke Philips Electronics N.V. Speech command-controllable electronic apparatus preferably provided for co-operation with a data network
JP2003131683A (en) * 2001-10-22 2003-05-09 Sony Corp Device and method for voice recognition, and program and recording medium
JP2006065419A (en) * 2004-08-24 2006-03-09 Matsushita Electric Works Ltd Human sensing device
JP2007010897A (en) * 2005-06-29 2007-01-18 Toshiba Corp Sound signal processing method, device, and program
JP2007241304A (en) * 2007-04-20 2007-09-20 Sony Corp Device and method for recognizing voice, and program and recording medium therefor
WO2010046736A1 (en) * 2008-10-22 2010-04-29 Sony Ericsson Mobile Communications Ab System and method for generating multichannel audio with a portable electronic device eg using pseudo-stereo
JP2012014281A (en) * 2010-06-29 2012-01-19 Canon Inc Information processing device and operation method thereof
WO2014125835A1 (en) * 2013-02-15 2014-08-21 パナソニック株式会社 Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method
JP2014523679A (en) * 2011-06-21 2014-09-11 ロウルズ リミテッド ライアビリティ カンパニー Signal-enhanced beamforming in an augmented reality environment
JP2016020873A (en) * 2014-07-15 2016-02-04 パナソニックIpマネジメント株式会社 Sound speed correction device
JP2016200858A (en) * 2015-04-07 2016-12-01 ソニー株式会社 Information processing device, information processing method, and program
JP2017103542A (en) * 2015-11-30 2017-06-08 株式会社小野測器 Synchronization device, synchronization method and synchronization program
WO2020059447A1 (en) * 2018-09-18 2020-03-26 富士フイルム株式会社 Sound signal processor, sound signal processing method, sound signal processing program, sound signal processing system, and imaging device
US10834499B2 (en) 2015-12-04 2020-11-10 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
US11064291B2 (en) 2015-12-04 2021-07-13 Sennheiser Electronic Gmbh & Co. Kg Microphone array system

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035418B1 (en) 1999-06-11 2006-04-25 Japan Science And Technology Agency Method and apparatus for determining sound source
WO2000077537A1 (en) * 1999-06-11 2000-12-21 Japan Science And Technology Corporation Method and apparatus for determining sound source
WO2001045045A1 (en) * 1999-12-15 2001-06-21 Koninklijke Philips Electronics N.V. Speech command-controllable electronic apparatus preferably provided for co-operation with a data network
US7321853B2 (en) 2001-10-22 2008-01-22 Sony Corporation Speech recognition apparatus and speech recognition method
JP2003131683A (en) * 2001-10-22 2003-05-09 Sony Corp Device and method for voice recognition, and program and recording medium
JP2006065419A (en) * 2004-08-24 2006-03-09 Matsushita Electric Works Ltd Human sensing device
JP2007010897A (en) * 2005-06-29 2007-01-18 Toshiba Corp Sound signal processing method, device, and program
JP2007241304A (en) * 2007-04-20 2007-09-20 Sony Corp Device and method for recognizing voice, and program and recording medium therefor
WO2010046736A1 (en) * 2008-10-22 2010-04-29 Sony Ericsson Mobile Communications Ab System and method for generating multichannel audio with a portable electronic device eg using pseudo-stereo
JP2012014281A (en) * 2010-06-29 2012-01-19 Canon Inc Information processing device and operation method thereof
US9973848B2 (en) 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
JP2014523679A (en) * 2011-06-21 2014-09-11 ロウルズ リミテッド ライアビリティ カンパニー Signal-enhanced beamforming in an augmented reality environment
CN104106267A (en) * 2011-06-21 2014-10-15 若威尔士有限公司 Signal-enhancing beamforming in augmented reality environment
JPWO2014125835A1 (en) * 2013-02-15 2017-02-02 パナソニックIpマネジメント株式会社 Directivity control system, calibration method, horizontal deviation angle calculation method, and directivity control method
US10244162B2 (en) 2013-02-15 2019-03-26 Panasonic Intellectual Property Management Co., Ltd. Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method
CN105075288A (en) * 2013-02-15 2015-11-18 松下知识产权经营株式会社 Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method
US9860439B2 (en) 2013-02-15 2018-01-02 Panasonic Intellectual Property Management Co., Ltd. Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method
JP2018057023A (en) * 2013-02-15 2018-04-05 パナソニックIpマネジメント株式会社 Directivity control system and directivity control method
WO2014125835A1 (en) * 2013-02-15 2014-08-21 パナソニック株式会社 Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method
CN105075288B (en) * 2013-02-15 2018-10-19 松下知识产权经营株式会社 Directive property control system, calibration method, horizontal angle of deviation computational methods and directivity control method
US9622004B2 (en) 2014-07-15 2017-04-11 Panasonic Intellectual Property Management Co., Ltd. Sound velocity correction device
JP2016020873A (en) * 2014-07-15 2016-02-04 パナソニックIpマネジメント株式会社 Sound speed correction device
JP2016200858A (en) * 2015-04-07 2016-12-01 ソニー株式会社 Information processing device, information processing method, and program
JP2017103542A (en) * 2015-11-30 2017-06-08 株式会社小野測器 Synchronization device, synchronization method and synchronization program
US10834499B2 (en) 2015-12-04 2020-11-10 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
US11064291B2 (en) 2015-12-04 2021-07-13 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
US11381906B2 (en) 2015-12-04 2022-07-05 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
US11509999B2 (en) 2015-12-04 2022-11-22 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
US11765498B2 (en) 2015-12-04 2023-09-19 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
WO2020059447A1 (en) * 2018-09-18 2020-03-26 富士フイルム株式会社 Sound signal processor, sound signal processing method, sound signal processing program, sound signal processing system, and imaging device
JPWO2020059447A1 (en) * 2018-09-18 2021-08-30 富士フイルム株式会社 Audio signal processing device, audio signal processing method, audio signal processing program, audio signal processing system and imaging device
JP2022010300A (en) * 2018-09-18 2022-01-14 富士フイルム株式会社 Video/audio signal processing device, video/audio signal processing method, and video/audio signal processing system

Also Published As

Publication number Publication date
JP3714706B2 (en) 2005-11-09

Similar Documents

Publication Publication Date Title
JPH08286680A (en) Sound extracting device
CN104106267B (en) Signal enhancing beam forming in augmented reality environment
US9747454B2 (en) Directivity control system and sound output control method
JP4278979B2 (en) Single camera system for gesture-based input and target indication
JP3195920B2 (en) Sound source identification / separation apparatus and method
US6839081B1 (en) Virtual image sensing and generating method and apparatus
US20050117033A1 (en) Image processing device, calibration method thereof, and image processing
US10057706B2 (en) Information processing device, information processing system, control method, and program
US20080316203A1 (en) Information processing method and apparatus for specifying point in three-dimensional space
JPH11331827A (en) Television camera
JP5477777B2 (en) Image acquisition device
CN105245811B (en) A kind of kinescope method and device
US20040021767A1 (en) Image sensing apparatus and control method thereof
JPH08221081A (en) Sound transmission device
KR20200020590A (en) Surveillance camera system for extracting sound of specific region from visualized object and operating method the same
JPH07181024A (en) Method and apparatus for measuring three-dimensional profile
JP2000134537A (en) Image input device and its method
JP2004510137A (en) Apparatus and method for generating information about environmental characteristics
US11665391B2 (en) Signal processing device and signal processing system
JPH08329222A (en) Three-dimensional position recognition device
JPH10191498A (en) Sound signal processor
JP3151472B2 (en) Method for generating three-dimensional object image
JPH09145368A (en) Moving and tracing method for object by stereoscopic image
JP6664456B2 (en) Information processing system, control method therefor, and computer program
JP2016134765A (en) Monitoring system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050823

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090902

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100902

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees