JP2010154260A - Voice recognition device - Google Patents

Voice recognition device Download PDF

Info

Publication number
JP2010154260A
JP2010154260A JP2008330533A JP2008330533A JP2010154260A JP 2010154260 A JP2010154260 A JP 2010154260A JP 2008330533 A JP2008330533 A JP 2008330533A JP 2008330533 A JP2008330533 A JP 2008330533A JP 2010154260 A JP2010154260 A JP 2010154260A
Authority
JP
Japan
Prior art keywords
feature information
subject
image
unit
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008330533A
Other languages
Japanese (ja)
Inventor
Naoki Hanada
尚樹 花田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2008330533A priority Critical patent/JP2010154260A/en
Publication of JP2010154260A publication Critical patent/JP2010154260A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To obtain an excellent sound even for a sound source which intermittently generates the sound by attenuating noise. <P>SOLUTION: The voice recognition device includes: an image/sound feature information storage unit 31 which stores image/sound feature information; a body detection unit 24a which detects feature information of a subject image; sound detection units 14a and 14b which detect feature information of the sound; a body position detection unit 24b which calculates the distance and the direction to a subject; a sound position detection unit 12 which calculates the distance and the direction to the sound source; a relating unit 40a which relates the subject and the sound source as the same body on the basis of the feature information of the subject image, the feature information of the sound, the distance and the direction to the subject, and the distance and the direction to the sound source; a feature information determination unit 40b which determines whether the feature information of the body matches the image/sound feature information; a tracking control unit 40d which tracks the subject image; and directional characteristic adjustment units 13a and 13b which adjust directional characteristics of a microphone array 11 on the basis of a tracking result and the distance and the direction to the subject or the sound source. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、物体から発せられる音声を識別する装置であり、特に、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる音声識別装置に関する。   The present invention relates to a device for identifying sound emitted from an object, and more particularly to a sound identification device capable of obtaining good sound by attenuating noise even for a sound source that intermittently generates sound.

一般的に、ビデオカメラ等では多数の人を撮影する場合があり、このような場合、音声を発している発話者の方向を検知して、検知した方向に対してマイクの指向性を高め、ノイズを減衰させる必要がある。   In general, a video camera or the like may shoot a large number of people. In such a case, the direction of the speaker that is producing the voice is detected, and the directivity of the microphone is increased with respect to the detected direction. Noise needs to be attenuated.

そこで、特許文献1には、発話者の方向を検出する方向検出部と、発話者の音声を検出するマイクロフォンと、マイクロフォンの指向特性を方向検出部により検出された発話者の方向において高めるように調整するゲイン調整部と、ゲイン調整部により調整された発話者の音声を認識する音声認識部とを備えた車載用音声認識装置が提案されている。   Therefore, in Patent Document 1, a direction detection unit that detects the direction of the speaker, a microphone that detects the voice of the speaker, and a directivity characteristic of the microphone are enhanced in the direction of the speaker detected by the direction detection unit. A vehicle-mounted speech recognition device that includes a gain adjustment unit that adjusts and a speech recognition unit that recognizes the speech of a speaker adjusted by the gain adjustment unit has been proposed.

また、特許文献2には、カメラにより撮影された画像から操縦者の唇位置を特定し、この特定された唇位置に基づいて、複数のマイクロフォンの指向特性を調整し、複数のマイクロフォンの音声信号を合成する車両用音声認識装置が提案されている。   Further, Patent Document 2 specifies the lip position of a pilot from an image captured by a camera, adjusts the directivity characteristics of a plurality of microphones based on the specified lip position, and outputs audio signals of the plurality of microphones. Has been proposed.

さらに、特許文献3には、マイクロフォンから入力された音声に基づいて話者の方向を検出してマイクロフォンの指向特性を合わせると共に、検出した話者の方向にカメラを向け、このカメラにより撮影された画像に基づいて顔検出を行い、顔検出された場合、対話処理を行う視聴覚連携認識装置が提案されている。
特開平11−219193号公報 特開2000−10589号公報 特開2006−251266号公報
Furthermore, in Patent Document 3, the direction of the speaker is detected based on the sound input from the microphone to match the directivity characteristics of the microphone, and the camera is directed toward the detected speaker and is taken by this camera. There has been proposed an audiovisual cooperative recognition apparatus that performs face detection based on an image and performs dialogue processing when the face is detected.
JP 11-219193 A JP 2000-10589 A JP 2006-251266 A

しかしながら、特許文献1の技術では、発話者により発せられた音声に基づいて、マイクロフォンの指向特性を調整するので、発話者が音声を発生していない間は、マイクロフォンの指向特性を調整することが困難であった。   However, in the technique of Patent Document 1, since the microphone directivity is adjusted based on the voice uttered by the speaker, it is possible to adjust the microphone directivity while the speaker is not generating speech. It was difficult.

また、特許文献2に記載の技術では、撮影画像から特定された操縦者の唇位置に基づいて、マイクロフォンの指向特性を調整するので、操縦者の唇が動いていない、即ち操縦者が音声を発生していない間は、マイクロフォンの指向特性を調整することが困難であった。   In the technique described in Patent Document 2, the directional characteristics of the microphone are adjusted based on the position of the pilot's lips identified from the photographed image, so that the pilot's lips are not moving. While it did not occur, it was difficult to adjust the directivity of the microphone.

さらに特許文献3に記載の技術では、マイクロフォンから入力された音声に基づいて話者の方向を検出するので、例えば、ランダムに発声する多数の人を撮影する場合、マイクロフォンから音声が入力される度に、マイクロフォンの指向特性を合わせる必要があるので、装置負荷が大きく、発声した直後の音声を感度良く検出することが困難であった。   Furthermore, in the technique described in Patent Document 3, the direction of the speaker is detected based on the sound input from the microphone. Therefore, for example, when a large number of people who speak at random are photographed, the sound is input from the microphone. In addition, since it is necessary to match the directivity characteristics of the microphone, the load on the apparatus is large, and it is difficult to detect the sound immediately after uttering with high sensitivity.

本発明は、上記課題に鑑みてなされたものであり、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる音声識別装置を提供することを目的とする。   The present invention has been made in view of the above problems, and an object of the present invention is to provide a speech identification device that can obtain good speech by attenuating noise even for a sound source that intermittently generates speech.

上記目的を達成するため、本発明に係る音声識別装置の第1の特徴は、物体から発せられる音声を識別する音声識別装置において、光学系により集光された光を電気信号へ変換して画像データを生成する撮像部と、音源から発せられた音声を電気信号へ変換して音声データを生成する複数のマイクロフォンが所定間隔で配置されたマイクロフォンアレイと、前記画像データに含まれる被写体画像の特徴情報と、前記音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する画像音声特徴情報記憶部と、前記撮像部により生成された画像データから被写体画像の特徴情報を検出する物体検出部と、前記マイクロフォンアレイにより生成された音声データから音声の特徴情報を検出する音声検出部と、前記撮像部により生成された画像データに基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する物体位置検出部と、前記マイクロフォンアレイにより生成された音声データに基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する音声位置検出部と、前記物体検出部により検出された被写体画像の特徴情報と、前記音声検出部により検出された音声の特徴情報と、前記物体位置検出部により算出された前記被写体の距離及び方向と、前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記被写体と前記音源とを同一の物体として関連付ける関連付け部と、前記関連付け部により関連付けられた物体の特徴情報が、前記画像音声特徴情報記憶部に記憶された画像音声特徴情報に一致するか否かを判定する特徴情報判定部と、前記特徴情報判定部により特徴情報が画像音声特徴情報に一致すると判定された場合に、前記画像データ上における前記被写体の追跡を行う追跡制御部と、前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整する指向特性調整部とを備えたことにある。   In order to achieve the above object, a first feature of a voice identification device according to the present invention is that a voice identification device for identifying a voice emitted from an object converts light collected by an optical system into an electrical signal to generate an image. An imaging unit that generates data, a microphone array in which a plurality of microphones that generate sound data by converting sound emitted from a sound source into electrical signals, and features of a subject image included in the image data An image sound feature information storage unit that associates information with sound feature information emitted from the sound source and stores it as image sound feature information, and detects object image feature information from the image data generated by the imaging unit An object detection unit, a voice detection unit that detects voice feature information from the voice data generated by the microphone array, and the imaging unit. Based on the audio data generated by the microphone array, an object position detection unit that calculates the distance from the voice identification device to the subject and the direction of the subject relative to the voice identification device based on the image data formed An audio position detection unit that calculates a distance from the sound identification device to the sound source and a direction of the sound source with respect to the sound identification device, feature information of the subject image detected by the object detection unit, and the sound detection unit. Based on the detected audio feature information, the distance and direction of the subject calculated by the object position detection unit, and the distance and direction of the sound source calculated by the audio position detection unit, the subject and the The associating unit associating the sound source with the same object and the feature information of the object associated by the associating unit A feature information determination unit that determines whether or not the image and sound feature information stored in the image and sound feature information storage unit matches, and a feature information that is determined by the feature information determination unit to match the image and sound feature information A tracking control unit that tracks the subject on the image data, a tracking result of the tracking control unit, a distance and direction of the subject calculated by the object position detection unit, or a sound position detection unit. And a directional characteristic adjusting unit that adjusts the directional characteristic of the microphone array based on the distance and direction of the sound source.

上記目的を達成するため、本発明に係る音声識別装置の第2の特徴は、前記特徴情報判定部により特徴情報が一致しないと判定された場合、前記関連付け部により関連付けられた物体の特徴情報を、新たな前記画像音声特徴情報として画像音声特徴情報記憶部に記憶させる記憶制御部を、更に備えることにある。   In order to achieve the above object, the second feature of the voice identification device according to the present invention is that the feature information of the object associated by the association unit is obtained when the feature information judgment unit determines that the feature information does not match. The present invention further includes a storage control unit that stores the new image / audio feature information in the image / audio feature information storage unit.

上記目的を達成するため、本発明に係る音声識別装置の第3の特徴は、前記物体位置検出部は、前記撮像部における画角及び前記被写体までの焦点情報に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出することにある。   In order to achieve the above object, a third feature of the speech recognition device according to the present invention is that the object position detection unit is configured to detect the object position from the speech recognition device based on the angle of view in the imaging unit and the focus information to the subject. It is to calculate the distance to the subject and the direction of the subject with respect to the voice identification device.

上記目的を達成するため、本発明に係る音声識別装置の第4の特徴は、前記被写体画像の特徴情報と前記被写体の基準寸法とを関連付けて画像基準特徴情報として記憶する画像基準特徴情報記憶部を備え、前記物体位置検出部は、前記画像基準特徴情報に基づいて、前記画像データに含まれる被写体画像の特徴情報に対応する前記被写体の基準寸法を抽出し、この抽出された前記被写体の基準寸法を及び前記撮像部における画角に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出することにある。   In order to achieve the above object, a fourth feature of the voice identification device according to the present invention is an image reference feature information storage unit that stores feature information of the subject image and a reference dimension of the subject in association with each other as image reference feature information. The object position detection unit extracts a reference dimension of the subject corresponding to the feature information of the subject image included in the image data based on the image reference feature information, and extracts the reference of the subject The object is to calculate the distance from the voice identification device to the subject and the direction of the subject relative to the voice identification device based on the dimensions and the angle of view in the imaging unit.

上記目的を達成するため、本発明に係る音声識別装置の第5の特徴は、前記音声位置検出部は、前記複数のマイクロフォンに到達した音声の時間差に基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出することにある。   In order to achieve the above object, according to a fifth feature of the voice identification device according to the present invention, the voice position detection unit is configured such that the voice position detection unit to the sound source based on a time difference between voices reaching the plurality of microphones. And the direction of the sound source with respect to the voice identification device.

上記目的を達成するため、本発明に係る音声識別装置の第6の特徴は、前記追跡制御部は、前記特徴情報判定部により被写体画像の特徴情報が一致すると判定された場合に、前記画像データに基づいて表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより前記被写体の動きを追跡することにある。   In order to achieve the above object, a sixth feature of the voice identification device according to the present invention is that, when the tracking control unit determines that the feature information of the subject image matches by the feature information determination unit, the image data The image displayed on the basis of the above is divided into a plurality of blocks, and the movement of the subject is tracked by detecting the movement of each block.

上記目的を達成するため、本発明に係る音声識別装置の第7の特徴は、前記指向特性調整部は、前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記複数のマイクロフォンに到達した音声の時間差をなくすように、前記複数のマイクロフォンにより生成された音声データを重ね合わせることにある。   In order to achieve the above object, according to a seventh feature of the voice identification device according to the present invention, the directivity adjustment unit is configured so that the tracking result of the tracking control unit and the distance of the subject calculated by the object position detection unit are And the audio data generated by the plurality of microphones is overlapped so as to eliminate the time difference between the voices reaching the plurality of microphones based on the direction and direction or the distance and direction of the sound source calculated by the sound position detection unit. There is to match.

本発明の音声識別装置によれば、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる。   According to the voice identification device of the present invention, it is possible to obtain a good voice by attenuating noise even for a sound source that intermittently generates voice.

以下、本発明の実施の形態について図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

本発明の一実施形態では、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得る音声認識装置を例に挙げて説明する。   In an embodiment of the present invention, a voice recognition device that obtains a good voice by attenuating noise for a sound source that intermittently generates voice will be described as an example.

<音声識別装置の構成>
図1は、本発明の一実施形態である音声識別装置の構成を示した構成図である。
<Configuration of voice identification device>
FIG. 1 is a configuration diagram showing a configuration of a voice identification device according to an embodiment of the present invention.

本発明の一実施形態である音声識別装置1は、マイクロフォンアレイ11と、音声位置検出部12と、第1の指向特性調整部13aと、第2の指向特性調整部13bと、第1の音声検出部14aと、第2の音声検出部14bと、撮像部を有するカメラ21及びカメラ処理部22と、動きセンサ23と、検出部24と、動きベクトル検出部25と、画像音声特徴情報記憶部31と、画像基準特徴情報記憶部32と、音声基準特徴情報記憶部33と、指向特性優先度記憶部34と、CPU40と、操作部41と、表示部42とを備えている。   A voice identification device 1 according to an embodiment of the present invention includes a microphone array 11, a voice position detection unit 12, a first directivity characteristic adjustment unit 13a, a second directivity characteristic adjustment unit 13b, and a first voice. Detection unit 14a, second audio detection unit 14b, camera 21 and camera processing unit 22 having an imaging unit, motion sensor 23, detection unit 24, motion vector detection unit 25, and image / audio feature information storage unit 31, an image reference feature information storage unit 32, an audio reference feature information storage unit 33, a directivity characteristic priority storage unit 34, a CPU 40, an operation unit 41, and a display unit 42.

マイクロフォンアレイ11は、それぞれ例えば10mm程度の所定間隔で配置される第1のマイクロフォン11aと、第2のマイクロフォン11bと、第3のマイクロフォン11cとを備えており、音源から発せられた音声を電気信号へ変換して音声データを生成する。   The microphone array 11 includes a first microphone 11a, a second microphone 11b, and a third microphone 11c, each of which is arranged at a predetermined interval of, for example, about 10 mm. The sound emitted from the sound source is an electrical signal. To generate audio data.

音声位置検出部12は、マイクロフォンアレイ11により生成された音声データに基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する。   The sound position detection unit 12 calculates the distance from the sound identification device 1 to the sound source and the direction of the sound source with respect to the sound identification device 1 based on the sound data generated by the microphone array 11.

第1の指向特性調整部13aは、後述するCPU40の追跡制御部40dの追跡結果と、後述する検出部24の物体位置検出部24bにより算出された被写体の距離及び方向、又は音声位置検出部12により算出された音源の距離及び方向とに基づいて、第1のマイクロフォン11aと、第2のマイクロフォン11bと、第3のマイクロフォン11cに到達した音声の時間差をなくすように、それぞれのマイクロフォンにより生成された音声データを重ね合わせることにより指向特性を調整する。   The first directivity adjustment unit 13a is a tracking result of a tracking control unit 40d of a CPU 40 described later, and a distance and direction of a subject calculated by an object position detection unit 24b of a detection unit 24 described later, or an audio position detection unit 12. Is generated by the respective microphones so as to eliminate the time difference between the voices that have reached the first microphone 11a, the second microphone 11b, and the third microphone 11c, based on the distance and direction of the sound source calculated by. The directivity is adjusted by superimposing the recorded audio data.

第2の指向特性調整部13bは、第1の指向特性調整部13aと同一構成を有する。   The second directivity characteristic adjustment unit 13b has the same configuration as the first directivity characteristic adjustment unit 13a.

第1の音声検出部14aは、第1の指向特性調整部13aにより指向特性が調整された音声データから音声の特徴情報を抽出する。具体的には、第1の音声検出部14aは、指向特性が調整された音声から、成分波形やホルマント等を抽出し、これらを音声の特徴情報として、CPU40へ供給する。   The first voice detection unit 14a extracts voice feature information from the voice data whose directivity characteristics are adjusted by the first directivity characteristic adjustment unit 13a. Specifically, the first sound detection unit 14a extracts component waveforms, formants, and the like from the sound whose directivity characteristics have been adjusted, and supplies these to the CPU 40 as sound feature information.

第2の音声検出部14bは、第1の音声検出部14aと同一構成を有する。   The second voice detection unit 14b has the same configuration as the first voice detection unit 14a.

カメラ21は、内蔵するレンズにより集光された光を電気信号へ変換する。   The camera 21 converts the light collected by the built-in lens into an electrical signal.

カメラ処理部22は、カメラ21から供給された電気信号をRGB信号輝度信号Y及び色差信号Cr,Cb信号等の画像データに変換する。   The camera processing unit 22 converts the electrical signal supplied from the camera 21 into image data such as an RGB signal luminance signal Y and color difference signals Cr and Cb signals.

動きセンサ23は、例えばジャイロセンサ等を備え、音声識別装置1の動きを検出する。   The motion sensor 23 includes a gyro sensor, for example, and detects the motion of the voice identification device 1.

検出部24は、物体検出部24aと、物体位置検出部24bとを備える。   The detection unit 24 includes an object detection unit 24a and an object position detection unit 24b.

物体検出部24aは、カメラ処理部22により生成された画像データから被写体画像の特徴情報を検出する。例えば、物体検出部24aは、画像データから被写体画像の形及び色を特徴情報として検出し、これら抽出した形及び色と画像基準特徴情報記憶部32に記憶された画像基準特徴情報とに基づいて、被写体の種類を特定する。そして特定された被写体の種類と被写体画像の特徴情報とをCPU40へ供給する。   The object detection unit 24 a detects the feature information of the subject image from the image data generated by the camera processing unit 22. For example, the object detection unit 24 a detects the shape and color of the subject image from the image data as feature information, and based on the extracted shape and color and the image reference feature information stored in the image reference feature information storage unit 32. Identify the type of subject. The specified subject type and subject image feature information are supplied to the CPU 40.

物体位置検出部24bは、カメラ処理部22により生成された画像データに基づいて、音声識別装置1から画像データの被写体までの距離及び音声識別装置1に対する被写体の方向を算出する。   The object position detection unit 24 b calculates the distance from the voice identification device 1 to the subject of the image data and the direction of the subject with respect to the voice identification device 1 based on the image data generated by the camera processing unit 22.

動きベクトル検出部25は、カメラ21により生成された画像データの動きを検出する。   The motion vector detection unit 25 detects the motion of the image data generated by the camera 21.

画像音声特徴情報記憶部31は、画像データの被写体画像の特徴情報と、音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する。   The image / sound feature information storage unit 31 stores the feature information of the subject image of the image data and the feature information of the sound emitted from the sound source in association with each other and stores them as image / sound feature information.

図2は、本発明の一実施形態である音声識別装置1が備える画像音声特徴情報記憶部31に記憶された画像音声特徴情報の一例を示した図である。   FIG. 2 is a diagram showing an example of image / audio feature information stored in the image / audio feature information storage unit 31 included in the audio identification device 1 according to the embodiment of the present invention.

図2に示すように、カラム名“特徴情報ID”(符号51)と、カラム名“種類”(符号52)と、カラム名“被写体画像の特徴情報”(符号53)と、カラム名“音声データの特徴情報”(符号54)とが関連付けられて画像音声特徴情報として記憶されている。   As shown in FIG. 2, the column name “feature information ID” (reference numeral 51), the column name “type” (reference numeral 52), the column name “feature information characteristic information” (reference numeral 53), and the column name “voice”. Data feature information "(reference numeral 54) is stored in association with image / audio feature information.

また、被写体画像の特徴情報53には、カラム名“形”(符号53a)と、カラム名“色”(符号53b)とが含まれる。音声データの特徴情報54には、カラム名“成分波形”(符号54a)と、カラム名“ホルマント”(符号54b)とが含まれる。   The subject image feature information 53 includes a column name “shape” (reference numeral 53a) and a column name “color” (reference numeral 53b). The audio data feature information 54 includes a column name “component waveform” (symbol 54a) and a column name “formant” (symbol 54b).

画像基準特徴情報記憶部32は、被写体の種類と、画像基準特徴情報とを関連付けて記憶する。   The image reference feature information storage unit 32 stores the type of subject and the image reference feature information in association with each other.

図3は、本発明の一実施形態である音声識別装置1が備える画像基準特徴情報記憶部32に記憶された画像基準特徴情報の一例を示した図である。   FIG. 3 is a diagram illustrating an example of image reference feature information stored in the image reference feature information storage unit 32 included in the voice identification device 1 according to the embodiment of the present invention.

図3に示すように、カラム名“種類”(符号61)と、カラム名“画像基準特徴情報”(符号62)とが関連付けられて記憶されている。画像基準特徴情報62には、カラム名“形”(符号62a)と、カラム名“色”(符号62b)と、カラム名“基準寸法”(符号62c)とが含まれる。   As shown in FIG. 3, the column name “type” (reference numeral 61) and the column name “image reference feature information” (reference numeral 62) are stored in association with each other. The image reference feature information 62 includes a column name “shape” (reference numeral 62a), a column name “color” (reference numeral 62b), and a column name “reference dimension” (reference numeral 62c).

音声基準特徴情報記憶部33は、音源の種類と、音声基準特徴情報とを関連付けて記憶する。   The sound reference feature information storage unit 33 stores the sound source type and the sound reference feature information in association with each other.

図4は、本発明の一実施形態である音声識別装置1が備える音声基準特徴情報記憶部33に記憶された音声基準特徴情報の一例を示した図である。   FIG. 4 is a diagram illustrating an example of the speech reference feature information stored in the speech reference feature information storage unit 33 included in the speech identification device 1 according to an embodiment of the present invention.

図4に示すように、カラム名“種類”(符号71)と、カラム名“音声基準特徴情報”(符号72)とが関連付けられて記憶されている。音声基準特徴情報72には、カラム名“パワースペクトル”(符号72a)と、カラム名“サウンドスペクトル”(符号72b)とが含まれる。   As shown in FIG. 4, the column name “type” (reference numeral 71) and the column name “voice reference feature information” (reference numeral 72) are stored in association with each other. The audio reference feature information 72 includes a column name “power spectrum” (reference numeral 72a) and a column name “sound spectrum” (reference numeral 72b).

指向特性優先度記憶部34は、後述する操作部41から供給された被写体及び音源の種類の優先順位が記憶されている。なお、後述するCPU40は、操作部41での優先順位が指定されるまでは、指向特性優先度記憶部34に予め記憶されている所定の優先順位に従って、処理を行う。   The directivity characteristic priority storage unit 34 stores the priority order of the types of subjects and sound sources supplied from the operation unit 41 described later. Note that the CPU 40 described later performs processing in accordance with a predetermined priority order stored in advance in the directivity characteristic priority storage unit 34 until a priority order in the operation unit 41 is designated.

CPU40は、音声識別装置1の中枢的な制御を行う。また、CPU40は、その機能上、関連付け部40aと、特徴情報判定部40bと、記憶制御部40cと、追跡制御部40dと、指向調整制御部40eとを備える。   The CPU 40 performs central control of the voice identification device 1. Moreover, CPU40 is provided with the correlation part 40a, the characteristic information determination part 40b, the memory | storage control part 40c, the tracking control part 40d, and the orientation adjustment control part 40e on the function.

関連付け部40aは、物体検出部24aにより検出された被写体画像の特徴情報と、第1の音声検出部14a又は第2の音声検出部14bにより検出された音声の特徴情報と、物体位置検出部24bにより算出された被写体の距離及び方向と、音声位置検出部12により算出された音源の距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付ける。   The associating unit 40a includes the feature information of the subject image detected by the object detecting unit 24a, the feature information of the sound detected by the first sound detecting unit 14a or the second sound detecting unit 14b, and the object position detecting unit 24b. The subject and the sound source are associated as the same object based on the distance and direction of the subject calculated by the above and the distance and direction of the sound source calculated by the audio position detection unit 12.

特徴情報判定部40bは、関連付け部40aにより関連付けられた物体の特徴情報が、画像音声特徴情報記憶部31に記憶された画像音声特徴情報に一致するか否かを判定する。   The feature information determination unit 40 b determines whether or not the feature information of the object associated by the association unit 40 a matches the image and sound feature information stored in the image and sound feature information storage unit 31.

記憶制御部40cは、特徴情報判定部40bにより特徴情報が一致しないと判定された場合、関連付け部40aにより関連付けられた物体の特徴情報を、新たな画像音声特徴情報として画像音声特徴情報記憶部31に記憶させる。   When the feature information determining unit 40b determines that the feature information does not match, the storage control unit 40c uses the feature information of the object associated by the associating unit 40a as new image / sound feature information, and the image / sound feature information storage unit 31. Remember me.

追跡制御部40dは、特徴情報判定部40bにより被写体画像の特徴情報が一致すると判定された場合に、画像データに基づいて、表示部42に表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより被写体の動きを追跡する。   The tracking control unit 40d divides the image displayed on the display unit 42 into a plurality of blocks on the basis of the image data when the feature information determination unit 40b determines that the feature information of the subject image matches. The movement of the subject is tracked by detecting the movement of the subject.

指向調整制御部40eは、追跡制御部40dの追跡結果と、物体位置検出部24bにより算出された被写体の距離及び方向又は音声位置検出部12により算出された音源の距離及び方向とに基づいて、第1の指向特性調整部13a又は第2の指向特性調整部13bに指向特性を調整させる。   The directivity adjustment control unit 40e is based on the tracking result of the tracking control unit 40d and the distance and direction of the subject calculated by the object position detection unit 24b or the distance and direction of the sound source calculated by the audio position detection unit 12. The first directivity adjustment unit 13a or the second directivity adjustment unit 13b is caused to adjust the directivity.

操作部41は、利用者の操作に基づいて、撮影の開始や終了を要求する操作信号、及び被写体の種類の優先順位の指向特性優先度記憶部34への記憶を要求する操作信号等各種操作信号を生成し、生成した操作信号をCPU40へ供給する。   The operation unit 41 performs various operations such as an operation signal for requesting the start and end of photographing and an operation signal for requesting storage of the priority order of the types of subjects in the directivity characteristic priority storage unit 34 based on a user operation. A signal is generated and the generated operation signal is supplied to the CPU 40.

表示部42は、有機EL(electroluminescence)ディスプレイや、液晶ディスプレイ等の画像出力装置を備え、CPU40から供給された画像データに基づいて、各種画面を表示する。   The display unit 42 includes an image output device such as an organic EL (electroluminescence) display or a liquid crystal display, and displays various screens based on image data supplied from the CPU 40.

<音声識別装置1の作用>
次に、本発明の一実施形態である音声識別装置1の作用について説明する。
<Operation of the voice identification device 1>
Next, the operation of the voice identification device 1 according to an embodiment of the present invention will be described.

図5は、本発明の一実施形態である音声識別装置1の処理フローを示したフローチャートである。   FIG. 5 is a flowchart showing a processing flow of the voice identification device 1 according to the embodiment of the present invention.

まず、音声識別装置1のカメラ処理部22は、カメラ21から電気信号が供給されると(ステップS101)、供給された電気信号をRGB信号、輝度信号Y、及び色差信号Cr,Cb信号等に変換して画像データを生成する。   First, when an electrical signal is supplied from the camera 21 (step S101), the camera processing unit 22 of the voice identification device 1 converts the supplied electrical signal into an RGB signal, a luminance signal Y, and color difference signals Cr and Cb signals. Convert to generate image data.

次に、物体位置検出部24bは、動きセンサ23により検出された音声識別装置1の動きに基づいて、振れを補正する(ステップS102)。例えば、物体位置検出部24bは、動きセンサ23により検出された音声識別装置1の動きを打ち消すように、カメラ処理部22から供給された画像データから切り出す画像データの範囲を選択し、この選択された画像データを物体検出部24aへ供給する。   Next, the object position detection unit 24b corrects the shake based on the movement of the voice identification device 1 detected by the movement sensor 23 (step S102). For example, the object position detection unit 24b selects a range of image data to be cut out from the image data supplied from the camera processing unit 22 so as to cancel the movement of the voice identification device 1 detected by the motion sensor 23. The obtained image data is supplied to the object detection unit 24a.

そして、物体検出部24aは、振れを補正した画像データから被写体画像の特徴情報を検出する(ステップS103)。例えば、物体検出部24aは、画像データから被写体画像の形及び色を特徴情報として検出し、これら抽出した形及び色と画像基準特徴情報記憶部32に記憶された画像基準特徴情報とに基づいて、被写体の種類を特定する。そして特定された被写体の種類と被写体画像の特徴情報とをCPU40へ供給する。   Then, the object detection unit 24a detects the feature information of the subject image from the image data whose shake has been corrected (step S103). For example, the object detection unit 24 a detects the shape and color of the subject image from the image data as feature information, and based on the extracted shape and color and the image reference feature information stored in the image reference feature information storage unit 32. Identify the type of subject. The specified subject type and subject image feature information are supplied to the CPU 40.

図6は、本発明の一実施形態である音声識別装置1が備える物体検出部24aによる検出処理を説明した図である。   FIG. 6 is a diagram illustrating a detection process performed by the object detection unit 24a included in the voice identification device 1 according to the embodiment of the present invention.

図6に示すように、カメラ21により撮像された画面には、男性である被写体A及び被写体Bが写っており、物体検出部24aは、被写体A及び被写体Bの形及び色を特徴情報として検出する。そして、物体検出部24aは、画像基準特徴情報記憶部32に記憶された画像基準特徴情報の中から、検出した形及び色と一致する被写体の種類を抽出し、抽出された被写体A及び被写体Bの種類と被写体画像の特徴情報とをCPU40へ供給する。図6に示した例では、物体検出部24aは、被写体A及び被写体Bの種類として“男性”を抽出し、抽出された被写体の種類である“男性”とそれぞれの被写体画像の特徴情報とをCPU40へ供給する。   As shown in FIG. 6, the subject A and subject B, which are men, are shown on the screen imaged by the camera 21, and the object detection unit 24a detects the shape and color of the subject A and subject B as feature information. To do. Then, the object detection unit 24a extracts the type of the subject that matches the detected shape and color from the image reference feature information stored in the image reference feature information storage unit 32, and extracts the extracted subject A and subject B. And the feature information of the subject image are supplied to the CPU 40. In the example illustrated in FIG. 6, the object detection unit 24a extracts “male” as the type of the subject A and the subject B, and extracts the “male” that is the type of the extracted subject and the feature information of each subject image. It supplies to CPU40.

次に、物体位置検出部24bは、振れを補正した画像データに基づいて、音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向を算出する(ステップS104)。例えば、物体位置検出部24bは、カメラ21における画角及び被写体までの焦点情報に基づいて、音声識別装置1から画像データの被写体までの距離及び音声識別装置1に対する被写体の方向を算出する。   Next, the object position detection unit 24b calculates the distance from the voice identification device 1 to the subject and the direction of the subject with respect to the voice identification device 1 based on the image data whose shake has been corrected (step S104). For example, the object position detection unit 24b calculates the distance from the voice identification device 1 to the subject of the image data and the direction of the subject with respect to the voice identification device 1 based on the angle of view in the camera 21 and the focus information to the subject.

図7は、本発明の一実施形態である音声識別装置1が備える物体位置検出部24bによる被写体の方向の算出処理を説明した図である。   FIG. 7 is a diagram for explaining subject direction calculation processing by the object position detection unit 24b included in the voice identification device 1 according to the embodiment of the present invention.

図7に示すように、カメラ21により撮像された画面に、図6に示した被写体Aと被写体Bとが写っている。カメラ21の画角が±Φであるとすると、物体位置検出部24bは、音声識別装置1を上方から見たx−y平面において、物体検出部24aにより検出された被写体Aが+θ3方向にある、即ち、+θ3方向の直線201上に被写体Aが存在すると判定する。   As shown in FIG. 7, the subject A and the subject B shown in FIG. 6 are shown on the screen imaged by the camera 21. Assuming that the angle of view of the camera 21 is ± Φ, the object position detection unit 24b has the subject A detected by the object detection unit 24a in the + θ3 direction on the xy plane when the voice identification device 1 is viewed from above. That is, it is determined that the subject A exists on the straight line 201 in the + θ3 direction.

そして、物体位置検出部24bは、振れを補正した画像データに基づいて、音声識別装置1から被写体までの距離を算出する。   Then, the object position detection unit 24b calculates the distance from the voice identification device 1 to the subject based on the image data whose shake has been corrected.

図8は、本発明の一実施形態である音声識別装置1が備える物体位置検出部24bによる被写体の距離の算出処理を説明した図である。   FIG. 8 is a diagram for explaining subject distance calculation processing by the object position detection unit 24b included in the voice identification device 1 according to the embodiment of the present invention.

カメラ21のフォーカスの範囲内に被写体A又はBがある場合、物体位置検出部24bは、フォーカスの焦点情報から距離を算出する。   When the subject A or B is within the focus range of the camera 21, the object position detection unit 24b calculates the distance from the focus focus information.

図8に示すように、被写体Aがフォーカスの範囲内にある場合、物体位置検出部24bは、フォーカスの焦点情報からカメラ21と被写体Aとの間の距離d1を算出する。   As shown in FIG. 8, when the subject A is within the focus range, the object position detection unit 24b calculates the distance d1 between the camera 21 and the subject A from the focus focus information.

また、カメラ21のフォーカスの範囲外に被写体A又はBがある場合、物体位置検出部24bは、画像基準特徴情報記憶部32に記憶された画像基準特徴情報に基づいて、画像データの被写体画像の特徴情報に対応する被写体の基準寸法を抽出し、この抽出された被写体の基準寸法及びカメラ21における画角に基づいて、カメラ21から画像データの被写体までの距離を算出する。   When the subject A or B is outside the focus range of the camera 21, the object position detection unit 24 b uses the image reference feature information stored in the image reference feature information storage unit 32 to detect the subject image of the image data. A reference dimension of the subject corresponding to the feature information is extracted, and a distance from the camera 21 to the subject of the image data is calculated based on the extracted reference dimension of the subject and the angle of view of the camera 21.

具体的には、図8に示す被写体Bがフォーカスの範囲外にある場合、物体位置検出部24bは、画像基準特徴情報記憶部32に記憶された画像基準特徴情報からステップS103において特定された被写体の種類に対応する基準寸法L2を抽出する。   Specifically, when the subject B shown in FIG. 8 is out of the focus range, the object position detection unit 24b determines the subject specified in step S103 from the image reference feature information stored in the image reference feature information storage unit 32. The reference dimension L2 corresponding to the type of is extracted.

そして、物体位置検出部24bは、図6に示す画面の高さをHc、被写体Bの顔の縦方向の長さH2、画角をθcとすると、下記の数式1を用いて、被写体Bの角度θ2を算出する。   Then, the object position detection unit 24b uses the following formula 1 to calculate the object B's height when the screen height shown in FIG. 6 is Hc, the length H2 of the face of the subject B is vertical, and the field angle is θc. The angle θ2 is calculated.

θ2=θc×H2/Hc ・・・(数式1)
次に、物体位置検出部24bは、抽出された基準寸法L2と、算出された角度θ2とから、下記の数式2を用いて距離d2を算出する。
θ2 = θc × H2 / Hc (Formula 1)
Next, the object position detection unit 24b calculates the distance d2 using the following formula 2 from the extracted reference dimension L2 and the calculated angle θ2.

d2=L2/tanθ2 ・・・(数式2)
これにより、物体位置検出部24bは、振れを補正した画像データに基づいて、音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向を算出することができる。
d2 = L2 / tan θ2 (Formula 2)
Accordingly, the object position detection unit 24b can calculate the distance from the voice identification device 1 to the subject and the direction of the subject with respect to the voice identification device 1 based on the image data whose shake is corrected.

次に、音声位置検出部12は、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cから音声データが供給されると(ステップS105)、動きセンサ23により検出された音声識別装置1の動きに基づいて、振れを補正する(ステップS106)。   Next, when the voice data is supplied from the first microphone 11a, the second microphone 11b, and the third microphone 11c (step S105), the voice position detection unit 12 recognizes the voice detected by the motion sensor 23. The shake is corrected based on the movement of the device 1 (step S106).

次に、第1の音声検出部14a又は第2の音声検出部14bは、第1の指向特性調整部13a又は第2の指向特性調整部13bから供給された振れが補正された音声の特徴情報を検出する(ステップS107)。例えば、第1の音声検出部14aは、振れが補正された音声データから、音声の特徴情報として成分波形やホルマント等を抽出し、これら抽出した成分波形やホルマントと音声基準特徴情報記憶部33に記憶された音声基準特徴情報とに基づいて、音源の種類の順位付けを行う。そして、この順位付けられた音源の種類と音声の特徴情報とをCPU40へ供給する。   Next, the first sound detection unit 14a or the second sound detection unit 14b is the feature information of the sound in which the shake supplied from the first directivity characteristic adjustment unit 13a or the second directivity characteristic adjustment unit 13b is corrected. Is detected (step S107). For example, the first sound detection unit 14 a extracts component waveforms, formants, and the like as sound feature information from the sound data whose shake has been corrected, and the extracted component waveforms, formants, and sound reference feature information storage unit 33. Based on the stored sound reference feature information, the types of sound sources are ranked. The ranked sound source types and audio feature information are supplied to the CPU 40.

図9は、本発明の一実施形態である音声識別装置1が備える第1の音声検出部14a又は第2の音声検出部14bによる検出処理を説明した図である。(a)は、補正された音声データの波形の一例を示しており、(b)は、(a)に基づいて生成されたパワースペクトルを示しており、(c)は、音声基準特徴情報記憶部33に記憶された音声基準特徴情報のパワースペクトルの一例を示している。   FIG. 9 is a diagram illustrating a detection process performed by the first voice detection unit 14a or the second voice detection unit 14b included in the voice identification device 1 according to an embodiment of the present invention. (A) shows an example of a waveform of corrected audio data, (b) shows a power spectrum generated based on (a), and (c) shows audio reference feature information storage. An example of the power spectrum of the speech reference feature information stored in the unit 33 is shown.

なお、第1の音声検出部14a又は第2の音声検出部14bは、同一構成を有するので、第1の音声検出部14aについて説明する。   In addition, since the 1st audio | voice detection part 14a or the 2nd audio | voice detection part 14b has the same structure, the 1st audio | voice detection part 14a is demonstrated.

図9に示すように、第1の音声検出部14aは、図9(a)に示した音声波形301から図9(b)に示したパワースペクトル302を生成する。   As shown in FIG. 9, the first voice detection unit 14a generates the power spectrum 302 shown in FIG. 9B from the voice waveform 301 shown in FIG. 9A.

そして、第1の音声検出部14aは、生成したパワースペクトル302と、図9(c)に示した音声基準特徴情報記憶部33に記憶された音声基準特徴情報のパワースペクトル303との一致度合いを算出し、この算出された一致度合いに基づいて、順位付けを行う。   Then, the first sound detection unit 14a determines the degree of coincidence between the generated power spectrum 302 and the power spectrum 303 of the sound reference feature information stored in the sound reference feature information storage unit 33 illustrated in FIG. And ranking based on the calculated degree of coincidence.

具体的には、第1の音声検出部14aは、図9(b)に示したパワースペクトルの周波数成分(A1〜A7)毎の値を算出すると共に、図9(c)に示したパワースペクトルの周波数成分(A1〜A7)毎の値を算出し、周波数成分(A1〜A7)毎にこの算出した値の差の絶対値を算出する。   Specifically, the first sound detection unit 14a calculates values for each frequency component (A1 to A7) of the power spectrum illustrated in FIG. 9B, and the power spectrum illustrated in FIG. 9C. The value for each frequency component (A1 to A7) is calculated, and the absolute value of the difference between the calculated values is calculated for each frequency component (A1 to A7).

この周波数成分(A1〜A7)毎に算出された差の絶対値の総和は、小さい程生成したパワースペクトル302と、音声基準特徴情報記憶部33に記憶された音声基準特徴情報のパワースペクトル303との一致度合いが高いので、第1の音声検出部14aは、周波数成分(A1〜A7)毎に算出された差の絶対値の総和が小さい順に音源の種類を並べ替えることにより優先順位付けを行う。   The sum of the absolute values of the differences calculated for each frequency component (A1 to A7) is the smaller the generated power spectrum 302 and the power spectrum 303 of the speech reference feature information stored in the speech reference feature information storage unit 33. Since the degree of coincidence is high, the first sound detection unit 14a performs prioritization by rearranging the types of sound sources in ascending order of the sum of the absolute values of the differences calculated for each frequency component (A1 to A7). .

例えば、第1の音声検出部14aは、周波数成分(A1〜A7)毎に算出された差の絶対値の総和が小さい程高くなる評価点を算出し、この評価点が高い順に音源の種類を並べ替える。   For example, the first sound detection unit 14a calculates evaluation points that increase as the sum of absolute values of differences calculated for each frequency component (A1 to A7) decreases, and selects the type of sound source in descending order of the evaluation points. Rearrange.

これにより、検出された音源の種類と評価点とを、“男性”(評価点90)、“女性”(評価点70)、“犬”(評価点50)、“車”(評価点20)というように、評価点が高い順に音源の種類を並べ替える。   As a result, the type of the detected sound source and the evaluation point are set as “male” (evaluation point 90), “female” (evaluation point 70), “dog” (evaluation point 50), “car” (evaluation point 20). In this way, the types of sound sources are rearranged in descending order of evaluation score.

なお、第1の音声検出部14aは、パワースペクトルに基づいて順位付けする代わりに、サウンドスペクトログラムに基づいて優先順位付けを行っても良い。   Note that the first sound detection unit 14a may prioritize based on the sound spectrogram instead of ranking based on the power spectrum.

この場合にも、同様に、第1の音声検出部14aは、音声データに基づいて生成したサウンドスペクトログラムと、音声基準特徴情報記憶部33に記憶された音声基準特徴情報のサウンドスペクトログラムとの一致度合いを算出し、この算出された一致度合いに基づいて、順位付けを行う。   Also in this case, similarly, the first sound detection unit 14a matches the degree of coincidence between the sound spectrogram generated based on the sound data and the sound spectrogram of the sound reference feature information stored in the sound reference feature information storage unit 33. And ranking is performed based on the calculated degree of coincidence.

図5に示すように、次に、音声位置検出部12は、補正された音声データに基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する(ステップS108)。   As shown in FIG. 5, next, the voice position detection unit 12 calculates the distance from the voice identification device 1 to the sound source and the direction of the sound source with respect to the voice identification device 1 based on the corrected voice data (step S108). ).

図10は、本発明の一実施形態である音声識別装置1が備える音声位置検出部12による音源の方向及び距離の算出処理を説明した図である。   FIG. 10 is a diagram for explaining calculation processing of the direction and distance of the sound source by the voice position detection unit 12 included in the voice identification device 1 according to the embodiment of the present invention.

図10に示すように、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cは、それぞれ所定の距離を離して配置されているので、音源Aが発声した音声は、それぞれの入力までの遅延時間が異なる。   As shown in FIG. 10, since the first microphone 11a, the second microphone 11b, and the third microphone 11c are arranged at a predetermined distance from each other, the sound uttered by the sound source A is Delay time to input is different.

具体的には、図10に示すように、音源Aから音声が発せられてから第1のマイクロフォン11aに到達するまでの時間をt0とすると、音源Aから音声が発せられてから第2のマイクロフォン11bに到達するまでの時間は、(t0+t1)、音源Aから音声が発せられてから第3のマイクロフォン11cに到達するまでの時間は、(t0+t2)となる。   Specifically, as shown in FIG. 10, when the time from when the sound is emitted from the sound source A to the arrival at the first microphone 11a is t0, the second microphone is obtained after the sound is emitted from the sound source A. The time until reaching 11b is (t0 + t1), and the time from when the sound source A emits sound until it reaches the third microphone 11c is (t0 + t2).

そこで、音声位置検出部12は、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cに入力された音声の位相を比較することにより、マイクロフォンに入力される音声の遅延時間t1,t2を算出し、この算出された遅延時間t1,t2に基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する。   Therefore, the voice position detection unit 12 compares the phases of the voices input to the first microphone 11a, the second microphone 11b, and the third microphone 11c, thereby delaying the delay time t1 of the voice input to the microphone. , T2 is calculated, and the distance from the voice identification device 1 to the sound source and the direction of the sound source relative to the voice identification device 1 are calculated based on the calculated delay times t1 and t2.

図11は、本発明の一実施形態である音声識別装置1が備える第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cに入力された音声波形の位相比較の一例を示した図である。   FIG. 11 shows an example of phase comparison of speech waveforms input to the first microphone 11a, the second microphone 11b, and the third microphone 11c included in the speech identification device 1 according to an embodiment of the present invention. FIG.

図11に示すように、T10時点において、音源Aから発せられてから第1のマイクロフォン11aに到達した音声がピークを有しているので、音声位置検出部12は、このピーク時であるT10を基準とする。そして、音声位置検出部12は、T10から、第2のマイクロフォン11bに到達した音声波形において同様のピーク波形が到達した時刻T11までの時間を遅延時間t1とする。また、音声位置検出部12は、T10から、第3のマイクロフォン11cに到達した音声波形において同様のピーク波形が到達した時刻T12までの時間を遅延時間t2とする。   As shown in FIG. 11, since the sound that has been emitted from the sound source A and reached the first microphone 11a has a peak at time T10, the sound position detection unit 12 determines T10 that is the peak time. The standard. Then, the voice position detection unit 12 sets the time from T10 to time T11 when the similar peak waveform arrives in the voice waveform that has reached the second microphone 11b as the delay time t1. The voice position detection unit 12 sets a delay time t2 from T10 to a time T12 when a similar peak waveform arrives in the voice waveform that has reached the third microphone 11c.

そして、音声位置検出部12は、この算出された遅延時間t1,t2に基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する。具体的には、音速をvとすると、音声位置検出部12は、音源Aから第1のマイクロフォン11aまでの距離はv・t0、音源Aから第2のマイクロフォン11bまでの距離はv・(t0+t1)、音源Aから第3のマイクロフォン11cまでの距離はv・(t0+t2)となる。そして、音声位置検出部12は、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cからそれぞれv・t0、v・(t0+t1)、及びv・(t0+t2)だけ離れた地点、即ち、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cを中心とて、それぞれ中心からの半径をv・t0、v・(t0+t1)、及びv・(t0+t2)として円を描いたときに、互いに重なり合う地点が音源Aのある地点として定める。   Then, the voice position detection unit 12 calculates the distance from the voice identification device 1 to the sound source and the direction of the sound source with respect to the voice identification device 1 based on the calculated delay times t1 and t2. Specifically, when the sound speed is v, the audio position detector 12 determines that the distance from the sound source A to the first microphone 11a is v · t0, and the distance from the sound source A to the second microphone 11b is v · (t0 + t1). ), The distance from the sound source A to the third microphone 11c is v · (t0 + t2). The voice position detection unit 12 is separated from the first microphone 11a, the second microphone 11b, and the third microphone 11c by v · t0, v · (t0 + t1), and v · (t0 + t2), That is, with the first microphone 11a, the second microphone 11b, and the third microphone 11c as the centers, the radii from the centers are v · t0, v · (t0 + t1), and v · (t0 + t2), respectively. A point where the sound source A is located is defined as a point where the points overlap each other when drawn.

これにより、音声位置検出部12は、補正された音声データに基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出することができる。   Thereby, the audio | voice position detection part 12 can calculate the distance from the audio | voice identification apparatus 1 to a sound source, and the direction of the sound source with respect to the audio | voice identification apparatus 1 based on the corrected audio | voice data.

なお、例えば音源A及び音源Bが同時に音声を発した場合、音声位置検出部12は、例えば、特開2006−227328号公報に記載の技術を用いて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する。具体的には、音声位置検出部12は、帯域分割して得られる帯域分割信号が複数の音源が重複している信号であるか一つの音源だけからなる信号であるかを判定し、音源が重複していない周波数成分のみを用いて音源方向を算出する。   For example, when the sound source A and the sound source B simultaneously emit sound, the sound position detection unit 12 uses, for example, the technology described in Japanese Patent Application Laid-Open No. 2006-227328 and the distance from the sound identification device 1 to the sound source. The direction of the sound source with respect to the voice identification device 1 is calculated. Specifically, the audio position detection unit 12 determines whether a band division signal obtained by band division is a signal in which a plurality of sound sources overlap or a signal composed of only one sound source, The sound source direction is calculated using only non-overlapping frequency components.

次に、CPU40の関連付け部40aは、ステップS104において算出された音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向と、ステップS108において算出された音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向と、ステップS103において特定された被写体の種類と、ステップS109において決定された音源の種類の順位付けとに基づいて、音源と被写体との関連付けか可能か否かを判定する(ステップS109)。   Next, the associating unit 40a of the CPU 40 calculates the distance from the voice identification device 1 to the subject calculated in step S104, the direction of the subject with respect to the voice identification device 1, and the distance from the voice identification device 1 to the sound source calculated in step S108. Whether the sound source and the subject can be associated based on the distance and the direction of the sound source with respect to the voice identification device 1, the type of the subject specified in step S103, and the ranking of the type of the sound source determined in step S109. Is determined (step S109).

例えば、関連付け部40aは、ステップS104において算出された音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向により特定される位置の所定の周辺範囲と、ステップS108において算出された音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向により特定される位置の所定の周辺範囲とにおいて重なり合う部分があり、かつ、ステップS103において特定された被写体の種類が、ステップS109において決定された評価点が80点以上である音源の種類に含まれている場合、この被写体と音源は同一の物体として関連付けが可能であると判定する。   For example, the associating unit 40a includes the predetermined peripheral range of the position specified by the distance from the voice identification device 1 to the subject calculated in step S104 and the direction of the subject with respect to the voice identification device 1, and the voice calculated in step S108. There is an overlapping portion in the predetermined peripheral range of the position specified by the distance from the identification device 1 to the sound source and the direction of the sound source with respect to the voice identification device 1, and the type of the subject specified in step S103 is determined in step S109. When the determined evaluation score is included in the type of the sound source having 80 points or more, it is determined that the subject and the sound source can be associated as the same object.

ステップS109において、音源と被写体との関連付けか可能と判定された場合、関連付け部40aは、ステップS103において検出された被写体画像の特徴情報と、ステップS104において算出された音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向と、ステップS107において検出された音源の特徴情報と、ステップS108において算出された音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向とを関連付ける(ステップS110)。   When it is determined in step S109 that the sound source and the subject can be associated with each other, the associating unit 40a detects the feature information of the subject image detected in step S103 and the information from the voice identification device 1 to the subject calculated in step S104. The distance and the direction of the subject with respect to the voice identification device 1, the characteristic information of the sound source detected in step S107, the distance from the voice identification device 1 to the sound source calculated in step S108, and the direction of the sound source with respect to the voice identification device 1. Associate (step S110).

次に、CPU40の特徴情報判定部40bは、ステップS110において関連付けられた被写体画像の特徴情報と音源の特徴情報とが、画像音声特徴情報記憶部31に記憶された画像音声特徴情報に一致するか否かを判定する(ステップS111)。   Next, the feature information determination unit 40b of the CPU 40 determines whether the feature information of the subject image and the feature information of the sound source associated in step S110 match the image / sound feature information stored in the image / sound feature information storage unit 31. It is determined whether or not (step S111).

ステップS111において、特徴情報が画像音声特徴情報に一致しないと判定された場合(NOの場合)、CPU40の記憶制御部40cは、ステップS110において関連付けられた被写体画像の特徴情報と音源の特徴情報とを、新たな画像音声特徴情報として画像音声特徴情報記憶部31に記憶させる(ステップS112)。   If it is determined in step S111 that the feature information does not match the audio / video feature information (in the case of NO), the storage control unit 40c of the CPU 40 determines the feature information of the subject image and the feature information of the sound source associated in step S110. Is stored in the image / audio feature information storage unit 31 as new image / audio feature information (step S112).

次に、CPU40の追跡制御部40dは、画像データに基づいて表示部42に表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより被写体の動きを追跡する(ステップS113)。   Next, the tracking control unit 40d of the CPU 40 divides the image displayed on the display unit 42 into a plurality of blocks based on the image data, and tracks the movement of the subject by detecting the movement of each block (step S113). ).

具体的には、追跡制御部40dは、画像データに基づいて表示された画面を複数のブロックに分割し、動きベクトル検出部25により検出されたブロック毎の動きベクトルに基づいて、被写体に動きがあるかを検出する。なお、動きベクトルの検出は、輝度信号でも良いし色信号でも良い。   Specifically, the tracking control unit 40d divides the screen displayed based on the image data into a plurality of blocks, and the subject moves based on the motion vector for each block detected by the motion vector detection unit 25. Detect if there is. The motion vector may be detected using a luminance signal or a color signal.

また、追跡制御部40dは、画面内に動く物体が無い場合にも、画面の中全てを常に画像認識して、輪郭や色などから被写体を推定する。その被写体に対して、特徴情報に基づいて画像認識を行い、これまで検出していた被写体との比較を行う。この被写体がこれまでの被写体の特徴情報と比較して違いが所定の値より少ない場合には同じ物体と判断する。これにより、追跡制御部40dは、画面内でその被写体を追跡することができる。   Further, the tracking control unit 40d always recognizes the image on the entire screen even when there is no moving object in the screen, and estimates the subject from the outline and color. Image recognition is performed on the subject based on the feature information, and a comparison with the subject detected so far is performed. If the difference between the subject and the characteristic information of the subject so far is smaller than a predetermined value, the subject is determined to be the same object. Thereby, the tracking control unit 40d can track the subject in the screen.

そして、CPU40の指向調整制御部40eの指示により、第1の指向特性調整部13a又は第2の指向特性調整部13bは、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cに到達した音声の時間差をなくすように、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cにより生成された音声データを重ね合わせることにより指向特性を調整する(ステップS114)。この指向特性調整処理については、後述する。   Then, according to an instruction from the directivity adjustment control unit 40e of the CPU 40, the first directivity characteristic adjustment unit 13a or the second directivity characteristic adjustment unit 13b performs the first microphone 11a, the second microphone 11b, and the third microphone 11c. The directivity characteristics are adjusted by superimposing the sound data generated by the first microphone 11a, the second microphone 11b, and the third microphone 11c so as to eliminate the time difference between the sounds that have reached (step S114). This directivity adjustment process will be described later.

次に、CPU40は、操作部41から撮影終了を要求する操作信号が供給されたか否かを判定し(ステップS115)、撮影終了を要求する操作信号が供給されたと判定した場合(YESの場合)、処理を終了する。   Next, the CPU 40 determines whether or not an operation signal for requesting the end of shooting is supplied from the operation unit 41 (step S115), and when it is determined that an operation signal for requesting the end of shooting is supplied (in the case of YES). The process is terminated.

図12は、本発明の一実施形態である音声識別装置1における指向特性調整処理の処理フローを示したフローチャートである。   FIG. 12 is a flowchart showing a process flow of the directivity adjustment process in the voice identification device 1 according to the embodiment of the present invention.

図12に示すように、CPU40の指向調整制御部40eは、第1の指向特性調整部13a及び第2の指向特性調整部13bのうち、少なくともいずれか一方が使用可能か否かを判定する(ステップS201)。具体的には、CPU40は、指向調整を行っていない第1の指向特性調整部13a又は第2の指向特性調整部13bがあるか否かを判定する。   As illustrated in FIG. 12, the directivity adjustment control unit 40e of the CPU 40 determines whether or not at least one of the first directivity characteristic adjustment unit 13a and the second directivity characteristic adjustment unit 13b is usable ( Step S201). Specifically, the CPU 40 determines whether or not there is a first directivity adjustment unit 13a or a second directivity adjustment unit 13b that has not performed directivity adjustment.

ステップS201において、いずれも使用不可、即ち第1の指向特性調整部13a及び第2の指向特性調整部13bのいずれも指向調整を行っていると判定された場合(NOの場合)、指向調整制御部40eは、指向特性優先度記憶部34に記憶された指向特性優先度を抽出する(ステップS202)。具体的には、指向調整制御部40eは、画像音声特徴情報記憶部31から、ステップS113において動きを追跡している被写体の種類と、第1の指向特性調整部13a及び第2の指向特性調整部13bにより指向特性調整されている被写体の種類とを抽出する。そして、指向調整制御部40eは、指向特性優先度記憶部34から、これら抽出された被写体の種類に対応する指向特性優先度を抽出する。   If it is determined in step S201 that both cannot be used, that is, both the first directivity adjustment unit 13a and the second directivity adjustment unit 13b are performing the directivity adjustment (in the case of NO), the directivity adjustment control is performed. The unit 40e extracts the directional characteristic priority stored in the directional characteristic priority storage unit 34 (step S202). Specifically, the directivity adjustment control unit 40e receives from the image / audio feature information storage unit 31 the type of the subject whose movement is being tracked in step S113, and the first directivity adjustment unit 13a and the second directivity adjustment. The type of subject whose directivity characteristics are adjusted by the unit 13b is extracted. Then, the directional adjustment control unit 40e extracts the directional characteristic priority corresponding to the extracted subject type from the directional characteristic priority storage unit 34.

次に、指向調整制御部40eは、ステップS113において動きを追跡している被写体の指向特性優先度が、第1の指向特性調整部13a又は第2の指向特性調整部13bにより指向特性調整されている被写体の指向特性優先度より高いか否かを判定する(ステップS203)。   Next, the directivity adjustment control unit 40e adjusts the directivity characteristic priority of the subject whose movement is being tracked in step S113 by the first directivity characteristic adjustment unit 13a or the second directivity characteristic adjustment unit 13b. It is determined whether or not the directivity priority of the subject is higher (step S203).

ステップS203において、ステップS113において動きを追跡している被写体の指向特性優先度が、第1の指向特性調整部13a又は第2の指向特性調整部13bにより指向特性調整されている被写体の指向特性優先度より高いと判定された場合(YESの場合)、指向調整制御部40eの指示に基づいて、第1の指向特性調整部13a又は第2の指向特性調整部13bが指向調整を行う(ステップS204)。具体的には、第1の指向特性調整部13a又は第2の指向特性調整部13bは、追跡制御部40dの追跡結果に基づいて、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cに到達した音声の時間差をなくすように、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cにより生成された音声データを重ね合わせることにより指向特性を調整する。   In step S203, the directivity priority of the subject whose movement is being tracked in step S113 is the directivity priority of the subject whose directivity has been adjusted by the first directivity adjustment unit 13a or the second directivity adjustment unit 13b. When it is determined that it is higher than the degree (in the case of YES), the first directivity characteristic adjustment unit 13a or the second directivity characteristic adjustment unit 13b performs directivity adjustment based on an instruction from the directivity adjustment control unit 40e (step S204). ). Specifically, the first directivity characteristic adjustment unit 13a or the second directivity characteristic adjustment unit 13b is based on the tracking result of the tracking control unit 40d, and the first microphone 11a, the second microphone 11b, and the third microphone. The directivity characteristics are adjusted by superimposing the sound data generated by the first microphone 11a, the second microphone 11b, and the third microphone 11c so as to eliminate the time difference of the sound that has reached the microphone 11c.

以上のように、本発明の一実施形態である音声識別装置1によれば、被写体画像の特徴情報と、音声の特徴情報と、被写体の距離及び方向と、音源の距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付け、この関連付けられた物体の特徴情報が画像音声特徴情報に一致する場合に、追跡制御部40dが画像データ上における被写体画像の追跡を行い、第1の指向特性調整部13a及び第2の指向特性調整部13bが、追跡制御部40dの追跡結果と、被写体の距離及び方向又は音源の距離及び方向とに基づいて、マイクロフォンアレイ11の指向特性を調整するので、音源がカメラ21の画角外に出た場合や、音源が断続的に音声を発生する場合であっても、その都度、音声位置検出部12及び物体位置検出部24bが物体の位置を算出し直すことなく、マイクロフォンアレイ11の指向特性を調整することでノイズを減衰させて良好な音声を得ることができる。   As described above, according to the voice identification device 1 according to an embodiment of the present invention, based on the subject image feature information, the voice feature information, the subject distance and direction, and the sound source distance and direction. When the subject and the sound source are associated as the same object, and the feature information of the associated object matches the image sound feature information, the tracking control unit 40d tracks the subject image on the image data, and the first The directivity characteristic adjustment unit 13a and the second directivity characteristic adjustment unit 13b adjust the directivity characteristics of the microphone array 11 based on the tracking result of the tracking control unit 40d and the distance and direction of the subject or the distance and direction of the sound source. Therefore, even when the sound source goes out of the angle of view of the camera 21 or when the sound source intermittently generates sound, the sound position detection unit 12 and the object position detection unit 24b are each Without re-calculating the position, it is possible to obtain a good sound attenuates the noise by adjusting the directional characteristic of the microphone array 11.

なお、本発明の一実施形態である音声識別装置1では、2つの指向特性調整部(第1の指向特性調整部13a及び第2の指向特性調整部13b)と、2つの音声検出部(第1の音声検出部14a及び第2の音声検出部14b)とを備える構成としたが、これに限らず、多数の指向特性調整部と、多数の音声検出部とを備える構成としてもよい。   In the voice identification device 1 according to an embodiment of the present invention, two directivity characteristic adjustment units (first directivity characteristic adjustment unit 13a and second directivity characteristic adjustment unit 13b) and two voice detection units (first However, the present invention is not limited to this, and may be configured to include a large number of directional characteristic adjustment units and a large number of sound detection units.

本発明の一実施形態である音声識別装置の構成を示した構成図である。It is the block diagram which showed the structure of the audio | voice identification apparatus which is one Embodiment of this invention. 本発明の一実施形態である音声識別装置が備える画像音声特徴情報記憶部に記憶された画像音声特徴情報の一例を示した図である。It is the figure which showed an example of the image sound feature information memorize | stored in the image sound feature information storage part with which the audio | voice identification apparatus which is one Embodiment of this invention is provided. 本発明の一実施形態である音声識別装置が備える画像基準特徴情報記憶部に記憶された画像基準特徴情報の一例を示した図である。It is the figure which showed an example of the image reference | standard feature information memorize | stored in the image reference | standard feature information storage part with which the audio | voice identification apparatus which is one Embodiment of this invention is provided. 本発明の一実施形態である音声識別装置が備える音声基準特徴情報記憶部に記憶された音声基準特徴情報の一例を示した図である。It is the figure which showed an example of the audio | voice reference | standard feature information memorize | stored in the audio | voice reference | standard feature information storage part with which the audio | voice identification apparatus which is one Embodiment of this invention is provided. 本発明の一実施形態である音声識別装置の処理フローを示したフローチャートである。It is the flowchart which showed the processing flow of the speech identification device which is one Embodiment of this invention. 本発明の一実施形態である音声識別装置が備える物体検出部による検出処理を説明した図である。It is a figure explaining the detection process by the object detection part with which the speech identification device which is one Embodiment of this invention is provided. 本発明の一実施形態である音声識別装置が備える物体位置検出部による被写体の方向の算出処理を説明した図である。It is a figure explaining the calculation process of the direction of a to-be-photographed by the object position detection part with which the audio | voice identification apparatus which is one Embodiment of this invention is provided. 本発明の一実施形態である音声識別装置が備える物体位置検出部による被写体の距離の算出処理を説明した図である。It is a figure explaining the calculation process of the distance of a subject by the object position detection part with which the audio | voice identification apparatus which is one Embodiment of this invention is provided. 本発明の一実施形態である音声識別装置が備える第1の音声検出部又は第2の音声検出部による検出処理を説明した図である。(a)は、補正された音声データの波形の一例を示しており、(b)は、(a)に基づいて生成されたパワースペクトルを示しており、(c)は、音声基準特徴情報記憶部33に記憶された音声基準特徴情報のパワースペクトルの一例を示している。It is a figure explaining the detection process by the 1st audio | voice detection part or the 2nd audio | voice detection part with which the audio | voice identification apparatus which is one Embodiment of this invention is provided. (A) shows an example of a waveform of corrected audio data, (b) shows a power spectrum generated based on (a), and (c) shows audio reference feature information storage. An example of the power spectrum of the speech reference feature information stored in the unit 33 is shown. 本発明の一実施形態である音声識別装置が備える音声位置検出による音源の方向及び距離の算出処理を説明した図である。It is a figure explaining the calculation process of the direction and distance of a sound source by the audio | voice position detection with which the audio | voice identification apparatus which is one Embodiment of this invention is provided. 本発明の一実施形態である音声識別装置が備える第1のマイクロフォン、第2のマイクロフォン、及び第3のマイクロフォンに入力された音声波形の位相比較の一例を示した図である。It is the figure which showed an example of the phase comparison of the audio | voice waveform input into the 1st microphone, 2nd microphone, and 3rd microphone with which the speech identification device which is one Embodiment of this invention is provided. 本発明の一実施形態である音声識別装置における指向特性調整処理の処理フローを示したフローチャートである。It is the flowchart which showed the processing flow of the directional characteristic adjustment process in the audio | voice identification apparatus which is one Embodiment of this invention.

符号の説明Explanation of symbols

1…音声識別装置
11…マイクロフォンアレイ
12…音声位置検出部
13a…第1の指向特性調整部
13b…第2の指向特性調整部
14a…第1の音声検出部
14b…第2の音声検出部
21…カメラ
22…カメラ処理部
23…動きセンサ
24…検出部
24a…物体検出部
24b…物体位置検出部
25…ベクトル検出部
31…画像音声特徴情報記憶部
32…画像基準特徴情報記憶部
33…音声基準特徴情報記憶部
34…指向特性優先度記憶部
40…CPU
40a…関連付け部
40b…特徴情報判定部
40c…記憶制御部
40d…追跡制御部
40e…指向調整制御部
41…操作部
DESCRIPTION OF SYMBOLS 1 ... Voice identification device 11 ... Microphone array 12 ... Voice position detection part 13a ... 1st directivity characteristic adjustment part 13b ... 2nd directivity characteristic adjustment part 14a ... 1st voice detection part 14b ... 2nd voice detection part 21 ... Camera 22 ... Camera processing unit 23 ... Motion sensor 24 ... Detection unit 24a ... Object detection unit 24b ... Object position detection unit 25 ... Vector detection unit 31 ... Image audio feature information storage unit 32 ... Image reference feature information storage unit 33 ... Audio Reference feature information storage unit 34 ... Directional characteristic priority storage unit 40 ... CPU
40a ... Association unit 40b ... Feature information determination unit 40c ... Storage control unit 40d ... Tracking control unit 40e ... Direction adjustment control unit 41 ... Operation unit

Claims (7)

物体から発せられる音声を識別する音声識別装置において、
光学系により集光された光を電気信号へ変換して画像データを生成する撮像部と、
音源から発せられた音声を電気信号へ変換して音声データを生成する複数のマイクロフォンが所定間隔で配置されたマイクロフォンアレイと、
前記画像データに含まれる被写体画像の特徴情報と、前記音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する画像音声特徴情報記憶部と、
前記撮像部により生成された画像データから被写体画像の特徴情報を検出する物体検出部と、
前記マイクロフォンアレイにより生成された音声データから音声の特徴情報を検出する音声検出部と、
前記撮像部により生成された画像データに基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する物体位置検出部と、
前記マイクロフォンアレイにより生成された音声データに基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する音声位置検出部と、
前記物体検出部により検出された被写体画像の特徴情報と、前記音声検出部により検出された音声の特徴情報と、前記物体位置検出部により算出された前記被写体の距離及び方向と、前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記被写体と前記音源とを同一の物体として関連付ける関連付け部と、
前記関連付け部により関連付けられた物体の特徴情報が、前記画像音声特徴情報記憶部に記憶された画像音声特徴情報に一致するか否かを判定する特徴情報判定部と、
前記特徴情報判定部により特徴情報が画像音声特徴情報に一致すると判定された場合に、前記画像データ上における前記被写体の追跡を行う追跡制御部と、
前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整する指向特性調整部と、
を備えた音声識別装置。
In a voice identification device for identifying voice emitted from an object,
An imaging unit that converts light collected by the optical system into an electrical signal to generate image data;
A microphone array in which a plurality of microphones that generate sound data by converting sound emitted from a sound source into electrical signals are arranged at predetermined intervals;
An image / sound feature information storage unit that stores the feature information of the subject image included in the image data and the feature information of the sound emitted from the sound source in association with each other and stores it as image / sound feature information
An object detection unit for detecting feature information of a subject image from image data generated by the imaging unit;
A voice detector for detecting voice feature information from the voice data generated by the microphone array;
An object position detection unit that calculates a distance from the voice identification device to the subject and a direction of the subject with respect to the voice identification device based on image data generated by the imaging unit;
A voice position detection unit that calculates a distance from the voice identification device to the sound source and a direction of the sound source with respect to the voice identification device based on voice data generated by the microphone array;
Feature information of the subject image detected by the object detection unit, feature information of the voice detected by the voice detection unit, distance and direction of the subject calculated by the object position detection unit, and voice position detection An association unit that associates the subject and the sound source as the same object based on the distance and direction of the sound source calculated by the unit;
A feature information determination unit that determines whether or not the feature information of the object associated by the association unit matches the image and sound feature information stored in the image and sound feature information storage unit;
A tracking control unit that tracks the subject on the image data when the feature information determination unit determines that the feature information matches the image audio feature information;
Based on the tracking result of the tracking control unit and the distance and direction of the subject calculated by the object position detection unit or the distance and direction of the sound source calculated by the audio position detection unit, the orientation of the microphone array is determined. A directivity adjustment unit for adjusting the characteristics;
A voice identification device comprising:
前記特徴情報判定部により特徴情報が一致しないと判定された場合、前記関連付け部により関連付けられた物体の特徴情報を、新たな前記画像音声特徴情報として画像音声特徴情報記憶部に記憶させる記憶制御部を、更に備える
ことを特徴とする請求項1記載の音声識別装置。
A storage control unit that stores feature information of an object associated by the association unit in the image / audio feature information storage unit as new image / audio feature information when the feature information determination unit determines that the feature information does not match The voice identification device according to claim 1, further comprising:
前記物体位置検出部は、
前記撮像部における画角及び前記被写体までの焦点情報に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する
ことを特徴とする請求項1記載の音声識別装置。
The object position detector
The distance from the voice identification device to the subject and the direction of the subject with respect to the voice identification device are calculated based on an angle of view in the imaging unit and focus information to the subject. Voice identification device.
前記被写体画像の特徴情報と前記被写体の基準寸法とを関連付けて画像基準特徴情報として記憶する画像基準特徴情報記憶部を備え、
前記物体位置検出部は、
前記画像基準特徴情報に基づいて、前記画像データに含まれる被写体画像の特徴情報に対応する前記被写体の基準寸法を抽出し、この抽出された前記被写体の基準寸法を及び前記撮像部における画角に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する
ことを特徴とする請求項1記載の音声識別装置。
An image reference feature information storage unit that stores the feature information of the subject image and the reference dimension of the subject as image reference feature information in association with each other;
The object position detector
Based on the image reference feature information, a reference size of the subject corresponding to the feature information of the subject image included in the image data is extracted, and the extracted reference size of the subject is used as an angle of view in the imaging unit. The voice identification device according to claim 1, further comprising: calculating a distance from the voice identification device to the subject and a direction of the subject with respect to the voice identification device.
前記音声位置検出部は、
前記複数のマイクロフォンに到達した音声の時間差に基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する
ことを特徴とする請求項1記載の音声識別装置。
The voice position detector
The voice identification device according to claim 1, wherein a distance from the voice identification device to the sound source and a direction of the sound source with respect to the voice identification device are calculated based on a time difference between voices reaching the plurality of microphones. .
前記追跡制御部は、
前記特徴情報判定部により被写体画像の特徴情報が一致すると判定された場合に、前記画像データに基づいて表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより前記被写体の動きを追跡する
ことを特徴とする請求項1記載の音声識別装置。
The tracking control unit
When the feature information determination unit determines that the feature information of the subject image matches, the image displayed based on the image data is divided into a plurality of blocks, and the movement of each block is detected to detect the motion of the subject. The voice identification device according to claim 1, wherein the movement is tracked.
前記指向特性調整部は、
前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記複数のマイクロフォンに到達した音声の時間差をなくすように、前記複数のマイクロフォンにより生成された音声データを重ね合わせる
ことを特徴とする請求項1記載の音声識別装置。
The directivity adjusting unit is
Based on the tracking result of the tracking control unit and the distance and direction of the subject calculated by the object position detection unit or the distance and direction of the sound source calculated by the audio position detection unit, the plurality of microphones The voice identification device according to claim 1, wherein voice data generated by the plurality of microphones are superimposed so as to eliminate a time difference between the reached voices.
JP2008330533A 2008-12-25 2008-12-25 Voice recognition device Pending JP2010154260A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008330533A JP2010154260A (en) 2008-12-25 2008-12-25 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008330533A JP2010154260A (en) 2008-12-25 2008-12-25 Voice recognition device

Publications (1)

Publication Number Publication Date
JP2010154260A true JP2010154260A (en) 2010-07-08

Family

ID=42572806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008330533A Pending JP2010154260A (en) 2008-12-25 2008-12-25 Voice recognition device

Country Status (1)

Country Link
JP (1) JP2010154260A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085673A (en) * 2012-10-23 2014-05-12 Huwei Device Co Ltd Method for intelligently controlling volume of electronic equipment, and mounting equipment
JP2014122978A (en) * 2012-12-20 2014-07-03 Casio Comput Co Ltd Imaging device, voice recognition method, and program
JP2017126906A (en) * 2016-01-14 2017-07-20 株式会社リコー Voice processing apparatus, voice processing method, and voice processing program
JP2018121134A (en) * 2017-01-23 2018-08-02 京セラドキュメントソリューションズ株式会社 Image forming apparatus
CN110740259A (en) * 2019-10-21 2020-01-31 维沃移动通信有限公司 Video processing method and electronic equipment
EP3709215A1 (en) 2019-03-13 2020-09-16 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
CN112711974A (en) * 2019-10-25 2021-04-27 纬创资通股份有限公司 Face recognition method and device
US11665391B2 (en) 2021-01-13 2023-05-30 Panasonic Intellectual Property Management Co., Ltd. Signal processing device and signal processing system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085673A (en) * 2012-10-23 2014-05-12 Huwei Device Co Ltd Method for intelligently controlling volume of electronic equipment, and mounting equipment
US9197177B2 (en) 2012-10-23 2015-11-24 Huawei Device Co., Ltd. Method and implementation apparatus for intelligently controlling volume of electronic device
JP2014122978A (en) * 2012-12-20 2014-07-03 Casio Comput Co Ltd Imaging device, voice recognition method, and program
JP2017126906A (en) * 2016-01-14 2017-07-20 株式会社リコー Voice processing apparatus, voice processing method, and voice processing program
JP2018121134A (en) * 2017-01-23 2018-08-02 京セラドキュメントソリューションズ株式会社 Image forming apparatus
EP3709215A1 (en) 2019-03-13 2020-09-16 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
US11463615B2 (en) 2019-03-13 2022-10-04 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
CN110740259A (en) * 2019-10-21 2020-01-31 维沃移动通信有限公司 Video processing method and electronic equipment
CN112711974A (en) * 2019-10-25 2021-04-27 纬创资通股份有限公司 Face recognition method and device
CN112711974B (en) * 2019-10-25 2023-12-12 纬创资通股份有限公司 Face identification method and device
US11665391B2 (en) 2021-01-13 2023-05-30 Panasonic Intellectual Property Management Co., Ltd. Signal processing device and signal processing system

Similar Documents

Publication Publication Date Title
JP2010154260A (en) Voice recognition device
US11043231B2 (en) Speech enhancement method and apparatus for same
JP6464449B2 (en) Sound source separation apparatus and sound source separation method
JP7233035B2 (en) SOUND COLLECTION DEVICE, SOUND COLLECTION METHOD, AND PROGRAM
US8395653B2 (en) Videoconferencing endpoint having multiple voice-tracking cameras
JP5857674B2 (en) Image processing apparatus and image processing system
JP4797330B2 (en) robot
US7313243B2 (en) Sound pickup method and system with sound source tracking
US20110285807A1 (en) Voice Tracking Camera with Speaker Identification
US20110285809A1 (en) Automatic Camera Framing for Videoconferencing
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
US20120249785A1 (en) Signal processor and signal processing method
US11234074B2 (en) Sound pickup device, sound pickup system, sound pickup method, program, and calibration method
JP7194897B2 (en) Signal processing device and signal processing method
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
WO2017017568A1 (en) Signal processing and source separation
WO2012133058A1 (en) Electronic device and information transmission system
JP2010154259A (en) Image and sound processing apparatus
JP2006251266A (en) Audio-visual coordinated recognition method and device
JP2011071702A (en) Sound pickup processor, sound pickup processing method, and program
JP2009225379A (en) Voice processing apparatus, voice processing method, voice processing program
JP2012205240A (en) Electronic device and information transfer system
JP4669150B2 (en) Main subject estimation apparatus and main subject estimation method
JP2011061461A (en) Imaging apparatus, directivity control method, and program therefor
US20090034753A1 (en) Direction detection apparatus, direction detection method and direction detection program, and direction control apparatus, direction control method, and direction control program