JP2006263348A - Device, method, and program for identifying user - Google Patents
Device, method, and program for identifying user Download PDFInfo
- Publication number
- JP2006263348A JP2006263348A JP2005089419A JP2005089419A JP2006263348A JP 2006263348 A JP2006263348 A JP 2006263348A JP 2005089419 A JP2005089419 A JP 2005089419A JP 2005089419 A JP2005089419 A JP 2005089419A JP 2006263348 A JP2006263348 A JP 2006263348A
- Authority
- JP
- Japan
- Prior art keywords
- user
- information
- biometric
- identification information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、利用者を検知して得られた利用者の生体情報と、利用者ごとの生体情報を登録した生体辞書とに基づいて利用者を識別する利用者識別装置、利用者識別方法および利用者識別プログラムに関する。 The present invention relates to a user identification device, a user identification method, and a user identification method for identifying a user based on a user's biometric information obtained by detecting the user and a biometric dictionary in which biometric information for each user is registered. It relates to a user identification program.
近年、人間と活動空間を共有する種々の間共存型ロボット技術が研究開発されている。このような人間共存型ロボットは、その利用者が誰であるのかを的確に識別および認証することが重要な課題となっている。このような利用者識別に関しては、特に比較的離れた位置から取得できる利用者の音声や顔等の利用者の生体情報(バイオメトリクス)を、個人を特定するために使用する話者識別技術や顔識別技術による利用者認証方式が有力なものである。 In recent years, various intercoexistence robot technologies that share an activity space with humans have been researched and developed. In such a human-symbiotic robot, it is an important issue to accurately identify and authenticate who the user is. With regard to such user identification, in particular, speaker identification technology used to identify a user's biometric information (biometrics) such as a user's voice and face that can be acquired from a relatively remote location, A user authentication method based on face identification technology is promising.
話者識別方式とは、次のような方式である。事前に実際の利用者の音声の声紋パターンを取得し、利用者ごとに声紋パターンを対応づけた声紋辞書を生成しておく。そして、入力された音声の声紋パターンと声紋辞書に登録された声紋パターンを照合して、声紋パターンの一致の度合いを示す類似度を求める。そして、この類似度が予め定められた閾値以上で最大となる声紋パターンが存在していれば、当該入力音声が最大の類似度の声紋パターンに対応した利用者の音声であると判断する方式である。 The speaker identification method is as follows. A voice print pattern of an actual user's voice is acquired in advance, and a voice print dictionary in which the voice print pattern is associated with each user is generated. Then, the voice print pattern of the input voice and the voice print pattern registered in the voice print dictionary are collated to obtain a similarity indicating the degree of matching of the voice print patterns. Then, if there is a voice print pattern in which the similarity is the maximum above a predetermined threshold, the input voice is determined to be the voice of the user corresponding to the voice print pattern with the maximum similarity. is there.
また、顔識別方式は、話者識別方式と同様に、事前に実際の利用者の顔パターンを取得し、利用者ごとに顔パターンを対応づけた顔辞書を生成しておき、入力された顔画像の顔パターンと顔辞書に登録された顔パターンを照合して類似度を求め、類似度が予め定められた閾値以上で最大となる顔ターンが存在していれば、当該入力顔画像が最大の類似度の顔パターンに対応した利用者の顔画像であると判断する方式である。 Similarly to the speaker identification method, the face identification method acquires an actual user's face pattern in advance, generates a face dictionary that associates the face pattern for each user, and inputs the face The face pattern of the image and the face pattern registered in the face dictionary are collated to determine the similarity, and if there is a face turn that maximizes the similarity above a predetermined threshold, the input face image is the maximum This is a method for determining that the face image of the user corresponds to the face pattern of the similarity.
このような利用者の生体情報を使用した利用者識別の技術としては、例えば、特許文献1で開示された技術がある。この特許文献1の技術では、個人認証システムにおいて、声紋パタンや顔パタンなどの複数種類の生体情報を入力し、これら複数種類の生体情報を各々識別して得たそれぞれの類似度を、さらに時系列的に連続してそれぞれ収集し、生体情報の種類(声紋と顔など)毎に収集されたこの類似度の系列から、入力された生体情報毎の最終的類似度をそれぞれ決定する。かかる決定は、時系列的な類似度の最大値を選択するか、平均値を計算することで実行される。そして、この個人認証システムは、生体情報毎に決定された最終的類似度を総合的に判断して利用者を認証している。
As a user identification technique using such user's biological information, there is a technique disclosed in
この特許文献1の技術では、時系列的な類似度を利用者識別で使用していることから、時系列的な類似度が出力される期間内で略同時に入力された複数の生体情報は、同一人の利用者の生体情報であることを前提としていると考えられる。
In the technique of this
しかしながら、このような短時間の間を略同時とみなして、この間に入力された複数の生体情報が同一人の利用者の生体情報であると判断する場合には、次のような問題がある。 However, when such a short period of time is regarded as substantially simultaneous and it is determined that a plurality of pieces of biometric information input during this time are biometric information of the same user, there are the following problems. .
すなわち、利用者から取得することができる生体情報にはタイミングがある。例えば、声紋パターンを取得できるタイミングは利用者が発声したときに限られ、顔パターンを取得できるタイミングは利用者の顔の正面が撮像カメラの方向に向いているタイミングに限られる。このように、複数種類の生体情報が常に略同時に取得することができるとは限らず、各生体情報が異なった時間でしか取得できなかったり、あるいは一方の生体情報しか取得できないことがある。 That is, there is a timing in the biological information that can be acquired from the user. For example, the timing at which the voiceprint pattern can be acquired is limited to when the user utters, and the timing at which the face pattern can be acquired is limited to the timing at which the front of the user's face faces the direction of the imaging camera. As described above, a plurality of types of biological information cannot always be acquired almost simultaneously, and each biological information can be acquired only at different times, or only one biological information can be acquired.
このため、特許文献1の技術のように一定の短期間を略同時とみなして、その期間で取得した複数種類の生体情報を同一人の利用者であると判断してしまうと、利用者の同一性の検証に誤りを生じる場合がある。例えば、顔画像と音声が略同時に取得できた場合でも、音声を発した利用者と取得した顔画像の利用者とが異なる場合でも、特許文献1の技術では、同一人と判断してしまうおそれがある。一方、顔画像と音声とが略同時とみなされる期間経過後に取得した場合において、当該顔画像の利用者と音声を発した利用者とが同一人である場合もあるが、略同時性のみをもって同一人か否かを判断しているため、異なる利用者と判断されてしまうおそれがある。
For this reason, if a certain short period is regarded as substantially simultaneous like the technique of
ところで、利用者識別の技術では、利用者認証のための生体辞書(声紋辞書や顔辞書など)は、利用者に対して利用者識別システムが運用を開始される時点で生成されることが多い。このようにある時点で生成された生体辞書は、その後の雑音環境や照明環境の変化、利用者自身の声や顔の経時変化のため、生体情報を使用できる期間に有効期限があると考えてよい。すなわち、生体情報の有効期限が切れると、これらの生体情報を登録した生体辞書による類似度が利用者本人であっても十分大きくならず、利用者識別の精度が低下する。このため、システム管理権限を持つ管理者等が、生体情報の有効期限が切れた場合に明示的な操作によって有効期限が切れた生体情報を生体辞書に再学習させる辞書メンテナンスが一般的に行われている。 By the way, in the user identification technique, a biometric dictionary (such as a voice print dictionary or a face dictionary) for user authentication is often generated when the user identification system starts to operate for a user. . The biological dictionary generated at this point in time is considered to have an expiration date in the period in which biological information can be used due to subsequent changes in the noise environment and lighting environment, and changes in the user's own voice and face over time. Good. That is, when the expiration date of the biometric information expires, the degree of similarity according to the biometric dictionary in which the biometric information is registered is not sufficiently increased even by the user himself, and the accuracy of user identification is reduced. For this reason, in general, dictionary maintenance is performed in which an administrator with system management authority relearns biometric information whose biometric information has expired by an explicit operation when the biometric information has expired. ing.
このような辞書メンテナンス機能を有する利用者識別システムにおいて、特許文献1のように略同時に取得した生体情報により同一人の認証を行っている場合には、さらに次のような問題が生じる。すなわち、利用者Aの顔パターンが利用者Aのものであると識別されている間に、たまたま側に居た生体辞書に登録されていない利用者Bの発した音声を識別しようとして利用者を特定できなかった場合、この事実をもって利用者Aの声紋辞書の有効期限が切れていると誤って判断し、顔パターンで識別できた利用者Aの音声として全く別の利用者Bの声紋パターンを学習して生体辞書を更新してしまうという危険性がある。
In the user identification system having such a dictionary maintenance function, when the same person is authenticated by biometric information acquired almost simultaneously as in
本発明は、上記に鑑みてなされたものであって、利用者の同一性検証を追跡同方向性によって行うことにより、複数種類の生体情報を使用した利用者識別を高精度に行うことができる利用者識別装置、利用者識別方法および利用者識別プログラムを提供することを目的とする。 The present invention has been made in view of the above, and can perform user identification using a plurality of types of biological information with high accuracy by performing verification of user identity based on tracking directionality. It is an object to provide a user identification device, a user identification method, and a user identification program.
上述した課題を解決し、目的を達成するために、本発明は、利用者の音声を検知して、検知した音声を利用者の生体情報として出力する検知手段と、利用者の画像を撮像して、撮像した画像を利用者の生体情報として出力する撮像手段と、前記撮像手段および前記検知手段が出力する生体情報ごとに、利用者の識別情報と利用者の生体情報とを対応付けた複数の生体辞書を記憶する生体辞書記憶手段と、前記検知手段によって出力された前記生体情報と前記生体情報に対応した前記生体辞書とに基づいて前記生体情報から利用者を識別し、利用者の識別情報と利用者が存在する方向と対応付けた生体識別情報を生成し、前記撮像手段によって出力された生体情報と前記生体情報に対応した前記生体辞書とに基づいて前記生体情報から利用者を識別し、利用者の識別情報と利用者が存在する方向と対応付けた生体識別情報を生成する識別手段と、前記識別手段によって生成され、先に取得した第1の生体識別情報が示す方向の画像に関して特徴的な領域である画像特徴領域に近似する領域を、前記撮像手段によって新たに入力される画像から検出して、検出された領域を新たな前記画像特徴領域に設定するとともに、設定された新たな前記画像特徴領域の検出方向を求める領域追跡手段と、前記領域追跡手段によって求められた前記画像特徴領域の検出方向と前記第1の生体識別情報より後に取得した第2の生体識別情報の方向との差が予め定められた閾値以下であるか否かを判断し、方向の差が前記閾値以下である場合に、前記第1の生体識別情報で識別される利用者と前記第2の生体識別情報で識別される利用者が同一であると判断する同一性検証手段と、を備えたことを特徴とする利用者識別装置である。 In order to solve the above-described problems and achieve the object, the present invention detects a user's voice and outputs the detected voice as user's biological information, and captures a user's image. A plurality of imaging means for outputting captured images as biometric information of a user, and a plurality of user identification information and biometric information of the user associated with each biometric information output by the imaging means and the detection means. A user is identified from the biometric information based on the biometric dictionary storing means for storing the biometric dictionary, the biometric information output by the detecting means, and the biometric dictionary corresponding to the biometric information, and identification of the user Biometric identification information associated with information and a direction in which the user exists is generated, and the user is identified from the biological information based on the biological information output by the imaging unit and the biological dictionary corresponding to the biological information. Separately, identification means for generating biometric identification information associated with the identification information of the user and the direction in which the user exists, and the direction indicated by the first biometric identification information generated by the identification means and acquired earlier An area that approximates an image feature area that is a characteristic area for an image is detected from an image newly input by the imaging unit, and the detected area is set as a new image feature area. Area tracking means for obtaining a new detection direction of the image feature area, and second biometric identification information acquired after the detection direction of the image feature area obtained by the area tracking means and the first biometric identification information It is determined whether or not the difference between the direction and the second direction is less than or equal to a predetermined threshold, and when the direction difference is less than or equal to the threshold, the user identified by the first biometric identification information and the second of And identity verification means the user identified by the body identification information is determined to be identical, a user identification device characterized by comprising a.
また、本発明は上記利用者識別装置で実行される利用者識別方法および利用者識別プログラムである。 Moreover, this invention is the user identification method and user identification program which are performed with the said user identification device.
本発明によれば、検知手段によって出力された生体情報とこの生体情報に対応した生体辞書とに基づいて利用者を識別し、利用者の識別情報と利用者が存在する方向と対応付けた生体識別情報を生成し、一方、これとは別個の撮像手段によって出力された生体情報と生体情報に対応した生体辞書とに基づいて利用者を識別し、利用者の識別情報と利用者が存在する方向と対応付けた生体識別情報を生成する。すなわち、検知手段から得られる生体情報と撮像手段から得られる生体情報のそれぞれから別個に利用者が存在する方向を求める。そして、先に取得した第1の生体識別情報が示す方向の画像に関して特徴的な領域である画像特徴領域に近似する領域を追跡し、画像特徴領域の検出方向と第1の生体識別情報より後に取得した第2の生体識別情報の方向との差が予め定められた閾値以下であるか否かを判断し、方向の差が閾値以下である場合に、第1の生体識別情報で識別される利用者と第2の生体識別情報で識別される利用者が同一であると判断しているので、複数種類の生体情報を使用して利用者識別を行う場合に、それぞれ別個の生体情報から求めた利用者の方向の同一性に基づいて利用者の同一性の検証を行うことができ、一定期間経過後に利用者から異なる生体情報を取得した場合でも、利用者の同一性の検証を高精度に行うことができる。 According to the present invention, the user is identified based on the biological information output by the detection means and the biological dictionary corresponding to the biological information, and the biological information is associated with the user identification information and the direction in which the user exists. On the other hand, identification information is generated. On the other hand, a user is identified based on biometric information output by a separate imaging unit and a biometric dictionary corresponding to the biometric information, and the user's identification information and the user exist. Biometric identification information associated with the direction is generated. That is, the direction in which the user exists is obtained separately from the biological information obtained from the detection means and the biological information obtained from the imaging means. And the area | region which approximates the image feature area which is a characteristic area | region regarding the image of the direction which the 1st biometric identification information acquired previously is tracked is tracked after the detection direction of the image feature area and the first biometric identification information. It is determined whether or not a difference from the direction of the acquired second biometric identification information is equal to or smaller than a predetermined threshold value. If the difference in direction is equal to or smaller than the threshold value, the first biometric identification information is identified. Since it is determined that the user and the user identified by the second biometric identification information are the same, when performing user identification using a plurality of types of biometric information, they are obtained from separate biometric information. The identity of the user can be verified based on the identity of the user's direction, and even when different biological information is acquired from the user after a certain period of time, the identity of the user can be verified with high accuracy. Can be done.
以下に添付図面を参照して、この発明にかかる利用者識別装置、利用者識別方法および利用者識別プログラムの最良な実施の形態を詳細に説明する。本実施の形態は、本発明の利用者識別装置を自律移動型ロボットに適用したものである。 Exemplary embodiments of a user identification device, a user identification method, and a user identification program according to the present invention are explained in detail below with reference to the accompanying drawings. In the present embodiment, the user identification device of the present invention is applied to an autonomous mobile robot.
(自律移動型ロボットの構成)
図1は、本実施の形態にかかる自律移動型ロボットの機能的構成を示すブロック図である。
(Configuration of autonomous mobile robot)
FIG. 1 is a block diagram showing a functional configuration of the autonomous mobile robot according to the present embodiment.
本実施の形態にかかる自律移動型ロボットは、図1に示すように、3個のマイクロホン206,207,208と全天カメラ205と、音響指向性形成部101と、語彙識別部103と、話者識別部104と、顔識別部105と、領域追跡部106と、利用者認証部107と、辞書更新部108と、サービス提供部109と、同一性検証部110と、生体辞書記憶部120とを主に備えた構成となっている。なお、本実施の形態の自律移動型ロボットは、図1に示す各部の他、移動制御を行う制御部など利用者識別機能以外の機能を実行する部分を備えている。
As shown in FIG. 1, the autonomous mobile robot according to the present embodiment includes three
ここで、マイクロホン206,207,208は本発明における検知手段に相当し、全天カメラ205は本発明における撮像手段に相当する。また、話者識別部104と顔識別部105は本発明における識別手段に相当する。
Here, the
マイクロホン206,207,208は、利用者の音声を入力するものである。全天カメラ205は、上向き180度の視野の魚眼レンズ付きカメラであり、利用者を含むロボット本体の周囲360度が撮像可能となっている。
ここで、図2は、本実施の形態の自律移動型ロボットの外観を示す模式図である。本実施の形態の自律移動型ロボットは、図2に示すように、本体201と、本体201に装着された移動のための駆動輪202,203および補助輪(図示せず)とを備え、利用者住居内の床面上を自在に移動できるように構成されている。
Here, FIG. 2 is a schematic diagram showing an appearance of the autonomous mobile robot according to the present embodiment. As shown in FIG. 2, the autonomous mobile robot according to the present embodiment includes a
上述した2個のマイクロホン206,207は、本体201の前面に左右一対のが水平配置され、マイクロホン208は、マイクロホン206,207と略同一水平面内に位置するよう本体101の背面に配置されている。このように空間的に離散配置された3個のマイクロホン206,207,208によって入力された利用者の音声の指向性は、後述する音響指向性形成部101の複数の音響指向性形成モジュール102によって水平・垂直方向に複数自在に設定可能になっている。
A pair of left and
また、上述した全天カメラ205は、自律移動型ロボットの本体201上部に装着されている。全天カメラ205は、上向きに180度の視野を持つ魚眼レンズ付きカメラ315であり、円形視野の全天画像318を取得できるようになっている。全天カメラ205は、一定時間間隔で周囲を撮像して撮像した画像フレームを出力する。
The above-described all-
図3−1は、2人の利用者を撮像する全天カメラ205の配置を示す模式図であり、図3−2は、図3−1で示す配置の2人の利用者を全天カメラ205で撮像した全天画像を示す模式図である。全天カメラ205で撮像される利用者316,317が図3−1に示す位置にいる場合、この2人の利用者316,317は全天画像318内に図3−2に示すように投影される。
FIG. 3A is a schematic diagram illustrating an arrangement of the
図1に戻り、音響指向性形成部101は、自律移動型ロボット周囲の種種の方向から到来する音声を方向ごとに分離抽出して音声区間の音声データと到来方向とからなる指向性音声情報を出力するものであり、周囲の種種の方向から到来する音声を、個別かつ選択的に通過させる複数の音響指向性形成モジュール102と到来方向を記憶する指向性設定値記憶部(図示せず)とを備えている。音響指向性形成部101によって分離抽出される音声には、利用者の音声や環境雑音などがある。
Returning to FIG. 1, the acoustic
音響指向性形成部101は、分離抽出された音声情報のそれぞれの強度を評価して、強度が第1の閾値以上となってから所定期間遡った時刻から、第2の閾値未満となってから所定期間経過する時刻までを「音声区間」とし、音声情報から当該音声区間のみを抽出したデータを音声区間の音声データとする。そして、その到来方向を示す方向情報と音声区間の音声データを対応付けて指向性音声情報として出力する。なお、強度による音声区間の検出処理は、遠方から到来する弱い環境雑音しか含まない音声を、後段で無駄に処理しないように除外する効果を有している。
The sound
図4は、音響指向性形成部101の構成を示すブロック図である。音響指向性形成部101は、マイクロホン206,207からの音声を入力する前段のビームフォーマ410,420,430と、マイクロホン208からの音声と前段のビームフォーマ410,420,430からの出力を入力する後段のビームフォーマ411,412,413、・・・、421,422,423、・・・431,432,433、・・・、と指向性設定値記憶部440とから構成される。ここで、図4に示すように、後段のビームフォーマ411,412,413、・・・は、前段のビームフォーマ410からの出力とマイクロホン208からの音声を入力し、後段のビームフォーマ421,422,423、・・・は、前段のビームフォーマ420からの出力とマイクロホン208からの音声を入力し、後段のビームフォーマ431,432,433、・・・は、前段のビームフォーマ430からの出力とマイクロホン208からの音声を入力するようになっている。
FIG. 4 is a block diagram illustrating a configuration of the sound
指向性設定値記憶部440と、前段のビームフォーマ410と、前段のビームフォーマ410に対応する後段のビームフォーマ411,412,413,・・・のそれぞれとによって各後段のビームフォーマ411,412,413,・・・に対応した数の音響指向性形成モジュール102が構成される。前段のビームフォーマ420に対応する後段のビームフォーマ421,422,423,・・・、前段のビームフォーマ430に対応する後段のビームフォーマ431,432,433,・・・についても同様である。
Each of the
すなわち、音響指向性形成モジュール102は、前段のビームフォーマ410と後段のビームフォーマ411と指向性記憶部440で一つの領域に対応しており、別の領域に対応した音響指向性形成モジュール102は、前段のビームフォーマ410と後段のビームフォーマ412と指向性記憶部440で構成される。
In other words, the acoustic
図5は、音響指向性形成モジュール102の構成を示すブロック図である。図5では、前段のビームフォーマ410と後段のビームフォーマ411とで構成される例を示している。この音響指向性形成モジュール102は、3個のマイクロホン206、207、208からの音声入力の指向性を水平・垂直方向に自在に設定する機能を有している。
FIG. 5 is a block diagram showing a configuration of the sound
前段のビームフォーマ410は、自律移動型ロボットの前面に水平配置された2個のマイクロホン206,207からの音声を入力し、マイクロホン206とマイクロホン207を結ぶ線分に対して設定される角度θを中心指向性方向として、その中心指向性方向からはずれた方向の感度を抑圧する働きを有する指向性形成手段である。この結果、中心指向性方向を中心とした所定範囲に対する感度が所定値以上に保持されつつ、それ以外の方向の感度はかかる所定値未満に抑制される。かかるビームフォーマの構成は、種々提案されており、例えば、フェイズドアレイとして知られている複数のマイクロホン入力の遅延和を計算する方法では、遅延量を制御することで任意の方向に指向性を向けることができる。また、Griffith-Jim型一般化サイドローブキャンセラを2個使用して、設定された指向性範囲内の音声をより明瞭に抽出する技術も知られている。
The beam former 410 in the previous stage inputs the sound from the two
2個のマイクロホン206,207により形成される中心指向性方向は、図6に示すように、例示するようにマイクロホン206とマイクロホン207を結ぶ線分から角度θだけ開いた円錐面612となる。したがって、その出力は円錐面621付近の所定範囲内に存在する音源からの音声を主成分とする。
As shown in FIG. 6, the center directivity direction formed by the two
しかしながら、ビームフォーマ410により形成される指向性範囲は円錐面621付近全域に亘るので、その範囲のいずれの方向から音声が到来したのかを知るためには、指向性範囲が広すぎる。このため、ビームフォーマ410の後段に2つ目のビームフォーマ411を接続する。ビームフォーマ411は、ビームフォーマ410の出力と自律移動型ロボット背面に配置されたマイクロホン208からの音声を入力し、所定の指向性範囲を形成するサイドローブキャンセラである。
However, since the directivity range formed by the
このように、ビームフォーマ410の後段にビームフォーマ411を設け、ビームフォーマ410からの出力とマイクロホン208からの音声とを入力することにより、2個のマイクロホン206,207の中間に位置する仮想的なマイクロホン501からの音声とと背面のマイクロホン208からの音声を入力しているようになり、その指向性の中心は仮想的なマイクロホン501と背面のマイクロホン208を結ぶ線分から所定角度開いた円錐面となる。このとき、仮想的なマイクロホン501からの音声はビームフォーマ410によって既に指向性範囲が絞られているので、ビームフォーマ411の出力は円錐面621と、仮想的なマイクロホン501と背面のマイクロホン208を結ぶ線分から所定角度開いた円錐面の交差する方向からの音声が最も強くなる。
As described above, the beam former 411 is provided at the subsequent stage of the beam former 410, and by inputting the output from the beam former 410 and the sound from the
このような作用を得るために、本実施の形態の自律移動型ロボットでは、3個のマイクロホン206、207、208を、マイクロホン208を頂点とする水平な2等辺3角形をなすように配置している。
In order to obtain such an action, in the autonomous mobile robot of the present embodiment, three
図7−1および図7−2は、音響指向性モジュールの前段のビームフォーマと後段のビームフォーマにより設定される指向性範囲を示す模式図である。図7−1は、自律移動型ロボットの上方から観た図であり、図7−2は、水平方向から観た図である。74は、ロボットの本体201の正面方向である。
FIGS. 7A and 7B are schematic diagrams illustrating directivity ranges set by the former beamformer and the latter beamformer of the acoustic directivity module. FIG. 7-1 is a diagram viewed from above the autonomous mobile robot, and FIG. 7-2 is a diagram viewed from the horizontal direction.
ビームフォーマ410による円錐面70(621)はマイクロホンの高さでは指向性の水平方位を表しており、後段のビームフォーマ411による円錐面71はその指向性の水平方位をさらに垂直方向に絞る効果を有している。このため、前段のビームフォーマ410による指向性範囲を水平指向性範囲70、後段のビームフォーマ411による指向性範囲を垂直指向性範囲71という。
The conical surface 70 (621) by the
ビームフォーマ410およびビームフォーマ411による指向性範囲72は、図7−1,7−2に示すように、水平指向性範囲70と垂直指向性範囲71の2つの円錐に挟まれる領域72として現れる。
The
すなわち、ビームフォーマ410による垂直面内の指向性範囲も同様に図7−2に示すマイクロホン高さ73の位置を起点とする2つの円錐に挟まれる領域となる。このとき水平指向性範囲70と垂直指向性範囲71との共通領域72が、音響指向性形成モジュールの最終的な指向性範囲である。音響指向性形成モジュールはこの指向性範囲72内から到来する音声を高感度で通過させる。なお、マイクロホン206、207、208の距離に対して音源の距離が十分大きいときは、形成された指向性範囲の起点、すなわち円錐の頂点を仮想的名マイクロホン501とマイクロホン208を結ぶ線分の中点としてもよい。
That is, the directivity range in the vertical plane by the beam former 410 is also a region sandwiched between two cones starting from the position of the
水平指向性範囲70と垂直指向性範囲71の各方位角は、例えば20度の開きとなるように設定される。ビームフォーマ410およびビームフォーマ411とにより、このように例えば±10度(すなわち20度の角度)という狭い指向性範囲を形成することができる。
Each azimuth angle of the
なお、ビームフォーマ410とビームフォーマ411により指向性範囲、すなわち水平指向性範囲70と垂直指向性範囲の開き角度と音声の通過可能な角度幅は、指向性範囲設定値記憶部440に設定され、外部からリード・ライト可能である。
The
図8−1は、20度刻みで180度を覆う指向性範囲の配置例を示した説明図である。本実施の形態の自律移動型ロボットでは。このように形成される指向性範囲を9個用意して図8−1に示すようにタイル張りに並べることにより±90度(すなわち180度)の範囲を9つの指向性範囲に分割している。 FIG. 8A is an explanatory diagram illustrating an arrangement example of the directivity range that covers 180 degrees in increments of 20 degrees. In the autonomous mobile robot of this embodiment. By preparing nine directivity ranges formed in this way and arranging them in tiles as shown in FIG. 8A, the range of ± 90 degrees (ie 180 degrees) is divided into nine directivity ranges. .
このように1個の音響指向性形成モジュール102によって自律移動型ロボットを中心とした球面ドーム上の任意の位置に狭い指向性範囲を設定することができる。そして、本実施の形態では、この音響指向性形成モジュール102を複数装備し、各音響指向性形成モジュール102の指向性範囲をモジュール毎に異ならせて、水平・垂直方向の所定範囲をカバーするタイルのように配置することで、いずれの方向から音声が到来した場合でも、対応する指向性範囲を有するモジュールの出力として入力音声を分離抽出することとしている。従って、音響指向性形成部101は、全ての音響指向性形成モジュール102を同時に稼動させることにより、異なる方向から同時に音声が到来しても、それらを個々に分離して出力することができる。
In this way, a narrow directivity range can be set at an arbitrary position on the spherical dome centering on the autonomous mobile robot by the single acoustic
例えば図8−1に示すように、20度刻みで水平・垂直それぞれ9範囲ずつの組み合わせとして最大でN=9×9=81個の音響指向性形成モジュール102を用意し、これにより自律移動型ロボットの周囲の水平360度、垂直180度の範囲をカバーすることができる。ただし、実際には81個の組み合わせの中で水平指向性範囲と垂直指向性範囲の交差しない範囲を除外して、有効な組み合わせの数は81より少なくなる。また、1つの水平指向性範囲に対して複数の垂直指向性範囲を設定することになるので、前段のビームフォーマ410の出力を後段の複数のビームフォーマ411,412,413,・・・に共通して供給することができ、ビームフォーマの数は有効な組み合わせの数の2倍より少なくすることができる。図4に示す音響指向性形成部101の構成は、有効な組み合わせに対応し、一部を共通化した必要数のビームフォーマを実装している。
For example, as shown in FIG. 8A, a maximum of N = 9 × 9 = 81 acoustic
マイクロホン206,207の出力は、水平指向性を実現する前段のビームフォーマ410に出力される。水平180度を9分割するために、この前段のビームフォーマはそれぞれ異なる指向性範囲を設定されて合計で9個が用意される。図ではその一部としてビームフォーマ410、420、430の3個を示している。
The outputs of the
異なる水平指向性範囲を実現する前段のビームフォーマ410、420、430のそれぞれの出力は、さらに異なる垂直指向性を実現する後段の複数のビームフォーマに供給される。例えば、ビームフォーマ410の出力は後段のビームフォーマ411、412、413、・・・に出力される。垂直180度を9分割するために、前段の1個のビームフォーマからの出力を共通に受ける後段のビームフォーマは最大で9個必要となる。
The outputs of the
ここで、本実施の形態にかかる自律移動型ロボットは、床面上で移動および旋回が可能である。このとき、音響指向性形成モジュール102の指向性範囲は、マイクロホン206、207、208、すなわちロボット本体201を基準にした相対的な方向として設定される。床面が水平である場合には、指向性範囲の垂直成分は常に一定の基準にしたがっているが、水平成分は本体201の旋回に伴ってその基準が変わる。
Here, the autonomous mobile robot according to the present embodiment can move and turn on the floor. At this time, the directivity range of the acoustic
図8−2および図8−3は、自律移動型ロボットにおける相対方位から絶対方位への補正について示す説明図である。 FIG. 8-2 and FIG. 8-3 are explanatory diagrams illustrating correction from the relative direction to the absolute direction in the autonomous mobile robot.
例えば、図8−1に示すように、本体201の正面方向が矢印840の方向を向いているときに、当該方向から水平方位で右方向を正に+θaの方位、すなわち矢印841で示される方向に利用者842の音声が検出されているとする。次に図8−2に示すように、本体201が右方向を正に+φだけ旋回して、その正面が矢印843の方向を向いたとすると、利用者842の音声が今度は本体201の正面の右方向を正に−θbの方位に観測される。この例から明らかなように、同一利用者842の音声は本体201の旋回によって異なる方位に検出される。
For example, as shown in FIG. 8A, when the front direction of the
そこで、図8−2に示す状態での本体201の姿勢を基準にして水平方位オフセット角θoを0とする。図8−2に示す状態では、本体201が右に角度φ旋回したのであるから、このときの水平方位オフセット角θoを、右方向を正として+φとする。図8−2の状態での利用者の音声の水平方位θbはこの水平方位オフセット角θoを用いて図8−1の状態を基準にした絶対方位に補正される。補正されたθbをθb'とすると、θb'は、次式で算出される。
Therefore, the horizontal azimuth offset angle θo is set to 0 with reference to the posture of the
θb'=θo−θb
補正されたθb'は、利用者842が移動しない限り、本体201の旋回に関わりなくθaと同じ値になる。音響指向性形成部101から出力される指向性音声情報に含まれる方向情報の水平成分は上述のような補正が施されて絶対方位に変換される。この結果、ロボットが旋回した場合でも、異なる姿勢で得られた話者識別情報や顔識別情報や領域追跡情報を共通の基準で比較できるようになる。
θb '= θo−θb
As long as the
各音響指向性形成モジュール102は、モジュール毎に指向性範囲となる領域を割り当てられており、各領域は領域を識別する領域番号が割り当てられている。すなわち、各音響指向性形成モジュール102からの出力は、そのモジュールが割り当てられた領域から到来した音声データであることを示している。このため、各音響指向性形成モジュール102は、自己のモジュール番号を後述する方向対応付けテーブルによって割り当てられた領域番号に変換した方向情報とし、入力した音声区間の音声データに方向情報を付加した指向性音声情報を出力する。図9−1は、音響指向性形成部101の音響指向性形成モジュール102から出力される指向性音声情報のデータ構造図である。かかる指向性音声情報を入力する語彙識別部103、話者識別部104は、この指向性音声情報に設定された方向情報(領域番号)を取得することにより、入力された音声の到来方向を取得することができる。
Each acoustic
図1に戻り、生体辞書記憶部120は、HDD(ハードディスクドライブ装置)等の記憶媒体であり、声紋辞書121と顔辞書122と語彙辞書123が格納されている。
Returning to FIG. 1, the biological
声紋辞書121は、利用者を識別するための利用者IDごとに、利用者IDと利用者IDに対応する利用者の「あいうえお」等の基本的な音声の声紋パターンとを対応付けて登録した辞書データファイルである。
For each user ID for identifying a user, the
顔辞書122は、利用者IDごとに、利用者IDと利用者IDに対応する利用者を実際に撮像した顔画像パターンとを対応付けて登録した辞書データファイルである。
The
語彙辞書123は、利用者IDごとに、利用者IDと音声データと当該音声データに対応した発話内容を示す語彙が対応付けられて登録された辞書データファイルである。
The
語彙識別部103は、音響指向性形成部101によって出力される指向性音声情報に設定された音声データと語彙辞書123とを照合して指向性音声情報の発話内容である語彙を識別するものである。具体的には、語彙識別部103は、指向性音声情報に設定されている音声データと語彙辞書123に登録された利用者IDごとの音声データとを照合し、音声データの一致の程度を示す類似度を算出し、最大類似度を有する語彙列を語彙識別結果とする。そして、指向性音声情報に設定されている到来方向を方向情報として、語彙列と方向情報とからなる語彙識別情報を出力する。
The
図9−2は、語彙識別情報のデータ構造図である。語彙識別情報には、発話者が語彙辞書123に登録された利用者である場合には、図9−2に示すように、自律移動型ロボットへの命令としての意味を有する語彙列が語彙識別結果として設定される。一方、自律移動型ロボットに到来する音声が、例えば人物以外の音声あるいは語彙辞書123に登録されていない利用者の音声データである場合には、語彙識別を行うことができず、このため語彙識別部103は、語彙識別結果として語彙列のかわりに語彙不明IDを語彙識別情報に設定する。
FIG. 9-2 is a data structure diagram of vocabulary identification information. In the vocabulary identification information, when the speaker is a user registered in the
話者識別部104は、音響指向性形成部101によって出力される指向性音声情報の音声データを声紋辞書121に登録された声紋パターンと照合して指向性音声情報の話者を識別するものである。具体的には、話者識別部104は、指向性音声情報に設定されている音声データと声紋辞書121に登録された利用者IDごとの声紋パターンとを照合し、音声データの声紋パターンに対する一致の程度を示す類似度を利用者IDごとに算出し、最大類似度を有する利用者IDから上位N位までの利用者IDを選定して、選定された上位N位までの利用者IDおよびその類似度の列を話者識別結果とする。そして、指向性音声情報に設定されている到来方向を方向情報として、話者識別結果(利用者IDと類似度の上位N位までの列)と方向情報とからなる話者識別情報を出力する。
The
図9−3は、話者識別情報のデータ構造図である。音声データが声紋辞書121に登録されている利用者IDの声紋パターンである場合には、図9−3に示すように、話者識別結果には利用者IDと類似度の列が設定されるが、音声データが声紋辞書121に登録された利用者IDのものでない場合あるいは人物の音声データでない場合には、話者識別を行うことができない。このため、話者識別部104は、話者識別結果として利用者IDと類似度の列のかわりに人物不明IDを話者識別情報に設定する。
FIG. 9-3 is a data structure diagram of speaker identification information. When the voice data is a voice print pattern of a user ID registered in the
顔識別部105は、全天カメラ205で一定時間ごとに撮像された画像フレームを入力して、入力された画像フレームの中で探索された顔領域の画像と顔辞書122に登録された顔画像パターンと照合して撮像された画像フレームにおける利用者の顔を識別するものである。具体的には、顔識別部105は、入力された画像フレームから顔領域を探索して探索された顔領域の画像データと顔辞書122に登録された利用者IDごとの顔画像パターンとを照合し、画像データの顔画像パターンに対する一致の程度を示す類似度を利用者IDごとに算出し、最大類似度を有する利用者IDから上位N位までの利用者IDを選定して、選定された上位N位までの利用者IDおよびその類似度の列を顔識別結果とする。そして、顔領域の画像中心位置に対応する方向情報(領域番号)を後述する方向対応付けテーブルを参照して求め、顔識別結果(利用者IDと類似度の上位N位までの列)と方向情報とからなる顔識別情報を出力する。
The
図9−4は、顔識別情報のデータ構造図である。顔領域の画像データが顔辞書122に登録されている利用者IDの顔画像パターンである場合には、図9−4に示すように、顔識別結果には利用者IDと類似度の列が設定されるが、顔領域の画像データが顔辞書122に登録された利用者IDの顔画像パターンでない場合あるいは人物の顔の画像データでない場合には、顔識別を行うことができない。このため、顔識別部105は、顔識別結果として利用者IDと類似度の列のかわりに人物不明IDを顔識別情報に設定する。
FIG. 9-4 is a data structure diagram of face identification information. When the image data of the face area is a face image pattern of the user ID registered in the
図9−5は、方向対応付けテーブルのデータ構造図である。方向対応付けテーブルは、メモリやHDD等の記憶媒体に格納されており、領域番号と音響指向性形成モジュール番号と領域の画像中心位置の座標範囲とを対応付けたテーブルである。領域番号は、利用者の存在する方向を示すものであり、上述した指向性音声情報、語彙識別情報、話者識別情報、顔識別情報における方向情報に設定されるものである。 FIG. 9-5 is a data structure diagram of a direction association table. The direction association table is stored in a storage medium such as a memory or an HDD, and is a table in which an area number, an acoustic directivity forming module number, and a coordinate range of an image center position of the area are associated with each other. The area number indicates the direction in which the user exists, and is set in the direction information in the above-described directional speech information, vocabulary identification information, speaker identification information, and face identification information.
音響指向性形成部101では入力音声の到来方向を推定するが、到来方向を推定した音響指向性形成モジュール102がそのまま到来方向を示すため、方向対応付けテーブルでは、領域番号と音響指向性形成モジュール102とを対応付けている。
The acoustic
また、顔識別部105では、顔領域の方向を求める際に、顔領域の画像中心位置を求めるが、この顔領域の画像中心位置の座標が含まれる座標範囲に対応した領域番号が顔領域の方向となり、顔識別情報の方向情報に設定される。
The
領域追跡部106は、全天カメラ205から入力された各画像フレームから、設定された画像的特徴を有する領域である画像特徴領域を検出して、当該画像特徴領域を入力される画像フレームごとに追跡するものである。画像特徴領域の設定は後述する同一性検証部110の追跡同方向性検証部112が出力する領域追加命令によって行われる。また、領域追跡部106は、追跡中の各画像特徴領域についての検出追跡状況(追跡中の画像特徴領域の現在の方向、あるいは追跡中の画像特徴領域を見失った旨)を領域追跡情報として出力する。
The
同一性検証部110は、話者識別情報の対象となった利用者と顔識別情報の対象となった利用者とが同一人であるか否かを判断して、同一人のものであると判断される話者識別情報と顔識別情報とを設定した同一組情報を生成するものであり、同方向性検証部111と追跡同方向性検証部112とを備えている。
The
同方向性検証部111は、話者識別情報と顔識別情報の中で先に取得した生体識別情報に設定された方向情報を登録しておき、その方向情報と先の生体識別情報より後に取得した生体識別情報に設定された方向情報との差が予め定められた閾値以下であるか否かを判断するものである。同方向性検証部111は、さらに、当該方向情報の差が閾値以下である場合に、話者識別情報で識別される利用者と顔識別情報で識別される利用者が同一であると判断して、話者識別情報とその音声データおよび顔識別情報とその画像データを一組とし、さらに両識別情報の有効な期間を定めた有効期限を付加した同一組情報を生成する。
The same
追跡同方向性検証部112は、領域追跡部106から出力される領域追跡情報を入力して領域追跡情報に含まれる画像特徴領域の検出方向と、話者識別情報と顔識別情報の否かで後に取得した生体識別情報に設定される方向情報との差が予め定められた閾値以下であるか否かを判断するものである。追跡同方向性検証部112は、さらに、当該方向の差が閾値以下である場合に、話者識別情報の利用者と顔識別情報の利用者が同一人であると判断して、話者識別情報とその音声データおよび顔識別情報とその画像データを一組とした同一組情報を生成するものである。
The tracking
図9−6は、同一組情報のデータ構造図である。図9−6では、同方向性検証部111で生成され、有効期限が設定された同一組情報の例を示している。追跡同方向性検証部112で生成される同一組情報は、この有効期限の項目が設定されていない点のみが同方向性検証部111で生成される同一組情報と異なっており、他の項目については同様である。また、図9−6に示すように、語彙識別情報が語彙識別部103によって出力される場合には、語彙識別情報も同一組情報に設定される。また、図9−6では、話者識別情報と顔識別情報が一組として設定されているが、いずれか一方のみの識別情報しか設定されていない同一組情報も出力される場合がある。
FIG. 9-6 is a data structure diagram of the same set information. FIG. 9-6 illustrates an example of the same set information generated by the same
辞書更新部108は、同一性検証部110によって生成された同一組情報を解析して生体辞書記憶部120に格納されている声紋辞書121、顔辞書122の各生体辞書の更新の必要性を判断し、必要性がある生体辞書の更新を行うものである。具体的には、辞書更新部108は、同一組情報に話者識別情報と顔識別情報の両方が存在している場合に、次のような辞書更新を行う。
The
すなわち、話者識別情報の最大類似度の利用者IDと、顔識別情報の最大類似度の利用者IDが一致しない場合、最大類似度の大きい方の利用者IDをこの利用者の利用者IDと決定し、類似度の小さい方の生体辞書の更新を行う。また、話者識別情報と顔識別情報の一方のみに人物不明IDが設定されている場合、人物不明IDが設定されていない識別情報の利用者IDをこの利用者の利用者IDであると決定し、人物不明IDが設定された識別情報に対応した生体辞書の更新を行う。 That is, when the user ID having the maximum similarity in the speaker identification information and the user ID having the maximum similarity in the face identification information do not match, the user ID having the larger maximum similarity is selected as the user ID of this user. The bio-dictionary with the smaller similarity is updated. Further, when the unknown person ID is set for only one of the speaker identification information and the face identification information, the user ID of the identification information for which no unknown person ID is set is determined to be the user ID of this user. Then, the biological dictionary corresponding to the identification information in which the person unknown ID is set is updated.
利用者認証部107は、同一性検証部110によって生成された同一組情報から実際の利用者を認証するものである。同一組情報には、話者識別情報のみが設定されているもの、顔識別情報のみが設定されているもの、両識別情報が設定されているものが存在しうる。
The user authentication unit 107 authenticates an actual user from the same set information generated by the
また、話者識別情報には、利用者IDと類似度の列と人物不明IDの2種類があり、顔識別情報にも利用者IDと類似度の列と人物不明IDの2種類がある。利用者を認証してサービスを提供するためには、音声によっても顔によっても利用者を特定できなかったものは考慮する必要がない。このため、利用者認証部107は、少なくとも音声か顔のどちらかで利用者を特定することができた同一組情報のみを対象に、話者識別結果と顔識別結果の中で最大の類似度を有する利用者IDを利用者認証情報として出力する。 In addition, there are two types of speaker identification information: a user ID / similarity column and a person unknown ID, and face identification information also includes two types: a user ID / similarity column and a person unknown ID. In order to provide a service by authenticating a user, it is not necessary to consider the case where the user could not be identified by voice or face. For this reason, the user authentication unit 107 targets the maximum similarity between the speaker identification result and the face identification result only for the same set information that can identify the user by at least one of voice and face. Is output as user authentication information.
また、同一組情報に語彙識別情報が設定されている場合には、語彙識別結果として設定された語彙列も利用者認証情報に付加して出力する。 When vocabulary identification information is set for the same set information, the vocabulary string set as the vocabulary identification result is also added to the user authentication information and output.
サービス提供部109は、利用者認証部108により出力された利用者認証情報に基づいて利用者に所定のサービスを提供するものである。提供するサービスとしては、任意のものを実行することができ、例えば、メールチェックサービスなどがあげられる。利用者認証情報には、利用者認証部107によって特定された利用者の利用者IDが含まれるため、この利用者IDを利用したサービスを提供するように構成することができる。また、利用者認証情報に語彙列が含まれる場合には、利用者の音声の発話内容をこの語彙列で示した命令として利用者IDを使用したサービスを提供することができる。例えば、メールチェックサービスを行うように構成した場合には、語彙列からメールチェック命令であることを判断して、利用者IDに対応する利用者のメールボックスを確認する等のサービス提供処理を行うことが可能である。一方、語彙識別情報を含まない利用者認証情報の場合には、サービス提供部109が以前に命令されたサービスの一環として何らかの結果を利用者に返すように構成することもできる。
The
(利用者識別の全体処理)
次に、以上のように構成された本実施の形態にかかる自律移動型ロボットによる利用者識別処理について説明する。図10は、本実施の形態にかかる自律移動型ロボットによる利用者識別の全体処理の手順を示すフローチャートである。
(Overall processing of user identification)
Next, user identification processing by the autonomous mobile robot according to the present embodiment configured as described above will be described. FIG. 10 is a flowchart showing a procedure of overall user identification processing by the autonomous mobile robot according to the present embodiment.
まず、マイクロホン206,207,208によって音声を入力し、音響指向性形成部101によって音声データとその到来方向を示す方向情報からなる指向性音声情報が生成される(ステップS1001)。語彙識別部103では、この指向性音声情報と語彙辞書123に基づいて語彙識別処理を行い、語彙識別結果と方向情報からなる語彙識別情報が出力される(ステップS1002)。また、話者識別部104では、指向性音声情報と声紋辞書121に基づいて話者識別処理を行い、話者識別結果と方向情報からなる話者識別情報を出力する(ステップS1003)。
First, sound is input through the
一方、これと並行して、全天カメラ205では一定時間ごとに周囲を撮像して画像フレームが出力される(ステップS1004)。そして顔識別部105によって、入力された画像フレームと顔辞書122に基づいて顔識別処理を行い、顔識別結果と方向情報からなる顔識別情報を出力する(ステップS1005)。
On the other hand, in parallel with this, the
次いで、領域追跡部106によって入力される画像フレームごとに同一性検証部110からの領域追加指令で指定された画像特徴領域の追跡が行われ、追跡状況を示す領域追跡情報が出力される(ステップS1006)。
Next, the image feature region specified by the region addition command from the
利用者の移動がない場合には、同一性検証部110の同方向性検証部111によって同方向性検証処理が行われ、同一人と検証された話者識別情報と顔識別情報とを組み合わせた同一組情報が出力される(ステップS1007)。一方、利用者が移動している場合には、同一性検証部110の追跡同方向性検証部112によって領域追加命令が領域追跡部106に送出され、その結果としての領域追跡情報を領域追跡部106から受け取って、追跡同方向性検証処理が行われ、同一人と検証された話者識別情報と顔識別情報とを組み合わせた同一組情報が出力される(ステップS1008)。
When there is no movement of the user, the same direction verification processing is performed by the same
次いで、利用者認証部107によって、同一組情報における利用者が誰であるかを判断する利用者認証処理が行われ、特定された利用者IDを含む利用者認証情報が出力される(ステップS1009)。そして、サービス提供部109によって利用者認証情報によって特定された利用者に対して、例えばメールチェックサービス等のサービス提供処理が行われる(ステップS1010)。一方、辞書更新部108では同一組情報から更新が必要になった生体辞書の更新が行われ、生体辞書が強化される(ステップS1011)。
Next, user authentication processing is performed by the user authentication unit 107 to determine who is the user in the same set information, and user authentication information including the specified user ID is output (step S1009). ). Then, for the user specified by the user authentication information by the
(指向性音声情報生成処理)
以下、上記全体処理で説明した各処理に詳細に説明する。まず、音響指向性形成部101による指向性音声情報の生成処理について説明する。図11は、音響指向性形成部101による指向性音声情報の生成処理の手順を示すフローチャートである。
(Directed voice information generation processing)
Hereinafter, each process described in the overall process will be described in detail. First, generation processing of directional audio information by the acoustic
まず、マイクロホン206、207、208が音声を入力すると(ステップS1101)、音響指向性形成部101は、マイクロホン206、207、208から出力される入力音声の音声電気信号を周期的にA−D(Analog−Digital)変換し(ステップS1102)、A−D変換により得られたデジタルの音声信号の瞬間振幅値を順次入力してFIFO(First−Input First−Out)に蓄積していく(ステップS1103)。
First, when the
そして、FIFOに蓄積された振幅値データの中で、マイクロホン206と207による振幅値データが前段のビームフォーマ410、420、430に入力され、所定の指向性を与えられた振幅値データとして出力する第1の指向性形成処理が行われる(ステップS1104)。これにより、まず水平指向性範囲が求められる。
Of the amplitude value data stored in the FIFO, the amplitude value data from the
次に、後段のビームフォーマ411、412,413・・・、421、422,423・・・、431、432,433・・・の中では、前段のビームフォーマ410から出力された振幅値データとマイクロホン208による振幅値データが入力され、後段のビームフォーマ411、412,413・・・によって、所定の指向性を与えられた振幅値データとして出力する第2の指向性形成処理が行われる(ステップS1105)。これにより、垂直指向性範囲が求められ、第1の指向性形成処理で求められた水平指向性範囲と垂直指向性範囲の共通の範囲が入力音声の指向性範囲となる。
.., 421, 422, 423... 431, 432, 433..., 431, 432, 433. Amplitude value data from the
そして、音響指向性形成部101は、第2の指向性形成処理で後段の各ビームフォーマから出力された振幅値データが最大の振幅値データを音声区間の音声データとし、最大の振幅値データを出力する後段のビームフォーマを有する音響指向性形成モジュールのモジュール番号を、方向対応付けテーブルを参照して指向性範囲の領域番号に変換して方向情報とする。そして、音響指向性形成部101は、この音声区間の音声データと方向情報とからなる指向性音声情報を生成して出力する(ステップS1106)。
Then, the acoustic
このように、音響指向性形成部101の各音響指向性形成モジュール102から出力される指向性音声情報には、音声データの他に、音響指向性形成モジュール102の指向性範囲を表す方向情報が含まれるので、指向性音声情報を入力して使用する語彙識別部103、話者識別に104は、入力した指向性音声情報から音声データの到来方向を容易に把握することが可能である。
Thus, in the directional audio information output from each acoustic
(語彙識別処理)
次に、語彙識別部103による語彙識別処理について説明する。図12は、語彙識別部103による語彙識別処理の手順を示すフローチャートである。
(Vocabulary identification processing)
Next, vocabulary identification processing by the
まず、語彙識別部103は、音響指向性形成部101によって出力される新規の指向性音声情報を入力する(ステップS1201)。そして、入力された指向性音声情報に設定されている音声データと語彙辞書123に登録されている利用者ごとの発話内容を示す語彙列と照合して、音声データと語彙列ごとの類似度を求め、最大類似度となる語彙列を取得する(ステップS1202)。
First, the
次に、最大類似度が所定の閾値以上であるか否かを判断する(ステップS1203)。そして、最大類似度が閾値以上である場合には(ステップS1203:Yes)、この語彙列を語彙識別結果として認定し、この語彙列と指向性音声情報に設定された方向情報とからなる語彙識別情報を生成して出力する(ステップS1204)。 Next, it is determined whether or not the maximum similarity is greater than or equal to a predetermined threshold (step S1203). If the maximum similarity is greater than or equal to the threshold (step S1203: Yes), this vocabulary string is recognized as a vocabulary identification result, and the vocabulary identification consisting of this vocabulary string and the direction information set in the directional speech information. Information is generated and output (step S1204).
一方、ステップS1203において、最大類似度が閾値より小さい場合には(ステップS1203:No)、語彙不明IDを語彙識別結果とし、この語彙識別結果と指向性音声情報に設定された方向情報とからなる語彙識別情報を生成して出力する(ステップS1205)。 On the other hand, if the maximum similarity is smaller than the threshold value in step S1203 (step S1203: No), the vocabulary unknown ID is used as the vocabulary identification result, and the vocabulary identification result and the direction information set in the directional speech information are included. Vocabulary identification information is generated and output (step S1205).
なお、この語彙識別情報は、サービス提供部109におけるサービス提供処理の際に、サービスに関する命令として使用することができる。
Note that this vocabulary identification information can be used as a service-related command during service provision processing in the
(話者識別処理)
次に、話者識別部104による話者識別処理について説明する。図13は、話者識別部104による話者識別処理の手順を示すフローチャートである。
(Speaker identification processing)
Next, speaker identification processing by the
まず、話者識別部104は、音響指向性形成部101によって出力される新規の指向性音声情報を入力する(ステップS1301)。そして、入力された指向性音声情報に設定されている音声データを、フレーム長F、フレーム間隔DでDFT(Discrete Fourier Transform:離散フーリエ変換)処理を行い、F/2個の要素からなる短時間パワースペクトルを時系列的に並べた音声データに変換する(ステップS1302)。
First, the
次いで、このパワースペクトル列に変換された音声データと話者辞書121に登録されている利用者IDごとの声紋パターンと照合して、利用者IDごとに音声データと利用者IDの声紋パターンとの一致度を示す類似度を求め、類似度で上位N位(Nは任意の整数)までの利用者IDの一覧を取得する(ステップS1303)。
Next, the voice data converted into the power spectrum sequence is compared with the voice print pattern for each user ID registered in the
次に、利用者IDの一覧の中の最大類似度が所定の閾値以上であるか否かを判断する(ステップS1304)。そして、最大類似度が閾値以上である場合には(ステップS1304:Yes)、この上位N位までの利用者IDと利用者IDに対応した各類似度からなる列を話者識別結果として認定し、この各利用者IDと各類似度からなる列と指向性音声情報に設定された方向情報とからなる話者識別情報を生成して出力する(ステップS1305)。 Next, it is determined whether or not the maximum similarity in the list of user IDs is equal to or greater than a predetermined threshold (step S1304). If the maximum similarity is equal to or greater than the threshold (step S1304: Yes), a column composed of the user IDs up to the top N and the similarities corresponding to the user IDs is recognized as a speaker identification result. Then, speaker identification information composed of a column composed of each user ID and each similarity and direction information set in the directional speech information is generated and output (step S1305).
一方、ステップS1304において、最大類似度が所定の閾値より小さい場合には(ステップS1304:No)、人物不明IDを話者識別結果とし、この話者識別結果と指向性音声情報に設定された方向情報とからなる話者識別情報を生成して出力する(ステップS1306)。 On the other hand, if the maximum similarity is smaller than the predetermined threshold in step S1304 (step S1304: No), the unknown person ID is set as the speaker identification result, and the direction set in the speaker identification result and the directional voice information is set. Speaker identification information composed of the information is generated and output (step S1306).
ここで、ステップS1303において行われる音声データと声紋辞書121との照合について説明する。図14は、入力された音声データからパワースペクトル列に変換された音声データの一例を示す説明図である。1401は、「こんにちはアプリ君」と発声した男性Aの声紋パターンを示している。図14からわかるように、人物の音声の大部分の期間は基本周波数とその高調波から成る調波構造を有している。そして、調波構造の大部分の期間は母音のパワースペクトルで構成され、個人性が反映される。
Here, the collation between the voice data and the
図15−1は、男性Aが「あいうえお」と発声した場合の声紋パターン1402の一例を示す説明図であり、図15−2は、女性Bが「あいうえお」と発声した場合の声紋パターン1403の一例を示す説明図である。両図からわかるように、男性よりも女性の方が調波構造の間隔が広い、すなわち基本周波数が高い。
15A is an explanatory diagram showing an example of a
このように、調波構造の大部分の期間は母音のパワースペクトルで構成され個人性が反映さるため、生体辞書記憶部120に格納されている声紋辞書121には、図15−1や図15−2で示すような母音を発声した場合の声紋パターンが利用者ごと(利用者IDごと)に登録されている。
Thus, since most periods of the harmonic structure are composed of the vowel power spectrum and reflect the individuality, the
声紋辞書121は、各利用者がその言語の全ての母音を発声した教示用の音声データから時系列的に得られる短時間パワースペクトルの集合に基づいて生成されている。日本語の場合、教示用の音声データは5つの母音を含む「あいうえお」と発声した音声データとなる。短時間パワースペクトルの時系列データ中の時刻tのパワースペクトルS(t)はF/2次元のベクトルとしてノルム正規化される。ここでFはFFT(Fast Fourier Transform:高速フーリエ変換)で短時間パワースペクトルを計算する際に使用される音声データ数(フレーム長)である。ノルム正規化された各ベクトルV(t)を行ベクトルとすると、ベクトルV(t)の自己相関行列は、(1)式で示される。
The
図16は、話者識別処理における辞書部分空間と入力部分空間の生成手法について示す説明図である。図16に示すように、「あいうえお」と発声した短時間パワースペクトルの時系列データ1402は、各時刻の短時間パワースペクトルの列である。このうち、パワーが所定の閾値未満しかない区間を除いた短時間パワースペクトルが1611〜1615の部分である。各部分1611〜1615は左から順に「あ」、「い」、「う」、「え」、「お」に対応している。これを教示データ1616として辞書部分空間1617が生成される。
FIG. 16 is an explanatory diagram showing a method for generating a dictionary subspace and an input subspace in speaker identification processing. As shown in FIG. 16, the
入力された音声データからも同様の方法で部分空間(次元数Kの入力部分空間)が生成される。入力音声の短時間パワースペクトルの時系列1401も、図16に示すように各時刻の短時間パワースペクトルの列である。このうち、パワーが所定の閾値未満しかない区間を除いた短時間パワースペクトルが1621〜1624の部分である。これを入力データ1625として入力部分空間1627が生成される。
A subspace (an input subspace having a dimension number K) is also generated from the input audio data in the same manner. The
図17は、話者識別処理における相互部分空間法の概念を示した説明図である。話者識別処理における声紋辞書121との照合の際には、図17に示すように、入力部分空間1627と利用者ごとの辞書部分空間1617の正準角1731を類似度として計算する「相互部分空間法」で類似度が算出される。
FIG. 17 is an explanatory diagram showing the concept of the mutual subspace method in speaker identification processing. When collating with the
上述のステップS1303では、入力部分空間1627を、声紋辞書121の全ての利用者IDの辞書部分空間1617の教示データ1616と照合してそれぞれの類似度を算出し、類似度が所定の閾値以上となるものを最大類似度の利用者IDから上位N位までの利用者IDを抽出する。このように声紋辞書121との照合の単位を部分空間とし、声紋辞書121に母音を学習させて登録しておくことにより、発話内容に左右されにくい話者識別が可能になる。
In step S1303 described above, the
なお、上述した相互部分空間法は、非特許文献「福井和広, 山口修, “部分空間法の理論拡張と物体認識への応用”, 情報処理学会研究報告, 2004-CVIM-145, pp219-228, 2004」において詳述された手法を使用している。 The mutual subspace method mentioned above is a non-patent document “Kazuhiro Fukui, Osamu Yamaguchi,“ Theoretical Extension of Subspace Method and Application to Object Recognition ”, IPSJ SIG, 2004-CVIM-145, pp219-228 , 2004 "is used.
(顔識別処理)
次に、顔識別部105による顔識別処理について説明する。図18は、顔識別部105による顔識別処理の手順を示すフローチャートである。
(Face identification process)
Next, face identification processing by the
まず、顔識別部105は、全天カメラ205によって撮像された画像フレームを入力し(ステップS1801)、画像フレームを予め定められた顔画像が存在する領域を示す顔テンプレートと照合することにより画像フレーム中から顔テンプレートと同等若しくは近似している領域である顔領域を検出する(ステップS1802)。この際、直前に入力された画像フレームにおいて既に検出されている顔領域が存在する場合には、まず顔領域の近傍のみで顔テンプレートを照合する顔追跡処理を行う。そして追跡対象となっていない残りの領域に対しては顔テンプレートを走査しつつ照合することにより顔領域の探索処理を行う。
First, the
この結果、顔領域が検出されたか否かを判断し(ステップS1803)、顔領域が検出されていない場合には(ステップS1803:No)、次の画像フレームの入力を待つ。一方、顔領域が検出された場合には(ステップS1803:Yes)、顔領域の画像中心位置の座標を求め、方向対応付けテーブルを参照して当該座標が含まれる「領域の画像中心位置の座標範囲」に対応する領域番号を方向情報として設定する(ステップS1804)。 As a result, it is determined whether or not a face area has been detected (step S1803). If no face area has been detected (step S1803: No), input of the next image frame is awaited. On the other hand, when the face area is detected (step S1803: Yes), the coordinates of the image center position of the face area are obtained, and the coordinates of the image center position of the area are included with reference to the direction association table. An area number corresponding to “range” is set as direction information (step S1804).
次いで、この顔領域の顔画像と顔辞書122に登録されている利用者IDごとの顔画像パターンと照合して、利用者IDごとに顔画像と利用者IDの顔画像パターンとの一致度を示す類似度を求め、類似度で上位N位(Nは任意の整数)までの利用者IDの一覧を取得する(ステップS1805)。
Next, the face image of the face area is compared with the face image pattern for each user ID registered in the
次に、利用者IDの一覧の中の最大類似度が所定の閾値以上であるか否かを判断する(ステップS1806)。そして、最大類似度が閾値以上である場合には(ステップS1806:Yes)、この上位N位までの利用者IDと利用者IDに対応した各類似度からなる列を顔識別結果として認定し、この各利用者IDと各類似度からなる列とステップS1804で設定した方向情報とからなる顔識別情報を生成して出力する(ステップS1807)。 Next, it is determined whether the maximum similarity in the list of user IDs is equal to or greater than a predetermined threshold (step S1806). If the maximum similarity is greater than or equal to the threshold (step S1806: Yes), the column consisting of the user IDs up to the top N and each similarity corresponding to the user ID is recognized as the face identification result, Face identification information composed of a column composed of each user ID and each similarity and the direction information set in step S1804 is generated and output (step S1807).
一方、ステップS1806において、最大類似度が所定の閾値より小さい場合には(ステップS1806:No)、人物不明IDを顔識別結果とし、この顔識別結果とステップS1804で設定した方向情報とからなる顔識別情報を生成して出力する(ステップS1808)。 On the other hand, if the maximum similarity is smaller than the predetermined threshold value in step S1806 (step S1806: No), the person unknown ID is set as the face identification result, and the face composed of the face identification result and the direction information set in step S1804. Identification information is generated and output (step S1808).
ここで、ステップS1805において行われる顔画像と顔辞書122との照合について説明する。画像フレームから顔領域が初めて検出されて以後、追跡されている各顔領域から次々切り出される顔画像パターンを、L×L画素に大きさを正規化した後、これをG次元(G=L×Lである)のベクトルとしてノルム正規化する。同一の顔画像を時系列的に追跡することによって得られる多数のノルム正規化ベクトルを使用して、上述の話者識別処理と同様に、相関行列を主成分分析して部分空間(入力部分空間)を得る。
Here, the collation between the face image and the
図19は、顔識別処理における相互部分空間法の概念を示す説明図である。図19に示すように、追跡中の顔画像パターンは、時系列で得られる顔画像パターン列1941を形成し、この顔画像パターン列1941を入力データとして入力部分空間1942が生成される。顔辞書122も同様に、実際に利用者の顔を撮像して得られた教示用の顔画像パターン列1943を教示データとして辞書部分空間1944を生成する。顔識別処理は、この入力部分空間1942と利用者(利用者ID)ごとの辞書部分空間1944の正準角1945を類似度として計算する「相互部分空間法」で類似度が算出される。
FIG. 19 is an explanatory diagram showing the concept of the mutual subspace method in face identification processing. As shown in FIG. 19, the face image pattern being tracked forms a face
上述のステップS1805では、入力部分空間1942を、顔辞書122の全ての利用者IDの辞書部分空間1944の顔画像パターン列1943と照合してそれぞれの類似度を算出し、類似度が所定の閾値以上となるものを最大類似度の利用者IDから上位N位までの利用者IDを抽出する。
In step S1805 described above, the
(領域追跡処理)
次に、領域追跡部106による領域追跡処理について説明する。図20は、領域追跡部106による領域追跡処理の手順を示すフローチャートである。領域追跡部106は、同一性検証部110から領域追加命令を受け取ると(ステップS2001)、受け取った領域追加命令から画像テンプレートと初期位置とを取得する(ステップS2002)。ここで、領域追加命令とは、同一性検証部110によいて、追跡すべき画像特徴領域とそのサイズを示す画像テンプレートと、画像テンプレートの初期値からなる追跡を行う旨の命令である。追跡対象となる画像特徴領域は、顔領域の検出された方向に見える画像領域や音声の検出された方向に見える画像領域であり、特徴的な画像を有する領域である。
(Region tracking process)
Next, the region tracking process by the
領域追跡部106は、領域追加命令を受け取ると、この命令を受理した時刻以降に画像フレームを入力すると(ステップS2003)、領域追加命令で示された初期位置の近傍で与えられた画像テンプレートに最もかつ十分似た領域を探索する(ステップS2004)。
Upon receiving the region addition command, the
探索の結果、このような領域が検出された場合には(ステップS2005:Yes)、検出された新たな領域の検出方向の位置を初期位置に設定し(ステップS2006)、新たな領域の検出方向を領域追跡情報として出力する(ステップS2007)。これ以降は、この初期位置で、入力される画像フレームから画像特徴領域の探索が行われる。 If such a region is detected as a result of the search (step S2005: Yes), the position of the detected new region in the detection direction is set as the initial position (step S2006), and the detection direction of the new region is set. Is output as area tracking information (step S2007). Thereafter, an image feature area is searched from the input image frame at this initial position.
一方、ステップS2005において、領域追加命令で示された初期位置の近傍で与えられた画像テンプレートに最もかつ十分似た領域が検出されなかった場合には(ステップS2005:No)、画像テンプレートの画像特徴領域を追跡対象から除外し(ステップS2008)、追跡対象を見失った旨を領域追跡情報として出力する(ステップS2009)。 On the other hand, if an area most similar to the image template given in the vicinity of the initial position indicated by the area addition command is not detected in step S2005 (step S2005: No), the image feature of the image template is detected. The area is excluded from the tracking target (step S2008), and the fact that the tracking target is lost is output as area tracking information (step S2009).
ここで、領域追跡処理について具体的な例を用いて説明する。図21−1及び図21−2は、領域追加命令によって行われる画像特徴領域の設定例を示す模式図である。図21−1は、全天画像中の顔の検出方向近傍や音声の検出方向近傍を広視野の全天画像から切り出して模式的に示しており、顔領域が見えている場合である。図21−1の例では、正面を向いている人物210の抽出された顔領域211を中心にした所定の領域212が画像特徴領域として設定される。また、図21−2は、音声が聞こえた場合であり、横を向いていて顔の見えない人物213の口元付近を指向性範囲214として設定されており、この指向性範囲214を中心にした所定の領域215が画像特徴領域として設定される。
Here, the region tracking process will be described using a specific example. FIGS. 21A and 21B are schematic diagrams illustrating an example of setting the image feature area performed by the area addition command. FIG. 21A schematically shows the vicinity of the face detection direction and the vicinity of the voice detection direction in the whole sky image cut out from the wide-field whole sky image, and the face area is visible. In the example of FIG. 21A, a
図22−1、図22−2は、領域追跡処理の例を示す模式図である。図22−1は、画像テンプレートが生成されたときの状態を表している。この例では正面を向いている人物220の抽出された顔領域221を中心にした所定の領域222が画像特徴領域として設定される。次に、図22−2に示すように人物220が横を向いて移動を開始してしまったために顔が検出できなくなるが、図22−1で生成された画像テンプレートを用いることにより、これに最も近い性質を持つ領域223が検出されて顔の見えなくなった人物の移動を追跡することができる。
22A and 22B are schematic diagrams illustrating an example of the area tracking process. FIG. 22-1 shows a state when the image template is generated. In this example, a
なお、上述の領域追跡の処理は、同一性検証部110の追跡同方向性検証部112による追跡同方向性検証処理がおこなわれる場合に実行される。同一性検証部110の同方向性検証部111による同方向性検証処理がおこなわれる場合には、領域追跡部106は画像特徴領域の追跡は行わずに、先に取得した話者識別情報や顔識別情報に設定された方向情報を検出方向として同方向性検証部112に登録する処理を行う。
Note that the above-described area tracking process is executed when the tracking unidirectional verification process by the tracking
(同方向性検証処理)
次に同一性検証部110の同方向性検証部111による同方向性検証処理について説明する。図23は、同方向性検証部111による同方向性検証処理の手順を示すフローチャートである。
(Codirectionality verification process)
Next, the same direction verification processing by the same
まず、同方向性検証部111では、領域追跡部106によって、既に登録済みの検出方向の有効期限が経過しているか否かを判断する(ステップS2301)。ここで、検出方向としては、現在の時点で話者識別情報と顔識別情報の生体識別情報のうち先に取得している生体識別情報に設定された方向情報がその有効期限とともに領域追跡部106によって登録されている。有効期限は、生体識別情報を同一性検証処理として使用できる期間を示すものである。
First, in the same
そして、有効期限を経過している場合には(ステップS2301:Yes)、登録済みの検出方向は同一性検証処理に使用できないとして登録を抹消し(ステップS2302)、新たな話者識別情報あるいは新たな顔識別情報の取得待ち状態となる(ステップS2303)。 When the expiration date has passed (step S2301: Yes), the registered detection direction is deleted because it cannot be used for the identity verification process (step S2302), and new speaker identification information or new Is ready to acquire correct face identification information (step S2303).
一方、ステップS2301において、登録済みの検出方向の有効期限内である場合には(ステップS2301:No)、検出方向の抹消は行わず、新たな話者識別情報あるいは新たな顔識別情報の取得待ち状態となる(ステップS2303)。 On the other hand, in step S2301, if the registered detection direction is within the valid period (step S2301: No), the detection direction is not erased and waiting for acquisition of new speaker identification information or new face identification information. A state is entered (step S2303).
そして、新たな話者識別情報あるいは新たな顔識別情報を取得した場合には(ステップS2303:Yes)、取得した新たな話者識別情報または新たな顔識別情報に設定された方向情報と登録済みの検出方向を照合する(ステップS2304)。そして、方向の差が予め定められた閾値以下であるか否かを判断する(ステップS2305)。 When new speaker identification information or new face identification information is acquired (step S2303: Yes), the direction information set in the acquired new speaker identification information or new face identification information is registered. Are detected (step S2304). Then, it is determined whether or not the difference in direction is equal to or less than a predetermined threshold (step S2305).
方向の差が予め定められた閾値以下である場合には(ステップS2305:Yes)、新たに取得した生体識別情報の方向情報が登録済みの検出方向(先に取得した生体情報の方向情報)と略同一であるとみなして、当該略同一方向に検出された話者識別情報と顔識別情報からなる同一組情報内のいずれか対応する生体識別情報が新たに取得した話者識別情報または顔識別情報で置換され、かつその有効期限が延長されることにより同一組情報が更新され(ステップS2306)、同一組情報を出力する(ステップS2307)。 When the difference in direction is equal to or smaller than a predetermined threshold (step S2305: Yes), the direction information of the newly acquired biometric identification information is the registered detection direction (direction information of the biometric information acquired earlier). Speaker identification information or face identification newly acquired by corresponding biometric identification information in the same set of information consisting of speaker identification information and face identification information detected in substantially the same direction The same set information is updated by being replaced with information and the validity period is extended (step S2306), and the same set information is output (step S2307).
一方、ステップS2305において、方向が予め定められた閾値より大きい場合には(ステップS2305:No)、略同一であると見なすべき検出方向がないと判断し、新たに取得した話者識別情報または顔識別情報に設定された方向情報を新たな検出方向として登録し(ステップS2308)、この検出方向を指定した領域追加命令を領域追跡部106に出力する(ステップS2309)。そして、新たに取得した話者識別情報または顔識別情報およびその有効期限で同一組情報を更新し(ステップS2310)、同一組情報を出力する(ステップS2307)。 On the other hand, when the direction is larger than the predetermined threshold value in step S2305 (step S2305: No), it is determined that there is no detection direction that should be regarded as substantially the same, and the newly acquired speaker identification information or face The direction information set in the identification information is registered as a new detection direction (step S2308), and an area addition command designating this detection direction is output to the area tracking unit 106 (step S2309). Then, the same set information is updated with the newly acquired speaker identification information or face identification information and its expiration date (step S2310), and the same set information is output (step S2307).
ステップS2308において新たに登録された検出方向は、以降、その有効期限が切れてステップS2301およびS2302によって有効期限が経過して登録を抹消されるまで、新たに取得した話者識別情報や顔識別情報に対して方向の同一性の判断に使用される。 The newly registered detection direction in step S2308 is the newly acquired speaker identification information and face identification information until the expiration date is expired and the registration expires in steps S2301 and S2302 and the registration is deleted. Is used to determine direction identity.
なお、同一性検証処理が最初におこなわれる場合には、上記同一組情報の更新処理(ステップS2306、S2310)において、先に取得した生体識別情報と新たに取得した生体識別情報とにより同一組情報が生成されることになる。また、話者識別情報に設定された方向情報と同一の方向情報が設定された語彙識別情報が語彙識別部103から出力されている場合には、当該語彙識別情報が同一組情報に付加される。さらに、話者識別情報と顔識別情報の両方が取得できなかった場合には、取得できなかった方の生体識別情報を空欄とした同一組情報が出力される。このようにして更新・生成された同一組情報は、後述する辞書更新処理および利用者認証処理において使用される。
When the identity verification process is performed first, the same set information is obtained from the previously acquired biometric identification information and the newly acquired biometric identification information in the same set information update process (steps S2306 and S2310). Will be generated. In addition, when the vocabulary identification information in which the same direction information as the direction information set in the speaker identification information is output from the
上述した同方向性検証処理において具体例をあげて説明する。入力された音声の方向は音響指向性形成モジュール102のモジュール番号に対応した領域番号が話者識別情報の方向情報に付加されており、入力された顔画像の方向も顔は画像中の顔画像の中心位置に対応した領域番号が顔識別情報に付加されている。このため、本実施の形態にかかる自律移動型ロボットでは、利用者の音声と顔画像のそれぞれから独立に利用者を特定するとともに、利用者の音声の方向と利用者の顔の方向を独立に取得している。特に、音声と顔画像の方向を独立して特定することにより、従来の利用者識別装置による同時性による同一性検証による問題を解決している。
A specific example is given and demonstrated in the above-mentioned same direction verification process. As the direction of the input voice, an area number corresponding to the module number of the sound
本実施の形態にかかる自律移動型ロボットは、利用者をその音声から特定するとともに、周囲のどの方向にこの利用者が存在しているのかを入力音声のみから把握することができる。また、本実施の形態にかかる自律移動型ロボットは、利用者をその撮像した顔画像から特定するとともに、周囲のどの方向にこの利用者が存在しているのかを撮像した顔画像のみから把握することができる。すなわち、音声と顔画像とにより、それぞれ別個に利用者を特定し、かつそれぞれ別個に利用者の存在する方向を特定している。 The autonomous mobile robot according to the present embodiment can identify the user from the voice and can determine from which direction the user is present only from the input voice. In addition, the autonomous mobile robot according to the present embodiment identifies a user from the captured face image, and grasps in which direction the user is present from only the captured face image. be able to. That is, the user is specified separately from the voice and the face image, and the direction in which the user exists is specified separately.
仮に、このように特定された利用者(あるいは未知の人物)がほとんど移動しない場合を仮定すると、この利用者の顔と音声が時間的に間隔を空けて検出されたとしてもほぼ同方向に検出されることで両者は同一人物のものであるとみなすことができる。また、仮に、この利用者の顔画像が検出可能な期間に音声が聞こえたり、音声が聞こえている期間に顔画像も検出された場合には、両者は当然ほぼ同方向に検出されるので同一人物のものであるとみなすことができ、同方向性による同一性の検証が可能となる。 Assuming that the user (or unknown person) identified in this way hardly moves, even if the user's face and voice are detected at intervals, they are detected in almost the same direction. By doing so, it can be considered that both belong to the same person. In addition, if a voice is heard during a period in which the user's face image can be detected or a face image is also detected during a period in which the user can hear the voice, the two are naturally detected in substantially the same direction. It can be considered that of a person, and it is possible to verify identity by the same direction.
この同方向性による同一性の検証は、顔画像による利用者識別結果と音声による利用者識別結果が一致しない場合でも、両者が方向において同一であることから両者が同一人物の生体情報であることがわかり、2つの識別結果が一致しないことが問題であることを知ることのできる有効な手段となり、生体辞書の更新に利用することができる。 The verification of identity based on the same directionality means that even if the user identification result based on the face image and the user identification result based on the voice do not match, both are the same in the direction, so both are biometric information of the same person. It becomes an effective means for knowing that the problem is that the two identification results do not match, and can be used to update the biological dictionary.
例えば、本実施の形態にかかる自律移動型ロボットの方を向いた利用者Aが存在し、自律移動型ロボットがこの利用者Aの顔画像を検出していた場合であって、自律移動型ロボットに用のある利用者Aがロボットの方を向きながら「メール届いてる?」と話した場合を考える。この場合には、顔が検出されている方向から利用者の音声が到来することになる。図24−1は、顔が検出されている方向から利用者の音声が到来した場合を示す模式図である。図24−1に示すように、自律移動型ボットの本体201を中心に設定される仮想的なドーム2490上の点2441の方向に利用者Aの顔(の中心)があり、ある指向性範囲の中心点2442の方向に利用者Aの音声が検出されることになる。このとき、同一性検証部110の同方向性検証部111は、点2441を中心に設定される所定半径の円形近傍領域2443内に点2442が含まれている、すなわち先に取得した顔識別情報の方向情報と後に取得した話者識別情報の方向情報が一致していると判断し、顔画像と音声の検出方向が略同一であるとの判断することによって、この顔画像の利用者と音声の利用者は同一人物であることが検証される。
For example, there is a user A facing the autonomous mobile robot according to the present embodiment, and the autonomous mobile robot detects a face image of the user A, and the autonomous mobile robot Consider a case where a user A who is in the middle of business talks to the robot and says, "Do you receive an email?" In this case, the user's voice comes from the direction in which the face is detected. FIG. 24A is a schematic diagram illustrating a case where the user's voice comes from the direction in which the face is detected. As shown in FIG. 24A, the face of the user A is in the direction of a
一方、例えば、本実施の形態にかかる自律移動型ロボットの方を向いた利用者Aが存在し、自律移動型ロボットがこの利用者Aの顔画像を検出していた場合に、この利用者Aが横を向いていて顔の見えない別の利用者Bが「メール届いてる?」と発声した場合を考える。図24−2は、顔が検出されている方向と別の方向から別の利用者の音声が到来した場合を示す模式図である。 On the other hand, for example, when there is a user A facing the autonomous mobile robot according to the present embodiment and the autonomous mobile robot detects a face image of the user A, the user A Let's consider a case where another user B who is facing sideways and cannot see his face utters "You have received an email?" FIG. 24-2 is a schematic diagram illustrating a case where another user's voice comes from a direction different from the direction in which the face is detected.
この場合、利用者Aと利用者Bが方位的に離れて位置している場合には、顔画像が検出されている方向とは別の方向から音声が到来することになる。すなわち、図24−2に示すように、自律移動型ボットの本体201を中心に設定される仮想的なドーム2490上の点2444の方向に利用者Aの顔があり、当該点2444から離れた指向性範囲の中心点2445の方向から利用者Bの音声が検出されることになる。従来の同時性による同一性の検証を行う従来の利用者識別装置では、このような場合でも顔画像が検出されている短期間に検出された音声この顔画像の利用者と同一人の音声であると誤って判断されてしまう。
In this case, when the user A and the user B are located azimuthally apart, the voice comes from a direction different from the direction in which the face image is detected. That is, as shown in FIG. 24-2, there is a face of the user A in the direction of the
しかしながら、本実施の形態にかかる自律移動型ロボットでは、同方向性による同一性の検証を行っているので、同方向性検証部111によって、点2444を中心に設定される所定半径の円形近傍領域2446内に点2445が含まれていない、すなわち顔識別情報の方向情報と話者識別情報の方向情報が一致しないと判断し、これによりこの顔画像と音声はその検出方向が十分離れていることから同一人物のものではないことを判断している。
However, in the autonomous mobile robot according to the present embodiment, since the identity is verified by the same directionality, the circular vicinity region having a predetermined radius set around the
なお、前記円形近傍領域の半径は所定の固定値、例えば角度で5度のように設定するものとするが、顔画像が検出されている場合には、当該顔画像のサイズから所定の演算によって円形近傍領域の半径を定めるように構成することができる。例えば、顔の中心(およそ鼻の頭付近)と口中心の間の距離(約5cm)より大きく、かつ1つの指向性範囲の大きさ以下に円形近傍領域の半径を定めるように構成してもよい。 It should be noted that the radius of the circular vicinity region is set to a predetermined fixed value, for example, an angle of 5 degrees, but when a face image is detected, a predetermined calculation is performed based on the size of the face image. It can be configured to determine the radius of the circular neighborhood. For example, the radius of the circular vicinity region may be determined to be larger than the distance between the center of the face (near the head of the nose) and the center of the mouth (about 5 cm) and less than the size of one directivity range. Good.
また、例えば、本実施の形態の自律移動型ロボットの方を向いた利用者Aが存在し、自律移動型ロボットは当該利用者Aの顔を検出していた場合を考える。そのうちに利用者Aが何かに注意を惹かれて横を向いてしまったため、自律移動型ロボットは利用者Aの顔を検出できなくなったが、その後しばらくして利用者Aが横を向いたまま「ちょっとこの部屋暑いな」と発声した場合を考える。この場合には、以前に顔が検出され識別されていた方向から今度は音声が到来することになるので、先に取得した顔識別情報の方向情報と後に取得した話者識別情報の方向情報が一致していると判断し、顔画像と音声の検出方向が略同一であるとの判断することによって、この顔画像の利用者と音声の利用者は同一人物であることが検証される。 For example, consider a case where there is a user A facing the autonomous mobile robot of the present embodiment, and the autonomous mobile robot detects the face of the user A. Over time, the user A attracted attention and turned sideways, so the autonomous mobile robot could not detect the face of the user A, but after a while user A turned sideways. Let's consider the case of saying "This room is a little hot". In this case, since the voice comes from the direction in which the face was previously detected and identified, the direction information of the face identification information acquired earlier and the direction information of the speaker identification information acquired later are It is verified that the user of the face image and the user of the voice are the same person by determining that they coincide with each other and determining that the detection direction of the face image and the sound is substantially the same.
このように、本実施の形態にかかる同方向性検証部111により同方向性による同一性の検証処理によれば、利用者が移動しない限り音声と顔の検出時刻がほぼ同時でなくても同一人の検証が可能なため、従来の同時性による同一性の検証を行う利用者識別装置に比べて同一人の検証を正確に行うことができる。
As described above, according to the identity verification process based on the same direction by the same
(追跡同方向性検証処理)
次に同一性検証部110の追跡同方向性検証部112による追跡同方向性検証処理について説明する。
(Tracking unidirectional verification process)
Next, the tracking unidirectional verification processing by the tracking
利用者がほとんど移動しない場合には、上述した同方向性検証部111による同方向性検証処理によって利用者の同一性を正確に判断することができる。しかしながら、実際には利用者は移動するので、同方向性だけでは同一人の検証は不可能である。すなわち、一度検出されたある生体情報が途中で見失われ、その間に利用者が移動してしまい、同一人物の別種類の生体情報が、この移動によって別の方向から検出されたとき、同方向性検証処理では両者の同一性を検証することができない。
In the case where the user hardly moves, the identity of the user can be accurately determined by the above-described directionality verification processing by the
このため、本実施の形態にかかる自律移動型ロボットでは、画像特徴領域を追跡しながら複数の生体識別情報の方向情報が一致するか否かを判断することにより、同一性検証を行う追跡同方向性検証処理を行っている。 For this reason, in the autonomous mobile robot according to the present embodiment, the tracking same direction in which identity verification is performed by determining whether or not the direction information of a plurality of pieces of biometric identification information matches while tracking the image feature region. A sex verification process is performed.
顔は正面を向いているタイミングのときだけ検出可能であり、音声は発話したタイミングのときだけ検出可能である。このように、自律移動型ロボットが利用者を識別するための生体情報は、利用者がロボットの側に存在するときであっても常に検出できるとは限らない。 The face can be detected only when it is facing the front, and the voice can be detected only when it is spoken. As described above, the biological information for the autonomous mobile robot to identify the user is not always detected even when the user is on the robot side.
そこで、本実施の形態では、生体情報よりも安定した検出が可能な別の手がかりを使用して利用者の移動を追跡している。この移動のための手がかりは、生体情報である音声や顔と実際に関連性を有する必要があり、本実施の形態では、音声や顔の検出方向近傍に観測される画像的特徴に基づいて利用者の移動を追跡している。このような画像的特徴としては、音声や顔の利用者の着衣や肌や頭髪などの部分に相当し、画像的特徴は、利用者が横を向いても口をつぐんでも、より長期間安定に検出できることができる。すなわち、生体情報の検出をトリガにして、その検出方向の画像的特徴を認識して利用者の移動を追跡している。 Therefore, in this embodiment, the movement of the user is tracked using another clue that can be detected more stably than the biological information. This clue for movement needs to be actually related to the voice and face as biological information, and in this embodiment, it is used based on the image characteristics observed in the vicinity of the voice and face detection direction. The movement of the person is tracked. Such image features correspond to voice and facial user's clothing, skin and hair, etc., and image features are more stable for a long time regardless of whether the user is facing sideways or holding his mouth. Can be detected. That is, using the detection of biological information as a trigger, the movement of the user is tracked by recognizing the image characteristic in the detection direction.
このように、生体情報とは別のより安定に検出できそる画像的特徴に基づいて生体情報の発信者である利用者の移動を追跡しているので、ある時刻にある方向に検出されたある生体情報の発信源が、別の時刻ではどの方向に移動したかを把握することができる。 In this way, since the movement of the user who is the sender of the biometric information is tracked based on the image feature that can be detected more stably than the biometric information, it is detected in a certain direction at a certain time. It is possible to grasp in which direction the biological information transmission source has moved at another time.
図25は、追跡同方向性検証部112による追跡同方向性検証処理の手順を示すフローチャートである。
FIG. 25 is a flowchart showing the procedure of the tracking unidirectional verification process by the tracking
まず、追跡同方向性検証部112では、領域追跡部106から追跡情報を取得する(ステップS2501)。そして、取得した追跡情報の中に画像特徴領域の検出方向が含まれているか否かを判断する(ステップS2502)。ここで、追跡情報の中に画像特徴領域は、先に取得した生体識別情報から後述するステップS2510で生成された画像特徴領域である。
First, the tracking
そして、追跡情報の中に画像特徴領域の検出方向が含まれていると判断した場合には(ステップS2502:Yes)、追跡中の画像特徴領域の初期位置を取得した追跡情報の検出方向で更新し(ステップS2503)、新たな話者識別情報あるいは新たな顔識別情報の取得待ち状態となる(ステップS2505)。 If it is determined that the detection direction of the image feature region is included in the tracking information (step S2502: Yes), the initial position of the image feature region being tracked is updated with the detection direction of the acquired tracking information. (Step S2503), the system waits for acquisition of new speaker identification information or new face identification information (Step S2505).
一方、ステップS2502において、追跡情報の中に画像特徴領域の検出方向が含まれていないと判断した場合(ステップS2502:No)、すなわち追跡対象の画像特徴領域を見失った旨が含まれている場合には、現在追跡中の画像特徴領域を追跡対象から削除し(ステップS2504)、新たな話者識別情報あるいは新たな顔識別情報の取得待ち状態となる(ステップS2505)。 On the other hand, if it is determined in step S2502 that the detection direction of the image feature area is not included in the tracking information (step S2502: No), that is, the fact that the image feature area to be tracked is lost is included. The image feature area currently being tracked is deleted from the tracking target (step S2504), and a new speaker identification information or new face identification information is awaiting acquisition (step S2505).
そして、新たな話者識別情報あるいは新たな顔識別情報を取得した場合には(ステップS2505:Yes)、追跡中の画像特徴領域の初期位置と取得した新たな話者識別情報または新たな顔識別情報に設定された方向情報を照合し(ステップS2506)、方向の差が予め定められた閾値以下であるか否かを判断する(ステップS2507)。ここで、新たな話者識別情報または新たな顔識別情報が画像特徴領域の生成元となった先に取得した生体識別情報に対して後に取得した生体情報となる。 Then, when new speaker identification information or new face identification information is acquired (step S2505: Yes), the initial position of the image feature area being tracked and the acquired new speaker identification information or new face identification The direction information set in the information is collated (step S2506), and it is determined whether or not the difference in direction is equal to or less than a predetermined threshold (step S2507). Here, the new speaker identification information or the new face identification information becomes the biometric information acquired later with respect to the biometric identification information acquired previously from which the image feature region was generated.
方向の差が予め定められた閾値以下である場合には(ステップS2507:Yes)、新たに取得した生体識別情報の方向情報が画像特徴領域の検出方向と略同一であるとみなして、当該略同一方向に検出された話者識別情報と顔識別情報からなる同一組情報内のいずれか対応する生体識別情報が新たに取得した話者識別情報または顔識別情報で置換されることにより同一組情報が更新され(ステップS2508)、同一組情報が出力される(ステップS2509)。 When the difference in direction is equal to or smaller than a predetermined threshold (step S2507: Yes), it is assumed that the direction information of the newly obtained biometric identification information is substantially the same as the detection direction of the image feature region, and the abbreviation. The same set information is obtained by replacing the corresponding biometric identification information in the same set information consisting of the speaker identification information and the face identification information detected in the same direction with the newly acquired speaker identification information or face identification information. Is updated (step S2508), and the same set information is output (step S2509).
一方、ステップS2507において、方向の差が予め定められた閾値より大きい場合には(ステップS2507:No)、新たに取得した話者識別情報又は顔識別情報から画像の特徴的部分である領域を抽出した新たな画像特徴領域を生成し(ステップS2510)、新たな画像特徴領域とそのサイズとからなる画像テンプレートと新たに生成された画像特徴領域の初期位置とを含む領域追加命令を領域追跡部106に送出する(ステップS2511)。初期位置としては画像特徴領域の画像中心位置座標を設定する。なお、この新たに生成された画像特徴領域の生成元となる生体識別情報が先に取得した生体識別情報となる。そして、新たに取得した話者識別情報または顔識別情報で同一組情報を更新し(ステップS2512)、同一組情報を出力する(ステップS2509)。
On the other hand, if the direction difference is larger than the predetermined threshold value in step S2507 (step S2507: No), an area that is a characteristic part of the image is extracted from the newly acquired speaker identification information or face identification information. A new image feature area is generated (step S2510), and an area addition command including an image template including the new image feature area and its size and an initial position of the newly generated image feature area is received by the
なお、同一性検証処理が最初におこなわれる場合には、上記同一組情報の更新処理(ステップS2508、S2512)において、先に取得した生体識別情報と新たに取得した生体識別情報とにより同一組情報が生成されることになる。また、話者識別情報に設定された方向情報と同一の方向情報が設定された語彙識別情報が語彙識別部103から出力されている場合には、当該語彙識別情報が同一組情報に付加される。さらに、話者識別情報と顔識別情報の両方が取得できなかった場合には、取得できなかった方の生体識別情報を空欄とした同一組情報が出力される。このようにして更新・生成された同一組情報は、後述する辞書更新処理および利用者認証処理において使用される。
When the identity verification process is performed first, the same set information is obtained by the previously acquired biometric identification information and the newly acquired biometric identification information in the same set information update process (steps S2508 and S2512). Will be generated. In addition, when the vocabulary identification information in which the same direction information as the direction information set in the speaker identification information is output from the
(辞書更新処理)
次に、辞書更新部108による生体辞書の更新処理について説明する。図26は、辞書更新部108による生体辞書の更新処理の手順を示すフローチャートである。まず、辞書更新部108では、同一性検証部110から出力された同一組情報を入力し(ステップS2601)、同一組情報に話者識別情報が存在するか否かを調べる(ステップS2602)。そして、話者識別情報が同一組情報に存在しない場合には(ステップS2602:No)、次の同一組情報の入力待ち状態となる。一方、話者識別情報が同一組情報に存在する場合には(ステップS2602:Yes)、さらに顔識別情報が同一組情報に存在するか否かを調べる(ステップS2603)。
(Dictionary update process)
Next, biometric dictionary update processing by the
そして、顔識別情報が同一組情報に存在しない場合には(ステップS2603:No)、次の同一組情報の入力処理待ち状態となる。一方、顔識別情報が同一組情報に存在する場合には(ステップS2603:Yes)、同一組情報に含まれる話者識別情報の話者識別結果に人物不明IDが設定されているか否かを調べる(ステップS2604)。 If the face identification information does not exist in the same set information (step S2603: No), the process waits for input processing of the next same set information. On the other hand, if the face identification information exists in the same group information (step S2603: Yes), it is checked whether or not the unknown person ID is set in the speaker identification result of the speaker identification information included in the same group information. (Step S2604).
そして、話者識別情報の話者識別結果に人物不明IDが設定されている場合には(ステップS2604:Yes)、同一組情報に含まれる顔識別情報の顔識別結果に人物不明IDが設定されているか否かを調べる(ステップS2605)。 If the unknown person ID is set in the speaker identification result of the speaker identification information (step S2604: Yes), the unknown person ID is set in the face identification result of the face identification information included in the same set information. It is checked whether or not (step S2605).
そして、顔識別情報の顔識別結果に人物不明IDが設定されている場合には(ステップS2605:Yes)、同一組情報の顔識別情報によっても話者識別情報によっても利用者を特定できないため、次の同一組情報の入力処理待ち状態となる。一方、顔識別情報の顔識別結果に人物不明IDが設定されていない場合には(ステップS2605:No)、声紋辞書121を更新して強化する(ステップS2606)。具体的には、顔識別情報、すなわち顔のみによって利用者識別が成功したと判断し、声紋辞書121において、顔識別情報の最大類似度を有する利用者IDに対応する声紋パターンに、同一組情報に含まれる音声データを登録することによって、声紋辞書121を更新して強化する。
If the person unknown ID is set in the face identification result of the face identification information (step S2605: Yes), the user cannot be specified by the face identification information of the same set information or by the speaker identification information. The next input processing waiting state for the same set information is entered. On the other hand, when the person unknown ID is not set in the face identification result of the face identification information (step S2605: No), the
ステップS2604において、同一組情報の話者識別情報に人物不明IDが設定されない場合には(ステップS2604:No)、さらに同一組情報の顔識別情報に人物不明IDが設定されているか否かを調べる(ステップS2607)。 In step S2604, when the unknown person ID is not set in the speaker identification information of the same set information (step S2604: No), it is further checked whether the unknown person ID is set in the face identification information of the same set information. (Step S2607).
そして、同一組情報の顔識別情報に人物不明IDが設定されている場合には(ステップS2607:Yes)、顔辞書122を更新して強化を図る(ステップS2608)。具体的には、この場合、話者識別情報のみによって、すなわち音声のみによって利用者識別が成功したと判断して、顔辞書122において、顔識別情報の最大類似度を有する利用者IDに対応する顔画像パターンを、同一組情報に含まれる画像データを登録することによって顔辞書122の更新を行い強化する。
If a person unknown ID is set in the face identification information of the same set information (step S2607: Yes), the
ステップS2607において、同一組情報の顔識別情報に人物不明IDが設定されていない場合には(ステップS2607:No)、顔によっても音声によっても利用者識別が成功したと判断して、同一組情報の話者識別情報に設定された最大類似度を有する利用者IDと顔識別情報に設定された最大類似度を有する利用者IDとが不一致であるか否かを調べる(ステップS2609)。 If the unknown person ID is not set in the face identification information of the same set information in step S2607 (step S2607: No), it is determined that the user identification is successful by both the face and the voice, and the same set information It is checked whether or not the user ID having the maximum similarity set in the speaker identification information and the user ID having the maximum similarity set in the face identification information do not match (step S2609).
そして、同一組情報の話者識別情報に設定された最大類似度を有する利用者IDと顔識別情報に設定された最大類似度を有する利用者IDとが不一致である場合には(ステップS2609:Yes)、最大類似度の小さい生体辞書を更新して強化する(ステップS2610)。具体的には、この場合には、最大類似度の小さい方の生体辞書が劣化していると判断し、最大類似度の大きい方の利用者IDに対応する他方の生体辞書に、同一組情報に含まれている音声データと顔画像データのうちこの生体辞書に対応したデータを登録して生体辞書を更新し強化を図る。 If the user ID having the maximum similarity set in the speaker identification information of the same set information and the user ID having the maximum similarity set in the face identification information do not match (step S2609: Yes), the biological dictionary with a small maximum similarity is updated and strengthened (step S2610). Specifically, in this case, it is determined that the biological dictionary having the smaller maximum similarity is deteriorated, and the same set information is stored in the other biological dictionary corresponding to the user ID having the larger maximum similarity. Among the audio data and face image data included in the data, the data corresponding to this biometric dictionary is registered and the biometric dictionary is updated and strengthened.
ステップS2609において、同一組情報の話者識別情報に設定された最大類似度を有する利用者IDと顔識別情報に設定された最大類似度を有する利用者IDとが一致する場合には(ステップS2609:No)、いずれの生体辞書(声紋辞書121、顔辞書122)も劣化しておらず十分な類似度を出力する良好な状態であると判断して、次の同一組情報の入力待ち状態となる。
If the user ID having the maximum similarity set in the speaker identification information of the same set information matches the user ID having the maximum similarity set in the face identification information in step S2609 (step S2609). : No), it is determined that none of the biological dictionaries (
ここで、各生体辞書の更新は次のような手法で行われる。上述した通り、生体辞書である声紋辞書121と顔辞書122は、教示データから生成された部分空間である。このとき、生体辞書の更新は、新たに学習させるべきデータを既に生成されている辞書部分空間に加えることになるため、辞書部分空間を生成するときに用いた相関行列を再度使用する。新規の教示データは辞書部分空間を生成するときと同様の処理を施されて自己相関行列化される。この自己相関行列を既に登録されている相関行列に加えて新しい相関行列を生成し、これを主成分分析して得られる固有ベクトルのうち、対応する固有値の大きい順に上位M位までの固有ベクトルを抽出する。この結果、新たに抽出されたM本の固有ベクトルで張られる部分空間は、これまでの教示データに加えて新たな教示データをも反映した辞書部分空間となる。
Here, the update of each biological dictionary is performed by the following method. As described above, the
このように、同一人の利用者に関する複数種類の生体情報(音声と顔画像)に関する話者識別情報と音声データと顔識別情報と画像データを同一組情報として含めることによって、各生体情報の識別結果を比較して同一人の利用者に関する劣化した、すなわち有効期限切れの生体辞書を検出し、入力中の当該利用者の生体情報を教示データとして用いることにより、劣化した生体辞書を自動的に再強化することができる。 In this way, identification of each piece of biological information is achieved by including speaker identification information, voice data, face identification information, and image data relating to a plurality of types of biological information (speech and facial images) relating to the same user as the same set of information. By comparing the results and detecting a deteriorated biometric dictionary related to the same user, and using the biometric information of the user being input as teaching data, the deteriorated biometric dictionary is automatically re-established. Can be strengthened.
(利用者認証処理)
次に、利用者認証部107による利用者認証処理について説明する。図27は、利用者認証部107による利用者認証処理の手順を示すフローチャートである。まず、利用者認証部107では、同一性検証部110から出力された同一組情報を入力し(ステップS2701)、同一組情報に含まれる話者識別情報の話者識別結果に人物不明IDが設定されているか否かを調べる(ステップS2702)。
(User authentication processing)
Next, user authentication processing by the user authentication unit 107 will be described. FIG. 27 is a flowchart illustrating a procedure of user authentication processing by the user authentication unit 107. First, the user authentication unit 107 inputs the same set information output from the identity verification unit 110 (step S2701), and sets the unknown person ID in the speaker identification result of the speaker identification information included in the same set information. It is checked whether or not it is done (step S2702).
そして、話者識別情報の話者識別結果に人物不明IDが設定されている場合には、さらに顔識別情報の顔識別結果に人物不明IDが設定されているか否かを調べる(ステップS2703)。そして、顔識別情報の顔識別結果に人物不明IDが設定されている場合には(ステップS2703:Yes)、音声によっても顔によっても利用者を特定不可能であるため、次の同一組情報の入力待ち状態となる。 If the unknown person ID is set in the speaker identification result of the speaker identification information, it is further checked whether or not the unknown person ID is set in the face identification result of the face identification information (step S2703). If the person unknown ID is set in the face identification result of the face identification information (step S2703: Yes), the user cannot be specified by voice or by face, so Wait for input.
一方、ステップS2703において、顔識別情報の顔識別結果に人物不明IDが設定されていない場合には(ステップS2703:No)、顔のみによって利用者識別が成功したと判断して、同一組情報の顔識別情報に設定されている最大類似度を有する利用者IDを認証結果とし(ステップS2704)、この利用者IDを利用者認証情報に設定して利用者認証情報を出力する(ステップS2708)。 On the other hand, in step S2703, when the person unknown ID is not set in the face identification result of the face identification information (step S2703: No), it is determined that the user identification is successful only by the face, and the same group information The user ID having the maximum similarity set in the face identification information is set as the authentication result (step S2704), the user ID is set in the user authentication information, and the user authentication information is output (step S2708).
ステップS2702において、同一組情報に含まれる話者識別情報の話者識別結果に人物不明IDが設定されていない場合には(ステップS2702:No)、さらに顔識別情報の顔識別結果に人物不明IDが設定されているか否かを調べる(ステップS2705)。 In step S2702, if the unknown person ID is not set in the speaker identification result of the speaker identification information included in the same set information (step S2702: No), the unknown person ID is further included in the face identification result of the face identification information. Is checked (step S2705).
そして、顔識別情報の顔識別結果に人物不明IDが設定されている場合には(ステップS2705:Yes)、音声のみによって利用者識別が成功したと判断して、同一組情報の話者識別情報に設定されている最大類似度を有する利用者IDを認証結果とし(ステップS2706)、この利用者IDを利用者認証情報に設定して利用者認証情報を出力する(ステップS2708)。 If a person unknown ID is set in the face identification result of the face identification information (step S2705: Yes), it is determined that the user identification is successful only by voice, and the speaker identification information of the same set information Is set as the authentication result (step S2706), the user ID is set in the user authentication information, and the user authentication information is output (step S2708).
一方、ステップS2705において、顔識別情報の顔識別結果に人物不明IDが設定されていない場合には(ステップS2705:No)、顔と音声の両方によって利用者識別が成功していると判断し、同一組情報の話者識別情報に設定されている最大類似度と顔識別情報に設定されている最大類似度のうち大きい方の最大類似度を有する利用者IDを認証結果とし(ステップS2707)、この利用者IDを利用者認証情報に設定して利用者認証情報を出力する(ステップS2708)。 On the other hand, if the unknown person ID is not set in the face identification result of the face identification information in step S2705 (step S2705: No), it is determined that the user identification is successful by both the face and the voice, A user ID having the largest similarity between the maximum similarity set in the speaker identification information of the same set information and the maximum similarity set in the face identification information is set as an authentication result (step S2707). This user ID is set in the user authentication information and the user authentication information is output (step S2708).
この利用者認証情報は、サービス提供部109で入力され、サービス提供部109によって利用者認証情報に設定された利用者IDを使用して、メールチェックサービス等の種種のサービス処理を実行する。
The user authentication information is input by the
このように本実施の形態にかかる自律移動型ロボットでは、マイクロホン206,207,208から得られる音声データと全天カメラ205から得られる画像データのそれぞれから別個に利用者が存在する方向を求める。そして、音声データに対する生体情報である話者識別情報と画像データに対する生体情報である顔識別情報のうち、先に得られた生体識別情報が示す方向の画像に関して特徴的な画像の領域である画像特徴領域に近似する領域を追跡し、画像特徴領域の検出方向と後に取得した生体識別情報の方向との差が予め定められた閾値以下であるか否かを判断して、方向の差が閾値以下である場合に、先に取得した生体識別情報で識別される利用者と後に取得した生体識別情報で識別される利用者が同一であると判断しているので、複数種類の生体情報を使用して利用者識別を行う場合に、それぞれ別個の生体情報から求めた利用者の方向の同一性に基づいて利用者の同一性の検証を行うことができ、一定期間経過後に利用者から異なる生体情報を取得した場合でも、利用者の同一性の検証を高精度に行うことができる。
As described above, in the autonomous mobile robot according to the present embodiment, the direction in which the user exists is obtained separately from the audio data obtained from the
また、本実施の形態にかかる自律移動型ロボットでは、このようにして高精度に同一性が検証された話者識別情報と顔識別情報とを一対とした同一組情報を生成して、この同一組情報の内容によって生体辞書を更新しているので、生体辞書の更新の必要性をより正確に判断することができる。 Further, in the autonomous mobile robot according to the present embodiment, the same set information is generated by pairing the speaker identification information and the face identification information whose identity is verified with high accuracy in this way. Since the biological dictionary is updated according to the contents of the group information, the necessity of updating the biological dictionary can be determined more accurately.
また、本実施の形態にかかる自律移動型ロボットでは、このような高精度に同一性が検証された話者識別情報と顔識別情報とを一対とした同一組情報から利用者を認証して認証した利用者に対するサービスを提供しているので、利用者に対するサービスの提供をより安全に行うことができる。 Further, in the autonomous mobile robot according to the present embodiment, the user is authenticated by authenticating the user from the same set of information including the speaker identification information and the face identification information whose identity is verified with high accuracy. Since the service for the user is provided, the service can be provided to the user more safely.
なお、本実施の形態では、本発明の利用者識別装置を自律移動型ロボットに適用した例を示しているが、これに限定されるものではなく、自律移動型ロボット以外でも利用者識別の機能を有する装置であれば、本発明の利用者識別装置を適用することができる。 In this embodiment, an example in which the user identification device of the present invention is applied to an autonomous mobile robot is shown. However, the present invention is not limited to this, and the user identification function can be applied to other than the autonomous mobile robot. The user identification device according to the present invention can be applied to any device having the above.
101 音響指向性形成部
102 音響指向性形成モジュール
103 語彙識別部
104 話者識別部
105 顔識別部
106 領域追跡部
107 利用者認証部
108 辞書更新部
109 サービス提供部
110 同一性検証部
111 同方向性検証部
112 追跡同方向性検証部
120 生体辞書記憶部
121 声紋辞書
122 顔辞書
123 語彙辞書
201 本体
202,203 駆動輪
205 全天カメラ
206,207,208 マイクロホン
DESCRIPTION OF
Claims (11)
利用者の画像を撮像して、撮像した画像を利用者の生体情報として出力する撮像手段と、
前記撮像手段および前記検知手段が出力する生体情報ごとに、利用者の識別情報と利用者の生体情報とを対応付けた複数の生体辞書を記憶する生体辞書記憶手段と、
前記検知手段によって出力された前記生体情報と前記生体情報に対応した前記生体辞書とに基づいて前記生体情報から利用者を識別し、利用者の識別情報と利用者が存在する方向と対応付けた生体識別情報を生成し、前記撮像手段によって出力された生体情報と前記生体情報に対応した前記生体辞書とに基づいて前記生体情報から利用者を識別し、利用者の識別情報と利用者が存在する方向と対応付けた生体識別情報を生成する識別手段と、
前記識別手段によって生成され、先に取得した第1の生体識別情報が示す方向の画像に関して特徴的な領域である画像特徴領域に近似する領域を、前記撮像手段によって新たに入力される画像から検出して、検出された領域を新たな前記画像特徴領域に設定するとともに、設定された新たな前記画像特徴領域の検出方向を求める領域追跡手段と、
前記領域追跡手段によって求められた前記画像特徴領域の検出方向と前記第1の生体識別情報より後に取得した第2の生体識別情報の方向との差が予め定められた閾値以下であるか否かを判断し、方向の差が前記閾値以下である場合に、前記第1の生体識別情報で識別される利用者と前記第2の生体識別情報で識別される利用者が同一であると判断する同一性検証手段と、
を備えたことを特徴とする利用者識別装置。 Detecting means for detecting a user's voice and outputting the detected voice as user's biological information;
Imaging means for capturing an image of the user and outputting the captured image as biological information of the user;
Biometric dictionary storage means for storing a plurality of biometric dictionaries in which user identification information and user biometric information are associated with each other, for each biometric information output by the imaging means and the detection means;
A user is identified from the biometric information based on the biometric information output by the detection means and the biometric dictionary corresponding to the biometric information, and is associated with the user identification information and the direction in which the user exists. Biometric identification information is generated, a user is identified from the biometric information based on the biometric information output by the imaging unit and the biometric dictionary corresponding to the biometric information, and the user identification information and the user exist Identification means for generating biometric identification information associated with the direction to perform,
An area that approximates an image feature area that is a characteristic area with respect to an image in the direction indicated by the first biometric identification information that is generated by the identification means and that is previously acquired is detected from an image that is newly input by the imaging means. Then, while setting the detected area as the new image feature area, area tracking means for obtaining the detection direction of the set new image feature area,
Whether or not the difference between the detection direction of the image feature area obtained by the area tracking unit and the direction of the second biometric identification information acquired after the first biometric identification information is equal to or less than a predetermined threshold value. When the difference in direction is equal to or smaller than the threshold, it is determined that the user identified by the first biometric identification information is the same as the user identified by the second biometric identification information. Identity verification means;
A user identification device comprising:
を更に備えたことを特徴とする請求項4に記載の利用者識別装置。 It is determined whether or not the user having the maximum similarity indicated by the first biometric identification information associated with the same set information matches the user having the maximum similarity indicated by the second biometric identification information. And a dictionary updating means for updating the biometric dictionary corresponding to the biometric identification information having a small maximum similarity when the values do not match based on the biometric identification information having a large maximum similarity,
The user identification device according to claim 4, further comprising:
前記利用者認証手段によって認証された利用者に対し、予め定められたサービス処理を実行するサービス提供手段と、
を更に備えたことを特徴とする請求項4または5に記載の利用者識別装置。 The user having the maximum similarity of the biometric identification information having the greatest similarity among the first biometric identification information and the second biometric identification information associated with the same set information is associated with the same set information. A user authentication means for authenticating the user of the attached biometric information;
Service providing means for executing predetermined service processing for the user authenticated by the user authentication means;
The user identification device according to claim 4, further comprising:
前記第1の音声入力手段から出力された第1の音声情報と前記第2の音声入力手段から出力された第2の音声情報とから、所定方向の範囲の第1の指向性範囲に音声入力の感度が限定された第4の音声情報を出力し、出力された第4の音声情報と前記第3の音声入力手段から出力された第3の音声情報から、前記第1の指向性範囲をさらに限定した第2の指向性範囲に入力感度が限定された第4の音声情報を出力し、前記第2の指向性範囲を利用者の音声の到来方向と推定する音響指向性形成手段と、
を更に備えたことを特徴とする請求項1〜6のいずれか一つに記載の利用者識別装置。 The detection means includes first, second and third voice input means for detecting voice of a user from different directions and outputting voice information of the detected voice as the biological information.
From the first voice information output from the first voice input means and the second voice information output from the second voice input means, the voice is input to the first directivity range in a predetermined direction range. The fourth voice information with limited sensitivity is output, and the first directivity range is determined from the output fourth voice information and the third voice information output from the third voice input means. Further, acoustic directivity forming means for outputting fourth voice information whose input sensitivity is limited to the limited second directivity range, and estimating the second directivity range as an arrival direction of the user's voice;
The user identification device according to claim 1, further comprising:
前記生体辞書記憶手段は、利用者の識別情報と前記利用者の音声情報とを対応付けた話者辞書を前記生体辞書として記憶し、
前記識別手段は、前記音響指向性形成手段により出力された指向性音声情報と前記話者辞書とに基づいて前記利用者を識別し、利用者の識別情報と前記指向性音声情報の到来方向とを対応付けた話者識別情報を前記第1の生体識別情報として生成する話者識別手段を備えたことを特徴とする請求項7に記載の利用者識別装置。 The acoustic directivity forming means further outputs directional voice information in which the arrival direction and the fourth voice information are associated with each other,
The biological dictionary storage means stores a speaker dictionary associating user identification information with the user's voice information as the biological dictionary,
The identifying means identifies the user based on the directional speech information output by the acoustic directivity forming means and the speaker dictionary, and the identification information of the user and the direction of arrival of the directional speech information, The user identification device according to claim 7, further comprising speaker identification means for generating speaker identification information in association with each other as the first biometric identification information.
前記識別手段は、前記撮像手段により出力された画像と前記顔辞書とに基づいて、前記画像から利用者の顔領域を検索して前記利用者を識別し、利用者の識別情報と前記顔領域の画像中心位置を方向として対応付けた顔識別情報を前記第2の生体識別情報として生成する顔識別手段をさらに備えたことを特徴とする請求項7または8に記載の利用者識別装置。 The biological dictionary storage means stores a face dictionary in which identification information of a user is associated with an image of the user's face as the biological dictionary,
The identification means searches the user's face area from the image based on the image output by the imaging means and the face dictionary, identifies the user, and identifies the user's identification information and the face area. The user identification device according to claim 7, further comprising face identification means for generating face identification information associated with the image center position as a direction as the second biometric identification information.
前記識別ステップによって生成され、先に取得した第1の生体識別情報が示す方向の画像に関して特徴的な領域である画像特徴領域に近似する領域を、前記撮像手段によって新たに入力される画像から検出して、検出された領域を新たな前記画像特徴領域に設定するとともに、設定された新たな前記画像特徴領域の検出方向を求める領域追跡ステップと、
前記領域追跡ステップによって求められた前記画像特徴領域の検出方向と前記第1の生体識別情報より後に取得した第2の生体識別情報の方向との差が予め定められた閾値以下であるか否かを判断し、方向の差が前記閾値以下である場合に、前記第1の生体識別情報で識別される利用者と前記第2の生体識別情報で識別される利用者が同一であると判断する同一性検証ステップと、
を含むことを特徴とする利用者識別方法。 Detecting the user's voice, and outputting the detected voice as the user's biometric information, the biometric information output by the detection means, the user identification information corresponding to the biometric information, and the user's biometric information A user is identified from the biometric information based on the associated biometric dictionary, biometric identification information associated with the user identification information and the direction in which the user exists is generated, and an image of the user is captured. Identifying the user from the biometric information based on the biometric information output by the imaging means that outputs the captured image as the biometric information of the user and the biometric dictionary corresponding to the biometric information, and identifying the user And an identification step for generating biometric identification information associated with the direction in which the user exists,
An area that approximates an image feature area that is a characteristic area with respect to the image in the direction indicated by the first biometric identification information that is generated in the identification step and that has been previously acquired is detected from the image that is newly input by the imaging unit. An area tracking step for setting the detected area as a new image feature area and obtaining a detection direction of the set new image feature area;
Whether or not the difference between the detection direction of the image feature region obtained by the region tracking step and the direction of the second biometric identification information acquired after the first biometric identification information is equal to or less than a predetermined threshold value. And the user identified by the first biometric identification information is the same as the user identified by the second biometric identification information when the direction difference is equal to or less than the threshold. An identity verification step;
A user identification method comprising:
前記識別ステップによって生成され、先に取得した第1の生体識別情報が示す方向の画像に関して特徴的な領域である画像特徴領域に近似する領域を、前記撮像手段によって新たに入力される画像から検出して、検出された領域を新たな前記画像特徴領域に設定するとともに、設定された新たな前記画像特徴領域の検出方向を求める領域追跡ステップと、
前記領域追跡ステップによって求められた前記画像特徴領域の検出方向と前記第1の生体識別情報より後に取得した第2の生体識別情報の方向との差が予め定められた閾値以下であるか否かを判断し、方向の差が前記閾値以下である場合に、前記第1の生体識別情報で識別される利用者と前記第2の生体識別情報で識別される利用者が同一であると判断する同一性検証ステップと、
をコンピュータに実行させる利用者識別プログラム。
Detecting the user's voice, and outputting the detected voice as the user's biometric information, the biometric information output by the detection means, the user identification information corresponding to the biometric information, and the user's biometric information A user is identified from the biometric information based on the associated biometric dictionary, biometric identification information associated with the user identification information and the direction in which the user exists is generated, and an image of the user is captured. Identifying the user from the biometric information based on the biometric information output by the imaging means that outputs the captured image as the biometric information of the user and the biometric dictionary corresponding to the biometric information, and identifying the user And an identification step for generating biometric identification information associated with the direction in which the user exists,
An area that approximates an image feature area that is a characteristic area with respect to the image in the direction indicated by the first biometric identification information that is generated in the identification step and that has been previously acquired is detected from the image that is newly input by the imaging unit. An area tracking step for setting the detected area as a new image feature area and obtaining a detection direction of the set new image feature area;
Whether or not the difference between the detection direction of the image feature region obtained by the region tracking step and the direction of the second biometric identification information acquired after the first biometric identification information is equal to or less than a predetermined threshold value. And the user identified by the first biometric identification information is the same as the user identified by the second biometric identification information when the direction difference is equal to or less than the threshold. An identity verification step;
User identification program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005089419A JP4257308B2 (en) | 2005-03-25 | 2005-03-25 | User identification device, user identification method, and user identification program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005089419A JP4257308B2 (en) | 2005-03-25 | 2005-03-25 | User identification device, user identification method, and user identification program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006263348A true JP2006263348A (en) | 2006-10-05 |
JP4257308B2 JP4257308B2 (en) | 2009-04-22 |
Family
ID=37199897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005089419A Expired - Fee Related JP4257308B2 (en) | 2005-03-25 | 2005-03-25 | User identification device, user identification method, and user identification program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4257308B2 (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020423A (en) * | 2007-07-13 | 2009-01-29 | Fujitsu Ten Ltd | Speech recognition device and speech recognition method |
JP2009140366A (en) * | 2007-12-07 | 2009-06-25 | Sony Corp | Information processor, information processing method, and computer program |
WO2018168369A1 (en) * | 2017-03-14 | 2018-09-20 | 株式会社Seltech | Machine learning device and machine learning program |
JP2018180523A (en) * | 2017-04-12 | 2018-11-15 | サウンドハウンド,インコーポレイテッド | Managing agent engagement in a man-machine dialog |
JP2020057300A (en) * | 2018-10-04 | 2020-04-09 | カシオ計算機株式会社 | Identification device, robot, identification method, and program |
CN113392810A (en) * | 2021-07-08 | 2021-09-14 | 北京百度网讯科技有限公司 | Method, apparatus, device, medium and product for in vivo detection |
EP3995892A1 (en) * | 2015-04-01 | 2022-05-11 | Owl Labs, Inc. | Compositing and scaling angularly separated sub-scenes |
US11604862B2 (en) | 2020-08-18 | 2023-03-14 | International Business Machines Corporation | Biometric user authentication |
US11729342B2 (en) | 2020-08-04 | 2023-08-15 | Owl Labs Inc. | Designated view within a multi-view composited webcam signal |
US11736801B2 (en) | 2020-08-24 | 2023-08-22 | Owl Labs Inc. | Merging webcam signals from multiple cameras |
-
2005
- 2005-03-25 JP JP2005089419A patent/JP4257308B2/en not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020423A (en) * | 2007-07-13 | 2009-01-29 | Fujitsu Ten Ltd | Speech recognition device and speech recognition method |
JP2009140366A (en) * | 2007-12-07 | 2009-06-25 | Sony Corp | Information processor, information processing method, and computer program |
EP3995892A1 (en) * | 2015-04-01 | 2022-05-11 | Owl Labs, Inc. | Compositing and scaling angularly separated sub-scenes |
WO2018168369A1 (en) * | 2017-03-14 | 2018-09-20 | 株式会社Seltech | Machine learning device and machine learning program |
JPWO2018168369A1 (en) * | 2017-03-14 | 2020-01-30 | 積水ハウス株式会社 | Machine learning device and machine learning program |
JP7082444B2 (en) | 2017-03-14 | 2022-06-08 | 積水ハウス株式会社 | Machine learning equipment and machine learning programs |
JP2018180523A (en) * | 2017-04-12 | 2018-11-15 | サウンドハウンド,インコーポレイテッド | Managing agent engagement in a man-machine dialog |
US11250844B2 (en) | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
JP2020057300A (en) * | 2018-10-04 | 2020-04-09 | カシオ計算機株式会社 | Identification device, robot, identification method, and program |
US11514269B2 (en) | 2018-10-04 | 2022-11-29 | Casio Computer Co., Ltd. | Identification device, robot, identification method, and storage medium |
JP7205148B2 (en) | 2018-10-04 | 2023-01-17 | カシオ計算機株式会社 | ROBOT, CONTROL METHOD AND PROGRAM |
US11729342B2 (en) | 2020-08-04 | 2023-08-15 | Owl Labs Inc. | Designated view within a multi-view composited webcam signal |
US11604862B2 (en) | 2020-08-18 | 2023-03-14 | International Business Machines Corporation | Biometric user authentication |
US11736801B2 (en) | 2020-08-24 | 2023-08-22 | Owl Labs Inc. | Merging webcam signals from multiple cameras |
CN113392810A (en) * | 2021-07-08 | 2021-09-14 | 北京百度网讯科技有限公司 | Method, apparatus, device, medium and product for in vivo detection |
Also Published As
Publication number | Publication date |
---|---|
JP4257308B2 (en) | 2009-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4257308B2 (en) | User identification device, user identification method, and user identification program | |
JP7109634B2 (en) | Identity authentication method and device | |
US11513205B2 (en) | System and method associated with user authentication based on an acoustic-based echo-signature | |
JP4986433B2 (en) | Apparatus and method for recognizing and tracking objects | |
CN112088315B (en) | Multi-mode speech localization | |
JP5595112B2 (en) | robot | |
US10311219B2 (en) | Device, system, and method of user authentication utilizing an optical microphone | |
CN107346661B (en) | Microphone array-based remote iris tracking and collecting method | |
CN112074901A (en) | Speech recognition login | |
JP6467736B2 (en) | Sound source position estimating apparatus, sound source position estimating method, and sound source position estimating program | |
KR20030077797A (en) | Orthogonal circular microphone array system and method for detecting 3 dimensional direction of sound source using thereof | |
JP7370014B2 (en) | Sound collection device, sound collection method, and program | |
US10964326B2 (en) | System and method for audio-visual speech recognition | |
KR100822880B1 (en) | User identification system through sound localization based audio-visual under robot environments and method thereof | |
CN111048113A (en) | Sound direction positioning processing method, device and system, computer equipment and storage medium | |
WO2022001801A1 (en) | Role separation method, meeting summary recording method, role display method and apparatus, electronic device, and computer storage medium | |
CN114120984A (en) | Voice interaction method, electronic device and storage medium | |
CN110188179A (en) | Speech-oriented identifies exchange method, device, equipment and medium | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
Hu et al. | Robust speaker's location detection in a vehicle environment using GMM models | |
Dai et al. | Recognizing driver talking direction in running vehicles with a smartphone | |
US20240012083A1 (en) | Method and apparatus for measuring directions of arrival of multiple sound sources | |
US11114108B1 (en) | Acoustic source classification using hyperset of fused voice biometric and spatial features | |
Sahoo et al. | Bimodal biometric person authentication using speech and face under degraded condition | |
Tsang et al. | Speaker verification using type-2 fuzzy gaussian mixture models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090127 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090202 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4257308 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140206 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |