JP2019154575A

JP2019154575A - 個人識別装置および特徴収集装置

Info

Publication number: JP2019154575A
Application number: JP2018042204A
Authority: JP
Inventors: 純平松永; Jumpei Matsunaga
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2019-09-19
Anticipated expiration: 2038-03-08
Also published as: WO2019171780A1; JP6819633B2

Abstract

【課題】画像内の人物を精度良く識別可能な個人識別技術を提供する。【解決手段】個人識別装置は、音声を出力する音声出力手段と、出力音声に応答する音声を取得する音声入力手段と、画像入力手段と、前記画像入力手段に入力される動画像から、人物を検出する検出手段と、前記検出手段によって検出された人物を識別する人物識別手段と、を備え、前記人物識別手段は、前記動画像に基づいて前記人物を識別する第１識別手段と、出力音声への応答として得られる入力音声に基づいて前記人物を識別する第２識別手段と、を有し、前記第１識別手段による識別結果である第１識別結果と前記第２識別手段による識別結果である第２識別結果に基づいて、前記人物を識別する、ことを特徴とする。【選択図】図１

Description

本発明は、撮像された画像に写っている人物を識別する個人識別技術に関する。

個人識別技術として顔認識を用いる技術が存在するが、対象者がカメラと正対しない場合には識別できない。また、家庭内に限れば、遺伝的に似た顔であるため判別が困難であるという課題もある。そこで、人体特徴（姿勢、シルエット）や行動特徴（動線パターン、滞在場所）を用いた識別を行うことで、顔が撮影できない場面でも識別可能とすることが考えられる。

人体特徴や行動特徴を用いた識別を行うためには、対象者ごとの人体特徴や行動特徴を収集して学習を行う必要がある。また、時間や環境の変化に応じて行動特徴が変化する可能性があるので、これらの特徴を継続的に収集して、識別に用いる登録情報を更新することで変化に対応することが望まれる。

人体特徴や行動特徴を収集するためには、検出された人物が誰であるかを識別する必要があるが、画像に基づく識別のみでは正確な個人識別を行えない場面がある。上述のように顔が撮影できなければ顔認識は利用できないし、人体特徴や行動特徴の学習が不十分であればこれらの特徴に基づく識別も正確ではない。

特許文献１は、人物に対して呼び掛け音声を出力して、呼び掛け音声出力前後での顔の変化に基づいて登録すべき最適な顔を選択することを開示する。例えば、呼び掛けに対して振り向いた顔を選択することが開示されている。しかしながら、特許文献１は、あくまでも学習用の顔画像の取得方法を開示するだけであり、識別時に顔が写った画像が得られなければ正確な個人識別が行えないという問題に対処できるものではない。

特開２０１３−１８２３２５号公報

本発明は、上記実情に鑑みなされたものであって、画像内の人物を精度良く識別可能な個人識別技術を提供することを目的とする。

上記目的を達成するために、本発明では、画像に基づく識別と、出力音声への応答音声に基づく識別とに基づいて人物を識別するという手法を採用する。

具体的には、本発明の第一態様は、音声出力手段、音声入力手段、画像入力手段、検出手段、および人物識別手段を備える。音声出力手段は音声を出力する。音声入力手段は、出力音声に応答する音声を取得する。画像入力手段は動画像を取得する。検出手段は、入力される動画像から人体を検出する。人体検出手法は任意の手法を採用可能である。人物識別手段は、画像に基づく識別を行う第１識別手段と、音声に基づく識別を行う第２識別手段を有する。第１識別手段は、例えば、顔特徴、人体特徴（姿勢やシルエット）、行動特徴（動線パターンや滞在場所）を利用した識別手法を採用できるが、画像から得られる特徴に基づく識別であればその他の識別手法を採用してもよい。第２識別手段は、入力音
声の波形解析により得られる音響特徴量や、自然言語解析により得られる単語や文章の特徴量に基づく識別手段を採用できるが、入力音声に基づく識別であればその他の手法を採用してもよい。人物識別手段は、第１識別手段による識別結果（以下、第１識別結果）と、第２識別手段による識別結果（以下、第２識別結果）に基づいて、検出された人物を識別する。

このような構成によれば、画像のみに基づいて人物の識別が精度良く行えない場合でも、音声に基づく識別結果と合わせて判断することで、人物識別を精度良く行えるようになる。

本態様において、人物識別手段は、第１識別手段が信頼度高く識別できない場合に第２識別手段も考慮した識別を行うように構成してもよい。すなわち、前記人物識別手段は、前記第１識別手段による信頼度が第１閾値未満の場合に、前記第２識別手段による識別を行って、前記第１識別結果と前記第２識別結果とに基づいて前記人物を識別するように構成してもよい。人物識別手段は、第１識別結果と第２識別結果とに基づく識別では、例えば、第１識別結果と第２識別結果が一致した場合に識別結果を確定し、２つの識別結果が異なる場合には識別結果を未確定としてもよい。

また本態様において、前記第１識別手段による信頼度が前記第１閾値以上の場合は、前記第１識別結果を、前記人物の識別結果としてもよい。

このような構成によれば、画像のみから信頼度高く識別が行える場合に、処理量を削減できるとともに、音声での問いかけも省略されてユーザに対応を強いる必要がなくなる。

本態様において、前記音声出力手段からの音声出力は所定のタイミングで行わればよい。この所定のタイミングは、人物の識別信頼度が閾値未満となったタイミング、人物が検出されたタイミングから第１の所定時間が経過したタイミング、人物の時間変化が略無い状態が第２の所定時間継続したタイミング、人物が撮像範囲外へ出るタイミング、情報処理装置と前記人物の間の距離が所定距離以下となったタイミング、の少なくとも何れかとすることができる。人物の識別信頼度は、第１識別手段による識別の信頼度であってもよいし、第１識別手段と第２識別手段の識別結果を統合した信頼度であってもよい。第１の所定時間は、固定の時間であってもよいし、画像から特徴を取得する場合には特徴の取得回数や特徴のデータ量に応じて決定される時間であってもよい。

本態様において、前記人物識別手段は、前記第１識別手段による信頼度に応じて、前記出力音声の内容を決定することが好適である。例えば、前記人物識別手段は、前記信頼度が第２閾値未満の場合は、前記第１識別結果の人物の呼称を含む内容、または、前記人物が誰であるかを問い合わせる内容を、前記出力音声の内容として決定することができる。なお、信頼度を３段階以上にレベル分けして、それぞれのレベルに応じて出力音声の内容を決定してもよい。例えば、信頼度を３段階に分ける場合には、高レベルであれば人物の呼称を含まない自然な内容とし、中レベルであれば人物の呼称を含む内容とし、低レベルであれば直接的に人物が誰であるかを問い合わせる内容としてもよい。一例として、高レベルであれば「そこで何してるの？」、中レベルであれば「お母さん、そこで何してるの？」、低レベルであれば「そこにいるのは誰？」といった内容を採用することができる。

また、本態様において、前記人物識別手段は、前記第１識別結果と前記第２識別結果が一致しない場合には、新たに音声を出力して当該新たな出力音声に応答する入力音声に基づいて前記第２識別手段による識別を行ってもよい。この際は、新たな出力音声の内容は、前回の出力音声の内容と比較してより直接的に前記人物を確認する内容とするとよい。第１識別結果と第２識別結果が一致しない場合には、人物が誰であるか確定できない状態
であるので、より直接的に人物が誰であるかを確認するような内容の音声出力を行って、その応答から人物が誰であるか識別するとよい。

本発明の第二態様は、上記の個人識別装置と、前記画像入力手段に入力される動画像から、前記検出された人物の人体または行動に関する特徴の少なくともいずれかを取得する特徴取得手段と、前記特徴取得手段によって取得された特徴を、前記人物識別手段によって識別された人物を関連付けて登録する特徴登録手段と、備える特徴収集装置である。このようにして収集された特徴は、識別器の学習に用いることができる。

なお、本発明は、上記構成ないし機能の少なくとも一部を有する情報処理システムとして捉えることができる。また、本発明は、上記処理の少なくとも一部を含む、情報処理方法又は情報処理システムの制御方法や、これらの方法をコンピュータに実行させるためのプログラム、又は、そのようなプログラムを非一時的に記録したコンピュータ読取可能な記録媒体として捉えることもできる。上記構成及び処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。

本発明によれば、画像内の人物を精度良く識別できる。

図１は、本発明が適用された個人識別装置の構成例を示すブロック図である。図２は、第１の実施形態に係る特徴収集装置の構成例を示すブロック図である。図３は、第１の実施形態における特徴収集処理の例を示すフローチャートである。図４は、第１の実施形態における発話内容決定処理の例を示すフローチャートである。図５Ａおよび図５Ｂは、入力画像から検出される人体の骨格情報と、骨格に基づく姿勢検出を説明する図である。図６は、第２の実施形態における発話内容決定処理の例を示すフローチャートである。

＜適用例＞
本発明の適用例について説明する。個人の人体特徴や行動特徴を収集する際には、収集している対象の人物が誰であるのかを特定する必要がある。画像に基づく個人識別手法として顔認識があるが、必ずしも顔が撮影できるとは限らないので精度のよい識別が行えない場合がある。また、人体特徴や行動特徴に基づく識別も可能であるが、人体特徴や行動特徴による識別のための特徴収集において、人体特徴や行動特徴に基づく識別に全面的に頼ることは現実的ではない。

図１は、本発明が適用された個人識別装置１０の構成例を示すブロック図である。個人識別装置１１０は、入力される動画像や音声から動画像中の人物を識別する。個人識別装置１０は、画像入力部１１、人体検出部１２、人物識別部１３、音声出力部１４、および音声入力部１５を有する。

画像入力部１１は、撮像された動画像（動画像データ）を取得する。例えば、画像入力部１１は、画像データが入力される入力端子である。画像入力部１１は、本発明の画像取得手段の一例である。

人体検出部１２は、動画像データの処理対象フレーム画像から人の体らしい領域（人体領域）を検出する。人体検出は、既存の任意のアルゴリズムによって学習された検出器を用いて行えばよい。人体検出部１２は、本発明の検出手段の一例である。

音声出力部１４は、人物識別部１３から得られる発話内容を音声データにして出力する。音声出力部１４は本発明の音声出力手段の一例である。

音声入力部１５は、音声データを取得する。音声入力部１５は、本発明の音声入力手段の一例である。

人物識別部１３は、画像入力部１１が取得する動画像や音声入力部１５が取得する音声に基づいて、動画像中の人物を特定する。人物識別部１３は、音声による識別に用いる応答音声を引き出すための発話の内容およびその発話のタイミングも決定する。人物識別部１３は、本発明の人物識別手段の一例である。

第１識別部１３１は、画像入力部１１が取得した動画像から人体検出部１２によって検出された人物の識別を行う。第１識別部１３１は、入力画像に基づいて人物の識別を行う。具体的には、画像中の顔特徴、人体特徴、および行動特徴の少なくともいずれかに基づいて検出人物を識別する。第１識別部１３１は、本発明の第１識別手段の一例である。

第２識別部１３３は、音声入力部１５が取得する音声に基づいて、人体検出部１２によって検出された人物の識別を行う。第２識別部１３３は、音声の波形解析を行って得られる音響特徴量に基づいて識別を行ってもよいし、自然言語解析を行って得られる言語特徴量に基づいて識別を行ってもよい。音響特徴量に基づく識別は、あらかじめ登録された音響特徴量との一致度合いに基づいて行える。言語特徴量に基づく識別は、出力音声の内容と応答音声の内容の意味に基づいて行える。第２識別部１３３は、本発明の第２識別手段の一例である。

人物識別部１３は、音声出力部１４から発話を行うタイミングおよび発話文の内容を決定する。本適用例において、音声出力部１４から発話（音声の出力）を行うのは、検出人物から音声による応答を得て、音声に基づく検出を行うためである。したがって、人物識別部１３は、音声に基づく識別を行う必要があると想定されるタイミングを発話タイミングとして決定する。人物識別部１３は、典型的には、第１識別部１３１による識別の信頼度が低い（閾値ＴＨ１未満）タイミングを発話タイミングとして決定してもよい。また、人物識別部１３は、定期的に発話を行ったり、人物の動きがない場合に発話を行ったり、第１識別部１３１と第２識別部１３３の識別結果が相違する場合に発話を行ったりするように発話タイミングを決定してもよい。発話内容は、人物識別の信頼度に応じて決定してもよい。例えば、信頼度が高い場合には自然なコミュニケーションの発話を行い、信頼度が低い場合には、推定される人物の呼称を含む発話や、直接的に検出人物が誰であるかを問い合わせる発話文を行うことが考えられる。ここで、人物の呼称を含む発話および人物が誰であるかを問い合わせる発話は、人物が誰であるかを確認する発話の一例である。

なお、発話および応答を複数回行って、複数回の応答音声に対して第２識別部１３３による識別を行ってもよい。この場合、例えば、１回目は自然なコミュニケーションの発話を行い、第２識別部１３３が応答音声の音響特徴に基づいて識別を行う。ここで、第１識別部１３１と第２識別部１３３の識別結果が一致するか、第２識別部１３３の識別結果の信頼度が高いときには、人物の識別が正しく行えていると考えられる。したがって、２回目の発話はしなくてもよいし、引き続き自然なコミュニケーションを続けてもよい。一方、１回目の応答に基づく第２識別部１３３の識別結果が第１識別部１３１の識別結果と相
違するか、識別信頼度が低い場合には、２回目の発話内容を、１回目の発話と比較してより直接的に人物を確認する内容とするとよい。２回目は応答の内容（自然言語解析による意味解釈）によって人物を識別できるので、信頼度の高い識別結果が得られることが期待される。

このように、本適用例に係る個人識別装置１０によれば、画像と音声の２つの識別手法に基づいて画像中の人物を識別することで、画像だけからは信頼度高く識別が行えない場合でも、精度良く識別が行える。また、個人識別のための音声による問いかけを最小限にできるので、ユーザに煩わしさを感じさせることを抑制できる。また、上述のように発話内容を決定することで、ユーザに問いかけを行う際にも自然なコミュニケーションが可能であり、このような点からもユーザに煩わしさを感じさせることを抑制できる。

（第１の実施形態）
本発明の第１の実施形態は、人物を撮影して得られる人体特徴や行動特徴を収集する特徴収集装置であり、家庭用のコミュニケーションロボット１（以下、単にロボット１とも称する）に搭載される。特徴収集装置は、個人識別の学習用にこれらの特徴を収集する。

［構成］
図２は、ロボット１の構成を示す図である。ロボット１は、特徴収集装置１００、カメラ２００、スピーカ３００、およびマイク４００を備える。なお、ロボット１は、ＣＰＵなどのプロセッサ（演算装置）と、主記憶装置、補助記憶装置、通信装置などを有しており、プロセッサがプログラムを実行することで特徴収集装置１００の各処理が実行される。

カメラ２００は、可視光または非可視光（例えば赤外光）による連続的な撮影を行い、撮影した画像データを特徴収集装置１００に入力する。カメラ２００の撮像範囲は、固定であっても可変であってもよい。カメラ２００の撮像範囲の変更は、カメラ２００の向きを変えることによって行われてもよいし、ロボット１が自律的に移動することによって行われてもよい。

スピーカ３００は、特徴収集装置１００から入力される音声データを音響波に変換して出力する。マイク４００は、ユーザが発話する音声などの音響波を音声データに変換して特徴収集装置１００に出力する。マイク４００は、音源分離可能なようにマイクアレイとして構成されてもよい。

特徴収集装置１００は、カメラ２００が撮像した画像から、当該画像に写っている人物の姿勢、仕草、シルエット、動線、及び、滞在場所の少なくともいずれかを当該人物の特徴として取得する。また、特徴収集装置１００は、画像内の人物の識別を行い、個人と関連付けて特徴情報を記憶する。このような動作を行うために、特徴収集装置１００は、個人識別装置１１０と、特徴取得部１２０と、特徴登録部１３０とを有する。

個人識別装置１１０は、カメラ２００から入力される動画像やマイク４００から入力される音声から、動画像中の人物を識別する。個人識別装置１１０は、画像入力部１１１、人体検出部１１２、人物識別部１１３、音声出力部１１４、音声入力部１１５を有する。人物識別部１１３は、第１識別部１１３１、発話制御部１１３２、第２識別部１１３３、人物特定部１１３４を有する。

画像入力部１１１は、カメラ２００から画像データを受け取るインタフェースである。なお本実施形態では、画像入力部１１１は、カメラ２００から直接画像データを受け取っているが、通信装置を介して画像データを受け取ったり、記録媒体を経由して画像データ
を受け取ったりしてもよい。

人体検出部１１２は、入力画像から人体領域を検出する。人体検出のアルゴリズムは既存の任意のものが採用できる。また、人体検出部１１２は、一度検出した人体については追跡処理によって検出するようにしてもよい。追跡の際に、人体検出部１１２は、一度検出した人物の服装や装飾品の種類や形状や色などを記憶しておき、所定時間（例えば１時間から数時間程度）の間は、これらの特徴を用いて検出してもよい。また、服装や装飾品の種類や形状や色を、第１識別部１１３１による識別に利用してもよい。短時間の間で服装が変更される可能性は低いため、これらの特徴は追跡に有効活用できる。

人物識別部１１３は、人体検出部１１２が検出した人物（検出人物）が誰であるかを識別（特定）する。

第１識別部１１３１は、画像入力部１１が取得した画像に基づいて、検出人物の識別を行う。具体的には、画像中の顔特徴、人体特徴、および行動特徴の少なくともいずれかに基づいて検出人物を識別する。これらの識別を行うために、識別対象の各人物の顔特徴、人体特徴、および行動特徴をあらかじめ登録しておく。上述のように、人体検出部１１２が、検出人物の服装や装飾品の種類や形状や色を取得している場合には、これらの特徴も用いて識別を行ってもよい。また、第１識別部１１３１は、識別結果の信頼度（識別結果がどの程度確からしいかを表す指標）も算出する。

発話制御部１１３２は、音声出力部１１４から発話を行うタイミングおよび発話文の内容を決定する。音声出力部１１４から発話（音声の出力）を行うのは、検出人物から音声による応答を得て、音声に基づく検出を行うためである。したがって、人物識別部１１３は、音声に基づく識別を行う必要があると想定されるタイミングを発話タイミングとして決定する。また、発話内容は、ユーザが煩わしく感じない内容であり、かつ、応答音声に基づく識別が行えるような内容とすべきである。具体的な、発話タイミングおよび発話内容の決定方法は後述する。

第２識別部１１３３は、音声入力部１５が取得する音声に基づいて、人体検出部１２によって検出された人物の識別を行う。第２識別部１１３３は、音声の波形解析を行って得られる音響特徴量に基づいて識別を行ってもよいし、自然言語解析を行って得られる言語特徴量に基づいて識別を行ってもよい。音響特徴量に基づく識別は、あらかじめ登録された音響特徴量との一致度合いに基づいて行える。言語特徴量に基づく識別は、出力音声の内容と応答音声の内容の意味に基づいて行える。第２識別部１１３３は、識別結果の信頼度も算出する。

人物特定部１１３４は、第１識別部１１３１の識別結果（第１識別結果）と第２識別部１１３３の識別結果（第２識別結果）に基づいて、検出人物が誰であるかを最終的に特定する。例えば、人物特定部１１３４は、第１識別結果と第２識別結果が一致する場合に、その識別結果を最終的な結果としてもよいし、第１識別結果または第２識別結果いずれかを採用してもよい。人物特定部１１３４は、第１識別部１１３１の識別信頼度や第２識別部１１３３の識別信頼度を考慮して、検出人物が誰であるかを特定してもよい。例えば、第１識別部１１３１の識別信頼度が十分に高い場合には、第２識別部１１３３による識別を行わずに、第１識別部１１３１の識別結果を最終的な結果としてもよい。人物特定部１１３４は、識別結果の信頼度も算出する。この信頼度は、例えば、発話制御部１１３２による発話タイミングや発話内容の決定に用いられる。

音声出力部１１４は、発話制御部１１３２から発話音声のテキストデータを取得し、それを音声合成処理により音声データに変換して、スピーカ３００から出力する。

音声入力部１１５は、マイク４００から音声信号を受取、音声データに変換して第２識別部１１３３に出力する。音声入力部１１５は、雑音除去や話者分離などの前処理を施してもよい。

特徴取得部１２０は、人体検出部１１２によって検出された人物の特徴を、入力画像から取得する。特徴取得部１２０が取得する特徴は、例えば、人体に関する特徴（例えば、人体の部位、骨格、姿勢、シルエットに関する特徴）と、行動に関する特徴（仕草、動線、滞在場所に関する特徴）の少なくともいずれかを含む。以下では、特徴取得部１２０が取得する特徴を、人体・行動特徴とも称する。これらの特徴が人体検出部１１２や第１識別部１１３１において既に算出されている場合には、特徴取得部１２０は算出済みの特徴を取得すればよい。逆に、特徴取得部１２０が算出した特徴を、第１識別部１１３１が使用してもよい。

図５Ａ、図５Ｂを参照して人体・行動特徴の取得について説明する。特徴取得部１２０は、入力画像５０から、検出人物５１の骨格を示す骨格情報を取得する。骨格情報は、例えば、ＯｐｅｎＰｏｓｅなどを使って取得される。骨格情報は、人体を示す特徴情報でもあるし、人体の部位（頭、首、肩、肘、手、腰、膝、足首、目、耳、指先、等）を示す特徴情報でもある。図５では、画像５０から、検出人物５１の骨格（骨格情報）５２が検出されている。

図５Ｂに示すように、骨格の形状は姿勢に依存する。そのため、特徴取得部１２０は、人体の部位の位置関係（骨格情報）から人物の姿勢情報を取得できる。姿勢情報は、人体の各部位の相対的な位置関係を列挙した情報であってもよいし、人体の部位の位置関係を分類した結果であってもよい。姿勢の分類として、例えば、直立、猫背、Ｏ脚、Ｘ脚などが挙げられる。また、特徴取得部１２０は、検出人物のシルエット情報を取得してもよく、シルエット情報から姿勢を求めてもよい。

上述の骨格情報・姿勢情報・シルエット情報はいずれも本発明における人体特徴に相当する。

また、特徴取得部１２０は、各フレームの姿勢情報の変化から動作情報（仕草）を検出できる。仕草の検出結果として、例えば、歩行、屈伸、寝転び、腕組み、等を示す情報が得られる。腕組みの場合と腕組みでない場合との間で、上腕と前腕の間の位置関係などは異なる。このように、各部位の位置関係は仕草に依存する。そのため、骨格情報に基づいて、各部位の位置関係から仕草を検出できる。歩行や屈伸などの動きを伴う仕草は、互いに異なる時間に撮像された複数の画像にそれぞれ対応する複数の骨格情報を用いて検出されてもよい。歩行については、歩幅と肩幅の比率を示す情報が得られてもよい。

また、特徴取得部１２０は、検出人物の滞在場所や動線（移動経路）を特徴として取得してもよい。滞在場所に関する特徴は、過去数分間などの所定期間における人物位置の時間変化に基づいて、当該所定期間の長さに対する滞在時間の比率（滞在率）を、滞在判定領域ごとに算出すれば得られる。滞在場所の検出結果は、各滞在判定領域の滞在率を示す滞在マップ（ヒートマップ）の形式で得られる。動線に関する特徴は、滞在位置を時系列で示した情報であり、滞在マップと同様の手法により得られる。

上述した、動作、滞在場所、および動線に関する情報は、いずれも本発明における行動特徴に相当する。

特徴登録部１３０は、特徴取得部１２０によって取得された人体・行動特徴を、個人識
別装置１１０（人物識別部１１３）によって特定された人物と関連付けて照合用データベースなどの記憶部に登録する。特徴登録部１３０が登録を行うタイミングは任意であってよいが、例えば、人物識別部１１３による識別が信頼度高く行えたタイミングや、人物の追跡が完了したタイミングであってもよい。

［処理］
図３は、特徴収集装置１００が行う特徴収集処理の全体的流れを示すフローチャートである。以下、図３を参照しながら本実施形態における特徴収集処理について説明する。なお、このフローチャートは本実施形態における特徴収集処理を概念的に説明するものであり、実施形態においてこのフローチャートの通りの処理が実装される必要はないことに留意されたい。

ステップＳ１０において、人体検出部１１２が、入力画像から人体の検出を行う。人体が検出されなかった場合（Ｓ１１−ＮＯ）には、ステップＳ１０に戻って次の処理対象フレーム画像から人体検出を行う。一方、人体が検出された場合（Ｓ１１−ＹＥＳ）には、処理はステップＳ１２に進む。

ステップＳ１２において、特徴取得部１２０が検出人物の人体・行動特徴を取得する。

ステップＳ１３において、第１識別部１１３１が人体・行動特徴に基づく個人識別を行う。なお、ステップＳ１２において顔特徴も取得して、ステップＳ１３において第１識別部１１３１が顔特徴に基づく個人識別を行ってもよい。

ここで、画像に基づく識別の信頼度について簡単に説明する。顔特徴に基づく識別は比較的精度良く（信頼度高く）行えることが期待できるが、ユーザがロボット１と正対しているときしか行えない。一方、人体特徴や行動特徴に基づく識別は、ユーザの身体が写っていれば行えるが、必ずしも精度がよいとは限らない。特に、人体・行動特徴の初期学習のための特徴を収集している段階では、信頼度の高い識別はできないことが想定される。

第１識別部１１３１は、動画像に含まれる人物の識別を継続して行い、各フレームにおける識別の信頼度を総合して現時点での識別信頼度を算出する。この際、第１識別部１１３１は、最近に行った識別の信頼度に対して大きな重みを付けた加重平均を、現時点での識別信頼度としてもよい。

ステップＳ１４において、発話制御部１１３２は、発話を行うタイミングであるか否かを判断する。発話を行うタイミングはあらかじめ条件として設定しておけばよく、ステップＳ１４では、人物識別部１３は、設定した条件に該当しているか否か判断すればよい。

発話を行う条件として次のようなものが採用できる。
（１）時間
例えば、人体検出から所定時間（例えば１０分）経過後に１回目の発話を行い、それ以降所定の間隔で発話を行う。
（２）データ量
例えば、あらかじめ定められたデータ量（例えば１００回分のデータ）の特徴が取得されたら発話を行う。
（３）行動停止
検出人物の行動に一定時間変化がない場合。例えば、ソファーに座ってテレビを見始めた後に一定時間経過した場合が相当する。
（４）撮像範囲外への移動
検出人物が撮影範囲外に移動することが予測される場合。例えば、検出人物が現在の部
屋から他の部屋へ移動・外出した場合が相当する。
（５）発話のしやすい状況
ロボットが検出人物と対話を行うのに適した状況に達した場合。例えば、検出人物とロボットが向かい合っており（ロボットが検出人物の顔を検出でき）、かつ、検出人物とロボットの間の距離が所定距離（例えば３メートル）以内のとき。
（６）識別信頼度が低い場合
人物識別部１１３は、第１識別部１１３１と第２識別部１１３３の両方の識別結果を用いて最終的な識別結果を確定する。そこで、第１識別部１１３１による識別信頼度が閾値ＴＨ１以上であれば、その結果を人物識別部１１３の識別結果として確定し、識別信頼度が閾値ＴＨ１未満であれば、第２識別部１１３３による識別を行うために発話を行うようにしてもよい。あるいは、第１識別部１１３１と第２識別部１１３３の両方の識別結果を考慮した上で識別信頼度が閾値ＴＨ１未満となる場合に、さらに第２識別部１１３３による識別を行うために発話を行うようにしてもよい。

上記の条件は複数組み合わせてもよく、例えば、上記複数の条件のいくつかの何れかが成立するときに発話するようにしてもよいし、上記複数の条件のいくつかが同時に成立するときに発話するようにしてもよい。さらに、検出人物が眠っているときや集中しているときなど、話しかけることが適切ではない状況では、上記条件を満たしても発話しないようにしてもよい。

なお、ここでの発話は、個人識別のための応答音声を得ることを目的としたものであるので、上記のようなタイミングで行うようにしているが、それ以外のタイミングでの発話を禁止するものではない。例えば、上記の条件を満たさないタイミングにおいて、コミュニケーションのためにユーザに話しかけるようにしても構わない。

ステップＳ１４において発話タイミングの条件を満たすと判断された場合は、処理はステップＳ１５に進み、そうでない場合には、ステップＳ１９に進む。

ステップＳ１５では、発話制御部１１３２が、発話の内容（発話テキスト）を決定する。本実施形態では、発話制御部１１３２は、現時点での識別信頼度に基づいて発話内容を決定する。図４は、ステップＳ１５の発話内容決定処理を説明するフローチャートである。

図４に示すように、ステップＳ１３１において、発話制御部１１３２は、現在の識別信頼度に応じて発話レベルを決定する。本実施形態では、例えば、識別信頼度が０．８以上の高信頼度、識別信頼度が０．５以上０．８未満の中信頼度、識別信頼度が０．５未満の低信頼度の３つのレベルに分類する。この閾値は例示に過ぎず、システム要求に応じて適宜決定すればよい。また、閾値は状況に応じて変化するものであってもよい。また、本実施形態ではレベルを３段階に分けているが、２段階あるいは４段階以上に分けても構わない。

識別信頼度が高い場合は、ステップＳ１５２に進み、発話制御部１１３２は、コミュニケーションの自然さを重視して発話内容を決定する。例えば、発話制御部１１３２は、検出人物の呼称を含まない内容の発話内容を決定する。人物が検出された場所が台所である場合には、発話制御部１１３２は、例えば「台所でいま何してるの？」を発話内容として決定する。

識別信頼度が中程度の場合は、ステップＳ１５３に進み、発話制御部１１３２は、不自然とはならない程度に内容で、検出人物が誰であるかを確かめるように発話内容を決定する。発話制御部１１３２は、例えば、第１識別部１１３１の識別結果の呼称を含めた内容
を発話内容とする。第１識別部１１３１の識別結果が「母」である場合には、発話制御部１１３２は、例えば「お母さん、台所で何してるの？」を発話内容として決定する。

識別信頼度が低い場合は、ステップＳ１５４に進み、発話制御部１１３２は、検出人物が誰であるかをより直接的に問いかける内容を発話内容とする。発話制御部１１３２は、例えば「台所にいるのは誰ですか？」を発話内容として決定する。

ステップＳ１５において決定された発話内容のテキストデータは、発話制御部１１３２から音声出力部１１４に渡される。ステップＳ１６において、音声出力部１１４は、発話テキストを音声合成により音声データに変換して、スピーカ３００から出力する。ステップＳ１７において、システム発話に対する応答を音声入力部１１５がマイク４００から取得する。

ステップＳ１８において、第２識別部１１３３が入力音声に基づく個人識別を行う。第２識別部１１３３は、音響特徴（音響解析）に基づく識別と、言語特徴（意味解析）に基づく識別を行う。音響特徴に基づく識別は応答音声が得られれば結果を得られるが、言語特徴に基づく識別は問いかけと応答の内容によっては誰であるか不明となる。ただし、言語特徴に基づく識別では「（私は）母です」といった意味を考慮できるため識別結果は信頼できると考えられる。

ステップＳ１９において、人物特定部１１３４は、第１識別部１１３１による画像に基づく識別結果（Ｓ１３）と、第２識別部１１３３による音声に基づく識別結果（Ｓ１８）を考慮して、検出人物を特定する。

発話内容が「台所で何しているの？」である場合、応答として「いま料理中」が得られることが想定される。この場合、第２識別部１１３３は、言語特徴に基づく識別は行えないが、音響特徴に基づいて識別結果が得られる。ここで、第２識別部１１３３の識別結果が第１識別部１１３１の識別結果と一致すれば、人物特定部１１３４は第１識別部１１３１の識別結果が正しいことを確認でき、これを最終的な特定結果とする。一方、これら２つの識別結果が異なった場合には、人物特定部１１３４は、いずれかの識別結果を採用してもよいし、検出人物が不明であるとしてもよい。この場合は、人物特定部１１３４は識別信頼度を低く設定して、次回の発話においてより直接的に検出人物が誰であるかを確認するようにしてもよい。

発話内容が「お母さん、台所で何しているの？」である場合、人物が実際に「母」である場合には、応答として「いま料理中」が得られることが想定され、「母」ではない場合には、「私はお母さんじゃないよ」や「私は姉だよ」といった応答が得られることが想定される。いずれの場合も、第２識別部１１３３は、音響特徴に基づく識別と、言語特徴に基づく識別の両方が行える。言語特徴に基づく識別では、「母」という呼称を用いた問いかけに対して、応答文にそれを否定する語句が含まれているかいないかに基づいて、相手が「母」であるか否かが識別できる。応答文に自分が誰であるかを示す語句が含まれていれば、それに基づいて検出人物を識別できる。この際、音響特徴に基づく識別結果と言語特徴に基づく識別結果に相違が生じることも考えられるが、言語特徴に基づく識別結果を優先してもよいし、それぞれの識別信頼度を考慮して判断してもよい。

発話内容が「台所にいるのは誰ですか？」である場合、応答は「私は○○です」が得られることが想定される。したがって、第２識別部１１３３は、言語特徴に基づく識別を行って検出人物を識別すればよい。検出人物が誰であるかを直接的に問い合わせる発話内容を採用しているため、応答の意味内容から検出人物をより確実に識別できる。この際にも上記と同様に、第２識別部１１３３は音響特徴に基づく識別を行ってもよい。

ステップＳ２０では、特徴収集を継続するか否かが判断される。引き続き特徴収集を行う場合は、ステップＳ１０に戻って次のフレームを処理する。

特徴収集を終了する場合には、ステップＳ２１において、特徴登録部１３０が、取得された人体・生体特徴を検出された人物の識別結果と関連付けて記憶部（不図示）に登録する。なお、図３のフローチャートでは、特徴収集を終了するタイミングで特徴登録を行っているが、検出人物の追跡が完了したタイミングで特徴登録を行ってもよい。特徴登録部１３０は、追跡の開始から終了までに得られた特徴の全てを、一人の人物と関連付けて登録する。ただし、特徴登録部１３０は、一つの追跡期間を複数に分割して、それぞれの期間について、得られた特徴を当該期間内の識別結果の人物と関連付けて登録してもよい。この処理は、人物が途中で入れ替わったのを正しく認識できず人体検出部１１２は同一人物として検出していたが、人物識別部１１３によって異なる人物として識別された場合に行われうる。

［本実施形態の有利な効果］
本実施形態によれば、画像に基づく個人識別と音声に基づく個人識別を行い、両方を総合して最終的な識別結果を得られるため、精度のよい識別が行える。特に、画像だけからは精度のよい識別が行えない場合に、システム発話を行ってユーザからの音声応答を取得して音声に基づく識別を行うことで、精度のよい識別を可能としている。さらに、画像に基づく識別結果が信頼できない場合のみに発話を行ったり、画像に基づく識別信頼度に応じて発話内容を決定したりすることで、ユーザが煩わしさを感じることを最小限にできる。

（第２の実施形態）
第１の実施形態では、図４に示すように識別信頼度に応じて発話内容を決定している。しかしながら、ユーザから音声による応答が得られれば、少なくとも音響特徴に基づく識別ができることと、１回の対話で複数回の発話が可能であることを考慮して、本実施形態では、発話内容の決定処理を第１の実施形態から変更する。以下、第１の実施形態との相違点について主に説明する。

図６は、本実施形態における発話内容決定処理の流れを示すフローチャートである。本実施形態では複数回の発話を行うことも想定しており、したがって、図６に示す処理は図３におけるステップＳ１５の処理そのものではないことに留意されたい。

発話制御部１１３２は、発話を行うタイミングになったら、ステップＳ３１に示すように、自然なコミュニケーションとなるような発話内容を決定する。したがって、発話内容には検出人物の呼称を含める必要はなく、「台所でいま何してるの？」といった内容が発話内容として決定される。

ステップＳ３２では、ステップＳ３１において決定された内容をスピーカ３００から出力して、その結果としてマイク４００が取得するユーザの応答音声に対して、第２識別部１１３３が識別を行う。ここでは、少なくとも音響特徴に基づく識別が行われればよい。言語特徴に基づく識別も可能であれば当然実施してもよい。

ステップＳ３３では、第１識別部１１３１による識別結果と、第２識別部１１３３による識別結果が一致するか判断する。一致する場合には、検出人物が特定できるので、それ以上の発話を行う必要はない。一方、２つの識別結果が相違する場合には、人物をより確実に識別するために、ステップＳ３４においてさらなる発話内容を決定する。発話制御部１１３２は、２回目の発話内容を、１回目の発話と比較して、より直接的に検出人物が誰
であるかを確認する内容として決定する。いまの場合は、例えば、「台所にいるのはお母さんじゃないの？」という発話内容を採用できる。あるいは、第１の実施形態の信頼度が中レベルまたは低レベルの時と同様に、検出人物の呼称を含む発話内容（例：「お母さん、そこで何してるの？」）や、誰であるかを直接問い合わせる発話内容（例：「台所にいるのは誰ですか？」）を２回目の発話内容として決定してもよい。

本実施形態によれば、第１の実施形態と同様の効果が得られる上に、音声に基づく識別を行う際により自然な対話が行える。

上記の説明では、１回の対話で発話を２回行うように説明しているが、１回の対話で発話を３回以上行ってもよい。その場合、最初の何回かは自然な発話を行って、音声に基づいて人物を識別できないときに、検出人物が誰であるかを確認する内容の発話を行うようにしてもよい。

また、本実施形態の処理は、第１の実施形態において、画像に基づく識別信頼度が高く自然な内容の発話を行った際に、音声に基づく識別結果が顔図に基づく識別結果と相違した場合にも適用可能である。

（その他）
上述した各実施形態は、本発明の例示に過ぎない。本発明は上記の具体的な形態に限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

上記の説明において、特徴収集装置１００（家庭用ロボット）がユーザに話しかけるタイミングやその内容について述べたが、これは音声に基づく応答をユーザから得るための発話についての処理である。家庭用ロボットをコミュニケーションロボットとして実装する場合に、ユーザとコミュニケーションを取るための発話については上記の処理を適用する必要はない。また、上記の説明では、自然なコミュニケーションの例として、相手の呼称を含まない発話を挙げているが、呼称を含む発話が自然な場面や相手であれば、呼称を含む発話内容は自然な発話となる。

上記の実施形態では、特徴収集装置１００が家庭用ロボットに搭載されている例を説明したが、監視カメラなどに搭載されてもよい。また、上記の個人識別装置１１０は、学習用の特徴を収集する特徴収集装置１００に搭載される必要はなく、それ単体で実施して個人を識別するために用いてもよい。

（付記）
音声を出力する音声出力手段（１４，１１４）と、
出力音声に応答する音声を取得する音声入力手段（１５，１１５）と、
画像入力手段（１１，１１１）と、
前記画像入力手段に入力される動画像から、人物を検出する検出手段（１２，１１２）と、
前記検出手段によって検出された人物を識別する人物識別手段（１３，１１３）と、
を備え、
前記人物識別手段は、
前記動画像に基づいて前記人物を識別する第１識別手段（１３１，１１３１）と、
出力音声への応答として得られる入力音声に基づいて前記人物を識別する第２識別手段（１３３，１１３３）と、を有し、
前記第１識別手段による識別結果である第１識別結果と前記第２識別手段による識別結果である第２識別結果に基づいて、前記人物を識別する、
ことを特徴とする、個人識別装置。

１０：個人識別装置１１：画像入力部１２：人体検出部
１３：人物識別部１３１：第１識別部１３３：第２識別部
１４：音声出力部１５：音声入力部
１００：特徴収集装置
１１０：個人識別装置１１１：画像入力部１１２：人体検出部
１１３：人物識別部１１３１：第１識別部１１３２：発話制御部
１１３３：第２識別部１１３４：人体特定部
１１４：音声出力部１１５：音声入力部
１２０：特徴取得部１３０：特徴登録部
２００：カメラ３００：スピーカ４００：マイク

Claims

音声を出力する音声出力手段と、
出力音声に応答する音声を取得する音声入力手段と、
画像入力手段と、
前記画像入力手段に入力される動画像から、人物を検出する検出手段と、
前記検出手段によって検出された人物を識別する人物識別手段と、
を備え、
前記人物識別手段は、
前記動画像に基づいて前記人物を識別する第１識別手段と、
出力音声への応答として得られる入力音声に基づいて前記人物を識別する第２識別手段と、を有し、
前記第１識別手段による識別結果である第１識別結果と前記第２識別手段による識別結果である第２識別結果に基づいて、前記人物を識別する、
ことを特徴とする、個人識別装置。
前記人物識別手段は、前記第１識別手段による信頼度が第１閾値未満の場合に、前記音声出力手段からの音声出力と、前記第２識別手段による識別とを行って、前記第１識別結果と前記第２識別結果とに基づいて前記人物を識別する、
請求項１に記載の個人識別装置。
前記人物識別手段は、前記第１識別手段による信頼度が前記第１閾値以上の場合は、前記第１識別結果を、前記人物の識別結果とする、
請求項２に記載の個人識別装置。
前記音声出力手段からの出力音声の出力は所定のタイミングで行われ、
前記所定のタイミングは、
前記人物の識別信頼度が閾値未満となったタイミング、
前記人物が検出されたタイミングから第１の所定時間が経過したタイミング、
前記人物の時間変化が略無い状態が第２の所定時間継続したタイミング、
前記人物が撮像範囲外へ出るタイミング、
前記個人識別装置と前記人物の間の距離が所定距離以下になったタイミングで、
の少なくとも何れかである、
請求項１から３のいずれか１項に記載の個人識別装置。
前記人物識別手段は、前記第１識別手段による信頼度に応じて、前記出力音声の内容を決定する、
請求項１から４のいずれか１項に記載の個人識別装置。
前記人物識別手段は、前記信頼度が第２閾値未満の場合は、前記第１識別結果の人物の呼称を含む内容、または、前記人物が誰であるかを問い合わせる内容を、前記出力音声の内容として決定する、
請求項５に記載の個人識別装置。
前記人物識別手段は、前記第１識別結果と前記第２識別結果が一致しない場合には、新たに出力音声を出力して当該新たな出力音声に応答する入力音声に基づいて前記第２識別手段による識別を行い、
新たな出力音声の内容は、前回の出力音声の内容と比較してより直接的に前記人物を確認する内容である、
請求項１から６のいずれか１項に記載の個人識別装置。
前記第２識別手段は、前記入力音声を用いた波形解析と言語解析の少なくとも一方を行うことにより、前記人物を識別する、
請求項１から７のいずれか１項に記載の個人識別装置。
前記第１識別手段は、前記動画像から得られる、顔特徴、人体特徴、および行動特徴の少なくともいずれかに基づいて、前記人物を識別する、
請求項１から８のいずれか１項に記載の個人識別装置。
請求項１から９のいずれか１項に記載の個人識別装置と、
前記画像入力手段に入力される動画像から、前記検出された人物の人体または行動に関する特徴の少なくともいずれかを取得する特徴取得手段と、
前記特徴取得手段によって取得された特徴を、前記人物識別手段によって識別された人物とを関連付けて登録する特徴登録手段と、
を備える、特徴収集装置。
コンピュータによって実行される個人識別方法であって、
動画像から人物を検出する検出ステップと、
前記動画像に基づいて前記人物を識別する第１識別ステップと、
音声を出力する音声出力ステップと、
出力音声に応答する音声を取得する音声入力ステップと、
出力音声への応答として得られる入力音声に基づいて前記人物を識別する第２識別ステップと、
前記第１識別ステップにおける識別結果である第１識別結果と前記第２識別ステップにおける識別結果である第２識別結果に基づいて、前記人物を識別する、第３識別ステップと、
を含む、個人識別方法。
前記第１識別ステップにおける信頼度が第１閾値未満の場合に、前記音声出力ステップ、前記音声入力ステップ、前記第２識別ステップを行う、
請求項１１に記載の個人識別方法。
前記第１識別ステップにおける信頼度が前記第１閾値以上の場合は、前記第３識別ステップでは、前記第１識別結果を前記人物の識別結果とする、
請求項１２に記載の個人識別方法。
前記音声出力ステップでは、前記第１識別ステップにおける信頼度に応じ内容の音声を出力する、
請求項１１から１３のいずれか１項に記載の個人識別方法。
請求項１１から１４のいずれか１項に記載の方法の各ステップを実行するためのプログラム。