JP2019154575A - 個人識別装置および特徴収集装置 - Google Patents

個人識別装置および特徴収集装置 Download PDF

Info

Publication number
JP2019154575A
JP2019154575A JP2018042204A JP2018042204A JP2019154575A JP 2019154575 A JP2019154575 A JP 2019154575A JP 2018042204 A JP2018042204 A JP 2018042204A JP 2018042204 A JP2018042204 A JP 2018042204A JP 2019154575 A JP2019154575 A JP 2019154575A
Authority
JP
Japan
Prior art keywords
identification
person
voice
identifying
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018042204A
Other languages
English (en)
Other versions
JP6819633B2 (ja
Inventor
純平 松永
Jumpei Matsunaga
純平 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2018042204A priority Critical patent/JP6819633B2/ja
Priority to PCT/JP2019/001488 priority patent/WO2019171780A1/ja
Publication of JP2019154575A publication Critical patent/JP2019154575A/ja
Application granted granted Critical
Publication of JP6819633B2 publication Critical patent/JP6819633B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/117Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/117Identification of persons
    • A61B5/1171Identification of persons based on the shapes or appearances of their bodies or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

【課題】画像内の人物を精度良く識別可能な個人識別技術を提供する。【解決手段】個人識別装置は、音声を出力する音声出力手段と、出力音声に応答する音声を取得する音声入力手段と、画像入力手段と、前記画像入力手段に入力される動画像から、人物を検出する検出手段と、前記検出手段によって検出された人物を識別する人物識別手段と、を備え、前記人物識別手段は、前記動画像に基づいて前記人物を識別する第1識別手段と、出力音声への応答として得られる入力音声に基づいて前記人物を識別する第2識別手段と、を有し、前記第1識別手段による識別結果である第1識別結果と前記第2識別手段による識別結果である第2識別結果に基づいて、前記人物を識別する、ことを特徴とする。【選択図】図1

Description

本発明は、撮像された画像に写っている人物を識別する個人識別技術に関する。
個人識別技術として顔認識を用いる技術が存在するが、対象者がカメラと正対しない場合には識別できない。また、家庭内に限れば、遺伝的に似た顔であるため判別が困難であるという課題もある。そこで、人体特徴(姿勢、シルエット)や行動特徴(動線パターン、滞在場所)を用いた識別を行うことで、顔が撮影できない場面でも識別可能とすることが考えられる。
人体特徴や行動特徴を用いた識別を行うためには、対象者ごとの人体特徴や行動特徴を収集して学習を行う必要がある。また、時間や環境の変化に応じて行動特徴が変化する可能性があるので、これらの特徴を継続的に収集して、識別に用いる登録情報を更新することで変化に対応することが望まれる。
人体特徴や行動特徴を収集するためには、検出された人物が誰であるかを識別する必要があるが、画像に基づく識別のみでは正確な個人識別を行えない場面がある。上述のように顔が撮影できなければ顔認識は利用できないし、人体特徴や行動特徴の学習が不十分であればこれらの特徴に基づく識別も正確ではない。
特許文献1は、人物に対して呼び掛け音声を出力して、呼び掛け音声出力前後での顔の変化に基づいて登録すべき最適な顔を選択することを開示する。例えば、呼び掛けに対して振り向いた顔を選択することが開示されている。しかしながら、特許文献1は、あくまでも学習用の顔画像の取得方法を開示するだけであり、識別時に顔が写った画像が得られなければ正確な個人識別が行えないという問題に対処できるものではない。
特開2013−182325号公報
本発明は、上記実情に鑑みなされたものであって、画像内の人物を精度良く識別可能な個人識別技術を提供することを目的とする。
上記目的を達成するために、本発明では、画像に基づく識別と、出力音声への応答音声に基づく識別とに基づいて人物を識別するという手法を採用する。
具体的には、本発明の第一態様は、音声出力手段、音声入力手段、画像入力手段、検出手段、および人物識別手段を備える。音声出力手段は音声を出力する。音声入力手段は、出力音声に応答する音声を取得する。画像入力手段は動画像を取得する。検出手段は、入力される動画像から人体を検出する。人体検出手法は任意の手法を採用可能である。人物識別手段は、画像に基づく識別を行う第1識別手段と、音声に基づく識別を行う第2識別手段を有する。第1識別手段は、例えば、顔特徴、人体特徴(姿勢やシルエット)、行動特徴(動線パターンや滞在場所)を利用した識別手法を採用できるが、画像から得られる特徴に基づく識別であればその他の識別手法を採用してもよい。第2識別手段は、入力音
声の波形解析により得られる音響特徴量や、自然言語解析により得られる単語や文章の特徴量に基づく識別手段を採用できるが、入力音声に基づく識別であればその他の手法を採用してもよい。人物識別手段は、第1識別手段による識別結果(以下、第1識別結果)と、第2識別手段による識別結果(以下、第2識別結果)に基づいて、検出された人物を識別する。
このような構成によれば、画像のみに基づいて人物の識別が精度良く行えない場合でも、音声に基づく識別結果と合わせて判断することで、人物識別を精度良く行えるようになる。
本態様において、人物識別手段は、第1識別手段が信頼度高く識別できない場合に第2識別手段も考慮した識別を行うように構成してもよい。すなわち、前記人物識別手段は、前記第1識別手段による信頼度が第1閾値未満の場合に、前記第2識別手段による識別を行って、前記第1識別結果と前記第2識別結果とに基づいて前記人物を識別するように構成してもよい。人物識別手段は、第1識別結果と第2識別結果とに基づく識別では、例えば、第1識別結果と第2識別結果が一致した場合に識別結果を確定し、2つの識別結果が異なる場合には識別結果を未確定としてもよい。
また本態様において、前記第1識別手段による信頼度が前記第1閾値以上の場合は、前記第1識別結果を、前記人物の識別結果としてもよい。
このような構成によれば、画像のみから信頼度高く識別が行える場合に、処理量を削減できるとともに、音声での問いかけも省略されてユーザに対応を強いる必要がなくなる。
本態様において、前記音声出力手段からの音声出力は所定のタイミングで行わればよい。この所定のタイミングは、人物の識別信頼度が閾値未満となったタイミング、人物が検出されたタイミングから第1の所定時間が経過したタイミング、人物の時間変化が略無い状態が第2の所定時間継続したタイミング、人物が撮像範囲外へ出るタイミング、情報処理装置と前記人物の間の距離が所定距離以下となったタイミング、の少なくとも何れかとすることができる。人物の識別信頼度は、第1識別手段による識別の信頼度であってもよいし、第1識別手段と第2識別手段の識別結果を統合した信頼度であってもよい。第1の所定時間は、固定の時間であってもよいし、画像から特徴を取得する場合には特徴の取得回数や特徴のデータ量に応じて決定される時間であってもよい。
本態様において、前記人物識別手段は、前記第1識別手段による信頼度に応じて、前記出力音声の内容を決定することが好適である。例えば、前記人物識別手段は、前記信頼度が第2閾値未満の場合は、前記第1識別結果の人物の呼称を含む内容、または、前記人物が誰であるかを問い合わせる内容を、前記出力音声の内容として決定することができる。なお、信頼度を3段階以上にレベル分けして、それぞれのレベルに応じて出力音声の内容を決定してもよい。例えば、信頼度を3段階に分ける場合には、高レベルであれば人物の呼称を含まない自然な内容とし、中レベルであれば人物の呼称を含む内容とし、低レベルであれば直接的に人物が誰であるかを問い合わせる内容としてもよい。一例として、高レベルであれば「そこで何してるの?」、中レベルであれば「お母さん、そこで何してるの?」、低レベルであれば「そこにいるのは誰?」といった内容を採用することができる。
また、本態様において、前記人物識別手段は、前記第1識別結果と前記第2識別結果が一致しない場合には、新たに音声を出力して当該新たな出力音声に応答する入力音声に基づいて前記第2識別手段による識別を行ってもよい。この際は、新たな出力音声の内容は、前回の出力音声の内容と比較してより直接的に前記人物を確認する内容とするとよい。第1識別結果と第2識別結果が一致しない場合には、人物が誰であるか確定できない状態
であるので、より直接的に人物が誰であるかを確認するような内容の音声出力を行って、その応答から人物が誰であるか識別するとよい。
本発明の第二態様は、上記の個人識別装置と、前記画像入力手段に入力される動画像から、前記検出された人物の人体または行動に関する特徴の少なくともいずれかを取得する特徴取得手段と、前記特徴取得手段によって取得された特徴を、前記人物識別手段によって識別された人物を関連付けて登録する特徴登録手段と、備える特徴収集装置である。このようにして収集された特徴は、識別器の学習に用いることができる。
なお、本発明は、上記構成ないし機能の少なくとも一部を有する情報処理システムとして捉えることができる。また、本発明は、上記処理の少なくとも一部を含む、情報処理方法又は情報処理システムの制御方法や、これらの方法をコンピュータに実行させるためのプログラム、又は、そのようなプログラムを非一時的に記録したコンピュータ読取可能な記録媒体として捉えることもできる。上記構成及び処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。
本発明によれば、画像内の人物を精度良く識別できる。
図1は、本発明が適用された個人識別装置の構成例を示すブロック図である。 図2は、第1の実施形態に係る特徴収集装置の構成例を示すブロック図である。 図3は、第1の実施形態における特徴収集処理の例を示すフローチャートである。 図4は、第1の実施形態における発話内容決定処理の例を示すフローチャートである。 図5Aおよび図5Bは、入力画像から検出される人体の骨格情報と、骨格に基づく姿勢検出を説明する図である。 図6は、第2の実施形態における発話内容決定処理の例を示すフローチャートである。
<適用例>
本発明の適用例について説明する。個人の人体特徴や行動特徴を収集する際には、収集している対象の人物が誰であるのかを特定する必要がある。画像に基づく個人識別手法として顔認識があるが、必ずしも顔が撮影できるとは限らないので精度のよい識別が行えない場合がある。また、人体特徴や行動特徴に基づく識別も可能であるが、人体特徴や行動特徴による識別のための特徴収集において、人体特徴や行動特徴に基づく識別に全面的に頼ることは現実的ではない。
図1は、本発明が適用された個人識別装置10の構成例を示すブロック図である。個人識別装置110は、入力される動画像や音声から動画像中の人物を識別する。個人識別装置10は、画像入力部11、人体検出部12、人物識別部13、音声出力部14、および音声入力部15を有する。
画像入力部11は、撮像された動画像(動画像データ)を取得する。例えば、画像入力部11は、画像データが入力される入力端子である。画像入力部11は、本発明の画像取得手段の一例である。
人体検出部12は、動画像データの処理対象フレーム画像から人の体らしい領域(人体領域)を検出する。人体検出は、既存の任意のアルゴリズムによって学習された検出器を用いて行えばよい。人体検出部12は、本発明の検出手段の一例である。
音声出力部14は、人物識別部13から得られる発話内容を音声データにして出力する。音声出力部14は本発明の音声出力手段の一例である。
音声入力部15は、音声データを取得する。音声入力部15は、本発明の音声入力手段の一例である。
人物識別部13は、画像入力部11が取得する動画像や音声入力部15が取得する音声に基づいて、動画像中の人物を特定する。人物識別部13は、音声による識別に用いる応答音声を引き出すための発話の内容およびその発話のタイミングも決定する。人物識別部13は、本発明の人物識別手段の一例である。
第1識別部131は、画像入力部11が取得した動画像から人体検出部12によって検出された人物の識別を行う。第1識別部131は、入力画像に基づいて人物の識別を行う。具体的には、画像中の顔特徴、人体特徴、および行動特徴の少なくともいずれかに基づいて検出人物を識別する。第1識別部131は、本発明の第1識別手段の一例である。
第2識別部133は、音声入力部15が取得する音声に基づいて、人体検出部12によって検出された人物の識別を行う。第2識別部133は、音声の波形解析を行って得られる音響特徴量に基づいて識別を行ってもよいし、自然言語解析を行って得られる言語特徴量に基づいて識別を行ってもよい。音響特徴量に基づく識別は、あらかじめ登録された音響特徴量との一致度合いに基づいて行える。言語特徴量に基づく識別は、出力音声の内容と応答音声の内容の意味に基づいて行える。第2識別部133は、本発明の第2識別手段の一例である。
人物識別部13は、音声出力部14から発話を行うタイミングおよび発話文の内容を決定する。本適用例において、音声出力部14から発話(音声の出力)を行うのは、検出人物から音声による応答を得て、音声に基づく検出を行うためである。したがって、人物識別部13は、音声に基づく識別を行う必要があると想定されるタイミングを発話タイミングとして決定する。人物識別部13は、典型的には、第1識別部131による識別の信頼度が低い(閾値TH1未満)タイミングを発話タイミングとして決定してもよい。また、人物識別部13は、定期的に発話を行ったり、人物の動きがない場合に発話を行ったり、第1識別部131と第2識別部133の識別結果が相違する場合に発話を行ったりするように発話タイミングを決定してもよい。発話内容は、人物識別の信頼度に応じて決定してもよい。例えば、信頼度が高い場合には自然なコミュニケーションの発話を行い、信頼度が低い場合には、推定される人物の呼称を含む発話や、直接的に検出人物が誰であるかを問い合わせる発話文を行うことが考えられる。ここで、人物の呼称を含む発話および人物が誰であるかを問い合わせる発話は、人物が誰であるかを確認する発話の一例である。
なお、発話および応答を複数回行って、複数回の応答音声に対して第2識別部133による識別を行ってもよい。この場合、例えば、1回目は自然なコミュニケーションの発話を行い、第2識別部133が応答音声の音響特徴に基づいて識別を行う。ここで、第1識別部131と第2識別部133の識別結果が一致するか、第2識別部133の識別結果の信頼度が高いときには、人物の識別が正しく行えていると考えられる。したがって、2回目の発話はしなくてもよいし、引き続き自然なコミュニケーションを続けてもよい。一方、1回目の応答に基づく第2識別部133の識別結果が第1識別部131の識別結果と相
違するか、識別信頼度が低い場合には、2回目の発話内容を、1回目の発話と比較してより直接的に人物を確認する内容とするとよい。2回目は応答の内容(自然言語解析による意味解釈)によって人物を識別できるので、信頼度の高い識別結果が得られることが期待される。
このように、本適用例に係る個人識別装置10によれば、画像と音声の2つの識別手法に基づいて画像中の人物を識別することで、画像だけからは信頼度高く識別が行えない場合でも、精度良く識別が行える。また、個人識別のための音声による問いかけを最小限にできるので、ユーザに煩わしさを感じさせることを抑制できる。また、上述のように発話内容を決定することで、ユーザに問いかけを行う際にも自然なコミュニケーションが可能であり、このような点からもユーザに煩わしさを感じさせることを抑制できる。
(第1の実施形態)
本発明の第1の実施形態は、人物を撮影して得られる人体特徴や行動特徴を収集する特徴収集装置であり、家庭用のコミュニケーションロボット1(以下、単にロボット1とも称する)に搭載される。特徴収集装置は、個人識別の学習用にこれらの特徴を収集する。
[構成]
図2は、ロボット1の構成を示す図である。ロボット1は、特徴収集装置100、カメラ200、スピーカ300、およびマイク400を備える。なお、ロボット1は、CPUなどのプロセッサ(演算装置)と、主記憶装置、補助記憶装置、通信装置などを有しており、プロセッサがプログラムを実行することで特徴収集装置100の各処理が実行される。
カメラ200は、可視光または非可視光(例えば赤外光)による連続的な撮影を行い、撮影した画像データを特徴収集装置100に入力する。カメラ200の撮像範囲は、固定であっても可変であってもよい。カメラ200の撮像範囲の変更は、カメラ200の向きを変えることによって行われてもよいし、ロボット1が自律的に移動することによって行われてもよい。
スピーカ300は、特徴収集装置100から入力される音声データを音響波に変換して出力する。マイク400は、ユーザが発話する音声などの音響波を音声データに変換して特徴収集装置100に出力する。マイク400は、音源分離可能なようにマイクアレイとして構成されてもよい。
特徴収集装置100は、カメラ200が撮像した画像から、当該画像に写っている人物の姿勢、仕草、シルエット、動線、及び、滞在場所の少なくともいずれかを当該人物の特徴として取得する。また、特徴収集装置100は、画像内の人物の識別を行い、個人と関連付けて特徴情報を記憶する。このような動作を行うために、特徴収集装置100は、個人識別装置110と、特徴取得部120と、特徴登録部130とを有する。
個人識別装置110は、カメラ200から入力される動画像やマイク400から入力される音声から、動画像中の人物を識別する。個人識別装置110は、画像入力部111、人体検出部112、人物識別部113、音声出力部114、音声入力部115を有する。人物識別部113は、第1識別部1131、発話制御部1132、第2識別部1133、人物特定部1134を有する。
画像入力部111は、カメラ200から画像データを受け取るインタフェースである。なお本実施形態では、画像入力部111は、カメラ200から直接画像データを受け取っているが、通信装置を介して画像データを受け取ったり、記録媒体を経由して画像データ
を受け取ったりしてもよい。
人体検出部112は、入力画像から人体領域を検出する。人体検出のアルゴリズムは既存の任意のものが採用できる。また、人体検出部112は、一度検出した人体については追跡処理によって検出するようにしてもよい。追跡の際に、人体検出部112は、一度検出した人物の服装や装飾品の種類や形状や色などを記憶しておき、所定時間(例えば1時間から数時間程度)の間は、これらの特徴を用いて検出してもよい。また、服装や装飾品の種類や形状や色を、第1識別部1131による識別に利用してもよい。短時間の間で服装が変更される可能性は低いため、これらの特徴は追跡に有効活用できる。
人物識別部113は、人体検出部112が検出した人物(検出人物)が誰であるかを識別(特定)する。
第1識別部1131は、画像入力部11が取得した画像に基づいて、検出人物の識別を行う。具体的には、画像中の顔特徴、人体特徴、および行動特徴の少なくともいずれかに基づいて検出人物を識別する。これらの識別を行うために、識別対象の各人物の顔特徴、人体特徴、および行動特徴をあらかじめ登録しておく。上述のように、人体検出部112が、検出人物の服装や装飾品の種類や形状や色を取得している場合には、これらの特徴も用いて識別を行ってもよい。また、第1識別部1131は、識別結果の信頼度(識別結果がどの程度確からしいかを表す指標)も算出する。
発話制御部1132は、音声出力部114から発話を行うタイミングおよび発話文の内容を決定する。音声出力部114から発話(音声の出力)を行うのは、検出人物から音声による応答を得て、音声に基づく検出を行うためである。したがって、人物識別部113は、音声に基づく識別を行う必要があると想定されるタイミングを発話タイミングとして決定する。また、発話内容は、ユーザが煩わしく感じない内容であり、かつ、応答音声に基づく識別が行えるような内容とすべきである。具体的な、発話タイミングおよび発話内容の決定方法は後述する。
第2識別部1133は、音声入力部15が取得する音声に基づいて、人体検出部12によって検出された人物の識別を行う。第2識別部1133は、音声の波形解析を行って得られる音響特徴量に基づいて識別を行ってもよいし、自然言語解析を行って得られる言語特徴量に基づいて識別を行ってもよい。音響特徴量に基づく識別は、あらかじめ登録された音響特徴量との一致度合いに基づいて行える。言語特徴量に基づく識別は、出力音声の内容と応答音声の内容の意味に基づいて行える。第2識別部1133は、識別結果の信頼度も算出する。
人物特定部1134は、第1識別部1131の識別結果(第1識別結果)と第2識別部1133の識別結果(第2識別結果)に基づいて、検出人物が誰であるかを最終的に特定する。例えば、人物特定部1134は、第1識別結果と第2識別結果が一致する場合に、その識別結果を最終的な結果としてもよいし、第1識別結果または第2識別結果いずれかを採用してもよい。人物特定部1134は、第1識別部1131の識別信頼度や第2識別部1133の識別信頼度を考慮して、検出人物が誰であるかを特定してもよい。例えば、第1識別部1131の識別信頼度が十分に高い場合には、第2識別部1133による識別を行わずに、第1識別部1131の識別結果を最終的な結果としてもよい。人物特定部1134は、識別結果の信頼度も算出する。この信頼度は、例えば、発話制御部1132による発話タイミングや発話内容の決定に用いられる。
音声出力部114は、発話制御部1132から発話音声のテキストデータを取得し、それを音声合成処理により音声データに変換して、スピーカ300から出力する。
音声入力部115は、マイク400から音声信号を受取、音声データに変換して第2識別部1133に出力する。音声入力部115は、雑音除去や話者分離などの前処理を施してもよい。
特徴取得部120は、人体検出部112によって検出された人物の特徴を、入力画像から取得する。特徴取得部120が取得する特徴は、例えば、人体に関する特徴(例えば、人体の部位、骨格、姿勢、シルエットに関する特徴)と、行動に関する特徴(仕草、動線、滞在場所に関する特徴)の少なくともいずれかを含む。以下では、特徴取得部120が取得する特徴を、人体・行動特徴とも称する。これらの特徴が人体検出部112や第1識別部1131において既に算出されている場合には、特徴取得部120は算出済みの特徴を取得すればよい。逆に、特徴取得部120が算出した特徴を、第1識別部1131が使用してもよい。
図5A、図5Bを参照して人体・行動特徴の取得について説明する。特徴取得部120は、入力画像50から、検出人物51の骨格を示す骨格情報を取得する。骨格情報は、例えば、OpenPoseなどを使って取得される。骨格情報は、人体を示す特徴情報でもあるし、人体の部位(頭、首、肩、肘、手、腰、膝、足首、目、耳、指先、等)を示す特徴情報でもある。図5では、画像50から、検出人物51の骨格(骨格情報)52が検出されている。
図5Bに示すように、骨格の形状は姿勢に依存する。そのため、特徴取得部120は、人体の部位の位置関係(骨格情報)から人物の姿勢情報を取得できる。姿勢情報は、人体の各部位の相対的な位置関係を列挙した情報であってもよいし、人体の部位の位置関係を分類した結果であってもよい。姿勢の分類として、例えば、直立、猫背、O脚、X脚などが挙げられる。また、特徴取得部120は、検出人物のシルエット情報を取得してもよく、シルエット情報から姿勢を求めてもよい。
上述の骨格情報・姿勢情報・シルエット情報はいずれも本発明における人体特徴に相当する。
また、特徴取得部120は、各フレームの姿勢情報の変化から動作情報(仕草)を検出できる。仕草の検出結果として、例えば、歩行、屈伸、寝転び、腕組み、等を示す情報が得られる。腕組みの場合と腕組みでない場合との間で、上腕と前腕の間の位置関係などは異なる。このように、各部位の位置関係は仕草に依存する。そのため、骨格情報に基づいて、各部位の位置関係から仕草を検出できる。歩行や屈伸などの動きを伴う仕草は、互いに異なる時間に撮像された複数の画像にそれぞれ対応する複数の骨格情報を用いて検出されてもよい。歩行については、歩幅と肩幅の比率を示す情報が得られてもよい。
また、特徴取得部120は、検出人物の滞在場所や動線(移動経路)を特徴として取得してもよい。滞在場所に関する特徴は、過去数分間などの所定期間における人物位置の時間変化に基づいて、当該所定期間の長さに対する滞在時間の比率(滞在率)を、滞在判定領域ごとに算出すれば得られる。滞在場所の検出結果は、各滞在判定領域の滞在率を示す滞在マップ(ヒートマップ)の形式で得られる。動線に関する特徴は、滞在位置を時系列で示した情報であり、滞在マップと同様の手法により得られる。
上述した、動作、滞在場所、および動線に関する情報は、いずれも本発明における行動特徴に相当する。
特徴登録部130は、特徴取得部120によって取得された人体・行動特徴を、個人識
別装置110(人物識別部113)によって特定された人物と関連付けて照合用データベースなどの記憶部に登録する。特徴登録部130が登録を行うタイミングは任意であってよいが、例えば、人物識別部113による識別が信頼度高く行えたタイミングや、人物の追跡が完了したタイミングであってもよい。
[処理]
図3は、特徴収集装置100が行う特徴収集処理の全体的流れを示すフローチャートである。以下、図3を参照しながら本実施形態における特徴収集処理について説明する。なお、このフローチャートは本実施形態における特徴収集処理を概念的に説明するものであり、実施形態においてこのフローチャートの通りの処理が実装される必要はないことに留意されたい。
ステップS10において、人体検出部112が、入力画像から人体の検出を行う。人体が検出されなかった場合(S11−NO)には、ステップS10に戻って次の処理対象フレーム画像から人体検出を行う。一方、人体が検出された場合(S11−YES)には、処理はステップS12に進む。
ステップS12において、特徴取得部120が検出人物の人体・行動特徴を取得する。
ステップS13において、第1識別部1131が人体・行動特徴に基づく個人識別を行う。なお、ステップS12において顔特徴も取得して、ステップS13において第1識別部1131が顔特徴に基づく個人識別を行ってもよい。
ここで、画像に基づく識別の信頼度について簡単に説明する。顔特徴に基づく識別は比較的精度良く(信頼度高く)行えることが期待できるが、ユーザがロボット1と正対しているときしか行えない。一方、人体特徴や行動特徴に基づく識別は、ユーザの身体が写っていれば行えるが、必ずしも精度がよいとは限らない。特に、人体・行動特徴の初期学習のための特徴を収集している段階では、信頼度の高い識別はできないことが想定される。
第1識別部1131は、動画像に含まれる人物の識別を継続して行い、各フレームにおける識別の信頼度を総合して現時点での識別信頼度を算出する。この際、第1識別部1131は、最近に行った識別の信頼度に対して大きな重みを付けた加重平均を、現時点での識別信頼度としてもよい。
ステップS14において、発話制御部1132は、発話を行うタイミングであるか否かを判断する。発話を行うタイミングはあらかじめ条件として設定しておけばよく、ステップS14では、人物識別部13は、設定した条件に該当しているか否か判断すればよい。
発話を行う条件として次のようなものが採用できる。
(1)時間
例えば、人体検出から所定時間(例えば10分)経過後に1回目の発話を行い、それ以降所定の間隔で発話を行う。
(2)データ量
例えば、あらかじめ定められたデータ量(例えば100回分のデータ)の特徴が取得されたら発話を行う。
(3)行動停止
検出人物の行動に一定時間変化がない場合。例えば、ソファーに座ってテレビを見始めた後に一定時間経過した場合が相当する。
(4)撮像範囲外への移動
検出人物が撮影範囲外に移動することが予測される場合。例えば、検出人物が現在の部
屋から他の部屋へ移動・外出した場合が相当する。
(5)発話のしやすい状況
ロボットが検出人物と対話を行うのに適した状況に達した場合。例えば、検出人物とロボットが向かい合っており(ロボットが検出人物の顔を検出でき)、かつ、検出人物とロボットの間の距離が所定距離(例えば3メートル)以内のとき。
(6)識別信頼度が低い場合
人物識別部113は、第1識別部1131と第2識別部1133の両方の識別結果を用いて最終的な識別結果を確定する。そこで、第1識別部1131による識別信頼度が閾値TH1以上であれば、その結果を人物識別部113の識別結果として確定し、識別信頼度が閾値TH1未満であれば、第2識別部1133による識別を行うために発話を行うようにしてもよい。あるいは、第1識別部1131と第2識別部1133の両方の識別結果を考慮した上で識別信頼度が閾値TH1未満となる場合に、さらに第2識別部1133による識別を行うために発話を行うようにしてもよい。
上記の条件は複数組み合わせてもよく、例えば、上記複数の条件のいくつかの何れかが成立するときに発話するようにしてもよいし、上記複数の条件のいくつかが同時に成立するときに発話するようにしてもよい。さらに、検出人物が眠っているときや集中しているときなど、話しかけることが適切ではない状況では、上記条件を満たしても発話しないようにしてもよい。
なお、ここでの発話は、個人識別のための応答音声を得ることを目的としたものであるので、上記のようなタイミングで行うようにしているが、それ以外のタイミングでの発話を禁止するものではない。例えば、上記の条件を満たさないタイミングにおいて、コミュニケーションのためにユーザに話しかけるようにしても構わない。
ステップS14において発話タイミングの条件を満たすと判断された場合は、処理はステップS15に進み、そうでない場合には、ステップS19に進む。
ステップS15では、発話制御部1132が、発話の内容(発話テキスト)を決定する。本実施形態では、発話制御部1132は、現時点での識別信頼度に基づいて発話内容を決定する。図4は、ステップS15の発話内容決定処理を説明するフローチャートである。
図4に示すように、ステップS131において、発話制御部1132は、現在の識別信頼度に応じて発話レベルを決定する。本実施形態では、例えば、識別信頼度が0.8以上の高信頼度、識別信頼度が0.5以上0.8未満の中信頼度、識別信頼度が0.5未満の低信頼度の3つのレベルに分類する。この閾値は例示に過ぎず、システム要求に応じて適宜決定すればよい。また、閾値は状況に応じて変化するものであってもよい。また、本実施形態ではレベルを3段階に分けているが、2段階あるいは4段階以上に分けても構わない。
識別信頼度が高い場合は、ステップS152に進み、発話制御部1132は、コミュニケーションの自然さを重視して発話内容を決定する。例えば、発話制御部1132は、検出人物の呼称を含まない内容の発話内容を決定する。人物が検出された場所が台所である場合には、発話制御部1132は、例えば「台所でいま何してるの?」を発話内容として決定する。
識別信頼度が中程度の場合は、ステップS153に進み、発話制御部1132は、不自然とはならない程度に内容で、検出人物が誰であるかを確かめるように発話内容を決定する。発話制御部1132は、例えば、第1識別部1131の識別結果の呼称を含めた内容
を発話内容とする。第1識別部1131の識別結果が「母」である場合には、発話制御部1132は、例えば「お母さん、台所で何してるの?」を発話内容として決定する。
識別信頼度が低い場合は、ステップS154に進み、発話制御部1132は、検出人物が誰であるかをより直接的に問いかける内容を発話内容とする。発話制御部1132は、例えば「台所にいるのは誰ですか?」を発話内容として決定する。
ステップS15において決定された発話内容のテキストデータは、発話制御部1132から音声出力部114に渡される。ステップS16において、音声出力部114は、発話テキストを音声合成により音声データに変換して、スピーカ300から出力する。ステップS17において、システム発話に対する応答を音声入力部115がマイク400から取得する。
ステップS18において、第2識別部1133が入力音声に基づく個人識別を行う。第2識別部1133は、音響特徴(音響解析)に基づく識別と、言語特徴(意味解析)に基づく識別を行う。音響特徴に基づく識別は応答音声が得られれば結果を得られるが、言語特徴に基づく識別は問いかけと応答の内容によっては誰であるか不明となる。ただし、言語特徴に基づく識別では「(私は)母です」といった意味を考慮できるため識別結果は信頼できると考えられる。
ステップS19において、人物特定部1134は、第1識別部1131による画像に基づく識別結果(S13)と、第2識別部1133による音声に基づく識別結果(S18)を考慮して、検出人物を特定する。
発話内容が「台所で何しているの?」である場合、応答として「いま料理中」が得られることが想定される。この場合、第2識別部1133は、言語特徴に基づく識別は行えないが、音響特徴に基づいて識別結果が得られる。ここで、第2識別部1133の識別結果が第1識別部1131の識別結果と一致すれば、人物特定部1134は第1識別部1131の識別結果が正しいことを確認でき、これを最終的な特定結果とする。一方、これら2つの識別結果が異なった場合には、人物特定部1134は、いずれかの識別結果を採用してもよいし、検出人物が不明であるとしてもよい。この場合は、人物特定部1134は識別信頼度を低く設定して、次回の発話においてより直接的に検出人物が誰であるかを確認するようにしてもよい。
発話内容が「お母さん、台所で何しているの?」である場合、人物が実際に「母」である場合には、応答として「いま料理中」が得られることが想定され、「母」ではない場合には、「私はお母さんじゃないよ」や「私は姉だよ」といった応答が得られることが想定される。いずれの場合も、第2識別部1133は、音響特徴に基づく識別と、言語特徴に基づく識別の両方が行える。言語特徴に基づく識別では、「母」という呼称を用いた問いかけに対して、応答文にそれを否定する語句が含まれているかいないかに基づいて、相手が「母」であるか否かが識別できる。応答文に自分が誰であるかを示す語句が含まれていれば、それに基づいて検出人物を識別できる。この際、音響特徴に基づく識別結果と言語特徴に基づく識別結果に相違が生じることも考えられるが、言語特徴に基づく識別結果を優先してもよいし、それぞれの識別信頼度を考慮して判断してもよい。
発話内容が「台所にいるのは誰ですか?」である場合、応答は「私は○○です」が得られることが想定される。したがって、第2識別部1133は、言語特徴に基づく識別を行って検出人物を識別すればよい。検出人物が誰であるかを直接的に問い合わせる発話内容を採用しているため、応答の意味内容から検出人物をより確実に識別できる。この際にも上記と同様に、第2識別部1133は音響特徴に基づく識別を行ってもよい。
ステップS20では、特徴収集を継続するか否かが判断される。引き続き特徴収集を行う場合は、ステップS10に戻って次のフレームを処理する。
特徴収集を終了する場合には、ステップS21において、特徴登録部130が、取得された人体・生体特徴を検出された人物の識別結果と関連付けて記憶部(不図示)に登録する。なお、図3のフローチャートでは、特徴収集を終了するタイミングで特徴登録を行っているが、検出人物の追跡が完了したタイミングで特徴登録を行ってもよい。特徴登録部130は、追跡の開始から終了までに得られた特徴の全てを、一人の人物と関連付けて登録する。ただし、特徴登録部130は、一つの追跡期間を複数に分割して、それぞれの期間について、得られた特徴を当該期間内の識別結果の人物と関連付けて登録してもよい。この処理は、人物が途中で入れ替わったのを正しく認識できず人体検出部112は同一人物として検出していたが、人物識別部113によって異なる人物として識別された場合に行われうる。
[本実施形態の有利な効果]
本実施形態によれば、画像に基づく個人識別と音声に基づく個人識別を行い、両方を総合して最終的な識別結果を得られるため、精度のよい識別が行える。特に、画像だけからは精度のよい識別が行えない場合に、システム発話を行ってユーザからの音声応答を取得して音声に基づく識別を行うことで、精度のよい識別を可能としている。さらに、画像に基づく識別結果が信頼できない場合のみに発話を行ったり、画像に基づく識別信頼度に応じて発話内容を決定したりすることで、ユーザが煩わしさを感じることを最小限にできる。
(第2の実施形態)
第1の実施形態では、図4に示すように識別信頼度に応じて発話内容を決定している。しかしながら、ユーザから音声による応答が得られれば、少なくとも音響特徴に基づく識別ができることと、1回の対話で複数回の発話が可能であることを考慮して、本実施形態では、発話内容の決定処理を第1の実施形態から変更する。以下、第1の実施形態との相違点について主に説明する。
図6は、本実施形態における発話内容決定処理の流れを示すフローチャートである。本実施形態では複数回の発話を行うことも想定しており、したがって、図6に示す処理は図3におけるステップS15の処理そのものではないことに留意されたい。
発話制御部1132は、発話を行うタイミングになったら、ステップS31に示すように、自然なコミュニケーションとなるような発話内容を決定する。したがって、発話内容には検出人物の呼称を含める必要はなく、「台所でいま何してるの?」といった内容が発話内容として決定される。
ステップS32では、ステップS31において決定された内容をスピーカ300から出力して、その結果としてマイク400が取得するユーザの応答音声に対して、第2識別部1133が識別を行う。ここでは、少なくとも音響特徴に基づく識別が行われればよい。言語特徴に基づく識別も可能であれば当然実施してもよい。
ステップS33では、第1識別部1131による識別結果と、第2識別部1133による識別結果が一致するか判断する。一致する場合には、検出人物が特定できるので、それ以上の発話を行う必要はない。一方、2つの識別結果が相違する場合には、人物をより確実に識別するために、ステップS34においてさらなる発話内容を決定する。発話制御部1132は、2回目の発話内容を、1回目の発話と比較して、より直接的に検出人物が誰
であるかを確認する内容として決定する。いまの場合は、例えば、「台所にいるのはお母さんじゃないの?」という発話内容を採用できる。あるいは、第1の実施形態の信頼度が中レベルまたは低レベルの時と同様に、検出人物の呼称を含む発話内容(例:「お母さん、そこで何してるの?」)や、誰であるかを直接問い合わせる発話内容(例:「台所にいるのは誰ですか?」)を2回目の発話内容として決定してもよい。
本実施形態によれば、第1の実施形態と同様の効果が得られる上に、音声に基づく識別を行う際により自然な対話が行える。
上記の説明では、1回の対話で発話を2回行うように説明しているが、1回の対話で発話を3回以上行ってもよい。その場合、最初の何回かは自然な発話を行って、音声に基づいて人物を識別できないときに、検出人物が誰であるかを確認する内容の発話を行うようにしてもよい。
また、本実施形態の処理は、第1の実施形態において、画像に基づく識別信頼度が高く自然な内容の発話を行った際に、音声に基づく識別結果が顔図に基づく識別結果と相違した場合にも適用可能である。
(その他)
上述した各実施形態は、本発明の例示に過ぎない。本発明は上記の具体的な形態に限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
上記の説明において、特徴収集装置100(家庭用ロボット)がユーザに話しかけるタイミングやその内容について述べたが、これは音声に基づく応答をユーザから得るための発話についての処理である。家庭用ロボットをコミュニケーションロボットとして実装する場合に、ユーザとコミュニケーションを取るための発話については上記の処理を適用する必要はない。また、上記の説明では、自然なコミュニケーションの例として、相手の呼称を含まない発話を挙げているが、呼称を含む発話が自然な場面や相手であれば、呼称を含む発話内容は自然な発話となる。
上記の実施形態では、特徴収集装置100が家庭用ロボットに搭載されている例を説明したが、監視カメラなどに搭載されてもよい。また、上記の個人識別装置110は、学習用の特徴を収集する特徴収集装置100に搭載される必要はなく、それ単体で実施して個人を識別するために用いてもよい。
(付記)
音声を出力する音声出力手段(14,114)と、
出力音声に応答する音声を取得する音声入力手段(15,115)と、
画像入力手段(11,111)と、
前記画像入力手段に入力される動画像から、人物を検出する検出手段(12,112)と、
前記検出手段によって検出された人物を識別する人物識別手段(13,113)と、
を備え、
前記人物識別手段は、
前記動画像に基づいて前記人物を識別する第1識別手段(131,1131)と、
出力音声への応答として得られる入力音声に基づいて前記人物を識別する第2識別手段(133,1133)と、を有し、
前記第1識別手段による識別結果である第1識別結果と前記第2識別手段による識別結果である第2識別結果に基づいて、前記人物を識別する、
ことを特徴とする、個人識別装置。
10:個人識別装置 11:画像入力部 12:人体検出部
13:人物識別部 131:第1識別部 133:第2識別部
14:音声出力部 15:音声入力部
100:特徴収集装置
110:個人識別装置 111:画像入力部 112:人体検出部
113:人物識別部 1131:第1識別部 1132:発話制御部
1133:第2識別部 1134:人体特定部
114:音声出力部 115:音声入力部
120:特徴取得部 130:特徴登録部
200:カメラ 300:スピーカ 400:マイク

Claims (15)

  1. 音声を出力する音声出力手段と、
    出力音声に応答する音声を取得する音声入力手段と、
    画像入力手段と、
    前記画像入力手段に入力される動画像から、人物を検出する検出手段と、
    前記検出手段によって検出された人物を識別する人物識別手段と、
    を備え、
    前記人物識別手段は、
    前記動画像に基づいて前記人物を識別する第1識別手段と、
    出力音声への応答として得られる入力音声に基づいて前記人物を識別する第2識別手段と、を有し、
    前記第1識別手段による識別結果である第1識別結果と前記第2識別手段による識別結果である第2識別結果に基づいて、前記人物を識別する、
    ことを特徴とする、個人識別装置。
  2. 前記人物識別手段は、前記第1識別手段による信頼度が第1閾値未満の場合に、前記音声出力手段からの音声出力と、前記第2識別手段による識別とを行って、前記第1識別結果と前記第2識別結果とに基づいて前記人物を識別する、
    請求項1に記載の個人識別装置。
  3. 前記人物識別手段は、前記第1識別手段による信頼度が前記第1閾値以上の場合は、前記第1識別結果を、前記人物の識別結果とする、
    請求項2に記載の個人識別装置。
  4. 前記音声出力手段からの出力音声の出力は所定のタイミングで行われ、
    前記所定のタイミングは、
    前記人物の識別信頼度が閾値未満となったタイミング、
    前記人物が検出されたタイミングから第1の所定時間が経過したタイミング、
    前記人物の時間変化が略無い状態が第2の所定時間継続したタイミング、
    前記人物が撮像範囲外へ出るタイミング、
    前記個人識別装置と前記人物の間の距離が所定距離以下になったタイミングで、
    の少なくとも何れかである、
    請求項1から3のいずれか1項に記載の個人識別装置。
  5. 前記人物識別手段は、前記第1識別手段による信頼度に応じて、前記出力音声の内容を決定する、
    請求項1から4のいずれか1項に記載の個人識別装置。
  6. 前記人物識別手段は、前記信頼度が第2閾値未満の場合は、前記第1識別結果の人物の呼称を含む内容、または、前記人物が誰であるかを問い合わせる内容を、前記出力音声の内容として決定する、
    請求項5に記載の個人識別装置。
  7. 前記人物識別手段は、前記第1識別結果と前記第2識別結果が一致しない場合には、新たに出力音声を出力して当該新たな出力音声に応答する入力音声に基づいて前記第2識別手段による識別を行い、
    新たな出力音声の内容は、前回の出力音声の内容と比較してより直接的に前記人物を確認する内容である、
    請求項1から6のいずれか1項に記載の個人識別装置。
  8. 前記第2識別手段は、前記入力音声を用いた波形解析と言語解析の少なくとも一方を行うことにより、前記人物を識別する、
    請求項1から7のいずれか1項に記載の個人識別装置。
  9. 前記第1識別手段は、前記動画像から得られる、顔特徴、人体特徴、および行動特徴の少なくともいずれかに基づいて、前記人物を識別する、
    請求項1から8のいずれか1項に記載の個人識別装置。
  10. 請求項1から9のいずれか1項に記載の個人識別装置と、
    前記画像入力手段に入力される動画像から、前記検出された人物の人体または行動に関する特徴の少なくともいずれかを取得する特徴取得手段と、
    前記特徴取得手段によって取得された特徴を、前記人物識別手段によって識別された人物とを関連付けて登録する特徴登録手段と、
    を備える、特徴収集装置。
  11. コンピュータによって実行される個人識別方法であって、
    動画像から人物を検出する検出ステップと、
    前記動画像に基づいて前記人物を識別する第1識別ステップと、
    音声を出力する音声出力ステップと、
    出力音声に応答する音声を取得する音声入力ステップと、
    出力音声への応答として得られる入力音声に基づいて前記人物を識別する第2識別ステップと、
    前記第1識別ステップにおける識別結果である第1識別結果と前記第2識別ステップにおける識別結果である第2識別結果に基づいて、前記人物を識別する、第3識別ステップと、
    を含む、個人識別方法。
  12. 前記第1識別ステップにおける信頼度が第1閾値未満の場合に、前記音声出力ステップ、前記音声入力ステップ、前記第2識別ステップを行う、
    請求項11に記載の個人識別方法。
  13. 前記第1識別ステップにおける信頼度が前記第1閾値以上の場合は、前記第3識別ステップでは、前記第1識別結果を前記人物の識別結果とする、
    請求項12に記載の個人識別方法。
  14. 前記音声出力ステップでは、前記第1識別ステップにおける信頼度に応じ内容の音声を出力する、
    請求項11から13のいずれか1項に記載の個人識別方法。
  15. 請求項11から14のいずれか1項に記載の方法の各ステップを実行するためのプログラム。
JP2018042204A 2018-03-08 2018-03-08 個人識別装置および特徴収集装置 Active JP6819633B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018042204A JP6819633B2 (ja) 2018-03-08 2018-03-08 個人識別装置および特徴収集装置
PCT/JP2019/001488 WO2019171780A1 (ja) 2018-03-08 2019-01-18 個人識別装置および特徴収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018042204A JP6819633B2 (ja) 2018-03-08 2018-03-08 個人識別装置および特徴収集装置

Publications (2)

Publication Number Publication Date
JP2019154575A true JP2019154575A (ja) 2019-09-19
JP6819633B2 JP6819633B2 (ja) 2021-01-27

Family

ID=67845907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018042204A Active JP6819633B2 (ja) 2018-03-08 2018-03-08 個人識別装置および特徴収集装置

Country Status (2)

Country Link
JP (1) JP6819633B2 (ja)
WO (1) WO2019171780A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7430087B2 (ja) 2020-03-24 2024-02-09 株式会社フジタ 発話制御装置
JP7451130B2 (ja) 2019-10-07 2024-03-18 キヤノン株式会社 制御装置、制御システム、制御方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7283571B2 (ja) * 2019-11-11 2023-05-30 日本電気株式会社 人物状態検出装置、人物状態検出方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182159A (ja) * 2003-12-16 2005-07-07 Nec Corp 個人認証方式及び個人認証方法
JP2007156688A (ja) * 2005-12-02 2007-06-21 Mitsubishi Heavy Ind Ltd ユーザ認証装置およびその方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4365189B2 (ja) * 2003-02-05 2009-11-18 富士フイルム株式会社 認証装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182159A (ja) * 2003-12-16 2005-07-07 Nec Corp 個人認証方式及び個人認証方法
JP2007156688A (ja) * 2005-12-02 2007-06-21 Mitsubishi Heavy Ind Ltd ユーザ認証装置およびその方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7451130B2 (ja) 2019-10-07 2024-03-18 キヤノン株式会社 制御装置、制御システム、制御方法、及びプログラム
JP7430087B2 (ja) 2020-03-24 2024-02-09 株式会社フジタ 発話制御装置

Also Published As

Publication number Publication date
WO2019171780A1 (ja) 2019-09-12
JP6819633B2 (ja) 2021-01-27

Similar Documents

Publication Publication Date Title
CN109475294B (zh) 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台
JP4462339B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US20110224978A1 (en) Information processing device, information processing method and program
Kessous et al. Multimodal emotion recognition in speech-based interaction using facial expression, body gesture and acoustic analysis
KR101749100B1 (ko) 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
JP2002182680A (ja) 操作指示装置
US20150331490A1 (en) Voice recognition device, voice recognition method, and program
US20200279561A1 (en) Determining input for speech processing engine
JP2009031951A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2019171780A1 (ja) 個人識別装置および特徴収集装置
JP4730404B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2020214844A1 (en) Identifying input for speech recognition engine
WO2018163555A1 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP2013104938A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20120035927A1 (en) Information Processing Apparatus, Information Processing Method, and Program
JP2010165305A (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2012020591A1 (ja) 個体識別システム、特徴量特定装置、特徴量特定方法および記録媒体
KR20200085696A (ko) 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
CN111326152A (zh) 语音控制方法及装置
Ponce-López et al. Multi-modal social signal analysis for predicting agreement in conversation settings
JP4730812B2 (ja) 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
CN110221693A (zh) 一种基于人机交互的智能零售终端操作系统
US11682389B2 (en) Voice conversation system, control system for voice conversation system, and control program, and control method
WO2021166811A1 (ja) 情報処理装置および行動モード設定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201214

R150 Certificate of patent or registration of utility model

Ref document number: 6819633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150