JP2017182261A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2017182261A
JP2017182261A JP2016065426A JP2016065426A JP2017182261A JP 2017182261 A JP2017182261 A JP 2017182261A JP 2016065426 A JP2016065426 A JP 2016065426A JP 2016065426 A JP2016065426 A JP 2016065426A JP 2017182261 A JP2017182261 A JP 2017182261A
Authority
JP
Japan
Prior art keywords
person
data
feature
classification
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016065426A
Other languages
English (en)
Inventor
松本 征二
Seiji Matsumoto
征二 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2016065426A priority Critical patent/JP2017182261A/ja
Priority to PCT/JP2016/081751 priority patent/WO2017086108A1/ja
Publication of JP2017182261A publication Critical patent/JP2017182261A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】人物の分類を好適に特定し、特定した分類に応じた処理を実行する情報処理装置及びプログラムを提供する。【解決手段】人物の分類ごとに特徴を記憶する記憶手段と、抽出手段と、特定手段と、処理手段を有する。抽出手段はロボットが、映像データから人物の第1の特徴を抽出しS1、音声データから人物の第2の特徴を抽出しS2、匂いデータから人物の第3の特徴を抽出しS3、特定手段が抽出した人物の第1の特徴、第2の特徴及び第3の特徴に基づいて、人物の分類を特定しS4、処理手段が特定した分類に応じた所定の処理S5を実行する。【選択図】図11

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、人物の属性(分類)に応じた処理を行う情報処理装置等に関する。
従来から、人物に対して、情報案内、対話、宣伝等の処理を自動で行うシステムが存在する。これらのシステムは、人物の属性(分類)に関わらず画一的な処理を行うものが多く、人物に対して効果的な情報提供が必ずしも実現されていない。これに対して、人物の属性(分類)に応じた処理を自動で行うシステムも存在する。
特許文献1には、人物の年齢および性別を認識して音声や動きによる演出効果を行うことで、効果的な情報提示を行う、情報処理装置が開示されている。また特許文献2には、個体の画像データに基づき判別される個体情報を参照することにより、出力する情報を制御する出力制御装置が開示されている。これら先行技術によれば、各人物の情報を反映した効果的な自動対応を実現している。
特開2012−185303号公報 特開2015−021813号公報
しかしながら、特許文献1では、画像のみから人物の年齢及び性別を判別するものである。また、特許文献2も、撮影部で撮像された画像データのみに基づき、属性を判別するものである。このように、特許文献1、2の方法は、画像のみの単一種別のデータに基づいて人物の属性(分類)を判別するため、人物の属性(分類)を判別するための判断指標が少なく、人物の属性(分類)を的確に特定できない場合があった。また、画像のみから判別可能な人物の属性(分類)だけに判別対象が限定されていた。
本発明は、このような観点からなされたものであり、その目的とすることは、人物の分類を好適に特定し、特定した分類に応じた処理を実行することが可能な、情報処理装置等を提供することである。
前述した課題を解決するための第1の発明は、人物の分類ごとに特徴を記憶する記憶手段と、人物の特徴を抽出する抽出手段と、抽出した前記特徴に基づいて前記人物の分類を特定する特定手段と、特定した前記分類に応じた処理を行う処理手段と、を備えることを特徴とする情報処理装置である。
第1の発明によって、人物の分類(嗜好、性別、年代、言語、国籍等の人物の属性)を好適に特定し、特定した分類に応じた処理を実行することが可能な、情報処理装置が提供される。
また第1の発明において、前記抽出手段は、複数の異なる種別のデータを用いて特徴を抽出することが望ましい。これにより、複数の異なる種別のデータを用いて人物の分類を好適に特定することができる。
また第1の発明において、前記人物を含む映像データを取得する映像取得手段、を更に備え、前記抽出手段は、少なくとも、前記映像データから前記人物の特徴を抽出し、前記特定手段は、少なくとも、前記特徴に基づいて前記人物の分類を特定することが望ましい。これにより、少なくとも、映像データから抽出される人物の特徴に基づいて、人物の分類を好適に特定することができる。
また、前記抽出手段は、前記人物の動作に関する特徴を抽出するように構成してもよい。これにより、映像データから抽出される人物の動作の特徴に基づいて、人物の分類を好適に特定することができる。
また、人物に対して情報を提示する情報提示手段、を更に備え、前記抽出手段は、前記情報に対する、前記人物の反応に関する特徴を抽出するように構成してもよい。これにより、情報を提示した際の人物の反応の特徴に基づいて、人物の分類を好適に特定することができる。
また第1の発明において、前記人物の音声データを取得する音声取得手段、を更に備え、前記抽出手段は、少なくとも、前記音声データから前記人物の特徴を抽出し、前記特定手段は、少なくとも、前記特徴に基づいて前記人物の前記分類を特定することが望ましい。これにより、少なくとも、音声データから抽出される人物の特徴に基づいて、人物の分類を好適に特定することができる。
また、前記抽出手段は、声の強さ、声の高さ、周波数特性、声質、発話テンポ、倍音特性、抑揚、反応音の特徴、発話言語、発話内容の少なくともいずれかを抽出するように構成してもよい。これにより、音声データから人物の特徴が好適に抽出される。
また第1の発明において、前記人物の匂いデータを取得する匂い取得手段、を更に備え、前記抽出手段は、少なくとも、前記匂いデータから前記人物の特徴を抽出し、前記特定手段は、少なくとも、前記特徴に基づいて前記分類を特定することが望ましい。これにより、少なくとも、匂いデータから抽出される人物の特徴に基づいて、人物の分類を好適に特定することができる。
また第1の発明において、抽出した全ての特徴について、各特徴がどの分類に属するかを集計し、最も集計数が多い分類を人物の分類として特定することが望ましい。これにより、抽出された特徴に基づいて人物の分類を好適に特定することができる。
第3の発明は、請求項1から請求項9のいずれかに記載の情報処理装置として機能させることを特徴とするプログラムである。
第3の発明によってコンピュータを第1の発明に係る情報処理装置として機能させることが可能となる。
本発明により、人物の分類を好適に特定し、特定した分類に応じた処理を実行することが可能な、情報処理装置等が提供される。
情報処理システム1のシステム構成の一例を示す図 ロボット2の内部構成図 コンピュータ3の内部構成図 ロボット2、情報処理システム1の機能構成図 第1の特徴30Aを例示する図 第2の特徴30Bを例示する図 第3の特徴30Cを例示する図 抽出した人物の特徴(人物特徴40)を示す図 分類テーブル50を示す図 処理データベース60を示す図 ロボット2の動作を示すフローチャート
以下、図面に基づいて本発明の好適な実施形態について詳細に説明する。
図1は、情報処理システム1のシステム構成の一例を示す図である。情報処理システム1は、本発明に係る情報処理装置の一実施例であるロボット2、コンピュータ3、カメラ4、マイク5、匂いセンサ6及びディスプレイ7を備えて構成される。ロボット2、カメラ4、マイク5、匂いセンサ6及びディスプレイ7はコンピュータ3に通信接続され、コンピュータ3により各装置の動作が連携するよう制御される。ロボット2、カメラ4、マイク5、匂いセンサ6及びディスプレイ7とコンピュータ3との通信接続の形態は、有線、無線を問わない。
カメラ4は、周囲の映像データを取得する。カメラ4は、例えば、単独のカメラ、ステレオカメラ、距離センサ、或いはこれらを組み合わせた複合的なセンサである。なお、カメラ4に替えてロボット2に内蔵されるカメラ210を用いて映像データを取得することもできる。この場合はカメラ4を省略してよい。
マイク5は、周囲の音声データを取得する。マイク5は、例えば、単一のマイクロホン、或いは複数のマイクロホンから構成されるマイクロホンアレイである。マイク5についてもロボット2に内蔵されているマイク211を用いて音声データを取得することもできる。この場合はマイク5を省略してよい。
匂いセンサ6は、周囲の匂いデータを取得する。匂いセンサ6は、例えば、水晶振動子式、半導体式の単一のセンサからなるもの、或いは複数のセンサからなるセンサアレイである。匂いセンサ6についてもロボット2に内蔵されている匂いセンサ212を用いて匂いデータを取得することができる。この場合は匂いセンサ6を省略してよい。
本実施形態において、ロボット2は、複数の異なる種別のデータ、すなわち、上記したカメラ4(或いはカメラ210)から取得される映像データ、マイク5(或いはマイク211)から取得される音声データ、匂いセンサ6(或いは匂いセンサ212)から取得される匂いデータ、を用いて人物の特徴を抽出し、抽出した特徴に基づいて人物の分類(嗜好、性別、年代、言語、国籍等の人物の属性)を特定する。そして、特定した分類に応じた処理(対話、情報案内、宣伝などの処理)を行う。
ディスプレイ7は、コンピュータ3によって制御され、映像等を表示する。ロボット2に搭載されている表示部204を用いて表示制御を行う場合や、ロボット2が音声のみで対話、情報案内、宣伝などの処理を実行する場合はディスプレイ7を省略してもよい。
コンピュータ3は、カメラ4による映像データの取得、マイク5による音声データの取得、匂いセンサ6による匂いデータの取得、ディスプレイ7の表示制御を行う他、ロボット2の動作を制御する。
ロボット2(情報処理装置)は、例えば対話型のロボットである。図2に示すように、ロボット2は、制御部201、記憶部202、入力部203、表示部204、メディア入出力部205、通信I/F206、可動部駆動機構207、周辺機器I/F部208、音声処理部209、カメラ210、マイク211、匂いセンサ212、スピーカ213、各種センサ214がバス220を介して接続されて構成される。
制御部201は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等により構成される。CPUは、記憶部202、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス220を介して接続された各部を駆動制御する。
制御部201のCPUは、ロボット2による全処理を実行する。
ROMは、ロボット2のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持する。RAMは、ロードしたプログラムやデータを一時的に保持するとともに、制御部201が各種処理を行うために使用するワークエリアを備える。
記憶部202は、制御部201が実行するプログラムや、プログラム実行に必要なデータ、オペレーティングシステム等が格納されている。これらのプログラムコードは、制御部201により必要に応じて読み出されてRAMに移され、CPUに読み出されて実行される。
また記憶部202は、人物の分類を特定する際に参照される分類テーブル50(図9)、分類に応じた処理を実行する際に参照される処理データベース60(図10)等を有する。
また、ロボット2の制御シーケンスを記載した制御シーケンステーブルが格納されるアクションDB(不図示)を有する。制御シーケンステーブルには、ロボット2が行う全てのアクションとロボット2の可動部制御シーケンスとを紐づけたデータが格納される。可動部制御シーケンスとは、各アクションを実現する際の制御対象となる各可動部の駆動箇所と値等(例えば頭部チルト角20度、右腕チルト角40度等)のリストである。
入力部203は、例えばタッチパネル等の入力装置や各種操作ボタン等を含み、入力されたデータを制御部201へ出力する。
表示部204は、例えば液晶パネル等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路で構成され、制御部201の制御により入力された表示情報をディスプレイ装置上に表示させる。なお、入力部203のタッチパネルは表示部204のディスプレイと一体的に構成される。
メディア入出力部205は、例えば、磁気ディスク、光ディスク、半導体メモリ等の記録媒体(メディア)等のドライブ装置であり、データの入出力を行う。
通信I/F206は、ネットワーク8との通信を媒介するインタフェースである。ネットワーク8は、LAN(Local Area Network)や、より広域に通信接続されたWAN(Wide Area Network)、またはインターネット等の公衆の通信回線、基地局等を含む。ネットワーク8との通信接続は有線、無線を問わない。ロボット2はネットワーク8を介してWebサーバにアクセスし、各種のプログラムやデータを送受信可能である。
可動部駆動機構207は、ロボット2の頭部、首、肩、腕、腰、脚等に設けられた可動部を駆動する機構及び駆動装置を含む。可動部駆動機構207の動作は制御部201により制御される。制御部201は記憶部202のアクションDBから可動部制御シーケンスを読み出し、各可動部駆動機構207に対して制御信号を送り、各駆動部を動作させる。
周辺機器I/F(インタフェース)部208は、周辺機器を接続させるためのポートであり、周辺機器とのデータの送受信を媒介する。周辺機器との接続形態は有線、無線を問わない。ロボット2は周辺機器I/F部208を介してコンピュータ3等と通信接続可能となる。
音声処理部209は、音声合成部、言語判別部、音声認識部等を含む。音声合成部は、制御部201からの指令に基づき、文字情報(テキストデータ)に対応する合成音声データを生成し、スピーカ213から合成音声を出力する。合成音声は、予め記憶部202の発話データベースに格納されている文字情報と音声データとの対応関係に基づいて生成される。
言語判別部は、入力された人物の音声データに対して、例えば、各言語による音素の種類、単語の音素配列パターン、韻律パターン、語彙などの違いを統計的にモデル化した言語判別モデルを用いて音声言語判別処理を実行することで、人物の発話言語を判別する。
音声認識部は、言語判別された音声データに対して、言語毎に用意された音声認識用の統計モデル(音響モデルおよび言語モデル)を用いて音声認識処理を実行することで、人物の発話内容を認識する。
カメラ210は、ロボット2に内蔵される、例えばCCD(Charge-Coupled Device)カメラ等の単独のカメラ、ステレオカメラ、距離センサ、或いはこれらを組み合わせた複合的なセンサであり、周囲の映像データを取得する。取得した映像データは制御部201に送られる。
マイク211は、ロボット2に内蔵される、例えば、単一のマイクロホン、或いは複数のマイクロホンから構成されるマイクロホンアレイであり、周囲の音声データを取得する。取得した音声データは制御部201に送られる。
匂いセンサ212は、ロボット2に内蔵される、例えば、水晶振動子式、半導体式の単一のセンサからなるもの、或いは複数のセンサからなるセンサアレイであり、周囲の匂いデータを取得する。取得した匂いデータは制御部201に送られる。
スピーカ213は、音声処理部209の音声合成部により生成された合成音声を出力する。
各種センサ214は、3Dセンサ、タッチセンサ、ジャイロセンサ、ソナーセンサ、レーザセンサ、バンパーセンサ、赤外線センサ等のセンサを含む。各センサは検出した信号を制御部201に入力する。
バス220は、制御信号、データ信号等の授受を媒介する経路である。
コンピュータ3は、情報処理システム1全体の動作を制御する制御装置であり、カメラ4による映像データの取得、マイク5による音声データの取得、匂いセンサ6による匂いデータの取得、ディスプレイ7の表示制御を行う他、ロボット2の動作を制御する。
図3に示すように、コンピュータ3は、制御部301、記憶部302、メディア入出力部303、周辺機器I/F部304、入力部306、表示部307、通信I/F308がバス309を介して接続されて構成される。
制御部301は、CPU、ROM、RAM等により構成される。CPUは、記憶部302、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス309を介して接続された各部を駆動制御する。
制御部301のCPUは、ロボット2が実行する処理(図11)において、カメラ4による撮影制御やマイク5の音声取得制御や匂いセンサ6による匂い取得制御やディスプレイ7の表示制御を行う。
ROMは、コンピュータ3のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持する。RAMは、ロードしたプログラムやデータを一時的に保持するとともに、制御部301が各種処理を行うために使用するワークエリアを備える。
記憶部302は、制御部301が実行するプログラムや、プログラム実行に必要なデータ、オペレーティングシステム等が格納されている。これらのプログラムコードは、制御部301により必要に応じて読み出されてRAMに移され、CPUに読み出されて実行される。
メディア入出力部303は、例えば、磁気ディスク、光ディスク、半導体メモリ等の記録媒体(メディア)等のドライブ装置であり、データの入出力を行う。
周辺機器I/F(インタフェース)部304は、周辺機器を接続させるためのポートであり、周辺機器I/F部304を介して周辺機器とのデータの送受信を行う。周辺機器との接続形態は有線、無線を問わない。周辺機器I/F部304を介してコンピュータ3に、ロボット2、カメラ4、マイク5、匂いセンサ6、及びディスプレイ7等を通信接続できる。
入力部306は、例えばキーボード、マウス、タッチパネル等の入力装置であり、入力されたデータを制御部301へ出力する。
表示部307は、例えば液晶パネル等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路で構成され、制御部301の制御により入力された表示情報をディスプレイ装置上に表示させる。なお、入力部306のタッチパネルは表示部307のディスプレイと一体的に構成される。また、表示部307は外付けのディスプレイ7としてもよい。制御部301は表示部307またはディスプレイ7に対して表示情報を送り、表示させる。
通信I/F308は、ネットワーク8との通信を媒介するインタフェースである。コンピュータ3はネットワーク8上のWebサーバから各種のプログラムやデータを送受信可能である。
バス309は、制御信号、データ信号等の授受を媒介する経路である。
次に、図4を参照してロボット2(情報処理システム1)の機能構成について説明する。
ロボット2(情報処理システム1)は、人物特定部20、映像取得部21、音声取得部22、匂い取得部23、特徴抽出部24、分類特定部25、処理部26、アクション部29の各機能を備える。各機能の処理はプログラムによって実行される。このプログラムはロボット2の記憶部202またはコンピュータ3の記憶部302に予め記憶されものとしてもよいし、ネットワーク8を介してダウンロードしインストール可能なものとしてもよい。
人物特定部20は、ロボット2が対話、情報案内、宣伝などの処理を行う対象人物を特定する。対象人物は、ロボット2に興味を示した人物やロボット2との対話を望む人物であることが好ましく、例えば、ロボット2に話しかけてきた人物や、ロボット2に触れてきた人物である。
ロボット2に話しかけてきた人物は、例えば、ロボット2に内蔵されるマイク211または外付けのマイク5により推定される人物の発話音声の到来方向と、ロボット2に内蔵されるカメラ210または外付けのカメラ4により取得される映像データ中における人物の顔方向と、の一致を検知することで特定される。
ロボット2に触れてきた人物は、例えば、ロボット2に内蔵されるカメラ210または外付けのカメラ4により取得される映像データからロボット2に近接する人物を検知し、且つ、ロボット2が備えるタッチセンサにより人物の接触動作を検知することで特定される。
なお対象人物は、ロボット2に話しかけてきた人物や、ロボット2に触れてきた人物以外にも、単にロボット2に接近してきた人物や単に映像データ中に映っている人物でもよい。
また、映像データ中に複数の人物が含まれている場合には、対象人物を複数の人物を含む1つの集団として特定してもよい。この場合、映像データ中の複数の人物間の位置や動きの関係性に基づいて、どの人物とどの人物が同一の集団に属するかを判別することで、対象人物(1つの集団)を特定する。
映像取得部21は、ロボット2に内蔵されるカメラ210または外付けのカメラ4により人物特定部20により特定された人物を含む映像データを取得する。
音声取得部22は、ロボット2に内蔵されるマイク211または外付けのマイク5により人物特定部20により特定された人物の音声データを取得する。なお、マイク211またはマイク5が指向性を制御可能なマイクロホンアレイの場合には、人物の顔方向にマイク211またはマイク5の指向性を向けて、人物の音声データを取得することが望ましい。
匂い取得部23は、ロボット2に内蔵される匂いセンサ212または外付けの匂いセンサ6により人物特定部20により特定された人物の匂いデータを取得する。なお、匂いセンサ212または匂いセンサ6が指向性を制御可能なセンサアレイの場合には、人物の方向に匂いセンサ212または匂いセンサ6の指向性を向けて、人物の匂いデータを取得することが望ましい。
特徴抽出部24は、複数の異なる種別のデータを用いて、人物特定部20により特定した人物の特徴を抽出する。具体的には、映像取得部21により取得された映像データ、音声取得部22により取得された音声データ、匂い取得部23により取得された匂いデータ、の各データを用いて、データ毎に人物の特徴を抽出する。
ここで、映像データに基づいて抽出される人物の特徴を「第1の特徴」、音声データに基づいて抽出される人物の特徴を「第2の特徴」、匂いデータに基づいて抽出される人物の特徴を「第3の特徴」と呼ぶ。以下、第1の特徴、第2の特徴、第3の特徴について具体例を示す。
(第1の特徴)
第1の特徴は、映像データから抽出される人物の特徴であり、図5に示すように、例えば「動作特徴」(動作1、動作2、…)、「外見特徴」(外見1、外見2、…)、「反応特徴」(反応1、反応2、…)である。
「動作特徴」とは、人物の動作に関する特徴であり、例えば、映像データに対して動作解析を適用することで得られる、人物の歩き方(歩行速度、歩幅、腕の振り、姿勢など)の特徴である。なお人物が集団の場合には、集団に属する各人物の歩き方の平均的な特徴や各人物間の位置関係(横隊1列/横隊2列/縦隊1列、…など)の特徴である。
「外見特徴」とは、人物の外見に関する特徴であり、例えば、映像データに対して顔画像解析を適用することで得られる、人物の性別、年齢(年代)、眼の色、髪の色などの特徴である。顔画像から人物の性別、年齢(年代)などを認識する方法は公知の手法(特開2012−053813等)を用いればよい。
また、表情や感情を外見特徴として抽出してもよい。表情は、喜び、驚き、怒り、悲しみ、無表情等のいくつかのパターンに分類され、これら表情のパターンは、口角の上り具合、頬、目、眉等の位置関係等から読み取り可能である。
感情は、読み取った表情から推定可能であり、例えば、特開平10−255043、特開2014−206903等に開示されている方法を用いればよい。
また、映像データに対して公知の服装識別解析を適用することで得られる、人物の服装種類(スーツ、ワンピース、民族衣装、…)を外見特徴として抽出してもよい。
なお人物が集団の場合には、特徴抽出部24は、集団に属する各人物の平均的な外見特徴を抽出する。
「反応特徴」とは、ロボット2が人物へ行う情報の提示に対する、人物の反応に関する特徴である。情報の提示とは、例えば、天気情報、ニュースなどの情報を表示部204やディスプレイ7に表示して提示する他、人物に対して行う挨拶などを含む。例えば、所定の挨拶文(「おはようございます」「こんにちは」「ご機嫌いかがですか?」…)に対応する合成音声を音声処理部209により生成して、スピーカ213から音声出力(読み上げ)させる。或いは、所定の挨拶動作(「手を振る」「お辞儀をする」…)に対応するアクションの可動部制御シーケンスをアクションDBから読み出し、可動部駆動機構207に対して制御信号を送り、各駆動部を動作させる。
そして、特徴抽出部24は、情報の提示を行った後に映像取得部21により取得される映像データに対して動作解析、表情解析等を実行することで、情報の提示に対する人物の反応(「笑顔になる」「深刻な顔になる」「近づいてくる」「手を振り返す」「反応なし」など)を特徴として抽出する。
なお人物が集団の場合には、特徴抽出部24は、集団に属する各人物の平均的な反応特徴を抽出する。
(第2の特徴)
第2の特徴は、音声データから抽出される人物の特徴であり、例えば、図6に示すように、「声の強さ」、「声の高さ」、「周波数特性」、「声質」(明るい声/暗い声/太い声/痩せた声、など)、「発話テンポ」(ゆっくり話す/せわしなく話す、など)、「倍音特性」(音の柔らかさに関する特性)、「抑揚」(イントネーション)、「反応音特徴」(「うーん」「んー」「えー」などのような話し相手の発言に対して何らかの反応を示す発話音の特徴)である。これらは、音声の非言語的情報であり、人物の個人的特徴や身体的特徴に起因した音声の特徴、人物の意図や感情などが表われる音声の特徴である。
また、「発話言語」「発話内容」のような音声の言語的情報を特徴として抽出してもよい。例えば、「発話言語」は、ロボット2の音声処理部209によって人物の音声データに対して、各言語による音素の種類、単語の音素配列パターン、韻律パターン、語彙などの違いを統計的にモデル化した言語判別モデルを用いて分析することで抽出される。また「発話内容」は、ロボット2の音声処理部209によって、マイク211から入力された音声データについて音声認識処理を適用することで抽出される。
(第3の特徴)
第3の特徴は、匂いデータから抽出される人物の特徴であり、図7に示すように、例えば「匂いの種類」(種類1、種類2、…)、「匂いの強さ」(強さ1、強さ2、…)である。
匂いの種類は、予め匂いの種類を既知とした匂いデータを多数収集して学習した、匂いの種類を判別する匂い判別モデルを用いて分析することで、特定される。匂いの強さは、匂いセンサ6(或いは匂いセンサ212)により取得される匂いデータ(入力値)の絶対値等から算出できる。
分類特定部25は、特徴抽出部24により抽出される上記した特徴(第1の特徴、第2の特徴、第3の特徴)に基づいて、人物の分類51を特定する。
分類51とは、人物を任意の属性(嗜好、性別、年代、言語、国籍等)でグループ分けしたものであり、図9の分類テーブル50に示すように、各分類51(分類1、分類2、…)は、第1の特徴、第2の特徴、第3の特徴の各特徴によって規定される。各分類51(分類1、分類2、…)をどのような特徴によって規定するかは、予め分類51(分類1、分類2、…)を既知とした多数の人物から各特徴(第1の特徴、第2の特徴、第3の特徴)を抽出し学習することで統計的に決定される。これにより、各分類51(分類1、分類2、…)に属する人物が、どのような特徴(第1の特徴、第2の特徴、第3の特徴)を有する傾向があるかを統計的に把握することができる。
例えば、図9の例では、「分類1」に属する人物は、統計的に、「第1の特徴」として、「動作3」「外見10」「反応6」…の特徴を有し、「第2の特徴」として、「(声の)強さ2」「(声の)高さ9」「周波数特性1」…の特徴を有し、「第3の特徴」として、「(匂いの)種類5」「(匂いの)強さ4」…の特徴を有する傾向が多いことが把握できる。
また「分類2」に属する人物は、統計的に、「第1の特徴」として、「動作5」「外見2」「反応1」…の特徴を有し、「第2の特徴」として、「(声の)強さ4」「(声の)高さ7」「周波数特性3」…の特徴を有し、「第3の特徴」として、「(匂いの)種類3」「(匂いの)強さ1」…の特徴を有する傾向が多いことが把握できる。
また「分類3」に属する人物は、統計的に、「第1の特徴」として、「動作2」「外見7」「反応3」…の特徴を有し、「第2の特徴」として、「(声の)強さ6」「(声の)高さ1」「周波数特性4」…の特徴を有し、「第3の特徴」として、「(匂いの)種類2」「(匂いの)強さ8」…の特徴を有する傾向が多いことが把握できる。
分類特定部25は、分類テーブル50を参照して、特徴抽出部24により抽出された特徴に基づいて人物の分類を特定する。例えば、特徴抽出部24により抽出された全ての特徴について、各特徴がどの分類51(分類1、分類2、…)に属するかを集計し、最も集計数が多い分類51を人物の分類として特定する。
処理部26は、分類特定部25により特定された分類51の処理データ61に基づいて、処理を行う。「処理」とは、ロボット2が人物の相手になって受け答えをする処理(対話など)や、ロボット2が人物に対して一方的に情報を提供する処理(宣伝など)を含む。
図10は処理データ61を保持する処理データベース60の内容を示す図である。図に示すように、処理データベース60は、分類51(分類1、分類2、…)毎に処理データ61(処理データ1、処理データ2、…)を保持する。
処理データ61は、例えば、映像データ、音声データ、テキストデータ、動作データ、或いはこれらデータの任意の組み合わせである。
処理データ61が映像データの場合、ロボット2の表示部204やディスプレイ7に映像を表示させる。処理データ61が音声データの場合、ロボット2のスピーカ213から音声出力させる。処理データがテキストデータの場合、音声処理部209が、テキストデータの合成音声を生成し、スピーカ213から音声出力させる(或いは、ロボット2の表示部204やディスプレイ7にテキストデータを表示させる)。処理データ61が動作データの場合、動作データに含まれる各アクションに対応した可動部制御シーケンスをアクションDBから読み出し、可動部駆動機構207に対して制御信号を送り、各駆動部を動作させる。
処理データ61は、システム設計者等により事前に任意に設定される。例えば各分類51(分類1、分類2、…)が、分類1=「英語」、分類2=「フランス語」のように「言語」によりグループ分けされていれば、処理データ61として、言語毎の対話データ(音声データ)を設定することができる。また、各分類51(分類1、分類2、…)が、分類1=「10代」、分類2=「20代」のように「年代」によりグループ分けされていれば、処理データ61として、各年代向けの情報(各年代で最近流行している商品情報等)を設定することができる。
次に、図11を参照してロボット2が実行する処理の流れの一例を説明する。
ロボット2は、まず、対話、情報案内、宣伝などの処理を行う対象人物を特定する(ステップS0)。
続いて、ロボット2は、複数の異なる種別のデータを用いて、ステップS1において特定した人物の特徴を抽出する。
まず、ロボット2は、映像データを取得し、人物の第1の特徴を抽出する(ステップS1)。例えば、前記したように、映像データから人物の「動作特徴」「外見特徴」「反応特徴」等(図5参照)を抽出する。
なお「反応特徴」を抽出する場合には、ステップS1の前に、人物へ所定の情報提示を行い、ステップS1において、この情報提示に対する人物の反応を特徴として抽出する。
続いて、ロボット2は、音声データを取得し、人物の第2の特徴を抽出する(ステップS2)。例えば、前記したように、音声データから人物の「声の強さ」「声の高さ」「周波数特性」「声質」「発話テンポ」「倍音特性」「抑揚」「反応音」「発話言語」「発話内容」等(図6参照)を抽出する。
さらに、ロボット2は、匂いデータを取得し、人物の第3の特徴を抽出する(ステップS3)。例えば、前記したように、匂いデータから人物の「匂いの種類」「匂いの強さ」等(図7参照)を抽出する。
続いて、ロボット2は、分類テーブル50を参照して、ステップS1〜S3において抽出された人物の特徴(第1の特徴、第2の特徴、第3の特徴)に基づいて、人物の分類51を特定する(ステップS4)。例えば、ステップS1〜S3において抽出された全ての特徴について、各特徴がどの分類51(分類1、分類2、…)に属するかを集計し、最も集計数が多い分類51を人物の分類として特定する。
例えば、図8に示すように、「第1の特徴」として「動作3」「外見2」「反応6」が抽出され、「第2の特徴」として「(声の)強さ2」「(声の)高さ7」「周波数特性1」が抽出され、第3の特徴として「(匂いの)種類5」「(匂いの)強さ8」が抽出されたとする。
この場合、図9の分類テーブル50を参照すると、抽出された特徴のうち、「動作3」「反応6」「(声の)強さ2」「周波数特性1」「(匂いの)種類5」の5つの特徴が「分類1」に属し、「外見2」「(声の)高さ7」の2つの特徴が「分類2」に属し、「(匂い)の強さ8」の1つの特徴が「分類3」に属する。すなわち、「分類1」に最も多くの特徴が属するため、ロボット2は、「分類1」を人物の分類として特定する。
そして、ロボット2は、処理データベース60を参照して、ステップS4において特定された分類51の処理データ61を取得し、この処理データ61に基づいて、所定の処理を実行する(ステップS5)。例えば、特定した分類51が「分類1」の場合、ロボット2は、「分類1」に対応する「処理データ1」(図10参照)に基づいて、処理を実行する。
以上、添付図面を参照して、本発明に係る好適な実施形態について説明したが、本発明は係る例に限定されない。
例えば、本発明に係る情報処理装置を、ロボットの形態で説明したが、適用形態はロボットに限定されず、自動販売機、デジタルサイネージ等に適用することも可能である。
また、図4ではロボット2内の制御部201及び記憶部202に、情報処理システム1が備える各種機能及び各種データ(人物特定部20、映像取得部21、音声取得部22、匂い取得部23、特徴抽出部24、分類特定部25、処理部26、分類テーブル50、処理データベース60等)が設けられるものとしているが、ロボット2とは別に設けられるコンピュータ3にこれらの各部やデータを設けるものとしてもよい。
また、図11のステップS1〜S3において、映像データ、音声データ、匂いデータの全種別のデータから人物の特徴を抽出できるとは限らない。例えば、人物が発話しないような場合には、音声データから人物の特徴を抽出できない。この場合には、映像データと匂いデータから抽出された人物の特徴に基づいて、人物の分類を特定すればよい。また、人物がロボット2から離れた場所に居るような場合には、匂いデータから人物の特徴を抽出できない。この場合には、映像データと音声データから抽出される人物の特徴に基づいて、人物の分類を特定すればよい。
また、図11の処理において、ロボット2が特定した人物の分類51に誤りがあった場合、分類テーブル50を再学習させてもよい。具体的には、図11のステップS4の後に、ロボット2が人物に対して特定した分類51の正誤を確認する処理を加える。例えば分類51(分類1、分類2、…)が「国籍」でグループ分けされている場合であって、特定された人物の分類51が「フランス」だとする。この場合、ロボット2は人物に対して「あなたはどこの国の方ですか?」など特定した分類51の正誤を確認する質問を行う。これに対し、人物が特定された分類51(「フランス」)とは異なる分類51を回答した場合(例えば「“イタリア”から来ました」などの回答をした場合)、ロボット2は特定した人物の分類51(「フランス」)が誤りと判断し、正しい分類51(「イタリア」)とステップS1〜S3で抽出した特徴(第1の特徴、第2の特徴、第3の特徴)を正しい学習データとして、分類テーブル50を再学習させる。
その他、当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
1……………………情報処理システム
2……………………ロボット
3……………………コンピュータ
4……………………カメラ
5……………………マイク
6……………………匂いセンサ
7……………………ディスプレイ
20…………………人物特定部
21…………………映像取得部
22…………………音声取得部
23…………………匂い取得部
24…………………特徴抽出部
25…………………分類特定部
26…………………処理部
40…………………人物特徴
50…………………分類テーブル
60…………………処理データベース

Claims (10)

  1. 人物の分類ごとに特徴を記憶する記憶手段と、
    人物の特徴を抽出する抽出手段と、
    抽出した前記特徴に基づいて前記人物の分類を特定する特定手段と、
    特定した前記分類に応じた処理を行う処理手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記抽出手段は、複数の異なる種別のデータを用いて特徴を抽出する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記人物を含む映像データを取得する映像取得手段、を更に備え、
    前記抽出手段は、少なくとも、前記映像データから前記人物の特徴を抽出し、
    前記特定手段は、少なくとも、前記特徴に基づいて前記人物の分類を特定する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記抽出手段は、前記人物の動作に関する特徴を抽出する
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 人物に対して情報を提示する情報提示手段、を更に備え、
    前記抽出手段は、前記情報に対する、前記人物の反応に関する特徴を抽出する
    ことを特徴とする請求項1から請求項4のいずれかに記載の情報処理装置。
  6. 前記人物の音声データを取得する音声取得手段、を更に備え、
    前記抽出手段は、少なくとも、前記音声データから前記人物の特徴を抽出し、
    前記特定手段は、少なくとも、前記特徴に基づいて前記人物の前記分類を特定する
    ことを特徴とする請求項1から請求項5のいずれかに記載の情報処理装置。
  7. 前記抽出手段は、声の強さ、声の高さ、周波数特性、声質、発話テンポ、倍音特性、抑揚、反応音の特徴、発話言語、発話内容の少なくともいずれかを抽出する
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記人物の匂いデータを取得する匂い取得手段、を更に備え、
    前記抽出手段は、少なくとも、前記匂いデータから前記人物の特徴を抽出し、
    前記特定手段は、少なくとも、前記特徴に基づいて前記分類を特定する
    ことを特徴とする請求項1から請求項7のいずれかに記載の情報処理装置。
  9. 前記特定手段は、抽出した全ての特徴について、各特徴がどの分類に属するかを集計し、最も集計数が多い分類を人物の分類として特定する
    ことを特徴とする請求項1から請求項8のいずれかに記載の情報処理装置。
  10. 請求項1から請求項9のいずれかに記載の情報処理装置として機能させることを特徴とするプログラム。

JP2016065426A 2015-11-16 2016-03-29 情報処理装置、情報処理方法、およびプログラム Pending JP2017182261A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016065426A JP2017182261A (ja) 2016-03-29 2016-03-29 情報処理装置、情報処理方法、およびプログラム
PCT/JP2016/081751 WO2017086108A1 (ja) 2015-11-16 2016-10-26 情報提示装置、情報提示方法、プログラム、情報処理装置及び案内ロボット制御システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016065426A JP2017182261A (ja) 2016-03-29 2016-03-29 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2017182261A true JP2017182261A (ja) 2017-10-05

Family

ID=60006159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016065426A Pending JP2017182261A (ja) 2015-11-16 2016-03-29 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2017182261A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113167704A (zh) * 2018-12-05 2021-07-23 里沃恩株式会社 信息处理装置、信息处理方法、学习模型生成方法以及程序
US20220357752A1 (en) * 2021-05-06 2022-11-10 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
JP2022173971A (ja) * 2021-05-10 2022-11-22 ベアー ロボティックス,インコーポレイテッド ロボットを制御するための方法、システムおよび非一過性のコンピュータ読み取り可能な記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113167704A (zh) * 2018-12-05 2021-07-23 里沃恩株式会社 信息处理装置、信息处理方法、学习模型生成方法以及程序
US20220357752A1 (en) * 2021-05-06 2022-11-10 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
US11934203B2 (en) * 2021-05-06 2024-03-19 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
JP2022173971A (ja) * 2021-05-10 2022-11-22 ベアー ロボティックス,インコーポレイテッド ロボットを制御するための方法、システムおよび非一過性のコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
US20210081056A1 (en) Vpa with integrated object recognition and facial expression recognition
KR101604593B1 (ko) 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법
US20190172448A1 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
Wu et al. Survey on audiovisual emotion recognition: databases, features, and data fusion strategies
Metallinou et al. Context-sensitive learning for enhanced audiovisual emotion classification
CN116547746A (zh) 针对多个用户的对话管理
CN113454708A (zh) 语言学风格匹配代理
CN112650831A (zh) 虚拟形象生成方法、装置、存储介质及电子设备
JP6656447B1 (ja) 動画出力システム
CN110688008A (zh) 虚拟形象交互方法和装置
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
US11492741B2 (en) Electronic device
CN110737335B (zh) 机器人的交互方法、装置、电子设备及存储介质
Paleari et al. Features for multimodal emotion recognition: An extensive study
CN110148406B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
WO2017086108A1 (ja) 情報提示装置、情報提示方法、プログラム、情報処理装置及び案内ロボット制御システム
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
CN113822187A (zh) 手语翻译、客服、通信方法、设备和可读介质
JP2017064853A (ja) ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
WO2023246163A1 (zh) 一种虚拟数字人驱动方法、装置、设备和介质
KR20180012192A (ko) 유아동용 학습 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200923