JP2020067562A - ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 - Google Patents

ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 Download PDF

Info

Publication number
JP2020067562A
JP2020067562A JP2018200329A JP2018200329A JP2020067562A JP 2020067562 A JP2020067562 A JP 2020067562A JP 2018200329 A JP2018200329 A JP 2018200329A JP 2018200329 A JP2018200329 A JP 2018200329A JP 2020067562 A JP2020067562 A JP 2020067562A
Authority
JP
Japan
Prior art keywords
time
user
face
machine learning
learning engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018200329A
Other languages
English (en)
Other versions
JP7032284B2 (ja
Inventor
剣明 呉
Jiangming Wu
剣明 呉
啓一郎 帆足
Keiichiro Hoashi
啓一郎 帆足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018200329A priority Critical patent/JP7032284B2/ja
Publication of JP2020067562A publication Critical patent/JP2020067562A/ja
Application granted granted Critical
Publication of JP7032284B2 publication Critical patent/JP7032284B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ユーザの顔の映像から、ユーザに対する話し掛けや動作の発動タイミングを高い精度で推定する装置、プログラム及び方法を提供する。【解決手段】ユーザと対話する対話装置1において、カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出部11と、画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出部12と、顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出部13と、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習し、時間周波数特徴量から、現時点が、ユーザに対する発動タイミングか否かを推定する機械学習エンジン14と、機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動部15とを有する。【選択図】図1

Description

本発明は、ユーザと自然な対話を実現する対話装置の技術に関する。
対話装置は、スマートフォンやタブレット端末のインタフェースを介して、ユーザと対話する。ユーザの発話音声をテキストに変換し、その文脈構成から発話意味を推定する。そして、その発話意味に対応する対話シナリオに基づいて、ユーザに応答する。例えば、「Siri(登録商標)」や「しゃべってコンシェル(登録商標)」のような対話システムがある。
近年、ユーザとの対話装置として、「Google Home(登録商標)」や「Amazon Echo(登録商標)」のようなスマートスピーカや、「SOTA(登録商標)」や「ユニボー(登録商標)」のようなロボットが用いられてきている(以下「ロボット」と称す)。ユーザは、これらロボットと対話する前に、アクティブコマンド(「OK, XXX」, etc.)を発話する必要がある。このコマンドを検知したロボットは、音声認識機能を起動し、その後に続くユーザの発話音声を認識するように動作する。
従来、ユーザの意図を考慮して声を掛ける案内ロボットの技術がある(例えば特許文献1参照)。この技術によれば、時系列に連続したフレーム画像毎に、ユーザが見ている方向を判別し、時間経過に伴うその方向の変化を表す方向変化量を算出し、その方向変化量に基づいて声を掛けるか否かを判断する。具体的には、展示場内や店舗内で、キョロキョロして何か困っているユーザに、声を掛けることができる。
また、店舗内の顧客の態様から、最適な広告を表示する顧客購買意思予測装置の技術もある(例えば特許文献2参照)。この技術によれば、顧客の顔の向きの変化を一定時間に渡って追跡し、商品に対して顧客の顔の向きが停止している商品注意時間が最長となるその商品を、顧客に推薦することができる。
特開2017−159396号公報 特開2016−076109号公報
「Head Pose Estimation using OpenCV and Dlib」、[online]、[平成30年10月4日検索]、インターネット<URL:https://www.learnopencv.com/head-pose-estimation-using-opencv-and-dlib/> 「短時間フーリエ変換」、[online]、[平成30年10月4日検索]、インターネット<URL:https://www.ieice.org/jpn/event/FIT/pdf/d/2014/H-039.pdf> 「ウェーブレット変換」、[online]、[平成30年10月4日検索]、インターネット<URL:http://www.cqpub.co.jp/hanbai/books/30/30961/30961_9syo.pdf>
ユーザにとって、ロボットに毎回、アクティブコマンドを発話することは面倒な場合がある。
例えばテレビや会話などの周辺雑音が多い宅内や店舗では、ユーザが発話するアクティブコマンドを、ロボットが認識できない場合がある。
逆に、ユーザが意図的にロボットに向かって発話していない時でも、ロボットが周辺雑音に反応して誤動作してしまう場合もある。
また、特許文献1及び2のように、ユーザの顔の向きの変化量のみで、ロボットが話し掛けるタイミングを、ユーザにとって最適なものとすることは精度的に難しい。
これに対し、本願の発明者らは、ユーザがロボットに話し掛けたいタイミングでは、ユーザの顔の映像に何らかの特徴的変化があるのではないか、と考えた。この特徴的変化を経験値から学習して見い出すことができれば、最適な発動タイミングを特定することができるのではないか、と考えた。
そこで、本発明は、ユーザの顔の映像から、ユーザに対する話し掛けや動作の発動タイミングを高い精度で推定する装置、プログラム及び方法を提供することを目的とする。
本発明によれば、ユーザと対話する対話装置において、
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出手段と、
画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出手段と、
顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出手段と、
時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものであって、時間周波数特徴量から、現時点が、ユーザに対する発動タイミングか否かを推定する機械学習エンジンと、
機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動手段と
を有することを特徴とする。
本発明の対話装置における他の実施形態によれば、
顔パラメータ抽出手段は、顔の各パラメータとして、顔向きのオイラー角、顔の中心位置、及び/又は、顔のサイズを含むことも好ましい。
本発明の対話装置における他の実施形態によれば、
ユーザの発話音声からテキストを抽出する音声認識手段を更に有し、
機械学習エンジンによって偽と判定された場合、音声認識手段における音声認識確率の閾値を上げることによって、音声認識の誤りを低減させる
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
発動手段は、ユーザに対する発動として、対話シナリオに基づく初期テキストを発話することも好ましい。
本発明の対話装置における他の実施形態によれば、
当該対話装置が、動作可能なロボットである場合、
発動手段は、ユーザに対する発動として、行動シナリオに基づく初期挙動で動作することも好ましい。
本発明の対話装置における他の実施形態によれば、
対話シナリオ発動手段が初期テキストを発話した後、ユーザとの対話が成立しなかった時、
機械学習エンジンは、その時までの時間周波数特徴量に対して発動不可(負例)として教師データを収集する
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
対話シナリオの中断中に、ユーザから発話された時、
機械学習エンジンは、その時までの時間周波数特徴量に対して発動可能(正例)として教師データを収集することも好ましい。
本発明の対話装置における他の実施形態によれば、
機械学習エンジンの教師データは、時系列画像における異なるタイムスパン毎に、時間周波数特徴量と発動可否とを対応付けたものであり、
機械学習エンジンにおけるタイムスパン毎の推定精度に基づいて1つのタイムスパンを決定する
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
特徴量抽出手段は、顔の各パラメータの時系列に対して、短時間フーリエ変換又はウェーブレット変換によって時間周波数特徴量を抽出するものであり、
機械学習エンジンは、LSTM(Long Short-Term Memory)である
ようにコンピュータを機能させることも好ましい。
本発明によれば、ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出手段と、
画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出手段と、
顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出手段と、
時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものであって、時間周波数特徴量から、現時点が、ユーザに対する発動タイミングか否かを推定する機械学習エンジンと、
機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、ユーザと対話する装置の対話方法において、
装置は、
時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習した機械学習エンジンを有し、
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する第1のステップと、
画像に映り込む顔領域から、顔の各パラメータを抽出する第2のステップと、
顔パラメータの時系列変化から時間周波数特徴量を抽出する第3のステップと、
機械学習エンジンを用いて、時間周波数特徴量から、現時点が、ユーザに対する発動タイミングか否かを推定する第4のステップと、
第4のステップによって真と判定された場合、ユーザに対して発動する第5のステップと
実行することを特徴とする。
本発明の対話装置、プログラム及び方法によれば、ユーザの顔の映像から、ユーザに対する話し掛けや動作の発動タイミングを高い精度で推定することができる。
本発明における対話装置の機能構成図である。 対話システムにおけるサーバの機能構成図である。 推定段階における各機能構成部の処理の流れを表す説明図である。 対話装置のロボットがユーザの顔を撮影している外観図である。 顔領域検出部及び顔パラメータ抽出部の処理を表す説明図である。 特徴量抽出部の処理を表す説明図である。 初期段階における各機能構成部の処理の流れを表す説明図である。 学習させる各機能構成部の処理の流れを表す説明図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における対話装置の機能構成図である。
図1によれば、対話装置1は、ユーザと対話するロボット(スマートスピーカも含む)である。対話装置1は、ユーザインタフェースの入出力デバイスとして、マイク、スピーカ及びカメラを搭載している。カメラは、ユーザの顔の映像を撮影する。マイクは、ユーザの発話音声を取得する。スピーカは、音声によってユーザへ発話する。
ユーザは、キャラクタとしてのロボットの対話装置1との間で、自然な対話を実現することができる。
図2は、対話システムにおけるサーバの機能構成図である。
図2によれば、図1における本発明の機能構成と全く同じであるが、サーバによって構成されている。ユーザによって所持されるスマートフォンやタブレット端末が、対話システムにおけるユーザインタフェースとなる。
本発明の対話装置1は、ユーザにとって最良のタイミングで能動的に、ユーザに話し掛けたり又は動作(例えばロボットが、手を上げる又は歩き始める等)することができる。
図1によれば、対話装置1は、顔領域検出部11と、顔パラメータ抽出部12と、特徴量抽出部13と、機械学習エンジン14と、発動部15と、音声認識部101と、対話実行部102と、音声変換部103とを有する。これら機能構成部は、対話装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置の対話方法としても理解できる。
音声認識部101、対話実行部102及び音声変換部103は、一般的な対話装置の機能構成部である。
音声認識部101は、マイクからユーザの発話音声を入力し、その発話音声をテキストに変換し、そのテキストを対話実行部102へ出力する。
対話実行部102は、音声認識部101から入力したテキストに対して、次の対話シナリオとなるテキストを検索する。そのテキストは、音声変換部103へ出力される。対話シナリオとは、ユーザの発話テキストに対して次の対話テキストを対応付けたものであり、質問及び回答からなる対話ノードをツリー状に構成したものである。
音声変換部103は、対話実行部102からユーザに対する対話文を入力し、その対話文を音声信号に変換し、その音声信号をスピーカへ出力する。
本発明によれば、対話装置1は、機械学習エンジン14を用いた<推定段階>と<初期段階>とに分けられる。
<推定段階>
図3は、推定段階における各機能構成部の処理の流れを表す説明図である。
[顔領域検出部11]
顔領域検出部11は、カメラによって撮影されたユーザの顔が映り込む時系列画像(映像)を入力し、各画像から顔領域を検出する。
図4は、対話装置のロボットがユーザの顔を撮影している外観図である。
図5は、顔領域検出部及び顔パラメータ抽出部の処理を表す説明図である。
顔領域検出部11は、カメラによって撮影された時系列の各画像フレームから、顔の目立つ特徴を抽出することによって顔自体を識別する。特徴としては、例えば、顔のパーツの相対位置や大きさ、目や鼻やほお骨やあごの形を用いる。顔画像の特徴から作成されたテンプレートと一致する画像部分を、顔領域として検索する。尚、顔認識アルゴリズムとしては、様々な既存の方法がある。
図5によれば、ユーザの顔が撮影された時系列画像が並んでおり、顔領域検出部11は、各画像から顔領域が検出されている。
[顔パラメータ抽出部12]
顔パラメータ抽出部12は、画像に映り込む顔領域から、顔の各パラメータを抽出する。顔の各パラメータとしては、以下のようなものを含む。
顔向きのオイラー角
顔の中心位置
顔のサイズ
顔パラメータの検出には、例えば頭部姿勢推定(Head Pose Estimation)方法を用いることができる(例えば非特許文献1参照)。
顔の向き判別をするために、画像認識として、オープンソースライブラリのOpenCV(画像処理)やDlib(機械学習)、深層学習分類モデルを用いて実装することができる。
顔の中心位置やサイズは、画角全体に対する顔領域の位置やサイズとして導出することができる。
顔パラメータは、ユーザの動作によって、例えば以下のように時系列に変化する。
(着席して携帯を見る)->
顔向きは真正面から下へ変化し、顔の中心位置は上から下へ変化する。
(起立して出かける)->
顔向きは前から後へ変化し、顔の中心位置は下から上へ変化する。
(薬を飲む)->
顔向きは下から上へ変化し、また再び下へ変化する。
(周辺を見ながらロボットに近づく)->
顔向きは左右に変化し、顔のサイズは大きく変化する。
(案内図を見ながら周辺を確認)->
顔向きは下から左右に変化し、また再び下へ変化する。
(ロボットの姿を見る)->
顔向きは上下左右に変化し、顔位置は上下左右に変化する。
抽出された時系列の顔パラメータは、特徴量抽出部13へ出力される。
[特徴量抽出部13]
特徴量抽出部13は、顔パラメータの時系列変化から「時間周波数特徴量」を抽出する。即ち、時間及び周波数に係る特徴量を同時に抽出する。
図6は、特徴量抽出部の処理を表す説明図である。
特徴量抽出部13は、顔の各パラメータの時系列に対して、例えば「短時間フーリエ変換」又は「ウェーブレット変換」によって時間周波数特徴量を抽出する。
短時間フーリエ変換(short-time Fourier transform:STFT)とは、時間を一定間隔ずつ切り出して、次々にフーリエ変換する方法である(例えば非特許文献2参照)。これによって、時間変化するパラメータの周波数と位相(の変化)を解析する。
短時間フーリエ変換を利用した場合、顔の各パラメータについて以下の表1のように、1列目は周波数、2列目は振幅に変換する。これに対して、短時間フーリエ変換を適用する。
Figure 2020067562
ウェーブレット変換(wavelet transformation)は、周波数に応じて解析する時間幅を変化させる方法である(例えば非特許文献3参照)。フーリエ変換によって周波数特性を求める際に失われる時間領域の情報を残す。ウェーブレット変換では、小さい波(ウェーブレット)を拡大縮小、平行移動して足し合わせることで、与えられた広い周波数領域の波形を表現することができる。
ウェーブレット変換を利用した場合、顔の各パラメータについて以下の表2のように、1列目は周波数(ウェーブレット変換の出力Scaleから換算)、2列目は開始時間〜終了時間、3列目は振幅に変換する。これに対して、ウェーブレット変換を適用し、時間的に変動する周波数成分を取得することによって、短時間フーリエ変換よりも詳細に時間周波数特徴量を導出することができる。
Figure 2020067562
顔の各パラメータに基づく時間周波数特徴量は、ユーザの行動パターン認識の網羅性と、発動タイミングが外乱の影響を受けにくいロバスト性とを向上させることができる。
[機械学習エンジン14]
機械学習エンジン14は、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものである。「発動」とは、ユーザに何らか話し掛けたり、又は、ロボットが動作してユーザの注目を受けることをいう。即ち、顔の各パラメータの時系列変化に基づく時間周波数特徴量と、発動タイミングOK又はNGとの相互関係を、学習モデルとして構築したものである。
機械学習エンジン14は、例えばLSTM(Long Short-Term Memory)であることが好ましい。LSTMとは、長期的な依存関係を学習可能な、RNN(Recurrent Neural Network)の一種である。RNNは、ニューラルネットワークのモジュールを繰り返す、鎖状のものである。
そして、機械学習エンジン14は、特徴量抽出部13から出力された時間周波数特徴量を入力し、現時点が、ユーザに対する発動タイミングか否かを推定する。
図3によれば、機械学習エンジン14は、発動タイミングOKである場合、その旨を、発動部15へ出力する。
また、機械学習エンジン14は、発動タイミングNGである場合、音声認識部101における音声認識確率の閾値を上げるように指示する。発動タイミングNGであるということは、ユーザが、対話装置1へ注目することはないために、音声認識確率を上げることによって、周辺雑音から音声認識されないようにする。これによって、ユーザの発話の誤認識を低減させることができる。
[発動部15]
発動部15は、機械学習エンジン14によって真(発動タイミングOK)と判定された場合、ユーザに対して発動する。ここで、「発動」とは、例えば以下のような態様をいう。
(1)ユーザに対する発動として、対話シナリオに基づく初期テキストを発話する。
(2)当該対話装置が、動作可能なロボットである場合、ユーザに対する発動として、行動シナリオに基づく初期挙動で動作する。
次に、機械学習エンジン14における学習処理について説明する。
機械学習エンジン14は、予め蓄積された教師データに基づいて学習モデルを構築する初期段階の学習処理と、教師データを収集しながら学習モデルを構築する推定段階の学習処理とを実行する。
<機械学習エンジン14の初期段階の学習処理>
図7は、初期段階における各機能構成部の処理の流れを表す説明図である。
図7によれば、教師データとして、ユーザの顔の映像と、発動可否(正例・負例)とが対応付けられている。教師データは、例えば対話装置1のカメラの前で、複数の被験者における模範的な顔の動きを記録したものである。被験者の顔の動きの映像から、話し掛け又は動作の発動タイミングの可否を対応付ける。
ユーザの顔の映像は、前述した顔領域検出部11、顔パラメータ抽出部12及び特徴量抽出部13によって処理され、時間周波数特徴量が得られる。その時間周波数特徴量と発動可否(正例・負例)とを対応付けて、機械学習エンジン14へ入力する。これによって、機械学習エンジン14は、学習モデルを構築する。
<機械学習エンジン14の推定段階の学習処理>
機械学習エンジン14は、初期段階で全ての学習パターンをカバーすることは困難となる。そのために、推定段階(運用段階)でも、ユーザの肯定的な反応、又は、否定的な反応に基づいて正例・負例の教師データを収集する。
機械学習エンジン14は、推定段階を実行しながら、正例となる教師データと、負例となる教師データとを収集する。
図8は、学習させる各機能構成部の処理の流れを表す説明図である。
(正例となる教師データを収集する場合)
対話シナリオの中断中に、ユーザから発話された時、機械学習エンジン14は、その時までの時間周波数特徴量に対して発動可能(正例)として、教師データを収集する。
対話装置1から話し掛けたり又は動作したりしてはいけない(負例)と判定しているにも関わらず、ユーザの反応が肯定的である(自らロボットに声をかける)場合、この直前までの時間周波数特徴量は、発動可能であったと判定する。
(負例となる教師データを収集する場合)
発動タイミングで発動部15から話し掛け又は動作をした後、ユーザとの対話が成立しなかった時、機械学習エンジン14は、その時までの時間周波数特徴量に対して発動不可として、教師データを収集する。
対話装置1から話し掛けたり又は動作してもよい(正例)と判定しているにも関わらず、ユーザの反応が否定的である(無視している)場合、この直前までの時間周波数特徴量は、発動不可であったと判定する。
<異なるタイムスパンの設定>
他の実施形態として、機械学習エンジンの教師データは、異なるタイムスパン毎に、時間周波数特徴量と発動可否とを対応付けたものであることも好ましい。
例えば、細粒度及び粗粒度の複数のタイムスパンを設定し、直近N秒間の固定フレーム数をデフォルト値として設定する。
(細粒度のタイムスパン) 直近1秒・10フレーム ->時間周波数特徴量の導出
(粗粒度のタイムスパン) 直近5秒・10フレーム ->時間周波数特徴量の導出
タイムスパンとは、時間周波数特徴量を導出するために使用する画像の時間間隔(サンプリング間隔)をいう。
前述した特徴量抽出部13は、ユーザの顔が映り込む同じ映像を入力しても、タイムスパン毎に異なる時間周波数特徴量を出力する。そして、タイムスパン毎に、時間周波数特徴量を、機械学習エンジン14へ入力する。これによって、タイムスパン毎に、異なる学習モデルを構築することとなる。
機械学習エンジン14は、推定段階について、タイムスパン毎に推定精度を評価するものであってもよい。精度が最大となるタイムスパンを用いることもできる。ここでの推定精度は、タイムスパン毎の推定結果と、ユーザの肯定的な反応又は否定的な反応とを照合し、一致率として算出したものであってもよい。
以上、詳細に説明したように、本発明の対話装置、プログラム及び方法によれば、ユーザの顔の映像から、ユーザに対する話し掛けや動作の発動タイミングを高い精度で推定することができる。即ち、ユーザから見て、利便性及びインテリジェンス性を向上させて、人の空気が読めるロボットやスマートスピーカを実現することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 対話装置
11 顔領域検出部
12 顔パラメータ抽出部
13 特徴量抽出部
14 機械学習エンジン
15 発動部
101 音声認識部
102 対話実行部
103 音声変換部

Claims (11)

  1. ユーザと対話する対話装置において、
    カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出手段と、
    画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出手段と、
    前記顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出手段と、
    時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものであって、前記時間周波数特徴量から、現時点が、ユーザに対する発動タイミングか否かを推定する機械学習エンジンと、
    前記機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動手段と
    を有することを特徴とする対話装置。
  2. 前記顔パラメータ抽出手段は、顔の各パラメータとして、顔向きのオイラー角、顔の中心位置、及び/又は、顔のサイズを含む
    ことを特徴とする請求項1に記載の対話装置。
  3. ユーザの発話音声からテキストを抽出する音声認識手段を更に有し、
    前記機械学習エンジンによって偽と判定された場合、前記音声認識手段における音声認識確率の閾値を上げることによって、音声認識の誤りを低減させる
    ことを特徴とする請求項1又は2に記載の対話装置。
  4. 前記発動手段は、ユーザに対する発動として、対話シナリオに基づく初期テキストを発話する
    ことを特徴とする請求項1から3のいずれか1項に記載の対話装置。
  5. 当該対話装置が、動作可能なロボットである場合、
    前記発動手段は、ユーザに対する発動として、行動シナリオに基づく初期挙動で動作する
    ことを特徴とする請求項1から3のいずれか1項に記載の対話装置。
  6. 前記対話シナリオ発動手段が初期テキストを発話した後、ユーザとの対話が成立しなかった時、
    前記機械学習エンジンは、その時までの時間周波数特徴量に対して発動不可(負例)として教師データを収集する
    ことを特徴とする請求項4に記載の対話装置。
  7. 対話シナリオの中断中に、ユーザから発話された時、
    前記機械学習エンジンは、その時までの前記時間周波数特徴量に対して発動可能(正例)として教師データを収集する
    ことを特徴とする請求項4又は6に記載の対話装置。
  8. 前記機械学習エンジンの前記教師データは、時系列画像における異なるタイムスパン毎に、前記時間周波数特徴量と発動可否とを対応付けたものであり、
    前記機械学習エンジンにおけるタイムスパン毎の推定精度に基づいて1つのタイムスパンを決定する
    ことを特徴とする請求項1から7のいずれか1項に記載の対話装置。
  9. 前記特徴量抽出手段は、顔の各パラメータの時系列に対して、短時間フーリエ変換又はウェーブレット変換によって時間周波数特徴量を抽出するものであり、
    前記機械学習エンジンは、LSTM(Long Short-Term Memory)である
    ようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載のプログラム。
  10. ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
    カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出手段と、
    画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出手段と、
    前記顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出手段と、
    時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものであって、前記時間周波数特徴量から、現時点が、ユーザに対する発動タイミングか否かを推定する機械学習エンジンと、
    前記機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動手段と
    してコンピュータを機能させることを特徴とするプログラム。
  11. ユーザと対話する装置の対話方法において、
    前記装置は、
    時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習した機械学習エンジンを有し、
    カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する第1のステップと、
    画像に映り込む顔領域から、顔の各パラメータを抽出する第2のステップと、
    前記顔パラメータの時系列変化から時間周波数特徴量を抽出する第3のステップと、
    前記機械学習エンジンを用いて、前記時間周波数特徴量から、現時点が、ユーザに対する発動タイミングか否かを推定する第4のステップと、
    第4のステップによって真と判定された場合、ユーザに対して発動する第5のステップと
    実行することを特徴とする装置の対話方法。
JP2018200329A 2018-10-24 2018-10-24 ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 Active JP7032284B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018200329A JP7032284B2 (ja) 2018-10-24 2018-10-24 ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018200329A JP7032284B2 (ja) 2018-10-24 2018-10-24 ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2020067562A true JP2020067562A (ja) 2020-04-30
JP7032284B2 JP7032284B2 (ja) 2022-03-08

Family

ID=70390245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018200329A Active JP7032284B2 (ja) 2018-10-24 2018-10-24 ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP7032284B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023017745A1 (ja) * 2021-08-10 2023-02-16 本田技研工業株式会社 コミュニケーションロボット、コミュニケーションロボット制御方法、およびプログラム
CN116564005A (zh) * 2023-07-11 2023-08-08 深圳市瑞凯诺科技有限公司 智能充电桩的无线启动方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021407A (ja) * 1996-06-28 1998-01-23 Osaka Kagaku Gijutsu Center 動き検出装置
JP2004206704A (ja) * 2002-12-11 2004-07-22 Samsung Sdi Co Ltd ユーザとエージェント間の対話管理方法及び装置
JP2010170392A (ja) * 2009-01-23 2010-08-05 Toyota Central R&D Labs Inc ジェスチャ認識装置、及びプログラム
JP2017159396A (ja) * 2016-03-09 2017-09-14 大日本印刷株式会社 案内ロボット制御システム、プログラム及び案内ロボット
JP2018087847A (ja) * 2016-11-28 2018-06-07 日本電信電話株式会社 対話制御装置、その方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021407A (ja) * 1996-06-28 1998-01-23 Osaka Kagaku Gijutsu Center 動き検出装置
JP2004206704A (ja) * 2002-12-11 2004-07-22 Samsung Sdi Co Ltd ユーザとエージェント間の対話管理方法及び装置
JP2010170392A (ja) * 2009-01-23 2010-08-05 Toyota Central R&D Labs Inc ジェスチャ認識装置、及びプログラム
JP2017159396A (ja) * 2016-03-09 2017-09-14 大日本印刷株式会社 案内ロボット制御システム、プログラム及び案内ロボット
JP2018087847A (ja) * 2016-11-28 2018-06-07 日本電信電話株式会社 対話制御装置、その方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023017745A1 (ja) * 2021-08-10 2023-02-16 本田技研工業株式会社 コミュニケーションロボット、コミュニケーションロボット制御方法、およびプログラム
CN116564005A (zh) * 2023-07-11 2023-08-08 深圳市瑞凯诺科技有限公司 智能充电桩的无线启动方法及系统
CN116564005B (zh) * 2023-07-11 2023-09-08 深圳市瑞凯诺科技有限公司 智能充电桩的无线启动方法及系统

Also Published As

Publication number Publication date
JP7032284B2 (ja) 2022-03-08

Similar Documents

Publication Publication Date Title
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US20220375472A1 (en) Method and system of audio false keyphrase rejection using speaker recognition
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US9293133B2 (en) Improving voice communication over a network
US8635066B2 (en) Camera-assisted noise cancellation and speech recognition
US9412361B1 (en) Configuring system operation using image data
CN112074901A (zh) 语音识别登入
CN112088315A (zh) 多模式语音定位
JP2017156854A (ja) 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
Minotto et al. Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM
CN112016367A (zh) 一种情绪识别系统、方法及电子设备
JP7323098B2 (ja) 対話支援装置、対話支援システム、及び対話支援プログラム
JP2018169506A (ja) 会話満足度推定装置、音声処理装置および会話満足度推定方法
JP7032284B2 (ja) ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法
CN109065026B (zh) 一种录音控制方法及装置
WO2016206647A1 (zh) 用于控制机器装置产生动作的系统
US20180126561A1 (en) Generation device, control method, robot device, call system, and computer-readable recording medium
JP7400364B2 (ja) 音声認識システム及び情報処理方法
JP7323475B2 (ja) 情報処理装置および行動モード設定方法
US20210166685A1 (en) Speech processing apparatus and speech processing method
JP2018087838A (ja) 音声認識装置
US20190272828A1 (en) Speaker estimation method and speaker estimation device
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6855737B2 (ja) 情報処理装置、評価システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220224

R150 Certificate of patent or registration of utility model

Ref document number: 7032284

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150