JP7032284B2 - A device, program and method for estimating the activation timing based on the image of the user's face. - Google Patents
A device, program and method for estimating the activation timing based on the image of the user's face. Download PDFInfo
- Publication number
- JP7032284B2 JP7032284B2 JP2018200329A JP2018200329A JP7032284B2 JP 7032284 B2 JP7032284 B2 JP 7032284B2 JP 2018200329 A JP2018200329 A JP 2018200329A JP 2018200329 A JP2018200329 A JP 2018200329A JP 7032284 B2 JP7032284 B2 JP 7032284B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- face
- user
- feature amount
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Manipulator (AREA)
- Image Analysis (AREA)
Description
本発明は、ユーザと自然な対話を実現する対話装置の技術に関する。 The present invention relates to a technique of a dialogue device that realizes a natural dialogue with a user.
対話装置は、スマートフォンやタブレット端末のインタフェースを介して、ユーザと対話する。ユーザの発話音声をテキストに変換し、その文脈構成から発話意味を推定する。そして、その発話意味に対応する対話シナリオに基づいて、ユーザに応答する。例えば、「Siri(登録商標)」や「しゃべってコンシェル(登録商標)」のような対話システムがある。 The dialogue device interacts with the user via the interface of the smartphone or tablet terminal. The user's utterance voice is converted into text, and the utterance meaning is estimated from the context structure. Then, it responds to the user based on the dialogue scenario corresponding to the utterance meaning. For example, there are dialogue systems such as "Siri®" and "Shabette Concierge®".
近年、ユーザとの対話装置として、「Google Home(登録商標)」や「Amazon Echo(登録商標)」のようなスマートスピーカや、「SOTA(登録商標)」や「ユニボー(登録商標)」のようなロボットが用いられてきている(以下「ロボット」と称す)。ユーザは、これらロボットと対話する前に、アクティブコマンド(「OK, XXX」, etc.)を発話する必要がある。このコマンドを検知したロボットは、音声認識機能を起動し、その後に続くユーザの発話音声を認識するように動作する。 In recent years, smart speakers such as "Google Home (registered trademark)" and "Amazon Echo (registered trademark)" and "SOTA (registered trademark)" and "Unibo (registered trademark)" have been used as devices for interacting with users. Robots have been used (hereinafter referred to as "robots"). The user needs to speak an active command ("OK, XXX", etc.) before interacting with these robots. The robot that detects this command activates the voice recognition function and operates to recognize the subsequent user's spoken voice.
従来、ユーザの意図を考慮して声を掛ける案内ロボットの技術がある(例えば特許文献1参照)。この技術によれば、時系列に連続したフレーム画像毎に、ユーザが見ている方向を判別し、時間経過に伴うその方向の変化を表す方向変化量を算出し、その方向変化量に基づいて声を掛けるか否かを判断する。具体的には、展示場内や店舗内で、キョロキョロして何か困っているユーザに、声を掛けることができる。 Conventionally, there is a technique of a guidance robot that calls out in consideration of the user's intention (see, for example, Patent Document 1). According to this technology, the direction the user is looking at is determined for each frame image that is continuous in time series, the amount of change in direction representing the change in that direction with the passage of time is calculated, and the amount of change in direction is calculated based on the amount of change in direction. Decide whether to call out. Specifically, it is possible to reach out to users who are having trouble with something in the exhibition hall or in the store.
また、店舗内の顧客の態様から、最適な広告を表示する顧客購買意思予測装置の技術もある(例えば特許文献2参照)。この技術によれば、顧客の顔の向きの変化を一定時間に渡って追跡し、商品に対して顧客の顔の向きが停止している商品注意時間が最長となるその商品を、顧客に推薦することができる。 Further, there is also a technique of a customer purchase intention prediction device that displays an optimum advertisement from the aspect of the customer in the store (see, for example, Patent Document 2). According to this technology, changes in the customer's face orientation are tracked over a certain period of time, and the product whose customer's face orientation is stopped with respect to the product is recommended to the customer for the longest product attention time. can do.
ユーザにとって、ロボットに毎回、アクティブコマンドを発話することは面倒な場合がある。
例えばテレビや会話などの周辺雑音が多い宅内や店舗では、ユーザが発話するアクティブコマンドを、ロボットが認識できない場合がある。
逆に、ユーザが意図的にロボットに向かって発話していない時でも、ロボットが周辺雑音に反応して誤動作してしまう場合もある。
It can be tedious for the user to say the active command to the robot every time.
For example, in a house or a store where there is a lot of ambient noise such as TV or conversation, the robot may not be able to recognize the active command spoken by the user.
On the contrary, even when the user does not intentionally speak to the robot, the robot may malfunction in response to ambient noise.
また、特許文献1及び2のように、ユーザの顔の向きの変化量のみで、ロボットが話し掛けるタイミングを、ユーザにとって最適なものとすることは精度的に難しい。
これに対し、本願の発明者らは、ユーザがロボットに話し掛けたいタイミングでは、ユーザの顔の映像に何らかの特徴的変化があるのではないか、と考えた。この特徴的変化を経験値から学習して見い出すことができれば、最適な発動タイミングを特定することができるのではないか、と考えた。
Further, as in
On the other hand, the inventors of the present application thought that there might be some characteristic change in the image of the user's face at the timing when the user wants to talk to the robot. I thought that if we could learn and find this characteristic change from the experience value, we would be able to identify the optimal activation timing.
そこで、本発明は、ユーザの顔の映像から、ユーザに対する話し掛けや動作の発動タイミングを高い精度で推定する装置、プログラム及び方法を提供することを目的とする。 Therefore, an object of the present invention is to provide a device, a program, and a method for estimating with high accuracy the timing of talking to a user or invoking an action from an image of a user's face.
本発明によれば、ユーザと対話する対話装置において、
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出手段と、
画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出手段と、
前記顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出手段と、
時系列画像における異なるタイムスパン毎に、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものであって、推定時に、タイムスパン毎の時間周波数特徴量を入力し、推定精度が最大となるタイムスパンに基づいて、前記現時点がユーザに対する発動タイミングか否かを推定する機械学習エンジンと、
前記機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動手段と
を有することを特徴とする。
According to the present invention, in a dialogue device that interacts with a user,
A face area detection means that inputs a time-series image of the user's face taken by the camera and detects the face area from each image, and
Face parameter extraction means that extracts each parameter of the face from the face area reflected in the image,
A feature amount extraction means for extracting a time-frequency feature amount from the time-series change of the face parameter, and a feature amount extraction means.
It was learned in advance from the teacher data in which the time-frequency feature amount and the activation availability (positive example / negative example) were associated with each different time span in the time-series image, and the time-frequency feature for each time span was learned at the time of estimation. A machine learning engine that inputs an amount and estimates whether or not the current timing is the activation timing for the user based on the time span that maximizes the estimation accuracy .
It is characterized by having an activation means that is activated for the user when it is determined to be true by the machine learning engine.
本発明の対話装置における他の実施形態によれば、
顔パラメータ抽出手段は、顔の各パラメータとして、顔向きのオイラー角、顔の中心位置、及び/又は、顔のサイズを含むことも好ましい。
According to another embodiment of the dialogue device of the present invention.
It is also preferable that the face parameter extraction means includes Euler angles for the face, the center position of the face, and / or the size of the face as each parameter of the face.
本発明の対話装置における他の実施形態によれば、
ユーザの発話音声からテキストを抽出する音声認識手段を更に有し、
機械学習エンジンによって偽と判定された場合、音声認識手段における音声認識確率の閾値を上げることによって、音声認識の誤りを低減させる
ことも好ましい。
According to another embodiment of the dialogue device of the present invention.
It also has a voice recognition means to extract text from the user's spoken voice.
When it is determined to be false by the machine learning engine, it is also preferable to reduce the error in speech recognition by increasing the threshold value of the speech recognition probability in the speech recognition means.
本発明の対話装置における他の実施形態によれば、
発動手段は、ユーザに対する発動として、対話シナリオに基づく初期テキストを発話することも好ましい。
According to another embodiment of the dialogue device of the present invention.
It is also preferable that the triggering means utters an initial text based on a dialogue scenario as a triggering to the user.
本発明の対話装置における他の実施形態によれば、
当該対話装置が、動作可能なロボットである場合、
発動手段は、ユーザに対する発動として、行動シナリオに基づく初期挙動で動作することも好ましい。
According to another embodiment of the dialogue device of the present invention.
If the dialogue device is a movable robot,
It is also preferable that the activation means operates with the initial behavior based on the action scenario as the activation for the user.
本発明の対話装置における他の実施形態によれば、
対話シナリオ発動手段が初期テキストを発話した後、ユーザとの対話が成立しなかった時、
機械学習エンジンは、その時までの時間周波数特徴量に対して発動不可(負例)として教師データを収集する
ことも好ましい。
According to another embodiment of the dialogue device of the present invention.
When the dialogue with the user is not established after the dialogue scenario trigger means utters the initial text.
It is also preferable that the machine learning engine collects teacher data as inoperable (negative example) for the time-frequency features up to that time.
本発明の対話装置における他の実施形態によれば、
対話シナリオの中断中に、ユーザから発話された時、
機械学習エンジンは、その時までの時間周波数特徴量に対して発動可能(正例)として教師データを収集することも好ましい。
According to another embodiment of the dialogue device of the present invention.
When spoken by the user during the interruption of the dialogue scenario
It is also preferable that the machine learning engine collects teacher data as being operable (normal example) for the time-frequency features up to that time.
本発明の対話装置における他の実施形態によれば、
特徴量抽出手段は、顔の各パラメータの時系列に対して、短時間フーリエ変換又はウェーブレット変換によって時間周波数特徴量を抽出するものであり、
機械学習エンジンは、LSTM(Long Short-Term Memory)である
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the dialogue device of the present invention.
The feature amount extraction means extracts the time-frequency feature amount by short-time Fourier transform or wavelet transform for the time series of each parameter of the face.
It is also preferable that the machine learning engine functions the computer as if it were an LSTM (Long Short-Term Memory).
本発明によれば、ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出手段と、
画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出手段と、
前記顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出手段と、
時系列画像における異なるタイムスパン毎に、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものであって、推定時に、タイムスパン毎の時間周波数特徴量を入力し、推定精度が最大となるタイムスパンに基づいて、前記現時点がユーザに対する発動タイミングか否かを推定する機械学習エンジンと、
前記機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, in a program for operating a computer mounted on a device that interacts with a user.
A face area detection means that inputs a time-series image of the user's face taken by the camera and detects the face area from each image, and
Face parameter extraction means that extracts each parameter of the face from the face area reflected in the image,
A feature amount extraction means for extracting a time-frequency feature amount from the time-series change of the face parameter, and a feature amount extraction means.
It was learned in advance from the teacher data in which the time-frequency feature amount and the activation availability (positive example / negative example) were associated with each different time span in the time-series image, and the time-frequency feature for each time span was learned at the time of estimation. A machine learning engine that inputs an amount and estimates whether or not the current timing is the activation timing for the user based on the time span that maximizes the estimation accuracy .
When it is determined to be true by the machine learning engine, it is characterized in that the computer functions as an activation means to be activated for the user.
本発明によれば、ユーザと対話する装置の対話方法において、
装置は、
時系列画像における異なるタイムスパン毎に、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習した機械学習エンジンを有し、
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する第1のステップと、
画像に映り込む顔領域から、顔の各パラメータを抽出する第2のステップと、
前記顔パラメータの時系列変化から時間周波数特徴量を抽出する第3のステップと、
前記機械学習エンジンを用いて、推定時に、タイムスパン毎の時間周波数特徴量から、推定精度が最大となるタイムスパンに基づいて、前記現時点がユーザに対する発動タイミングか否かを推定する第4のステップと、
第4のステップによって真と判定された場合、ユーザに対して発動する第5のステップと
を実行することを特徴とする。
According to the present invention, in a method of interacting with a device that interacts with a user,
The device is
It has a machine learning engine that has been learned in advance using teacher data that associates time-frequency features with activation availability (positive and negative examples) for each different time span in a time-series image .
The first step of inputting a time-series image in which the user's face taken by the camera is reflected and detecting the face area from each image, and
The second step of extracting each parameter of the face from the face area reflected in the image,
The third step of extracting the time-frequency feature amount from the time-series change of the face parameter, and
A fourth method of estimating whether or not the current time is the activation timing for the user based on the time span that maximizes the estimation accuracy from the time frequency feature amount for each time span at the time of estimation using the machine learning engine. Steps and
If it is determined to be true by the 4th step, the 5th step to be activated for the user
It is characterized by executing.
本発明の対話装置、プログラム及び方法によれば、ユーザの顔の映像から、ユーザに対する話し掛けや動作の発動タイミングを高い精度で推定することができる。 According to the dialogue device, the program, and the method of the present invention, it is possible to estimate the timing of talking to the user and the activation timing of the operation with high accuracy from the image of the user's face.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明における対話装置の機能構成図である。 FIG. 1 is a functional configuration diagram of the dialogue device in the present invention.
図1によれば、対話装置1は、ユーザと対話するロボット(スマートスピーカも含む)である。対話装置1は、ユーザインタフェースの入出力デバイスとして、マイク、スピーカ及びカメラを搭載している。カメラは、ユーザの顔の映像を撮影する。マイクは、ユーザの発話音声を取得する。スピーカは、音声によってユーザへ発話する。
ユーザは、キャラクタとしてのロボットの対話装置1との間で、自然な対話を実現することができる。
According to FIG. 1, the
The user can realize a natural dialogue with the
図2は、対話システムにおけるサーバの機能構成図である。 FIG. 2 is a functional configuration diagram of a server in a dialogue system.
図2によれば、図1における本発明の機能構成と全く同じであるが、サーバによって構成されている。ユーザによって所持されるスマートフォンやタブレット端末が、対話システムにおけるユーザインタフェースとなる。 According to FIG. 2, it is exactly the same as the functional configuration of the present invention in FIG. 1, but is configured by a server. A smartphone or tablet terminal owned by the user serves as a user interface in the dialogue system.
本発明の対話装置1は、ユーザにとって最良のタイミングで能動的に、ユーザに話し掛けたり又は動作(例えばロボットが、手を上げる又は歩き始める等)することができる。
図1によれば、対話装置1は、顔領域検出部11と、顔パラメータ抽出部12と、特徴量抽出部13と、機械学習エンジン14と、発動部15と、音声認識部101と、対話実行部102と、音声変換部103とを有する。これら機能構成部は、対話装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置の対話方法としても理解できる。
The
According to FIG. 1, the
音声認識部101、対話実行部102及び音声変換部103は、一般的な対話装置の機能構成部である。
音声認識部101は、マイクからユーザの発話音声を入力し、その発話音声をテキストに変換し、そのテキストを対話実行部102へ出力する。
対話実行部102は、音声認識部101から入力したテキストに対して、次の対話シナリオとなるテキストを検索する。そのテキストは、音声変換部103へ出力される。対話シナリオとは、ユーザの発話テキストに対して次の対話テキストを対応付けたものであり、質問及び回答からなる対話ノードをツリー状に構成したものである。
音声変換部103は、対話実行部102からユーザに対する対話文を入力し、その対話文を音声信号に変換し、その音声信号をスピーカへ出力する。
The
The
The
The
本発明によれば、対話装置1は、機械学習エンジン14を用いた<推定段階>と<初期段階>とに分けられる。
According to the present invention, the
<推定段階>
図3は、推定段階における各機能構成部の処理の流れを表す説明図である。
<Estimation stage>
FIG. 3 is an explanatory diagram showing a processing flow of each functional component in the estimation stage.
[顔領域検出部11]
顔領域検出部11は、カメラによって撮影されたユーザの顔が映り込む時系列画像(映像)を入力し、各画像から顔領域を検出する。
[Face area detection unit 11]
The face
図4は、対話装置のロボットがユーザの顔を撮影している外観図である。
図5は、顔領域検出部及び顔パラメータ抽出部の処理を表す説明図である。
FIG. 4 is an external view in which the robot of the dialogue device photographs the user's face.
FIG. 5 is an explanatory diagram showing the processing of the face area detection unit and the face parameter extraction unit.
顔領域検出部11は、カメラによって撮影された時系列の各画像フレームから、顔の目立つ特徴を抽出することによって顔自体を識別する。特徴としては、例えば、顔のパーツの相対位置や大きさ、目や鼻やほお骨やあごの形を用いる。顔画像の特徴から作成されたテンプレートと一致する画像部分を、顔領域として検索する。尚、顔認識アルゴリズムとしては、様々な既存の方法がある。
図5によれば、ユーザの顔が撮影された時系列画像が並んでおり、顔領域検出部11は、各画像から顔領域が検出されている。
The face
According to FIG. 5, time-series images of the user's face are arranged side by side, and the face
[顔パラメータ抽出部12]
顔パラメータ抽出部12は、画像に映り込む顔領域から、顔の各パラメータを抽出する。顔の各パラメータとしては、以下のようなものを含む。
顔向きのオイラー角
顔の中心位置
顔のサイズ
[Face parameter extraction unit 12]
The face
Euler angles for the face Center position of the face Face size
顔パラメータの検出には、例えば頭部姿勢推定(Head Pose Estimation)方法を用いることができる(例えば非特許文献1参照)。
顔の向き判別をするために、画像認識として、オープンソースライブラリのOpenCV(画像処理)やDlib(機械学習)、深層学習分類モデルを用いて実装することができる。
顔の中心位置やサイズは、画角全体に対する顔領域の位置やサイズとして導出することができる。
For the detection of face parameters, for example, a head pose estimation method can be used (see, for example, Non-Patent Document 1).
In order to determine the orientation of the face, it can be implemented as image recognition using OpenCV (image processing), Dlib (machine learning), and deep learning classification model of the open source library.
The center position and size of the face can be derived as the position and size of the face region with respect to the entire angle of view.
顔パラメータは、ユーザの動作によって、例えば以下のように時系列に変化する。
(着席して携帯を見る)->
顔向きは真正面から下へ変化し、顔の中心位置は上から下へ変化する。
(起立して出かける)->
顔向きは前から後へ変化し、顔の中心位置は下から上へ変化する。
(薬を飲む)->
顔向きは下から上へ変化し、また再び下へ変化する。
(周辺を見ながらロボットに近づく)->
顔向きは左右に変化し、顔のサイズは大きく変化する。
(案内図を見ながら周辺を確認)->
顔向きは下から左右に変化し、また再び下へ変化する。
(ロボットの姿を見る)->
顔向きは上下左右に変化し、顔位置は上下左右に変化する。
The face parameters change in time series, for example, as follows, depending on the user's actions.
(Sit down and look at your cellphone)->
The face orientation changes from the front to the bottom, and the center position of the face changes from the top to the bottom.
(Stand up and go out)->
The face orientation changes from front to back, and the center position of the face changes from bottom to top.
(Take medicine)->
The face orientation changes from bottom to top and then down again.
(Approaching the robot while looking around)->
The orientation of the face changes from side to side, and the size of the face changes greatly.
(Check the surrounding area while looking at the guide map)->
The face orientation changes from bottom to left and right, and then down again.
(See the robot)->
The face orientation changes up, down, left and right, and the face position changes up, down, left and right.
抽出された時系列の顔パラメータは、特徴量抽出部13へ出力される。
The extracted time-series face parameters are output to the feature
[特徴量抽出部13]
特徴量抽出部13は、顔パラメータの時系列変化から「時間周波数特徴量」を抽出する。即ち、時間及び周波数に係る特徴量を同時に抽出する。
[Feature amount extraction unit 13]
The feature
図6は、特徴量抽出部の処理を表す説明図である。 FIG. 6 is an explanatory diagram showing the processing of the feature amount extraction unit.
特徴量抽出部13は、顔の各パラメータの時系列に対して、例えば「短時間フーリエ変換」又は「ウェーブレット変換」によって時間周波数特徴量を抽出する。
The feature
短時間フーリエ変換(short-time Fourier transform:STFT)とは、時間を一定間隔ずつ切り出して、次々にフーリエ変換する方法である(例えば非特許文献2参照)。これによって、時間変化するパラメータの周波数と位相(の変化)を解析する。 The short-time Fourier transform (STFT) is a method of cutting out time at regular intervals and performing a Fourier transform one after another (see, for example, Non-Patent Document 2). In this way, the frequency and phase (change) of the parameter that changes with time are analyzed.
短時間フーリエ変換を利用した場合、顔の各パラメータについて以下の表1のように、1列目は周波数、2列目は振幅に変換する。これに対して、短時間フーリエ変換を適用する。
ウェーブレット変換(wavelet transformation)は、周波数に応じて解析する時間幅を変化させる方法である(例えば非特許文献3参照)。フーリエ変換によって周波数特性を求める際に失われる時間領域の情報を残す。ウェーブレット変換では、小さい波(ウェーブレット)を拡大縮小、平行移動して足し合わせることで、与えられた広い周波数領域の波形を表現することができる。 The wavelet transformation is a method of changing the time width for analysis according to the frequency (see, for example, Non-Patent Document 3). It leaves information in the time domain that is lost when the frequency characteristics are obtained by the Fourier transform. In the wavelet transform, a waveform in a given wide frequency domain can be expressed by enlarging / reducing a small wave (wavelet), moving it in parallel, and adding them together.
ウェーブレット変換を利用した場合、顔の各パラメータについて以下の表2のように、1列目は周波数(ウェーブレット変換の出力Scaleから換算)、2列目は開始時間~終了時間、3列目は振幅に変換する。これに対して、ウェーブレット変換を適用し、時間的に変動する周波数成分を取得することによって、短時間フーリエ変換よりも詳細に時間周波数特徴量を導出することができる。
顔の各パラメータに基づく時間周波数特徴量は、ユーザの行動パターン認識の網羅性と、発動タイミングが外乱の影響を受けにくいロバスト性とを向上させることができる。 The time-frequency feature amount based on each parameter of the face can improve the completeness of the user's behavior pattern recognition and the robustness in which the activation timing is less susceptible to disturbance.
[機械学習エンジン14]
機械学習エンジン14は、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものである。「発動」とは、ユーザに何らか話し掛けたり、又は、ロボットが動作してユーザの注目を受けることをいう。即ち、顔の各パラメータの時系列変化に基づく時間周波数特徴量と、発動タイミングOK又はNGとの相互関係を、学習モデルとして構築したものである。
[Machine learning engine 14]
The
機械学習エンジン14は、例えばLSTM(Long Short-Term Memory)であることが好ましい。LSTMとは、長期的な依存関係を学習可能な、RNN(Recurrent Neural Network)の一種である。RNNは、ニューラルネットワークのモジュールを繰り返す、鎖状のものである。
The
そして、機械学習エンジン14は、特徴量抽出部13から出力された時間周波数特徴量を入力し、現時点が、ユーザに対する発動タイミングか否かを推定する。
図3によれば、機械学習エンジン14は、発動タイミングOKである場合、その旨を、発動部15へ出力する。
また、機械学習エンジン14は、発動タイミングNGである場合、音声認識部101における音声認識確率の閾値を上げるように指示する。発動タイミングNGであるということは、ユーザが、対話装置1へ注目することはないために、音声認識確率を上げることによって、周辺雑音から音声認識されないようにする。これによって、ユーザの発話の誤認識を低減させることができる。
Then, the
According to FIG. 3, when the activation timing is OK, the
Further, when the activation timing is NG, the
[発動部15]
発動部15は、機械学習エンジン14によって真(発動タイミングOK)と判定された場合、ユーザに対して発動する。ここで、「発動」とは、例えば以下のような態様をいう。
(1)ユーザに対する発動として、対話シナリオに基づく初期テキストを発話する。
(2)当該対話装置が、動作可能なロボットである場合、ユーザに対する発動として、行動シナリオに基づく初期挙動で動作する。
[Activator 15]
When the
(1) Speak an initial text based on a dialogue scenario as an activation for the user.
(2) When the dialogue device is an operable robot, it operates in the initial behavior based on the behavior scenario as an activation for the user.
次に、機械学習エンジン14における学習処理について説明する。
機械学習エンジン14は、予め蓄積された教師データに基づいて学習モデルを構築する初期段階の学習処理と、教師データを収集しながら学習モデルを構築する推定段階の学習処理とを実行する。
Next, the learning process in the
The
<機械学習エンジン14の初期段階の学習処理>
図7は、初期段階における各機能構成部の処理の流れを表す説明図である。
<Learning process at the initial stage of
FIG. 7 is an explanatory diagram showing a processing flow of each functional component in the initial stage.
図7によれば、教師データとして、ユーザの顔の映像と、発動可否(正例・負例)とが対応付けられている。教師データは、例えば対話装置1のカメラの前で、複数の被験者における模範的な顔の動きを記録したものである。被験者の顔の動きの映像から、話し掛け又は動作の発動タイミングの可否を対応付ける。
According to FIG. 7, as the teacher data, the image of the user's face and whether or not it can be activated (positive example / negative example) are associated with each other. The teacher data is, for example, recording the model facial movements of a plurality of subjects in front of the camera of the
ユーザの顔の映像は、前述した顔領域検出部11、顔パラメータ抽出部12及び特徴量抽出部13によって処理され、時間周波数特徴量が得られる。その時間周波数特徴量と発動可否(正例・負例)とを対応付けて、機械学習エンジン14へ入力する。これによって、機械学習エンジン14は、学習モデルを構築する。
The image of the user's face is processed by the face
<機械学習エンジン14の推定段階の学習処理>
機械学習エンジン14は、初期段階で全ての学習パターンをカバーすることは困難となる。そのために、推定段階(運用段階)でも、ユーザの肯定的な反応、又は、否定的な反応に基づいて正例・負例の教師データを収集する。
機械学習エンジン14は、推定段階を実行しながら、正例となる教師データと、負例となる教師データとを収集する。
<Learning process at the estimation stage of the
It becomes difficult for the
The
図8は、学習させる各機能構成部の処理の流れを表す説明図である。 FIG. 8 is an explanatory diagram showing a processing flow of each functional component to be learned.
(正例となる教師データを収集する場合)
対話シナリオの中断中に、ユーザから発話された時、機械学習エンジン14は、その時までの時間周波数特徴量に対して発動可能(正例)として、教師データを収集する。
対話装置1から話し掛けたり又は動作したりしてはいけない(負例)と判定しているにも関わらず、ユーザの反応が肯定的である(自らロボットに声をかける)場合、この直前までの時間周波数特徴量は、発動可能であったと判定する。
(When collecting positive teacher data)
When the user speaks during the interruption of the dialogue scenario, the
If the user's reaction is positive (speaks to the robot by himself) even though it is determined that the
(負例となる教師データを収集する場合)
発動タイミングで発動部15から話し掛け又は動作をした後、ユーザとの対話が成立しなかった時、機械学習エンジン14は、その時までの時間周波数特徴量に対して発動不可として、教師データを収集する。
対話装置1から話し掛けたり又は動作してもよい(正例)と判定しているにも関わらず、ユーザの反応が否定的である(無視している)場合、この直前までの時間周波数特徴量は、発動不可であったと判定する。
(When collecting negative teacher data)
When the dialogue with the user is not established after talking or operating from the
If the user's reaction is negative (ignored) even though it is determined that the
<異なるタイムスパンの設定>
他の実施形態として、機械学習エンジンの教師データは、異なるタイムスパン毎に、時間周波数特徴量と発動可否とを対応付けたものであることも好ましい。
例えば、細粒度及び粗粒度の複数のタイムスパンを設定し、直近N秒間の固定フレーム数をデフォルト値として設定する。
(細粒度のタイムスパン) 直近1秒・10フレーム ->時間周波数特徴量の導出
(粗粒度のタイムスパン) 直近5秒・10フレーム ->時間周波数特徴量の導出
タイムスパンとは、時間周波数特徴量を導出するために使用する画像の時間間隔(サンプリング間隔)をいう。
<Setting different time spans>
As another embodiment, it is also preferable that the teacher data of the machine learning engine associates the time-frequency feature amount with the activation availability for each different time span.
For example, a plurality of fine particle size and coarse particle size time spans are set, and the fixed number of frames in the last N seconds is set as a default value.
(Fine grain timespan) Latest 1 second / 10 frames-> Derivation of time frequency features (Coarse grain timespan) Latest 5 seconds / 10 frames-> Derivation of time frequency features What is timespan? The time interval (sampling interval) of the image used to derive the quantity.
前述した特徴量抽出部13は、ユーザの顔が映り込む同じ映像を入力しても、タイムスパン毎に異なる時間周波数特徴量を出力する。そして、タイムスパン毎に、時間周波数特徴量を、機械学習エンジン14へ入力する。これによって、タイムスパン毎に、異なる学習モデルを構築することとなる。
The feature
機械学習エンジン14は、推定段階について、タイムスパン毎に推定精度を評価するものであってもよい。精度が最大となるタイムスパンを用いることもできる。ここでの推定精度は、タイムスパン毎の推定結果と、ユーザの肯定的な反応又は否定的な反応とを照合し、一致率として算出したものであってもよい。
The
以上、詳細に説明したように、本発明の対話装置、プログラム及び方法によれば、ユーザの顔の映像から、ユーザに対する話し掛けや動作の発動タイミングを高い精度で推定することができる。即ち、ユーザから見て、利便性及びインテリジェンス性を向上させて、人の空気が読めるロボットやスマートスピーカを実現することができる。 As described above in detail, according to the dialogue device, the program, and the method of the present invention, it is possible to estimate the timing of talking to the user and the activation timing of the operation with high accuracy from the image of the user's face. That is, it is possible to realize a robot or a smart speaker that can read human air by improving convenience and intelligence from the user's point of view.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various modifications, modifications and omissions of the above-mentioned various embodiments of the present invention within the scope of the technical idea and viewpoint of the present invention can be easily carried out by those skilled in the art. The above explanation is just an example and does not attempt to limit anything. The present invention is limited only to the scope of claims and their equivalents.
1 対話装置
11 顔領域検出部
12 顔パラメータ抽出部
13 特徴量抽出部
14 機械学習エンジン
15 発動部
101 音声認識部
102 対話実行部
103 音声変換部
1
Claims (10)
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出手段と、
画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出手段と、
前記顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出手段と、
時系列画像における異なるタイムスパン毎に、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものであって、推定時に、タイムスパン毎の時間周波数特徴量を入力し、推定精度が最大となるタイムスパンに基づいて、前記現時点がユーザに対する発動タイミングか否かを推定する機械学習エンジンと、
前記機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動手段と
を有することを特徴とする対話装置。 In a dialogue device that interacts with the user
A face area detection means that inputs a time-series image of the user's face taken by the camera and detects the face area from each image, and
Face parameter extraction means that extracts each parameter of the face from the face area reflected in the image,
A feature amount extraction means for extracting a time-frequency feature amount from the time-series change of the face parameter, and a feature amount extraction means.
It was learned in advance from the teacher data in which the time-frequency feature amount and the activation availability (positive example / negative example) were associated with each different time span in the time-series image, and the time-frequency feature for each time span was learned at the time of estimation. A machine learning engine that inputs an amount and estimates whether or not the current timing is the activation timing for the user based on the time span that maximizes the estimation accuracy .
A dialogue device comprising an activation means that is activated for a user when it is determined to be true by the machine learning engine.
ことを特徴とする請求項1に記載の対話装置。 The dialogue device according to claim 1, wherein the face parameter extracting means includes Euler angles facing the face, a center position of the face, and / or the size of the face as each parameter of the face.
前記機械学習エンジンによって偽と判定された場合、前記音声認識手段における音声認識確率の閾値を上げることによって、音声認識の誤りを低減させる
ことを特徴とする請求項1又は2に記載の対話装置。 It also has a voice recognition means to extract text from the user's spoken voice.
The dialogue device according to claim 1 or 2, wherein when it is determined to be false by the machine learning engine, the error in voice recognition is reduced by increasing the threshold value of the voice recognition probability in the voice recognition means.
ことを特徴とする請求項1から3のいずれか1項に記載の対話装置。 The dialogue device according to any one of claims 1 to 3, wherein the activation means utters an initial text based on a dialogue scenario as an activation to a user.
前記発動手段は、ユーザに対する発動として、行動シナリオに基づく初期挙動で動作する
ことを特徴とする請求項1から3のいずれか1項に記載の対話装置。 If the dialogue device is a movable robot,
The dialogue device according to any one of claims 1 to 3, wherein the activation means operates with an initial behavior based on an action scenario as an activation for a user.
前記機械学習エンジンは、その時までの時間周波数特徴量に対して発動不可(負例)として教師データを収集する
ことを特徴とする請求項4に記載の対話装置。 When the dialogue with the user is not established after the dialogue scenario invoking means utters the initial text.
The dialogue device according to claim 4, wherein the machine learning engine collects teacher data as inoperable (negative example) with respect to the time-frequency feature amount up to that time.
前記機械学習エンジンは、その時までの前記時間周波数特徴量に対して発動可能(正例)として教師データを収集する
ことを特徴とする請求項4又は6に記載の対話装置。 When spoken by the user during the interruption of the dialogue scenario
The dialogue device according to claim 4 or 6, wherein the machine learning engine collects teacher data as being operable (normal example) with respect to the time-frequency feature amount up to that time.
前記機械学習エンジンは、LSTM(Long Short-Term Memory)である
ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載のプログラム。 The feature amount extraction means extracts the time-frequency feature amount by short-time Fourier transform or wavelet transform for the time series of each parameter of the face.
The program according to any one of claims 1 to 7 , wherein the machine learning engine operates a computer so as to be an LSTM (Long Short-Term Memory).
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する顔領域検出手段と、
画像に映り込む顔領域から、顔の各パラメータを抽出する顔パラメータ抽出手段と、
前記顔パラメータの時系列変化から時間周波数特徴量を抽出する特徴量抽出手段と、
時系列画像における異なるタイムスパン毎に、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習したものであって、推定時に、タイムスパン毎の時間周波数特徴量を入力し、推定精度が最大となるタイムスパンに基づいて、前記現時点がユーザに対する発動タイミングか否かを推定する機械学習エンジンと、
前記機械学習エンジンによって真と判定された場合、ユーザに対して発動する発動手段と
してコンピュータを機能させることを特徴とするプログラム。 In a program that activates a computer installed in a device that interacts with a user
A face area detection means that inputs a time-series image of the user's face taken by the camera and detects the face area from each image, and
Face parameter extraction means that extracts each parameter of the face from the face area reflected in the image,
A feature amount extraction means for extracting a time-frequency feature amount from the time-series change of the face parameter, and a feature amount extraction means.
It was learned in advance from the teacher data in which the time-frequency feature amount and the activation availability (positive example / negative example) were associated with each different time span in the time-series image, and the time-frequency feature for each time span was learned at the time of estimation. A machine learning engine that inputs an amount and estimates whether or not the current timing is the activation timing for the user based on the time span that maximizes the estimation accuracy .
A program characterized in that a computer functions as an invoking means to be activated for a user when it is determined to be true by the machine learning engine.
前記装置は、
時系列画像における異なるタイムスパン毎に、時間周波数特徴量と発動可否(正例・負例)とを対応付けた教師データによって予め学習した機械学習エンジンを有し、
カメラによって撮影されたユーザの顔が映り込む時系列画像を入力し、各画像から顔領域を検出する第1のステップと、
画像に映り込む顔領域から、顔の各パラメータを抽出する第2のステップと、
前記顔パラメータの時系列変化から時間周波数特徴量を抽出する第3のステップと、
前記機械学習エンジンを用いて、推定時に、タイムスパン毎の時間周波数特徴量から、推定精度が最大となるタイムスパンに基づいて、前記現時点がユーザに対する発動タイミングか否かを推定する第4のステップと、
第4のステップによって真と判定された場合、ユーザに対して発動する第5のステップと
を実行することを特徴とする装置の対話方法。 In the method of interacting with the device that interacts with the user
The device is
It has a machine learning engine that has been learned in advance using teacher data that associates time-frequency features with activation availability (positive and negative examples) for each different time span in a time-series image .
The first step of inputting a time-series image in which the user's face taken by the camera is reflected and detecting the face area from each image, and
The second step of extracting each parameter of the face from the face area reflected in the image,
The third step of extracting the time-frequency feature amount from the time-series change of the face parameter, and
A fourth method of estimating whether or not the current time is the activation timing for the user based on the time span that maximizes the estimation accuracy from the time frequency feature amount for each time span at the time of estimation using the machine learning engine. Steps and
If it is determined to be true by the 4th step, the 5th step to be activated for the user
A method of interacting with a device, characterized by performing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018200329A JP7032284B2 (en) | 2018-10-24 | 2018-10-24 | A device, program and method for estimating the activation timing based on the image of the user's face. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018200329A JP7032284B2 (en) | 2018-10-24 | 2018-10-24 | A device, program and method for estimating the activation timing based on the image of the user's face. |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020067562A JP2020067562A (en) | 2020-04-30 |
JP7032284B2 true JP7032284B2 (en) | 2022-03-08 |
Family
ID=70390245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018200329A Active JP7032284B2 (en) | 2018-10-24 | 2018-10-24 | A device, program and method for estimating the activation timing based on the image of the user's face. |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7032284B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2023017745A1 (en) * | 2021-08-10 | 2023-02-16 | ||
CN116564005B (en) * | 2023-07-11 | 2023-09-08 | 深圳市瑞凯诺科技有限公司 | Wireless starting method and system for intelligent charging pile |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004206704A (en) | 2002-12-11 | 2004-07-22 | Samsung Sdi Co Ltd | Dialog management method and device between user and agent |
JP2010170392A (en) | 2009-01-23 | 2010-08-05 | Toyota Central R&D Labs Inc | Gesture recognition apparatus, and program |
JP2017159396A (en) | 2016-03-09 | 2017-09-14 | 大日本印刷株式会社 | Guide robot control system, program, and guide robot |
JP2018087847A (en) | 2016-11-28 | 2018-06-07 | 日本電信電話株式会社 | Dialogue control device, its method and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2945870B2 (en) * | 1996-06-28 | 1999-09-06 | 財団法人大阪科学技術センター | Motion detection device |
-
2018
- 2018-10-24 JP JP2018200329A patent/JP7032284B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004206704A (en) | 2002-12-11 | 2004-07-22 | Samsung Sdi Co Ltd | Dialog management method and device between user and agent |
JP2010170392A (en) | 2009-01-23 | 2010-08-05 | Toyota Central R&D Labs Inc | Gesture recognition apparatus, and program |
JP2017159396A (en) | 2016-03-09 | 2017-09-14 | 大日本印刷株式会社 | Guide robot control system, program, and guide robot |
JP2018087847A (en) | 2016-11-28 | 2018-06-07 | 日本電信電話株式会社 | Dialogue control device, its method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2020067562A (en) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200333875A1 (en) | Method and apparatus for interrupt detection | |
CN107799126B (en) | Voice endpoint detection method and device based on supervised machine learning | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
US9412361B1 (en) | Configuring system operation using image data | |
JP5323770B2 (en) | User instruction acquisition device, user instruction acquisition program, and television receiver | |
CN112074901A (en) | Speech recognition login | |
CN112088315A (en) | Multi-mode speech positioning | |
CN112102850B (en) | Emotion recognition processing method and device, medium and electronic equipment | |
Minotto et al. | Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM | |
CN112016367A (en) | Emotion recognition system and method and electronic equipment | |
CN109558788B (en) | Silence voice input identification method, computing device and computer readable medium | |
JP2018169494A (en) | Utterance intention estimation device and utterance intention estimation method | |
Gardecki et al. | The Pepper humanoid robot in front desk application | |
CA3065446A1 (en) | Voice commands recognition method and system based on visual and audio cues | |
JP7032284B2 (en) | A device, program and method for estimating the activation timing based on the image of the user's face. | |
JP5849761B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
CN110221693A (en) | A kind of intelligent retail terminal operating system based on human-computer interaction | |
CN113837594A (en) | Quality evaluation method, system, device and medium for customer service in multiple scenes | |
Ng et al. | Hey robot, why don't you talk to me? | |
CN115988164A (en) | Conference room multimedia control method, system and computer equipment | |
CN109065026B (en) | Recording control method and device | |
JP6855737B2 (en) | Information processing equipment, evaluation systems and programs | |
JP7323475B2 (en) | Information processing device and action mode setting method | |
JP7400364B2 (en) | Speech recognition system and information processing method | |
Ktistakis et al. | A multimodal human-machine interaction scheme for an intelligent robotic nurse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7032284 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |