JP6697356B2

JP6697356B2 - 所定対象のうちの特定対象における状態を識別する装置、プログラム及び方法

Info

Publication number: JP6697356B2
Application number: JP2016178294A
Authority: JP
Inventors: 剣明呉; 矢崎　智基; 智基矢崎
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2016-09-13
Filing date: 2016-09-13
Publication date: 2020-05-20
Anticipated expiration: 2036-09-13
Also published as: JP2018045350A

Description

本発明は、所定対象の状態を、当該所定対象に係る情報に基づいて識別する技術に関する。

従来、所定対象の状態、例えば人間の表情を、この所定対象に関する情報、例えば顔を撮影した写真画像を用いて識別する技術は、種々考案されてきた。

特に、人間の表情認識の分野では、ポジティブ、ネガティブ、ニュートラルの３分類モデルや、Paul Ekman の７分類モデル（ニュートラル、喜び、嫌悪、怒り、サプライズ、悲しみ、恐怖）等を採用し、多くの研究者が表情認識技術の向上に取り組んでいる。

このような取り組みの一例として、特許文献１には、上記の分類モデルに基づく大量の顔画像データの特徴量を学習し、その特徴量に基づいて表情を識別する技術が開示されている。この技術では、特に、意図的に作った顔ではなく、自然な顔表情の学習データを効率良く収集し、認識精度の良い識別器を作成することを目的としている。

特開２０１１−１５０３８１号公報

しかしながら、特許文献１に記載されたような従来技術においては、具体的に表情を識別すべき個人の顔の表情を判定したとしても、その個人の有する表情の表出傾向によって、実際とは異なる判定結果が出ることも少なくなく、大きな問題となっている。

すなわち、その個人の性格や、その個人の属する民族、居住地域等の違いによって、例えば、元来顔の表情が厳しい、怒りの感情の表現が控えめであるといったような、現れる表情に特定の傾向が存在することはよく知られている。これに対し、従来の表情の判定処理においては、例えば特許文献１の技術のように、大量の顔画像データの特徴量を学習した識別器を用いて処理を行っている。従って、このような表情識別対象の有する特定の傾向は、表情表出の一般的傾向からは逸脱していることも少なくないので、表情識別の失敗を起こす原因となってしまう。

そこで、本発明は、所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態をより確実に識別することが可能な装置、プログラム及び方法を提供することを目的とする。

本発明によれば、所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する状態識別装置であって、
多数の対象情報に基づいて決定された識別モデルであって、取り得る複数の状態の各々である度合を示すスコアを出力する識別モデルを用いて、入力された対象情報から、該対象情報に係る対象が各状態をとり得る度合を示すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定された各状態のスコアに基づき、当該複数の対象情報を、当該スコアのなす空間で規定される複数のクラスタに分類するクラスタリング手段と、
当該複数のクラスタの各々に前記複数の状態の各々を対応付け、当該特定対象に係る対象情報が属するクラスタに対応付けられた状態を、該対象情報についての正解に決定する正解決定手段と、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定する状態決定手段と
を有する状態識別装置が提供される。

本発明によれば、また、所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する状態識別装置であって、
多数の対象情報に基づいて決定された識別モデルを用いて、入力された対象情報から該対象情報に係る対象の状態を表すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定されたスコアに基づき、当該複数の対象情報を、各状態に対応付けられた複数のクラスタに分類した場合において、当該特定対象に係る対象情報が属するクラスタに対応する状態を、該対象情報についての正解に決定する正解決定手段と、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルであって、入力されたスコアから生成された特徴量のなす特徴量空間において各特徴量の点との距離が最大となる識別超平面を求める特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定する状態決定手段と
を有する状態識別装置が提供される。

本発明によれば、さらに、所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する状態識別装置であって、
多数の対象情報に基づいて決定された識別モデルを用いて、入力された対象情報から該対象情報に係る対象の状態を表すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定されたスコアに基づき、当該複数の対象情報を、各状態に対応付けられた複数のクラスタに分類した場合において、当該特定対象に係る対象情報が属するクラスタに対応する状態を、該対象情報についての正解に決定する正解決定手段と、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルであって、入力されたスコアに対する重み付け係数を含んでおり、決定された正解に係る状態と、当該モデルの出力との誤差を減少させるように当該重み付け係数を更新する特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定する状態決定手段と
を有する状態識別装置が提供される。

さらに、本発明による状態識別装置の一実施形態として、当該所定の対象は人間の顔であり、当該状態は顔の表情であって、当該対象情報は、人間の顔の画像に係る情報であり、
当該特定対象は、その表情を識別する対象である個人、又はその表情を識別する対象である人間の属する所定の属性集団であり、
状態決定手段は、当該個人又は当該属性集団に属する人間の顔の表情の画像情報に基づいて、当該画像情報に係る顔に現れた表情を識別することも好ましい。

また、本発明による状態識別装置における、当該複数の対象情報の当該クラスタへの分類は、当該スコアのなす空間においてｋ平均（k-means）法を用いて実行されることも好ましい。

さらに、本発明による状態識別装置のスコア決定手段において用いられる識別モデルは、畳み込み層を含む畳み込みニューラルネットワーク（Convolutional Neural Network）における学習モデルであることも好ましい。

本発明によれば、さらに、所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する状態識別装置であって、
多数の対象情報に基づいて決定された識別モデルであって、取り得る複数の状態の各々である度合を示すスコアを出力する識別モデルを用いて、入力された対象情報から、該対象情報に係る対象が各状態をとり得る度合を示すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定された各状態のスコアに基づき、当該複数の対象情報を、当該スコアのなす空間で規定される複数のクラスタに分類するクラスタリング手段と、
当該複数のクラスタの各々に前記複数の状態の各々を対応付け、当該複数のクラスタの中心のうち、当該特定対象に係る１つの対象情報について決定されたスコアとの距離が最も小さい中心を有するクラスタに対応付けられた状態を、該１つの対象情報に係る状態に決定する状態決定手段と
を有する状態識別装置が提供される。

本発明によれば、また、所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する装置に搭載されたコンピュータを機能させる評価推定プログラムであって、
多数の対象情報に基づいて決定された識別モデルであって、取り得る複数の状態の各々である度合を示すスコアを出力する識別モデルを用いて、入力された対象情報から、該対象情報に係る対象が各状態をとり得る度合を示すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定された各状態のスコアに基づき、当該複数の対象情報を、当該スコアのなす空間で規定される複数のクラスタに分類するクラスタリング手段と、
当該複数のクラスタの各々に前記複数の状態の各々を対応付け、当該特定対象に係る対象情報が属するクラスタに対応付けられた状態を、該対象情報についての正解に決定する正解決定手段と、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定する状態決定手段と
してコンピュータを機能させる状態識別プログラムが提供される。

本発明によれば、さらに、所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する装置に搭載されたコンピュータにおいて実施される状態識別方法であって、
多数の対象情報に基づいて決定された識別モデルであって、取り得る複数の状態の各々である度合を示すスコアを出力する識別モデルを用いて、入力された対象情報から、該対象情報に係る対象が各状態をとり得る度合を示すスコアを決定するステップと、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定された各状態のスコアに基づき、当該複数の対象情報を、当該スコアのなす空間で規定される複数のクラスタに分類するステップと、
当該複数のクラスタの各々に前記複数の状態の各々を対応付け、当該特定対象に係る対象情報が属するクラスタに対応付けられた状態を、該対象情報についての正解に決定するステップと、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定するステップと
を有する状態識別方法が提供される。

本発明の状態識別装置、プログラム及び方法によれば、所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態をより確実に識別することができる。

本発明による状態識別装置の一実施形態における機能構成を示す機能ブロック図である。表情識別エンジンで構築・使用される表情識別モデルの一実施形態を示す模式図である。表情スコア決定部（表情識別エンジン）におけるスコア決定処理の一実施例を示すテーブルである。画像クラスタリング部及び正解表情決定部における処理の一実施例を示すテーブルである。状態決定部で使用される特定識別モデルの識別器における学習の一実施形態を示す模式図である。特定識別モデルの識別器に採用されるＳＶＭにおける識別境界面を説明するための模式図である。本発明による状態識別装置の他の実施形態における機能構成を示す機能ブロック図である。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

［一実施形態における装置構成］
図１は、本発明による状態識別装置の一実施形態における機能構成を示す機能ブロック図である。

図１によれば、本実施形態の状態識別装置としてのスマートフォン１は、公知の構成を有するカメラ１０５を内蔵しており、このカメラ１０５を用いて、例えばユーザの顔を撮影してこの顔の写真画像（個人画像）を生成し、生成した写真画像に映ったユーザの顔の表情を識別して、タッチパネル・ディスプレイ（ＴＰ・ＤＰ）に識別結果を表示することができる。また、当然に、このような表情識別対象である顔の写真画像を、外部から通信ネットワークを介して取得して処理することも可能である。

また、１つの応用例として、スマートフォン１のアプリケーション１２１、例えば対話ＡＩアプリが、この表情の識別結果を利用して、例えば対話しているユーザの感情（発話意図）を理解し、その応答内容を調整したり、当該ユーザとの対話内容をパーソナライズしたりすることも可能になる。

さらに、スマートフォン１は、本実施形態において、表情識別のための表情識別エンジン１１２における学習用の大量の一般画像（様々な人間の顔の写真画像）を、画像管理サーバ２から取得することも好ましい。

このような本発明による状態識別装置としてのスマートフォン１は、所定の対象（例えば人間の顔）の状態（例えば顔の表情）であって、個々の対象（例えば個々人）毎に又は当該対象の種別（例えば属する民族や居住地域）毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報（例えば顔の写真画像（に係る情報））に基づいて識別する装置であって、
（Ａ）多数の対象情報（写真画像）に基づいて決定された「識別モデル」を用いて、入力された対象情報（写真画像）からこの対象情報に係る対象の状態（顔の表情）を表すスコアを決定するスコア決定手段（表情スコア決定部１１２ｂ）と、
（Ｂ）所定の対象（人間の顔）のうちの状態識別対象である特定対象（例えば特定のユーザの顔）に係る複数の対象情報（写真画像）から決定されたスコアに基づき、これら複数の対象情報を、各状態に対応付けられた複数のクラスタに分類した場合において、特定対象（特定のユーザの顔）に係る対象情報（写真画像）が属するクラスタに対応する状態を、この対象情報（写真画像）についての正解に決定する正解決定手段（正解表情決定部１１４）と、
（Ｃ）特定対象（特定ユーザの顔）に係る複数の対象情報（写真画像）について決定されたスコアと、上記の複数の対象情報（写真画像）について決定された正解とに基づいて決定された「特定識別モデル」に対して、特定対象（特定ユーザの顔）に係る１つの対象情報（写真画像）について決定されたスコアを入力し、その出力から、特定対象におけるこの１つの対象情報に係る状態（写真画像における特定ユーザの顔に現れた表情）を決定する状態決定手段（表情決定部１１５）と
を有することを特徴としている。

このように、スマートフォン１によれば、表情識別器によって決定されるスコアだけに頼って表情を識別するのではなく、特定対象（例えば特定のユーザの顔）の対象情報（例えば写真画像）に対し、クラスタリング処理を利用して正解を予め決定する。これにより、この特定対象（特定のユーザの顔）の識別に適合した「特定識別モデル」を利用することができ、結果として、この特定対象の状態（特定ユーザの顔の表情）をより確実に、高い精度で識別することが可能となるのである。

ここで、本実施形態のように人間の顔の表情を識別する場合、識別すべき特定対象は、その表情を識別する対象である特定の個人（例えばスマートフォン１のユーザ）、又はその表情を識別する対象である人間の属する所定の属性集団、例えば特定の個人の属する民族や居住地域とすることができる。

実際、国・民族別（地域別）や、年齢、性別等の個人属性別による表情識別結果の相違については、ポジティブ、ニュートラル、ネガティブ３分類モデルや、Ekman の７分類モデルといった、広く普及している表情カテゴリモデルを利用して、種々の研究がなされている。

例えば、研究文献：Jack, R. E.， Blais, C.， Scheepers, C.，Schyns, P. G.，及びCaldara, R. "Cultural confusions show that facial expressions are not universal" Current Biology, 19，２００９年，１５４３〜１５４８頁は、東アジア系の被験者がヨーロッパ系の被験者に比べて、恐怖を驚きに、嫌悪を怒りに混同させる表情をとる傾向を示す実験結果を示している。また、その原因として、ヨーロッパ系の被験者は、他人の表情を観察する際、目と口とを同程度見る、すなわち顔全体を見るのに対し、東アジア系の被験者は目に対してより注視を行うことを記載している。

さらに、研究文献：Yuki, M.，Maddux, W. W.，及びMasuda, T. "Are the windows to the soul the same in the East and West? Cultural differences in using the eyes and mouth as cues to recognize emotions in Japan and the United States" Journal of Experimental Social Psychology, 43，２００７年，３０３〜３１１頁においては、日本人は、喜びや悲しみを示す顔の表情を評価する際、米国人に比べ口元よりも目元に対してより重点を置く傾向のあることが記載されている。

これらの研究結果が示すような個人差や国・民族・個人地域差等が存在する人間の表情を判定する処理は、従来それにもかかわらず、大量の多種多様な顔画像データの特徴量を学習した識別器を用いて行われてきた。従って例えば、特定の個人の表情を識別するのに失敗する場合も少なくなかったのである。これに対し、スマートフォン１を用いれば、特定のユーザの顔に対し、クラスタリング処理を利用して正解を予め決定した上でより適合した識別器を構築するので、結局、この特定のユーザの表情をより確実に識別することが可能となるのである。

なお、上記のスマートフォン１に具現されたような本発明による状態識別装置は、識別すべき所定対象の状態として、人間の顔の表情にのみ適用されるものではない。本発明によれば、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態であるならば、種々の状態が、より確実に識別可能となる。言い換えると、従来そのような異なる傾向故に識別結果に大きな誤差や間違いが発生していたのに対し、本発明によれば、そのような状態をより精度良く識別することができるのである。

さらに、スマートフォン１に具現されたような本発明による状態識別装置は、当然にスマートフォンに限定されるものではない。例えば、この状態識別装置として、タブレット型コンピュータ、ノート型コンピュータ、パーソナルコンピュータ、セットトップボックス（セットトップボックス）、ロボット、デジタルサイネージ等を採用することもできる。例えば、カメラを内蔵したこれらの装置（端末）において、ユーザの表情を読み取ることによって、読み取った表情に係る情報に応じた応答を行ったり、読み取った表情に係る情報から、先に実施されたユーザに対するアクション等の評価を行ったりすることも可能となる。

同じく図１の機能ブロック図に示すように、状態識別装置（表情識別装置）である本実施形態のスマートフォン１は、通信インタフェース部１０１と、一般画像データベース１０２と、個人画像データベース１０３と、表情データ記憶部１０４と、カメラ１０５と、タッチパネル・ディスプレイ（ＴＰ・ＤＰ）１０６と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、スマートフォン１のコンピュータを機能させるプログラムを実行することによって、状態識別機能（表情識別機能）を実現させる。

さらに、このプロセッサ・メモリは、機能構成部として、画像管理部１１１と、識別モデル学習部１１２ａ及び表情スコア決定部１１２ｂを有する表情識別エンジン１１２と、画像クラスタリング部１１３と、正解表情決定部１１４と、表情決定部１１５と、アプリケーション１２１とを有する。ここで、図１におけるスマートフォン１の機能構成部間を矢印で接続して示した処理の流れは、本発明による表情識別方法の一実施形態としても理解される。

通信インタフェース部１０１は、表情識別エンジン１１２における学習用の大量の一般画像を、画像管理サーバ２からインターネット等の通信ネットワークを介して取得する。また、通信インタフェース部１０１は、本発明に係る表情識別プログラム（アプリ）や、当該表情識別結果を利用したサービスを提供可能なアプリケーション・プログラム、例えば対話ＡＩアプリ、をダウンロードすることもできる。

画像管理部１１１は、カメラ１０５から、又は外部の情報機器から通信インタフェース１０１を介して、表情識別対象である特定の個人（例えばスマートフォン１のユーザ）の個人画像を取得し、個人画像データベース１０３に保存し管理することができる。また、通信インタフェース１０１を介して取得された一般画像も、一般画像データベース１０２に保存し管理してもよい。例えば、個人画像データに対しては、（例えばユーザの指定入力に基づく）個人画像ラベルを付与して管理することも好ましい。

表情識別エンジン１１２は、本実施形態において、識別モデル学習部１１２ａと、表情スコア決定部１１２ｂとを有する。このうち、識別モデル学習部１１２ａは、取得された大量の一般画像（様々な人間の顔の写真画像）を用いて学習を行い、表情識別モデルを構築・決定する。この表情識別モデルは、例えば、ディープラーニングの一種である畳み込みニューラルネットワーク（Convolutional Neural Network）を含む識別器とすることができ、一般的な万人向けの、又は平均的な若しくは共通する表情の傾向をもった人的集団に向けた識別器と捉えることができる。

一方、表情スコア決定部１１２ｂは、構築・決定された表情識別モデルを用いて、入力された対象情報からこの対象情報に係る対象の状態を表すスコアを決定する。

図２は、表情識別エンジン１１２で構築・使用される表情識別モデルの一実施形態を示す模式図である。

図２に示すように、本実施形態において、表情識別エンジン１１２で構築・決定される表情識別モデルは、順伝播型の一種である畳み込みニューラルネットワーク（ＣＮＮ, ConvNet）に基づいて構成されている。このＣＮＮは複数の畳み込み層を含んでいるが、この畳み込み層は、動物の視覚野の単純細胞の働きを模しており、画像に対しカーネル（重み付け行列フィルタ）をスライドさせて特徴マップを生成する畳み込み処理を実行する層である。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジや勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。

また、各畳み込み層はプーリング層（サブサンプリング層）と対になっており、畳み込み処理とプーリング処理とが繰り返されることも好ましい。ここで、プーリング処理とは、動物の視覚野の複雑細胞の働きを模した処理であり、畳み込み層から出力される特徴マップ（一定領域内の畳み込みフィルタの反応）を最大値や平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。これにより、顔のサイズ、顔の向き、頭の傾き、帽子やサングラス等の付属物の付加といった画像における多少のズレによる見え方の違いを吸収し、本来の特徴を捉えた適切な特徴量を獲得することができる。

表情識別エンジン１１２の識別モデル学習部１１２ａ（図１）は、例えば一般画像データベース１０２（図１）に蓄積された大量の一般画像からなる大規模画像データセットを用いて、このＣＮＮに対し学習を行わせる。具体的には、この大規模画像データセットの画像をＣＮＮに入力し、ＣＮＮ内の複数の層のうち最終層を除いたいくつかの層分による多層ネットワークとしての反応を特徴量として出力し、この出力を正解と照合して、ニューロンの結合荷重やネットワーク構成のパラメータ等を生成・更新することにより学習を行う。

ここで、本実施形態では、入力する大規模画像データセットの画像を、ポジティブ、ニュートラル、ネガティブという表情に関する３つのカテゴリに予め分類しておき、この分類結果を正解として使用する。

図３は、表情スコア決定部１１２ｂ（表情識別エンジン１１２）におけるスコア決定処理の一実施例を示すテーブルである。

ここで、本実施形態において、スコアは、スコア算定対象の画像を、上述したような表情識別モデルの識別器に入力した結果出力される値であり、ポジティブ、ニュートラル、ネガティブの３項目の各々についての値となっている。すなわち、スコア算定対象である１つの画像を入力することによって、これら３つのスコアの組が１つ出力されるのである。以下、このスコアの組を単にスコアと称呼する場合もある。なお、本実施形態のこれら３つのスコアは、各項目の度合いをレコード間で比較しやすいように、合計値が１となるように規格化されている。

図３（Ａ）には、ユーザＡ、ユーザＢ、・・・についての「実際にネガティブと判断される表情」の画像に対するスコアが示されている。ここで、ユーザＡは、表情の表出に関して一般的とされる通常タイプであり、実際、そのスコアもネガティブについての値（0.90）が最も大きくなっている。一方、ユーザＢは、「怒っても表情表出が控えめなタイプ」であり、それ故、そのスコアは、「実際にはネガティブ」であるにもかかわらずニュートラルについての値（0.65）が最も大きくなっている。

ちなみに、この表情識別モデルの識別器だけを用いた表情判定を行うとすると、上記３つのスコアのうちで最も大きい値のものに対応するカテゴリが、識別結果として出力される。例えば、図３（Ａ）のユーザＡでは、表情はネガティブであると識別されるが、ユーザＢではニュートラルであると識別されてしまう。

次いで、図３（Ｂ）には、ユーザＡ、ユーザＣ、・・・についての「実際にニュートラルと判断される表情」の画像に対するスコアが示されている。ここで、ユーザＡは、上述したように通常タイプであり、実際、そのスコアもニュートラルについての値（0.95）が最も大きくなっている。一方、ユーザＣは、「日頃から表情の厳しいタイプ」であり、それ故、そのスコアは、「実際にはニュートラル」であるにもかかわらずネガティブについての値（0.50）が最も大きくなっている。

さらに、図３（Ｃ）には、ユーザＡ、ユーザＤ、・・・についての「実際にポジティブと判断される表情」の画像に対するスコアが示されている。ここで、ユーザＡは、上述したように通常タイプであり、実際、そのスコアもポジティブについての値（1.00）が最も大きくなっている。一方、ユーザＤは、「笑っても表情表出が控えめなタイプ」であり、それ故、そのスコアは、「実際にはポジティブ」であるにもかかわらずニュートラルについての値（0.50）が最も大きくなっている。

以上、ユーザＡ〜Ｄについての実施例を用いて説明したように、表情スコア決定部１１２ｂ（表情識別エンジン１１２）において決定されたスコアは、表情表出傾向の個人差によって、本来あるべき値からずれてしまう場合のあることが理解される。すなわち、当該個人差によっては、正確な表情の識別が行えないことも少なくない。

図１の機能ブロック図に戻って、画像クラスタリング部１１３は、特定対象（例えば特定のユーザの顔）に係る複数の対象情報（例えば写真画像）から決定されたスコアに基づいて、これら複数の対象情報を、各状態（例えば顔の表情）に対応付けられた複数のクラスタに分類する。ここで、このクラスタへの分類は、スコアのなす空間においてｋ平均（k-means）法を用いて実行されてもよい。ちなみに、クラスタリング対象となる複数の写真画像は、例えば、スマートフォン１のユーザが当該端末の使用を開始し自身の写真画像を所定量蓄積した段階での、これらの蓄積された写真画像とすることができる。

また、正解表情決定部１１４は、各状態（顔の表情）に対応付けられた複数のクラスタに分類された特定対象（特定のユーザの顔）に係る対象情報（写真画像）が属するクラスタに対応する状態（顔の表情）を、この対象情報（写真画像）についての正解に決定する。

図４は、画像クラスタリング部１１３及び正解表情決定部１１４における処理の一実施例を示すテーブルである。

図４（Ａ）には、図３（Ａ）で説明した「怒っても表情表出が控えめなタイプ」であるユーザＢについてのクラスタリング及び正解表情決定処理の結果が示されている。同図によれば、決定されたスコアからニュートラル、ニュートラル及びポジティブと判定されたユーザＢの顔画像データレコード（群）として、それぞれ
（ａ１）レコード：B-neutral-001、B-neutral-002、B-neutral-003、・・・、
（ａ２）レコード：B-neutral-101、B-neutral-102、B-neutral-103、・・・及び
（ａ３）レコード：B-positive-001、B- positive-002、B- positive-003、・・・
が挙げられている。この図４（Ａ）のテーブルでは、これらのレコードの各々について、決定された３つのスコアの値と、これらのレコードのスコアに基づいて生成されたクラスタのうちで当該レコードの属しているクラスタのＩＤ（識別子）とが、対応付けて記録されている。

また、図４（Ｂ）には、図３（Ｂ）で説明した「日頃から表情の厳しいタイプ」であるユーザＣについてのクラスタリング及び正解表情決定処理の結果が示されている。同図によれば、決定されたスコアからネガティブ、ネガティブ、ポジティブ及びニュートラルと判定されたユーザＣの顔画像データレコード（群）として、それぞれ
（ｂ１）レコード：C-negative-001、C-negative-002、C-negative-003、・・・、
（ｂ２）レコード：C-negative-101、C-negative-102、C-negative-103、・・・、
（ｂ３）レコード：C-positive-001、C-positive-002、・・・及び
（ｂ４）レコード：C-neutral-001、・・・
が挙げられている。この図４（Ｂ）のテーブルでも、これらのレコードの各々について、決定された３つのスコアの値と、これらのレコードのスコアに基づいて生成されたクラスタのうちで当該レコードの属しているクラスタのＩＤ（識別子）とが、対応付けて記録されている。

ここで、図４（Ａ）に示したユーザＢのレコードのテーブル、及び図４（Ｂ）に示したユーザＣのレコードのテーブルにおいて、クラスタＩＤ：１，２，３の付されたクラスタは、これらのレコードについて決定されたスコアのなすスコア空間において、k-means法を用いて形成されている。具体的には、典型的な手順として、
（ア）スコア空間における各点（レコード）に対しランダムにクラスタを割り当てる。ここで、割り当てるクラスタの数は、表情識別のために採用する表情の分類モデルにおけるカテゴリの数であり、３分類モデルを採用する本実施形態では３つ（k＝3）となる。

（イ）次いで、各クラスタにおける重心を算出する。
（ウ）各点（レコード）の所属するクラスタを、当該点から最も近い重心のクラスタとする。
（エ）上記（ウ）の処理を行っても、全ての点について、属するクラスタに変更が生じなければ、クラスタリングを終了する。一方、変更が生じた場合は、再度、上記（ウ）の処理を実行する。

なお、上記（ア）〜（エ）の処理が終了しても、この段階ではまだ、分類されたクラスタは、表情識別の分類カテゴリ（ポジティブ、ネガティブ、ニュートラル）に対応付けられていない。これらのクラスタにカテゴリ（ポジティブ、ネガティブ、ニュートラル）をラベル付けする１つの手法として、例えば、各クラスタに属するレコードにおけるカテゴリ毎のスコアの平均値を算出し、全クラスタの中で、この平均値が最も高いクラスタに対して、この平均値に係るカテゴリをラベル付けする手法が挙げられる。

具体的には、例えば、図４（Ｂ）における
（ｂ１）レコード：C-negative-001、C-negative-002、C-negative-003、・・・、
には、ＩＤ＝１のクラスタ（以後、クラスタ１と略称）が対応付けられている。ここで、これらのレコード（ｂ１）においては、ネガティブについてのスコアの平均値が、他のレコード（ｂ２）、（ｂ３）及び（ｂ４）におけるネガティブについてのスコアの平均値のいずれよりも大きく、最大となっている。従って、レコード（ｂ１）の属するクラスタ１にはネガティブのラベルが付与される。また、
（ｂ２）レコード：C-negative-101、C-negative-102、C-negative-103、・・・、
には、クラスタ２が対応付けられている。ここで、これらのレコード（ｂ２）においては、ニュートラルについてのスコアの平均値が、他のレコード（ｂ１）、（ｂ３）及び（ｂ４）におけるニュートラルについてのスコアの平均値のいずれよりも大きく、最大となっている。従って、レコード（ｂ２）の属するクラスタ２にはニュートラルのラベルが付与される。

さらに、
（ｂ３）レコード：C-positive-001、C-positive-002、・・・及び
（ｂ４）レコード：C-neutral-001、・・・
には、クラスタ３が対応付けられている。ここで、これらのレコード（ｂ３）及び（ｂ４）においては、ポジティブについてのスコアの平均値が、他のレコード（ｂ１）及び（ｂ２）におけるポジティブについてのスコアの平均値のいずれよりも大きく、最大となっている。従って、レコード（ｂ３）及び（ｂ４）の属するクラスタ３にはポジティブのラベルが付与される。

また、図４（Ａ）に記録されたクラスタ１〜３についても、上記と同様の手法をもって、それぞれネガティブ、ニュートラル及びポジティブのラベルが付与される。

以上説明したように、画像クラスタリング部１１３によれば、レコードのスコアだけから判断するとニュートラルであるにもかかわらず、実際にはネガティブな表情でありがちなユーザＢにおいて、これらのレコードの属するクラスタに対し、本来の（正解とされる）カテゴリであるネガティブのラベルを付与することが可能となっている。また、レコードのスコアだけから判断するとネガティブであるにもかかわらず、実際にはニュートラルな表情であることも少なくないユーザＣにおいて、これらのレコードの属するクラスタに対し、本来の（正解とされる）カテゴリであるニュートラルのラベルを付与することも可能となっている。

すなわち、以上に説明したクラスタリング処理を行うことによって、表情表出傾向の個人差に起因するスコア判定の誤差を修正可能な表情カテゴリのラベリングを行うことも可能となっている。また、これを受けて、正解表情決定部１１４は、各レコード（ユーザの写真画像に係る情報）について、当該レコードの属するクラスタに付与されたラベルのカテゴリを、「正解」に決定することができるのである。

なお、分類したクラスタに対するラベリング処理は、当然、上述した手法に限定されるものではない。例えば、クラスタを表現するベクトルと、各表情カテゴリを代表する代表ベクトルとのコサイン類似度に基づいてラベルを決定してもよい。または、所定カテゴリを有する点（レコード）からのユークリッド距離が最短となる中心値を有するクラスタに対し、当該所定カテゴリのラベルを付与することも可能である。

さらに、図３及び図４に示した実施例では、表情について３分類モデルを採用しているが、当然これに限定されるものではなく、例えば、Paul Ekman の７分類モデルや、これらのモデルよりもさらに細分化された感情分類モデルを適用してもよい。例えば、分類カテゴリとして、Paul Ekmanモデルの７つに加え、面白さ、軽蔑、満足、困惑、興奮、罪悪感、功績に基づく自負心、安心、納得感、喜び、及び恥を採用したものを使用することも可能である。いずれにしても、分類カテゴリの数だけクラスタが生成され、これらのクラスタにそれぞれ、当該分類カテゴリのラベルが付与される。

図１の機能ブロック図に戻って、表情決定部１１５は、
（ａ）特定対象（例えば特定ユーザの顔）に係る複数の対象情報（例えば写真画像）について決定されたスコアと、
（ｂ）当該複数の対象情報（写真画像）について決定された「正解」と
に基づいて決定された「特定識別モデル」に対して、特定対象（特定ユーザの顔）に係る１つの対象情報（写真画像）について決定されたスコアを入力し、その出力から、特定対象におけるこの１つの対象情報に係る状態（写真画像における特定ユーザの顔に現れた表情）を決定する。

このように、表情決定部１１５で決定された、特定対象の対象情報に係る状態（特定ユーザの写真画像の顔に現れた表情）の情報は、この対象情報（写真画像）と対応付けて表情データ記憶部１０４に記録されてもよく、また、アプリケーション１２１へ出力されて、所定のアプリケーション・プログラムによって表情判断データとして処理されてもよい。また、このアプリケーション・プログラムでの処理を介して、タッチパネル・ディスプレイ１０６に表示されてもよく、通信インタフェース部１０１を通して外部に送信されてもよい。

ここで、この状態決定部１１５の「特定識別モデル」は、例えば、サポートベクタマシン（Support Vector Machine）による識別器のモデルであって、入力されたスコアから生成された特徴量のなす特徴量空間において各特徴量の点との距離が最大となる識別超平面を求めるモデルであってもよい。または、その他の学習有りの機械学習、例えばニューラルネットワークによる識別器のモデルとすることもできる。

図５は、状態決定部１１５で使用される特定識別モデルの識別器における学習の一実施形態を示す模式図である。また、図６は、特定識別モデルの識別器に採用されるＳＶＭにおける識別境界面を説明するための模式図である。

図５によれば、状態決定部１１５は、図４（Ａ）及び図４（Ｂ）に示したような、特定ユーザについての（スコアの決定された）各レコードに対し、所属するクラスタのラベルを正解として紐づけたレコードデータを、特徴量化して特定識別モデルの識別器に入力し、当該特定識別モデルの学習・更新を行っている。ここで、これらの正解付きのレコードデータは、その正解のカテゴリ別に、ネガティブログ、ニュートラルログ及びポジティブログの３種に区分されている。

また、この特定識別モデルの識別器は、本実施形態においてＳＶＭを採用している。ＳＶＭは、現在開発されている数多くの機械学習手法の中でも汎用性と認識性能の両方が優れているとされる手法の１つであり、未学習データに対して高い識別性能を発揮することが可能となっている。

このＳＶＭを採用した識別器では、図６に示すように、例えば、ネガティブ判定を行う場合、特徴量空間において、ネガティブログのレコード点には正解ラベルを付与して、その他のレコード点には不正解ラベルを付与する。次いで、各レコード点からの距離が最大となる面（識別境界面）を決定して、以後、ネガティブ判定に使用する。同様の処理をニュートラル判定やポジティブ判定にも行い、結局、全てのログの各フィールドの変数を入力して集計処理を行い、ＳＶＭ識別関数の判定係数を決定する。

状態決定部１１５では、このように構築された特定識別モデルのＳＶＭ識別器に対し、例えば、識別対象となる特定ユーザの写真画像におけるポジティブ、ニュートラル及びネガティブについての各スコアを入力し、すなわち上記のＳＶＭ識別関数に入力して、この特定ユーザに適した表情識別結果を出力する。

例えば、図３及び図４の実施例で説明した、「怒っても表情表出が控えめなタイプ」のユーザＢについて学習を行った特定識別モデルのＳＶＭ識別器に対し、このユーザＢの写真画像についての３つのスコアであってニュートラルが最大であるスコアを入力することによって、正解であるネガティブとの識別結果を出力することも可能となる。また、「日頃から表情の厳しいタイプ」のユーザＣについて学習を行った特定識別モデルのＳＶＭ識別器に対し、このユーザＢの写真画像についての３つのスコアであってネガティブが最大であるスコアを入力することによって、正解であるニュートラルとの識別結果を出力することも可能となるのである。

このように、状態決定部１１５での状態決定処理によれば、特定対象（例えば特定のユーザの顔）の対象情報（例えば写真画像）に対し、クラスタリング処理から決定された正解を用いて学習した、この特定対象（特定のユーザの顔）の識別に適合した特定識別モデルを利用することができる。また、その結果、この特定対象の状態（特定ユーザの顔の表情）をより高い精度で識別することが可能となるのである。

なお、特定識別モデルの識別器は、本実施形態において、特定ユーザに適合したものとなっているが、当然これに限定されるものではない。例えば、表情識別対象として、所定の属性集団、例えばある民族や、所定の居住地域の住民等を採用し、このような対象に特化した特定識別モデルの識別器を構成することもできる。なお、この場合、特定識別モデルの識別器への入力は、このような表情識別対象となる属性集団に属する人間の顔についてのスコア（レコード）となる。

また、特定識別モデルの識別器に採用される機械学習手法も、上述したＳＶＭに限定されるものではない。例えば、ニューラルネットワークを採用した識別器とすることも可能である。この場合、このニューラルネットワークは、入力されたスコアに対する重み付け係数を含み、決定された正解に係る状態（表情のカテゴリ）と、当該モデルの出力との誤差を減少させるように重み付け係数を更新するタイプのものとすることができる。

さらに、状態決定部１１５での状態決定処理は、以上に述べた特定識別モデルを用いず、より簡易な実装の下で実施することも可能である。例えば、画像クラスタリング部１１３で生成された複数のクラスタの中心のうち、特定対象（特定ユーザの顔）に係る１つの対象情報（写真画像）について決定されたスコアとの距離が最も小さい中心を有するクラスタに付与されたラベルの状態（表情のカテゴリ）を、この１つの対象情報（写真画像）に係る状態（表情のカテゴリ）に決定してもよい。

具体的には、１つのレコードのスコアを要素とするスコア空間のベクトルを、<(ポジティブ), (ニュートラル), (ネガティブ)>の形に記述するとした場合に、画像クラスタリング部１１３で生成され、それぞれ表情カテゴリ：ネガティブ、ニュートラル及びポジティブをラベリングされた３つのクラスタの中心は、１つの実施例として、
ネガティブ・クラスタの中心：<0.02, 0.10, 0.88>、
ニュートラル・クラスタの中心：<0.08, 0.42, 0.50>、及び
ポジティブ・クラスタの中心：<0.37, 0.35, 0.28>
といった形で表される。ここで、表情識別対象である特定対象の対象情報（特定ユーザの顔の写真画像）について決定されたスコアのなす点を<ng, nt, ps>とすると、上記の３つの中心のうち、この点<ng, nt, ps>とのユークリッド距離が最も小さい中心のクラスタに付与されたラベルを、この特定対象の対象情報の状態（表情カテゴリ）とすることができるのである。

［他の実施形態における装置構成］
図７は、本発明による状態識別装置の他の実施形態における機能構成を示す機能ブロック図である。

図７に示した実施形態の状態識別装置であるスマートフォン５は、図１に示したスマートフォン１の機能構成部と対応する機能構成部を有している。具体的には、通信インタフェース部５０１と、カメラ５０５と、タッチパネル・ディスプレイ５０６と、画像管理部５１１と、表情スコア決定部５１２ｂを有する表情識別エンジン５１２と、正解表情決定部５１４と、表情決定部５１５と、アプリケーション１２１とを有する。

すなわち、スマートフォン５は、図１に示したスマートフォン１の有する識別モデル学習部１１２ａ及び画像クラスタリング部１１３に対応する機能構成部を備えていない。本実施形態では、表情識別エンジン５１２の有する表情識別モデルの構築（学習）については、外部の表情識別準備装置３が、画像管理サーバ２から一般画像データを取得して行っている。また、スコアを有する写真画像データに対するクラスタリング処理についても、この表情識別準備装置３が、スマートフォン５から個人画像データを取得して行っているのである。

スマートフォン５の正解表情決定部５１４は、表情識別準備装置３から、構築された表情識別モデル及びクラスタリング結果を受信して、管理している個人画像データについての正解を決定する。次いで、表情決定部５１５は、この正解を用いて特定識別モデルを構築し、構築したこの特定識別モデルによって、表情識別対象（例えばスマートフォン５のユーザの顔写真画像）の表情カテゴリを決定するのである。

変更態様として、スマートフォン５は、スマートフォン１の画像クラスタリング部１１３（図１）に対応する画像クラスタリング部５１３を備えていてもよい。この場合、クラスタリング処理はスマートフォン５で実施されるので、表情識別準備装置３に個人画像データを送信する必要はなくなる。

以上説明したように、スマートフォン５では、少なくとも表情識別モデルを構築する処理を省略できる分、装置内で実行する情報処理量が格段に小さくて済む。言い換えれば、スマートフォン５は、携帯端末レベルのサイズ及び処理能力をもって表情識別を実現可能とするのである。

なお、更なる他の実施形態として、スマートフォン５は、表情識別エンジン５１２、画像クラスタリング部５１３、正解表情決定部５１４及び表情決定部５１５のいずれも備えておらず、表情識別準備装置３がこれらの機能構成部を全て備えていてもよい。このような実施形態では、表情識別準備装置３が本発明に係る状態識別装置として機能する。

具体的には、スマートフォン５のカメラ５０５で撮影された個人画像を受信した表情識別準備装置３は、表情識別モデルによるスコア決定処理だけでなく、クラスタリング処理及び個人画像についての正解決定処理、さらには、特定識別モデルによる個人画像の表情カテゴリの決定処理を実施する。表情識別準備装置３は、次いで、この決定された表情カテゴリに係る情報（表情識別結果）をスマートフォン５に送信し、当該情報を受信したスマートフォン５は、当該情報をアプリケーション５２１において利用するのである。

ちなみに、上述したようなサーバ（表情識別準備装置３）から出力された表情識別結果を享受する端末は当然、スマートフォンに限定されるものではない。例えば、タブレット型コンピュータ、ノート型コンピュータや、ＰＣ（パーソナル・コンピュータ）であってもよく、さらには、ＩＯＴ（Internet Of Things）環境での使用に適したデバイスとしてのシンクライアント（Thin client）端末等、種々の形態の端末を採用することが可能である。

以上、詳細に説明したように、本発明によれば、表情識別器によって決定されるスコアだけに頼って表情を識別するのではなく、特定対象（例えば特定のユーザの顔）の対象情報（例えば写真画像）に対し、クラスタリング処理を利用して正解を予め決定する。これにより、この特定対象（特定のユーザの顔）の識別に適合した特定識別モデルを利用することができ、結果として、この特定対象の状態（特定ユーザの顔の表情）をより確実に識別することが可能となるのである。

特に、顔の表情を識別する場合、個人差や国・民族・居住地域差等が存在する表情を、これらの差異を考慮したモデルを構築することによって、より高い精度で識別することが可能となる。

ちなみに、本発明に基づき、端末ユーザのような特定の個人の表情をより確実に識別し、そこで得られた高精度の表情識別結果を利用することによって、様々なサービスを提供可能なアプリケーション・プログラムを開発することもできる。そのようなアプリとして、例えば、この表情識別結果を利用して、対話している端末ユーザの感情（発話意図）を理解し、その応答内容を調整したり、当該ユーザとの対話内容をパーソナライズしたりすることが可能な対話ＡＩアプリが挙げられる。

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。

１、５スマートフォン（状態識別装置）
１０１、５０１通信インタフェース部
１０２一般画像データベース
１０３個人画像データベース
１０４表情データ記憶部
１０５、５０５カメラ
１０６、５０６タッチパネル・ディスプレイ（ＴＰ・ＤＰ）
１１１、５１１画像管理部
１１２、５１２表情識別エンジン
１１２ａ識別モデル学習部
１１２ｂ、５１２ｂ表情スコア決定部
１１３、５１３画像クラスタリング部
１１４、５１４正解表情決定部
１１５、５１５表情決定部
１２１、５２１アプリケーション
２画像管理サーバ
３表情識別準備装置

Claims

所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する状態識別装置であって、
多数の対象情報に基づいて決定された識別モデルであって、取り得る複数の状態の各々である度合を示すスコアを出力する識別モデルを用いて、入力された対象情報から、該対象情報に係る対象が各状態をとり得る度合を示すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定された各状態のスコアに基づき、当該複数の対象情報を、当該スコアのなす空間で規定される複数のクラスタに分類するクラスタリング手段と、
当該複数のクラスタの各々に前記複数の状態の各々を対応付け、当該特定対象に係る対象情報が属するクラスタに対応付けられた状態を、該対象情報についての正解に決定する正解決定手段と、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定する状態決定手段と
を有することを特徴とする状態識別装置。
所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する状態識別装置であって、
多数の対象情報に基づいて決定された識別モデルを用いて、入力された対象情報から該対象情報に係る対象の状態を表すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定されたスコアに基づき、当該複数の対象情報を、各状態に対応付けられた複数のクラスタに分類した場合において、当該特定対象に係る対象情報が属するクラスタに対応する状態を、該対象情報についての正解に決定する正解決定手段と、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルであって、入力されたスコアから生成された特徴量のなす特徴量空間において各特徴量の点との距離が最大となる識別超平面を求める特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定する状態決定手段と
を有することを特徴とする状態識別装置。
所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する状態識別装置であって、
多数の対象情報に基づいて決定された識別モデルを用いて、入力された対象情報から該対象情報に係る対象の状態を表すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定されたスコアに基づき、当該複数の対象情報を、各状態に対応付けられた複数のクラスタに分類した場合において、当該特定対象に係る対象情報が属するクラスタに対応する状態を、該対象情報についての正解に決定する正解決定手段と、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルであって、入力されたスコアに対する重み付け係数を含んでおり、決定された正解に係る状態と、当該モデルの出力との誤差を減少させるように当該重み付け係数を更新する特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定する状態決定手段と
を有することを特徴とする状態識別装置。
当該所定の対象は人間の顔であり、当該状態は顔の表情であって、当該対象情報は、人間の顔の画像に係る情報であり、
当該特定対象は、その表情を識別する対象である個人、又はその表情を識別する対象である人間の属する所定の属性集団であり、
前記状態決定手段は、当該個人又は当該属性集団に属する人間の顔の表情の画像情報に基づいて、当該画像情報に係る顔に現れた表情を識別する
ことを特徴とする請求項１から３のいずれか１項に記載の状態識別装置。
当該複数の対象情報の当該クラスタへの分類は、当該スコアのなす空間においてｋ平均（k-means）法を用いて実行されることを特徴とする請求項１から４のいずれか１項に記載の状態識別装置。
前記スコア決定手段において用いられる識別モデルは、畳み込み層を含む畳み込みニューラルネットワーク（Convolutional Neural Network）における学習モデルであることを特徴とする請求項５に記載の状態識別装置。
所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する状態識別装置であって、
多数の対象情報に基づいて決定された識別モデルであって、取り得る複数の状態の各々である度合を示すスコアを出力する識別モデルを用いて、入力された対象情報から、該対象情報に係る対象が各状態をとり得る度合を示すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定された各状態のスコアに基づき、当該複数の対象情報を、当該スコアのなす空間で規定される複数のクラスタに分類するクラスタリング手段と、
当該複数のクラスタの各々に前記複数の状態の各々を対応付け、当該複数のクラスタの中心のうち、当該特定対象に係る１つの対象情報について決定されたスコアとの距離が最も小さい中心を有するクラスタに対応付けられた状態を、該１つの対象情報に係る状態に決定する状態決定手段と
を有することを特徴とする状態識別装置。
所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する装置に搭載されたコンピュータを機能させる評価推定プログラムであって、
多数の対象情報に基づいて決定された識別モデルであって、取り得る複数の状態の各々である度合を示すスコアを出力する識別モデルを用いて、入力された対象情報から、該対象情報に係る対象が各状態をとり得る度合を示すスコアを決定するスコア決定手段と、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定された各状態のスコアに基づき、当該複数の対象情報を、当該スコアのなす空間で規定される複数のクラスタに分類するクラスタリング手段と、
当該複数のクラスタの各々に前記複数の状態の各々を対応付け、当該特定対象に係る対象情報が属するクラスタに対応付けられた状態を、該対象情報についての正解に決定する正解決定手段と、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定する状態決定手段と
してコンピュータを機能させることを特徴とする状態識別プログラム。
所定の対象の状態であって、個々の対象毎に又は当該対象の種別毎に発現する傾向が異なるような状態を、当該所定の対象に係る対象情報に基づいて識別する装置に搭載されたコンピュータにおいて実施される状態識別方法であって、
多数の対象情報に基づいて決定された識別モデルであって、取り得る複数の状態の各々である度合を示すスコアを出力する識別モデルを用いて、入力された対象情報から、該対象情報に係る対象が各状態をとり得る度合を示すスコアを決定するステップと、
当該所定の対象のうちの状態識別対象である特定対象に係る複数の対象情報から決定された各状態のスコアに基づき、当該複数の対象情報を、当該スコアのなす空間で規定される複数のクラスタに分類するステップと、
当該複数のクラスタの各々に前記複数の状態の各々を対応付け、当該特定対象に係る対象情報が属するクラスタに対応付けられた状態を、該対象情報についての正解に決定するステップと、
当該特定対象に係る複数の対象情報について決定されたスコアと、当該複数の対象情報について決定された正解とに基づいて決定された特定識別モデルに対して、当該特定対象に係る１つの対象情報について決定されたスコアを入力し、その出力から、当該特定対象における該１つの対象情報に係る状態を決定するステップと
を有することを特徴とする状態識別方法。