CN107025423A

CN107025423A - 情绪估计装置以及情绪估计方法

Info

Publication number: CN107025423A
Application number: CN201610900053.8A
Authority: CN
Inventors: 山谷崇史; 中込浩; 中込浩一; 佐藤胜彦
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2015-12-24
Filing date: 2016-10-14
Publication date: 2017-08-08
Also published as: JP2017120609A

Abstract

本发明涉及情绪估计装置以及情绪估计方法。讲话判定部判定在拍摄被估计者的脸图像时被估计者是否正在讲话。情绪估计部基于讲话判定部的判定结果来估计利用了被估计者的脸图像的被估计者的情绪。

Description

情绪估计装置以及情绪估计方法

本申请主张以2015年12月24日申请的日本专利申请第2015-250995号以及2016年4月1日申请的日本专利申请第2016-074175号为基础申请的优先权，将该基础申请的内容全部引入到本申请中。

技术领域

本发明情绪估计装置以及情绪估计方法。

背景技术

已知一种估计被估计者的情绪的技术。例如特开2014-178970号公报公开了使用被估计者的脸图像来估计被估计者的情绪的装置。

然而，有时怀有一种情绪且正在讲话的状态下的被估计者的口的形状、和怀有其他情绪且未在讲话的状态系的被估计者的口的形状类似。在这样的情况下，特开2014-178970号公报所公开的装置，会将怀有一种情绪且正在讲话的状态下的被估计者的表情误认识为怀有其他情绪且未在讲话的状态下的被估计者的表情，没法防止不正确地估计被估计者的情绪。

发明内容

本发明鉴于上述状况而提出，目的在于，使用被估计者的脸图像以高的精度估计被估计者的情绪。

本发明的情绪估计装置的特征在于，具备：讲话判定单元，其判定在拍摄被估计者的脸图像时所述被估计者是否正在讲话；和情绪估计单元，其基于所述讲话判定单元的判定结果来执行利用了所述被估计者的脸图像的情绪估计处理，由此估计所述被估计者的情绪。

本发明的情绪估计方法的特征在于，包括：讲话判定步骤，判定在拍摄被估计者的脸图像时所述被估计者是否正在讲话；和情绪估计步骤，基于所述讲话判定步骤的判定结果来执行利用了所述被估计者的脸图像的情绪估计处理，由此估计所述被估计者的情绪。

附图说明

图1是表示本发明的实施方式所涉及的情绪估计装置的物理构成的一例的框图。

图2是表示本发明的实施方式所涉及的情绪估计装置的功能构成的一例的框图。

图3是用于说明本发明的实施方式所涉及的情绪认识模型生成装置所执行的情绪认识模型生成处理的流程图。

图4A是用来说明用于生成第1情绪认识模型的情绪认识模型生成处理的图。

图4B是用来说明用于生成第2情绪认识模型的情绪认识模型生成处理的图。

图5是表示本发明的实施方式所涉及的情绪认识模型的结构例的框图。

图6是用于说明本发明的实施方式所涉及的情绪估计装置所执行的情绪估计处理的流程图。

图7是用于说明本发明的变形例所涉及的情绪估计装置所执行的情绪估计处理的流程图。

具体实施方式

以下参考附图来详细说明本发明的实施方式所涉及的情绪估计装置的功能以及动作。图中对彼此相同或同等的部分标注相同标号。

情绪估计装置使用被估计者的脸图像来估计被估计者的情绪。

情绪估计装置1如图1所示那样，具备Central Processing Unit(中央处理器，以下称作CPU)10、存储部20、输入部30、输出部40和外部接口50。

CPU10执行存储于存储部20的各种程序。具体地，CPU10通过执行存储于存储部20的控制程序21来控制情绪估计装置1整体。另外，CPU10通过执行存储于存储部20的情绪估计程序22而实现后述的讲话判定部100以及情绪估计部110的功能。

存储部20具备RAM(Random Access Memory，随机存取存储器)，作为CPU10的工作内存发挥功能。另外，存储部20具备ROM(Read-Only Memory，只读存储器)和硬盘驱动器等非易失性存储器，存储各种数据以及各种程序。具体地，在本实施方式中，存储部20存储控制程序21、情绪估计程序22、被估计者的脸图像23、周边声音数据24、第1情绪认识模型25和第2情绪认识模型26。

控制程序21是用于控制情绪估计装置1整体的程序。情绪估计程序22是用于实现后述的讲话判定部100以及情绪估计部110的功能的程序。被估计者的脸图像23是表征被估计者的脸的图像。情绪估计装置1使用被估计者的脸图像23来估计被估计者的情绪。周边声音数据24是表征拍摄被估计者的脸图像23时的被估计者的周边的声音的声音数据。在存储部20中，被估计者的脸图像23和周边声音数据24相互建立对应而存储。另外，在被估计者的脸图像23是静止图像数据的情况下，周边声音数据24例如取得拍摄该静止图像数据的前后数秒程度的声音数据，将静止图像数据和声音数据相互建立对应，在被估计者的脸图像23是动态图象数据的情况下，还与该动态图象数据的取得同时取得声音数据，被估计者的脸图像23和周边声音数据24例如也可以如影片文件数据那样包含在1个文件数据中。关于第1情绪认识模型25以及第2情绪认识模型26的详细，之后叙述。

情绪估计装置1预先取得未图示的外部的拍摄装置所拍摄的被估计者的脸图像23，存储于存储部20。情绪估计装置1预先取得未图示的外部的录音装置所取得的周边声音数据24，存储于存储部20。情绪估计装置1预先取得未图示的外部的情绪认识模型生成装置所生成的第1情绪认识模型25以及第2情绪认识模型26，存储于存储部20。情绪认识模型生成装置例如是在制造情绪估计装置1的工厂设置的计算机。关于情绪认识模型生成装置所进行的第1情绪认识模型25以及第2情绪认识模型26的生成的详细，之后叙述。

输入部30按照用户的操作而接受输入。输入部30将接受到的输入提供给CPU10。

输出部40以能由用户认识各种数据的方式进行输出。具体地，输出部40具备未图示的显示器，将表征情绪估计装置1所估计的被估计者的情绪的图像即情绪图像显示在该显示器。作为情绪图像的具体例，能举出表征被估计者的情绪的文本消息等。

外部接口50在与未图示的外部的装置之间交换各种数据。具体地，情绪估计装置1经由外部接口50取得被估计者的脸图像23、周边声音数据24、第1情绪认识模型25以及第2情绪认识模型26。另外，情绪估计装置1将表征估计出的被估计者的情绪的信息即情绪信息向未图示的外部的信息处理装置送出。

具有上述的物理构成的情绪估计装置1，在功能上如图2所示那样具备讲话判定部100和情绪估计部110。

讲话判定部100判定在拍摄被估计者的脸图像23时被估计者是否正在讲话。

具体地，讲话判定部100在被估计者的脸图像23是静止图像数据的情况下，将与该静止图像数据建立对应的声音数据作为周边声音数据24，在被估计者的脸图像23例如是影片文件数据那样的动态图象数据的情况下，将该影片文件数据中的声音数据作为周边声音数据24。并且，若周边声音数据24的音量不足第1阈值，则判定为被估计者未正在讲话，若周边声音数据24的音量为第1阈值以上，则判定为被估计者正在讲话。第1阈值用实验等任意的方法预先设定即可。

情绪估计部110基于讲话判定部100的判定结果来估计利用了被估计者的脸图像23的被估计者的情绪。

具体地，情绪估计部110具备基于讲话判定部100的判定的结果来选择情绪识别模型的模型选择部110a，执行利用了模型选择部110a所选择的情绪认识模型的情绪估计处理。在讲话判定部100判定为被估计者未正在讲话的情况下，模型选择部110a选择第1情绪认识模型25。另一方面，在讲话判定部100判定为被估计者正在讲话的情况下，模型选择部110a选择第2情绪认识模型26。

即，在讲话判定部100判定为被估计者未正在讲话的情况下，情绪估计部110执行利用了第1情绪认识模型25的情绪估计处理。另一方面，在讲话判定部100判定为被估计者正在讲话的情况下，情绪估计部110执行利用了第2情绪认识模型26的情绪估计处理。另外，在被估计者的脸图像23是例如影片文件数据那样的动态图象数据的情况下，有在该动态图象数据的记录时间的期间内被估计者未正在讲话的部分和正在讲话的部分混合存在的情况，在该情况下，讲话判定部100在被估计者未正在讲话的部分判定为被估计者未正在讲话，在正在讲话的部分判定为被估计者正在讲话。然后，情绪估计部110在该动态图象数据的记录时间内，基于讲话判定部100的判定结果适宜切换第1情绪认识模型25和第2情绪认识模型26，来执行情绪估计处理。

第1情绪认识模型25以及第2情绪认识模型26，是用于使用被估计者的脸图像来估计被估计者的情绪的认识模型。第1情绪认识模型25是适于在被估计者未正在讲话的情况下进行情绪估计的情绪认识模型，第2情绪认识模型26是适于在被估计者正在讲话的情况下进行情绪估计的情绪认识模型。更具体的，第1情绪认识模型25使用被估计者的脸图像的包含被估计者的口区域的图像来估计被估计者的情绪。第2情绪认识模型26使用被估计者的脸图像的不含被估计者的口区域的图像来估计被估计者的情绪。

第1情绪认识模型25以及第2情绪认识模型26，在被未图示的外部的情绪认识模型生成装置生成后，由情绪估计装置1取得，存储于存储部20。第1情绪认识模型25使用多个学习用脸图像来生成，使用包含各学习用脸图像中的被摄体的口区域的图像来生成。第2情绪认识模型26使用多个学习用脸图像来生成，使用不含各学习用脸图像中的被摄体的口区域的图像来生成。

[情绪认识模型生成处理的实施方式]

以下参考图3～图5来说明情绪认识模型生成装置生成第1情绪认识模型25以及第2情绪认识模型26的动作。情绪认识模型生成装置通过执行图3的流程图所示的情绪认识模型生成处理来生成第1情绪认识模型25以及第2情绪认识模型26。

首先说明情绪认识模型生成装置通过执行图3的流程图所示的情绪认识模型生成处理来生成第1情绪认识模型25的动作。

设情绪认识模型生成装置预先取得外部的拍摄装置所拍摄的多个脸图像，并存储起来。对这些脸图像预先赋予表征各脸图像中的被摄体的情绪的情绪标签。

情绪认识模型生成装置将存储的多个脸图像当中的一部分指定为学习用脸图像，将剩余的脸图像指定为评价用脸图像。

若在该状态下，用户经由未图示的输入部指示第1情绪认识模型25的生成，则情绪认识模型生成装置开始图3的流程图所示的情绪认识模型生成处理。

首先，情绪认识模型生成装置，分别对学习用脸图像检测各学习用脸图像的表征被摄体的眼的图像区域即眼区域、各学习用脸图像的表征被摄体的鼻的图像区域即鼻区域和各学习用脸图像的表征被摄体的口的图像区域即口区域(步骤S101)。由于从脸图像检测眼区域、鼻区域以及口区域的技术为公知，因此省略详细的说明。

接下来，情绪认识模型生成装置基于在步骤S101检测到的眼区域、鼻区域以及口区域的位置，来将学习用脸图像分别归一化(步骤S102)。情绪认识模型生成装置，对在步骤S102中将学习用脸图像归一化时所用的参数即图像归一化参数进行存储。

具体地，情绪认识模型生成装置在生成第1情绪认识模型25的情况下，在步骤S102，基于在步骤S101检测到的眼区域的位置和口区域的位置来将学习用脸图像分别归一化，由此如图4A所示那样，将各学习用脸图像包含口区域那样地归一化。情绪认识模型生成装置存储这时所用的图像归一化参数。

例如若脸图像的大小不同，即使是相同的人笑时的脸，皱纹的长度、粗细也会变得不同。为此，有可能成为搞错讲话时的情绪认识的要因。为了减轻该误认识，进行脸图像的归一化。

情绪认识模型生成装置对在步骤S102归一化的学习用脸图像分别算出各学习用脸图像所包含的像素的Local Binary Pattern(局部二值模式，以下称作LBP)，由此生成LBP图像(步骤S103)。

情绪认识模型生成装置将在步骤S103生成的LBP图像分别分割为多个块(步骤S104)。情绪认识模型生成装置存储在步骤S104将LBP图像分割为多个块时所用的参数即分割参数。

例如对于眼区域，可以对内眼角、瞳孔、外眼角这样进一步细致的部分分割区域，将归一化的脸图像以小矩形区域瓷砖状铺满那样进行分割。然后，对细致分割的每个区域提取特征量(LBP)。

情绪认识模型生成装置，在对在步骤S104分割的每隔块生成LBP直方图的基础上将全部块的LBP直方图连结，由此对在步骤S102归一化的学习用脸图像分别生成LBP直方图(步骤S105)。这时，若分割的区域的像素数在每个脸图像中不同，则需要将直方图归一化，以使各区域的频度的合计成为1。

作成直方图的目的在于，通过将特征量的分布图形化，变得易于综合比较生气时或开心时的外眼角的皱纹的朝向等。情绪认识模型生成装置对预先赋予了情绪标签的每个学习用脸图像作成LBP直方图。

情绪认识模型生成装置，使用基于全部学习用脸图像的LBP直方图取得的参数来将全部LBP直方图以维度为单位进行归一化(步骤S106)。情绪认识模型生成装置，存储将全部LBP直方图以维度为单位进行归一化时所用的参数即直方图归一化参数。

所谓维度归一化，用于使LBP直方图的各维度的扩展状况不会因不同维度而异。这有助于减轻对情绪识别贡献大的维度的分布窄、对情绪识别没有贡献的维度的分布宽的情况下认识性能降低的问题。作为归一化方法，有基于最大值最小值的归一化方法、基于平均标准偏差的归一化方法等。

情绪认识模型生成装置将图4A所示的在步骤S106以维度为单位进行了归一化的全部学习用脸图像的LBP直方图(特征量)、和对各学习用脸图像预先赋予的情绪标签用作示教数据来进行机器学习，生成支持向量机(Support Vector Machine)(步骤S107)。情绪认识模型生成装置存储定义生成的支持向量机的参数即SVM参数。即，情绪认识模型生成装置将预先赋予了情绪标签的学习用脸图像作为示教数据，来生成将讲话者的讲话时的情绪状态识别为例如喜怒哀乐的支持向量机。另外，在本实施方式中说明了将归一化的LBP直方图用作特征量，但这只是一例。第1情绪认识模型25以及第2情绪认识模型26能通过对任意的特征量进行机器学习来生成。

情绪认识模型生成装置将表示在步骤S102所用的图像归一化参数的信息、表示在步骤S104所用的图像分割参数的信息、表示在步骤S106所用的直方图归一化参数的信息和表示在步骤S107取得的SVM参数的信息相互建立对应，由此生成具有图5所示的结构的第1情绪认识模型25(步骤S108)，结束情绪认识模型生成处理。

另外，情绪认识模型生成装置也可以在步骤S108使用评价用脸图像来评价生成的情绪认识模型的品质。具体地，情绪认识模型生成装置使用生成的情绪认识模型来估计评价用脸图像所表征的被摄体的情绪，基于估计结果和对该评价用脸图像预先赋予的情绪标签是否一致来评价情绪认识模型的品质即可。也可以在评价的结果是生成的情绪认识模型的品质不满足给定的基准的情况下，进行修正情绪认识模型的各参数的调谐，或进行再度进行机器学习来重新定义各参数的再学习。

如以上说明的那样，情绪认识模型生成装置使用在步骤S102包含口区域那样地归一化的学习用脸图像来生成第1情绪认识模型25。即，情绪认识模型生成装置使用多个学习用脸图像的包含各学习用脸图像中的被摄体的口区域的图像来生成第1情绪认识模型25。

接下来说明情绪认识模型生成装置通过执行图3的流程图所示的情绪认识模型生成处理来生成第2情绪认识模型26的动作。

情绪认识模型生成装置通过执行与生成上述的第1情绪认识模型25时的步骤S101～S108的处理大致相同的处理，来生成第2情绪认识模型26。但步骤S102的处理部分不同。

具体地，情绪认识模型生成装置在生成第2情绪认识模型26的情况下，在步骤S102基于在步骤S101检测到的眼区域的位置和鼻区域的位置将学习用脸图像分别归一化，由此如图4B所示那样，将各学习用脸图像不含口区域那样地归一化。情绪认识模型生成装置存储这时所用的图像归一化参数。

情绪认识模型生成装置使用在步骤S102不含口区域地归一化的学习用脸图像来执行步骤S103～S108的处理，由此生成具有图5所示的结构的第2情绪认识模型26。即，情绪认识模型生成装置将表征各脸图像中的被摄体的口的图像区域即口区域除外来使用多个脸图像，来生成第2情绪认识模型26。

另外，在本实施方式中说明了个别生成第1情绪认识模型25和第2情绪认识模型26，但这只是一例。第1情绪认识模型25和第2情绪认识模型26也可以使用共通的学习用脸图像通过1个处理汇总生成。

[情绪估计处理的实施方式]

以下参考图6，来说明具有上述的物理、功能构成的情绪估计装置1使用被估计者的脸图像23估计被估计者的情绪的动作。情绪估计装置1通过执行图6的流程图所示的情绪估计处理，来使用被估计者的脸图像23估计被估计者的情绪。

情绪估计装置1经由外部接口50预先取得被估计者的脸图像23、周边声音数据24、第1情绪认识模型25以及第2情绪认识模型26，存储于存储部20。在存储部20中，被估计者的脸图像23和周边声音数据24相互建立对应而存储。

若在该状态下，由希望估计被估计者的情绪的用户经由输入部30指示情绪的估计，则CPU10响应于该指示而开始图6的流程图所示的情绪估计处理。

首先，讲话判定部100判定在拍摄被估计者的脸图像23时被估计者是否正在讲话(步骤S201)。具体地，若周边声音数据24的音量不足第1阈值，则讲话判定部100判定为被估计者未正在讲话，若周边声音数据24的音量为第1阈值以上，则讲话判定部100判定为被估计者正在讲话。

模型选择部110a基于步骤S201中的判定结果来选择第1情绪认识模型25和第2情绪认识模型26当中的任一者(步骤S202)。具体地，在讲话判定部100在步骤S201判定为被估计者未正在讲话的情况下，模型选择部110a选择第1情绪认识模型25，在步骤S201中判定为被估计者正在讲话的情况下，模型选择部110a选择第2情绪认识模型26。

情绪估计部110检测被估计者的脸图像23的表征眼的图像区域即眼区域、表征被估计者的鼻的图像区域即鼻区域和表征被估计者的口的图像区域即口区域(步骤S203)，基于检测到的眼区域、鼻区域以及口区域的位置，使用在步骤S202选择的情绪认识模型所包含的图像归一化参数来将被估计者的脸图像23归一化(步骤S204)。

具体地，在步骤S202中由模型选择部110a选择第1情绪认识模型25的情况下，情绪估计部110在步骤S204使用第1情绪认识模型25所包含的图像归一化参数来将被估计者的脸图像23归一化，由此将被估计者的脸图像23包含表征被估计者的口的图像区域那样地归一化。另外，在步骤S202中由模型选择部110a选择第2情绪认识模型26的情况下，情绪估计部110在步骤S204使用第2情绪认识模型26所包含的图像归一化参数来将被估计者的脸图像23归一化，由此将被估计者的脸图像23不含表征被估计者的口的图像区域那样地归一化。

情绪估计部110算出在步骤S204归一化的被估计者的脸图像23所含的全部像素的LBP，由此生成LBP图像(步骤S205)。

情绪估计部110使用在步骤S202选择的情绪认识模型所包含的分割参数，将在步骤S205生成的LBP图像分割为多个块(步骤S206)。具体地，在步骤S202中由模型选择部110a选择第1情绪认识模型25的情况下，情绪估计部110使用第1情绪认识模型25所包含的分割参数来分割LBP图像。另外，在步骤S202中由模型选择部110a选择第2情绪认识模型26的情况下，情绪估计部110使用第2情绪认识模型26所包含的分割参数来分割LBP图像。

情绪估计部110在对步骤S206中分割的每个块生成LBP直方图的基础上将全块的LBP直方图连结，由此对在步骤S204归一化的被估计者的脸图像23生成LBP直方图(步骤S207)。

情绪估计部110，使用在步骤S202选择的情绪认识模型所包含的直方图归一化参数，对在步骤S207生成的LBP直方图以维度为单位进行归一化(步骤S208)。具体地，在步骤S202中由模型选择部110a选择第1情绪认识模型25的情况下，情绪估计部110使用第1情绪认识模型25所包含的直方图归一化参数来将LBP直方图归一化。另外，在步骤S202中由模型选择部110a选择第2情绪认识模型26的情况下，情绪估计部110使用第2情绪认识模型26所包含的直方图归一化参数来将LBP直方图归一化。

情绪估计部110使用在步骤S208归一化的LBP直方图和以在步骤S202选择的情绪认识模型所包含的SVM参数定义的支持向量机，来估计被估计者的情绪(步骤S209)。具体地，在步骤S202中由模型选择部110a选择第1情绪认识模型25的情况下，情绪估计部110使用以第1情绪认识模型25所包含的SVM参数定义的支持向量机来估计被估计者的情绪。另外，在步骤S202中由模型选择部110a选择第2情绪认识模型26的情况下，情绪估计部110使用以第2情绪认识模型26所包含的SVM参数定义的支持向量机来估计被估计者的情绪。

即，情绪估计部110与情绪认识模型生成装置生成情绪认识模型时同样地将被估计者的脸图像23分割为眼、鼻、口等的区域。然后，进一步如内眼角、外眼角那样将区域细分化。然后，对细分化的每个区域，与情绪认识模型生成装置同样地生成LBP直方图，从而进行维度归一化。然后将归一化的LBP直方图作为被估计者的脸图像23的特征数据，使用情绪识别模型内的SVM，识别该特征数据属于喜怒哀乐哪种情绪状态的脸图像。

情绪估计部110将表征在步骤S209估计出的被估计者的情绪的文本消息作为情绪图像显示在输出部40的显示器，将表征在步骤S209估计出的被估计者的情绪的情绪信息，经由外部接口50向未图示的外部的信息处理装置送出(步骤S210)，并结束情绪估计处理。

如以上说明的那样，情绪估计装置1按照是否由讲话判定部100判定为拍摄被估计者的脸图像23时被估计者正在讲话，来执行利用了被估计者的脸图像23的相互不同的情绪估计处理。由此，情绪估计装置1能使用被估计者的脸图像23以高的精度估计被估计者的情绪。

以上说明了本发明的实施方式，但本实施方式只是一例，本发明的范围并不限定于本实施方式。本发明能以种种形态实施，所有的实施方式均包含在本发明的范围中。

在上述的实施方式中，情绪估计装置1预先取得未图示的外部的拍摄装置所拍摄的被估计者的脸图像23和未图示的外部的录音装置所取得的拍摄该脸图像23时的被估计者的周边声音数据24，将被估计者的脸图像23和周边声音数据24相互建立对应并存储在存储部20。但这只是一例。情绪估计装置1能用任意的方法取得被估计者的脸图像23和周边声音数据24。

例如情绪估计装置1具备未图示的拍摄单元，使用该拍摄单元拍摄被估计者的脸来取得被估计者的脸图像23即可。另外，情绪估计装置1具备未图示的声音输入单元，使用该声音输入单元取得表征由拍摄单元拍摄被估计者的脸图像23时被估计者的周边的声音的声音数据，作为周边声音数据24即可。在该情况下，情绪估计装置1也可以一直进行被估计者的脸图像23和被估计者的周边声音的取得、和基于被估计者的讲话的有无的利用了被估计者的脸图像23的该被估计者的情绪认识。

在上述的实施方式中，第1情绪认识模型25以及第2情绪认识模型26通过图3的流程图所示的情绪认识模型生成处理生成，具有图5所示的结构。但这只是一例。第1情绪认识模型25只要是使用被估计者的脸图像的包含被估计者的口区域的图像来估计被估计者的情绪的认识模型即可，可以是用任意的方法生成的、具有任意的结构的认识模型。第2情绪认识模型26只要是使用被估计者的脸图像的不含被估计者的口区域的图像来估计被估计者的情绪的认识模型即可，可以是用任意的方法生成的、具有任意的结构的认识模型。

在上述的实施方式中，若周边声音数据24的音量不足第1阈值，则讲话判定部100判定为被估计者未正在讲话，若周边声音数据24的音量为第1阈值以上，则讲话判定部100判定为被估计者正在讲话。但这只是一例。讲话判定部100能用任意的方法判定在拍摄被估计者的脸图像23时被估计者是否正在讲话。

例如，讲话判定部100基于周边声音数据24与元音声音数据以及辅音声音数据之间的类似度来判定被估计者是否正在讲话即可。另外，元音声音数据是表征元音的声音数据，辅音声音数据是表征辅音的声音数据。具体地，若周边声音数据24与元音声音数据之间的类似度、和周边声音数据24与辅音声音数据之间的类似度当中至少任意一方不足第2阈值，则讲话判定部100判定为被估计者未正在讲话即可。另外，若周边声音数据24与元音声音数据之间的类似度、和周边声音数据24与辅音声音数据之间的类似度当中至少任意一方为第2阈值以上，则讲话判定部100判定为被估计者正在讲话即可。另外，第2阈值能通过实验等任意的方法预先设定。

或者，讲话判定部100也可以从外部取得表示拍摄被估计者的脸图像23时被估计者是否正在讲话的讲话信息，基于该讲话信息来判定被估计者是否正在讲话。讲话判定部100能用任意的方法取得讲话信息。例如，讲话判定部100取得用户使用输入部30输入的表示拍摄被估计者的脸图像23时被估计者是否正在讲话的信息，作为讲话信息。

[情绪估计处理的变形例]

在上述的实施方式中，情绪估计部110在讲话判定部100判定为被估计者未正在讲话的情况下、和讲话判定部100判定为被估计者正在讲话的情况下，执行利用被估计者的脸图像23的相互不同的情绪估计处理。具体地，在讲话判定部100判定为被估计者未正在讲话的情况下，情绪估计部110选择第1情绪认识模型25来执行情绪估计处理，在讲话判定部100判定为被估计者正在讲话的情况下，情绪估计部110选择第2情绪认识模型26来执行情绪估计处理。

在情绪估计处理的变形例中，在讲话判定部100判定为被估计者未正在讲话的情况下，情绪估计部110执行利用了被估计者的脸图像23的情绪估计处理，在讲话判定部100判定为被估计者正在讲话的情况下，情绪估计部110不进行利用了被估计者的脸图像23的情绪估计处理，如此地动作。

以下参考图7来说明情绪估计处理的变形例。

首先，讲话判定部100判定拍摄被估计者的脸图像23时被估计者是否正在讲话(步骤S301)。本处理是与第1实施方式中的步骤S201相同的处理。

情绪估计部110在步骤S301的判定结果中判定为被估计者未正在讲话的情况下(步骤S302：“是”)，执行利用了被估计者的脸图像23的情绪估计处理(步骤S303)。具体地，使用第1情绪认识模型25进行第1实施方式中的步骤S203～步骤S210的处理，之后结束情绪估计处理。

另外，情绪估计部110在步骤S301的判定结果中判定为被估计者正在讲话的情况下(步骤S302：“否”)，不执行利用了被估计者的脸图像23的情绪估计处理(禁止利用了被估计者的脸图像23的情绪估计处理的执行)而结束情绪估计处理。另外，在本实施方式中，说明了在判定为被估计者正在讲话的情况下不执行利用了被估计者的脸图像23的情绪估计处理而结束情绪估计处理，但这只是一例。还能在判定为被估计者正在讲话的情况下，不执行利用了被估计者的脸图像23的情绪估计处理(禁止利用被估计者的脸图像23的情绪估计处理的执行)，而执行不用被估计者的脸图像23的任意的情绪估计处理，由此估计被估计者的情绪。例如在判定为被估计者正在讲话的情况下，不执行利用了被估计者的脸图像23的情绪估计处理，而是使用周边声音数据24所表征的被估计者的声音来估计被估计者的情绪即可。使用被估计者的声音来估计被估计者的情绪的技术由于在该技术领域中周知，因此省略详细的说明。

另外，情绪估计部110也可以在判定为被估计者正在讲话的情况下执行利用了被估计者的脸图像23的情绪估计处理。具体地，可以使用第2情绪认识模型26进行第1实施方式中的步骤S203～步骤S210的处理，在判定为被估计者未正在讲话的情况下，不执行利用了被估计者的脸图像23的情绪估计处理而结束情绪估计处理。

如以上说明的那样，情绪估计装置1由于在估计利用被估计者的脸图像23的被估计者的情绪时，进行不影响到被估计者的讲话的有无的情绪估计，因此能以高的精度估计被估计者的情绪。

在上述的实施方式以及变形例中，情绪估计装置1在输出部40所具备的显示器显示情绪图像，经由外部接口50送出情绪信息，由此输出情绪估计处理的结果。但这只是一例。情绪估计装置1能用任意的方法输出情绪估计处理的结果。例如情绪估计装置1的输出部40具备未图示的扬声器，将表征情绪估计装置1所估计出的被估计者的情绪的声音即情绪声音从该扬声器输出即可。

本发明所涉及的情绪估计装置能通过计算机、便携电话、智能手机、摄像机、PDA(Personal Digital Assistant，个人数字助理)等任意的电子设备实现。具体地，通过将用于使这些电子设备作为本发明所涉及的情绪估计装置而动作的程序存放在这些电子设备可读的记录介质(例如存储卡或CD-ROM(Compact Disc Read-Only Memory，只读光盘)、DVD-ROM(Digital Versatile Disc Read-Only Memory，数字多功能盘)等)来进行分发，并安装在这些电子设备中，由此能实现本发明所涉及的情绪估计装置。

或者，也可以将上述程序存放在互联网等通信网络上的服务器装置所具有的存储装置(例如盘装置等)中，通过计算机、便携电话、智能手机、摄像机、PDA等电子设备下载该程序来实现本发明所涉及的情绪估计装置。

另外，在通过OS(Operating System，操作系统)和应用程序的协作或分担来实现本发明所涉及的情绪估计装置的功能的情况下，也可以仅将应用程序部分存放在记录介质或存储装置。

另外，也可以将应用程序叠加到载波，经由通信网络发布。例如可以在通信网络上的布告牌(BBS：Bulletin Board System)布告应用程序，经由网络发布应用程序。然后将该应用程序安装在计算机并起动，在OS的控制下与其他应用程序同样地执行，由此实现本发明所涉及的情绪估计装置。

Claims

1.一种情绪估计装置，其特征在于，具备：

讲话判定单元，其判定在拍摄被估计者的脸图像时所述被估计者是否正在讲话；和

情绪估计单元，其基于所述讲话判定单元的判定结果来执行利用了所述被估计者的脸图像的情绪估计处理，由此估计所述被估计者的情绪。

2.根据权利要求1所述的情绪估计装置，其特征在于，

在所述讲话判定单元判定为所述被估计者未正在讲话的情况下，所述情绪估计单元执行利用了所述被估计者的脸图像的情绪估计处理。

3.根据权利要求2所述的情绪估计装置，其特征在于，

在所述讲话判定单元判定为所述被估计者正在讲话的情况下，所述情绪估计单元不执行利用了所述被估计者的脸图像的情绪估计处理。

4.根据权利要求1所述的情绪估计装置，其特征在于，

在所述讲话判定单元判定为所述被估计者正在讲话的情况下，所述情绪估计单元执行利用了所述被估计者的脸图像的情绪估计处理。

5.根据权利要求1所述的情绪估计装置，其特征在于，

所述情绪估计单元在所述讲话判定单元判定为所述被估计者未正在讲话的情况下、和所述讲话判定单元判定为所述被估计者正在讲话的情况下，执行利用了所述被估计者的脸图像的相互不同的情绪估计处理，由此估计所述被估计者的情绪。

6.根据权利要求5所述的情绪估计装置，其特征在于，

在所述讲话判定单元判定为所述被估计者未正在讲话的情况下，所述情绪估计单元至少使用所述被估计者的脸图像的表征所述被估计者的口的图像，通过估计所述被估计者的情绪的第1情绪认识模型来执行情绪估计处理，

在所述讲话判定单元判定为所述被估计者正在讲话的情况下，所述情绪估计单元使用所述被估计者的脸图像的表征所述被估计者的口的图像以外的图像，通过估计所述被估计者的情绪的第2情绪认识模型来执行情绪估计处理。

7.根据权利要求1～6中任一项所述的情绪估计装置，其特征在于，

所述讲话判定单元基于拍摄所述被估计者的脸图像时的声音来判定所述被估计者是否正在讲话。

8.根据权利要求7所述的情绪估计装置，其特征在于，

若表征拍摄所述被估计者的脸图像时的所述被估计者的周围的声音的周边声音数据的音量不足第1阈值，则所述讲话判定单元判定为所述被估计者未正在讲话，

若所述周边声音数据的音量为所述第1阈值以上，则所述讲话判定单元判定为所述被估计者正在讲话。

9.根据权利要求7所述的情绪估计装置，其特征在于，

若表征拍摄所述被估计者的脸图像时的所述被估计者的周边的声音的周边声音数据与表征元音的元音声音数据之间的类似度、和所述周边声音数据与表征辅音的辅音声音数据之间的类似度当中的至少任意一方不足第2阈值，则所述讲话判定单元判定为所述被估计者未正在讲话，

若所述周边声音数据与所述元音声音数据之间的类似度、和所述周边声音数据与所述辅音声音数据之间的类似度当中的至少任意一方为所述第2阈值以上，则所述讲话判定单元判定为所述被估计者正在讲话。

10.一种情绪估计方法，其特征在于，包括：

讲话判定步骤，判定在拍摄被估计者的脸图像时所述被估计者是否正在讲话；和

情绪估计步骤，基于所述讲话判定步骤的判定结果来执行利用了所述被估计者的脸图像的情绪估计处理，由此估计所述被估计者的情绪。