CN105405436A

CN105405436A - 评分装置以及评分方法

Info

Publication number: CN105405436A
Application number: CN201510486479.9A
Authority: CN
Inventors: 村上达哉; 张立舟
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2014-09-05
Filing date: 2015-08-10
Publication date: 2016-03-16
Anticipated expiration: 2035-08-10
Also published as: JP6428066B2; EP2993615A1; US9892652B2; CN105405436B; US20160071428A1; EP2993615B1; JP2016057337A

Abstract

本发明涉及评分装置以及评分方法。提供能够使歌唱者更加享受歌唱行为的技术。本发明的评分装置的特征在于，具有：取得部件，取得拍摄到歌唱者的图像数据；检测部件，根据由所述取得部件取得的图像数据，检测与歌唱中的表情或面部的运动有关的特征作为所述歌唱者的面部的特征；计算部件，基于由所述检测部件检测到的特征，计算对于所述歌唱者的歌唱行为的得分；以及输出部件，输出所述得分。

Description

评分装置以及评分方法

技术领域

本发明涉及计算对于歌唱者的歌唱行为的得分的评分装置以及评分方法。

背景技术

作为播放卡拉OK的乐曲的卡拉OK装置，存在能够计算对于歌唱者的歌唱行为的得分的卡拉OK装置。计算对于歌唱行为的得分的功能被称为“评分功能”等。在以往的评分功能中，基于歌唱行为中的音程、抑扬、声量等与声音相关的信息来计算得分。歌唱者通过利用上述评分功能，能够以得分来确认歌唱行为的结果，能够更加享受歌唱行为。

用于使歌唱者更加享受歌唱行为的其他功能也被实用化。例如，利用互联网来显示对于歌唱行为的得分的全国排行的功能、通过对于歌唱行为的得分来进行bingo游戏的功能、变换歌唱者的声音而从扬声器输出的功能等被实用化。

此外，作为用于使歌唱者更加享受歌唱行为的技术，存在专利文献1中公开的技术。在专利文献1中公开的技术中，听者的感情被估计，基于估计结果来编辑卡拉OK的视频。

由于卡拉OK装置被用作娱乐装置的情况较多，所以向用于使歌唱者更加享受歌唱行为的功能的需求高。

现有技术文献

专利文献

专利文献1：(日本)特开2009－288446号公报

发明内容

本发明的目的在于，提供能够使歌唱者更加享受歌唱行为的技术。

为了达成上述目的，本发明采用以下的结构。

本发明的评分装置的特征在于，具有：取得部件，取得拍摄到歌唱者的图像数据；检测部件，根据由所述取得部件取得的图像数据，检测与歌唱中的表情或面部的运动有关的特征作为所述歌唱者的面部的特征；计算部件，基于由所述检测部件检测到的特征，计算对于所述歌唱者的歌唱行为的得分；以及输出部件，输出所述得分。

在本发明的评分装置中，作为对于歌唱者的歌唱行为的得分的计算基准之一，考虑以往没有考虑到的歌唱者的面部的特征(与歌唱中的表情或面部的运动有关的特征)。由此，能够使歌唱者更加注重唱法，能够使其更加享受歌唱行为。此外，能够扩大更加享受歌唱行为的歌唱者的层。例如，即使是对歌声没有自信的人，也能够通过努力做出表情等从而能够获得较高的得分，因此能够更加享受歌唱行为。面部的特征例如是表情、面部器官的运动的大小、面部器官的特征点的位置关系、视线方向、睁眼状态、特征点附近的深浅值、特征点附近的深浅值的周期性、特征点附近的深浅值的方向性、颜色分布、亮度分布等。

此外，优选所述图像数据是运动图像的图像数据，所述检测部件在所述运动图像的每N帧(N为1以上的整数)中，检测所述歌唱者的面部的特征，所述计算部件基于所述每N帧的特征来计算所述得分。通过设为这样的结构，能够得到更适当的值作为对于歌唱者歌唱乐曲整体的歌唱行为的得分。此外，能够使歌唱者在乐曲整体上更加注重唱法。其结果，能够使歌唱者更加享受歌唱行为。

此外，优选对所述歌唱者歌唱的乐曲预先决定目标的特征，所述计算部件将由所述检测部件检测到的特征与所述目标的特征进行比较，基于其比较结果来计算所述得分。例如，优选对所述歌唱者歌唱的乐曲预先决定目标的表情，所述检测部件检测在所述乐曲的至少一部分期间即评分期间中的所述歌唱者的表情，所述计算部件计算在所述评分期间之中检测到与所述目标的表情一致的表情的期间的长度的总和越大则越高的值作为所述得分。或者，优选所述目标的特征是从图像数据提取的特征矢量，所述检测部件从由所述取得部件取得的图像数据提取所述歌唱者的面部的特征矢量，所述计算部件计算由所述检测部件提取到的特征矢量和目标的特征矢量之间的类似度，基于所计算出的类似度来计算所述得分。目标的特征例如是乐曲的提供者所意图的特征。因此，通过设为这样的结构，能够得到更适于乐曲的提供者的意图的得分。

此外，优选对所述歌唱者歌唱的乐曲预先决定目标的表情，所述检测部件关于预先决定的多个表情的每个表情，计算该表情和所述歌唱者的表情之间的类似度，所述计算部件基于与所述目标的表情对应的类似度来计算所述得分。通过设为这样的结构，也能够得到更适于乐曲的提供者的意图的得分。

此外，优选对所述歌唱者歌唱的乐曲预先决定应使面部的特征变化而歌唱的时间位置即特征变化位置，所述计算部件基于所述特征变化位置上的由所述检测部件检测到的特征的变化的大小来计算所述得分。通过设为这样的结构，也能够得到更适于乐曲的提供者的意图的得分。

此外，优选在所述歌唱者歌唱的乐曲的每个期间中，预先决定目标的面部的特征。例如，优选在所述歌唱者歌唱的乐曲的每小段中，预先决定目标的面部的特征。通过设为这样的结构，能够使歌唱者在每个期间(每小段)更加注重唱法，能够使其更加享受歌唱行为。

此外，优选所述计算部件在所述歌唱者歌唱的乐曲的每小段中，基于在所述歌唱者正在歌唱该小段时的所述歌唱者的面部的特征，计算对于所述歌唱者歌唱该小段的歌唱行为的得分即部分得分。通过设为这样的结构，能够得到每小段的得分，因此能够使歌唱者更加享受歌唱行为。例如，能够使歌唱者掌握歌唱小段的歌唱行为是哪个程度的等级，能够使歌唱者掌握应努力做出面部的特征的小段。其结果，能够使歌唱者在每小段更加注重唱法，能够使其更加享受歌唱行为。

此外，优选所述计算部件基于所述每小段的部分得分，计算对于所述歌唱者歌唱所述乐曲整体的歌唱行为的得分即整体得分。通过设为这样的结构，不仅能够得到每小段的得分(部分得分)，还能够得到乐曲整体的得分(整体得分)，因此能够使歌唱者更加享受歌唱行为。例如，由于能够使歌唱者掌握歌唱乐曲整体的歌唱行为是哪个程度的等级，所以能够使歌唱者更加享受歌唱行为。

这样得到的各得分通过输出部件而被输出至评分装置的外部。所输出的得分也可以作为数值而显示在显示装置中，也可以变换为预先与得分建立关联而定义的消息而显示在显示装置中，此外，也可以作为在显示装置中显示的登场人物的运动或表情、从扬声器输出的声音、设置有卡拉OK装置的房间的照明等的变化而被利用。像这样，通过以外部的装置能够利用的方式输出各得分，能够向歌唱者反馈得分，能够使歌唱者更加享受歌唱行为。

此外，本发明也可以作为具有上述部件的至少一部分的评分装置而理解，还能够作为包含上述处理的至少一部分的评分方法、或者用于实现该方法的模拟程序或记录有该程序的记录介质而理解。另外，上述部件以及处理的各个能够尽可能相互组合而构成本发明。

根据本发明，能够使歌唱者更加享受歌唱行为。

附图说明

图1是表示实施例1～5所涉及的卡拉OK系统的结构的一例的图。

图2是表示实施例1～5所涉及的评分装置的功能结构的一例的框图。

图3是表示实施例1所涉及的评分装置的动作的流程的一例的流程图。

图4是表示实施例1所涉及的评分装置的动作的具体例的图。

图5是表示实施例2所涉及的评分装置的动作的流程的一例的流程图。

图6是表示实施例2所涉及的评分装置的动作的具体例的图。

图7是表示实施例3所涉及的评分装置的动作的流程的一例的流程图。

图8是表示实施例3所涉及的评分装置的动作的具体例的图。

图9是表示实施例4所涉及的评分装置的动作的流程的一例的流程图。

图10是表示实施例4所涉及的评分装置的动作的具体例的图。

图11是表示实施例5所涉及的评分装置的动作的流程的一例的流程图。

图12是表示实施例5所涉及的评分装置的动作的具体例的图。

图13是表示实施例1所涉及的表情的检测方法的一例的图。

图14是表示实施例1所涉及的正确答案表情的决定方法的一例的图。

图15是表示实施例1所涉及的正确答案表情的决定方法的一例的流程图。

图16是表示实施例1所涉及的正确答案表情的决定方法的一例的图。

图17是表示实施例1所涉及的正确答案表情的决定方法的一例的流程图。

图18是表示实施例1所涉及的在决定正确答案表情时使用的信息(表示场景的特征和表情之间的对应关系的信息)的一例的图。

图19(a)是表示实施例2所涉及的卡拉OK图像的一例的图。并且，图19(b)、19(c)是表示实施例1～5所涉及的卡拉OK图像的一例的图。

图20(a)、20(d)是表示实施例1～5所涉及的得分的显示方法的一例的图。并且，图20(b)、20(c)是表示实施例1～5所涉及的得分的显示方法的一例的图。

标号说明

100评分装置

101拍摄装置

102卡拉OK装置

103显示装置

104扬声器

105麦克风

201图像取得部

202特征检测部

203存储部

204得分计算部

具体实施方式

＜实施例1＞

以下，说明本发明的实施例1所涉及的评分装置以及评分方法。

本实施例所涉及的评分装置是对歌唱者的歌唱行为进行评分的装置，例如，在卡拉OK的系统(卡拉OK系统)中被使用。

(系统结构)

图1是表示本实施例所涉及的卡拉OK系统的结构的一例的图。

如图1所示，本实施例所涉及的卡拉OK系统具有评分装置100、拍摄装置101、卡拉OK装置102、显示装置103、扬声器104、麦克风105等。

麦克风105将声音变换为电信号，将电信号发送至卡拉OK装置102。例如，歌唱者的歌声被变换为电信号而发送至卡拉OK装置102。

卡拉OK装置102生成表示乐曲的电信号。例如，卡拉OK装置102生成表示歌唱者所选择的乐曲的电信号。

此外，卡拉OK装置102从麦克风105接收表示声音的电信号。例如，卡拉OK装置102从麦克风105接收表示歌唱者的歌声的电信号。

并且，卡拉OK装置102将表示声音的电信号发送至扬声器104。例如，卡拉OK装置102生成表示乐曲、歌唱者的歌声、或者这双方的电信号，将所生成的电信号发送至扬声器104。

此外，卡拉OK装置102从评分装置100取得评分结果(表示对于歌唱者的歌唱行为的得分的得分数据)。

此外，卡拉OK装置102将图像数据输出至显示装置103。例如，卡拉OK装置102将与乐曲相应的图像数据(表示卡拉OK的图像(视频)的图像数据；卡拉OK图像数据)、表示评分结果的图像数据(得分图像数据)等输出至显示装置103。

扬声器104发出与电信号相应的声音。例如，扬声器104输出乐曲、歌唱者的歌声、或者这双方。

显示装置103将基于从卡拉OK装置102输出的图像数据的图像显示在画面中。例如，显示装置103将基于卡拉OK图像数据的图像(卡拉OK图像)、基于得分图像数据的图像(得分图像)等显示在画面中。

拍摄装置101通过拍摄歌唱者来生成图像数据(拍摄图像数据)，将拍摄图像数据输出至评分装置100。

评分装置100从拍摄装置101取得拍摄到歌唱者的拍摄图像数据，基于所取得的拍摄图像数据，计算对于歌唱者的歌唱行为的得分。并且，评分装置100将表示所计算出的得分的得分数据输出至卡拉OK装置102。

另外，评分装置100也可以设置在卡拉OK装置102的内部。

另外，在本实施例中，说明仅基于拍摄图像数据来计算得分的例子，但不限于此。例如，也可以还考虑歌唱行为中的音程、抑扬、声量等与声音相关的信息来计算得分。

(评分装置的结构)

图2是表示评分装置100的功能结构的一例的框图。

评分装置100具有图像取得部201、特征检测部202、存储部203、得分计算部204等。

图像取得部201从拍摄装置101取得拍摄图像数据，将所取得的拍摄图像数据输出至特征检测部202。在本实施例中，取得运动图像的图像数据作为拍摄图像数据。

特征检测部202从自图像取得部201输出的拍摄图像数据，检测与歌唱中的表情或面部的运动有关的特征作为歌唱者的面部的特征。“表情”意味着例如由面容表现的感情或情绪。“面部的运动”意味着例如面部器官的运动、多个面部器官之间的位置关系的变化等。并且，特征检测部202将特征的检测结果输出至得分计算部204。在本实施例中，在拍摄图像数据表示的运动图像的每N帧(N为1以上的整数)中，检测歌唱者的面部的特征。在本实施例中，检测歌唱者的表情作为歌唱者的面部的特征。以后，将由特征检测部202检测到的表情记载为“检测表情”。

在存储部203中，表示目标的面部的特征的目标特征信息与歌唱者歌唱的乐曲建立对应而记录。像这样，在本实施例中，对歌唱者歌唱的乐曲预先决定目标的特征。具体而言，对乐曲预先决定一个(一种)特征作为目标的特征。更具体而言，对乐曲预先决定一个表情作为目标的表情(正确答案表情)。作为存储部203，能够使用磁盘、光盘、非易失性存储器等。

得分计算部204基于由特征检测部202检测到的特征(每N帧的特征)，计算对于歌唱者的歌唱行为的得分。在本实施例中，所检测到的特征(每N帧的特征)与目标的特征进行比较，基于其比较结果来计算得分。具体而言，每N帧的检测表情与正确答案表情进行比较，基于其比较结果来计算得分。

像这样，在本实施例中，作为对于歌唱者的歌唱行为的得分的计算基准之一，考虑以往没有考虑到的歌唱者的面部的特征。由此，能够使歌唱者更加注重唱法，能够使其更加享受歌唱行为。此外，能够扩大更加享受歌唱行为的歌唱者的层。例如，即使是对歌声没有自信的人，也能够通过努力做出表情等而获得较高的得分，因此能够更加享受歌唱行为。

另外，在本实施例中，说明使用目标特征信息来计算得分的例子，但不限于此。只要使用由特征检测部202检测到的特征，得分怎样计算都可。例如，也可以使用表示特征和得分之间的对应关系的信息(函数或表)来计算得分。其中，目标特征信息例如是表示乐曲的提供者所意图的特征的信息。因此，通过使用目标特征信息，能够得到更适于乐曲的提供者的意图的得分。

另外，在本实施例中，说明拍摄图像数据是运动图像的图像数据且检测运动图像的每N帧的特征而使用的例子，但不限于此。例如，拍摄图像数据也可以是静止图像的图像数据。并且，也可以从一张图像数据(静止图像的图像数据、或者运动图像的一帧的图像数据)检测特征。其中，通过使用每N帧的特征，能够得到更适当的值作为对于歌唱者歌唱乐曲整体的歌唱行为的得分。此外，能够使歌唱者在乐曲整体上更加注重唱法。其结果，能够使歌唱者更加享受歌唱行为。

另外，在本实施例中，说明使用表情作为面部的特征的例子，但不限于此。例如，也可以使用面部器官的运动的大小、面部器官的特征点的位置关系、视线方向、睁眼状态、特征点附近的深浅值、特征点附近的深浅值的周期性、特征点附近的深浅值的方向性、颜色分布、亮度分布等作为面部的特征。

(特征的检测方法)

使用图13说明本实施例所涉及的特征的检测方法的一例。

以下，说明检测表情作为面部的特征的例子。

特征检测部202从拍摄图像数据表示的图像的区域检测歌唱者的面部的特征点。在图13中，×记号表示特征点。具体而言，特征检测部202从拍摄图像数据表示的图像的区域检测歌唱者的面部的区域(面部区域)，从面部区域检测特征点。对检测面部区域的处理(面部检测处理)也可以应用已有的任意技术。例如，在面部检测处理的方法中，存在使用纹理信息的图案匹配、通过基于轮廓或面部的器官(眼睛、鼻子、嘴等)的模型拟合来检测面部区域的方法、基于肌肤的颜色或深浅的分布来检测面部区域的方法等。

特征检测部202基于所检测到的特征点的配置的图案来检测歌唱者的表情。在本实施例中，对每个表情预先决定表示特征点的配置的图案的图案信息。特征检测部202从图案信息表示的多个表情之中，检测与所检测到的特征点的配置的图案对应的表情作为歌唱者的表情。在表情中，例如存在“高兴的表情”、“悲伤的表情”、“认真的表情”等。

另外，在拍摄图像数据表示的图像中，存在拍到歌唱者以外的人的面部的情况。此时，例如检测话筒的区域，将离话筒的区域最近的面部的区域检测为歌唱者的面部的区域即可。话筒的区域能够通过进行与面部检测处理相同的处理来检测。

另外，优选检测专用于表情的检测的特征点。例如，优选检测易于产生表情变化的器官(例如，两眼、眉毛、脸颊、前额、嘴角等)等的特征点。在图13的例子中，检测大眼角、外眼角、嘴角、上唇的中心、以及下唇的中心这五处作为特征点。

另外，表情的检测方法不限于上述方法。例如，也可以使用面部器官的运动的大小、视线方向、睁眼状态、特征点附近的深浅值、特征点附近的深浅值的周期性、特征点附近的深浅值的方向性、颜色分布、亮度分布等来检测表情。

(目标特征信息的生成方法)

使用图14～18说明本实施例所涉及的目标特征信息的生成方法的一例。

以下，说明决定正确答案表情的例子。

另外，以下说明的方法只是一例，本实施例所涉及的目标特征信息的生成方法不限定于以下的方法。

使用图14、15说明第一个方法。

在第一个方法中，如图14所示，基于正在歌唱乐曲的艺术家的表情来决定正确答案表情。在第一个方法中，使用表示正在歌唱乐曲的艺术家的图像数据(艺术家图像数据)。艺术家图像数据例如是歌曲节目、宣传视频(PV，promotionVideo)等图像数据。

如图15所示，从乐曲的开始至结束，重复进行S601的处理。S601的处理例如在每M帧(M为1以上的整数)中进行。M也可以是与N相同的值，也可以是与N不同的值。

在S601中，从艺术家图像数据来检测艺术家的表情。

接着，基于所检测到的多个表情(艺术家的表情)，检测正确答案表情(S602)。例如，将检测频度最高的表情检测为正确答案表情。

另外，也可以将所检测到的多个特征(艺术家的面部的特征)的最频值以外的代表值决定为目标的特征。最频值以外的代表值例如是最大值、最小值、平均值、中间值等。

另外，细节以其他实施例进行说明，但也可以在乐曲的每个期间(小段等)决定目标的特征。此时，也可以在乐曲的每个期间，基于对该期间检测到的多个特征，决定该期间的目标的特征。

使用图16～18说明第二个方法。

在第二个方法中，如图16所示，基于乐曲的PV的场景的特征，决定正确答案表情。在第二个方法中，使用乐曲的PV的图像数据(PV图像数据)。

如图17所示，从乐曲的开始至结束，重复进行S701的处理。S701的处理例如在每M帧(M为1以上的整数)中进行。

在S701中，从PV图像数据检测场景的特征。场景的特征例如是颜色的数目、亮度、边缘的数目、颜色分布、亮度分布等。

接着，基于所检测到的特征(PV的场景的特征)，检测正确答案表情(S702)。例如，如图18所示，预先准备表示场景的特征和表情之间的对应关系的信息(表)。图18所示的信息能够事先通过学习来决定。在S702中，在每M帧中，从图18的信息取得与该帧的特征对应的表情。并且，将所取得的频度最高的表情检测为正确答案表情。

另外，也可以将每M帧的面部的特征的最频值以外的代表值决定为目标的特征。

另外，也可以在乐曲的每个期间，基于对该期间取得的多个特征(场景的特征或者面部的特征)，决定该期间的目标的特征。

(评分装置的动作)

使用图3的流程图说明本实施例所涉及的评分装置100的动作的流程的一例。图3的流程图以歌唱者开始乐曲的歌唱为触发而开始。具体而言，图3的流程图以歌唱者要歌唱的乐曲被播放为触发而开始。

如图3所示，在从评分的开始至评分的结束的期间(评分期间)中，在每N帧(每规定时间)中，进行S101～S104的处理。评分期间是乐曲的至少一部分的期间。也可以使用从乐曲的开始至结束的期间作为评分期间。

在S101中，图像取得部201取得拍摄图像数据。之后，处理前进至S102。

在S102中，特征检测部202从在S101中取得的拍摄图像数据，检测歌唱者的表情。之后，处理前进至S103。

在S103中，得分计算部204判定在S102中检测到的表情(检测表情)是否与在存储部203中记录的正确答案表情一致。在检测表情与正确答案表情一致的情况下，处理前进至S104。在检测表情与正确答案表情不一致的情况下，不进行S104的处理。另外，也可以仅将与正确答案表情完全一致的检测表情判定为“与正确答案表情一致的检测表情”，也可以不是那样。也可以将与正确答案表情完全一致的检测表情、与正确答案表情类似的检测表情判定为“与正确答案表情一致的检测表情”。

在S104中，得分计算部204将计数值Cnt增加1。计数值Cnt表示检测到与正确答案表情一致的检测表情的次数。计数值Cnt在图3的流程图的开始时，被初始化为0。

在评分期间的结束后，处理前进至S105。

在S105中，得分计算部204基于计数值Cnt来计算得分。在本实施例中，计算在评分期间之中检测到与正确答案表情一致的检测表情的期间的长度的总和越大则越高的值作为得分。具体而言，计算计数值Cnt越大则越高的值作为得分。例如，计算计数值相对于检测表情的总检测次数的比例作为得分。得分计算部205将表示所计算出的得分的得分数据输出至卡拉OK装置102。

接着，卡拉OK装置102将表示在S105中计算出的得分的得分图像数据输出至显示装置103(S106)。由此，表示在S105中计算出的得分的得分图像显示在显示装置103的画面中。图20(a)表示得分图像的一例。

另外，S106的处理也可以由评分装置100进行。即，也可以是评分装置100具有将得分显示在显示装置103的画面中的功能。

(评分装置的动作的具体例)

使用图4说明本实施例所涉及的评分装置100的动作的具体例。

在图4的例子中，对乐曲预先决定一个正确答案表情“高兴的表情”。并且，在图4的例子中，歌唱者的表情合计被检测六次。

在第一次，在图3的S102中，检测到“高兴的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S104中，对计数值Cnt加上1。其结果，计数值Cnt从0被更新为1。

在第二次，在图3的S102中，检测到“悲伤的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情不一致，所以不进行S104的处理，维持计数值Cnt＝1。

在第三次，在图3的S102中，检测到“高兴的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S104中，对计数值Cnt加上1。其结果，计数值Cnt从1被更新为2。

在第四次，在图3的S102中，检测到“悲伤的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情不一致，所以不进行S104的处理，维持计数值Cnt＝2。

在第五次，在图3的S102中，检测到“高兴的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S104中，对计数值Cnt加上1。其结果，计数值Cnt从2被更新为3。

在第六次，在图3的S102中，检测到“认真的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情不一致，所以不进行S104的处理，维持计数值Cnt＝3。

在图4的例子中，得到3作为计数值Cnt的最终的值。并且，检测表情的总检测次数为6。因此，得到50分(＝50％＝100×3÷6)作为得分。

另外，也可以检测“高兴的表情”、“悲伤的表情”、以及“认真的表情”以外的表情作为检测表情。也可以使用“高兴的表情”、“悲伤的表情”、以及“认真的表情”以外的表情作为正确答案表情。

如以上叙述那样，根据本实施例，作为对于歌唱者的歌唱行为的得分的计算基准之一，考虑以往没有考虑到的歌唱者的面部的特征。具体而言，检测评分期间中的歌唱者的表情，计算在评分期间之中检测到与正确答案表情一致的表情的期间的长度的总和越大则越高的值作为得分。由此，能够使歌唱者更加注重唱法，能够使其更加享受歌唱行为。此外，能够扩大更加享受歌唱行为的歌唱者的层。

＜实施例2＞

以下，说明本发明的实施例2所涉及的评分装置以及评分方法。

另外，本实施例所涉及的卡拉OK系统的结构以及本实施例所涉及的评分装置的结构与实施例1(图1、2)相同，因此省略这些说明。

在本实施例中，得分计算部204在歌唱者歌唱的乐曲的每小段，基于歌唱者正在歌唱该小段时的歌唱者的面部的特征，计算对于歌唱者歌唱该小段的歌唱行为的得分即部分得分。通过设为这样的结构，能够得到每小段的得分，因此能够使歌唱者更加享受歌唱行为。例如，能够使歌唱者掌握歌唱小段的歌唱行为是哪个程度的等级，能够使歌唱者掌握应努力做出面部的特征的小段。其结果，能够使歌唱者在每小段更加注重唱法，能够使其更加享受歌唱行为。

此外，在本实施例中，得分计算部204基于每小段的部分得分来计算对于歌唱者歌唱乐曲整体的歌唱行为的得分即整体得分。通过设为这样的结构，不仅能够得到每小段的得分(部分得分)，还能够得到乐曲整体的得分(整体得分)，能够使歌唱者更加享受歌唱行为。例如，能够使歌唱者掌握歌唱乐曲整体的歌唱行为是哪个程度的等级，因此能够使歌唱者更加享受歌唱行为。

此外，在本实施例中，在歌唱者歌唱的乐曲的每个期间，预先决定目标的面部的特征。具体而言，在歌唱者歌唱的乐曲的每个小段，预先决定目标的面部的特征。通过设为这样的结构，能够使歌唱者在每个期间(每小段)更加注重唱法，能够使其更加享受歌唱行为。

另外，准备目标的特征的一个期间不限于一小段的期间。准备目标的特征的期间的长度不特别限定。准备目标的特征的期间也可以比一小段的期间长，也可以比其短。

另外，在实施例1中省略了说明，但优选显示进一步表示正确答案表情的图像作为卡拉OK的图像。例如，在本实施例的情况下，优选在每小段中，与该小段建立对应而显示该小段的正确答案表情(图19(a))。由此，能够使歌唱者在歌唱者的歌唱中掌握正确答案表情，能够催促歌唱者做出像正确答案表情的表情。其结果，能够更可靠地得到使其注重唱法的效果以及使其更加享受歌唱行为的效果。

此外，优选显示进一步表示当前的检测表情的图像作为卡拉OK的图像(图19(b))。由此，能够使歌唱者在歌唱者的歌唱中掌握自身的表情。其结果，能够使歌唱者更加努力做出表情，或提高歌唱者对于歌唱行为的干劲。

此外，优选显示重叠了表示正确答案表情和检测信息的比较结果的图形图像(图标或消息)的图像作为卡拉OK的图像。例如，优选显示重叠了“请做出更认真的表情！”、“表情不错！”等消息的图像(图19(c))。由此，也能够使歌唱者更加努力做出表情，或提高歌唱者对于歌唱行为的干劲。

(评分装置的动作)

使用图5的流程图说明本实施例所涉及的评分装置100的动作的流程的一例。图5的流程图以歌唱者开始乐曲的歌唱为触发而开始。具体而言，图5的流程图以歌唱者要歌唱的乐曲被播放为触发而开始。

另外，以下，说明面部的特征为表情的情况下的例子，但面部的特征不限于表情。

如图5所示，在从评分的开始至评分的结束的期间(评分期间)中，在每N帧(每规定时间)，进行S201～S206的处理。

在S201中，图像取得部201取得拍摄图像数据。之后，处理前进至S202。

在S202中，特征检测部202从在S201中取得的拍摄图像数据，检测歌唱者的表情。之后，处理前进至S203。

在S203中，得分计算部204判定在S202中检测到的表情(检测表情)是否与在存储部203中记录的正确答案表情一致。具体而言，判定检测表情是否与当前的歌唱对象的小段(第n个(n为1以上的整数)小段)的正确答案表情一致。在检测表情与正确答案表情一致的情况下，处理前进至S204。在检测表情与正确答案表情不一致的情况下，处理前进至S205。

在S204中，得分计算部204将第n个小段的计数值Cnt(n)增加1。之后，处理前进至S205。计数值Cnt(n)表示在第n个小段的期间中检测到与正确答案表情一致的检测表情的次数。各小段的计数值Cnt(n)在图5的流程图的开始时，被初始化为0。

在S205中，得分计算部204判定第n个小段(小段n)的期间是否结束。在第n个小段的期间已结束的情况下，处理前进至S206。在第n个小段的期间没有结束的情况下，不进行S206的处理。

在S206中，得分计算部204将小段序号n增加1。小段序号n是小段的序号。小段序号n在图5的流程图的开始时，被初始化为1。

在评分期间的结束后，处理前进至S207。

在S207中，得分计算部204基于计数值Cnt(n)来计算部分得分和整体得分。在本实施例中，在每小段中，计算计数值Cnt(n)越大则越高的值作为得分。具体而言，在每小段中，计算该小段的计数值Cnt(n)相对于在该小段的期间中的检测表情的总检测次数的比例作为该小段的部分得分。并且，计算每小段的部分得分的平均值作为整体得分。得分计算部205将表示所计算出的得分的得分数据输出至卡拉OK装置102。

另外，与实施例1的得分的计算方法相同，部分得分的计算方法不限定于上述方法。

此外，整体得分的计算方法也不限定于上述方法。例如，也可以通过与实施例1相同的方法来计算整体得分。此外，也可以通过对每小段的部分得分进行加权合成来计算整体得分。在加权合成中，作为乐曲中最高潮的小段(例如副歌(サビ))的部分得分的权重，优选设定与其他部分得分的权重相比更大的权重。

接着，卡拉OK装置102将表示在S207中计算出的得分的得分图像数据输出至显示装置103(S208)。由此，表示在S207中计算出的得分的得分图像显示在显示装置103的画面中。图20(b)表示得分图像的一例。图20(b)的得分图像表示部分得分(按小段得分)和整体得分(综合得分)的双方。

另外，与图3的S106的处理相同，S208的处理也可以由评分装置100进行。

另外，也可以是部分得分和整体得分的双方作为评分结果而显示在显示装置103的画面中，也可以是部分得分和整体得分的一方作为评分结果而显示在显示装置103的画面中。

另外，如图20(c)所示，也可以在歌唱者的歌唱中实时显示部分得分。此外，如图20(d)所示，也可以在歌唱者的歌唱中，实时计算并显示对于从评分开始至当前的期间中的歌唱行为的得分。由此，能够使歌唱者更加努力做出表情，或提高对于歌唱行为的歌唱者的干劲。

(评分装置的动作的具体例)

使用图6说明本实施例所涉及的评分装置100的动作的具体例。

在图6的例子中，在乐曲中存在从第一小段至第三小段这三个小段。预先决定“高兴的表情”作为第一小段的正确答案表情，预先决定“认真的表情”作为第二小段的正确答案表情，预先决定“悲伤的表情”作为第三小段的正确答案表情。并且，在图6的例子中，在第一小段的期间中，合计检测到四次歌唱者的表情，在第二小段的期间中，合计检测到四次歌唱者的表情，在第三小段的期间中，合计检测到三次歌唱者的表情。

说明与第一小段的期间相关的处理。

在第一次，在图5的S202中，检测到“高兴的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S204中，对计数值Cnt(1)加上1。其结果，计数值Cnt(1)从0被更新为1。

在第二次，也在图5的S202中，检测到“高兴的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S204中，对计数值Cnt(1)加上1。其结果，计数值Cnt(1)从1被更新为2。

在第三次，也在图5的S202中，检测到“高兴的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S204中，对计数值Cnt(1)加上1。其结果，计数值Cnt(1)从2被更新为3。

在第四次，在图5的S202中，检测到“认真的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情不一致，所以不进行S204的处理，维持计数值Cnt(1)＝3。

说明与第二小段的期间相关的处理。

在第一次，在图5的S202中，检测到“悲伤的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情不一致，所以不进行S204的处理，维持计数值Cnt(2)＝0。

在第二次，在图5的S202中，检测到“认真的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S204中，对计数值Cnt(2)加上1。其结果，计数值Cnt(2)从0被更新为1。

在第三次，在图5的S202中，检测到“悲伤的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情不一致，所以不进行S204的处理，维持计数值Cnt(2)＝1。

在第四次，在图5的S202中，检测到“认真的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S204中，对计数值Cnt(2)加上1。其结果，计数值Cnt(2)从1被更新为2。

说明与第三小段的期间相关的处理。

在第一次，在图5的S202中，检测到“悲伤的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S204中，对计数值Cnt(3)加上1。其结果，计数值Cnt(3)从0被更新为1。

在第二次，也在图5的S202中，检测到“悲伤的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情一致，所以在S204中，对计数值Cnt(3)加上1。其结果，计数值Cnt(3)从1被更新为2。

在第三次，在图5的S202中，检测到“认真的表情”作为歌唱者的表情。并且，由于检测表情与正确答案表情不一致，所以不进行S204的处理，维持计数值Cnt(3)＝2。

在图6的例子中，得到3作为第一帧的计数值Cnt(1)的最终的值。并且，第一帧的期间中的检测表情的总检测次数为4。因此，得到75分(＝75％＝100×3÷4)作为第一帧的部分得分。

此外，在图6的例子中，得到2作为第二帧的计数值Cnt(2)的最终的值。并且，第二帧的期间中的检测表情的总检测次数为4。因此，得到50分(＝50％＝100×2÷4)作为第二帧的部分得分。

此外，在图6的例子中，得到2作为第三帧的计数值Cnt(3)的最终的值。并且，第三帧的期间中的检测表情的总检测次数为3。因此，得到67分(＝67％＝100×2÷3)作为第三帧的部分得分。

并且，得到64分(＝(75+50+67)÷3)作为整体得分。

如以上叙述那样，根据本实施例，使用在乐曲的每个期间预先决定的目标的特征来计算得分。此外，计算每小段的得分(部分得分)和乐曲整体的得分(整体得分)。由此，能够使歌唱者更加注重唱法，能够使其更加享受歌唱行为。

＜实施例3＞

以下，说明本发明的实施例3所涉及的评分装置以及评分方法。

另外，本实施例所涉及的卡拉OK系统的结构以及本实施例所涉及的评分装置的结构与实施例1(图1、2)相同，所以省略这些说明。

在本实施例中，与实施例1相同，说明对乐曲预先决定了一个正确答案表情的例子。

另外，与实施例2相同，也可以在乐曲的每个期间预先决定正确答案表情。

在本实施例中，特征检测部202关于预先决定的多个特征的每个特征，计算其表情与歌唱者的表情之间的类似度。即，在本实施例中，将预先决定的各表情和歌唱者的表情之间的类似度检测为面部的特征。

并且，在本实施例中，得分计算部204基于与正确答案表情对应的类似度来计算得分。

通过设为这样的结构，能够得到更适于乐曲的提供者的意图的得分。

(评分装置的动作)

使用图7的流程图说明本实施例所涉及的评分装置100的动作的流程的一例。图7的流程图以歌唱者开始乐曲的歌唱为触发而开始。具体而言，图7的流程图以歌唱者要歌唱的乐曲被播放为触发而开始。

如图7所示，在从评分的开始至评分的结束的期间(评分期间)中，在每N帧(每规定时间)，进行S301和S302的处理。

在S301中，图像取得部201取得拍摄图像数据。之后，处理前进至S302。

在S302中，特征检测部202在预先决定的每个表情中，计算该表情和在S301中取得的拍摄图像数据表示的歌唱者的表情之间的类似度。在本实施例中，关于“高兴的表情”、“悲伤的表情”、以及“认真的表情”这三个表情的每个表情，计算类似度。

另外，也可以预先决定“高兴的表情”、“悲伤的表情”、以及“认真的表情”以外的表情。

在评分期间的结束后，处理前进至S303。

在S303中，得分计算部204基于在S302中计算出的类似度之中与正确答案表情对应的类似度(正确答案类似度)来计算得分。在本实施例中，计算0以上100以下的值作为类似度。并且，计算每N帧的正确答案类似度的平均值作为得分(整体得分)。得分计算部205将表示所计算出的得分的得分数据输出至卡拉OK装置102。

另外，得分的计算方法不限于上述方法。例如，也可以计算每N帧的正确答案类似度的其他代表值(最大值、最小值、最频值、中间值等)作为得分。

另外，也可以将本实施例和实施例2进行组合。具体而言，也可以在每小段中，基于对该小段计算出的正确答案类似度来计算该小段的部分得分。

接着，卡拉OK装置102将表示在S303中计算出的得分的得分图像数据输出至显示装置103(S304)。由此，表示在S303中计算出的得分的得分图像显示在显示装置103的画面中。

另外，与图3的S106的处理相同，S304的处理也可以由评分装置100进行。

(评分装置的动作的具体例)

使用图8说明本实施例所涉及的评分装置100的动作的具体例。

在图8的例子中，对乐曲预先决定一个正确答案表情“高兴的表情”。并且，在图8的例子中，表情的类似度合计被计算三次。

在第一次，在图7的S302中，计算100作为“高兴的表情”和歌唱者的表情之间的类似度，计算0作为“悲伤的表情”和歌唱者的表情之间的类似度，计算0作为“认真的表情”和歌唱者的表情之间的类似度。

在第二次，在图7的S302中，计算20作为“高兴的表情”和歌唱者的表情之间的类似度，计算60作为“悲伤的表情”和歌唱者的表情之间的类似度，计算20作为“认真的表情”和歌唱者的表情之间的类似度。

在第三次，在图7的S302中，计算30作为“高兴的表情”和歌唱者的表情之间的类似度，计算50作为“悲伤的表情”和歌唱者的表情之间的类似度，计算20作为“认真的表情”和歌唱者的表情之间的类似度。

在图7的例子中，正确答案表情为“高兴的表情”，“高兴的表情”和歌唱者的表情之间的类似度为上述的正确答案类似度。并且，表情的类似度的总计算次数为3。因此，得到50分(＝(100+20+30)÷3)作为得分。

如以上叙述那样，根据本实施例，作为对于歌唱者的歌唱行为的得分的计算基准之一，考虑以往没有考虑到的歌唱者的面部的特征。由此，能够使歌唱者更加注重唱法，能够使其更加享受歌唱行为。

＜实施例4＞

以下，说明本发明的实施例4所涉及的评分装置以及评分方法。

在本实施例中，使用从图像数据(表示面部的图像的面部图像数据)提取的特征矢量作为面部的特征。也可以使用任意数据作为特征矢量。例如，能够使用检测表情所需的数据作为特征矢量。

特征矢量是从面部图像数据提取的多个特征量的集合。即，特征矢量是具有从面部图像数据提取的多个特征量的每个特征量作为分量的矢量。特征量的个数能够根据期待的得分计算精度而任意设定，但优选使用几十至几万个以上的特征量的集合作为特征矢量。对特征量来说也可以使用任意种类的特征量。例如，能够采用面部器官的运动的大小、面部器官的特征点的位置关系、视线方向、睁眼状态、特征点附近的深浅值、特征点附近的深浅值的周期性、特征点附近的深浅值的方向性、颜色分布、亮度分布等作为特征量。特征矢量能够称为将面部的特征进行了数值化后的特征矢量。与面部的特征根据表情或面部的运动而变化相同地，特征矢量也根据表情或面部的运动而变化。

并且，在本实施例中，预先决定根据乐曲的时间位置的变化而变化的特征矢量作为目标(正确答案)的面部的特征。例如，说明在乐曲的每个期间，预先决定目标的面部的特征矢量的例子。

另外，与实施例1相同，也可以对乐曲预先决定一个(一种)目标的特征。

在本实施例中，特征检测部202从自图像取得部201输出的拍摄图像数据，提取(检测)歌唱者的面部的特征矢量。具体而言，特征检测部202通过在实施例1中叙述的面部检测处理，从拍摄图像数据表示的图像的区域检测歌唱者的面部的区域(面部区域)。并且，特征检测部202从所检测到的面部区域提取多个特征量，取得所提取到的多个特征量的集合作为特征矢量。

并且，在本实施例中，得分计算部204计算由特征检测部202提取到的特征矢量和目标的特征矢量之间的类似度，基于所计算出的类似度来计算得分。对类似度来说也可以使用任意指标。例如，能够使用特征空间上的上述两个特征矢量之间的距离(欧几里得距离等)、上述两个特征矢量的内积等作为类似度。特征空间是与构成特征矢量的多个特征量对应的多个轴已决定的空间。

(评分装置的动作)

使用图9的流程图说明本实施例所涉及的评分装置100的动作的流程的一例。图9的流程图以歌唱者开始乐曲的歌唱为触发而开始。具体而言，图9的流程图以歌唱者要歌唱的乐曲被播放为触发而开始。

如图9所示，在从评分的开始至评分的结束的期间(评分期间)中，在每N帧(每规定时间)，进行S401～S403的处理。

在S401中，图像取得部201取得拍摄图像数据。之后，处理前进至S402。

在S402中，特征检测部202从在S401中取得的拍摄图像数据，提取歌唱者的面部的特征矢量。之后，处理前进至S403。

在S403中，得分计算部204计算在S402中提取到的特征矢量(检测特征矢量)和在存储部203中记录的特征矢量(正确答案(目标)的面部的特征矢量；正确答案特征矢量)之间的类似度。具体而言，计算当前的歌唱对象的时间位置(乐曲的时间位置)的正确答案特征矢量和检测特征矢量之间的类似度。

在评分期间的结束后，处理前进至S404。

在S404中，得分计算部204基于在S404中计算出的类似度来计算得分。在本实施例中，计算0以上100以下的值作为类似度。并且，计算每N帧的类似度的平均值作为得分(整体得分)。得分计算部205将表示所计算出的得分的得分数据输出至卡拉OK装置102。

另外，得分的计算方法不限于上述方法。例如，也可以计算每N帧的类似度的其他代表值(最大值、最小值、最频值、中间值等)作为得分。

另外，也可以将本实施例和实施例2进行组合。具体而言，也可以在每小段中，基于对该小段计算出的类似度来计算该小段的部分得分。

(评分装置的动作的具体例)

使用图10说明本实施例所涉及的评分装置100的动作的具体例。

在图10的例子中，预先决定根据乐曲的时间位置的变化而变化的特征矢量作为正确答案特征矢量。并且，在图10的例子中，特征矢量的类似度合计被计算六次。

在第一次，在图9的S403中，计算50作为歌唱者的面部的特征矢量和正确答案特征矢量之间的类似度。

在第二次，在图9的S403中，计算75作为歌唱者的面部的特征矢量和正确答案特征矢量之间的类似度。

在第三次，在图9的S403中，计算100作为歌唱者的面部的特征矢量和正确答案特征矢量之间的类似度。

在第四次，在图9的S403中，计算50作为歌唱者的面部的特征矢量和正确答案特征矢量之间的类似度。

在第五次，在图9的S403中，计算100作为歌唱者的面部的特征矢量和正确答案特征矢量之间的类似度。

在第六次，在图9的S403中，计算75作为歌唱者的面部的特征矢量和正确答案特征矢量之间的类似度。

在图10的例子中，特征矢量的类似度的总计算次数为6。因此，得到75分(＝(50+75+100+50+100+75)÷6)作为得分。

此外，根据本实施例，能够通过改变正确答案表情矢量的生成方法而实现各种得分计算处理(计算得分的处理)。例如，通过使用从乐曲的艺术家的面部图像数据提取到的特征矢量作为正确答案表情矢量，能够实现在以与乐曲的艺术家较为相似的面部进行了歌唱的情况下能够得到较高的得分的得分计算处理。此外，通过使用从表示目标表情的一般的面部的图像的面部图像数据提取到的特征矢量作为正确答案表情矢量，能够实现能够得到与实施例1～3大致相等的得分的得分计算处理。

＜实施例5＞

以下，说明本发明的实施例5所涉及的评分装置以及评分方法。

在本实施例中，对歌唱者歌唱的乐曲预先决定应改变面部的特征而歌唱的时间位置即特征变化位置。具体而言，表示特征变化位置的信息预先记录在存储部203中。

并且，在本实施例中，得分计算部204基于特征变化位置上的检测特征(由特征检测部202检测到的特征)的变化的大小来计算得分。

另外，在本实施例中使用的面部的特征不特别限定。在本实施例中，例如，能够使用面部器官的运动的大小作为面部的特征。面部器官的运动的大小例如能够基于如图13所示那样的特征点的位置的变化而检测。具体而言，能够将图13的特征点301和特征点302之间的距离的变化(变动)的大小检测为嘴的运动的大小。

(评分装置的动作)

使用图11的流程图说明本实施例所涉及的评分装置100的动作的流程的一例。图11的流程图以歌唱者开始乐曲的歌唱为触发而开始。具体而言，图11的流程图以歌唱者要歌唱的乐曲被播放为触发而开始。

如图11所示，在从评分的开始至评分的结束的期间(评分期间)中，在每N帧(每规定时间)，进行S501～S504的处理。

在S501中，图像取得部201取得拍摄图像数据。之后，处理前进至S502。

在S502中，特征检测部202从在S501中取得的拍摄图像数据，检测歌唱者的面部的特征。之后，处理前进至S503。

在S503中，特征检测部202判定当前的歌唱对象的时间位置(乐曲的时间位置)是否是特征变化位置。在当前的歌唱对象的时间位置是特征变化位置的情况下，处理前进至S504。在当前的歌唱对象的时间位置不是特征变化位置的情况下，不进行S504的处理。

在S504中，特征检测部202基于在S502中检测到的特征(当前特征)和在过去检测到的特征(过去特征)，计算面部的特征的变化的大小(特征变化量)。例如，过去特征是在当前特征的一个之前检测到的特征，计算过去特征和当前特征之差(绝对值)作为特征变化量。

另外，过去特征不限于在当前特征的一个之前检测到的特征。过去特征是在时间上比当前特征更早检测到的特征即可。也可以使用多个过去特征，计算过去特征和当前特征之差(绝对值)的代表值作为特征变化量。

另外，S503和S504的处理也可以通过得分计算部204来进行。

在评分期间的结束后，处理前进至S505。

在S505中，得分计算部204基于在S504中计算出的特征变化量来计算得分。在本实施例中，计算被正规化为0以上100以下的值的值作为特征变化量。并且，计算所计算出的多个特征变化量的平均值作为得分(整体得分)。在特征变化位置的数目为一个的情况下，计算(设定)在S504中计算出的特征变化量作为得分(整体得分)。

另外，得分的计算方法不限于上述方法。例如，也可以计算多个特征变化量的其他代表值(最大值、最小值、最频值、中间值等)作为得分。

另外，也可以将本实施例和实施例2进行组合。具体而言，在每小段中，基于对该小段计算出的特征变化量来计算该小段的部分得分。

接着，卡拉OK装置102将表示在S505中计算出的得分的得分图像数据输出至显示装置103(S506)。由此，表示在S505中计算出的得分的得分图像显示在显示装置103的画面中。

另外，与图3的S106的处理相同，S506的处理也可以由评分装置100进行。

(评分装置的动作的具体例)

使用图12说明本实施例所涉及的评分装置100的动作的具体例。

在图12的例子中，在乐曲的评分期间内，预先决定两个特征变化位置。并且，在图12的例子中，歌唱者的面部的特征合计被检测六次。

在第一次，由于歌唱对象的时间位置不是特征变化位置，所以不进行图11的S504的处理。即，在第一次，不计算特征变化量。在图12中，“－”表示不计算特征变化量。

在第二次，由于歌唱对象的时间位置是特征变化位置，所以在图11的S504中，计算特征变化量。在图12的例子中，歌唱者的表情从认真的表情变化为高兴的表情，计算40作为特征变化量。

在第三次以及在第四次，由于歌唱对象的时间位置不是特征变化位置，所以不进行图11的S504的处理。

在第五次，由于歌唱对象的时间位置是特征变化位置，所以在图11的S504中，计算特征变化量。在图12的例子中，歌唱者的表情从悲伤的表情变化为高兴的表情，计算80作为特征变化量。

在第六次，由于歌唱对象的时间位置不是特征变化位置，所以不进行图11的S504的处理。

在图12的例子中，特征变化位置的总数为2。因此，得到60分(＝(40+80)÷2)作为得分。

＜其他实施例＞

在上述的各实施例中，从评分装置100输出的得分通过卡拉OK装置102而变换为得分图像，该得分图像显示在显示装置103中的方式被例示，但得分的利用方式不限于此。例如，卡拉OK装置102也可以将所输出的得分变换为预先与得分建立关联而定义的消息(“优秀！”“请再努力一点”等)而输出至显示装置103，也可以变换为在显示装置103的画面上描绘的登场人物的运动或表情而输出至显示装置103。进而，输出目的地不限于显示装置103，也可以变换为某些声音而从扬声器104作为声音而输出，也可以作为设置有卡拉OK装置102等的房间的照明等的变化而利用。

此外，通过由读入并执行在存储装置中记录的程序来实现前述的实施例的功能的系统或装置的计算机(或CPU、MPU等设备)，也能够实施本发明。此外，例如，通过由读入并执行在存储装置中记录的程序来实现前述的实施例的功能的系统或装置的计算机而执行的步骤构成的方法，也能够实施本发明。为了该目的，上述程序例如通过网络、或从能够构成上述存储装置的各种类型的记录介质(也就是说，非暂时地保持数据的计算机可读取的记录介质)而被提供给上述计算机。从而，上述计算机(包含CPU、MPU等设备)、上述方法、上述程序(包含程序代码，程序产品)、非暂时地保持上述程序的计算机可读取的记录介质都包含于本发明的范畴。

Claims

1.一种评分装置，其特征在于，具有：

取得部件，取得拍摄到歌唱者的图像数据；

检测部件，根据由所述取得部件取得的图像数据，检测与歌唱中的表情或面部的运动有关的特征作为所述歌唱者的面部的特征；

计算部件，基于由所述检测部件检测到的特征，计算对于所述歌唱者的歌唱行为的得分；以及

输出部件，输出所述得分。

2.如权利要求1所述的评分装置，其特征在于，

所述图像数据是运动图像的图像数据，

所述检测部件在所述运动图像的每N帧中，检测所述歌唱者的面部的特征，N为1以上的整数，

所述计算部件基于所述每N帧的特征来计算所述得分。

3.如权利要求1或者2所述的评分装置，其特征在于，

对所述歌唱者歌唱的乐曲，预先决定目标的特征，

所述计算部件将由所述检测部件检测到的特征与所述目标的特征进行比较，基于其比较结果来计算所述得分。

4.如权利要求1～3的任一项所述的评分装置，其特征在于，

对所述歌唱者歌唱的乐曲，预先决定目标的表情作为目标的特征，

所述检测部件检测在所述乐曲的至少一部分期间即评分期间中的所述歌唱者的表情，

所述计算部件计算在所述评分期间之中检测到与所述目标的表情一致的表情的期间的长度的总和越大则越高的值，作为所述得分。

5.如权利要求3～4的任一项所述的评分装置，其特征在于，

所述目标的特征是从图像数据提取的特征矢量，

所述检测部件从由所述取得部件取得的图像数据，提取所述歌唱者的面部的特征矢量，

所述计算部件计算由所述检测部件提取到的特征矢量和目标的特征矢量之间的类似度，基于所计算出的类似度来计算所述得分。

6.如权利要求1或者2所述的评分装置，其特征在于，

所述检测部件关于预先决定的多个表情的每个表情，计算该表情和所述歌唱者的表情之间的类似度，

所述计算部件基于与所述目标的表情对应的类似度来计算所述得分。

7.如权利要求3～6的任一项所述的评分装置，其特征在于，

在所述歌唱者歌唱的乐曲的每小段中，预先决定目标的特征。

8.如权利要求1所述的评分装置，其特征在于，

对所述歌唱者歌唱的乐曲，预先决定应使面部的特征变化而歌唱的时间位置即特征变化位置，

所述计算部件基于所述特征变化位置上的由所述检测部件检测到的特征的变化的大小来计算所述得分。

9.如权利要求1～8的任一项所述的评分装置，其特征在于，

所述计算部件在所述歌唱者歌唱的乐曲的每小段中，基于在所述歌唱者正在歌唱该小段时的所述歌唱者的面部的特征，计算对于所述歌唱者歌唱该小段的歌唱行为的得分即部分得分。

10.一种评分方法，其特征在于，具有：

取得步骤，取得拍摄到歌唱者的图像数据；

检测步骤，根据在所述取得步骤中取得的图像数据，检测所述歌唱者的面部的特征；

计算步骤，基于在所述检测步骤中检测到的特征，计算对于所述歌唱者的歌唱行为的得分；以及

输出步骤，输出所述得分。

11.一种程序，

使计算机执行权利要求10所述的评分方法的各步骤。