CN101543086A - 视听质量判定装置、视听质量判定方法、视听质量判定程序和记录媒体 - Google Patents
视听质量判定装置、视听质量判定方法、视听质量判定程序和记录媒体 Download PDFInfo
- Publication number
- CN101543086A CN101543086A CNA2008800004397A CN200880000439A CN101543086A CN 101543086 A CN101543086 A CN 101543086A CN A2008800004397 A CNA2008800004397 A CN A2008800004397A CN 200880000439 A CN200880000439 A CN 200880000439A CN 101543086 A CN101543086 A CN 101543086A
- Authority
- CN
- China
- Prior art keywords
- emotion
- information
- consistency
- desired value
- view quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/29—Arrangements for monitoring broadcast services or broadcast-related services
- H04H60/33—Arrangements for monitoring the users' behaviour or opinions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/61—Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
- H04H60/64—Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 for providing detail information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/252—Processing of multiple end-users' preferences to derive collaborative data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42201—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4756—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6582—Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8541—Content authoring involving branching, e.g. to different story endings
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Security & Cryptography (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Neurosurgery (AREA)
- Television Signal Processing For Recording (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
不给视听者特别增加负担而能够高精度地判定视听质量的视听质量判定装置。包括该装置的视听质量数据生成装置(100)具备:情感期望值信息生成单元(300),获得情感期望值信息,该信息表示,视听内容的视听者被期望产生的情感;情感信息生成单元(200),获得情感信息,该信息表示,在视听内容时视听者产生的情感;以及视听质量数据生成单元(400),通过比较情感期望值信息和情感信息,判定内容的视听质量。
Description
技术领域
本发明涉及判定视听质量的技术,特别涉及基于从视听者检测出的信息来判定视听质量的视听质量判定装置、视听质量判定方法、视听质量判定程序以及存储有该程序的记录媒体,所谓视听质量表示视听者以何种关心程度视听了内容。
背景技术
视听质量是表示视听者以何种关心程度视听了广播节目等内容的信息,它作为内容的评估指标之一而备受关注。作为用于判定内容的视听质量的方法,以往进行了例如视听者问卷调查的方法,但是该方法存在给视听者增加负担的问题。
因此,例如专利文献1记载了基于从视听者检测出的信息,自动判定视听质量的技术。在专利文献1所记载的技术中,从视听者检测视听者的生物信息,例如视线方向、瞳孔直径、对于内容的操作内容以及心搏数等,并且基于检测出的信息判定视听质量。由此,能够减轻对视听者的负担而判定视听质量。
[专利文献1]特开第2005-142975号公报
发明内容
本发明需要解决的问题
然而,在专利文献1所记载的技术中,无法识别从视听者检测出的信息因视听者对内容的实际关心程度而受到了何种程度的影响。因此,专利文献1所记载的技术存在无法高精度地判定视听质量的问题。
例如有如下的担忧,在视听者一边通过电话等与别人交谈一边将视线朝向内容时,虽然实际上对内容不怎么关心,但错误地判定为视听者在感兴趣地视听着内容。另外还有如下的担忧,例如,在运动后心搏数较高的状态下,不怎么感兴趣地视听内容时,还是错误地判定为在感兴趣地视听着内容。在专利文献1所记载的技术中,为了提高视听质量判定的精度,需要对视听者加以限制,例如在视听内容时禁止打电话等,以将对内容的关心程度以外的要素所带来的影响抑制到最小限度,从而给视听者增加负担。
本发明的目的为,提供不给视听者增加特别的负担而能够高精度地判定视听质量的视听质量判定装置、视听质量判定方法、视听质量判定程序以及存储有该程序的记录媒体。
解决问题的方案
本发明的视听质量判定装置采用的结构包括:情感期望值信息获得单元,获得情感期望值信息,该信息表示,视听内容的视听者被期望产生的情感;情感信息获得单元,获得情感信息,该信息表示,在视听所述内容时视听者所产生的情感;以及视听质量判定单元,通过比较所述情感期望值信息和所述情感信息,判定所述内容的视听质量。
本发明的视听质量判定方法包括:信息获得步骤,获得情感期望值信息和情感信息,所述情感期望值信息表示,视听内容的视听者被期望产生的情感,所述情感信息表示,在视听所述内容时视听者所产生的情感;信息比较步骤,比较所述情感期望值信息和所述情感信息;以及视听质量判定步骤,基于所述情感期望值信息和所述情感信息的比较结果,判定所述内容的视听质量。
本发明的有益效果
根据本发明,对从视听者检测出的情感信息与表示视听内容的视听者被期望产生的情感的情感期望值信息进行比较。由此能够区别受到了对内容的实际关心程度的影响的情感信息和没有受到对内容的实际关心程度的影响的情感信息,能够高精度地判定视听质量。并且,无需为了抑制对内容的关心程度以外的要素造成的影响而对视听者加以限制,所以能够实现上述的视听质量判定而不给视听者增加特别的麻烦。
附图说明
图1是表示本发明实施方式1的视听质量数据生成装置的结构的方框图。
图2是表示实施方式1中使用的一例二维情感模型的说明图。
图3A是表示实施方式1的乐曲变换表的一例结构的说明图。
图3B是表示实施方式1的效果音变换表的一例结构的说明图。
图3C是表示实施方式1的视频镜头(shot)变换表的一例结构的说明图。
图3D是表示实施方式1的摄影技法(camera work)变换表的一例结构的说明图。
图4是表示实施方式1的一例参照点类别信息管理表的说明图。
图5是表示实施方式1的视听质量数据生成装置中的一例视听质量数据生成处理的整个流程的流程图。
图6是表示实施方式1的从情感信息获得单元输出的情感信息的一例结构的说明图。
图7是表示实施方式1的从视频操作/属性信息获得单元输出的视频操作/属性信息的一例结构的说明图。
图8是表示实施方式1的参照点情感期望值计算单元的一例情感期望值信息计算处理流程的流程图。
图9是表示实施方式1的参照点情感期望值计算单元输出的一例参照点情感期望值信息的说明图。
图10是表示实施方式1的时间一致性判定单元的一例时间一致性判定处理流程的流程图。
图11是表示实施方式1的一个单位时间中存在多个参照点的情况的说明图。
图12是表示实施方式1的情感一致性判定单元的一例情感一致性判定处理流程的流程图。
图13是表示实施方式1的一例有时间一致性而没有情感一致性的情况的说明图。
图14是表示实施方式1的一例有情感一致性而没有时间一致性的情况的说明图。
图15是表示实施方式1的综合判定单元的一例综合判定处理流程的流程图。
图16是表示实施方式1的综合判定单元的判定处理(1)的一例流程的流程图。
图17是表示实施方式1的综合判定单元的判定处理(3)的一例流程的流程图。
图18是表示实施方式1的通过判定处理(3)设定视听质量信息的情况的说明图。
图19是表示实施方式1的判定处理(2)的一例流程的流程图。
图20是表示实施方式1的判定处理(4)的一例流程的流程图。
图21是表示实施方式1的通过判定处理(4)设定视听质量信息的情况的说明图。
图22是表示实施方式1的综合判定单元生成的一例视听质量数据信息的说明图。
图23是表示本发明实施方式2的视听质量数据生成装置的结构的方框图。
图24是表示在使用视线的综合判定处理中使用的判定表的一例结构的说明图。
图25是表示实施方式2的判定处理(5)的一例流程的流程图。
图26是表示实施方式2的判定处理(6)的一例流程的流程图。
具体实施方式
下面,参照附图详细地说明本发明的各个实施方式。
(实施方式1)
图1是表示本发明实施方式1的包括视听质量信息判定装置的视听质量数据生成装置的结构的方框图。以下说明如下的情况:视听质量信息的判定对象为,电影和电视剧等带有语音的视频内容。
在图1中,视听质量数据生成装置100包括:情感信息生成单元200、情感期望值信息生成单元300、视听质量数据生成单元400以及视听质量数据存储单元500。
情感信息生成单元200基于从视听者检测出的生物信息而生成情感信息,该情感信息表示作为视听质量判定的对象的视听者产生了的情感。这里,“情感”是指,除了喜怒哀乐等情绪以外,还包括“放松”等心情的全面精神状态。另外,假设“产生情感”包括从某种精神状态转移到不同精神状态的情况。情感信息生成单元200包括传感单元210以及情感信息获得单元220。
传感单元210连接到传感器和数码相机等检测装置(未图示),检测(感侧)视听者的生物信息。视听者的生物信息例如包括视听者的心搏数、脉搏、体温、脸部的肌电变化和声音等。
情感信息获得单元220从传感单元210所获得的视听者的生物信息,生成包括情感实测值和情感产生时间的情感信息。这里,“情感实测值”是表示视听者产生了的情感的值,“情感产生时间”是产生了各种情感的时间。
情感期望值信息生成单元300从视频内容的编辑内容生成情感期望值信息,该情感期望值信息表示,在视听视频内容时的视听者被期望产生的情感。情感期望值信息生成单元300包括:视频获得单元310、视频操作/属性信息获得单元320、参照点情感期望值计算单元330以及参照点情感期望值变换表340。
视频获得单元310获得视听者要视听的视频内容。具体地说,视频获得单元310例如从地面波广播或卫星广播的接收数据、DVD或硬盘等存储媒体、或者因特网上的视频播发服务器,获得视频内容的数据。
视频操作/属性信息获得单元320获得视频操作/属性信息,该信息包括视频内容的节目属性信息和节目操作信息。具体地说,视频操作/属性信息获得单元320例如从进行视频内容重放操作的遥控器的操作历史,获得视频操作信息。另外,视频操作/属性信息获得单元320从被附加到要重放的视频内容的信息和视频内容制作方的信息服务器,获得视频内容的属性信息。
参照点情感期望值计算单元330从视频内容检测参照点。此外,参照点情感期望值计算单元330使用参照点情感期望值变换表340,计算与检测出的参照点对应的情感期望值,生成情感期望值信息。这里,“参照点”是,在视频内容中,对视听者造成心理上或情感上的影响的视频编辑存在的位置或区间。“情感期望值”是一种参数,其表示在视听者视听视频内容时,基于上述视频编辑的内容,在各个参照点视听者被期望产生的情感。“情感期望值信息”是,包括情感期望值和各个参照点的时间的信息。
参照点情感期望值变换表340以音乐(BGM:背景音乐)、效果音、视频镜头、摄影技法为单位,预先将其各个内容与情感期望值关联对应地记载。
视听质量数据生成单元400比较情感信息和情感期望值信息,判定视听者持有何种程度的关心来视听了所述内容,生成用于表示判定结果的视听质量数据信息。视听质量数据生成单元400包括:时间一致性判定单元410、情感一致性判定单元420和综合判定单元430。
时间一致性判定单元410判定有无时间一致性,生成用于表示判定结果的时间一致性判定信息。这里,“时间一致性”是指,情感信息与情感期望值信息中,产生情感的时刻(timing)同步的情况。
情感一致性判定单元420判定有无情感一致性,生成用于表示判定结果的情感一致性判定信息。这里,“情感一致性”是指,情感信息与情感期望值信息的情感相似的情况。
综合判定单元430将时间一致性判定信息和情感一致性判定信息进行综合,判定视听者持有何种程度的关心来观看着视频内容,生成用于表示判定结果的视听质量数据信息。
视听质量数据存储单元500存储并保持所生成的视听质量数据信息。
视听质量数据生成装置100是,例如可以用CPU(中央处理器)、存储有控制程序的ROM(只读存储器)等存储媒体、RAM(随机存取存储器)等操作用存储器等来实现。此时,由CPU执行控制程序,从而实现上述各个单元的功能。
在说明视听质量数据生成装置100的动作之前,首先说明视听质量数据生成装置100中的用于定义情感的情感模型以及参照点情感期望值变换表340的内容。
图2是表示视听质量数据生成装置100中使用的一例二维情感模型的说明图。图2所示的二维情感模型600是被称为LANG情感模型的模型,由表示愉悦度即快乐和不快的程度的横轴、以及表示唤醒度即兴奋或紧张和放松的程度的纵轴的两轴构成。在二维情感模型600的二维空间中,根据纵轴和横轴的关系,对“兴奋(Excited)”、“沉静(Relaxed)”、“悲哀(Sad)”等各个情感类别,定义了区域。使用二维情感模型600时,通过纵轴值和横轴值的组合,能够简单地表现情感。上述的情感期望值和情感实测值是,该二维情感模型600中的坐标值,它间接地表现情感。
这里,例如,坐标值(4,5)位于情感类别“兴奋”的区域内。因此,坐标值(4,5)的情感期望值和情感实测值表示“兴奋”的情感。另外,坐标值(-4,-2)位于情感类别“悲哀”的区域内。因此,坐标值(-4,-2)的情感期望值和情感实测值表示“悲哀”的情感类别。在二维情感模型600中,情感期望值和情感实测值的距离很短时,可以说,它们分别表示的情感是相似的情感。
此外,作为情感模型,还可以使用二维以上的空间或者LANG情感模型以外的模型。例如,可以使用三维情感模型(愉快/不快、兴奋/沉静、紧张/放松)或六维感情模型(愤怒、恐惧、悲哀、喜悦、厌恶、震惊)。使用这种更高维的情感模型时,能够更详细地划分并表现情感类别。
接着,说明参照点情感期望值变换表340。参照点情感期望值变换表340包括多个变换表、以及用于管理这些多个变换表的参照点类别信息管理表。按照视频内容的视频编辑的种类,准备有多个变换表。
图3A至图3D是表示变换表的结构例的说明图。
图3A所示的乐曲变换表341a中,使视频内容所包含的BGM的内容与情感期望值关联对应,该表被附加了“Table_BGM”的名称。BGM的内容通过音调(tonality)、速度、基音、节奏、和声以及旋律的参数的组合来表示,每个组合与情感期望值关联对应。
图3B所示的效果音变换表341b中,使表示视频内容所包含的效果音内容的参数与情感期望值关联对应,该表被附加了“Table_ESound”的名称。
图3C所示的视频镜头变换表341c中,使表示视频内容所包含的视频镜头内容的参数与情感期望值关联对应,该表被附加了“Table_Shot”的名称。
图3D所示的摄影技法变换表341d中,使表示视频内容所包含的摄影技法内容的参数与情感期望值关联对应,该表被附加了“Table_Camera Work”的名称。
例如,在效果音变换表341b中,对于“欢声”的效果音内容,关联对应着情感期望值(4,5)。如上述,该情感期望值(4,5)表示情感类别“兴奋”。该关联对应关系意味着,如果在视听视频内容时,视听者处于在感兴趣地视听着的状态,则一般在插入欢声的位置,视听者会感到兴奋。另外,在乐曲变换表341a中,使“音调:短调、速度:慢、基音:低、节奏:固定、和声:复杂”的BGM内容对应于情感期望值(-4,-2)。如上述,该情感期望值(-4,-2)表示情感类别“悲哀”。该关联对应关系意味着,如果在视听视频内容时,视听者处于在感兴趣地视听着的状态,则一般在插入上述内容的BGM的位置,视听者会感到悲哀。
图4是表示一例参照点类别信息管理表的说明图。图4所示的参照点类别信息管理表342中,使表示从视频内容获得的参照点类别的参照点类别信息关联对应于图3A至图3D所示的变换表341的表名,并分别附加了表类别序号(No.)。该关联对应关系表示,在参照点为哪一类别时,应参照哪个变换表341。
例如,使参照点类别信息“BGM”关联对应于表名“Table_BGM”。该关联对应关系指定,在获得的参照点的类别为“BGM”时,应参照图3A所示的表名“Table_BGM”的乐曲变换表341a。
下面,说明具有上述结构的视听质量数据生成装置100的动作。
图5是表示视听质量数据生成装置100中的一例视听质量数据生成处理的整个流程的流程图。首先,为了从视听者检测所需的生物信息,进行传感器和数码相机的设置(setting)等,完成该设定后,接受用户操作等而开始视听质量数据生成装置100的视听质量数据生成处理。
首先,在步骤S1000,传感单元210感侧在视听视频内容时的视听者的生物信息,然后将获得的生物信息输出到情感信息获得单元220。生物信息例如包括:脑波、皮肤电阻值、皮肤导电性、皮肤温度、心电图频率、心搏数、脉搏、体温、肌电、脸部图像、声音等。
接着,在步骤S1100,情感信息获得单元220每隔例如1秒等规定的时间,解析生物信息,生成表示视听者的视频内容视听时的情感的情感信息,并将其输出到视听质量数据生成单元400。已知人的生理信号对应人的情感的变化而变化。情感信息获得单元220利用该情感的变化与生理信号的变化之间的关系,从生物信息获得情感实测值。
例如,已知人处于越轻松的状态,脑波中的阿尔法(α)脑波成分的比例越大。另外已知:震惊、恐惧和担忧等情感使皮肤电阻值上升;格外高兴的情感产生时,皮肤温度和心电图频率上升;以及心理上和精神上稳定时,心搏数和脉搏呈现较慢的变化等。另外,除了上述的生理指标以外,还已知人根据喜怒哀乐等的情感,例如哭泣、笑、发怒等表情和声音的种类会变化。还有,已知人有如下的倾向:在沮丧时声音变小,在生气或高兴时声音变大。
因此能够通过皮肤电阻值、皮肤温度、心电图频率、心搏数、脉搏和声音大小的检测、或者脑波中的α波成分的比例的解析、基于脸部的肌电变化和图像的表情识别、或者声音识别等,来获得生物信息,并基于生物信息,对人的情感进行解析。
具体地说,情感信息获得单元220例如预先存储变换表和变换式,该变换表和变换式用于将上述各个生物信息的值变换为图2所示的二维情感模型600的坐标值。并且,情感信息获得单元220利用变换表和变换式,将从传感单元210输入的生物信息映射到二维情感模型600的二维空间上,并获得相应的座标值作为情感实测值。
例如,皮肤导电性信号(skin conductance)与唤醒度对应地增加,肌电信号(electromyography:EMG)与愉悦度对应地变化。因此,通过预先与视听者喜好视听内容的程度对应地测量皮肤导电性,能够使皮肤导电性信号的值对应于表示唤醒度的纵轴,并且使肌电信号的值对应于表示愉悦度的横轴,将生物信息映射到二维情感模型600的二维空间上。通过预先准备这些对应关系,然后检测皮肤导电性信号和肌电信号,能够简单地获得情感实测值。关于将生物信息映射到情感模型空间上的具体方法,例如记载在文献“EmotionRecognition from Electromyography and Skin Conductance”(Arturo Nakasone,Helmut Prendinger,Mitusru Ishizuka,The Fifth International Workshop onBiosignal Interpretation,BSI-05,Tokyo,Japan,2005,pp.219-222)中,所以在此省略说明。
图6是表示从情感信息获得单元220输出的情感信息的一例结构的说明图。情感信息610包括情感信息序号、情感产生时间[秒]和情感实测值。情感产生时间是,以从基准时刻开始的经过时间表示产生了情感的时间,该情感为对应的情感实测值所示的类别的情感。基准时刻例如为视频开始时间。此时,例如能够使用视频内容的绝对时间即时间码,获得情感产生时间。另外,例如用视听地点的标准时间来表示基准时刻,它被附加到情感信息610中。
这里,例如,使情感产生时间“13秒”对应于情感实测值(-4,-2)。该对应关系表示:情感信息获得单元220基于在基准时刻的13秒后获得的视听者的生物信息,获得了情感实测值(-4,-2)。也就是说,表示在基准时刻的13秒后视听者产生了“悲哀”的情感。
但是,情感信息获得单元220也可以只将在情感模型中情感类别变化时的信息作为情感信息而输出。此时,例如情感信息序号“002”、“003”的信息对应于与情感信息序号“001”的信息相同的情感类别,因此不被输出。
接着,在步骤S1200,视频获得单元310获得视听者要视听的视频内容,并将其输出到参照点情感期望值计算单元330。视听者要视听的视频内容例如为:地面波广播或卫星广播等的视频节目、DVD或硬盘等存储媒体所存储的视频数据、或者从因特网下载的视频流等。视频获得单元310可以直接获得对视听者重放的视频内容的数据,也可以获得其内容与对视听者重放的视频相同的其它数据。
在步骤S1300,视频操作/属性信息获得单元320获得对于视频内容的视频操作信息和视频内容的属性信息。然后,视频操作/属性信息获得单元320基于获得的信息生成视频操作/属性信息,将其输出到参照点情感期望值计算单元330。视频操作信息是,表示视听者所作的操作的内容以及各个操作的时间的信息。具体地说,视频操作信息例如表示:视听者使用遥控器等接口,从哪个频道变更到哪个频道、在什么时间进行了该变更,或者在什么时间重放或停止视频等。属性信息是,用于识别处理对象的表示视频内容的属性的信息,该属性例如为视听者要视听的视频内容的ID(标识)序号、广播频道、类型等。
图7是表示从视频操作/属性信息获得单元320输出的视频操作/属性信息的一例结构的说明图。如图7所示,视频操作/属性信息620包括:索引号(IndexNumber)、用户ID、内容ID、内容名称、类型、视听开始时相对时间[秒]以及视听开始时绝对时间[年月日时分秒]。视听开始时相对时间表示,从视频内容的开始时间起的经过时间。视听开始时绝对时间是,例如以视听地点的标准时间表示视频内容的开始时间。
在图7所示的视频操作/属性信息620中,例如,使内容名称“哈利波特”对应于视听开始时相对时间“Null(无)”。该对应关系表示:该视频内容例如为直播的视频节目,从视频开始时间直至开始视听为止的经过时间(视听开始时相对时间)为0秒。此时,作为视听质量判定的对象的视频区间与正在播送的视频同步。另一方面,使内容名称“罗塾门”与视听开始时相对时间“20秒”关联对应。该关联对应关系表示:相应的视频内容例如为录像的视频数据,在视频开始时间的20秒后开始视听。
在图2的步骤S1400,参照点情感期望值计算单元330进行参照点情感期望值信息计算处理。这里,“参照点情感期望值信息计算处理”是,基于视频内容和视频操作/属性信息,计算各个参照点的时间和情感期望值的处理。
图8是表示参照点情感期望值计算单元330的一例参照点情感期望值信息计算处理流程的流程图,其对应于图5的步骤S1400。参照点情感期望值计算单元330一个一个地获得将视频内容以单位时间S分割所得的视频部分。然后,参照点情感期望值计算单元330在每次获得一个视频部分时,进行参照点情感期望值信息计算处理。以下,下标的参数i表示在某个视频部分中检测出的参照点的序号,其初始值为i=0。另外,视频部分也可以以场景为单位。
首先,在步骤S1410,参照点情感期望值计算单元330从视频部分检测参照点Vpi。然后,参照点情感期望值计算单元330提取检测出的参照点Vpi中的视频编辑的类别即参照点类别Typei、以及该参照点类别Typei的视频参数Pi。
作为参照点类别Type,这里,假设预先设定了“BGM”、“效果音”、“视频镜头”以及“摄影技法”。图3A至图3D所示的变换表是,对应这些参照点类别Type而被准备。记载在图4所示的参照点类别信息管理表342中的参照点类别信息对应于参照点类别Type。
视频参数Pi作为表示各个视频编辑的内容的参数,被预先设定。记载在图3A至图3D所示的变换表341的各个参数对应于视频参数Pi。例如,参照点类别Type为“BGM”时,参照点情感期望值计算单元330提取音调、速度、基音、节奏、和声以及旋律的视频参数Pi。因此,图3A所示的乐曲变换表341a与参照点类别信息管理表342中的参照点类别信息“BGM”关联对应,并且记载了音调、速度、基音、节奏、和声以及旋律的参数。
关于参照点类别Type为“BGM”的参照点Vp的具体检测方法,例如记载在文献“複数の音符列から構成される音楽デ一タを对象とした印象メタデ一タ抽出方式”(石橋直樹等、日本デ一タべ一ス学会Leters,Vol.2,No.2)中,在此省略说明。
另外,关于参照点类别Type为“效果音”的参照点Vp的具体检测方法,例如记载在文献“映画における音楽、効果音(SE)の印象評価”(濱村正治等、信学技報、2000-03)中,在此省略说明。
另外,关于参照点类别Type为“视频镜头”的参照点Vp的具体检测方法,例如记载在文献“シヨツト長遷移による演出を利用した映像の编集”(竹本楽·吉高淳夫·平嶋宗、ヒユ一マン情報処理研究会、2006-1-19~20)中,在此省略说明。
还有,关于参照点类别Type为“摄影技法”的参照点Vp的具体检测方法,例如记载在专利文献特开2003-61112号公报“カメラワ一ク検出装置ぉよびカメラワ一ク検出方法”以及文献“カメラワ一クを利用した演出効果の抽出”(松井亮治·吉高淳夫·平嶋宗、信学技報、Technical Report of IEICE,PRMU2004-167,2005-01)中,在此省略说明。
接着,在步骤S1420,参照点情感期望值计算单元330获得参照点相对开始时间Ti-ST以及参照点相对结束时间Ti-EN。这里,“参照点相对开始时间”是,以视频开始时间为起点的相对时间中的、参照点Vpi的开始时间。另外,“参照点相对结束时间”是,以视频开始时间为起点的相对时间中的、参照点Vpi的结束时间。
接着,在步骤S1430,参照点情感期望值计算单元330参照参照点类别信息管理表342,来确定与参照点类别Typei对应的变换表341。然后,参照点情感期望值计算单元330获得确定出的变换表341。例如,参照点类别Typei为“BGM”时,获得图3A所示的乐曲变换表341a。
接着,在步骤S1440,参照点情感期望值计算单元330对视频参数Pi与记载在获得的变换表341中的参数进行匹配,搜索与视频参数Pi一致的参数。一致的参数存在时(S1440:“是”),进至步骤S1450,而一致的参数不存在时(S1440:“否”),跳过步骤S1450而进至下一个步骤即S1460。
在步骤S1450,参照点情感期望值计算单元330获得与视频参数Pi一致的参数所对应的情感期望值ei,然后进至步骤S1460。例如,参照点类别Typei为“BGM”且视频参数Pi为“音调:短调、速度:慢、基音:低、节奏:固定、和声:复杂”时,图3A所示的索引号“M_002”的各个参数与视频参数Pi一致。因此,作为对应的情感期望值,获得(-4,-2)。
在步骤S1460,参照点情感期望值计算单元330判别是否在视频部分中存在其它参照点Vp。在视频部分中存在其它参照点Vp时(S1460:“是”),参照点情感期望值计算单元330在步骤S1470使参数i的值增加1,然后返回到步骤S1420,对下一个参照点Vpi进行解析。对视频部分中的所有参照点Vpi的解析结束时(S1460:“否”),参照点情感期望值计算单元330生成情感期望值信息,将其分别输出到图1所示的时间一致性判定单元410和情感一致性判定单元420(步骤S1480),结束一系列的处理。这里,“情感期望值信息”是,包括各个参照点的参照点相对开始时间Ti-ST和参照点相对结束时间Ti-EN、参照了的变换表的表名、以及情感期望值ei,并且使这些对应于各个参照点的信息。然后,进至图2的步骤S1500和S1600。
另外,在步骤S1440进行的参数的匹配中,例如也可以将最相似的参数判断为一致的参数而进至步骤S1450。
图9是表示参照点情感期望值计算单元330输出的情感期望值信息的一例结构的说明图。如图9所示,情感期望值信息630包括:用户ID、操作信息索引号、参照点相对开始时间[秒]、参照点相对结束时间[秒]、参照点情感期望值变换表名称、参照点索引号、参照点情感期望值、参照点开始绝对时间[年月日时分秒]以及参照点结束绝对时间[年月日时分秒]。“参照点开始绝对时间”和“参照点结束绝对时间”是,例如以视听地点的标准时间表示了参照点相对开始时间和参照点相对结束时间的时间。参照点情感期望值计算单元330例如基于图7所示的视频操作/属性信息620的视听开始时相对时间和视听开始时绝对时间,求参照点开始绝对时间和参照点结束绝对时间。
另外,在图8所示的参照点情感期望值信息计算处理中,参照点情感期望值计算单元330也可以从视频部分的开始位置至结束位置,以很短的间隔设定暂定的参照点,确定情感类别变化的位置,并且将该位置判断为,期望使视听者的情感变化的视频编辑(以下简称为“视频编辑”)存在的位置,将该位置作为参照点Vpi处理。
具体地说,参照点情感期望值计算单元330例如将视频部分的开始部分设定为暂定的参照点,对BGM、效果音、视频镜头和摄影技法的内容进行解析。然后,在记载在图3A至图3D所示的各个变换表341中的参数中,搜索关联对应的参数,在存在关联对应的参数时,获得对应的情感期望值。参照点情感期望值计算单元330以小间隔重复进行上述的解析和搜索,直至视频部分的结束部分。
每当获得第二个以后的情感期望值时,参照点情感期望值计算单元330判别:在新获得的情感期望值与上一次获得的情感期望值之间,二维情感模型中的对应的情感类别是否变化,也就是说,是否存在视频编辑。情感类别变化时,参照点情感期望值计算单元330将获得了情感期望值的参照点检测为参照点Vpi,将作为情感类别的变化的原因的、视频部分的构成要素的类别检测为类别Typei。
另外,在上一个另外的视频部分,已进行了参照点的解析的情况下,参照点情感期望值计算单元330也可以使用该解析结果,在获得第一个情感期望值的时点,判别情感类别有无变化。
这样,情感信息和情感期望值信息被输入到视听质量数据生成单元400后,处理进至图5的步骤S1500和步骤S1600。
首先,说明图5的步骤S1500。在图5的步骤S1500,时间一致性判定单元410进行时间一致性判定处理。这里,“时间一致性判定处理”是,判定情感信息与情感期望值信息之间有无时间一致性的处理。
图10是表示时间一致性判定单元410的时间一致性判定处理的一例流程的流程图,其对应于图5的步骤S1500。时间一致性判定单元410对视频内容的单位时间S的每个视频部分,进行以下说明的时间一致性判定处理。
首先,在步骤S1510,时间一致性判定单元410获得与单位时间S的视频部分对应的情感期望值信息。在存在多个相应的参照点时,获得与各个参照点对应的情感期望值信息。
图11是表示一个单位时间中存在多个参照点的情况的说明图。这里表示,在单位时间S的视频部分中,检测出以时间T1为开始时间的参照点类别Type1“BGM”的参照点Vp1,以及以时间T2为开始时间的参照点类别Type2“视频镜头”的参照点Vp2的情况。并且表示,对应于参照点Vp1,获得了情感期望值e1,对应于参照点Vp2,获得了情感期望值e2的情况。
在图10的步骤S1520,时间一致性判定单元410基于情感期望值信息,计算代表单位时间S的视频部分的参照点的参照点相对开始时间Texp_st。具体地说,时间一致性判定单元410将情感类别变化的参照点作为代表性参照点,并计算该参照点相对开始时间作为参照点相对开始时间Texp_st。
这里,视频内容为实时广播视频时,时间一致性判定单元410确定,参照点相对开始时间Texp_st=参照点开始绝对时间。而视频内容为录像视频时,时间一致性判定单元410确定,参照点相对开始时间Texp_st=参照点相对开始时间。如图11所示,情感类别变化的参照点Vp存在多个时,将最早的时间、即情感类别最初变化的时间,决定为参照点相对开始时间Texp_st。
接着,在步骤S1530,时间一致性判定单元410确定与单位时间S的视频部分对应的情感信息,从确定出的情感信息,获得在单位时间S的视频部分中情感类别变化的时间作为情感产生时间Tuser_st。存在多个相应的情感产生时间时,例如,与参照点相对开始时间Texp_st同样地,获得最早的时间即可。此时,使参照点相对开始时间Texp_st和情感产生时间Tuser_st可以用相同的时间尺度表示。
具体地说,例如,是实时广播的视频内容时,时间一致性判定单元410将视听开始时绝对时间与参照点相对开始时间相加后的时间,设为参照点绝对开始时间。另一方面,在为存储的视频内容时,时间一致性判定单元410从视听开始时绝对时间减去视听开始时相对时间,并将相减所得的时间与参照点相对开始时间相加,将相加所得的时间设为参照点绝对开始时间。
例如,实时广播的视频内容的参照点相对开始时间为“20秒”、视听开始时绝对时间为“20060901:19:10:10”时,参照点绝对开始时间为“20060901:19:10:30”。另外,例如,在存储的视频内容中,参照点相对开始时间为“20秒”、视听开始时相对时间为“10秒”、视听开始时绝对时间为“20060901:19:10:10”时,参照点绝对开始时间为“20060901:19:10:20”。
另一方面,对于从视听者测量出的情感产生时间,时间一致性判定单元410例如将记载在情感信息610中的值与基准时刻相加,并替换为基于绝对时间的表现。
接着,在步骤S1540,时间一致性判定单元410计算参照点相对开始时间Texp_st与情感产生时间Tuser_st之间的时间差,基于这两个时间的一致性,判定在单位时间S的视频部分内有无时间一致性。具体地说,时间一致性判定单元410判别:参照点相对开始时间Texp_st与情感产生时间Tuser_st之间的差分的绝对值,是否为预先设定的阈值Td以下。然后,时间一致性判定单元410在差分的绝对值为阈值Td以下时(S1540:“是”),进至步骤S1550,而差分的绝对值超过阈值Td时(S1540:“否”),进至步骤S1560。
在步骤S1550,时间一致性判定单元410判断为在单位时间S的视频部分内有时间一致性,将表示有无时间一致性的时间一致性信息RT的值,设定为“1”。也就是说,作为时间一致性的判定结果,获得时间一致性判定信息RT=1。然后,时间一致性判定单元410将时间一致性判定信息RT以及用于获得该时间一致性判定信息RT的情感期望值信息和情感信息,都输出到综合判定单元430,然后进至图5的步骤S1700。
另一方面,在步骤S1560,时间一致性判定单元410判断为在单位时间S的视频部分内没有时间一致性,将表示有无时间一致性的时间一致性信息RT的值,设定为“0”。也就是说,作为时间一致性判定结果,获得时间一致性判定信息RT=0。然后,时间一致性判定单元410将时间一致性判定信息RT以及用于获得该时间一致性判定信息RT的情感期望值信息和情感信息,都输出到综合判定单元430,然后进至图5的步骤S1700。
在上述步骤S1540~S1560的处理中,例如可以使用下式(1)。
下面,说明图5的步骤S1600。在图5的步骤S1600,情感一致性判定单元420进行情感一致性判定处理。这里,“情感一致性判定处理”是,用于判定情感信息与情感期望值信息之间有无情感一致性的处理。
图12是表示情感一致性判定单元420的一例情感一致性判定处理流程的流程图。情感一致性判定单元420对视频内容的每单位时间S的视频部分,进行以下说明的情感一致性判定处理。
在步骤S1610,情感一致性判定单元420获得与单位时间S的视频部分对应的情感期望值信息。这里,在存在多个相应的参照点时,获得与各个参照点对应的情感期望值信息。
接着,在步骤S1620,情感一致性判定单元420基于情感期望值信息,计算代表单位时间S的视频部分的情感期待值Eexp。如图11所示,存在多个情感期望值ei时,情感一致性判定单元420将预先按照各个参照点类别Type设定的加权w乘以各个情感期望值ei,从而合成各个情感期望值ei。假设与各个情感期望值ei对应的参照点类别Type的加权为wi,情感期望值ei的总数为N时,情感一致性判定单元420例如使用下式(2)来决定情感期望值Eexp。
其中,以满足下式(3)的方式,设定与各个情感期望值ei对应的参照点类别Type的加权wi。
或者,情感一致性判定单元420也可以使用预先按照各个参照点类别Type以固定值方式设定的的加权w,通过下式(4)决定情感期望值Eexp。此时,与各个情感期望值ei对应的参照点类别Type的加权wi也可以不满足式(3)。
例如,假设在图11所示的例子中,对以时间T1为开始时间的参照点类别Type1“BGM”的参照点Vp1,获得了情感期望值e1,对以时间T2为开始时间的参照点类别Type2“视频镜头”的参照点Vp2,获得了情感期望值e2。此外,假设对参照点类别Type“BGM”和“视频镜头”,设定了相对比例为7∶3的加权。此时,例如通过下式(5)计算情感期望值Eexp。
Eexp=0.7e1+0.3e2......式(5)
接着,在步骤S1630,情感一致性判定单元420确定与单位时间S的视频部分对应的情感信息,从确定出的情感信息中,获得单位时间S的视频部分的情感实测值Euser。存在多个相应的情感实测值时,例如,与情感期望值Eexp同样地,合成多个情感实测值即可。
接着,在步骤S1640,情感一致性判定单元420计算情感期望值Eexp与情感实测值Euser之间的差分,根据这两个值的一致性,判定在单位时间S的视频部分内有无情感一致性。具体地说,判别情感期望值Eexp和情感实测值Euser之间的差分的绝对值是否为预先决定的、二维情感模型600的二维空间中的距离的阈值Ed以下。情感一致性判定单元420在差分的绝对值为阈值Ed以下时(S1640:“是”),进至步骤S1650,而差分的绝对值超过阈值Ed时(S1640:“否”),进至步骤S1660。
在步骤S1650,情感一致性判定单元420判断为在单位时间S的视频部分内有情感一致性,将表示有无情感一致性的情感一致性判定信息RE的值,设定为“1”。也就是说,作为情感一致性的判定结果,获得情感一致性判定信息RE=1。然后,情感一致性判定单元420将情感一致性判定信息RE以及用于获得该情感一致性判定信息RE的情感期望值信息和情感信息,都输出到综合判定单元430,然后进至图5的步骤S1700。
另一方面,在步骤S1660,情感一致性判定单元420判断为在单位时间S的视频部分内没有情感一致性,将表示有无情感一致性的情感一致性判定信息RE的值,设定为“0”。也就是说,作为情感一致性的判定结果,获得情感一致性判定信息RE=0。然后,情感一致性判定单元420将情感一致性判定信息RE以及用于获得该情感一致性判定信息RE的情感期望值信息和情感信息,都输出到综合判定单元430,然后进至图5的步骤S1700。
在上述步骤S1640~S1660的处理中,例如可以使用下式(6)。
这样,综合判定单元430对应于将视频内容以单位时间S分割所得的各个视频部分,被输入情感期望值信息和情感信息、以及时间一致性判定信息RT和情感一致性判定信息RE。综合判定单元430将所输入的这些信息存储到视听质量数据存储单元500中。
时间一致性判定信息RT和情感一致性判定信息RE分别可取“1”和“0”的值,因此,在时间一致性判定信息RT和情感一致性判定信息RE的值上可以考虑四种组合。
时间一致性和情感一致性都有时表示,在视听视频内容时,视听者在相应的视频编辑的存在位置产生了被期望的情感,该被期望的情感为,基于视频编辑而期望感兴趣地视听该视听内容的视听者所产生的情感。因此,可以估计,视听者感兴趣地视听了相应的视频部分。
时间一致性和情感一致性都没有时表示,在视听视频内容时,视听者没有产生被期望的情感,即使产生了某些情感,也不是由该视频编辑引起的情感的可能性高,该被期望的情感为,感兴趣地视听的视听者被期望产生的、基于视频编辑所产生的情感。因此,可以估计,视听者未感兴趣的视听了相应的视频部分。
然而,有时间一致性和情感一致性的其中一个,而没有另一个时,难以估计视听者是否感兴趣地视听了视频内容的该视频部分。
图13是表示有时间一致性而没有情感一致性的一例情况的说明图。以下,各个参照点的线型对应于情感类别,相同的线型表示相同的情感类别,不同的线型表示不同的情感类别。在图13所示的例子中,参照点相对开始时间Texp_st和情感产生时间Tuser_st几乎一致,但情感期望值Eexp和情感实测值Euser表示了不同的情感类别。
另一方面,图14是表示有情感一致性而没有时间一致性的一例情况的说明图。在图14所示的例子中,情感期望值Eexp和情感实测值Euser的情感类别一致,但参照点相对开始时间Texp_st与情感产生时间Tuser_st较大地错开。
综合判定单元430考虑到如图13和图14所示的情况,在图5的步骤S1700中,对将视频内容以单位时间S分割所得的各个视频部分进行综合判定处理。这里,“综合判定处理”是,将时间一致性判定结果和情感一致性判定结果进行综合,从而进行最终的视听质量判定的处理。
图15是表示综合判定单元430的一例综合判定处理流程的流程图,其对应于图5的步骤S1700。
首先,在步骤S1710,综合判定单元430选择将视频内容以单位时间S分割所得的视频部分的一个视频部分,并获得对应的时间一致性判定信息RT和情感一致性判定信息RE。
接着,在步骤S1720,综合判定单元430判别时间一致性。综合判定单元430在时间一致性判定信息RT的值为“1”,即有时间一致性时(S1720:“是”),进至步骤S1730,在时间一致性判定信息RT的值为“0”,即没有时间一致性时(S1720:“否”),进至步骤S1740。
在步骤S1730,综合判定单元430判别情感一致性。综合判定单元430在情感一致性判定信息RE的值为“1”,即有情感一致性时(S1730:“是”),进至步骤S1750,在情感一致性判定信息RE的值为“0”,即没有情感一致性时(S1730:“否”),进至步骤S1751。
在步骤S1750,因为时间一致性和情感一致性双方都有,所以综合判定单元430将该视频部分的视听质量信息设定为“有”,并获得视听质量信息。然后,综合判定单元430将所获得的视听质量信息存储到视听质量数据存储单元500中。
另一方面,在步骤S1751,综合判定单元430进行“时间一致情感不一致时判定处理”(以下称为“判定处理(1)”)。判定处理(1)是,因为有时间一致性而没有情感一致性,所以通过进行更详细的解析来判定视听质量的处理。对于判定处理(1),将在后面描述。
在步骤S1740,综合判定单元430判别情感一致性,在情感一致性判定信息RE的值为“0”,即没有情感一致性时(S1740:“否”),进至步骤S1770,在情感一致性判定信息RE的值为“1”,即有情感一致性时(S1740:“是”),进至步骤S1771。
在步骤S1770,因为时间一致性和情感一致性都没有,所以综合判定单元430将该视频部分的视听质量信息设定为“无”,并获得视听质量信息。然后,综合判定单元430将所获得的视听质量信息存储到视听质量数据存储单元500中。
另一方面,在步骤S1771,因为有情感一致性而没有时间一致性,所以综合判定单元430进行“情感一致时间不一致时判定处理”(以下称为“判定处理(2)”)。判定处理(2)是,通过进行更详细的解析来判定视听质量的处理。对于判定处理(2),将在后面描述。
下面,说明判定处理(1)。
图16是表示综合判定单元430的判定处理(1)的一例流程的流程图,其对应于图15的步骤S1751。
在步骤S1752,综合判定单元430参照视听质量数据存储单元500,判别在作为视听质量判定对象的视频部分(以下称为“判定对象”)附近的其它视频部分中,是否存在参照点。综合判定单元430在不存在相应的参照点时(S1752:“否”),进至步骤S1753,在存在相应的参照点时(S1752:“是”),进至步骤S1754。
综合判定单元430根据对视频内容的视听实时地生成视听质量数据信息,还是延时地生成视听质量数据信息,设定判定对象附近的其它视频部分的范围。
综合判定单元430对视频内容的视听,实时地生成视听质量数据信息时,例如,将从判定对象开始追溯了M个单位时间S的时间的范围,设定为上述附近的其它视频部分,在该范围内搜索参照点。也就是说,以判定对象为基准,使用S×M的范围的过去的信息。
另一方面,对于视频内容的视听,延时(off time)地生成视听质量数据信息时,综合判定单元430可以使用从判定对象之后的视频部分中获得的情感实测值。因此,除了过去的信息之外,还可以使用以判定对象为基准的未来的信息,例如,将以判定对象为中心的前后S×M的范围都设定为上述附近的其它视频部分,在该范围内搜索参照点。M的值可以是任意的值,例如,预先设定“5”等整数。另外,还可以用时间长度来设定参照点的搜索范围。
在步骤S1753,因为在判定对象附近的其它视频部分内不存在参照点,所以综合判定单元430将相应的视频部分的视听质量信息设定为“无”,然后进至步骤S1769。
在步骤S1754,因为在判定对象附近的其它视频部分内存在参照点,综合判定单元430进行“时间一致附近参照点存在时判定处理”(以下称为“判定处理(3)”)。判定处理(3)是,参考参照点中有无时间一致性来判定视听质量的处理。
图17是表示综合判定单元430的判定处理(3)的一例流程的流程图,其对应于图16的步骤S1754。
首先,在步骤S1755,综合判定单元430从视听质量数据存储单元500中,搜索并获得时间上连续的L个以上的各个视频部分的代表性参照点。这里,将表示搜索范围内的参照点的序号以及情感实测值Euser的序号的参数,分别假设为j和k。参数j和k分别取{0,1,2,3,...L}的值。
接着,在步骤S1756,综合判定单元430从视听质量数据存储单元500中所存储的情感期望值信息和情感信息中,获得第j参照点的情感期望值Eexp(j,tj)、以及第k情感实测值Euser(k,tk)。这里,时刻tj和时刻tk分别是获得了情感期待值和情感实测值的时刻,也就是产生了对应的情感的时刻。
接着,在步骤S1757,综合判定单元430计算情感期望值Eexp(j)与在相同视频部分中的情感实测值Euser(k)之间的差分的绝对值。然后,综合判定单元430判定:差分的绝对值是否为预先设定的、二维情感模型600的二维空间中的距离的阈值K以下,而且时刻tj和时刻tk是否一致。综合判定单元430在差分的绝对值为阈值K以下且时刻tj与时刻tk一致时(S1757:“是”),进至步骤S1758,在差分的绝对值超过阈值K或者时刻tj与时刻tk不一致时(S1757:“否”),进至步骤S1759。判定时刻tj与时刻tk的一致不一致时,例如也可以在时刻tj与时刻tk之差分的绝对值小于预先设定的阈值时判定为一致,在阈值以上时判定为不一致。
在步骤S1758,综合判定单元430判定为情感变化不大且产生时间一致,将有关第j参照点的处理标记FLG,设定为表示逻辑TRUE的值“1”,然后进至步骤S1760。但是,在后述的步骤S1759中处理标记FLG已被设定为表示逻辑FALSE的值“0”时,保持不变。
在步骤S1759,综合判定单元430判定为情感大不同或者产生时间不一致,将有关第j参照点的处理标记FLG设定为表示逻辑FALSE的值“0”,然后进至步骤S1760。
接着,在步骤S1760,综合判定单元430判别是否完成了对于全部L个参照点的处理标记FLG的设定处理。在还没有完成全部L个参照点的处理时,也就是说,参数j小于L时(S1760:“否”),综合判定单元430使参数j和k的值分别增加1,然后返回到步骤S1756。综合判定单元430重复进行步骤S1756至S1760的处理,在对于全部L个参照点的处理完成后(S1760:“是”),进至步骤S1761。
在步骤S1761,综合判定单元430判别处理标记FLG的值是否设定为“0”(FALSE)。综合判定单元430在处理标记FLG的值未被设定为“0”时(S1761:“否”),进至步骤S1762,在处理标记FLG的值已被设定为“0”时(S1761:“是”),进至步骤S1763。
在步骤S1762,虽然在情感期望值信息与情感信息之间没有情感一致性,但在附近的L个参照点中连续地有时间一致性,所以综合判定单元430判断为视听者感兴趣地视听了判定对象的视频部分,将判定对象的视听质量信息设定为“有”。然后,进至图16的步骤S1769。
另一方面,在步骤S1763,因为在情感期望值信息与情感信息之间没有情感一致性,而且在附近的L个参照点中连续地没有时间一致性,所以综合判定单元430判断为视听者未感兴趣地视听了判定对象的视频部分,将判定对象的视听质量信息设定为“无”。然后,进至图16的步骤S1769。
在图16的步骤S1769中,综合判定单元430获得在图16的步骤S1753、图17的步骤S1762或步骤S1763设定了的视听质量信息,并将其存储到视听质量数据存储单元500中。然后,进至图5的步骤S1800。
这样,综合判定单元430通过判定处理(3),对有时间一致性而没有情感一致性的视频部分也进行视听质量的判定。
图18是表示通过判定处理(3)设定视听质量信息的情况的说明图。这里图示了实时地生成视听质量数据信息,并且参数L=3、阈值K=9的情况。另外,Vcp1表示在判定对象中检测出的效果音的参照点,Vcp2和Vcp3分别表示在判定对象附近的视频部分中,从BGM和视频镜头检测出的参照点。
如图18所示,假设从检测出参照点Vcp1的判定对象,获得了情感期望值(4,2)和情感实测值(-3,4)。假设从检测出参照点Vcp2的视频部分,获得了情感期望值(3,4)和情感实测值(3,-4)。还假设从检测出参照点Vcp3的视频部分,获得了情感期望值(-4,-2)和情感实测值(3,-4)。检测出参照点Vcp1的判定对象虽然有时间一致性但没有情感一致性,所以直到进行图16所示的判定处理(1)为止,视听质量信息处于未定的状态。检测出Vcp2和Vcp3的视频部分也是同样的。在这种状态下,进行图17所示的判定处理(3)时,在附近的参照点Vcp2和Vcp3也有时间一致性,所以检测出参照点Vcp1的判定对象的视听质量信息被判定为“有”。作为参照点Vcp2附近的参照点搜索出参照点Vcp1和Vcp3时,或者作为参照点Vcp3附近的参照点搜索出参照点Vcp1和Vcp2时也是同样的。
下面,说明判定处理(2)。
图19是表示综合判定单元430的判定处理(2)的一例流程的流程图,其对应于图15的步骤S1771。
在步骤S1772,综合判定单元430参照视听质量数据存储单元500,判别在判定对象附近的其它视频部分中,是否存在参照点。综合判定单元430在不存在相应的参照点时(S1772:“否”),进至步骤S1773,在存在相应的参照点时(S1772:“是”),进至步骤S1774。
综合判定单元430如何设定判定对象附近的其它视频部分,与图16所示的判定处理(1)同样地,根据实时地生成视听质量数据信息还是延时地生成视听质量数据信息而不同。
在步骤S1773,因为在判定对象附近的其它视频部分内不存在参照点,综合判定单元430将相应的视频部分的视听质量信息设定为“无”,然后进至步骤S1789。
在步骤S1774,因为在判定对象附近的其它视频部分内存在参照点,所以综合判定单元430进行“情感一致附近参照点存在时判定处理”(以下称为“判定处理(4)”)。判定处理(4)是,参考该参照点中有无情感一致性来判定视听质量的处理。
图20是表示综合判定单元430的判定处理(4)的一例流程的流程图,其对应于图19的步骤S1774。这里,用参数p表示判定对象的参照点的序号。
首先,在步骤S1775,综合判定单元430从视听质量数据存储单元500中,获得判定对象的前一个(第p-1)参照点的情感期望值Eexp(p-1)。并且,综合判定单元430从视听质量数据存储单元500中,获得判定对象的后一个(第p+1)参照点的情感期望值Eexp(p+1)。
接着,在步骤S1776,综合判定单元430从视听质量数据存储单元500中,获得在与判定对象的前一个(第p-1)参照点相同的视频部分中测量出的情感实测值Euser(p-1)。并且,综合判定单元430从视听质量数据存储单元500中,获得在与判定对象的后一个(第p+1)参照点相同的视频部分中测量出的情感实测值Euser(p+1)。
接着,在步骤S1777,综合判定单元430计算情感期望值Eexp(p+1)与情感实测值Euser(p+1)之间的差分的绝对值,以及情感期望值Eexp(p-1)与情感实测值Euser(p-1)之间的差分的绝对值。然后判别两个值是否为预先决定的、二维情感模型600的二维空间中的距离的阈值K以下。这里,预先将可以认为是情感一致的最大值设定为阈值K。综合判定单元430在两个值都为阈值K以下时(S1777:“是”),进至步骤S1778,而两个值都不为阈值K以下时(S1777:“否”),进至步骤S1779。
在步骤S1778,虽然在情感期望值信息与情感信息之间没有时间一致性,但在前后的参照点的视频部分中有情感一致性,所以综合判定单元430判断为视听者感兴趣地视听了判定对象的视频部分,将判定对象的视听质量信息设定为“有”。然后,进至图19的步骤S1789。
另一方面,在步骤S1779,在情感期望值信息与情感信息之间没有时间一致性,而且在前后的参照点的视频部分的至少一方的视频部分中没有情感一致性,所以综合判定单元430判断为视听者未感兴趣地视听了判定对象的视频部分,将判定对象的视听质量信息设定为“无”。然后,进至图19的步骤S1789。
在图19的步骤S1789中,综合判定单元430获得在图19的步骤S1773、图20的步骤S1778或步骤S1779中设定了的视听质量信息,并将其存储到视听质量数据存储单元500中。然后,进至图5的步骤S1800。
这样,综合判定单元430通过判定处理(4),对有情感一致性而没有时间一致性的视频部分也进行视听质量的判定。
图21是表示通过判定处理(4)设定视听质量信息的情况的说明图。这里,图示了延时地生成视听质量数据信息,并将判定对象的前后各一个参照点用于判定的情况。另外,Vcp2表示在判定对象中检测出的效果音的参照点,Vcp1和Vcp3分别表示在判定对象附近的视频部分中,从效果音和BGM检测出的参照点。
如图21所示,假设从检测出参照点Vcp2的判定对象,获得了情感期望值(-1,2)和情感实测值(-1,2)。假设从检测出参照点Vcp1的视频部分,获得了情感期望值(4,2)和情感实测值(4,2)。假设从检测出参照点Vcp3的视频部分,获得了情感期望值(3,4)和情感实测值(3,4)。检测出参照点Vcp2的判定对象虽然有情感一致性但没有时间一致性,所以直到进行图19所示的判定处理(2)为止,视听质量信息处于未定的状态。但是,假设检测出参照点Vcp1和Vcp3的视频部分中,都有情感一致性和时间一致性。在这种状态下,进行图20所示的判定处理(4)时,在附近的参照点Vcp1和Vcp3中也有时间一致性,所以检测出参照点Vcp2的判定对象的视听质量信息被判定为“有”。作为参照点Vcp1附近的参照点搜索出参照点Vcp2和Vcp3时,或者作为参照点Vcp3附近的参照点搜索出参照点Vcp1和Vcp2时也是同样的。
这样,综合判定单元430通过综合判定处理,获得视频内容的视听质量信息,生成视听质量数据信息并将其存储到视听质量数据存储单元500中(图5的步骤S1800)。具体地说,综合判定单元430例如对已存储到视听质量数据存储单元500中的情感期望值信息进行编辑,用获得的视听质量信息替换情感期望值的字段。
图22是表示综合判定单元430生成的一例视听质量数据信息的说明图。如图22所示,视听质量数据信息640的结构与图9所示的情感期望值信息630大致相同。但是,视听质量数据信息640的结构中,将情感期望值信息630的情感期望值字段替换为视听质量信息字段以存储视听质量信息。这里例示了用值“1”表示视听质量信息“有”、用值“0”表示视听质量信息“无”的情况。也就是说,从该视听质量数据信息640中,可以解析出以下事实:在存在参照点索引号“ES_001”的视频部分中,视听者未感兴趣地视听了视频内容。从视听质量数据信息640中,还可以解析出以下事实:在存在参照点索引号“M_001”的视频部分中,视听者感兴趣地视听了视频内容。
另外,在存储表示存在未检测出参照点的视频部分的视听质量信息时,或者对于只有时间一致性和情感一致性的其中一个的视频部分,可以不进行判定处理(1)和判定处理(2)而存储表示“未定”的视听质量信息。
另外,也可以通过解析视听质量数据存储单元500中存储的多个视听质量信息,判别视听者以何种关心程度视听了整个视频内容,将其作为视听质量信息而输出。具体地说,例如,将视听质量信息“有”变换为值“1”,将视听质量信息“无”变换为值“-1”,并在整个视听内容中合计变换后的值。另外还可以根据视频内容的种类或视听质量数据信息的用途而改变对应于视听质量信息的数值。
另外,例如将视听质量信息“有”变换为值“100”,将视听质量信息“无”变换为值“0”,并将变换后的值的合计值除以获得的视听质量信息的个数,从而能够用百分率表现对整个视频内容的视听者的关心程度。此时,例如对视听质量信息“未定”也赋予“50”等特有的值,则能够将视听质量信息“未定”的状态反映到视听者以何种程度的关心而视听了视频内容的评估值。
如以上的说明,根据本实施方式,对于表示在视听视频内容时视听者被期望产生的情感的情感期望值信息以及表示视听者产生的情感的情感信息,判定时间一致性和情感一致性,并根据其结果来判定视听质量。由此,能够区别在情感信息中的受到了对内容的实际关心程度的影响的情感信息和未受到影响的情感信息,从而能够高精度地判定视听质量。并且,综合时间一致性和情感一致性来进行判定。由此,例如能够考虑到对视频编辑的反应的个人差异来进行视听质量判定。另外,无需为了抑制因对内容的关心程度以外的要素所受的影响,而对视听者加以限制。由此,不给视听者增加特别的负担而能够实现高精度的视听质量判定。另外,从视频内容的视频编辑的内容中,获得情感期望值信息。由此,能够适用于各种视频内容。
另外,在图5所示的视听质量数据生成处理中,无论先进行步骤S1000和S1100的处理还是先进行步骤S1200至S1400的处理都可以,也可以同时并行地进行这些处理。步骤S1500和步骤S1600也是同样的。
另外,在只有时间一致性和情感一致性的其中一方时,综合判定单元430对判定对象附近的参照点进行了时间一致性和情感一致性的判定,但不限于此。例如,综合判定单元430也可以将从时间一致性判定单元410输入的时间一致性判定信息和从情感一致性判定单元420输入的情感一致性判定信息,直接用作判定结果。
(实施方式2)
图23是表示本发明实施方式2的视听质量数据生成装置的结构的方框图,其对应于实施方式1的图1。对与图1相同的部分附加相同标号,并省略有关它们的说明。
在图23中,除了图1所示的结构以外,视听质量数据生成装置700还包括视线方向检测单元900。另外,视听质量数据生成单元装置700还包括视听质量数据生成单元800,所述视听质量数据生成单元800具备进行与实施方式1的综合判定单元430不同的处理的综合判定单元830、以及视线一致性判定单元840。
视线方向检测单元900检测视听者的视线方向。具体地说,视线方向检测单元900例如将用于从屏幕侧立体拍摄视听者的数码相机设置在显示视频内容的屏幕附近,从拍摄图像解析视听者的脸部方向和眼球方向,从而检测视听者的视线方向。
视线一致性判定单元840进行有无视线一致性的判定,即判定检测出的视听者的视线方向(以下简称为“视线方向”)是否朝向电视机的屏幕等视频内容的显示区域,并生成用于表示判定结果的视线一致性判定信息。具体地说,视线一致性判定单元840预先存储视频内容的显示区域的位置,从而判别在视线方向上是否存在视频内容的显示区域。
综合判定单元830将时间一致性判定信息、情感一致性判定信息以及视线一致性判定信息进行综合来判定视听质量。具体地说,例如,预先存储对每个上述三个判定结果的组合设定了视听质量信息的值的判定表,并参照该判定表来设定并获得视听质量信息。
图24是表示在使用视线的综合判定处理中所使用的判定表的一例结构的说明图。判定表831中,与时间一致性判定信息(RT)、情感一致性判定信息(RE)和视线一致性判定信息(RS)的判定结果的各个组合关联对应地记载有视听质量信息的值。例如,时间一致性判定信息RT=“不一致”、情感一致性判定信息RE=“一致”和视线一致性判定结果=“一致”的组合,与视听质量信息的值=“40%”关联对应。该关联对应关系表示,没有时间一致性和情感一致性而仅有视线一致性时,可以估计视听者以40%程度的关心在视听视频内容。另外,视听质量信息的值表示关心的程度,即,将时间一致性、情感一致性和视线一致性都有时设为100%,将时间一致性、情感一致性和视线一致性都没有时设为0%。
综合判定单元830在对于某个视频部分被输入时间一致性判定信息、情感一致性判定信息和视线一致性判定信息后,在判定表830中搜索一致的组合,获得对应的视听质量信息,并将获得的视听质量信息存储到视听质量数据存储单元500中。
综合判定单元830通过使用该判定表830来进行视听质量判定,能够迅速地获得视听质量信息,并且能够实现考虑到视线一致性的细致的判定。
另外,在图24所示的判定表830中,只有时间一致性和情感一致性的其中一方而没有视线一致性时,与“20%”的值关联对应,但是通过反映其它参照点的判定结果,能够更细致地决定值。下面说明“时间一致情感视线不一致时判定处理”(以下称为“判定处理(5)”)和“情感一致时间视线不一致时判定处理(以下称为“判定处理(6)”)。这里,判定处理(5)是,有时间一致性但没有情感一致性时,通过进行更详细的解析来判定视听质量的处理。判定处理(6)是,有情感一致性但没有时间一致性时,通过进行更详细的解析来判定视听质量的处理。
图25是表示判定处理(5)的一例流程的流程图。以下,用参数q来表示判定对象的参照点的序号。另外,对如下的假设进行说明,即,在判定对象的参照点的前后的参照点中,获得了视线一致性信息和视听质量信息的值。
首先,在步骤S7751,综合判定单元830获得第q-1参照点和第q+1参照点即判定对象的前后的参照点的视听质量数据和视线一致性判定信息。
接着,在步骤S7752,综合判定单元830判别是否满足“在前后的参照点都有视线一致性且视听质量信息的值都超过60%”的条件。综合判定单元830在满足上述条件时(S7752:“是”)进至步骤S7753,而未满足上述条件时(S7752:“否”)进至步骤S7754。
在步骤S7753,因为在前后的参照点,两方的视听质量信息的值都比较高,而且视听者的视线都朝向视频内容,所以综合判定单元830判断为视听者在以较高的关心程度视听着视频内容,并将视听质量信息的值设定为“75%”。
接着,在步骤S7755,综合判定单元830获得设定了值后的视听质量信息,然后进至实施方式1的图5的S1800。
另一方面,在步骤S7754,综合判定单元830判别是否满足“在前后的参照点的至少一方没有视线一致性,而且视听质量信息的值都超过60%”的条件。综合判定单元830在满足上述条件时(S7754:“是”)进至步骤S7756,而在未满足上述条件时(S7754:“否”)进至步骤S7757。
在步骤S7756,虽然在前后的参照点的至少一方视听者的视线没有朝向视频内容,但在前后的参照点,两方的视听质量信息的值都比较高,所以综合判定单元830判断为视听者在以稍高的关心程度视听着视频内容,并将视听质量信息的值设定为“65%”。
接着,在步骤S7758,综合判定单元830获得设定了值后的视听质量信息,然后进至实施方式1的图5的S1800。
另外,在步骤S7757,因为在前后的参照点的至少一方,视听质量信息的值比较低,而且在前后的参照点的至少一方,视听者的视线没有朝向视频内容,所以综合判定单元830判断为视听者在以相当低的关心程度视听着视频内容,将视听质量信息的值设定为“15%”。
接着,在步骤S7759,综合判定单元830获得设定了值后的视听质量信息,然后进至实施方式1的图5的S1800。
这样,有时间一致性而没有情感一致性的情况下,考虑到前后的参照点所获得的信息,能够细致地决定视听质量信息的值。
图26是表示判定处理(6)的一例流程的流程图。
首先,在步骤S7771,综合判定单元830获得第q-1参照点和第q+1参照点即判定对象的前后的参照点的视听质量数据和视线一致性判定信息。
接着,在步骤S7772,综合判定单元830判别是否满足“在前后的参照点都有视线一致性且视听质量信息的值都超过60%”的条件。在满足上述条件时(S7772:“是”)进至步骤S7773,而在未满足上述条件时(S7772:“否”)进至步骤S7774。
在步骤S7773,因为在前后的参照点,两方的视听质量信息的值都比较高,而且视听者的视线都朝向视频内容,所以综合判定单元830判断为视听者在以中等程度的关心程度视听着视频内容,将视听质量信息的值设定为“50%”。
接着,在步骤S7775,综合判定单元830获得设定了值的视听质量信息,然后进至实施方式1的图5的S1800。
另一方面,在步骤S7774,综合判定单元830判别是否满足“在前后的参照点的至少一方没有视线一致性,而且视听质量信息的值都超过60%”的条件。综合判定单元830在满足上述条件时(S7774:“是”)进至步骤S7776,而在未满足上述条件时(S7774:“否”)进至步骤S7777。
在步骤S7776,虽然在前后的参照点视听质量信息的值都比较高,但在前后的参照点的至少一方视听者的视线没有朝向视频内容,所以综合判定单元830判断为视听者在以稍低的关心程度视听着视频内容,将视听质量信息的值设定为“45%”。
接着,在步骤S7778,综合判定单元830获得设定了值的视听质量信息,然后进至实施方式1的图5的S1800。
另外,在步骤S7777,因为在前后的参照点的至少一方,视听质量信息的值比较低,而且在前后的参照点的至少一方,视听者的视线没有朝向视频内容,所以综合判定单元830判断为视听者在以较低的关心程度视听着视频内容,将视听质量信息的值设定为“20%”。
接着,在步骤S7779,综合判定单元830获得设定了值的视听质量信息,然后进至实施方式1的图5的S1800。
这样,对于有情感一致性但没有时间一致性的情况,也考虑到前后的参照点所获得的信息,能够细致地决定视听质量信息的值。
另外,在图25和图26中,说明了在前后的参照点能够获得视线一致性信息和视听质量信息的值的情况,但是也可能有如下的情况:连续存在多个有情感一致性但没有时间一致性的参照点,或者这样的参照点为最初的参照点和最后的参照点。此时,例如仅使用前后的任意一方的参照点的信息,或者使用在前后的任意一方连续存在的多个的参照点的信息即可。
在图5的步骤S1800,将百分率的值作为视听质量信息记载到视听质量数据信息中。综合判定单元830例如也可以计算在整个视频内容获得的视听质量信息的值的平均,以百分率输出对于整个视频内容的视听者的关心程度。
这样,根据本实施方式,除了情感一致性判定结果和时间一致性判定结果之外,还将视线一致性判定结果用于视听质量判定。由此,能够实现精度更高的视听质量判定和更为详细的视听质量判定。而且,使用判定表,所以能够使判定处理高速化。
另外,综合判定单元830也可以如下进行判定:作为第一阶段,首先使用情感一致性判定结果和时间一致性判定结果尝试进行视听质量判定,而仅在判定对象中没有参照点时或者在附近不存在参照点时等而无法获得判定结果的情况下,作为第二阶段,进行使用了视线一致性判定结果的视听质量判定。
另外,在以上说明的各个实施方式中,视听质量数据生成装置基于视频内容的视频编辑的内容获得情感期望值信息,但不限于此。视听质量数据生成装置例如也可以预先将表示参照点的信息和表示各个情感期望值的信息作为元数据附加到视频内容中,并基于这些信息获得情感期望值信息。具体地说,作为要附加的元数据,对各个参照点或场景,可以记载表示参照点的信息(包括索引号、开始时间以及结束时间)和情感期望值(a,b)的组合。
另外,有时视听了相同视频内容的其它视听者的评论或评价被公开在因特网上,或者被附加到视频内容中。于是,在视频内容中包含的视频编辑点不多而不能检测出足够的参照点时,视听质量数据生成装置可以解析这些评论和评价,从而补偿情感期望值信息的获得。例如,假设在因特网上公开的博客(blog)中记载有“在人物A出场的场景使我感到特别悲伤”的评论。此时,视听质量数据生成装置可以检测该内容中“人物A”出场的时间,将检测出的时间获得为参照点,同时将相当于“悲伤”的值获得为情感期望值。
另外,作为情感一致性的判定方法,将情感模型的空间中的情感期望值与情感实测值之间的距离和阈值进行比较,但不限于此。视听质量数据生成装置也可以将视频内容的视频编辑的内容和视听者的生物信息分别变换为情感类别,并判定情感类别是否一致或相似。另外,此时,视听质量数据生成装置也可以不将情感类别转移的点作为情感一致性或时间一致性的判定对象,而将“兴奋”等特定的情感类别产生的时刻或产生的时间段,作为该判定对象。
本发明的视听质量判定除了适用于视频内容以外,当然还可以适用于音乐内容、网络上的文章等文本内容等各种内容。
2007年2月20日提交的日本专利申请第2007-040072号中包含的说明书、附图以及说明书摘要的公开内容,全部被引用于本申请。
工业实用性
本发明的视听质量判定装置、视听质量判定方法、视听质量判定程序以及存储有该程序的记录媒体作为不给视听者特别增加负担而能够高精度地判定视听质量的视听质量判定装置、视听质量判定方法、视听质量判定程序以及存储有该程序的记录媒体极为有用。
Claims (16)
1.一种视听质量判定装置,包括:
情感期望值信息获得单元,获得情感期望值信息,该信息表示,视听内容的视听者被期望产生的情感;
情感信息获得单元,获得情感信息,该信息表示,在视听所述内容时视听者产生的情感;以及
视听质量判定单元,通过比较所述情感期望值信息和所述情感信息,判定所述内容的视听质量。
2.如权利要求1所述的视听质量判定装置,其中,
所述视听质量判定单元对时间分割了所述内容的每个部分进行所述比较,根据多个比较结果判定所述视听质量。
3.如权利要求1所述的视听质量判定装置,其中,
还包括:内容获得单元,获得所述内容;以及
情感期望值信息表,使所述内容的编辑内容的类别和所述情感期望值信息预先关联对应,
所述情感期望值信息获得单元判别所获得的所述内容的编辑内容的类别,并参照所述情感期望值信息表获得所述情感期望值信息。
4.如权利要求1所述的视听质量判定装置,其中,
还包括:传感单元,获得所述视听者的生物信息,
所述情感信息获得单元基于所述生物信息获得所述情感信息。
5.如权利要求1所述的视听质量判定装置,其中,
所述情感期望值信息包括:
情感期望产生时间,其表示,所述被期望产生的情感的产生时间;以及
情感期望值,其表示,所述被期望产生的情感的类别,
所述情感信息包括:
情感产生时间,其表示,所述视听者产生的情感的产生时间;以及
情感实测值,其表示,所述视听者产生的情感的类别,
所述视听质量判定单元包括:
时间一致性判定单元,判定是否存在所述情感期望产生时间与所述情感产生时间同步的时间一致性;
情感一致性判定单元,判定是否存在所述情感期望值与所述情感实测值相似的情感一致性;以及
综合判定单元,将有无所述时间一致性和有无所述情感一致性进行综合来判定所述视听质量。
6.如权利要求5所述的视听质量判定装置,其中,
所述综合判定单元在所述时间一致性和所述情感一致性都有时,判定为所述视听者感兴趣地进行了视听,在所述时间一致性和所述情感一致性都没有时,判定为所述视听者未感兴趣地进行了视听。
7.如权利要求6所述的视听质量判定装置,其中,
所述综合判定单元在有所述时间一致性和情感一致性中的一方而没有另一方时,判定所述视听者是否感兴趣地进行了视听为“不明”。
8.如权利要求6所述的视听质量判定装置,其中,
所述时间一致性判定单元对所述内容,每单位时间判定有无所述时间一致性,
所述情感一致性判定单元对所述内容,每所述单位时间判定有无所述情感一致性,
所述综合判定单元根据所述时间一致性判定单元和所述情感一致性判定单元的判定结果,判别所述视听质量。
9.如权利要求8所述的视听质量判定装置,其中,
所述综合判定单元对于所述内容中、有所述时间一致性而没有所述情感一致性的部分,在所述内容的其它部分有所述时间一致性时,判定为所述视听者感兴趣地进行了视听,在所述其它部分没有所述时间一致性时,判定为所述视听者未感兴趣地进行了视听。
10.如权利要求8所述的视听质量判定装置,其中,
所述综合判定单元对于所述内容中、没有所述时间一致性而有所述情感一致性的部分,在所述内容的其它部分有所述情感一致性时,判定为所述视听者感兴趣地进行了视听,在所述其它部分没有所述情感一致性时,判定为所述视听者未感兴趣地进行了视听。
11.如权利要求5所述的视听质量判定装置,其中,
所述内容包含图像,
所述视听质量判定装置还包括:视线方向检测单元,检测所述视听者的视线方向;以及
视线一致性判定单元,判定是否存在所述视线方向朝向所述内容所包含的图像的视线一致性,
所述综合判定单元将有无所述时间一致性、有无所述情感一致性和有无所述视线一致性进行综合来判定所述视听质量。
12.如权利要求3所述的视听质量判定装置,其中,
所述内容是包含音乐、效果音、视频镜头、摄影技法中的至少一个的视频内容,
所述情感期望值信息表对于音乐、效果音、视频镜头和摄影技法,预先使各个类别和所述情感期望值信息关联对应,
所述情感期望值信息获得单元判别在音乐、效果音、视频镜头、摄影技法中所述内容所包含的它们的类别,并参照所述情感期望值信息表,获得所述情感期望值信息。
13.如权利要求5所述的视听质量判定装置,其中,
所述情感期望值信息获得单元获得情感模型的空间的坐标值作为所述情感期望值信息,
所述情感信息获得单元获得所述情感模型的空间的坐标值作为所述情感信息,
所述情感一致性判定单元根据所述情感模型的空间中的、所述情感期望值与所述情感实测值之间的距离,判定有无所述情感一致性。
14.一种视听质量判定方法,包括:
信息获得步骤,获得情感期望值信息和情感信息,所述情感期望值信息表示,视听内容的视听者被期望产生的情感,所述情感信息表示,在视听所述内容时视听者产生的情感;
信息比较步骤,比较所述情感期望值信息和所述情感信息;以及
视听质量判定步骤,根据所述情感期望值信息和所述情感信息的比较结果,判定所述内容的视听质量。
15.一种视听质量判定程序,使计算机执行以下处理:
获得情感期望值信息和情感信息的处理,所述情感期望值信息表示,视听内容的视听者被期望产生的情感,所述情感信息表示,在视听所述内容时视听者产生的情感;
比较所述情感期望值信息和所述情感信息的处理;以及
根据所述情感期望值信息和所述情感信息的比较结果,判定所述内容的视听质量的处理。
16.一种记录媒体,存储有使计算机执行以下处理的视听质量判定程序:
获得情感期望值信息和情感信息的处理,所述情感期望值信息表示,视听内容的视听者被期望产生的情感,所述情感信息表示,在视听所述内容时视听者产生的情感;
比较所述情感期望值信息和所述情感信息的处理;以及
根据所述情感期望值信息和所述情感信息的比较结果,判定所述内容的视听质量的处理。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007040072A JP2008205861A (ja) | 2007-02-20 | 2007-02-20 | 視聴質判定装置、視聴質判定方法、視聴質判定プログラム、および記録媒体 |
JP040072/2007 | 2007-02-20 | ||
PCT/JP2008/000249 WO2008102533A1 (ja) | 2007-02-20 | 2008-02-18 | 視聴質判定装置、視聴質判定方法、視聴質判定プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101543086A true CN101543086A (zh) | 2009-09-23 |
CN101543086B CN101543086B (zh) | 2011-06-01 |
Family
ID=39709813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008800004397A Expired - Fee Related CN101543086B (zh) | 2007-02-20 | 2008-02-18 | 视听质量判定装置和视听质量判定方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20100211966A1 (zh) |
JP (1) | JP2008205861A (zh) |
CN (1) | CN101543086B (zh) |
WO (1) | WO2008102533A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013107031A1 (zh) * | 2012-01-20 | 2013-07-25 | 华为技术有限公司 | 基于评论信息确定视频质量参数的方法、装置和系统 |
CN108780477A (zh) * | 2016-03-01 | 2018-11-09 | 谷歌有限责任公司 | 用于免手操交易的面部简档修改 |
CN109891519A (zh) * | 2016-11-08 | 2019-06-14 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
US10511888B2 (en) | 2017-09-19 | 2019-12-17 | Sony Corporation | Calibration system for audience response capture and analysis of media content |
CN113016190A (zh) * | 2018-10-01 | 2021-06-22 | 杜比实验室特许公司 | 经由生理监测的创作意图可扩展性 |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9514436B2 (en) * | 2006-09-05 | 2016-12-06 | The Nielsen Company (Us), Llc | Method and system for predicting audience viewing behavior |
WO2008029889A1 (fr) * | 2006-09-08 | 2008-03-13 | Panasonic Corporation | Terminal de traitement des informations, procédé de génération d'informations musicales et programme |
KR100828371B1 (ko) | 2006-10-27 | 2008-05-08 | 삼성전자주식회사 | 컨텐츠의 메타 데이터 생성 방법 및 장치 |
JP2010094493A (ja) * | 2008-09-22 | 2010-04-30 | Koichi Kikuchi | 視認情景に対する視認者情感判定装置 |
JP4775671B2 (ja) * | 2008-12-26 | 2011-09-21 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP5243318B2 (ja) * | 2009-03-19 | 2013-07-24 | 株式会社野村総合研究所 | コンテンツ配信システム、コンテンツ配信方法及びコンピュータプログラム |
CA2815273A1 (en) | 2010-10-21 | 2012-04-26 | Holybrain Bvba | Method and apparatus for neuropsychological modeling of human experience and purchasing behavior |
JP2012165181A (ja) * | 2011-02-07 | 2012-08-30 | Sony Corp | 映像再生装置と映像再生方法およびプログラム |
JP5617697B2 (ja) * | 2011-03-04 | 2014-11-05 | 株式会社ニコン | 電子機器、画像表示システム及び画像選択方法 |
US9141982B2 (en) | 2011-04-27 | 2015-09-22 | Right Brain Interface Nv | Method and apparatus for collaborative upload of content |
US20120324491A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Video highlight identification based on environmental sensing |
US8433815B2 (en) | 2011-09-28 | 2013-04-30 | Right Brain Interface Nv | Method and apparatus for collaborative upload of content |
JP5937829B2 (ja) * | 2012-01-25 | 2016-06-22 | 日本放送協会 | 視聴状況認識装置及び視聴状況認識プログラム |
JP5775837B2 (ja) * | 2012-03-02 | 2015-09-09 | 日本電信電話株式会社 | 興味度合い推定装置、方法及びプログラム |
US9558425B2 (en) | 2012-08-16 | 2017-01-31 | The Penn State Research Foundation | Automatically computing emotions aroused from images through shape modeling |
US20140049546A1 (en) * | 2012-08-16 | 2014-02-20 | The Penn State Research Foundation | Automatically computing emotions aroused from images through shape modeling |
KR102011495B1 (ko) | 2012-11-09 | 2019-08-16 | 삼성전자 주식회사 | 사용자의 심리 상태 판단 장치 및 방법 |
JP5919182B2 (ja) * | 2012-12-13 | 2016-05-18 | 日本電信電話株式会社 | ユーザモニタリング装置およびその動作方法 |
US9729920B2 (en) * | 2013-03-15 | 2017-08-08 | Arris Enterprises, Inc. | Attention estimation to control the delivery of data and audio/video content |
JP5982322B2 (ja) * | 2013-05-13 | 2016-08-31 | 日本電信電話株式会社 | 感情推定方法、装置及びプログラム |
KR101535432B1 (ko) * | 2013-09-13 | 2015-07-13 | 엔에이치엔엔터테인먼트 주식회사 | 콘텐츠 평가 시스템 및 이를 이용한 콘텐츠 평가 방법 |
US10013892B2 (en) | 2013-10-07 | 2018-07-03 | Intel Corporation | Adaptive learning environment driven by real-time identification of engagement level |
US9288368B2 (en) * | 2013-10-08 | 2016-03-15 | Delightfit, Inc. | Video and map data synchronization for simulated athletic training |
EP3058873A4 (en) * | 2013-10-17 | 2017-06-28 | Natsume Research Institute, Co., Ltd. | Device for measuring visual efficacy |
JP2015142207A (ja) * | 2014-01-28 | 2015-08-03 | 日本放送協会 | 視聴ログ記録システム及び動画配信システム |
US20160012423A1 (en) | 2014-07-11 | 2016-01-14 | Google Inc. | Hands-free transactions with voice recognition |
US20160012421A1 (en) | 2014-07-11 | 2016-01-14 | Google Inc. | Hands-free transactions using beacon identifiers |
US10481749B1 (en) * | 2014-12-01 | 2019-11-19 | Google Llc | Identifying and rendering content relevant to a user's current mental state and context |
US20160180722A1 (en) * | 2014-12-22 | 2016-06-23 | Intel Corporation | Systems and methods for self-learning, content-aware affect recognition |
US9619803B2 (en) | 2015-04-30 | 2017-04-11 | Google Inc. | Identifying consumers in a transaction via facial recognition |
US10733587B2 (en) | 2015-04-30 | 2020-08-04 | Google Llc | Identifying consumers via facial recognition to provide services |
US10397220B2 (en) | 2015-04-30 | 2019-08-27 | Google Llc | Facial profile password to modify user account data for hands-free transactions |
JP6614547B2 (ja) * | 2015-08-17 | 2019-12-04 | パナソニックIpマネジメント株式会社 | 視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法 |
US10542315B2 (en) * | 2015-11-11 | 2020-01-21 | At&T Intellectual Property I, L.P. | Method and apparatus for content adaptation based on audience monitoring |
KR20210125616A (ko) | 2016-07-31 | 2021-10-18 | 구글 엘엘씨 | 자동 핸즈프리 서비스 요청 |
US10250940B2 (en) * | 2016-08-12 | 2019-04-02 | International Business Machines Corporation | System, method, and recording medium for providing notifications in video streams to control video playback |
US11062304B2 (en) | 2016-10-20 | 2021-07-13 | Google Llc | Offline user identification |
GB201620476D0 (en) * | 2016-12-02 | 2017-01-18 | Omarco Network Solutions Ltd | Computer-implemented method of predicting performance data |
US10276189B1 (en) * | 2016-12-28 | 2019-04-30 | Shutterstock, Inc. | Digital audio track suggestions for moods identified using analysis of objects in images from video content |
US20180247443A1 (en) * | 2017-02-28 | 2018-08-30 | International Business Machines Corporation | Emotional analysis and depiction in virtual reality |
DE102017209079A1 (de) * | 2017-05-30 | 2018-12-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | System und Verfahren zur Erfassung von Wahrnehmung oder Wiedergabe identifizierter Objekte in einem Videosignal |
WO2018222232A1 (en) | 2017-05-31 | 2018-12-06 | Google Llc | Providing hands-free data for interactions |
JP7040232B2 (ja) * | 2018-04-03 | 2022-03-23 | 日本電信電話株式会社 | 視聴行動推定装置、視聴行動推定方法及びプログラム |
KR102525120B1 (ko) * | 2018-04-19 | 2023-04-25 | 현대자동차주식회사 | 데이터 분류 장치, 이를 포함하는 차량, 및 데이터 분류 장치의 제어방법 |
JP7073894B2 (ja) * | 2018-05-09 | 2022-05-24 | 日本電信電話株式会社 | エンゲージメント推定装置、エンゲージメント推定方法及びプログラム |
US11157549B2 (en) * | 2019-03-06 | 2021-10-26 | International Business Machines Corporation | Emotional experience metadata on recorded images |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774591A (en) * | 1995-12-15 | 1998-06-30 | Xerox Corporation | Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images |
EP1223757B1 (en) * | 2001-01-09 | 2006-03-22 | Metabyte Networks, Inc. | System, method, and software application for targeted advertising via behavioral model clustering, and preference programming based on behavioral model clusters |
JP3644502B2 (ja) * | 2001-02-06 | 2005-04-27 | ソニー株式会社 | コンテンツ受信装置およびコンテンツ呈示制御方法 |
US20020178440A1 (en) * | 2001-03-28 | 2002-11-28 | Philips Electronics North America Corp. | Method and apparatus for automatically selecting an alternate item based on user behavior |
JP2004357173A (ja) * | 2003-05-30 | 2004-12-16 | Matsushita Electric Ind Co Ltd | 選局装置、計測データ分析装置及びテレビジョン信号送受信システム |
JP4335642B2 (ja) * | 2003-11-10 | 2009-09-30 | 日本電信電話株式会社 | 視聴者反応情報収集方法と、視聴者反応情報収集システムで用いられるユーザ端末及び視聴者反応情報提供装置と、そのユーザ端末・視聴者反応情報提供装置の実現に用いられる視聴者反応情報作成用プログラム |
US20050289582A1 (en) * | 2004-06-24 | 2005-12-29 | Hitachi, Ltd. | System and method for capturing and using biometrics to review a product, service, creative work or thing |
JP2007036874A (ja) * | 2005-07-28 | 2007-02-08 | Univ Of Tokyo | 視聴者情報測定システム及びこれを用いたマッチングシステム |
-
2007
- 2007-02-20 JP JP2007040072A patent/JP2008205861A/ja active Pending
-
2008
- 2008-02-18 CN CN2008800004397A patent/CN101543086B/zh not_active Expired - Fee Related
- 2008-02-18 WO PCT/JP2008/000249 patent/WO2008102533A1/ja active Application Filing
- 2008-02-18 US US12/377,308 patent/US20100211966A1/en not_active Abandoned
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013107031A1 (zh) * | 2012-01-20 | 2013-07-25 | 华为技术有限公司 | 基于评论信息确定视频质量参数的方法、装置和系统 |
CN103688256A (zh) * | 2012-01-20 | 2014-03-26 | 华为技术有限公司 | 基于评论信息确定视频质量参数的方法、装置和系统 |
CN108780477A (zh) * | 2016-03-01 | 2018-11-09 | 谷歌有限责任公司 | 用于免手操交易的面部简档修改 |
CN108780477B (zh) * | 2016-03-01 | 2022-10-21 | 谷歌有限责任公司 | 用于免手操交易的面部简档修改 |
CN109891519A (zh) * | 2016-11-08 | 2019-06-14 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
US10511888B2 (en) | 2017-09-19 | 2019-12-17 | Sony Corporation | Calibration system for audience response capture and analysis of media content |
CN111052751A (zh) * | 2017-09-19 | 2020-04-21 | 索尼公司 | 用于媒体内容的观众响应捕获和分析的校准系统 |
US11218771B2 (en) | 2017-09-19 | 2022-01-04 | Sony Corporation | Calibration system for audience response capture and analysis of media content |
CN111052751B (zh) * | 2017-09-19 | 2022-02-01 | 索尼公司 | 用于媒体内容的观众响应捕获和分析的校准系统 |
CN113016190A (zh) * | 2018-10-01 | 2021-06-22 | 杜比实验室特许公司 | 经由生理监测的创作意图可扩展性 |
CN113016190B (zh) * | 2018-10-01 | 2023-06-13 | 杜比实验室特许公司 | 经由生理监测的创作意图可扩展性 |
Also Published As
Publication number | Publication date |
---|---|
CN101543086B (zh) | 2011-06-01 |
JP2008205861A (ja) | 2008-09-04 |
US20100211966A1 (en) | 2010-08-19 |
WO2008102533A1 (ja) | 2008-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101543086B (zh) | 视听质量判定装置和视听质量判定方法 | |
Yu et al. | Deep cross-modal correlation learning for audio and lyrics in music retrieval | |
US9747370B2 (en) | Systems, methods and computer program products for searching within movies (SWiM) | |
WO2022121626A1 (zh) | 视频显示及处理方法、装置、系统、设备、介质 | |
US8799253B2 (en) | Presenting an assembled sequence of preview videos | |
Pavel et al. | Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries | |
CN108702539A (zh) | 用于媒体搜索和回放的智能自动化助理 | |
KR20160085277A (ko) | 사용자 특유의 그래머를 사용하는 미디어 아이템 선택 | |
CN110110134A (zh) | 一种音乐推荐信息的生成方法、系统及相关组件 | |
EP2073193A1 (en) | Method and device for generating a soundtrack | |
US20120124473A1 (en) | System and method for playing music using music visualization technique | |
EP1585048A1 (en) | Information-processing apparatus, information-processing methods and programs | |
KR20120101233A (ko) | 감성 정보 생성 방법, 그를 이용한 감성 정보 기반의 콘텐츠 추천 방법 및 시스템 | |
Mehta et al. | Movie recommendation systems using sentiment analysis and cosine similarity | |
JP2008046425A (ja) | 印象表現出力装置及び方法 | |
Pudaruth et al. | Automated generation of song lyrics using CFGs | |
Surana et al. | Tag2Risk: Harnessing social music tags for characterizing depression risk | |
CN113573128B (zh) | 一种音频处理方法、装置、终端以及存储介质 | |
Fields et al. | Using song social tags and topic models to describe and compare playlists | |
CN110865716A (zh) | 一种输入法及其系统 | |
JP2005202485A (ja) | 映像提示装置 | |
Bouamrane et al. | An analytical evaluation of search by content and interaction patterns on multimodal meeting records | |
Tzanetakis | Musescape: An interactive content-aware music browser | |
Storino et al. | An investigation on the perception of musical style | |
Akella | Music Mood Classification Using Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110601 Termination date: 20130218 |