CN107809673A - 根据情绪状态检测处理视频内容的系统和方法 - Google Patents

根据情绪状态检测处理视频内容的系统和方法 Download PDF

Info

Publication number
CN107809673A
CN107809673A CN201710788129.7A CN201710788129A CN107809673A CN 107809673 A CN107809673 A CN 107809673A CN 201710788129 A CN201710788129 A CN 201710788129A CN 107809673 A CN107809673 A CN 107809673A
Authority
CN
China
Prior art keywords
video
user
emotional state
video content
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710788129.7A
Other languages
English (en)
Other versions
CN107809673B (zh
Inventor
P·钦塔拉普蒂
N·戈斯瓦米
H·萨达瓦尼
M·苏利巴哈维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN107809673A publication Critical patent/CN107809673A/zh
Application granted granted Critical
Publication of CN107809673B publication Critical patent/CN107809673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/29Arrangements for monitoring broadcast services or broadcast-related services
    • H04H60/33Arrangements for monitoring the users' behaviour or opinions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/36Monitoring, i.e. supervising the progress of recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B31/00Arrangements for the associated working of recording or reproducing apparatus with related apparatus
    • G11B31/006Arrangements for the associated working of recording or reproducing apparatus with related apparatus with video camera or receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/61Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Neurosurgery (AREA)
  • Analytical Chemistry (AREA)
  • Computer Security & Cryptography (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明涉及根据情绪状态检测处理视频内容的系统和方法。公开了根据一个或多个用户的情绪状态检测,处理视频内容的系统和方法的各个方面。所述系统包括视频处理设备,所述视频处理设备检测在视频处理设备上观看第一视频内容的第一用户的情绪状态的变化。使在一个或多个时间,检测到的第一用户的情绪状态的变化期间观看的第一视频内容的一组或多组图像帧与变化的情绪状态关联。根据检测到的第一用户的情绪状态的变化,利用第一视频内容的关联的一组或多组图像帧,生成第二视频内容。

Description

根据情绪状态检测处理视频内容的系统和方法
相关申请的交叉引用/通过引用并入
无。
技术领域
本公开的各个实施例涉及处理视频内容的系统和方法。更具体地,本公开的各个实施例涉及根据用户的情绪状态检测,处理视频内容的系统和方法。
背景技术
视频处理技术领域的最新进步已扩展各种电子设备和相关应用的功能。以前,采用昂贵的机器来处理视频,以便进行视频编辑。不过,归因于视频处理设备和视频处理技术的不断进步,视频编辑和相关设备的成本已随着时间的过去而降低。在各种行业,比如消费电子产品(CE)、媒体和/或运动图像制作和后期制作行业中,广泛使用用于数字视频帧序列的视频编辑的各种工具、应用、机器和/或设备。目前,捕捉的视频内容的操作可能是费时的过程。此外,产生一致并且优良的结果可能需要高度的专业化。尽管在视频编辑技术中,已显现一定程度的自动化,不过后处理技术可能仍然需要极大的计算资源,从而对消费者使用来说可能不切实际。从而,可能需要先进并且高效的技术或系统,其中可智能地把人的要素用于数字视频内容的快速且定性处理。
通过说明的系统与参考附图在本申请的剩余部分中记载的本公开的一些方面的比较,对本领域的技术人员来说,常规和传统方法的另外的限制和缺陷将变得明显。
发明内容
提供了一种更完整地记载在权利要求书中的实质上如附图至少之一中所示,和/或结合附图至少之一所述的根据一个或多个用户的情绪状态检测,处理视频内容的系统和方法。
根据本公开的以下详细说明,以及附图,可领会本公开的这些及其他特征和优点,附图中,相同的附图标记指示相同的部分。
附图说明
图1是按照本公开的一个实施例,图解说明根据一个或多个用户的情绪状态检测,处理视频内容的网络环境的方框图。
图2按照本公开的一个实施例,图解说明根据一个或多个用户的情绪状态检测,处理视频内容的例证视频处理设备的方框图。
图3按照本公开的一个实施例,图解说明公开的根据一个或多个用户的情绪状态检测,处理视频内容的系统和方法的实现的例证情形。
图4A和4B按照本公开的一个实施例,共同图解说明根据一个或多个用户的情绪状态检测,处理视频内容的例证方法的实现的流程图。
具体实施方式
在公开的根据情绪状态检测,处理视频的系统和方法之中,可存在下述各种实现。本公开的例证方面可包括一种视频处理设备,所述视频处理设备可检测在视频处理设备上观看第一视频内容的第一用户的情绪状态的变化。可以使在一个或多个时间检测到的第一用户的情绪状态的变化期间观看的第一视频内容的一组或多组图像帧与变化的情绪状态关联。通过利用第一视频内容的关联的一组或多组图像帧,可生成第二视频内容。第二视频内容的生成可以以检测到的第一用户的情绪状态的变化为基础。
按照一个实施例,情绪状态可对应于中性、快乐、悲伤、愤怒、蔑视、害怕、惊讶、困惑和/或温柔情绪。为了所述关联,在视频处理设备上的第一视频内容的观看期间,可以确定与第一用户的变化的情绪状态关联的级别。在第一用户可能在观看第一视频内容的时候,可以监视第一用户的多个情绪状态。所述监视可以以利用通信耦接到视频处理设备的图像捕捉设备捕捉的第一用户的一个或多个图像或视频,和/或从与第一用户关联的一个或多个可穿戴设备接收的传感器数据为基础。
按照一个实施例,为了第二视频内容的生成,可以选择与变化的情绪状态关联的第一视频内容的一组或多组图像帧。根据第一用户的多个不同情绪状态的检测,可从第一视频内容同时生成多个视频内容项。
按照一个实施例,在第二用户在视频处理设备上观看第一视频内容的时候,可以检测第二用户的情绪状态的变化。可以使第一视频内容的其他一组或多组图像帧与第二用户的变化的情绪状态关联。所述关联可在观看第一视频内容的时候,在一个或多个其他时间,检测到的第二用户的情绪状态的变化期间发生。
按照一个实施例,根据检测到的第一用户和第二用户的情绪状态的变化,可以同时生成第二视频内容和第三视频内容。通过利用关联的第一视频内容的其他一组或多组图像帧,可生成第三视频内容。可根据检测到的第一用户的情绪状态的变化,自动编辑第一视频内容。
按照一个实施例,生成的第二视频内容可对应于根据检测到的第一用户的情绪状态的变化从第一视频内容自动生成的情绪视频高潮部分(highlight)。可根据检测到的第一用户的情绪状态的变化,组合从在视频处理设备上观看的多个视频内容项中的每一个选择的一组或多组视频帧,从而生成单一视频内容。
图1是按照本公开的一个实施例,图解说明根据情绪状态检测,处理视频的网络环境的方框图。参见图1,图中表示了例证的网络环境100。网络环境100可包括视频处理设备102、服务器104、通信网络106、图像捕捉单元108、多个情绪状态110、和一个或多个用户,比如第一用户112和第二用户114。视频处理单元102可包括显示屏幕116,和呈现在显示屏幕116上的应用界面118。图中还表示了一个或多个可穿戴设备120。多个情绪状态110可以与第一用户112和/或第二用户114关联。视频处理设备102可经通信网络106,通信耦接到服务器104和/或一个或多个可穿戴设备120。诸如第一用户112和第二用户114之类的所述一个或多个用户可以与视频处理设备102关联。
视频处理设备102可包含可被配置成经通信网络106,从服务器104接收待处理的一个或多个视频内容项的适当逻辑、电路、接口和/或代码。按照一个实施例,可借助有线或无线通信介质,把一个或多个视频从外部设备(比如外部存储介质,或者另一个电子设备)传送到视频处理设备102,以便处理。视频处理设备102的例子可包括(但不限于)计算设备、视频编辑机器、智能电话机、膝上型计算机、智能电视机(TV)、运动捕捉系统、摄像头、运动摄像机、便携式摄像机、平板计算机、投影仪和/或其他视频处理设备。
服务器104可包含可被配置成保存多个捕捉的视频的适当逻辑、电路、接口和/或代码。服务器104可以与远程电子设备(比如视频处理设备102)通信耦接。服务器104可以是基于云的服务器、web服务器、数据库服务器、文件服务器、应用服务器、或者它们的组合。服务器104可以利用为本领域的技术人员公知的几种技术来实现。
通信网络106可包括视频处理设备102可通过其与服务器104通信的介质。通信网络106可以是有线或无线通信网络。通信网络106的例子可包括(但不限于)局域网(LAN)、无线局域网(WLAN)、云网络、长期演进(LTE)网络、简易老式电话服务(POTS)、城域网(MAN)和/或因特网。网络环境100中的各个设备可被配置成按照各种有线和无线通信协议,连接到通信网络106。这样的有线和无线通信协议的例子可包括(但不限于)传输控制协议和网际协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、红外(IR)、IEEE 802.11、802.16、长期演进(LTE)、光保真(Li-Fi)、和/或其他蜂窝通信协议、物联网(IOT)通信协议、或蓝牙(BT)通信协议。
图像捕捉单元108可包含可被配置成捕捉一个或多个用户的一个或多个图像或视频的适当逻辑、电路、接口和/或代码。按照一个实施例,图像捕捉单元108可以指的是视频处理设备102的内置摄像头或图像传感器。或者,图像捕捉单元108可以是连接到视频处理设备102的外部摄像头。
多个情绪状态110指的是利用视频处理设备102检测的一个或多个用户的情绪状态。所述多个情绪状态110(比如“EM1,EM2,EM3,…,EMn”)可包括中性、快乐、悲伤、愤怒、蔑视、害怕、惊讶、困惑和/或温柔情绪。根据利用图像捕捉单元108捕捉的一个或多个用户的一个或多个图像或视频,可以检测所述多个情绪状态110。按照一个实施例,所述一个或多个用户均可与一个或多个可穿戴设备120中的可穿戴设备关联,所述一个或多个可穿戴设备120可以与视频处理设备102通信耦接。从可穿戴设备接收的传感器数据还可用于监视所述一个或多个用户的情绪状态的变化。
显示屏幕116可包含可被配置成呈现应用界面118以使捕捉的视频的编辑成为可能的适当逻辑、电路、接口和/或代码。按照一个实施例,显示屏幕116可被实现成视频处理设备102的一部分。可通过几种已知技术,比如液晶显示器(LCD)、基于发光二极管(LED)的显示器、有机LED显示器技术、视网膜显示器技术和/或类似技术,实现显示屏幕116。
应用界面118可被呈现在视频处理设备102的显示屏幕116上。应用界面118可使视频处理设备102中的视频编辑处理更容易。应用界面118可被预先保存在视频处理设备102处。应用界面118可被配置成呈现摄取的视频内容和对应的视频帧,以便在视频处理设备102中处理。
一个或多个可穿戴设备120可以指的是可穿戴电子产品和/或电子植入物。一个或多个可穿戴设备120可包含可被配置成把传感器数据传送给连接的设备(比如视频处理设备102或服务器104)的适当逻辑、电路、接口和/或代码。所述一个或多个可穿戴设备120可由用户(比如第一用户112和第二用户114)穿戴。例如,用户穿戴的智能眼镜、智能手环或智能手表可用于测量用户的卡路里摄入量、消耗的卡路里、睡眠模式、和/或生理参数,比如排汗或心率,或者身体活动。所述一个或多个可穿戴设备120的例子可包括(但不限于)可穿戴心脏事件记录仪、生物相容传感器(可附着、穿戴或植入人体中,以预测排卵周期、监视生理参数,比如心率、脉搏血氧饱和度、呼吸速率和/或血压)、可植入射频设备(比如“Obamacare微芯片RDID植入物”)和/或可提供与用户(比如第一用户112或第二用户114)的生理参数的监视相关的传感器数据以追踪用户的情绪状态的其他这种可穿戴或可植入设备。按照一个实施例,可以不使用一个或多个可穿戴设备120,而是可通过利用图像捕捉单元108捕捉的用户的视频,检测情绪状态。
操作中,视频处理设备102可被配置成接收一个或多个视频内容。所述一个或多个视频内容可以经通信网络106,接收自服务器104。按照一个实施例,所述一个或多个视频内容可以借助有线或无线通信介质,接收自外部设备,比如外部存储设备。视频处理设备102可被配置成通过应用界面118,至少呈现接收的一个或多个视频内容中的第一视频内容。按照一个实施例,可根据从用户(比如第一用户112)接收的输入,呈现第一视频。或者,视频处理设备102可包含按用户定义的顺序处理一个或多个视频内容的一个或多个预定配置的设置。
按照一个实施例,一个或多个用户(比如第一用户112)可能正在视频处理设备102的显示屏幕116上,观看第一视频内容。视频处理设备102可利用图像捕捉单元108,捕捉可能正在视频处理设备102上观看第一视频内容的第一用户112的一个或多个图像或视频。视频处理设备102可被配置成在第一用户112在观看第一视频内容的时候,不断监视第一用户112的情绪。可根据捕捉的第一用户112的一个或多个图像或视频的分析,监视情绪。
按照一个实施例,视频处理设备102可被配置成检测在视频处理设备102上,观看第一视频内容的第一用户112的情绪状态的变化。情绪状态的变化可对应于从第一用户112的多个情绪状态110中的第一情绪状态(比如中性)到第二情绪状态(比如快乐)的转变。
按照一个实施例,视频处理设备102可被配置成确定与在视频处理设备102上观看第一视频内容期间第一用户112的变化的情绪状态关联的级别。确定的级别可对应于情绪状态的程度。例如,在第一用户112在观看第一视频内容的时候,可以检测快乐的程度,比如中等快乐或者兴奋的情绪状态。
按照一个实施例,视频处理设备102可被配置成使第一视频内容的一组或多组图像帧与变化的情绪状态(比如兴奋的情绪状态)关联。所述关联可在视频处理设备102上观看第一视频内容之时,在一个或多个时间,检测到的第一用户112的情绪状态的变化期间发生。
按照一个实施例,视频处理设备102可被配置成选择与变化的情绪状态关联的第一视频内容的一组或多组图像帧。视频处理设备102可被配置成利用选择的与变化的情绪状态关联的一组或多组图像帧,生成第二视频内容。生成的第二视频内容可对应于根据检测到的第一用户112的变化的情绪状态,从第一视频内容动态生成的情绪高潮部分,比如兴奋情绪高潮部分。
按照一个实施例,第一用户112和第二用户114可能同时在视频处理设备102上观看第一视频内容。在这样的实施例中,视频处理设备102可被配置成同时监视第一用户112和第二用户114的情绪。除了第一用户112以外,视频处理设备102还可使在检测到的第二用户114的情绪状态的变化期间观看的第一视频内容的其他一组或多组图像帧,与第二用户114的变化的情绪状态关联。视频处理设备102可被配置成根据检测到的第一用户112以及第二用户114的变化的情绪状态,同时生成第二视频内容和另一个视频。
按照一个实施例,视频处理设备102可被配置成对于在一天、一月或一年内观看的所有内容项,生成与多个情绪状态110中的每一个相关的情绪高潮部分。按照一个实施例,第一用户112可观看多个视频处理设备中的各种媒体内容。所述多个视频处理设备可类似于视频处理设备102。在这样的实施例中,多个视频处理设备中的生成的情绪高潮部分可被传送给服务器104,以便集中存储。存储器104随后可生成可包含在多个视频处理设备上观看的媒体内容的片段的情绪高潮部分、悲伤情绪高潮部分、快乐情绪高潮部分或者愤怒情绪高潮部分。所述片段可对应于与多个情绪状态110中的一个或多个关联的一组或多组图像帧。
图2按照本公开的一个实施例,图解说明根据情绪状态检测,处理视频的例证视频处理设备的方框图。图2是结合图1的要素说明的。参见图2,图中表示了视频处理设备102。视频处理设备102可包含一个或多个处理器(比如视频处理器202)、存储器204、一个或多个输入/输出(I/O)设备(比如I/O设备206)、情绪分析器208和网络接口210。图中还表示了I/O设备206中的图像捕捉单元108、显示屏幕116和应用界面118。
视频处理器202可通信耦接到存储器204、I/O设备206、情绪分析器208和网络接口210。网络接口210可在视频处理器202的控制下,经通信网络106与服务器104通信。
视频处理器202可包含可被配置成执行保存在存储器204中的一组指令的适当逻辑、电路、接口和/或代码。可根据本领域中已知的许多处理器技术,实现视频处理器202。视频处理器202的例子可以是基于X86的处理器、基于X86-64的处理器、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、中央处理器(CPU)、显式并行指令计算(EPIC)处理器、超长指令字(VLIW)处理器和/或其他处理器或控制电路。
存储器204可包含可被配置成保存可由视频处理器202执行的机器代码和/或一组指令的适当逻辑、电路和/或接口。存储器204还可被配置成保存待处理的一个或多个捕捉视频,和已处理或已编辑视频。存储器204还可被配置成保存应用界面118,和由一个或多个用户预置的一个或多个可配置设置。存储器204还可被配置成保存操作系统和关联应用。存储器204的实现例子可包括(但不限于)随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存和/或安全数字(SD)卡。
I/O设备206可包含可被配置成接收来自一个或多个用户(比如第一用户112)的输入的适当逻辑、电路、接口和/或代码。I/O设备206可被配置成向一个或多个用户提供输出。I/O设备206可包含可操作以与视频处理器202通信的各种输入设备和输出设备。输入设备的例子可包括(但不限于)图像捕捉单元108、触摸屏、键盘、红外传感器、鼠标、控制手柄、麦克风、运动传感器、光传感器、一个或多个传感器(比如地理空间位置检测传感器)和/或扩展坞。输出设备的例子可包括(但不限于)显示屏幕116、投影仪屏幕和/或扬声器。
情绪分析器208可包含可被配置成分析利用图像捕捉单元108捕捉的一个或多个图像或视频的适当逻辑、电路和/或接口。情绪分析器208还可被配置成分析从与一个或多个用户(比如第一用户112和第二用户114)关联的一个或多个可穿戴设备120接收的传感器数据。情绪分析器208可被配置成根据接收的一个或多个图像或视频和/或传感器数据的分析,不断检测一个或多个用户的情绪状态的变化。按照一个实施例,情绪分析器208可以是视频处理器202的一部分。或者,情绪分析器208可被实现成视频处理设备102中的独立处理器或电路。按照一个实施例,情绪分析器208和视频处理器202可被实现成集成处理器,或者完成情绪分析器208和视频处理器202的功能的一群处理器。按照一个实施例,情绪分析器208可被实现成保存在存储器204中的一组指令,当由视频处理器202执行时,所述一组指令可完成视频处理设备102的功能。
网络接口210可包含可被配置成通过通信网络106(如图1中所示),与服务器104通信的适当逻辑、电路、接口和/或代码。网络接口210可实现支持视频处理设备102与通信网络106的有线或无线通信的已知技术。网络接口210可包括(但不限于)天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码器(CODEC)芯片集、用户标识模块(SIM)卡和/或本地缓冲器。网络接口210可借助有线或无线通信,与通信网络106通信。无线通信可以利用多种通信标准、协议和技术中的一种或多种,比如全球移动通信系统(GSM)、增强数据GSM环境(EDGE)、宽带码分多址接入(W-CDMA)、码分多址接入(CDMA)、时分多址接入(TDMA)、蓝牙、长期演进(LTE)、无线保真(Wi-Fi)(比如IEEE802.11a、IEEE 802.11b、IEEE 802.11g和/或IEEE 802.11n)、光保真(Li-Fi)、网际协议话音(VoIP)、Wi-MAX、电子邮件用协议、即时消息接发和/或短消息服务(SMS)。
操作中,视频处理器202可被配置成利用网络接口210,接收一个或多个视频内容。所述一个或多个视频内容可通过通信网络106,接收自服务器104。按照一个实施例,所述一个或多个视频内容可通过有线或无线通信介质,接收自外部设备,比如外部存储设备。视频处理器202可被配置成通过应用界面118,至少呈现接收的一个或多个视频内容中的第一视频内容。
按照一个实施例,一个或多个用户(比如第一用户112)可能正在视频处理设备102的显示屏幕116上,观看第一视频内容。视频处理器202可利用图像捕捉单元108,捕捉可能正在视频处理设备102上观看第一视频内容的第一用户112的一个或多个图像或视频。情绪分析器208可被分配成在第一用户112观看第一视频内容的时候,不断监视第一用户112的情绪。根据捕捉的第一用户112的一个或多个图像或视频的分析,可以监视所述情绪。
按照一个实施例,情绪分析器208可被配置成检测在视频处理设备102上观看第一视频内容的第一用户112的情绪状态的变化。情绪状态的变化可对应于从第一用户112的多个情绪状态110中的第一情绪状态(比如中性)到第二情绪状态(比如快乐)的转变。根据第一用户112的情绪的监视,可检测第一用户112的情绪状态的变化。
按照一个实施例,包括面部表情的变化、手或脸的移动、用户坐姿和/或身体姿势的一个或多个因素可指示第一用户112的情绪状态。单独或组合地采用的一个或多个这样的因素可提高第一用户112的情绪状态的检测的精确性。例如,在观看第一视频时抱在头后的双手和向上倾斜的脸部可指示放松的情绪状态。然而,在观看第一视频时放置在头顶的双手和向下倾斜的脸部可指示心烦意乱(或者非常悲伤)的情绪状态。
在常规的情绪检测技术中,可利用一些预先规定的面部表情或者生物健康参数,从预先规定的情绪中检测用户的特定情绪。然而,人类情绪和情绪表达的程度或者身体语言会随着地理位置(比如国家方面或地区方面)而变化。此外,年龄和性别也会影响用户如何表达其情绪。因而,为了准确地检测多个情绪状态110,利用图像处理技术的情绪检测可能需要是用户化的。
按照一个实施例,情绪分析器208可被配置成利用视频处理设备102的地理位置信息,来调整用于检测用户(比如第一用户112)的特定情绪的情绪检测技术。例如,可根据视频处理设备102的当前地理位置信息,对情绪检测应用不同的面部表情方案或设置。这样的面部表情方案或设置可适于按照预先映射的特定于该地理位置的面部特征,检测情绪表达或身体语言。按照一个实施例,情绪分析器208可被配置成根据第一用户112的年龄组或性别,使情绪检测技术用户化。或者,相同的设置或情绪检测技术可用于各个年龄组、地理位置、或男性和女性个体。情绪检测技术可以指的是用于用户(比如第一用户112)的情绪状态的检测和/或识别的面部表情、手或脸的移动、用户坐姿和/或身体姿势的分析。
按照一个实施例,情绪分析器208可被配置成在视频处理设备102上的第一视频内容的观看期间,确定与第一用户112的变化的情绪状态相关的级别。确定的级别可对应于情绪状态的程度。例如,当第一用户112观看第一视频内容时,可以检测快乐的程度,比如中等快乐或者兴奋的情绪状态。
按照一个实施例,第一用户112可以与一个或多个可穿戴设备120关联。在这样的实施例中,视频处理器202还可接收来自所述一个或多个可穿戴设备120的传感器数据,以监视第一用户112的情绪,比如多个情绪状态110。视频处理器202可被配置成进一步利用传感器数据,来验证根据图像处理技术检测的第一用户112的情绪状态的变化。传感器数据可对应于各种人类生理参数(比如血压、排汗、心率、体温等)的测量值。例如,与高排汗速度联系地利用图像处理技术根据一个或多个因素的分析而检测到的悲伤或焦虑情绪状态可确认较高的焦虑级别。按照一个实施例,视频处理器202可被配置成利用图像处理技术,根据一个或多个因素的分析,检测用户(比如在第一视频内容中打高尔夫球、开卡丁车、打板球或者进行其他运动的用户)的当前状态。在这种情况下,情绪分析器208可被配置成相应地调整各种人类生理参数的基准水平,以监视第一用户112的情绪。在用户112对于特定场景感到兴奋的情况下,在运行时,情绪可被计算为新的级别,从而可以专门捕捉和记录使人激动的瞬间。视频处理器202可被配置成把与激动的情绪状态关联的某几组图像帧保存为新的视频,而不是记录来自摄像头(比如图像捕捉单元108)的所有图像帧。
按照一个实施例,视频处理器202可被配置成使第一视频内容的一组或多组图像帧与变化的情绪状态(比如兴奋的情绪状态)关联。所述关联可在视频处理设备102上观看第一视频内容之时,在一个或多个时间,检测到的第一用户112的情绪状态的变化期间发生。例如,第一组“150”个图像帧可以是从第一视频内容的时间戳“00:01:25”到00:01:30”(“时:分:秒”格式)。在第一视频内容的重放期间,在时间“00:01:28”,可检测到从中性情绪状态到兴奋的情绪状态的第一用户112的情绪状态的第一变化。可以使在检测到的第一用户112的情绪状态的变化之前和之后的2秒与变化的情绪状态(即,兴奋的情绪状态)关联。类似地,第二组“150”个图像帧可以是从第一视频内容的时间戳“00:02:30”到00:02:35”。在第一视频内容的重放期间,在时间“00:02:33”,可检测到从中性情绪状态到兴奋的情绪状态的第一用户112的情绪状态的第二变化。可以使在检测到的第一用户112的情绪状态的变化之前和之后的2秒(总共5秒)与兴奋的情绪状态关联。因而,在第一视频内容的重放期间,可以使其他各组图像帧与兴奋的情绪状态关联。
按照一个实施例,视频处理器202可被配置成选择与变化的情绪状态关联的第一视频内容的一组或多组图像帧。例如,可以选择与第一用户112的兴奋的情绪状态关联的第一组“150”个图像帧、第二组“150”个图像帧和其他各组图像帧。视频处理器202可被配置成过滤第一视频内容的可能不与多个情绪状态110至少之一关联的图像帧。与中性情绪状态关联的图像帧也可被滤出。
按照一个实施例,视频处理器202可被配置成按照选择的一组或多组图像帧的重放时间,接合选择的与变化的情绪状态关联的一组或多组图像帧。按照一个实施例,视频处理器202可被配置成生成可包含选择的与变化的情绪状态关联的一组或多组图像帧的第二视频内容,作为接合操作的结果。从而,根据检测到的第一用户112的情绪状态的变化,可以进行第一视频内容的自动编辑。生成的第二视频内容可对应于根据检测到的第一用户112的变化的情绪状态,从第一视频内容动态生成的情绪高潮部分,比如兴奋情绪高潮部分。
按照一个实施例,情绪分析器208可被配置成在视频处理设备102上的第一视频内容的重放期间,检测第一用户112的情绪状态从中性到其他高峰情绪(比如悲伤、愤怒、蔑视、害怕、惊讶、困惑、温柔)的不同变化(或转变)。例如,在第一视频内容的重放期间,在时间00:03:20”和“00:20:10”,可检测到从中性情绪状态到悲伤情绪状态的第一用户112的情绪状态的第三和第四变化。因而,可使在悲伤情绪状态的检测期间观看的第一视频内容的第三组图像帧和第四组图像帧与悲伤情绪状态关联。随后通过利用与悲伤情绪状态关联的第三组图像帧和第四组图像帧,视频处理器202可生成第三视频内容。按照一个实施例,可从第一视频内容,同时生成第二视频内容和第三视频内容。按照实施例,情绪分析器208可被配置成在视频处理设备102上的第一视频内容的重放期间,检测从一种高峰情绪到另一种高峰情绪(比如快乐到悲伤再到快乐)的第一用户112的情绪状态的不同变化(或转变)。例如,视频处理设备102可以是TV。第一用户112可能正在所述TV上观看板球比赛。在击球手把球高高地击打到空中的情况下,第一用户112可能认为该击球是“六分打”,不过很快看到球被外野手接住。在这种情形下,情绪分析器208可被配置成对于第一视频内容的单一场景,快速检测从一种高峰情绪到另一种高峰情绪(比如悲伤到快乐(在认为六分打之时)再到悲伤(在球被接住之时))的第一用户112的情绪状态的不同变化(或者转变)。
按照一个实施例,第一用户112和第二用户114可能同时在视频处理设备102上,观看第一视频内容。在这样的实施例中,情绪分析器208可被配置成同时监视第一用户112和第二用户114的情绪。除了第一用户112以外,情绪分析器208还可被配置成检测在视频处理设备102上观看第一视频内容的第二用户114的情绪状态的变化。响应检测到的第二用户114的变化的情绪状态,视频处理器202还可使在检测到的第二用户114的情绪状态的变化期间观看的第一视频内容的其他一组或多组图像帧,与第二用户114的变化的情绪状态关联。视频处理器202可被配置成根据检测到的第一用户112以及第二用户114的变化的情绪状态,同时生成第二视频内容和另一个视频。或者说,情绪分析器208可被配置成同时监视多个用户(比如第一用户112和第二用户114)的情绪。因而,在多个用户观看第一视频内容(比如电视(TV)节目)的时候,可以自动生成多个不同的情绪高潮部分。所述多个不同的情绪视频高潮部分可对应于不同的视频,其中每个视频包含与检测到的多个用户中的每个用户的特定情绪状态关联的多组图像帧。例如,三个用户,John、Jack和Jim可能在观看TV节目。情绪分析器208可检测到在观看TV节目期间,John变得兴奋和悲伤的瞬间。从而,可生成两个情绪视频高潮部分,悲伤视频高潮部分和兴奋视频高潮部分。悲伤视频高潮部分可包含用检测到的John的悲伤情绪状态标记的所有各组图像帧。兴奋视频高潮部分包含用检测到的John的兴奋情绪状态标记的所有各组图像帧。TV节目的其他图像帧可从生成的情绪视频高潮部分中被过滤排除。类似地,在观看TV节目之时,Jack和Jim会在某些瞬间变得兴奋和/或悲伤。情绪状态的变化会因每个个体而异,一个用户在观看视频内容的特定场景时不会变得兴奋,而另一个用户在观看相同场景时则会变得兴奋。从而,类似于对于John,根据情绪状态转变检测所生成的两个情绪视频高潮部分,对于Jack和Jim,可以生成不同的情绪视频高潮部分。
按照一个实施例,在多个用户观看第一视频内容(比如电视(TV)节目)的时候,可同时生成多个不同的情绪高潮部分。在显示主TV节目的时候,可在TV上同时重放所述多个不同的情绪高潮部分。可利用各种显示机制,比如用于所有用户的画中画窗口,在TV显示屏幕的一部分重放所述多个不同的情绪高潮部分,而在TV屏幕的其他部分播放主TV节目。在这种情况下,视频处理设备102可以是TV本身,或者可以与TV一体化。按照一个实施例,可能理想的是对于特定情绪,比如John、Jack和Jim的兴奋情绪状态,生成多个用户的组合情绪视频高潮部分。因而,视频处理器202可生成并显示单一的组合兴奋视频高潮部分,所述单一的组合兴奋视频高潮部分可包含用检测到的John、Jack和Jim的兴奋情绪状态标记的所有各组图像帧。换句话说,可在TV上,重放对各个用户来说的所有兴奋瞬间。显然,情绪视频高潮部分的显示顺序(比如悲伤视频高潮部分,继之以快乐情绪高潮部分,随后是兴奋情绪高潮部分)可以是可配置的,可由用户随意设定。此外,通过利用应用界面118,也可配置只显示在观看TV节目的时候,特定用户(比如John)或者所有多个用户(比如John、Jack和Jim)的特定情绪视频高潮部分,比如所有的快乐瞬间。按照一个实施例,当在视频处理设备102(比如TV上)重放生成的情绪视频高潮部分之时,还可显示检测到的用户的情绪状态、检测到的用户的情绪状态的级别和/或用户的用户名或缩略图。
按照一个实施例,可根据选择的模式,控制生成的情绪视频高潮部分(比如第二视频内容)的重放。用户(比如第一用户112)可利用呈现在视频处理设备102的显示屏幕116上的应用界面118,从多种模式中,选择特定模式。所述多种模式可包括运动模式、正常或默认模式、心情模式、或者组合心情模式。运动模式可指的是与情绪状态的转变的变化的检测相关的配置设置,其中与其他模式(比如正常模式或心情模式)相比,用于情绪状态的检测的阈值可被改变。在运动模式下,情绪分析器208可被配置成相应地调整各个人类生理参数的基准水平,以监视第一用户112的情绪。在正常模式下,视频处理设备102可检测和处理所有的多个情绪状态110。在选择心情模式的情况下,视频处理设备102可监视和检测特定的情绪状态,比如快乐情绪状态及其关联级别,从而生成选择的特定心情的独有情绪视频高潮部分。心情模式对应于多个情绪状态110之一。组合心情模式可用于选择多个情绪状态110中的将利用视频处理设备102检测和处理的两个或更多个情绪状态。
按照一个实施例,可关于情绪状态的转变的监视和检测,为已知用户,比如所述多个用户,定义优先级列表。例如,所述多个用户可能在观看TV。在优先级列表中,所述多个用户中的一个用户可被定义为高优先级用户。在这种情况下,情绪分析器208可动态切换所述多个用户之中的特定用户的情绪状态的变化的检测,如果根据优先级列表,该用户被识别为高优先级用户的话。
按照一个实施例,用户(比如第一用户112)可能未观看视频,比如第一视频内容,但是可能包含在利用外部摄像头捕捉的视频中,或者是实时视频拍摄的一部分。在这种情况下,利用在视频拍摄期间,该用户穿戴的一个或多个可穿戴设备120,可检测该用户的情绪状态,及情绪状态的变化。视频处理器202可接收来自外部摄像头的记录视频,和来自所述一个或多个可穿戴设备120的与用户的情绪状态的变化相关的信息。根据来自所述一个或多个可穿戴设备120的信息,视频处理器202可被配置成使接收的记录视频的一组或多组图像帧与不同的变化情绪状态关联。随后,可按照与关于从第一视频内容生成第二视频内容所述的相似方式,生成一个或多个情绪视频高潮部分。
按照一个实施例,一个或多个用户可带着根据情绪状态检测编辑多个视频内容项的意图,在视频处理设备102上观看所述多个视频内容项。在这样的实施例中,视频处理器202可被配置成根据检测的一个或多个用户(比如第一用户112)的情绪状态的变化,组合从多个视频内容项中的每一个中选择的一组或多组图像帧,从而生成单一视频内容。
按照一个实施例,如图1中所述的视频处理设备102进行的功能或操作可由视频处理器202和/或情绪分析器208进行。根据图3和4中的说明,可以理解视频处理器202和/或情绪分析器208进行的其他操作。
图3按照本公开的一个实施例,图解说明公开的根据情绪状态检测,处理视频的系统和方法的实现的例证情形。图3是结合图1和2的要素说明的。参见图3,图中表示了在应用界面118上播放的第一视频302、第一视频302的多个片段302a-302e和一个或多个视频高潮部分304-308。图中还表示了内置于视频处理设备102(图1)中的图像捕捉单元108。
按照所述例证情形,在视频处理设备102上观看第一视频302的时候,第一用户112可能想要编辑第一视频302。多个情绪状态110可被赋予数值。中性、悲伤和快乐情绪状态可分别被赋予“0”、“1”和“2”的数值。多个情绪状态110中的每一个可进一步被细分成多个级别,比如1.1,1.2,1.3,…,1.9可表示悲伤的程度(或级别),其中1.1可表示悲伤的最低级别,而按照顺序,1.9可表示悲伤的最高级别。类似地,2.1可表示快乐的最低级别,而按照顺序,2.9可表示快乐的最高级别。按照一个实施例,“*.1”~“*.4”的级别分数可被归入情绪状态的“1级”(低级别)。类似地,“*.5”~“*.7”的级别分数可被归入情绪状态的“2级”(中等级别)。最后,“*.8”~“*.9”的级别分数可被归入情绪状态的“3级”。例如,“2.1至2.4”、2.5至2.7”和“2.8至2.9”的范围可指示快乐的低级别、中等级别和高级别。类似地,对于其他情绪类别,可以定义低、中等和高级别范围。
按照一个实施例,在第一视频302的重放时间“00:05:05”,情绪分析器208可被配置成检测到在视频处理设备102上观看第一视频302的第一用户112的情绪状态的变化。情绪状态的变化可对应于从第一情绪状态(比如中性“0”)到第二情绪状态(比如快乐“2”)的转变。可以使第一视频302的可从时间戳“00:05:00”开始,到“00:05:10”,并且可包含连续的“300”个图像帧的第一片段302a与可表示检测到的快乐情绪状态的数值“2”关联。此外,情绪分析器208可被配置成确定变化的情绪状态(比如第一用户112的快乐情绪状态)的“2.8”的级别。级别“2.8”可指示“3级”快乐。
在第一视频302的重放时间“00:10:23”,情绪分析器208可被配置成检测到观看第一视频302的第一用户112的从中性“0”到快乐“2”情绪状态的第二转变。因而,可以使第一视频302的可从时间戳“00:10:20”开始,到“00:10:25”,并且可包含连续的“150”个图像帧的第二片段302b与可表示检测到的快乐情绪状态的数值“2”关联。此外,情绪分析器208可被配置成确定第一用户112的快乐情绪状态的“2.6”的级别。级别“2.6”可指示“2级”快乐,比如中等快乐。
此外,在第一视频302的重放时间“00:15:12”,情绪分析器208可被配置成检测到观看第一视频302的第一用户112的从中性“0”到悲伤“1”情绪状态的第三转变。因而,可以使第一视频302的可从时间戳“00:15:10”开始,到“00:15:13”(3秒片段),并且可包含连续的“150”个图像帧的第三片段302c与可表示检测到的悲伤情绪状态的数值“1”关联。此外,情绪分析器208可被配置成确定第一用户112的悲伤情绪状态的“2.5”的级别。级别“2.5”可指示“2级”悲伤,比如中等悲伤。类似地,可以使第一视频302的可从时间戳“00:18:10”开始,到“00:18:20”(10秒片段),并且可包含连续的“300”个图像帧的第四片段302d与可表示检测到的快乐情绪状态的数值“2”关联。可以确定可指示“3级”快乐(比如非常快乐)的“2.9”的级别。最后,可以使第一视频302的可从时间戳“00:55:00”开始,到“00:55:05”(5秒片段),并且可包含连续的“150”个图像帧的第五片段302e与可表示检测到的悲伤情绪状态的数值“1”关联。可以确定可指示“3级”悲伤(比如非常悲伤)的“2.9”的级别,并将其赋予第五片段302e的图像帧。
根据检测到的第一用户112的情绪状态的变化,视频处理器202可被配置成选择第一片段302a、第二片段302b和第四片段302d,以生成第一视频高潮部分304。第一视频高潮部分302可以是快乐情绪高潮部分,而与确定的级别无关。或者,根据检测到的第一用户112的情绪状态的变化和确定的级别,视频处理器202可被配置成选择第一片段302a和第四片段302d,以生成第二视频高潮部分306。第二视频高潮部分306可包含自动从第一视频302编辑的快乐情绪状态的“3级”情绪高潮部分。
按照一个实施例,视频处理器202可被配置成选择第三片段302c和第五片段302e,以生成第三视频高潮部分308。第三视频高潮部分308可以是从第一视频302动态编辑的悲伤情绪高潮部分。从而,根据人类情绪检测,可按为消费应用作准备的快速、定性并且高效的方式,自动编辑第一视频302。
图4A和4B按照本公开的一个实施例,共同图解说明根据情绪状态检测,处理视频的例证方法的实现的流程图。参见图4A和4B,图中表示了流程图400。流程图400是结合图1、2和3的要素说明的。按照流程图400,可在视频处理设备102中实现所述方法。所述方法始于步骤402,然后进入步骤404。
在步骤404,视频处理设备102可接收一个或多个视频内容。可通过通信网络106,从服务器104接收所述一个或多个视频内容。按照一个实施例,所述一个或多个视频内容可通过有线或无线通信介质,接收自外部设备,比如外部存储设备。在步骤406,可在视频处理设备102处至少呈现接收的一个或多个视频内容中的第一视频内容。可通过应用界面118,呈现第一视频内容。按照一个实施例,可根据从用户(比如第一用户112)接收的输入,呈现第一视频。或者,视频处理设备102可包括按用户定义的顺序,处理一个或多个视频内容的一个或多个预先配置的设置。
在步骤408,可利用图像捕捉单元108,捕捉可能在视频处理设备102上观看第一视频内容的第一用户112的一个或多个图像或视频。在步骤410,视频处理设备102可接收来自与第一用户112关联的一个或多个可穿戴设备120的传感器数据。
在步骤412,视频处理设备102可不断监视观看第一视频内容的第一用户112的情绪。根据捕捉的第一用户112的一个或多个图像或视频和/或接收的传感器数据的分析,可监视所述情绪。在步骤414,可检测在视频处理设备102上观看第一视频内容的第一用户112的情绪状态的变化。情绪状态的变化可对应于从第一用户112的多个情绪状态110中的第一情绪状态(比如中性)到第二情绪状态(比如快乐)的转变。
在步骤416,可以确定与在视频处理设备102上观看第一视频内容期间,第一用户112的变化的情绪状态关联的级别。确定的级别可对应于检测到的变化的情绪状态的程度。在步骤418,可使第一视频内容的一组或多组图像帧与变化的情绪状态(比如快乐情绪状态)关联。所述关联可在视频处理设备102上观看第一视频内容的时候,在一个或多个时间,检测到的第一用户112的情绪状态的变化(或转变)期间发生。
在步骤420,可以选择与变化的情绪状态(比如第二情绪状态)关联的第一视频内容的一组或多组图像帧。图3中表示了所述一组或多组图像帧的选择的例子。在步骤422,第一视频内容的可能不与多个情绪状态110中的至少一个关联的图像帧可被过滤。与中性情绪状态关联的图像帧也可被滤出。
在步骤424,可以接合选择的与变化的情绪状态关联的一组或多组图像帧。可按照选择的一组或多组图像帧的重放时间,按预定顺序接合所述选择的一组或多组图像帧。在步骤426,可以生成可包含选择的与变化的情绪状态关联的一组或多组图像帧的第二视频内容。生成的第二视频内容可对应于根据检测到的第一用户112的情绪状态的变化,从第一视频内容动态生成的情绪高潮部分,比如快乐或悲伤情绪高潮部分。控制随后可转到结束步骤428。或者,按照一个实施例,可根据第一用户112的多个不同情绪状态的检测,从第一视频内容同时生成多个视频内容项。
按照本公开的一个实施例,公开一种根据情绪状态检测,处理视频内容的系统。所述系统(比如视频处理设备102(图1)可包括一个或多个电路(下面称为视频处理器202和/或情绪分析器208(图2))。情绪分析器208可被配置成检测在视频处理设备102上观看第一视频内容的第一用户112的情绪状态的变化。视频处理器202可被配置成使在一个或多个时间,检测到的第一用户112的情绪状态的变化期间观看的第一视频内容的一组或多组图像帧与变化的情绪状态关联。视频处理器202还可被配置成根据检测到的第一用户的情绪状态的变化,利用关联的第一视频内容的一组或多组图像帧,生成第二视频内容。
本公开的各个实施例可提供具有保存于其上的机器代码,和/或可由机器和/或计算机执行以根据情绪状态检测来处理视频内容的一组指令的非临时性计算机可读介质和/或存储介质,和/或非临时性机器可读介质和/或存储介质。视频处理设备102中的一组指令可使机器和/或计算机执行包含检测在视频处理设备102上观看第一视频内容的第一用户112的情绪状态的变化在内的多个步骤。可使在一个或多个时间,检测到的第一用户112的情绪状态的变化期间观看的第一视频内容的一组或多组图像帧与变化的情绪状态关联。根据检测到的第一用户的情绪状态的变化,利用关联的第一视频内容的一组或多组图像帧,可生成第二视频内容。
本公开可以用硬件,或者硬件和软件的组合实现。本公开可以集中地在至少一个计算机系统中,或者分布地实现,在分布实现的情况下,不同的要素可散布在几个互连的计算机系统中。适宜于执行记载在本文中的方法的计算机系统或其他设备可以是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统,当被加载和执行时,所述计算机程序可控制所述计算机系统,以致所述计算机系统执行记载在本文中的方法。本公开可以用包含还完成其他功能的集成电路的一部分的硬件实现。
本公开也可被嵌入计算机程序产品中,所述计算机程序产品包含使记载在本文中的方法的实现成为可能的所有特征,并且当被载入计算机系统中时,能够执行这些方法。在本上下文中,计算机程序意味一组指令的采用任何语言、代码或符号的任意表达,所述一组指令用来直接或者在a)变换成另一种语言、代码或符号;和/或b)用不同的材料形式再现之后,使具有信息处理能力的系统完成特定功能。
尽管参考一些实施例,说明了本公开,不过,本领域的技术人员明白可以作出各种改变,可以置换各种等同物,而不脱离本公开的范围。另外,可以作出许多修改,以使特定状况或材料适应于本公开的教导,而不脱离本公开的范围。于是,本公开不限于公开的特定实施例,相反,本公开将包含落在附加权利要求书的范围内的所有实施例。

Claims (20)

1.一种处理视频内容的系统,所述系统包括:
视频处理设备中的一个或多个电路,所述一个或多个电路被配置成:
检测在所述视频处理设备上观看第一视频内容的第一用户的情绪状态的变化;
使在所述检测到的所述第一用户的所述情绪状态的变化期间观看的所述第一视频内容的一组或多组图像帧与所述变化的情绪状态关联;以及
根据所述检测到的所述第一用户的所述情绪状态的变化,利用所述第一视频内容的所述关联的一组或多组图像帧,生成第二视频内容。
2.按照权利要求1所述的系统,其中所述情绪状态对应于下述之一:中性、快乐、悲伤、愤怒、蔑视、害怕、惊讶、困惑和/或温柔。
3.按照权利要求1所述的系统,其中所述一个或多个电路被配置成为了所述关联,在所述视频处理设备上的所述第一视频内容的所述观看期间,确定与所述第一用户的所述变化的情绪状态关联的级别。
4.按照权利要求1所述的系统,其中所述一个或多个电路还被配置成根据下述中的一个或多个,监视观看所述第一视频内容的所述第一用户的多个情绪状态:利用通信耦接到所述视频处理设备的图像捕捉设备捕捉的所述第一用户的一个或多个图像或视频,和/或从与所述第一用户关联的一个或多个可穿戴设备接收的传感器数据。
5.按照权利要求1所述的系统,其中所述一个或多个电路还被配置成为了所述第二视频内容的所述生成,选择与所述变化的情绪状态关联的所述第一视频内容的所述一组或多组图像帧。
6.按照权利要求1所述的系统,其中所述一个或多个电路还被配置成根据所述第一用户的多个不同情绪状态的检测,从所述第一视频内容同时生成多个视频内容项。
7.按照权利要求1所述的系统,其中所述一个或多个电路还被配置成检测在所述视频处理设备上观看所述第一视频内容的第二用户的情绪状态的变化,其中所述第二用户的所述情绪状态的所述变化是与所述第一用户的所述情绪状态的所述变化的所述检测同时检测的。
8.按照权利要求7所述的系统,其中所述一个或多个电路还被配置成使在一个或多个其他时间,所述检测到的所述第二用户的所述情绪状态的变化期间观看的所述第一视频内容的其他一组或多组图像帧,与所述第二用户的所述变化的情绪状态关联。
9.按照权利要求8所述的系统,其中所述一个或多个电路还被配置成根据所述检测到的所述第一用户和所述第二用户的所述情绪状态的变化,同时生成所述第二视频内容和第三视频内容,其中利用所述第一视频内容的所述关联的其他一组或多组图像帧,生成所述第三视频内容。
10.按照权利要求1所述的系统,其中所述一个或多个电路被配置成根据所述检测到的所述第一用户的所述情绪状态的变化,自动编辑所述第一视频内容。
11.按照权利要求1所述的系统,其中所述生成的第二视频内容对应于根据所述检测到的所述第一用户的所述情绪状态的变化从所述第一视频内容自动生成的情绪视频高潮部分。
12.按照权利要求1所述的系统,其中所述一个或多个电路被配置成根据所述检测到的所述第一用户的所述情绪状态的变化,组合从在所述视频处理设备上观看的多个视频内容项中的每一个选择的一组或多组视频帧,从而生成单一视频内容。
13.一种处理视频内容的方法,所述方法包括:
利用视频处理设备中的一个或多个电路,检测在所述视频处理设备上观看第一视频内容的第一用户的情绪状态的变化;
利用所述一个或多个电路,使在所述检测到的所述第一用户的所述情绪状态的变化期间观看的所述第一视频内容的一组或多组图像帧与所述变化的情绪状态关联;以及
利用所述一个或多个电路,根据所述检测到的所述第一用户的所述情绪状态的变化,利用所述第一视频内容的所述关联的一组或多组图像帧生成第二视频内容。
14.按照权利要求13所述的方法,其中所述情绪状态对应于下述之一:中性、快乐、悲伤、愤怒、蔑视、害怕、惊讶、困惑和/或温柔。
15.按照权利要求13所述的方法,还包括利用所述一个或多个电路,为了所述关联,在所述视频处理设备上的所述第一视频内容的所述观看期间,确定与所述第一用户的所述变化的情绪状态关联的级别。
16.按照权利要求13所述的方法,还包括利用所述一个或多个电路,根据下述中的一个或多个监视观看所述第一视频内容的所述第一用户的多个情绪状态:利用通信耦接到所述视频处理设备的图像捕捉设备捕捉的所述第一用户的一个或多个图像或视频,和/或从与所述第一用户关联的一个或多个可穿戴设备接收的传感器数据。
17.按照权利要求13所述的方法,还包括利用所述一个或多个电路,为了所述第二视频内容的所述生成,选择与所述变化的情绪状态关联的所述第一视频内容的所述一组或多组图像帧。
18.按照权利要求13所述的方法,还包括利用所述一个或多个电路,根据所述检测到的所述第一用户的所述情绪状态的变化以及所述关联,自动编辑所述第一视频内容。
19.按照权利要求13所述的方法,其中所述生成的第二视频内容对应于根据所述检测到的所述第一用户的所述情绪状态的变化从所述第一视频内容自动生成的情绪视频高潮部分。
20.按照权利要求13所述的方法,还包括利用所述一个或多个电路,根据所述第一用户的多个不同情绪状态的检测从所述第一视频内容同时生成多个视频内容项。
CN201710788129.7A 2016-09-09 2017-09-05 根据情绪状态检测处理视频内容的系统和方法 Active CN107809673B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/260,637 US10529379B2 (en) 2016-09-09 2016-09-09 System and method for processing video content based on emotional state detection
US15/260,637 2016-09-09

Publications (2)

Publication Number Publication Date
CN107809673A true CN107809673A (zh) 2018-03-16
CN107809673B CN107809673B (zh) 2021-08-06

Family

ID=59968913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710788129.7A Active CN107809673B (zh) 2016-09-09 2017-09-05 根据情绪状态检测处理视频内容的系统和方法

Country Status (5)

Country Link
US (1) US10529379B2 (zh)
EP (1) EP3293900A1 (zh)
JP (1) JP2018042240A (zh)
KR (1) KR101944630B1 (zh)
CN (1) CN107809673B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819325A (zh) * 2019-01-11 2019-05-28 平安科技(深圳)有限公司 热点视频标注处理方法、装置、计算机设备及存储介质
CN111586493A (zh) * 2020-06-01 2020-08-25 联想(北京)有限公司 一种多媒体文件的播放方法及装置
WO2022048347A1 (zh) * 2020-09-02 2022-03-10 华为技术有限公司 一种视频编辑方法及设备

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10567844B2 (en) * 2017-02-24 2020-02-18 Facebook, Inc. Camera with reaction integration
US10636449B2 (en) * 2017-11-06 2020-04-28 International Business Machines Corporation Dynamic generation of videos based on emotion and sentiment recognition
US11249945B2 (en) * 2017-12-14 2022-02-15 International Business Machines Corporation Cognitive data descriptors
US10237615B1 (en) * 2018-02-15 2019-03-19 Teatime Games, Inc. Generating highlight videos in an online game from user expressions
CA3038324A1 (en) * 2018-03-28 2019-09-28 Rovi Guides, Inc. Systems and methods for automatically identifying a user preference for a participant from a competition event
US10622007B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10566010B2 (en) * 2018-04-20 2020-02-18 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
DE102018210973A1 (de) * 2018-07-04 2020-01-09 Siemens Healthcare Gmbh Verfahren zu einem Überwachen eines Patienten während einer medizinischen Bildgebungsuntersuchung, insbesondere einer Magnetresonanzuntersuchung
CN109005464A (zh) * 2018-08-28 2018-12-14 深圳市有钱科技有限公司 视频播放方法、存储介质及计算机设备
KR102168968B1 (ko) * 2019-01-28 2020-10-22 주식회사 룩시드랩스 생체 데이터를 이용한 하이라이트 영상 생성 방법 및 그 장치
KR102335968B1 (ko) * 2019-05-31 2021-12-06 이화여자대학교 산학협력단 디지털 콘텐츠를 소비하는 소비자의 상태 진단 방법 및 장치
KR20220006926A (ko) * 2020-07-09 2022-01-18 삼성전자주식회사 요약 비디오를 생성하는 디바이스 및 방법
WO2022059818A1 (ko) * 2020-09-18 2022-03-24 주식회사 사이 동영상 검색에서 크라우드 메타 정보들의 서사 구성 방법
JP2022054821A (ja) * 2020-09-28 2022-04-07 マツダ株式会社 動画編集装置
US11895368B2 (en) * 2022-03-04 2024-02-06 Humane, Inc. Generating, storing, and presenting content based on a memory metric
CN115761569B (zh) * 2022-10-20 2023-07-04 之江实验室 一种基于情感分类的视频情感定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1582965A1 (en) * 2004-04-01 2005-10-05 Sony Deutschland Gmbh Emotion controlled system for processing multimedia data
CN103609128A (zh) * 2011-06-17 2014-02-26 微软公司 基于环境传感的视频精彩片段标识
US20150067708A1 (en) * 2013-08-30 2015-03-05 United Video Properties, Inc. Systems and methods for generating media asset representations based on user emotional responses
US20150089520A1 (en) * 2012-10-12 2015-03-26 Google Inc. Unsupervised content replay in live video
CN105898567A (zh) * 2015-12-08 2016-08-24 乐视移动智能信息技术(北京)有限公司 基于用户情绪的节目播放方法和系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005015902A1 (ja) * 2003-08-06 2006-10-12 松下電器産業株式会社 番組推薦装置
JP2005128884A (ja) 2003-10-24 2005-05-19 Sony Corp 情報コンテンツの編集装置及び編集方法
US8593672B2 (en) * 2009-05-01 2013-11-26 Konica Minolta Business Technologies, Inc. Information equipment apparatus
US8326002B2 (en) 2009-08-13 2012-12-04 Sensory Logic, Inc. Methods of facial coding scoring for optimally identifying consumers' responses to arrive at effective, incisive, actionable conclusions
US8640021B2 (en) 2010-11-12 2014-01-28 Microsoft Corporation Audience-based presentation and customization of content
JP2012169743A (ja) 2011-02-10 2012-09-06 Jvc Kenwood Corp 情報処理装置及び情報処理方法
US20160241533A1 (en) * 2011-11-07 2016-08-18 Anurag Bist System and Method for Granular Tagging and Searching Multimedia Content Based on User's Reaction
US20130159228A1 (en) 2011-12-16 2013-06-20 Microsoft Corporation Dynamic user experience adaptation and services provisioning
KR20140094336A (ko) 2013-01-22 2014-07-30 삼성전자주식회사 사용자 감정 추출이 가능한 전자기기 및 전자기기의 사용자 감정 추출방법
JP6289107B2 (ja) 2014-01-14 2018-03-07 キヤノン株式会社 画像再生装置、その制御方法、および制御プログラム
US20150243325A1 (en) * 2014-02-24 2015-08-27 Lyve Minds, Inc. Automatic generation of compilation videos
US20150257706A1 (en) 2014-03-17 2015-09-17 Htc Corporation Portable electronic device and method for physiological measurement
KR20160065670A (ko) 2014-12-01 2016-06-09 삼성전자주식회사 컨텐트를 제공하는 방법 및 디바이스
US10154191B2 (en) * 2016-05-18 2018-12-11 Microsoft Technology Licensing, Llc Emotional/cognitive state-triggered recording
US20180041552A1 (en) * 2016-08-02 2018-02-08 Facebook, Inc. Systems and methods for shared broadcasting

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1582965A1 (en) * 2004-04-01 2005-10-05 Sony Deutschland Gmbh Emotion controlled system for processing multimedia data
CN103609128A (zh) * 2011-06-17 2014-02-26 微软公司 基于环境传感的视频精彩片段标识
US20150089520A1 (en) * 2012-10-12 2015-03-26 Google Inc. Unsupervised content replay in live video
US20150067708A1 (en) * 2013-08-30 2015-03-05 United Video Properties, Inc. Systems and methods for generating media asset representations based on user emotional responses
CN105898567A (zh) * 2015-12-08 2016-08-24 乐视移动智能信息技术(北京)有限公司 基于用户情绪的节目播放方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819325A (zh) * 2019-01-11 2019-05-28 平安科技(深圳)有限公司 热点视频标注处理方法、装置、计算机设备及存储介质
WO2020143156A1 (zh) * 2019-01-11 2020-07-16 平安科技(深圳)有限公司 热点视频标注处理方法、装置、计算机设备及存储介质
CN109819325B (zh) * 2019-01-11 2021-08-20 平安科技(深圳)有限公司 热点视频标注处理方法、装置、计算机设备及存储介质
CN111586493A (zh) * 2020-06-01 2020-08-25 联想(北京)有限公司 一种多媒体文件的播放方法及装置
WO2022048347A1 (zh) * 2020-09-02 2022-03-10 华为技术有限公司 一种视频编辑方法及设备
CN114205534A (zh) * 2020-09-02 2022-03-18 华为技术有限公司 一种视频编辑方法及设备

Also Published As

Publication number Publication date
EP3293900A1 (en) 2018-03-14
JP2018042240A (ja) 2018-03-15
KR101944630B1 (ko) 2019-01-31
KR20180028931A (ko) 2018-03-19
CN107809673B (zh) 2021-08-06
US10529379B2 (en) 2020-01-07
US20180075876A1 (en) 2018-03-15

Similar Documents

Publication Publication Date Title
CN107809673A (zh) 根据情绪状态检测处理视频内容的系统和方法
CN107807947B (zh) 基于情绪状态检测在电子设备上提供推荐的系统和方法
US20210133800A1 (en) Generating interactive advertising with content collections
US9886454B2 (en) Image processing, method and electronic device for generating a highlight content
CN107997767A (zh) 用于识别用户活动的方法及其电子设备
US20210158389A1 (en) Interactive advertising with media collections
CN113520340A (zh) 一种睡眠报告的生成方法、装置、终端以及存储介质
CN109951595A (zh) 智能调节屏幕亮度的方法、装置、存储介质及移动终端
CN107666581A (zh) 提供视频内容的方法和支持该方法的电子装置
US11896872B2 (en) Automatic trimming and classification of activity data
US20170311861A1 (en) Mood-conscious interaction device and method
EP3104304A1 (en) Electronic apparatus and method of extracting still images
CN108024763A (zh) 活动信息提供方法及支持其的电子设备
CN108804546A (zh) 一种服饰搭配推荐方法及终端
CN114339375A (zh) 视频播放方法、生成视频目录的方法及相关产品
US11107568B2 (en) Versatile data structure for workout session templates and workout sessions
CN109843155A (zh) 用于提供血糖护理服务的电子装置和方法
CN108632450A (zh) 用于捕获内容的电子设备和方法
EP4262190A1 (en) Electronic apparatus and control method thereof
CN116563433A (zh) 一种元宇宙场景下的交互系统、方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant