CN116866663A - 图像预测处理方法、装置及存储介质 - Google Patents

图像预测处理方法、装置及存储介质 Download PDF

Info

Publication number
CN116866663A
CN116866663A CN202310943848.7A CN202310943848A CN116866663A CN 116866663 A CN116866663 A CN 116866663A CN 202310943848 A CN202310943848 A CN 202310943848A CN 116866663 A CN116866663 A CN 116866663A
Authority
CN
China
Prior art keywords
information
target
video
action
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310943848.7A
Other languages
English (en)
Inventor
林翘楚
李佳文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Migu Cultural Technology Co Ltd
China Mobile Communications Group Co Ltd
MIGU Video Technology Co Ltd
Original Assignee
Migu Cultural Technology Co Ltd
China Mobile Communications Group Co Ltd
MIGU Video Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Migu Cultural Technology Co Ltd, China Mobile Communications Group Co Ltd, MIGU Video Technology Co Ltd filed Critical Migu Cultural Technology Co Ltd
Priority to CN202310943848.7A priority Critical patent/CN116866663A/zh
Publication of CN116866663A publication Critical patent/CN116866663A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像预测处理方法、装置及存储介质,解决视频直播过程中用户关注度降低的问题。本发明的方法包括:获取当前直播视频已播内容的目标视频片段,其中,所述目标视频片段包括目标对象的面部图像;根据所述目标视频片段中的面部图像确定每个目标对象的情绪信息;根据所述情绪信息,预测所述每个目标对象的动作信息;根据所述动作信息,生成所述当前直播视频的预测信息。

Description

图像预测处理方法、装置及存储介质
技术领域
本发明实施例涉及图像处理技术领域,尤其是涉及一种图像预测处理方法、装置及存储介质。
背景技术
随着通信技术的发展,越来越多的视频客户端增添了视频直播功能,如新闻类、演艺类、体育赛事类的视频直播。
然而,目前的视频直播过程中,仅能够通过运营人员盯守比赛,更佳比赛实际情况,更新比赛进度、得分等信息,而最终比赛结果需要等比赛完全结束后才可获取,因此,对于某些关心比赛走势和比赛结果不关心比赛过程的用户来说,无法满足需求,并且可能会因为网络、终端设备的原因导致直播画面延迟播放,对比赛结果的公布造成延迟,降低用户的观看体验,导致用户流量的流失。
发明内容
本发明实施例提供一种图像预测处理方法、装置及存储介质,以解决视频直播过程中用户流失的问题。
为了解决上述问题,本发明是这样实现的:
第一方面,本发明的实施例提供了一种图像预测处理方法,包括:
获取当前直播视频已播内容的目标视频片段,其中,所述目标视频片段包括目标对象的面部图像;
根据所述目标视频片段中的面部图像确定每个目标对象的情绪信息;
根据所述情绪信息,预测所述每个目标对象的动作信息;
根据所述动作信息,生成所述当前直播视频的预测信息
第二方面,本发明的实施例提供了一种图像预测处理装置,包括:
第一获取模块,用于获取当前直播视频已播内容的目标视频片段,其中,所述目标视频片段包括目标对象的面部图像;
第一处理模块,用于根据所述目标视频片段中的面部图像确定每个目标对象的情绪信息;
第二处理模块,用于根据所述情绪信息,预测所述每个目标对象的动作信息;
第三处理模块,用于根据所述动作信息,生成所述当前直播视频的预测信息。
第三方面,本发明实施例提供了一种图像预测处理设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如前所述的图像预测处理方法中的步骤。
第四方面,本发明实施例提供了一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前所述的图像预测处理方法中的步骤。
本发明实施例的方法,能够针对当前直播视频的已播内容,获取其中包括目标对象的面部图像的目标视频片段;然后,根据所获取的目标视频片段确定每个目标对象的情绪信息;之后,再根据所确定的情绪信息预测每个目标对象的动作信息;从而根据该动作信息生成当前直播视频的预测信息,以便客户端播放直播视频,并展示该预测信息,来提升用户的关注度,增加用户粘性,避免用户流失。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1表示本发明实施例的图像预测处理方法的流程示意图;
图2表示本发明实施例的图像预测处理装置的结构示意图;
图3表示本发明实施例的图像预测处理设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。另外,本文中术语“系统”和“网络”在本文中常可互换使用。
如图1所示,本发明的实施例提供了一种图像预测处理方法,具体包括以下步骤:
步骤101,获取当前直播视频已播内容的目标视频片段,其中,所述目标视频片段包括目标对象的面部图像;
步骤102,根据所述目标视频片段中的面部图像确定每个目标对象的情绪信息;
步骤103,根据所述情绪信息,预测所述每个目标对象的动作信息;
步骤104,根据所述动作信息,生成所述当前直播视频的预测信息。
如此,通过上述步骤,应用本发明实施例的图像预测处理方法的设备,如直播服务器,能够针对当前直播视频的已播内容,获取其中包括目标对象的面部图像的目标视频片段;然后,根据所获取的目标视频片段确定每个目标对象的情绪信息;之后,再根据所确定的情绪信息预测每个目标对象的动作信息;从而根据该动作信息生成当前直播视频的预测信息,以便客户端播放直播视频,并展示该预测信息,来提升用户的关注度,增加用户粘性,避免用户流失。
作为一种实施方式,本发明实施例的方法适用于体育赛事类的视频直播,在直播过程中,通过预测比赛并展示给用户,能够有效激发用户观看比赛的兴趣。而且,无需运营人员盯守比赛,降低了运营成本,提升了视频直播的智能化。
可选地,所述目标对象是针对当前直播视频预先配置的。例如,对于体育赛事类的直播视频,预先配置参加比赛的运动员作为目标对象。
可选地,所述目标视频片段是针对当前直播视频的已播内容,通过基于目标对象的人脸识别,识别出其中的面部图像(如人脸特写镜头)后,截取包括该面部图像的相关视频。
故,经步骤101,获取到每个目标对象的目标视频片段,每个目标对象的目标视频片段中包括一个或多个目标视频片段。
作为一种实施方式,人脸识别通过训练的人脸识别模型来完成。其中,人脸识别模型是利用目标对象的历史参赛数据(如以历史赛事视频为素材生成的一系列视频数据集)所得的历史赛事的视频训练集和视频测试集训练的。训练完成的人脸识别模型,能够快速识别目标对象的面部镜头片段。具体的,利用历史赛事视频为素材生成的一系列视频数据集,在截取服务中经过人脸识别和截图程序,将历史赛事视频中运动员的面部信息转换成一系列视频片段,进一步交给视频预处理服务器去处理成统一长宽比的运动员面部彩色图像序列,将多个赛事进行时段运动员的面部信息的彩色图像打上标签,形成历史赛事的视频训练集和视频测试集。
作为一种实施方式,若截取到的视频片段超过一定时长(如10秒),则需要将其分为多个片段,每个片段为一个目标视频片段。比如截取的21秒的视频片段,可分为10秒、10秒和1秒的3个片段。当然,截取到的视频片段中,还可以去除其中时长过短的片段,如小于0.5秒的过短片段。
另外,考虑到运动员出现情绪的时间点(距离本算法运行时的时间差)对该情绪对后续比赛进程影响的估算影响很大,故,可选地,该实施例中,对于获取的目标视频片段,还可以记录该目标视频片段的时间信息。具体的,该时间信息包括时间戳。当然,该时间信息还可以包括片段时长等。
作为一种实施方式,时间戳是目标视频片段开始和结束的正中间的时间点距离直播开始过去的毫秒数。
可选地,所述根据所述目标视频片段确定每个目标对象的情绪信息,包括:
基于第一对象确定第一视频片段,其中,所述第一对象为所述目标对象中的任一对象,所述第一视频片段是所述目标视频片段中包括所述第一对象的面部图像的视频片段;
获取所述第一对象的情绪状态,以及所述第一视频片段的时间信息和可信度;其中,所述可信度表明所述第一视频片段对预测的重要程度;
基于所述时间信息、所述可信度和所述情绪状态,生成所述第一对象的所述情绪信息。
如此,对于所述目标对象中的任一对象,均能够按照上述步骤执行,得到每个目标对象的情绪信息。
其中,确定的第一视频片段,即针对第一对象,在目标视频片段中提取包括该第一对象的面部图像的视频片段。
以当前直播视频为篮球比赛为例,基于第一对象确定第一视频片段,可以是在已获取的两队运动员的目标视频片段中,提取出包括某个运动员的面部图像的视频片段。
可选地,所述可信度是通过所述第一视频片段的时长确定的;
所述情绪状态包括不同情绪标签值。
其中,可以预先设置不同情绪标签,而对于某个对象,其情绪状态则可以是根据该情绪标签的类别以及该对象的不同表情,为包含其面部图像的视频片段分别标注相应的标签值。
作为一种实施方式,获取第一对象的情绪状态可通过训练的情绪识别模型来完成。类似于人脸识别模型,情绪识别模型也可以利用目标对象的历史参赛数据来构建。训练完成的情绪识别模型,能够根据包括面部图像的视频片段快速识别运动员的情绪状态,给出各个情绪标签的值(取值为0~1)。
作为一种实施方式,情绪标签包括高兴、难受、愤怒、无奈、认真等。
作为一种实施方式,第一视频片段的时间信息是第一视频片段的时间戳。
作为一种实施方式,考虑到镜头捕获到的运动员面部特写的视频片段越长,相关的视频片段的分析结果越可靠,第一视频片段的可信度也可理解为该第一视频片段的片段权重或时长权重,可信度的计算采用如下公式:
其中,t表示视频片段的长度,单位是5秒,Wt是可信度。比如1秒的视频片段,可信度为tanh(0.2)=0.1974;10秒的视频片段,可信度为tanh(2)=0.964。当然,t的单位也可以设为其它。
可选地,该实施例中,由于第一对象的第一视频片段可以是一个或多个,第一对象的情绪信息即可以表现为包括每个第一视频片段的信息的情绪序列,且情绪序列中,每个第一视频片段的信息按时间戳顺序保存,并随着直播时长增长。例如,如下表1所示,为对象A的情绪信息:
表1
时间信息 高兴 难受 愤怒 无奈 认真 可信度
212000 0.32 0.12 0.55 0.13 0.80 0.733
244000 0.87 0.02 0.12 0.01 0.22 0.380
305000 0.07 0.33 0.76 0.22 0.15 0.455
…… …… …… …… …… …… ……
在表1中,每一行即该对象A的一个视频片段的信息,以第一行为例,包括对应视频片段的时间信息、情绪状态和可信度。
在确定每个目标对象的情绪信息之后,如上所述,既能够预测每个目标对象的动作信息。
可选地,该实施例中,所述根据所述情绪信息,预测所述每个目标对象的动作信息,包括:
基于当前时间和第二对象,获取第一时长内所述第二对象的目标情绪信息,其中,所述第二对象为所述目标对象中的任一对象;
基于所述目标情绪信息中的时间信息,确定预测权重;
基于所述目标情绪信息中的情绪状态,预测第二视频片段的动作状态,其中,所述第二视频片段是所述目标视频片段中所述第二对象的视频片段;
基于所述预测权重、所述目标情绪信息中的可信度以及所述第二视频片段的动作状态,确定所述第二对象的动作信息。
如此,对于所述目标对象中的任一对象,均能够按照上述步骤执行,得到每个目标对象的动作信息。
作为一种实施方式,动作信息为当前时间之后的目标对象的动作。
其中,获取的目标情绪信息,即针对第二对象,在已获取的每个目标对象的情绪信息中,提取出该第二对象的情绪信息,即目标情绪信息。例如,基于情绪序列,获取当前时间之前特定时间(如10分钟)之内第二对象的情绪信息。
另外,由上述内容可知,情绪信息包括时间信息,故,在获取第二对象的目标情绪信息后,可直接由其中的时间信息进一步确定预测权重,该预测权重也可理解为时间权重。并且,由于情绪信息包括情绪状态,故,在获取第二对象的目标情绪信息后,可直接由其中的情绪状态,预测第二视频片段的动作状态。因此,进一步能够结合已确定的预测权重、目标情绪信息中的可信度、以及预测的第二视频片段的动作状态,确定所述第二对象的动作信息。
该实施例中,确定预测权重和预测第二视频片段的动作状态的执行不分先后。
可选地,所述基于所述目标情绪信息中的时间信息,确定预测权重,包括:
通过所述当前时间、预测参数和各个第二视频片段的时间信息,分别计算所述各个第二视频片段的所述预测权重。
作为一种实施方式,通过公式计算每个第二视频片段的预测权重Ws,其中,t0是当前时间,tx是第二视频片段的时间戳,c是预测参数,c的取值为固定值,可设置为60000。
可选地,所述基于所述目标情绪信息中的情绪状态,预测第二视频片段的动作状态,包括:
通过向预设模型输入所述目标情绪信息中的情绪状态,得到输出的所述第二视频片段的动作状态;
其中,所述预设模型是用于根据情绪状态预测所述目标对象中任一对象的动作状态的模型;所述动作状态包括不同动作标签值。
这里,预设模型是构建的用于针对情绪状态,预测目标对象的动作状态的模型。具体的,预先设定多个动作标签,则预设模型输出的是各个动作标签的动作标签值,也就是对应各个动作标签的打分。例如,多个动作标签包括进攻动作、防守动作、犯规概率、失误概率、出彩值。向预设模型输入运动员A的情绪状态后,该预设模型则会输出该远动员A对应进攻动作、防守动作、犯规概率、失误概率、出彩值的打分,即动作标签值。当然,动作标签不限于上述实现,在此不再一一列举。
故,在将各个第二对象的情绪状态输入该预测模型后,也就能够预测到每个目标对象的动作状态。
可选地,所述方法还包括:
获取所述目标对象的历史参赛数据;
根据所述历史参赛数据,确定每个目标对象的情绪状态,以及与所述情绪状态相关联的动作状态,并构成训练样本;
根据所述训练样本进行模型训练,得到所述预设模型。
即,基于目标对象的历史参赛数据所得的训练样本来构建预设模型,使得预设模型能够通过输入的情绪状态更为准确地预测其对应的动作状态。
该实施例中,历史参赛数据包括每场历史比赛的各种数据,如比赛阵容,最终比分,得分时间,每个运动员的得分P、抢断C、篮板B、失误M、犯规F的数量和时间点,控球率,命中率等。
作为一种实施方式,由历史参赛数据获得的训练样本中,动作状态的确定可以采用如下内容:
若动作标签包括出彩值,动作标签值中的出彩值u能够通过综合数据计算得到的,u∈(0,1):
若动作标签包括进攻动作,动作标签值中的进攻动作值(也称为进攻偏向)pa为:
若动作标签包括防守动作,动作标签值中的防守动作值(也称为防守反击偏向)pd为:
如此,针对历史参赛数据,将运动员的情绪状态按照时间排成序列,并按照上述方式统计每个情绪状态出现后一段时间(如5分钟)内运动员的动作状态,与情绪状态对应的时间关联,构成训练样本。然后以神经网络(如LSTM神经网络模型)为基础,训练能够准确预测目标对象的动作状态的预设模型,从而实现根据目标对象的情绪状态,预测其动作状态(如进攻动作、防守动作、犯规概率、失误概率、出彩值的分值,分值为0~1)。
例如,对于表1的对象A的情绪信息,每行中的情绪状态输入到预设模型后,由于每行对应一个视频片段,预设模型会输出针对该视频片段预测的动作状态。
作为一种实施方式,预设模型可以并列或者依次顺序预测每个目标对象的每个视频片段的动作状态。
作为一种实施方式,预设模型输出的动作状态是当前时间之后特定时间内的动作状态,特定时间是预先设定的。相应的,训练样本的构成,也会基于该特定时间进行。
而由于动作状态包括多个动作标签值,故该实施例中,第二对象的动作信息,还将基于所述预测权重、所述目标情绪信息中的可信度以及所述第二视频片段的动作状态确定。
作为一种实施方式,通过公式E=∑EiWi′,计算预测值E,由该预测值和不同动作标签的映射关系,确定第二对象的动作信息。其中,Ei是第二对象的第i个第二视频片段的动作状态,Wi′是第二对象的第i个第二视频片段的权重。其中,为保证动作信息的取值在0~1中,Wi′为Wi处理后的权重,Wi为第二对象的第i个第二视频片段综合预测权重和可信度计算的综合权重。一种Wi计算方式为:/>
可选地,该实施例中,所述根据所述动作信息,生成所述当前直播视频的预测信息,包括:
基于所述动作信息和特定策略,选取所述目标对象中的第三对象;
基于所述第三对象,生成所述当前直播视频的预测信息。
即,对于完成每个目标对象的动作信息预测后,能够基于特定策略选出第三对象,并针对该第三对象生成预测信息。其中,特定策略是预先设定的,包括一种或多种。
例如,在篮球比赛中,特定策略为选取即将投篮的运动员,则,基于每个目标对象的动作信息,选取预测的投篮运动员,生成的预测信息可以包括该投篮运动员的简介信息(如姓名、本场得分、投篮成功率)、特效指示信息等。如此,客户端能够基于预测信息,执行:弹窗显示投篮运动员将投篮;弹窗显示投篮运动员的简介信息;基于特效指示信息更换滤镜特效、添加辅助音效等等。
又如,在比赛中,特定策略为选取优秀运动员,则基于每个目标对象的动作信息,选取出彩值较高的运动员,生成的预测信息可以包括该运动员的简介信息(如姓名、本场得分、助攻次数)、特效指示信息等。如此,客户端能够基于预测信息,执行:弹窗显示优秀运动员排序(按出彩值由大到小);基于特效指示信息更换滤镜特效等等。
此外,考虑到团队参与的比赛,可选地,该实施例中,所述根据所述动作信息,生成所述当前直播视频的预测信息,包括:
获取每个团队中不同对象的位置权重;
基于所述动作信息和所述位置权重,确定每个团队的团队状态,其中,所述团队包括所述目标对象中的一个或多个对象;
基于所述每个团队的团队状态,生成所述当前直播视频的预测信息。
这里,位置权重表明团队比赛中不同角色身份(也可以理解为运动员职位)对比赛的影响程度。运动员职位对于不同类型比赛是不同的,例如,篮球比赛的运动员职位分为PF大前锋,SF小前锋,C中锋,PG控球后卫,SG得分后卫,而足球比赛、排球比赛等比赛也分别具有不同的运动员职位,在此不再一一列举。
也就是说,考虑到团队比赛中运动员处于不同位置对比赛的影响程度(即位置权重),会结合每个目标对象的动作信息和位置权重,确定每个团队的状态(团队状态),然后生成相应的预测信息。
可选地,所述获取每个团队中不同对象的位置权重,包括:
基于预先设置的不同角色身份的权重,针对每个团队中不同对象的角色身份,匹配所述位置权重。
即,对于每个团队的某个对象,会由该对象在团队中的角色身份,查询预先设置的不同角色身份的权重,来匹配其位置权重。
作为一种实施方式,不同角色身份在不同动作标签下的权重可以不同。例如,如表2所示,篮球比赛中不同角色身份在进攻动作、防守动作、出彩值下的区中不同:
表2
可选地,该实施例中,团队状态包括不同动作标签,如进攻动作、防守动作、犯规概率、失误概率、出彩值。
可选地,所述基于所述动作信息和所述位置权重,确定每个团队的团队状态,包括:
由第一团队中每个对象的位置权重,通过对所述每个对象的动作信息进行加权平均,得到所述第一团队的团队状态;所述第一团队是参赛团队(或队伍)的任一团队。
例如,若期望获取某个团队的团队状态为犯规概率时,团队犯规概率由该团队中每个对象的犯规概率加权取平均值;若期望获取某个团队的团队状态为失误概率时,团队失误概率由该团队中每个对象的失误概率加权取平均值。具体地,pt=1-Π(1-pn),pn为第n个对象的犯规概率或失误概率,pt为团队犯规概率或团队失误概率。
可选地,该实施例中,所述预测信息包括比赛结果预测图像;
所述基于所述每个团队的团队状态,生成所述当前直播视频的预测信息,包括:
基于所述每个团队的团队状态,计算得到比赛平衡信息;
基于比赛平衡信息调整预设图像的每个像素点的颜色值,得到所述比赛结果预测图像。
这里,预设图像是针对当前比赛设置的海报,例如参赛两队的主色调对比明显,宽高比略小于直播间下半部分的比例的主题海报。这样,基于直播视频的播放,通过预测的团队状态,计算得到像素点颜色值调整使用的比赛平衡信息,最终得到比赛结果预测图像,来直观表征预测的比赛结果。
假设,参赛团队为团队1和团队0,比赛平衡信息的计算基于两对的团队失误概率、团队出彩值,如比赛平衡信息u0是团队0的团队出彩值,p0是团队0的团队失误概率,u1是团队1的团队出彩值,p2是团队1的团队失误概率。B的范围在0~1,越靠近0,表示团队1胜利的概率越大。
该实施例中,每个像素点颜色包含r,g,b三个通道,像素点的颜色值包括每个通道的颜色值。因此,比赛结果预测图像的每个像素点的颜色值(又称为RGB值)记为C(x,y),包括r,g,b三个通道的颜色值,x,y是像素点的横纵坐标。每个通道的颜色值都需要使用以下公式处理:
其中,γ是参赛团队(团队1和团队0)的预设图像(如主题海报)互相重叠的占比,范围为0~1;
w0=Bw,w1=w-w0,wp=w0(1-γ);
C0(x,y)为团队0在主题海报相应位置像素点的颜色值,C1(x,y)为团队1在主题海报相应位置像素点的颜色值,w是直播间可使用位置(如直播间下半部分)的宽度,x0是固定展示部分(如x0=10%w)。
因此,主题海报作为直播间背景,会根据预测的比赛平衡信息进行渲染,胜利概率更大的团队会渲染更多,例如,B=0.2,γ=0.3,调整颜色值后,主题海报右队的渲染程度会大于左对的渲染程度。
当然,除生成比赛结果预测图像,由客户端展示预测结果之前,还可以由比赛平衡信息生成预测指示信息,由该预测指示信息指示客户端在视频流的边角为胜利概率更大的团队增加标记特效,或者,悬浮窗展示各个团队的团队状态和队员的动作信息,方便观众查看交流。
当然,目标对象的动作信息、团队的团队状态在客户端的体现不限于上述实施例中的实现方式,在此不再赘述。
综上,本发明的实施例的方法,能够识别直播视频中运动员情绪的关键帧(如利用卷积神经网络识别),根据表情推测运动员当时的情绪状态对比赛的影响,再结合长短期记忆网络来预测当前比赛接下来的走势,预测结果在展示给粉丝和观众,并可以根据此结果进一步修改直播间样式,甚至为直播流增加特效,可激发用户观看比赛的兴趣,增加用户粘性,同时可以吸引更多用户。
如图2所示,本发明的实施例还提供了一种图像预测处理装置200,包括:
第一获取模块210,用于获取当前直播视频已播内容的目标视频片段,其中,所述目标视频片段包括目标对象的面部图像;
第一处理模块220,用于根据所述目标视频片段中的面部图像确定每个目标对象的情绪信息;
第二处理模块230,用于根据所述情绪信息,预测所述每个目标对象的动作信息;
第三处理模块240,用于根据所述动作信息,生成所述当前直播视频的预测信息。
可选地,所述第一处理模块还用于:
基于第一对象确定第一视频片段,其中,所述第一对象为所述目标对象中的任一对象,所述第一视频片段是所述目标视频片段中包括所述第一对象的面部图像的视频片段;
获取所述第一对象的情绪状态,以及所述第一视频片段的时间信息和可信度;其中,所述可信度表明所述第一视频片段对预测的重要程度;
基于所述时间信息、所述可信度和所述情绪状态,生成所述第一对象的所述情绪信息。
可选地,所述可信度是通过所述第一视频片段的时长确定的;
所述情绪状态包括不同情绪标签值。
可选地,所述第二处理模块还用于:
基于当前时间和第二对象,获取第一时长内所述第二对象的目标情绪信息,其中,所述第二对象为所述目标对象中的任一对象;
基于所述目标情绪信息中的时间信息,确定预测权重;
基于所述目标情绪信息中的情绪状态,预测第二视频片段的动作状态,其中,所述第二视频片段是所述目标视频片段中所述第二对象的视频片段;
基于所述预测权重、所述目标情绪信息中的可信度以及所述第二视频片段的动作状态,确定所述第二对象的动作信息。
可选地,所述第二处理模块还用于:
通过所述当前时间、预测参数和各个第二视频片段的时间信息,分别计算所述各个第二视频片段的所述预测权重。
可选地,所述第二处理模块还用于:
通过向预设模型输入所述目标情绪信息中的情绪状态,得到输出的所述第二视频片段的动作状态;
其中,所述预设模型是用于根据情绪状态预测所述目标对象中任一对象的动作状态的模型;所述动作状态包括不同动作标签值。
可选地,所述装置还包括:
第二获取模块,用于获取所述目标对象的历史参赛数据;
第四处理模块,用于根据所述历史参赛数据,确定每个目标对象的情绪状态,以及与所述情绪状态相关联的动作状态,并构成训练样本;
第五处理模块,用于根据所述训练样本进行模型训练,得到所述预设模型。
可选地,所述第三处理模块还用于:
基于所述动作信息和特定策略,选取所述目标对象中的第三对象;
基于所述第三对象,生成所述当前直播视频的预测信息。
可选地,所述第三处理模块还用于:
获取每个团队中不同对象的位置权重;
基于所述动作信息和所述位置权重,确定每个团队的团队状态,其中,所述团队包括所述目标对象中的一个或多个对象;
基于所述每个团队的团队状态,生成所述当前直播视频的预测信息。
可选地,所述第三处理模块还用于:
基于预先设置的不同角色身份的权重,针对每个团队中不同对象的角色身份,匹配所述位置权重。
可选地,所述预测信息包括比赛结果预测图像;
所述第三处理模块还用于:
基于所述每个团队的团队状态,计算得到比赛平衡信息;
基于比赛平衡信息调整预设图像的每个像素点的颜色值,得到所述比赛结果预测图像。
本发明实施例装置的实现原理和技术效果类似,本实施例此处不再赘述。
如图3所示,本发明实施例还提供了一种图像预测处理设备,包括:处理器301、存储器302及存储在所述存储器302上并可在所述处理器301上运行的计算机程序,所述处理器301执行所述计算机程序时实现上述的图像预测处理方法的步骤。
具体地,所述处理器用于:
获取当前直播视频已播内容的目标视频片段,其中,所述目标视频片段包括目标对象的面部图像;
根据所述目标视频片段中的面部图像确定每个目标对象的情绪信息;
根据所述情绪信息,预测所述每个目标对象的动作信息;
根据所述动作信息,生成所述当前直播视频的预测信息。
可选地,所述处理器还用于:
基于第一对象确定第一视频片段,其中,所述第一对象为所述目标对象中的任一对象,所述第一视频片段是所述目标视频片段中包括所述第一对象的面部图像的视频片段;
获取所述第一对象的情绪状态,以及所述第一视频片段的时间信息和可信度;其中,所述可信度表明所述第一视频片段对预测的重要程度;
基于所述时间信息、所述可信度和所述情绪状态,生成所述第一对象的所述情绪信息。
可选地,所述可信度是通过所述第一视频片段的时长确定的;
所述情绪状态包括不同情绪标签值。
可选地,所述处理器还用于:
基于当前时间和第二对象,获取第一时长内所述第二对象的目标情绪信息,其中,所述第二对象为所述目标对象中的任一对象;
基于所述目标情绪信息中的时间信息,确定预测权重;
基于所述目标情绪信息中的情绪状态,预测第二视频片段的动作状态,其中,所述第二视频片段是所述目标视频片段中所述第二对象的视频片段;
基于所述预测权重、所述目标情绪信息中的可信度以及所述第二视频片段的动作状态,确定所述第二对象的动作信息。
可选地,所述处理器还用于:
通过所述当前时间、预测参数和各个第二视频片段的时间信息,分别计算所述各个第二视频片段的所述预测权重。
可选地,所述处理器还用于:
通过向预设模型输入所述目标情绪信息中的情绪状态,得到输出的所述第二视频片段的动作状态;
其中,所述预设模型是用于根据情绪状态预测所述目标对象中任一对象的动作状态的模型;所述动作状态包括不同动作标签值。
可选地,所述处理器还用于:
获取所述目标对象的历史参赛数据;
根据所述历史参赛数据,确定每个目标对象的情绪状态,以及与所述情绪状态相关联的动作状态,并构成训练样本;
根据所述训练样本进行模型训练,得到所述预设模型。
可选地,所述处理器还用于:
基于所述动作信息和特定策略,选取所述目标对象中的第三对象;
基于所述第三对象,生成所述当前直播视频的预测信息。
可选地,所述处理器还用于:
获取每个团队中不同对象的位置权重;
基于所述动作信息和所述位置权重,确定每个团队的团队状态,其中,所述团队包括所述目标对象中的一个或多个对象;
基于所述每个团队的团队状态,生成所述当前直播视频的预测信息。
可选地,所述处理器还用于:
基于预先设置的不同角色身份的权重,针对每个团队中不同对象的角色身份,匹配所述位置权重。
可选地,所述预测信息包括比赛结果预测图像;
所述处理器还用于:
基于所述每个团队的团队状态,计算得到比赛平衡信息;
基于比赛平衡信息调整预设图像的每个像素点的颜色值,得到所述比赛结果预测图像。
本发明实施例提供的图像预测处理设备,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本领域技术人员可以理解,实现上述实施例的全部或者部分步骤可以通过硬件来完成,也可以通过计算机程序来指示相关的硬件来完成,所述计算机程序包括执行上述方法的部分或者全部步骤的指令;且该计算机程序可以存储于一可读存储介质中,存储介质可以是任何形式的存储介质。
另外,本发明具体实施例还提供一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的图像预测处理方法中的步骤。且能达到相同的技术效果,为避免重复,这里不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

Claims (10)

1.一种图像预测处理方法,其特征在于,包括:
获取当前直播视频已播内容的目标视频片段,其中,所述目标视频片段包括目标对象的面部图像;
根据所述目标视频片段中的面部图像确定每个目标对象的情绪信息;
根据所述情绪信息,预测所述每个目标对象的动作信息;
根据所述动作信息,生成所述当前直播视频的预测信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标视频片段确定每个目标对象的情绪信息,包括:
基于第一对象确定第一视频片段,其中,所述第一对象为所述目标对象中的任一对象,所述第一视频片段是所述目标视频片段中包括所述第一对象的面部图像的视频片段;
获取所述第一对象的情绪状态,以及所述第一视频片段的时间信息和可信度;其中,所述可信度表明所述第一视频片段对预测的重要程度;
基于所述时间信息、所述可信度和所述情绪状态,生成所述第一对象的所述情绪信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述情绪信息,预测所述每个目标对象的动作信息,包括:
基于当前时间和第二对象,获取第一时长内所述第二对象的目标情绪信息,其中,所述第二对象为所述目标对象中的任一对象;
基于所述目标情绪信息中的时间信息,确定预测权重;
基于所述目标情绪信息中的情绪状态,预测第二视频片段的动作状态,其中,所述第二视频片段是所述目标视频片段中所述第二对象的视频片段;
基于所述预测权重、所述目标情绪信息中的可信度以及所述第二视频片段的动作状态,确定所述第二对象的动作信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标情绪信息中的时间信息,确定预测权重,包括:
通过所述当前时间、预测参数和各个第二视频片段的时间信息,分别计算所述各个第二视频片段的所述预测权重。
5.根据权利要求3所述的方法,其特征在于,所述基于所述目标情绪信息中的情绪状态,预测第二视频片段的动作状态,包括:
通过向预设模型输入所述目标情绪信息中的情绪状态,得到输出的所述第二视频片段的动作状态;
其中,所述预设模型是用于根据情绪状态预测所述目标对象中任一对象的动作状态的模型;所述动作状态包括不同动作标签值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述动作信息,生成所述当前直播视频的预测信息,包括:
基于所述动作信息和特定策略,选取所述目标对象中的第三对象;
基于所述第三对象,生成所述当前直播视频的预测信息。
7.根据权利要求1所述的方法,其特征在于,所述根据所述动作信息,生成所述当前直播视频的预测信息,包括:
获取每个团队中不同对象的位置权重;
基于所述动作信息和所述位置权重,确定每个团队的团队状态,其中,所述团队包括所述目标对象中的一个或多个对象;
基于所述每个团队的团队状态,生成所述当前直播视频的预测信息。
8.根据权利要求7所述的方法,其特征在于,所述预测信息包括比赛结果预测图像;
所述基于所述每个团队的团队状态,生成所述当前直播视频的预测信息,包括:
基于所述每个团队的团队状态,计算得到比赛平衡信息;
基于比赛平衡信息调整预设图像的每个像素点的颜色值,得到所述比赛结果预测图像。
9.一种图像预测处理装置,其特征在于,包括:
第一获取模块,用于获取当前直播视频已播内容的目标视频片段,其中,所述目标视频片段包括目标对象的面部图像;
第一处理模块,用于根据所述目标视频片段中的面部图像确定每个目标对象的情绪信息;
第二处理模块,用于根据所述情绪信息,预测所述每个目标对象的动作信息;
第三处理模块,用于根据所述动作信息,生成所述当前直播视频的预测信息。
10.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述的图像预测处理方法中的步骤。
CN202310943848.7A 2023-07-28 2023-07-28 图像预测处理方法、装置及存储介质 Pending CN116866663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310943848.7A CN116866663A (zh) 2023-07-28 2023-07-28 图像预测处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310943848.7A CN116866663A (zh) 2023-07-28 2023-07-28 图像预测处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116866663A true CN116866663A (zh) 2023-10-10

Family

ID=88223444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310943848.7A Pending CN116866663A (zh) 2023-07-28 2023-07-28 图像预测处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116866663A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371338A (zh) * 2023-12-07 2024-01-09 浙江宇宙奇点科技有限公司 一种基于用户画像的ai数字人建模方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371338A (zh) * 2023-12-07 2024-01-09 浙江宇宙奇点科技有限公司 一种基于用户画像的ai数字人建模方法及系统
CN117371338B (zh) * 2023-12-07 2024-03-22 浙江宇宙奇点科技有限公司 一种基于用户画像的ai数字人建模方法及系统

Similar Documents

Publication Publication Date Title
US20230206731A1 (en) Systems and methods for generation of virtual sporting events
WO2016098415A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN116866663A (zh) 图像预测处理方法、装置及存储介质
CN108905095B (zh) 运动员比赛状态评估方法和设备
CN110505521A (zh) 一种直播比赛互动方法、电子设备、存储介质及系统
WO2019244151A1 (en) Smart-venue wagering system and method for live events
CN109672899A (zh) 面向游戏直播场景的精彩时刻实时识别与预录制方法
US20190030435A1 (en) System and method for managing predictions of outcomes in live events in real time
AU2023278015A1 (en) Interactive sports fan experience
CN113992974B (zh) 模拟参赛的方法、装置、计算设备及计算机可读存储介质
CN105848737B (zh) 解析装置、记录媒体和解析方法
Breed et al. Can video-based perceptual-cognitive tests differentiate between skill level, player position, and experience in elite Australian football?
US20230206636A1 (en) Video processing device, video processing method, and recording medium
EP3968644A1 (en) Method and data processing system for making predictions during a live event stream
Ingels et al. A Novel Approach to Investigating Basketball Expert's Perceptions of the Hot Hand
CN112138407A (zh) 一种信息展示方法及装置
CN111432234A (zh) 视频生成方法、装置、电子设备和可读存储介质
Mühlberger et al. The serve clock reduced rule violations, but did not speed up the game: A closer look at the inter-point time at the 2018 US Open
US20240298046A1 (en) Method and system for detecting predictable event actions during a video game stream
US20230267737A1 (en) Method, apparatus and computer program for generating sports game highlight video based on excitement of gameplay
US20230267736A1 (en) Method, apparatus and computer program for generating sports game highlight video based on winning probability
Aksakal et al. Examining motivation levels of female volleyball players and coach–player relationships
JP7100277B2 (ja) データ処理システムおよびデータ処理方法
O’Donoghue et al. Possession tactics in the UEFA women’s EURO 2022 soccer tournament
Rathi et al. Gamesmanship Undermining the Purpose of Decision Review System: Evidence from Twenty-20 Cricket

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination