CN113439277A - 用于机器学习的动态音频片段填充 - Google Patents
用于机器学习的动态音频片段填充 Download PDFInfo
- Publication number
- CN113439277A CN113439277A CN202080014830.3A CN202080014830A CN113439277A CN 113439277 A CN113439277 A CN 113439277A CN 202080014830 A CN202080014830 A CN 202080014830A CN 113439277 A CN113439277 A CN 113439277A
- Authority
- CN
- China
- Prior art keywords
- audiovisual
- segment
- clip
- time interval
- unfilled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 51
- 238000003860 storage Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 239000002131 composite material Substances 0.000 abstract description 9
- 239000000945 filler Substances 0.000 description 30
- 238000004891 communication Methods 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000002085 persistent effect Effects 0.000 description 14
- 239000012634 fragment Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000036961 partial effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 241000242583 Scyphozoa Species 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 241000282326 Felis catus Species 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002438 mitochondrial effect Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/036—Insert-editing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/10—Recognition assisted with metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
提供了用于填充视听剪辑(例如,体育赛事的视听剪辑)的技术用于使得剪辑具有预定时长以使得填充的剪辑可以通过机器学习(ML)算法(310)针对观看者兴趣进行评估。用一个或多个视听片段来填充未填充剪辑,所述视听片段将使得填充的剪辑具有在未填充剪辑已经更长的情况下其将具有的观看者兴趣水平。填充的片段是由生成的对手网络生成的合成图像,使得合成图像将具有与如同未填充的剪辑已经被拍摄得更长一样的观看者兴趣水平(由ML算法(310)判断)。
Description
技术领域
本发明总体上涉及训练机器学习模型的领域,并且更具体地涉及用于训练机器学习媒体解释模型的内容标准化。
背景技术
机器学习(ML)是计算机系统用来在不使用显式指令的情况下有效地执行特定任务的算法和统计模型的科学研究,替代地,其依赖于模型和推断,通常被视为人工智能的子类型。机器学习算法建立样本数据(被称为“训练数据”)的数学模型,以便在不被明确编程为执行任务的情况下做出预测或决策。作为简单的示例,机器学习程序可被给定为训练数据:(i)示出各种猫的大的图像集;以及(ii)将所述图像中的每一者识别为示出猫的标签。基于该训练数据,ML程序的ML算法可以在图像数据中找到被拍摄以指示示出猫的图像的图案。然后,当ML程序接收到新的未标记图像时,ML算法可以确定新接收的图像展现出指示猫图像的图案,并且将新接收的图像识别为猫图像。当接收到附加图像和/或标签时,机器学习所基于的这些图案可随时间被修改。这样,一个月被错误标识为猫图像的图像在下一个月可能被正确标识为非猫图像。
为了更详细地解释ML,存在三种类型的训练ML过程的方法:监督/半监督学习、非监督学习和加强学习。监督学习算法创建包括输入和期望输出两者的数据集的数学模型。该数据通常被称为训练数据并且包含训练示例的集合。每个训练示例具有至少一个输入和期望输出,有时称为监督信号。利用半监督学习算法,一些训练示例不包括期望的输出。无监督学习算法接收仅包含输入值的数据集,并且标识数据中的结构,如数据点的分组或聚类。算法通常从未被标记、分级或分类的测试数据中学习。不响应于反馈,无监督学习算法确定数据中的共性,并基于每个新的数据片段中这样的共性的存在或不存在来响应。增强学习是涉及软件代理应当如何在给定环境中采取动作以便使累积奖励的一些概念最大化的机器学习领域。
生成性对抗网络(GANs)是一类用于无监督机器学习的人工智能算法,由两个神经网络系统在零和博弈框架中相互竞争实现。
片段填充(pad)是扩展音频和/或视频(本文中有时统称为A/V)片段使得A/V片段具有预定长度的方法。片段填充常规地与ML算法结合使用,因为训练A/V段和/或新接收的A/V片段被算法预期具有某个预定的时长以与ML算法的代码一起工作。在ML算法以某种方式对新接收的、填充的A/V片段进行分类之后,则可以将分类应用于在填充之前存在的片段。一对当前常规的填补技术如下:(i)在视频中插入具有全部一种颜色(单色)的帧连同静音或一些其他类型的静态音频信息;和/或(ii)重复(也称为“循环”)过短的镜头,从而使得其填写A/V剪辑的预定时间分配。
为了使机器学习模型有效,其输入数据的特征应该被归一化,因此没有特征由于其值的范围而具有过大的影响。分析视频和音频的模型需要输入数据的时长一致,因为较长的时长可扩大模型中使用的权重。由于这个原因,在分析之前,内容块应当被划分成具有相等时长的片段。当使用深度神经网络时,数据准备是特别重要的,因为在给定层处的特征分析可能是非显而易见的,并且包括模糊变量(诸如时长)将不太明显。对于不同时长的内容块,研究者必须决定如何达到相等时长的片段。常见的选择包括丢弃内容的一部分(修剪)或添加内容(如任意图像或静默(初始填充))。修剪是不期望的,因为丢弃的内容可能对分析有影响。初始填充也是不期望的,因为模型将分析填充作为片段的一部分,即使它与内容块没有相关性。
因此,本领域需要解决上述问题。
发明内容
从第一方面来看,本发明提供了一种方法,包括:接收包括指示第一未填充视听片段的信息的第一未填充视听片段数据集合,其中第一未填充视听片段对应于在人类观众的体育比赛中记录的视听数据;确定在第一未填充片段之前和/或之后发生的(一个或多个)填充时间间隔的集合;对于(一个或多个)填充时间间隔中的每个给定填充时间间隔:如果所述第一未填充视听片段继续通过给定填充时间间隔并且使其运动观看者兴趣值由机器学习(ML)算法确定,则确定将表征给定填充时间间隔的分别对应的运动观看者兴趣值,以及生成针对给定填充时间间隔的填充视听片段,以使得针对给定填充时间间隔的填充视听片段由针对给定填充时间间隔所确定的运动观看者兴趣值来表征;将第一未填充视听片段与对应于(一个或多个)填充时间间隔集合中的每个填充时间间隔的(一个或多个)填充视听片段进行组合,以获得包括指示第一填充视听片段的信息的第一填充视听片段数据集合;以及通过所述ML算法确定作为整体考虑的所述第一填充视听片段的体育观看者兴趣值。
从另一方面来看,本发明提供了一种方法,所述方法包括:接收包括指示第一未填充视听片段的信息的第一未填充视听片段数据集合;确定在所述第一未填充片段之前和/或之后发生的(一个或多个)填充时间间隔的集合;针对(一个或多个)填充时间间隔集合中的每个给定填充时间间隔:如果所述第一未填充视听片段继续通过所述给定填充时间间隔并且具有由机器学习(ML)算法确定的观看者兴趣值,则确定将表征所述给定填充时间间隔的分别对应的观看者兴趣值,以及生成针对给定填充时间间隔的合成视听片段,以使得针对给定填充时间间隔的合成视听片段由针对所述给定填充时间间隔确定的所述观看者兴趣值来表征;将所述第一未填充视听片段与对应于(一个或多个)填充时间间隔集合中的每个填充时间间隔的(一个或多个)合成视听片段进行组合以获得包括指示第一填充视听片段的信息的第一填充视听片段数据集合;以及通过所述ML算法确定作为整体考虑的针对所述第一填充视听片段的观看者兴趣值。
从另一方面来看,本发明提供了一种方法,包括:接收多个历史视听片段数据集合,其中每个历史视听片段数据集合包括历史视听片段的信息;接收第一未填充视听片段数据集,该第一未填充视听片段数据集包括指示第一未填充视听片段的信息;确定在第一未填充片段之前和/或之后发生的(一个或多个)填充时间间隔的集合;针对(一个或多个)填充时间间隔集合中的每个给定填充时间间隔,从一个或多个历史视听片段中生成填充视听片段,从而使得所述填充视听片段具有与如果所述第一未填充视听片段继续通过所述给定填充时间间隔则所述给定填充时间间隔将具有的视听内容类似的视听内容;将第一未填充视听片段与对应于(一个或多个)填充时间间隔集合中的每个填充时间间隔的(一个或多个)填充视听片段进行组合,以获得包括指示第一填充视听片段的信息的第一填充视听片段数据集合;以及通过所述ML算法确定作为整体考虑的针对所述第一填充视听片段的观看者兴趣值。
从另一方面来看,本发明提供了一种用于管理训练机器模型的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质可由处理电路读取并且存储用于由处理电路执行以便执行用于执行本发明的步骤的方法的指令。
从另一方面来看,本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,所述计算机程序包括软件代码部分,当所述程序在计算机上运行时,所述软件代码部分用于执行本发明的步骤。
根据本发明的一个方面,存在一种用于执行以下操作(不一定按以下顺序)的计算机实现的方法、计算机程序产品和/或计算机系统:(i)接收包括指示第一未填充视听片段的信息的第一未填充视听片段数据集合,其中所述第一未填充视听片段对应于在人类观众的体育比赛中记录的视听数据;(ii)确定在未填充片段之前和/或之后发生的(一个或多个)填充时间间隔的集合;(iii)针对(一个或多个)填充时间间隔集合中的每个给定填充时间间隔:(a)如果第一未填充视听片段继续通过给定填充时间间隔并且使其运动观看者兴趣值由机器学习(ML)算法确定,则确定将表征给定填充时间间隔的分别对应的运动观看者兴趣值,以及(b)生成针对所述给定的填充时间间隔的填充视听片段,以使得针对所述给定的填充时间间隔的所述填充视听片段由针对给定填充时间间隔确定的所述运动观看者兴趣值来表征;(iv)将该第一未填充视听片段与对应于该(一个或多个)填充时间间隔集合中的每个填充时间间隔的(一个或多个)填充视听片段进行组合以便获得第一填充视听片段数据集合,该第一填充视听片段数据集包括指示第一填充视听片段的信息;以及(v)通过ML算法确定作为整体考虑的第一填充视听片段的体育观看者兴趣值。
根据本发明的另一方面,存在一种用于执行以下操作(不一定按以下顺序)的计算机实现的方法、计算机程序产品和/或计算机系统:(i)接收包括指示第一未填充视听片段的信息的第一未填充视听片段数据集合;(ii)确定在未填充片段之前和/或之后发生的(一个或多个)填充时间间隔的集合;(iii)针对(一个或多个)填充时间间隔集合中的每个给定填充时间间隔:(a)如果第一未填充视听片段继续通过给定填充时间间隔并且使其观看者兴趣值由机器学习(ML)算法确定,则确定将表征给定填充时间间隔的分别对应的观看者兴趣值,(b)针对给定的填充时间间隔生成合成视听片段,从而使得针对给定填充时间间隔的填充视听片段由针对给定填充时间间隔确定的观看者兴趣值来表征;(iv)将该第一未填充视听片段与对应于(一个或多个)填充时间间隔集合中的每个填充时间间隔的(一个或多个)填充视听片段进行组合以便获得第一填充视听片段数据集合,该第一填充视听片段数据集合包括指示第一填充视听片段的信息;以及(v)通过ML算法确定作为整体考虑的第一填充视听片段的体育观看者兴趣值。
根据本发明的另一方面,存在一种用于执行以下操作(不一定按以下顺序)的计算机实现的方法、计算机程序产品和/或计算机系统:(i)接收多个历史视听片段数据集合,其中每个历史视听片段数据集合包括历史视听片段的信息;(ii)接收包括指示第一未填充视听片段的信息的第一未填充视听片段数据集合;(iii)确定在未填充片段之前和/或之后发生的(一个或多个)填充时间间隔的集合;(iv)对于该(一个或多个)填充时间间隔集合中的每个给定填充时间间隔,从一个或多个历史视听片段中生成填充视听片段,从而使得所述填充视听片段具有与如果第一未填充视听片段继续通过所述给定填充时间间隔则给定填充时间间隔将已经包含的视听内容相似的视听内容;(v)将所述第一未填充视听片段与对应于(一个或多个)填充时间间隔集合中的每个填充时间间隔的(一个或多个)填充视听片段进行组合以获得包括指示第一填充视听片段的信息的第一填充视听片段数据集合;以及(vi)通过ML算法确定作为整体考虑的第一填充视听片段的观看者兴趣值。
附图说明
现在将参考如在以下附图中示出的优选实施例,仅通过举例来描述本发明:
图1是根据本发明的系统的第一实施例的框图;
图2是示出至少部分地由第一实施例系统执行的第一实施例方法的流程图;
图3是示出第一实施例系统的机器逻辑(例如,软件)部分的框图;
图4A至4D是有助于理解第一实施例系统的多媒体数据样本的屏幕截图;
图5是根据本发明的方法的第二实施例的流程图;以及
图6是示出有助于理解本发明的一个或多个示例实施例的信息的屏幕截图。
具体实施方式
本发明的一些实施例涉及用于填充A/V片段的技术,使得它们具有预定长度,同时展现出如果片段是全长剪辑则该片段将具有的“观看者兴趣”水平。当机器学习算法确定可能用于更大的A/V呈现(例如体育亮点回放(highlights reel)或电影的预告片)的A/V剪辑的观看者兴趣水平时,这是有用的。“观看者兴趣”是指观看者将发现A/V剪辑有多感兴趣。例如,一个示出输了的网球运动员痛苦表情的剪辑可能比一个无动于衷地捡起一个偏离的网球的球童的剪辑更能引起观看者的兴趣。体育观看者兴趣值是指体育A/V剪辑的观看者将如何找到给定A/V剪辑的兴趣的量化。通过使剪辑具有一致的高观看者兴趣水平,或者观看者兴趣的起伏图案,可以组合适当的亮点回放(例如,由计算机软件基于所计算的各个剪辑的观看者兴趣水平来自动组合)。
在转到本发明的不同实施例的更详细描述之前,将关于本发明的填充技术应该实现的内容提出基本点。基本点在于,相比于片段最初已经足够长的情况,填充在填充期间不应具有更多或更少的观看者兴趣。这是一个非常细微但重要的点,并且将在下一段落中用一个实例进一步解释。
例如,假设棒球比赛中一次精彩的接球的镜头长度为三(3)秒,而预定的A/V片段长度为九(9)秒。在本例中,将三秒剪辑循环三次为九秒会导致观看者的兴趣异常高,因为精彩的接球不会持续九秒,如果剪辑长为九秒,观看者的兴趣水平在接球的三秒期间会很高,但在接球前的三秒或接球后的三秒降低。本发明力求近似观看者的兴趣水平,就好像该剪辑包括电视工作人员在该剪辑之前和/或之后将要拍摄的内容,然后将该内容包括在该剪辑中一样。例如,如果在未添加的剪辑开始前的三秒钟看起来像一个常规的飞行球,那么观看者的兴趣水平可能相当低(虽然可能比空白屏幕更能引起观看者的兴趣)。为了进一步发展这个例子,如果未填充剪辑后的三秒通常是一个失望的击球手厌恶地扔下棒球棒,那么这可能会引起观看者较高的兴趣(尽管可能比伟大的接球本身要少)。这是本发明试图模拟的类型——也就是说,观看者兴趣水平将反映如果剪辑在第一个实例中被拍摄得更长的观看者兴趣水平。
大致来说,存在两种不同的方式来执行根据本发明的填充:(i)使用实际的预先存在的A/V片段作为感兴趣的过短的A/V片段的填充;或者(ii)生成合成A/V图像,该合成A/V图像将由ML算法确定为具有与全长度剪辑的类似假设部分一致的观看者兴趣水平。应注意的是,词语“将由ML算法确定为具有观看者兴趣水平”在此被仔细地选择——合成的图像尤其可能不是人类观看者可理解的,即使他们可能就ML算法的处理而言模仿给定的观看者兴趣水平。换言之,如果人类观看者要实际观看填充并对他们的兴趣水平进行评级,则本发明的一些实施例的实际填充可能具有极低的观看者兴趣水平。然而,填充将被构建成使得对应于填充的数据将由图案来表征,所述图案将指示观看者对ML算法的兴趣水平,所述兴趣水平将与不需要填充的较长剪辑相一致。
这个详细描述部分被分成以下子部分:(i)硬件和软件环境;(ii)示范性实施例;(iii)进一步评论和/或实施例;以及(iv)定义。
硬件和软件环境
本发明可以是系统、方法和/或计算机程序产品。所述计算机程序产品可包含其上具有计算机可读程序指令的计算机可读存储介质(或媒体),所述计算机可读程序指令用于使得处理器执行本发明的方面。
计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下:便携式计算机盘,硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存),静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM),数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片)或具有记录在其上的指令的凹槽中的凸起结构),以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输媒质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过导线传输的电信号。
本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令,指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的源代码或目标代码,包括面向对象的Smalltalk、C++等编程语言,以及常规的过程式编程语言,例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户”的计算机上执行、部分在用户”的计算机上执行、作为独立软件包执行、部分在用户”的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明的方面。
本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机的处理器,专用计算机或其他可编程数据处理装置,以产生机器,其通过计算机或其他可编程数据处理装置的处理器执行,创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机的计算机可读存储介质中,可编程数据处理装置,和/或以特定方式起作用的其他设备,使得具有存储在其中的指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置上,或使得在计算机上执行一系列操作步骤的其他装置,其他可编程装置或其他设备,以产生计算机实现的过程,使得在计算机上执行的指令,其他可编程装置或其他设备实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可以代表模块、片段或指令的一部分,其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实现方式中,框中所标注的功能可以不以图中所标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。还将注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现,所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。
现在将参考附图详细描述根据本发明的软件和/或方法的可能的硬件和软件环境的实施例。图1是示出联网计算机系统100的各个部分的功能框图,包括:服务器系统102(有时也被称为机器学习系统);历史视频剪辑源子系统104;新剪辑源子系统106;以及亮点回放组合工具组子系统108;以及通信网络114。服务器系统102包括:服务器计算机200(有时也被称为机器学习计算机);通信单元202;处理器集合204;输入/输出(I/O)接口集合206;存储器208;持久存储装置210;显示装置212;外部装置集合214;随机存取存储器(RAM)230;高速缓冲存储器232;以及程序300。
子系统102在许多方面代表本发明中的不同计算机子系统。因此,现在将在以下段落中讨论子系统102的若干部分。
子系统102可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话或能够经由网络114与客户端子系统通信的任何可编程电子设备。程序300是用于创建、管理和控制某些软件功能的机器可读指令和/或数据的集合,下面将在该详细描述部分的示例实施例子部分中详细讨论这些软件功能。
子系统102能够经由网络114与其他计算机子系统通信。网络114可以是例如局域网(LAN)、诸如互联网的广域网(WAN)或两者的组合,并且可以包括有线、无线或光纤连接。通常,网络114可以是将支持服务器和客户端子系统之间的通信的连接和协议的任何组合。
子系统102被示出为具有许多双箭头的框图。这些双箭头(没有单独的附图标记)表示提供子系统102的各个部件之间的通信的通信结构。该通信结构可以利用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。例如,通信结构可至少部分地用一个或多个总线来实现。
存储器208和永久性存储器210是计算机可读存储介质。通常,存储器208可包括任何合适的易失性或非易失性计算机可读存储介质。进一步注意,现在和/或不久的将来:(i)外部设备214可能能够为服务器子系统102供应一些或所有存储器;和/或(ii)服务器子系统102外部的设备可能能够为服务器子系统102提供存储器。
程序300存储在永久存储器210中,以便由相应的处理器组204中的一个或多个(通常通过存储器208的一个或多个存储器)访问和/或执行。永久性存储器210:(i)至少比在传输中的信号更持久;(ii)在有形介质(诸如磁域或光域)上存储程序(包括其软逻辑和/或数据);以及(iii)基本上不如永久储存那样持久。可替代地,数据存储可以比由持久存储210提供的存储类型更持久和/或更永久。
程序300可以包括机器可读和可执行的指令和/或实质数据(即,存储在数据库中的数据的类型)。在该特定实施例中,永久性存储器210包括磁性硬盘驱动器。为了命名一些可能的变化,永久性存储器210可以包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或能够存储程序指令或数字信息的任何其他计算机可读存储介质。
永久性存储器210所使用的介质也可以是可移除的。例如,可移动硬盘驱动器可用于永久性存储器210。其他示例包括光盘和磁盘、拇指驱动器和智能卡,其被插入到驱动器中以便转移到也是持久存储210的一部分的另一计算机可读存储介质上。
在这些实例中,通信单元202提供与服务器子系统102外部的其他数据处理系统或设备的通信。在这些实例中,通信单元202包括一个或多个网络接口卡。通信单元202可以通过使用物理和无线通信链路之一或两者来提供通信。本文讨论的任何软件模块可通过通信单元(诸如通信单元202)下载到永久性存储装置(诸如永久性存储装置210)。
I/O接口集206允许与可以在与服务器计算机200进行数据通信中本地连接的其他设备进行数据的输入和输出。例如,I/O接口集206提供到外部设备集214的连接。外部设备组214通常包括诸如键盘、小键盘、触摸屏和/或一些其他合适的输入设备的设备。外部设备组214还可包括便携式计算机可读存储介质,诸如例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用来实施本发明的实施例的软件和数据,例如程序300,可以被存储在这样的便携式计算机可读存储介质上。在这些实施例中,相关软件可以(或可以不)全部或部分地经由I/O接口集206加载到持久存储设备210上。I/O接口集206还与显示设备212进行数据通信连接。
显示设备212提供向用户显示数据的机制,并且可以是例如计算机监视器或智能电话显示屏。
本文中所描述的程序是基于其在本发明的特定实施例中实施的应用来识别的。然而,应当理解,本文中的任何特定程序命名法仅为了方便而使用,因此本发明不应限于仅在由这种命名法识别和/或暗示的任何特定应用中使用。
已经出于说明的目的呈现了本发明的不同实施例的描述,但并不旨在是穷尽性的或局限于所披露的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进,或使得本领域普通技术人员能够理解在此披露的实施例。
示例实施例
图2示出了描绘根据本发明的方法的流程图250。图3示出了用于执行流程图250的方法操作中的至少一些的程序300。现在将在以下段落的过程中广泛参见图2(对于方法操作块)、图3(对于软件块)和图4A至4E(例如数据样本和屏幕截图)来讨论该方法和相关联的软件。
处理在操作S255开始,其中历史视频剪辑源子系统104通过通信网络114(参见图1)将视听片段(有时在此被称为“剪辑”)发送至历史视频剪辑储存库302。
在该实施例中,这些剪辑:(i)已经从回到1957的专业篮球比赛的广播电视镜头收集;(ii)各自被修整为长度为恰好六(6)秒;并且(iii)各自被元数据“标记”。
在该实施例中,每个剪辑的元数据包括以下类别的元数据:(i)播放类别(例如,罚球、三分失误、三分篮、扣篮等。);(ii)该播放的自然语言描述(例如,20英寸垂直跳跃扣篮,在罚球线处起跳扣篮等,公然犯规等。);(iii)涉及的每个主要运动员的统计数据(例如,姓名、身高、体重、年龄、终身分数、剪辑比赛中的分数、位置、大学队等);(iv)场地/日期/团队信息(例如,比赛场地、出席者、比赛日的天气、比赛日期、比赛日各队的输赢记录、本赛季各队的输赢记录、主队身份、当值裁判等);(v)观看者对整个剪辑的兴趣值(例如,有史以来最伟大扣篮的6秒钟剪辑可能会给1.00分,而在游戏动作暂停期间,默默无闻的运动员重新系鞋带的6秒钟剪辑可能为0.01观看者兴趣值);和(vi)每个视听片段的每两秒子片段的观看者兴趣值(例如,剪辑的前两秒的观看者兴趣值可能为0.10,后两秒的观看者兴趣值可能为0.40,最后两秒的观看者兴趣值可能为0.85)。关于上述列表中的项目(v)和(vi),六秒剪辑的观看者兴趣值(作为一个整体考虑)通常不会与它的两个第二子片段的观看者兴趣值的平均值相同。
在该实施例中,在操作S255,这些历史视频剪辑被用作训练数据集以训练ML算法310相对于在前一段落中标识的所有不同类型的标记来识别和分类新的视频剪辑。
处理进行到操作S260,其中新剪辑源子系统106通过网络114(参见图1)发送新的两(2)个第二未填充剪辑以接收未填充剪辑模块304。虽然期望通过ML算法310标记该剪辑,尤其是关于观看者兴趣,但是未填充的剪辑不能立即由ML算法310处理,因为ML算法310被设计和编程为处理六(6)秒剪辑。此两个第二未填充剪辑的代表性图像(或“框架”)由图4A的屏幕截图400a示出。该未填充的两个第二剪辑的元数据包括以下:(i)比赛类别为扣篮;(ii)比赛的自然语言描述为在篮框附近起降的具有20英寸垂直跳跃的扣篮;(iii)每个参与的主要运动员的统计包括姓名Abel Adams,身高6英尺六英寸,体重175磅,年龄25岁,终身分562分,剪辑的比赛中的分为12分,位置为中心,大学队为全日制大学;以及(iv)比赛地点为纽约竞技场,比赛日期为2019年1月1日,亚当斯团队为纽约水母(Jellyfish)信息,出席人数为30000人,比赛日天气为寒冷混合,比赛日纽约水母的胜负记录为30-30,截至收到两秒未加剪辑的时间,纽约水母队本赛季的胜负尚未确定,纽约水母队是主队,当值裁判是安德森·桑德森。在该示例中,前述标签数据中的一些来自在新剪辑源子系统106处应用的人类标签,而前述标签信息中的其他片段由ML算法310确定。
两个第二未填充剪辑400a作为整体的观看者兴趣值尚未被确定,但将在流程图250的后续操作中被确定,使得亮点回放组合工具组子系统可决定是否在2019年1月01日至1月03日将其包括在亮点回放中。
处理进行到操作S265,其中通过确定填充时间模块(“mod”)308确定所需的填充时间的总时长。在该示例中,这是直接的计算。具体地,未填充剪辑是两(2)秒长,并且填充剪辑需要是六(6)秒长,使得ML算法310可以准确地确定观看者兴趣,这意味着需要总填充四(4)秒。
处理进行到操作S270,其中确定(一个或多个)填充位置模块309确定在未填充剪辑开始的时间点之前应当插入两(2)秒的填充,并且在未填充剪辑结束之后应当插入两(2)秒的填充。其他实施例可以其他方式确定填充位置。例如,在这个具体实施方式部分的下一个子部分中讨论的实施方式中,填充物总是插入在未填充的剪辑之后。
处理进行到操作S275,在操作S275中,通过找到填充剪辑模型311来确定最相关的填充剪辑。在该实施例中,并且如将关于该示例更详细地解释的,从存储在历史视频剪辑储存库302中的历史视频剪辑中取得填充剪辑。在讨论这点之前,重要的是要注意,一些实施例可以根本上不同的方式工作,如将在该具体实施方式部分的以下子部分中讨论的。这种根本不同的方式是通过生成式对手网络(GAN)生成合成视频。进一步注意,两个实施例都像讨论中的使用实际上预先存在的视频的实施例,以及还有使用合成视频的实施例共同具有以下事实:填充剪辑被选择和/或生成,使得填充剪辑将具有观看者兴趣值(由ML算法判断),好像未填充剪辑未被填充。
概念上的困难在于对于填充剪辑的观看者兴趣值还未知--即,本发明的一些实施例的主要目的是使用填充的剪辑来确定观看者兴趣值。在所讨论的实施例中,确定填充以使得其将导致正确的观看者兴趣值的方式是尝试弄清楚广播电视工作人员将拍摄和编辑什么样的剪辑以包括在六(6)秒的时长内。如将讨论的,在该示例中,该假设的较长剪辑使用来自与未填充剪辑最相似的较长预先存在的历史剪辑的实际镜头。在生成合成视频的其他实施例中,其他方法用于生成合成填充,使得ML算法将确定在未填充剪辑较长的情况下预期获得的填充剪辑的观看者兴趣值(由ML算法确定并且不一定由人类专家观看者确定)。将在本具体实施方式部分的下一子部分中全面解释生成合成视频的这些方法,该合成视频导致适合用于确定观看者兴趣值的填充剪辑。
回到流程图250的操作S275,通过找到填充片段模型311对历史视频片段储存库302的扫描发现六(6)秒剪辑400,该六(6)秒剪辑400包括在该剪辑中所示的扣篮之前发生的两秒视听(参见图4B)。剪辑400b在其元数据中具有以下标记:(i)播放的类别是扣篮;(ii)对播放的自然语言描述是扣篮,从罚球线外18英寸处起跳;(iii)涉及的每个主要运动员的统计数据姓名Abel Adams,身高6英尺六英寸,体重171磅,年龄24岁,终身分562分,剪辑比赛中的分数为14分,位置为中心,大学队为全日制大学;以及(iv)比赛场地为洛杉矶,比赛日期为2018年1月1日,亚当斯的球队为洛杉矶线粒体队,出席者人数为15000人,比赛当天天气酷热。洛杉矶线粒体队在比赛日的输赢记录是31胜29负,整个赛季洛杉矶线粒体队的输赢记录是62胜58负,洛杉矶线粒体队是主队,当值裁判是贝蒂·麦克内蒂。值得注意的是,这段视频中的扣篮者与未添加视频中的扣篮者是同一个人,尽管他在一年前显然为另一支球队效力。
在操作S275,确定该剪辑是最相似的剪辑,包括扣篮前发生的镜头,因此选择该剪辑的前两秒作为最相关的,以提供所需的填充镜头,用于制作填充剪辑的前两秒。更具体地说,在这个特定示例中,查找填充剪辑模型311的机器逻辑使用以下因素来确定剪辑400b是具有适当预填充的最相似剪辑:(i)播放的相似性(如通过将图4A与图4B进行比较可见,两个播放都是扣篮,但一个主要是垂直扣篮,另一个主要是水平扣篮)(ii)运动员的相似性(剪辑400a和400b中的扣篮者是同一名运动员)(iii)场地/团队/人群的相似性(场地和团队以及人群规模非常不同,尽管扣篮运动员在剪辑400a和剪辑400b中都在主队);以及(iv)剪辑的最新情况(剪辑仅相隔一年)。由于剪辑400b是具有预填充素材的最相关剪辑,因此在本例中,剪辑400b的前两秒将用作预填充。如图4B所示,该预填充是亚当斯跳起来扣篮前半个场地的俯视图。
在操作S275,进一步确定剪辑400c(见图4C)是最相似的剪辑,其包括扣篮后发生的镜头,因此剪辑400c的最后两秒被选为最相关的,以提供所需的填充镜头,填充镜头用于制作填充剪辑的最后两(2)秒。更具体地说,在这个特定的例子中,查找填充剪辑模型311的机器逻辑使用以下因素来确定剪辑400c是具有适当的后填充的最相似的剪辑:(i)播放的相似性(通过比较图4A和图4C可以看出,两个播放都是看起来惊人相似的垂直扣篮);(ii)运动员的相似性(剪辑400c中的扣篮者是劳拉·奥德泰姆,她在20世纪60年代是《纽约水母》的篮球明星——在这个例子中,她与亚伯·亚当斯有着相似的一生统计数据);(iii)场馆/团队/人群的相似性(此处的场馆和团队以及人群规模与剪辑400a和剪辑400c相同);以及(iv)剪辑的最近度(在本例中,两个剪辑在时间上间隔很大,这与此处的相似性/相关性的发现不符)。因为剪辑400c是与预填充素材最相关的剪辑,所以在本例中,剪辑400b的最后两秒将用作后填充。如图4C所示,该后填充是欢呼人群的视图,在奥德泰姆跳起来扣篮后,一对粉丝的脸上有一个特写镜头。
处理进行到操作S280,在操作S280,组合填充剪辑模块312基于在操作S275选择的填充剪辑来组合六(6)秒填充剪辑400d(见图4D)。注意,这六(6)秒填充剪辑不旨在向人类观众显示,而是仅由ML算法310用来确定观看者兴趣值。
处理进行到操作S285,其中ML算法310确定针对填充剪辑400d的观看者兴趣值。在本实例中,观看者兴趣值是0.51。这是与在未填充剪辑400a被简单地循环三次的情况下获得的观看者兴趣值不同的观看者兴趣值,并且还是与在填充仅是空白屏幕的情况下获得的观看者兴趣值不同的观看者兴趣值。以此方式,本发明的一些实施例可以提供比通过常规视听片段填充技术所获得的观看者兴趣值更准确的观看者兴趣值。
处理进行到操作S290,其中服务器子系统102(见图1)的程序300的输出模块314通过网络114发送未填充的剪辑400a连同指示观看者兴趣值0.51的元数据到亮点回放组合工具组子系统108以考虑用于组合用于在1月01日和1月03日,2019之间进行的篮球比赛的亮点回放。在该示例中,亮点回放的剪辑由人选择和排序。在该示例中,他们决定使用剪辑400a,部分原因是它的观看者兴趣值相当不错,还因为亮点回放需要两秒钟的镜头,以便其具有在电视上播放的体育节目上以及在互联网上分发的流媒体网站上使用的指定的预定长度。
另外的注释和/或实施例
本发明的一些实施例认识到以下事实、潜在问题和/或相对于现有技术的改进的潜在领域:(i)为了使机器学习模型有效,应当将其输入数据的特征归一化,因此没有特征由于其值的范围而具有过大的影响;(ii)分析视频和音频的模型需要输入数据的时长一致,因为较长的时长可扩大模型中使用的权重;(iii)出于这个原因,在分析之前,内容块应当被划分成具有相等时长的片段;(iv)当使用深度神经网络时,数据准备是特别重要的,因为在给定层处的特征分析可能是非显而易见的,并且包括模糊变量(诸如时长)将不太明显;(v)对于不同时长的内容块,研究者必须决定如何到达相等时长的片段;(vi)常见选择包括:(a)丢弃部分内容(也称为修剪),或(b)添加任意图像或静默(也称为初始填充)等内容;(vii)修剪是不期望的,因为丢弃的内容可能对分析有影响;(viii)初始填充也是不期望的,因为模型将填充作为片段的一部分进行分析,即使它与内容块无关;和(ix)本领域的一些已知解决方案包括:(a)接受馈送到机器学习模型的一些片段将在时长上更短,(b)通过丢弃内容将片段修剪到所需长度,以及(c)使用原始的填充,例如任意图像或静默。
本发明的一些实施例认识到相对于现有技术的以下事实、潜在问题和/或潜在改进领域:(i)在专业网球比赛期间,发现短视频被错误地解释为具有低兴奋分数;(ii)在机器学习和深度学习中,到模型中的输入数据需要被标准化以用于准确预测;(iii)用于视频的所述数据准备的一部分用于创建具有相同长度的剪切段和片段;(iv)在该示例中,视频被分成6秒片段,使得欢呼分析可以对兴奋度进行排名;(v)然而,如果视频是8秒长,则最后的片段可能包含最令人兴奋的内容,但是用4秒的静默来填充;以及(vi)结果,最后6秒片段上的兴奋评分人为地低。
本发明的一些实施例可以包括以下特征、特性和/或优点中的一个或多个:(i)智能生成声音和视频以填充机器和深度学习模型的片段,以增加多媒体解释的准确度;(ii)应当填充片段作为预处理步骤,因为多媒体解释模型在输入数据具有相等时长时表现最佳;(iii)使用在许多域特定片段上训练的生成性对手网络来创建与片段的原始内容一致的填充;(iv)以这种方式生成填充比丢弃内容或利用任意图像和/或静默进行填充是优选的;(v)生成与正被填充的特定片段相关的视频和音频;(vi)当通过解释模型分析智能填充的片段时,分析将不会由于不一致的数据而受损;(vii)针对多媒体解释分析一系列内容块;(viii)将内容块分成其视频内容(图像)和其音频内容;(ix)将视频和音频都划分成期望长度的片段;(x)如果视频的最终片段和音频的最终片段不是期望长度,则它们必须被填充;(xi)已经针对许多内容块训练生成性对手网络(GAN)以创建与需要填充的单独片段一致的生成性视频和/或音频内容;(xii)特征权重不受不同时长的输入数据的不利影响;(xiii)所有原始内容是用于理解的输入数据,因此可以通过模型来评估该内容内的所有潜在特征;(xiv)模型将不搜索任意内容之间的含义,因为输入数据全部与其解释相关;(xv)生成片段相关视频内容以准备用于视频分析机器学习模型的输入数据;和/或(xvi)生成片段相关音频内容以准备用于音频分析机器学习模型的输入数据。
本发明的一些实施例可以包括以下特征、特性和/或优点中的一个或多个:(i)媒体解释模型——这个术语指示正在针对其主题分析内容块的机器学习模型;(ii)填充生成子系统,准备用于解释模型的输入数据;(iii)媒体解释系统—系统由填充生成子系统和媒体解释模型两者组成;(iv)用于机器学习模型的数据准备发生在此系统内;(v)内容分片—包括视频(图像)和音频两者的多媒体轨道;(vi)内容块将被分成视频和音频并且被分成片段;(vii)段-内容块被划分成更小的单元,其将是用于解释模型的输入数据;(viii)将视频(图像)和音频两者划分成片段;(ix)为了提高解释模型的性能,期望输入数据是相等时长的片段;(x)最终片段-作为将内容块的视频或音频划分成期望时长的片段时的剩余部分的部分片段;(xi)该片段需要填充,因此它将与其他片段的长度匹配;(xii)填充生成子系统-使用生成性对手网络来创建被添加到最终片段的视频和音频内容(填充);(xiii)鉴别器网络评估生成器网络的填充输出是否与正被分析的特定段的剩余部分一致;(xiv)最大填充-最大填充是可接受生成的填充的阈值;(xv)例如,如果最后的片段在填充之前仅1秒长并且片段时长需要是10秒,则填充百分比是90%;以及(xvi)如果这超过预定的最大填充,则片段应当被丢弃和/或修剪,因为其不可能是用于媒体解释模型的有用数据。
根据本发明的方面的方法的一个示例实施例可以包括下列步骤中的一个或多个(不一定按以下顺序),包括:(i)内容块的集合被上传到媒体解释系统;(ii)片段时长是媒体解释系统的超参数,例如,研究人员可以在开始分析之前建立这个时长;(iii)最大填充是例如填充生成子系统的超参数,研究人员可以在开始分析之前建立该时长;(iv)内容片段内的视频(图像)和音频被分离以用于独立分析;(v)内容块的视频被划分成期望时长的片段;(vi)确定是否应当通过评估来生成填充:(a)是否存在最终部分片段,并且如果确定存在部分片段,(b)填充的量不超过最大填充;(vii)在内容块的所有片段上训练填充生成子系统,其中生成器网络将使用最终段的特征来生成专用于该片段的内容;(viii)鉴别器网络将确定发生器网络的输出是否适合于该特定片段;(ix)将所生成的填充添加到最终段;(x)包括填充的最终片段的所有片段被给出作为对媒体解释模型的输入;
(xi)针对内容块的音频分量重复步骤v-x,而不是将内容块的音频分量划分成期望时长的片段;(xii)用于音频分析的网络独立于用于视频分析的网络;和/或(xiii)媒体解释系统将最终考虑音频分析的结果和视频分析的结果两者,因为它对每个内容片段打分。
根据本发明的一个方面,提供一种方法、计算机程序产品和/或系统,其执行以下操作(不一定按以下顺序):(i)使用生成性对手网络(GAN)来生成GAN生成的音频数据(与生成图像相反,这些GAN通常都是这样做的)。
根据本发明的一个方面,提供一种方法、计算机程序产品和/或系统,其执行以下操作(不一定按以下顺序):(i)使用生成性对手网络(GAN)来生成GAN生成的音频数据(与生成图像相反,这些GAN通常都是这样做的);以及(ii)提供比预定长度短的给定长度的原始视频剪辑,其中所述原始视频剪辑包括原始音频数据。其中所述GAN生成的音频数据的生成至少部分地基于所述原始音频数据。
根据本发明的一个方面,提供一种方法、计算机程序产品和/或系统,其执行以下操作(不一定按以下顺序):(i)使用生成性对手网络(GAN)来生成GAN生成的音频数据(与生成图像相反,这些GAN通常都是这样做的);(ii)提供比预定长度短的给定长度的原始视频剪辑,所述原始视频剪辑包括原始音频数据;以及(iii)组合所述原始视频剪辑和所述GAN生成的音频数据以获得具有所述预定长度的填充视频剪辑。其中所述GAN生成的音频数据的生成至少部分地基于所述原始音频数据。
现在将参见图5描述根据本发明实施例的方法,该方法由媒体解释系统(MIS)500和子系统510和548执行。该方法开始于S502,其中包括视频和音频内容的内容块被上传到MIS500。在S504,根据期望的片段时长长度分割内容块的视频内容,得到期望片段长度的多个视频片段,以及时长长度达到期望时长长度的最终视频片段。在S512,填充生成子系统(PGS)510(MIS500的子系统)确定最终视频片段是否是时长长度比期望的时长长度短的部分片段。如果最终视频片段不是部分片段,那么方法前进到S554,在S554中,媒体解释模型548(MIS500的子系统)在接收到音频内容时解释内容块。如果最终视频片段是部分片段,则处理进行到S514,在S514中,PGS510确定是否存在允许的填充量。如果不存在允许的填充量,则处理如上所述进行到S554。如果存在允许的填充量,则处理进行到S518,其中PGS 510在内容块的视频分量的内容上被训练以确定要附加到最终视频片段的有意义的填充视频内容子片段,在S516参考鉴别器网络以评估有意义的填充视频内容子片段是否适合于内容块。当在S516的鉴别器网络确定有意义的填充内容子片段被确定为适合于内容块时,在S520将其附加到最终视频片段以创建填充的最终视频片段。在S550,将视频内容的多个片段中的所有片段(包括填充的最终视频片段)作为输入提供给媒体解释模型548。在S554处,出于机器学习目的与所提供的任何其他输入一起对从S550提供的输入进行评分。
除了如上所述的视频内容之外,内容块通常还包括音频内容,诸如在S502中。在S506、将所述内容块的音频内容按照期望片段时长长度分割成多个音频片段,得到所述期望片段时长长度的多个音频片段以及达到所述期望片段长度的时长长度的最终音频片段。在S532,PGS510确定最终音频片段是否是时长长度小于期望时长长度的部分最终音频片段。如果最终音频段不是部分最终音频片段,则处理进行到S554,在S554中,将包括最终音频片段的多个音频段提供给媒体解释模型548以用于机器学习目的的评分。如果最终音频片段是部分最终音频片段,则处理进行到S534,其中PGS510确定是否存在允许的填充量。如果不存在允许的填充量,则处理如上所述进行到S554。如果存在允许的填充量,则处理进行到S538,其中对内容块的音频分量的内容进行训练以确定要附加到最终音频片段的有意义的填充音频内容子片段,在S536,参考鉴别器网络来评估有意义的填充音频内容子片段是否适合于内容块。当在S536鉴别器网络确定有意义的填充音频内容子片段被确定为适合于内容块时,在S540,将有意义的填充音频内容子片段附加到最终音频片段以创建填充的最终音频片段。在S552,将音频内容的多个片段中的所有片段(包括填充的最终音频片段)作为输入提供给媒体解释模型548。在S554处,出于机器学习目的与所提供的任何其他输入一起对从S552提供的输入进行评分。
作为本发明实施例的示例用例提供,图6的屏幕截图600示出了示例性机器学习视频输出屏幕,该视频输出屏幕用于对来自最近的网球比赛的一系列网球比赛的兴奋程度进行评分,该兴奋程度是衡量一个人可能发现的特定视频剪辑的兴奋程度的一个指标。
本发明的一些实施例可以包括以下特征中的一个或多个,特征和/或优点:(i)参考上述网球比赛示例,最终/部分片段的2秒内容将被用作到生成性对手网络(GAN)中的数据输入,该生成性对手网络将在4秒填充中创建完全新的内容;(ii)GAN已经针对相同域内的其他内容被训练,因此它可以创建顺序适合的填充;(iii)例如,参考上述网球比赛示例,给定网球点的亮点剪辑可以在获胜镜头之后不久结束,但是从其他剪辑学习,GAN可以创建包括运动员名次、鼓掌或观看者反应的元素的内容;(iv)在人眼看来,创建的内容可能真实,也可能不真实,但是目的是为媒体解释模型准备此片段;(v)那些特征的添加可以帮助媒体解释模型更准确地评估内容;(vi)所生成的填充内容可以被添加到部分片段的末尾;(vii)然而,可能的是,对于某些内容和某些目标,将内容添加到开头或中间可能是适当的;(viii)例如,网球得分以发球开始,如果发现识别发球动作对媒体解释模型很重要,则实现可选择填充第一段的开始,以期GAN将创建媒体解释模型将解释为发球的元素;(ix)许多机器学习模型要求数据被归一化;(x)将在不同尺度上测量的特征的值调整到通用尺度;(xi)一个目标是确保由于其规模而较大的值对该模型不具有过大的影响;(xii)对于通常用于媒体解释的深度神经网络,研究人员通常不知道模型正在使用的每个特征,因此在特征级别归一化更加困难;(xiii)研究人员可以控制馈送给模型的片段的长度,因此通常的做法是保持一致;和/或(xiv)否则,较长片段中的特征可能具有过大的影响,从而扭曲媒体解读。
本发明的一些实施例可以使用以下计算、算法和/或方程中的一些或全部:
(i)此计算为向下取整除(floor division):完整_时长_片段=内容_块//片段_时长;
(ii)部分_片段_时长=内容_块_时长-(完整_时长_片段*片段_时长);
(iii)填充_时长=片段_时长-部分_片段_时长;和/或
(iv)填充_百分比=填充_时长/片段_时长。
Claims (20)
1.一种方法,包括:
接收包括指示第一未填充视听片段的信息的第一未填充视听片段数据集合,其中所述第一未填充视听片段对应于在人类观众的体育比赛中记录的视听数据;
确定在所述第一未填充片段之前和/或之后发生的填充时间间隔的集合;
针对所述填充时间间隔集合中的每个给定填充时间间隔:
如果所述第一未填充视听片段继续通过所述给定填充时间间隔并且具有由机器学习(ML)算法确定的运动观看者兴趣值,则确定将表征所述给定填充时间间隔的分别对应的运动观看者兴趣值,以及
生成针对所述给定填充时间间隔的填充视听片段,以使得针对所述给定填充时间间隔的所述填充视听片段由针对所述给定填充时间间隔确定的所述运动观看者兴趣值来表征;
将所述第一未填充视听片段与对应于所述填充时间间隔集合中的每个填充时间间隔的所述填充视听片段进行组合,以获得包括指示第一填充视听片段的信息的第一填充视听片段数据集合;以及
通过所述ML算法确定作为整体考虑的针对所述第一填充视听片段的体育观看者兴趣值。
2.如权利要求1所述的方法,进一步包括:
至少部分地基于作为整体考虑的针对所述第一填充视听片段的所述运动观看者兴趣值来选择所述第一未填充视听片段以包括在体育亮点回放中。
3.如以上权利要求中任一项所述的方法,其中针对每个给定填充时间间隔生成所述填充视听片段包括针对所述给定填充时间间隔生成合成视听片段。
4.如权利要求3所述的方法,其中针对每个给定填充时间间隔生成所述合成视听片段由生成性对手网络(GAN)执行。
5.如以上权利要求中任一项所述的方法,其中针对每个给定填充时间间隔生成所述填充视听片段包括组合一个或多个预先存在的视听片段,所述预先存在的视听片段具有由所述ML算法确定的已知体育观看者兴趣值。
6.如以上权利要求中任一项所述的方法,其中:
存在如下两个填充时间间隔:紧接在所述第一未填充视听片段之前出现的第一填充时间间隔,以及紧接在所述第一未填充视听片段之后出现的第二填充时间间隔;以及
所述第一和第二填充时间间隔至少基本上具有相等的时长。
7.一种方法,包括:
接收包括指示第一未填充视听片段的信息的第一未填充视听片段数据集合;
确定在所述第一未填充片段之前和/或之后发生的填充时间间隔的集合;
针对所述填充时间间隔集合中的每个给定填充时间间隔:
如果所述第一未填充视听片段继续通过所述给定填充时间间隔并且具有由机器学习(ML)算法确定的观看者兴趣值,则确定将表征所述给定填充时间间隔的分别对应的观看者兴趣值,以及
生成针对所述给定填充时间间隔的合成视听片段,以使得针对所述给定填充时间间隔的所述合成视听片段由针对所述给定填充时间间隔确定的所述观看者兴趣值来表征;
将所述第一未填充视听片段与对应于所述填充时间间隔集合中的每个填充时间间隔的所述合成视听片段进行组合,以获得包括指示第一填充视听片段的信息的第一填充视听片段数据集合;以及
通过所述ML算法确定作为整体考虑的针对所述第一填充视听片段的观看者兴趣值。
8.如权利要求7所述的方法,进一步包括:
至少部分地基于作为整体考虑的针对所述第一填充视听片段的所述观看者兴趣值来选择所述第一未填充视听片段以包括在更大的视频呈现中。
9.如权利要求7或8中任一项所述的方法,其中针对每个给定填充时间间隔生成所述合成视听片段由生成性对手网络(GAN)执行。
10.如权利要求7至9中任一项所述的方法,其中所述合成视听片段是人类观看者不可理解的。
11.如权利要求7至10中任一项所述的方法,其中:
存在如下两个填充时间间隔:(i)紧接在所述第一未填充视听片段之前出现的第一填充时间间隔,以及(ii)紧接在所述第一未填充视听片段之后出现的第二填充时间间隔;以及
所述第一和第二填充时间间隔至少基本上具有相等的时长。
12.如权利要求7至11中任一项所述的方法,进一步包括:
用多个训练数据集合来训练所述ML算法,其中每个训练数据集合包括:(i)视听片段数据集合,所述视听片段数据集合包括指示视听片段的信息;以及(ii)观看者兴趣值;
其中,针对每个给定填充时间间隔生成所述合成视听片段是基于所述多个训练数据集合。
13.一种方法,包括:
接收多个历史视听片段数据集合,其中每个历史视听片段数据集合包括历史视听片段的信息;
接收包括指示第一未填充视听片段的信息的第一未填充视听片段数据集合;
确定在所述第一未填充片段之前和/或之后发生的填充时间间隔的集合;
针对所述填充时间间隔集合中的每个给定填充时间间隔,从一个或多个历史视听片段中生成填充视听片段,从而使得所述填充视听片段具有与如果所述第一未填充视听片段继续通过所述给定填充时间间隔则所述给定填充时间间隔将具有的视听内容类似的视听内容;
将所述第一未填充视听片段与对应于所述填充时间间隔集合中的每个填充时间间隔的所述填充视听片段进行组合,以获得包括指示第一填充视听片段的信息的第一填充视听片段数据集合;以及
通过所述ML算法确定作为整体考虑的针对所述第一填充视听片段的观看者兴趣值。
14.如权利要求13所述的方法,进一步包括:
至少部分地基于作为整体考虑的针对所述第一填充视听片段的所述观看者兴趣值来选择所述第一未填充视听片段以包括在更大的视频呈现中。
15.如权利要求13或14所述的方法,进一步包括:
用多个训练数据集来训练所述ML算法,其中每个训练数据集包括:视听片段数据集合,所述视听片段数据集包括指示视听片段的信息以及观看者兴趣值;
其中所述多个历史视听片段数据集合是所述多个训练数据集合的所述视听片段。
16.如权利要求13至15中任一项所述的方法,其中针对每个给定填充时间间隔生成所述填充视听片段是通过选择单个历史视听片段的至少一部分来执行的。
17.如权利要求13至16中任一项所述的方法,其中针对每个给定填充时间间隔生成所述填充视听片段包括组合多个历史视听片段的多个部分。
18.如权利要求13至17中任一项所述的方法,其中:
存在如下两个填充时间间隔:
紧接在所述第一未填充视听片段之前出现的第一填充时间间隔,以及紧接在所述第一未填充视听片段之后出现的第二填充时间间隔;以及
所述第一和第二填充时间间隔至少基本上具有相等的时长。
19.一种用于管理训练机器模型的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质,所述计算机可读存储介质由处理电路可读并且存储用于由所述处理电路执行以便执行如权利要求1至18中任一项所述的方法的指令。
20.一种计算机程序,存储在计算机可读介质上并且可加载到数字计算机的内部存储器中,所述计算机程序包括软件代码部分,当所述程序在计算机上运行时,所述软件代码部分用于执行如权利要求1至18中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/283,912 | 2019-02-25 | ||
US16/283,912 US10832734B2 (en) | 2019-02-25 | 2019-02-25 | Dynamic audiovisual segment padding for machine learning |
PCT/IB2020/051586 WO2020174383A1 (en) | 2019-02-25 | 2020-02-25 | Dynamic audiovisual segment padding for machine learning |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113439277A true CN113439277A (zh) | 2021-09-24 |
Family
ID=72143024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080014830.3A Pending CN113439277A (zh) | 2019-02-25 | 2020-02-25 | 用于机器学习的动态音频片段填充 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10832734B2 (zh) |
JP (1) | JP7450623B2 (zh) |
CN (1) | CN113439277A (zh) |
GB (1) | GB2596463B (zh) |
WO (1) | WO2020174383A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024104468A1 (zh) * | 2022-11-17 | 2024-05-23 | 北京字跳网络技术有限公司 | 视频剪辑方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10824487B2 (en) | 2018-07-17 | 2020-11-03 | Xandr Inc. | Real-time data processing pipeline and pacing control systems and methods |
US10997464B2 (en) * | 2018-11-09 | 2021-05-04 | Adobe Inc. | Digital image layout training using wireframe rendering within a generative adversarial network (GAN) system |
US10832734B2 (en) * | 2019-02-25 | 2020-11-10 | International Business Machines Corporation | Dynamic audiovisual segment padding for machine learning |
WO2021162935A1 (en) * | 2020-02-13 | 2021-08-19 | Stats Llc | Dynamically predicting shot type using a personalized deep neural network |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5327518A (en) | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
US5793888A (en) | 1994-11-14 | 1998-08-11 | Massachusetts Institute Of Technology | Machine learning apparatus and method for image searching |
CA2167748A1 (en) | 1995-02-09 | 1996-08-10 | Yoav Freund | Apparatus and methods for machine learning hypotheses |
US5596159A (en) | 1995-11-22 | 1997-01-21 | Invision Interactive, Inc. | Software sound synthesis system |
US6266068B1 (en) | 1998-03-13 | 2001-07-24 | Compaq Computer Corporation | Multi-layer image-based rendering for video synthesis |
US6513025B1 (en) | 1999-12-09 | 2003-01-28 | Teradyne, Inc. | Multistage machine learning process |
US7024033B2 (en) | 2001-12-08 | 2006-04-04 | Microsoft Corp. | Method for boosting the performance of machine-learning classifiers |
US20030131362A1 (en) | 2002-01-09 | 2003-07-10 | Koninklijke Philips Electronics N.V. | Method and apparatus for multimodal story segmentation for linking multimedia content |
US7142645B2 (en) * | 2002-10-04 | 2006-11-28 | Frederick Lowe | System and method for generating and distributing personalized media |
JP2006058874A (ja) | 2004-08-20 | 2006-03-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
CN101107858A (zh) | 2005-01-20 | 2008-01-16 | 皇家飞利浦电子股份有限公司 | 自动产生包括产品安置的预告片 |
US8326775B2 (en) | 2005-10-26 | 2012-12-04 | Cortica Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
US9218606B2 (en) | 2005-10-26 | 2015-12-22 | Cortica, Ltd. | System and method for brand monitoring and trend analysis based on deep-content-classification |
US9047374B2 (en) * | 2007-06-08 | 2015-06-02 | Apple Inc. | Assembling video content |
US8207989B2 (en) | 2008-12-12 | 2012-06-26 | Microsoft Corporation | Multi-video synthesis |
US9247225B2 (en) | 2012-09-25 | 2016-01-26 | Intel Corporation | Video indexing with viewer reaction estimation and visual cue detection |
US10068614B2 (en) * | 2013-04-26 | 2018-09-04 | Microsoft Technology Licensing, Llc | Video service with automated video timeline curation |
US10269390B2 (en) | 2015-06-11 | 2019-04-23 | David M. DeCaprio | Game video processing systems and methods |
EP3475920A4 (en) | 2016-06-23 | 2020-01-15 | Loomai, Inc. | SYSTEMS AND METHODS FOR GENERATING HUMAN HEAD COMPUTER-BASED ANIMATION MODELS FROM CAPTURED DATA IMAGES |
CN107707931B (zh) | 2016-08-08 | 2021-09-10 | 阿里巴巴集团控股有限公司 | 根据视频数据生成解释数据、数据合成方法及装置、电子设备 |
US11024009B2 (en) | 2016-09-15 | 2021-06-01 | Twitter, Inc. | Super resolution using a generative adversarial network |
US10074038B2 (en) | 2016-11-23 | 2018-09-11 | General Electric Company | Deep learning medical systems and methods for image reconstruction and quality evaluation |
US10043109B1 (en) | 2017-01-23 | 2018-08-07 | A9.Com, Inc. | Attribute similarity-based search |
US10474880B2 (en) | 2017-03-15 | 2019-11-12 | Nec Corporation | Face recognition using larger pose face frontalization |
CN107464210B (zh) | 2017-07-06 | 2020-02-21 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
CN108256627A (zh) | 2017-12-29 | 2018-07-06 | 中国科学院自动化研究所 | 视听信息互生装置及其基于循环对抗生成网络的训练系统 |
US11615208B2 (en) * | 2018-07-06 | 2023-03-28 | Capital One Services, Llc | Systems and methods for synthetic data generation |
US10832734B2 (en) | 2019-02-25 | 2020-11-10 | International Business Machines Corporation | Dynamic audiovisual segment padding for machine learning |
-
2019
- 2019-02-25 US US16/283,912 patent/US10832734B2/en active Active
-
2020
- 2020-02-25 CN CN202080014830.3A patent/CN113439277A/zh active Pending
- 2020-02-25 JP JP2021535241A patent/JP7450623B2/ja active Active
- 2020-02-25 WO PCT/IB2020/051586 patent/WO2020174383A1/en active Application Filing
- 2020-02-25 GB GB2113427.5A patent/GB2596463B/en active Active
- 2020-09-28 US US17/033,933 patent/US11521655B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024104468A1 (zh) * | 2022-11-17 | 2024-05-23 | 北京字跳网络技术有限公司 | 视频剪辑方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7450623B2 (ja) | 2024-03-15 |
JP2022521120A (ja) | 2022-04-06 |
GB2596463B (en) | 2022-05-11 |
US20210012809A1 (en) | 2021-01-14 |
US10832734B2 (en) | 2020-11-10 |
GB2596463A (en) | 2021-12-29 |
US20200273495A1 (en) | 2020-08-27 |
WO2020174383A1 (en) | 2020-09-03 |
US11521655B2 (en) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663827B2 (en) | Generating a video segment of an action from a video | |
CN113439277A (zh) | 用于机器学习的动态音频片段填充 | |
EP3473016B1 (en) | Method and system for automatically producing video highlights | |
CN111683209B (zh) | 混剪视频的生成方法、装置、电子设备及计算机可读存储介质 | |
Panda et al. | Weakly supervised summarization of web videos | |
US20190205652A1 (en) | System and Method for Automatic Generation of Sports Media Highlights | |
CN107463698B (zh) | 基于人工智能推送信息的方法和装置 | |
US20200387817A1 (en) | Artificial intelligence assisted sports strategy predictor | |
Zhang et al. | Smart jump: Automated navigation suggestion for videos in moocs | |
JP2018534700A (ja) | メディアコンテンツのパフォーマンスの即時予測のための方法及び装置 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
Merler et al. | Automatic curation of golf highlights using multimodal excitement features | |
CN109670572A (zh) | 神经网络预测方法及装置 | |
CN109670588A (zh) | 神经网络预测方法及装置 | |
Park et al. | Multimodal learning model based on video–audio–chat feature fusion for detecting e-sports highlights | |
Baughman et al. | Detection of tennis events from acoustic data | |
US20220358405A1 (en) | System and Method for Generating Artificial Intelligence Driven Insights | |
Godi et al. | Indirect match highlights detection with deep convolutional neural networks | |
CN116324668A (zh) | 从非职业跟踪数据预测nba天赋和质量 | |
Gu et al. | SumBot: Summarize videos like a human | |
Patil et al. | Sports Data Analytics: A Case Study of off-Field Behavior of Players | |
CN113709529B (zh) | 视频合成方法、装置、电子设备及计算机可读介质 | |
CN110019942A (zh) | 一种视频鉴别方法及系统 | |
Samaraweera | Detection and classification of umpire events in cricket videos | |
HEMALATHA | Deep Learning Models based Approaches to Video Captioning using Multimodal Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |