CN113557521A - 使用机器学习从动画媒体内容项目提取时间信息的系统和方法 - Google Patents
使用机器学习从动画媒体内容项目提取时间信息的系统和方法 Download PDFInfo
- Publication number
- CN113557521A CN113557521A CN202080005148.8A CN202080005148A CN113557521A CN 113557521 A CN113557521 A CN 113557521A CN 202080005148 A CN202080005148 A CN 202080005148A CN 113557521 A CN113557521 A CN 113557521A
- Authority
- CN
- China
- Prior art keywords
- media content
- content item
- temporal analysis
- temporal
- computing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000002123 temporal effect Effects 0.000 title claims abstract description 52
- 238000010801 machine learning Methods 0.000 title claims description 50
- 238000012731 temporal analysis Methods 0.000 claims abstract description 158
- 230000004044 response Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 18
- 230000002996 emotional effect Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 description 40
- 230000015654 memory Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 26
- 238000004891 communication Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 23
- 238000004422 calculation algorithm Methods 0.000 description 18
- 239000002131 composite material Substances 0.000 description 18
- 230000008451 emotion Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 230000033001 locomotion Effects 0.000 description 16
- 238000003860 storage Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 239000000470 constituent Substances 0.000 description 7
- 206010011469 Crying Diseases 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000004397 blinking Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 2
- 206010048909 Boredom Diseases 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 101150042248 Mgmt gene Proteins 0.000 description 1
- 206010000496 acne Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 235000019993 champagne Nutrition 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/489—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8146—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Abstract
一种计算机实现的方法可以包括通过包括一个或多个计算设备的计算系统接收描述媒体内容项目的数据,该媒体内容项目包括用于顺序显示的多个图像帧。该方法可以包括通过计算系统将描述媒体内容项目的数据输入机器学习时间分析模型中,该机器学习时间分析模型被配置为接收描述媒体内容项目的数据,并响应于接收描述媒体内容项目的数据,输出描述与顺序地查看媒体内容项目的多个图像帧关联的时间信息的时间分析数据。该方法可以包括通过计算系统并作为机器学习时间分析模型的输出接收时间分析数据。
Description
相关申请的交叉引用
本申请是于2020年2月21日提交的美国临时专利申请序列号62/979,624的继续,出于所有目的将该美国临时专利申请的公开内容通过引用整体并入本文。
技术领域
本公开总体上涉及计算机视觉。更具体地,本公开涉及用于使用机器学习从动画媒体内容项目提取时间信息(temporal information)的系统和方法。
背景技术
用于在移动设备的用户之间进行通信的常规方法可以仅依赖于SMS、通过社交网络应用的消息收发或“文本收发”。互联网或移动设备用户可以通过这些各种媒体交换消息。但是,有时,用户可能希望经由诸如GIF(图形交换格式)或包含一组静态或动画图像的图像文件的媒体内容进行通信。用户可以在互联网上搜索GIF、通过操作系统的原生web浏览器将其复制,并将GIF粘贴在各种消息收发应用中。这些常规系统不太适合在不消耗资源或不需要手动介入的情况下在动态界面内提供分类的内容。此外,这样的常规系统不能提取被传达给媒体内容项目的查看者的关于动画媒体内容项目的有用时间信息。
发明内容
本公开的实施例的各方面和优点将在以下描述中部分地阐述,或者可以从描述中获悉,或者可以通过实施例的实践而获悉。
根据本公开的一个方面,一种计算机实现的方法可以包括:通过包括一个或多个计算设备的计算系统接收描述媒体内容项目的数据,该媒体内容项目包括用于顺序显示的多个图像帧;通过计算系统将描述媒体内容项目的数据输入机器学习时间分析模型中,该机器学习时间分析模型被配置为接收描述媒体内容项目的数据,并响应于接收描述媒体内容项目的数据,输出描述与顺序查看媒体内容项目的多个图像帧关联的时间信息的时间分析数据;和通过计算系统并作为机器学习时间分析模型的输出接收时间分析数据。
根据本公开的另一方面,一种计算系统可以包括一个或多个处理器和机器学习时间分析模型,该机器学习时间分析模型被配置为接收描述媒体内容项目的数据,并响应于接收描述媒体内容项目的数据,输出描述与顺序地查看媒体内容项目的多个图像帧关联的时间信息的时间分析数据。时间信息不能由多个图像帧中的单独图像帧描述。该计算系统可以包括共同存储指令的一个或多个非暂时性计算机可读介质,该指令在由一个或多个处理器执行时使计算系统执行操作。该操作可以包括:接收描述包括用于顺序显示的多个图像帧的媒体内容项目的数据;将描述媒体内容项目的数据输入机器学习时间分析模型中;和接收时间分析数据作为机器学习时间分析模型的输出。
根据本公开的另一方面,一种用于训练机器学习时间分析模型的计算机实现的方法可以包括:通过包括一个或多个计算设备的计算系统接收描述媒体内容项目的数据,该媒体内容项目包括用于顺序显示的多个图像帧;通过计算系统将描述媒体内容项目的数据输入机器学习时间分析模型中,该机器学习时间分析模型被配置为接收描述媒体内容项目的数据,并响应于接收描述媒体内容项目的数据,输出描述与顺序地查看媒体内容项目的多个图像帧关联的时间信息的时间分析数据。该时间信息不能由多个图像帧中的单独图像帧描述。该方法可以包括:通过计算系统并作为机器学习时间分析模型的输出接收时间分析数据;和通过计算系统基于时间分析数据与基准真相时间分析数据的比较来调整机器学习时间分析模型的一个或多个参数。
本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。
参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。结合在本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例,并且与描述一起用于解释相关原理。
附图说明
在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,该说明书参考了附图,在附图中:
图1A描绘了根据本公开的示例实施例的用于使用一个或多个机器学习模型从动画媒体内容项目提取时间信息的示例计算系统的框图。
图1B描绘了根据本公开的示例实施例的用于使用一个或多个机器学习模型从动画媒体内容项目提取时间信息的示例计算的框图。
图1C描绘了根据本公开的示例实施例的用于使用一个或多个机器学习模型从动画媒体内容项目提取时间信息的示例计算设备的框图。
图2描绘了根据本公开的示例实施例的示例机器学习时间分析模型的框图。
图3描绘了根据本公开的示例实施例的用于使用一个或多个机器学习模型从动画媒体内容项目提取时间信息的示例方法的流程图。
图4是根据本公开的示例实施例的显示一系列文本串的示例动画媒体内容项目的示意图。
图5A是描绘了根据本公开的各方面的媒体内容管理系统的高级框图;
图5B是描绘了根据本公开的各方面的执行搜索以在动态界面中实现动画输入的过程的高级框图;
图6A是根据本公开的各方面的根据实施例的用于在媒体内容管理系统中获得(procuring)、组织和检索表达性媒体内容(expressive media content)的系统的网络图,示出了该媒体内容管理系统的框图;
图6B是根据本公开的各方面的根据实施例的用于在媒体内容管理系统中对获得的内容进行分类以执行搜索的系统的高级框图;
图6C是根据本公开的各方面的用于在媒体内容管理系统中编排合成内容项目(composite content item)的系统的高级框图;
图7A是根据本公开的各方面的用于在媒体内容管理系统中对获得的内容进行分类的系统的高级框图;
图7B是根据本公开的各方面的用于执行搜索以在动态界面中实现动画输入的系统的高级框图;
图8A-C是根据本公开的各方面的被提供用于与媒体内容管理系统中的内容交互的动态键盘界面的示例屏幕快照;以及
图9示出了根据本公开的各方面的示例性计算平台,该示例性计算平台设置在被配置为获得、组织和/或检索表达性媒体内容的设备中。
跨多个附图重复的附图标记旨在标识各个实施方式中的相同特征。
具体实施方式
概述
总体上,本公开涉及用于使用机器学习从动画媒体内容项目提取时间信息的系统和方法。当以动画形式查看某些动画媒体内容项目时,它们可以向查看者传达在分析动画媒体内容项目的任何单个帧时可能无法传达的信息。可以训练时间分析机器学习模型以提取这样的时间信息。该信息具有各种有用的应用。例如,该时间信息可以用于识别在逐帧地查看或分析时可能不会看起来不安全的“不安全”(例如,粗俗、令人反感等)的媒体内容项目。如本文所述地提取时间信息可以有助于标记这样的项目和/或从搜索结果中移除这样的项目。此外,提取该时间信息可以有助于改善对项目的分类,因为媒体内容项目如用户感知它们而更好地“被理解”。结果,可以向用户提供更好的搜索结果和建议。
更特别地,根据本公开的各方面,一种用于提取时间信息的计算机实现的方法可以包括:接收描述媒体内容项目的数据,该媒体内容项目包括用于顺序显示的多个图像帧,诸如图形交换格式(GIF)文件。例如,描述媒体内容项目的数据可以限定每个图像帧的图像分量(诸如边缘或像素属性),并且可以例如是GIF文件本身。该方法可以包括将描述媒体内容项目的数据输入机器学习时间分析模型中。该机器学习时间分析模型可以被配置为接收描述媒体内容项目的数据,并且作为响应,输出描述与顺序查看媒体内容项目的多个图像帧关联的时间信息的时间分析数据。如上所述,多个图像帧中的单独图像帧可能无法传达或描述该时间信息。因此,对组合的该组图像帧进行分析或分类可以相对于应用于孤立的每个帧的技术的提供改进。
例如,一些媒体内容项目可以包括动态文字说明(caption),其中,当以动画形式渲染媒体内容项目时,动态文字说明的单词或字母被顺序显示。动画媒体内容项目可以包括包含第一文本串(例如,第一词组、单词、字母等)的第一图像帧和包括包含第二文本串(例如,第一词组、单词、字母等)的第二图像帧,第二图像帧用于在第一图像帧之后顺序地显示。当媒体内容项目以动画形式渲染时,句子或词组中的每个单词可以被顺序地显示(例如,闪烁)。机器学习时间分析模型可以输出时间分析数据,该时间分析数据描述如由动画媒体内容项目的查看者所感知的完整动态文字说明的语义含义。在该示例中,时间分析数据可以描述在第二文本串之前顺序阅读第一文本串的语义含义。如果第一文本串和/或第二文本串被单独阅读而不评估文本串被组合时的含义,则可能缺失该语义含义。因此,由时间分析模型输出的时间信息可以描述当由查看者阅读时整个动态文字说明或媒体内容项目的语义含义。
作为这样的动态文字说明的一个示例,第一文本串可以包括“good”,而第二文本串可以包括“Grief”。当单独阅读或分析时,“good”可以传达快乐或喜悦,而“Grief”可以传达悲伤。对每个文本串进行分析的简单组合无法捕获如由查看者阅读的动态文字说明的含义。但是,当使用机器学习时间分析模型进行分析时,可以提取描述词组“Good Grief”的描述该词组的含义的时间信息,其传达完全不同的情感,诸如轻松的沮丧。因此,与当文本串在动画媒体内容项目中出现时对其进行单独分析相比,机器学习时间分析模型可以更好地从动态文字说明中提取含义。
此外,动态文字说明的某些部分有时可能会改变外观,其对动态文字说明的含义有贡献。例如,动态文字说明中的单词和/或字母的外观(例如,位置、颜色、大小、字体等)可以随动态文字说明以动画形式被渲染而不同。外观的这些改变可以传达含义,诸如强调和取消强调。例如,可以通过使动态文字说明中的特定单词与动态文字说明中的其他单词相比更大、更粗、颜色更鲜艳等来强调该特定单词。如通常所理解的,一个句子根据强调放在句子中的位置可以具有各种不同的含义。句子“I NEVER SAID SHE STOLE MY MONEY(我从没说过她偷了我的钱)”已被用作改变强调可以如何改变句子的含义的示例。根据哪个单词被强调,该句子具有七种不同的含义。“NEVER SAID SHE STOLE MY MONEY(从没说过她偷了我的钱)”暗示别人确实偷了钱。“ISAID SHE STOLE MY MONEY(我说过她偷了我的钱)”暗示有人指责说话者陈述“SHE STOLE MY MONE(她偷了我的钱)”;等等。可以训练时间分析模型以基于动态文字说明的各种文本串的不同外观来提取描述动态文字说明的语义含义的时间信息。
类似地,(一个或多个)时间分析模型可以提取包括在物体、人等的改变场景中(例如,具有或不具有文本)的时间信息。多个图像帧可以包括描述或描绘第一场景的第一图像帧和描述第二场景的第二图像帧,第二图像帧用于在第一图像帧之后顺序地显示。时间信息可以描述在第二场景之前顺序查看第一场景的语义含义,该语义含义不是通过单独查看或分析第一场景或第二场景被描述或传达的。此外,应当理解,提取的时间信息可以描述在特定场景之后显示特定文字说明的组合,或反之亦然。
在一些实施例中,时间分析数据可以描述媒体内容项目的情感内容。不同情感内容的示例可以包括焦虑、恐惧、愤怒、快乐、悲伤、嫉妒、欲望、兴趣、震惊、无聊、惊讶、安心、厌恶、羞耻、可怜和任何其他人类情感。即使每个单独的场景在被逐帧或逐场景地查看或分析时可能不传达特定情感,但是场景的特定序列可以传达该特定情感。提取的时间分析数据可以描述该特定情感。
在一些实施例中,时间分析模型(例如,其分割模型)可以被配置为从媒体内容项目生成一个或多个媒体内容项目部段(segment)(例如,与其部分对应)。时间分析数据可以被配置为生成中间时间分析数据,该中间时间分析数据描述分别与媒体内容项目的部段关联的时间信息。时间分析模型可以被配置为处理中间时间分析数据以生成时间分析数据。
在一些实施例中,分割模型可以被配置为基于文字说明出现、改变、移动等和/或基于媒体内容项目中的场景改变来自动分割媒体内容项目。
此外,在一些实施例中,系统(例如,时间分析模型)可以被配置为将媒体内容项目的一个或多个部段识别为与另一媒体内容项目的一些或全部对应。该系统可以从其他媒体内容项目(例如,其时间分析数据和/或元数据)获取(retrieve)(一个或多个)部段的元数据和/或时间分析数据。获取的数据(例如,时间分析数据和/或元数据)可以用于生成媒体内容项目的时间分析数据。例如,可以对获取的数据进行分析、加权、组合、内插等,以生成描述媒体内容项目本身的时间内容的合成数据。例如,可以获取描述媒体内容项目的第一部段的内容的第一元数据,并且可以获取描述在媒体内容项目88的第一部段之后显示的媒体内容项目的第二部段的内容的第二元数据。可以基于对在第二元数据描述的内容之前查看第一元数据描述的内容的效果(effect)的分析来生成媒体内容项目的时间分析数据。因此,媒体内容项目的部段的部段时间分析数据和/或部段元数据可以用于生成媒体内容项目的时间分析数据。
在一些实施例中,媒体内容项目可以包括广告和/或赞助内容。可以响应于(例如,在动态键盘界面内的)搜索查询来提供和/或作为对用户的建议(例如,作为用于使用消息收发应用编写消息的自动完成功能的一部分)来提供这样的媒体内容项目。如本文所述地提取时间信息对于赞助媒体内容可能特别有用。改进的分类和/或向搜索查询提供改进的搜索结果可以激励用户互动,从而提高广告的有效性。例如,可以通过动态文字说明的语义含义和/或通过情感内容来更好地对广告进行分类。例如,可以响应于与惊讶关联的搜索查询提供(以使用逐帧分析不容易确定的方式)描绘惊讶的广告。结果,可以响应于搜索查询提供更相关的赞助媒体内容项目,从而增加用户与赞助媒体内容项目的互动。
本公开的系统和方法可以提供许多技术效果和益处。例如,响应于给定搜索查询,可以将更少、更准确的搜索结果发送到用户计算设备。结果,可以消耗或需要较少的计算源来发送和/或存储搜索结果(例如,用户计算设备和/或服务器计算设备上的存储大小、数据传输带宽等)。另外,用户可以更容易地找到(locate)适当的或特定的媒体内容项目,从而减少用户需要执行的搜索的数量。此外,对媒体内容项目的分析或分类可以提供媒体内容项目的内容的更准确的描述。例如,描述输入机器学习时间分析模型的媒体内容项目的数据可以描述或限定一组图像帧中的每个图像帧的图像分量(诸如边缘或像素属性),并且可以例如是GIF文件本身。可以训练机器学习时间分析模型来分析该底层(underlying)图像帧数据以产生时间分析数据输出。机器学习时间分析模型输出的时间分析数据可以以比通过对该组图像帧的逐帧分析产生的数据更准确的方式描述该组图像帧中显示的主题(当以动画形式显示时)。因此,本申请为技术问题(例如,对诸如GIF的短视频的媒体的理解、分类和/或归类)提供了技术解决方案(例如,改进的图像和视频处理和分析)。
例如,时间信息可以描述、识别和/或用于识别和/或检测媒体内容项目中在被逐帧分析时可能不出现的预定模式。如本文所述地提取时间信息可以有助于识别或检测在逐帧分析媒体内容时通常不可检测的这样的预定模式,并且有助于从搜索结果中移除与所述预定模式关联和/或包括所述预定模式的媒体内容项目。结果,可以更准确和高效地提供搜索结果,从而节省计算资源和传输带宽。
更特别地,根据本公开的各方面,一种用于提取时间信息的计算机实现的方法可以包括:接收描述媒体内容项目的数据,该媒体内容项目包括用于顺序显示的多个图像帧,诸如图形交换格式(GIF)文件。该方法可以包括将描述媒体内容项目的数据输入机器学习时间分析模型中。该机器学习时间分析模型可以被配置为接收描述媒体内容项目的数据,并且作为响应,输出描述与顺序查看媒体内容项目的多个图像帧关联的时间信息的时间分析数据。
此外,多个图像帧可以包括包含第一数字图像的第一图像帧和第二数字图像,以在第一图像帧之后顺序地显示,第二图像帧可以包括第二数字图像。时间分析数据描述的时间信息可以描述由在第二数字图像之前顺序地检测第一数字图像描述的模式,该模式不是通过单独地检测第一数字图像或第二数字图像被描述的。
此外,第一图像帧的第一数字图像可以在颜色、粗度、位置或形状中的至少一个方面具有与第二图像帧的第二数字图像的外观不同的外观。此外,时间分析数据可以描述与具有与第二数字图像的外观不同的外观的第一数字图像关联的模式。可以将与具有与第二数字图像的外观不同的外观的第一数字图像关联的所述模式与预定模式进行比较,并且如果模式与预定模式匹配则可以从搜索结果移除与所述预定模式关联或包括所述预定模式的媒体内容项目。
作为一个示例,可以在应用、浏览器插件的环境(context)或其他环境中包括或以其他方式使用本公开的系统和方法。因此,在一些实施方式中,本公开的模型可以被包括在诸如膝上型计算机、平板计算机或智能电话的用户计算设备中或以其他方式由其存储和实现。作为又另一示例,该模型可以被包括在根据客户端-服务器关系与用户计算设备进行通信的服务器计算设备中或以其他方式由其存储和实现。例如,该模型可以由服务器计算设备实现为web服务的一部分(例如,web电子邮件服务)。
现在参考附图,将更详细地讨论本公开的示例实施例。
示例设备和系统
图1A描绘了根据本公开的示例实施例的用于使用机器学习模型从动画媒体内容项目中提取时间信息的示例计算系统10的框图。系统10可以包括通过网络80通信地联接的用户计算设备11、服务器计算系统40和训练计算系统60。
用户计算设备11可以是任何类型的计算设备,诸如,举例来说,个人计算设备(例如,膝上型计算机或台式计算机)、移动计算设备(例如,智能电话或平板计算机)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。
用户计算设备11包括一个或多个处理器12和存储器14。一个或多个处理器12可以是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或操作性地连接的多个处理器。存储器14可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及其组合。存储器14可以存储由处理器12执行以使用户计算设备11执行操作的指令18和数据16。
用户计算设备11可以存储或包括一个或多个时间分析模型20。例如,(一个或多个)时间分析模型20可以是或可以以其他方式包括各种机器学习模型,诸如神经网络(例如,深度神经网络)或其他多层非线性模型。神经网络可以包括循环神经网络(例如,长短期记忆循环神经网络)、前馈神经网络或其他形式的神经网络。参考图2讨论(一个或多个)示例时间分析模型20。
在一些实施方式中,可以通过网络80从服务器计算系统40接收一个或多个时间分析模型20,将其存储在用户计算设备存储器14中,并且由一个或多个处理器12使用或以其他方式实现。在一些实施方式中,用户计算设备11可以实现(一个或多个)单个时间分析模型20的多个并行实例(例如,以跨模型20的多个实例执行并行分析)。
附加地或替代地,一个或多个时间分析模型50可以被包括在根据客户端-服务器关系与用户计算设备11进行通信的服务器计算系统40中或以其他方式由其存储和实现。例如,(一个或多个)时间分析模型50可以由服务器计算系统40实现为web服务的一部分。因此,可以在用户计算设备11处存储和实现一个或多个模型20,和/或可以在服务器计算系统40处存储和实现一个或多个模型50。
用户计算设备11还可以包括接收用户输入的一个或多个用户输入组件22。例如,用户输入组件22可以是对用户输入物体(例如,手指或手写笔)的触摸敏感的触敏组件(例如,触敏显示屏或触摸板)。触敏组件可以用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可通过其输入通信的其他手段。
服务器计算系统40包括一个或多个处理器42和存储器44。一个或多个处理器42可以是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或操作性地连接的多个处理器。存储器44可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器44可以存储由处理器42执行以使服务器计算系统40执行操作的指令48和数据46。
在一些实施方式中,服务器计算系统40包括一个或多个服务器计算设备或以其他方式由其实现。在服务器计算系统40包括多个服务器计算设备的情况下,这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。
如上所述,服务器计算系统40可以存储或以其他方式包括一个或多个机器学习时间分析模型50。例如,模型50可以是或可以以其他方式包括各种机器学习模型,诸如神经网络(例如,深度循环神经网络)或其他多层非线性模型。参考图2讨论示例模型50。
服务器计算系统40可以经由与通过网络80通信地联接的训练计算系统60的交互来训练模型20、50。训练计算系统60可以与服务器计算系统40分离或者可以是服务器计算系统40的一部分。
训练计算系统60可以包括一个或多个处理器62和存储器64。一个或多个处理器62可以是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或操作性地连接的多个处理器。存储器64可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器64可以存储由处理器62执行以使训练计算系统160执行操作的指令68和数据66。在一些实施方式中,训练计算系统60包括一个或多个服务器计算设备或以其他方式由其实现。
训练计算系统60可以包括模型训练器70,该模型训练器使用各种训练或学习技术(诸如例如误差的反向传播)来训练存储在服务器计算系统40处的机器学习模型50和/或存储在用户计算设备11处的模型20。在一些实施方式中,执行误差的反向传播可以包括执行通过时间的截断反向传播(truncated backpropagation through time)。模型训练器160可以执行多种泛化(generalization)技术(例如,权重衰减、丢弃(dropout)等),以提高被训练的模型的泛化能力。
在一些实施方式中,如果用户已经提供同意,则训练样本(training example)可以由用户计算设备11提供(例如,基于先前由用户计算设备11的用户提供的通信)。因此,在这样的实施方式中,提供给用户计算设备11的模型20可以由训练计算系统60在从用户计算设备11接收的用户特定的通信数据上进行训练。在某些情况下,该过程可以称为对模型个性化。
模型训练器70包括用于提供期望功能的计算机逻辑。可以在硬件、固件和/或控制通用处理器的软件中实现模型训练器70。例如,在一些实施方式中,模型训练器70包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中,模型训练器70包括一组或多组计算机可执行指令,其存储在有形的计算机可读存储介质(诸如RAM硬盘或光学或磁介质)中。模型训练器70可以基于训练数据72来训练(一个或多个)模型20、50。
网络80可以是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,互联网)或其某种组合,并且可以包括任何数量的有线或无线链路。通常,可以使用各种不同的通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)和/或保护方案(例如,VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来承载通过网络180的通信。
图1A示出了可以用于实现本公开的一个示例计算系统。也可以使用其他计算系统。例如,在一些实施方式中,用户计算设备11可以包括模型训练器70和训练数据集72。在这样的实施方式中,可以在用户计算设备102处本地地训练和使用模型120。在一些这样的实施方式中,用户计算设备102可以实现模型训练器160以基于用户特定的数据来对模型120个性化。
图1B描绘了根据本公开的示例实施例执行的示例计算设备82的框图。计算设备82可以是用户计算设备或服务器计算设备。
计算设备82包括多个应用(例如,应用1到N)。每个应用包含它自己的机器学习库和(一个或多个)机器学习模型。例如,每个应用都可以包括机器学习模型。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。
如图1B所示,每个应用可以与计算设备的许多其他组件进行通信,诸如,举例来说,一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中,每个应用可以使用API(例如,公共API)与每个设备组件通信。在某些实施方式中,每个应用使用的API特定于该应用。
图1C描绘了根据本公开的示例实施例执行的示例计算设备84的框图。计算设备84可以是用户计算设备或服务器计算设备。
计算设备84包括多个应用(例如,应用1到N)。每个应用与中央智能层(centralintelligence layer)进行通信。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中,每个应用可以使用API(例如,跨所有应用的共用API)与中央智能层(和存储在其中的(一个或多个)模型)进行通信。
中央智能层包括许多机器学习模型。例如,如图1C所示,可以为每个应用提供相应的机器学习模型(例如,模型),并由中央智能层管理该相应的机器学习模型。在其他实施方式中,两个或更多个应用可以共享单个机器学习模型。例如,在一些实施方式中,中央智能层可以为所有应用提供单个模型(例如,单个模型)。在一些实施方式中,中央智能层被包括在计算设备84的操作系统内或以其他方式由其实现。
中央智能层可以与中央设备数据层通信。中央设备数据层可以是用于计算设备84的集中式数据存储库。如图1C所示,中央设备数据层可以与计算设备的许多其他组件通信,诸如,举例来说,一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中,中央设备数据层可以使用API(例如,私有API)与每个设备组件通信。
示例模型布置
图2描绘了根据本公开的示例实施例的示例时间分析模型86的框图。在一些实施方式中,训练时间分析模型86以接收描述媒体内容项目88的数据,该媒体内容项目88包括用于顺序显示的多个图像帧(例如,图形交换格式(GIF)文件)。机器学习时间分析模型86可以被配置为接收描述媒体内容项目88的数据,并且作为响应,输出描述与顺序查看媒体内容项目88的多个图像帧关联的时间信息的时间分析数据90。媒体内容项目88的单独图像帧可能无法传达或描述由时间分析数据90描述的时间信息。时间分析模型86还可以被配置为接收描述在媒体内容项目88的一个或多个图像帧中识别的一个或多个文本串的文本识别数据89。例如,如以下参考图6A和7B所述,可以从自然语言解析器(NLP)接收文本识别数据89。
在一些实施例中,时间分析模型86(例如,其分割模型)可以被配置为从媒体内容项目88生成一个或多个媒体内容项目部段。时间分析数据90可以被配置为生成中间时间分析数据,该中间时间分析数据描述分别与媒体内容项目88的部段关联的时间信息。时间分析模型86可以被配置为处理中间时间分析数据以生成时间分析数据90。
在一些实施例中,分割模型可以被配置为基于文字说明出现、改变、移动等和/或基于媒体内容项目88中的场景改变来自动分割媒体内容项目88。
此外,在一些实施例中,系统(例如,时间分析模型86)可以被配置为将媒体内容项目88的一个或多个部段识别为与另一媒体内容项目的一些或全部对应。该系统可以从其他媒体内容项目(例如,其时间分析数据和/或元数据)获取(一个或多个)部段的元数据和/或时间分析数据。获取的数据(例如,时间分析数据和/或元数据)可以用于生成媒体内容项目88的时间分析数据。例如,可以对获取的数据进行分析、加权、组合、内插等,以生成描述媒体内容项目88本身的时间内容的合成数据。例如,可以获取描述媒体内容项目88的第一部段的内容的第一元数据,并且可以获取描述在媒体内容项目88的第一部段之后显示的媒体内容项目88的第二部段的内容的第二元数据。可以基于对在第二元数据描述的内容之前查看第一元数据描述的内容的效果的分析来生成媒体内容项目88的时间分析数据。因此,媒体内容项目88的部段的部段时间分析数据和/或部段元数据可以用于生成媒体内容项目88的时间分析数据。
本公开的各方面涉及训练时间分析模型86。可以基于时间分析模型86输出的时间分析数据90与基准真相(ground truth)时间分析数据92的比较来调整时间分析模型86的一个或多个参数。例如,可以计算时间分析损失94,该时间分析损失94描述损失描述时间分析数据90与基准真相时间分析数据92之间的比较。可以基于时间分析损失94例如使用误差的反向传播来迭代地调整时间分析模型86的参数。
时间分析数据90和/或基准真相时间分析数据92可以包括或描述各种信息。例如,时间分析数据90和/或基准真相时间分析数据92可以包括或描述一个或多个内容关联(例如,如下面参考图5A至图5C所述)、动画媒体内容项目的情感内容、动态文字说明的含义(例如,包括任何强调)等等。
示例方法
图3描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管为了说明和讨论的目的,图3描绘了以特定次序执行的步骤,但是本公开的方法不限于特定地示出的次序或布置。在不脱离本公开的范围的情况下,可以以各种方式省略、重新布置、组合和/或适应方法300的各个步骤。
在302处,计算系统可以接收描述媒体内容项目的数据,该媒体内容项目包括用于顺序显示的多个图像帧,诸如图形交换格式(GIF)文件。例如,如参考图5A至图7B所述,计算系统可以从媒体内容存储(store)106、媒体内容源124、第三方应用202和/或用户设备102接收(一个或多个)媒体内容项目。
在304处,计算系统可以将描述媒体内容项目的数据输入机器学习时间分析模型中,例如,如上面参考图1A至图2所述。机器学习时间分析模型可以被配置接收描述媒体内容项目的数据,并作为响应,输出描述与顺序查看媒体内容项目的多个图像帧关联的时间信息的时间分析数据。多个图像帧中的单独图像帧可能无法传达或描述该时间信息。该时间分析数据可以描述媒体内容项目和/或其中包括的动态文字说明的语义含义、语调(tone)和/或情感内容。
在306处,计算系统可以接收时间分析数据作为机器学习时间分析模型的输出。该时间分析数据可以用于识别在逐帧地查看或分析时可能不会看起来不安全的“不安全”(例如,粗俗、令人反感等)的媒体内容项目,和/或可以有助于对媒体内容项目的改善的分类,因为媒体内容项目可以如用户感知它们而更好地“被理解”。因此,可以采用时间分析数据来提高针对用户的包括媒体内容项目的搜索结果和/或建议的相关性。
参考图4,在一些实施方式中,媒体内容项目可以包括动态文字说明,其中,当以动画形式渲染媒体内容项目时,动态文字说明的单词或字母被顺序显示。动画媒体内容项目可以包括包含第一文本串408(例如,第一词组、单词、字母等)的第一图像帧402和包含第二文本串410(例如,第一词组、单词、字母等)的第二图像帧404,以在第一图像帧402之后顺序地显示。动画媒体内容项目还可以可选地包括包含第三文本串412的第三图像帧406。
动态文字说明可以被顺序地显示(例如,如箭头414、416所示),以连接图像帧402、404、406。当媒体内容项目以动画形式渲染时,句子可以被顺序地显示(例如,闪烁)。时间分析数据可以描述如由动画媒体内容项目的查看者所感知的完整动态文字说明的语义含义。更具体地,时间分析数据可以描述在第二文本串410(和第三文本串412等,如果第三文本串412等存在)之前顺序阅读第一文本串408的语义含义。在单独阅读第一文本串408或第二文本串410时可能缺失这种语义含义。因此,由时间分析模型输出的时间信息可以描述当由查看者阅读时整个动态文字说明或媒体内容项目的语义含义。
作为这样的动态文字说明的一个示例,第一文本串可以包括“good”,而第二文本串可以包括“Grief”。当单独阅读或分析时,“good”可以传达快乐或喜悦,而“Grief”可以传达悲伤。但是,当作为动态文字说明进行分析时,词组“Good Grief”传达完全不同的情感,诸如轻松的沮丧。
再次参考图4,动态文字说明的某些部分有时可能会改变外观。例如,动态文字说明中的单词和/或字母的外观(例如,位置、颜色、大小、字体等)可以随动态文字说明以动画形式被渲染而不同。外观的这些改变可以传达含义,诸如强调。可以通过使动态文字说明中的特定单词与动态文字说明中的其他单词相比更大、更粗、颜色更鲜艳等来强调该特定单词。这样的强调可以影响动态文字说明的含义。如通常所理解的,同一句子根据句子中的哪个(哪些)单词被强调而可以具有各种不同的含义。例如,句子“I NEVER SAID SHE STOLEMY MONEY(我从没说过她偷了我的钱)”已被用作强调可以如何改变句子的含义的示例。根据哪个单词被强调,该句子具有七种不同的含义。“NEVER SAID SHE STOLE MY MONEY(从没说过她偷了我的钱)”暗示其他人说过。“ISAID SHE STOLE MY MONEY(我说过她偷了我的钱)”暗示有人指责过说话者说了她偷了他的钱;等等。可以训练时间分析模型以基于动态文字说明的文本串的不同外观来提取描述这样的不同含义的含义的时间信息。
作为一个示例,动画媒体内容项目可以顺序地显示三个图像帧402、404、406。第一图像帧402可以包括第一文本串408“I NEVER SAID(我从没说过)”。第二图像帧404可以包括第二文本串410“SHE(她)”,并且第三图像帧406可以包括第三文本串412“STOLE MYMONEY(偷了我的钱)”。可以通过与动态文字说明的其他单词相比显示为更大、更粗、颜色更鲜艳等来强调文本串中的一个或多个(例如,在该示例中的第二文本串410)。
时间分析数据可以描述当被顺序阅读时动态文字说明的含义。在以上参考图4描述的示例中,时间分析数据可以包括由来自第二文本串410在外观上与其他文本串408、412不同的强调赋予的语义含义。更具体地,在该示例中,时间分析数据可以描述暗示说话者说过别人偷了他的钱的语义含义。因此,时间分析数据可以描述当由阅读者顺序地查看时动态文字说明的语义含义,包括来自动态文字说明的文本串408、410、412的不同视觉特性的强调。
类似地,(一个或多个)时间分析模型可以提取包括在物体、人等的改变场景(例如,具有或不具有文本)中的时间信息。多个图像帧可以包括描述或描绘第一场景的第一图像帧和描述第二场景的第二图像帧,以在第一图像帧之后顺序地显示。时间信息可以描述在第二场景之前顺序查看第一场景的语义含义,该语义含义不是通过单独查看或分析第一场景或第二场景被描述或传达的。
在一些实施例中,时间分析数据可以描述媒体内容项目的情感内容。不同情感内容的示例可以包括焦虑、恐惧、愤怒、快乐、悲伤、嫉妒、欲望、兴趣、震惊、无聊、惊讶、安心、厌恶、羞耻、可怜和任何和全部其他人类情感。即使单独的场景在被逐帧或逐场景地查看或分析时可能不传达特定情感,但是场景的特定序列可以传达该特定情感。
在一些实施例中,媒体内容项目可以包括广告和/或赞助内容。可以响应于(例如,在动态键盘界面内的)搜索查询来提供和/或作为对用户的建议(例如,作为用于使用消息收发应用编写消息的自动完成功能的一部分)来提供这样的媒体内容项目。如本文所述地提取时间信息对于赞助媒体内容可能特别有用。改进的分类和/或向搜索查询提供改进的搜索结果可以激励用户互动,从而提高广告的有效性。例如,可以通过动态文字说明的语义含义和/或通过情感内容来更好地对广告进行分类。例如,可以响应于与惊讶关联的搜索查询提供描绘惊讶的广告。结果,用户更有可能与赞助媒体内容项目进行互动。
示例配置
图5A是描绘根据一些实施例的媒体内容管理系统100的高级框图。媒体内容管理系统100可以从媒体内容源124接收存储在媒体内容存储106中的媒体内容项目104。图5A和其他附图使用相同的附图标记来标识相同的元素。附图标记后面有字母,诸如“102a”,指示该文本特别地指具有该特定附图标记的元素。文本中没有跟有字母的附图标记(诸如“102”)是指附图中带有该附图标记的任何或所有元素(例如,文本中的“102”指附图中的附图标记“102a”和/或“102b”)。为了简化描述并使描述清楚,图5A中仅示出了两个用户设备102。在一个实施例中,管理员可以通过单独的登录过程通过用户设备102(例如,用户设备102a和102b)访问媒体内容管理系统100。
如上所述,媒体内容项目104可以包括各种类型的内容,诸如动画GIF(一系列图像)、静态图像、视听内容项目/视频以及合成内容项目,诸如多个动画GIF和/或图像内容。媒体内容项目104被接收到媒体内容管理系统100并被存储到媒体内容存储106中。媒体内容项目104可以具有一个或多个属性(诸如内容源、尺寸、内容品牌(例如,派拉蒙影业、NBC环球等))、内容中包括的字符、内容中包括的文本串等。在一个实施例中,属性可以包括元数据属性。
在媒体内容存储106中,可以将媒体内容项目104与媒体内容项目104的集合(collection)或分组关联地存储。在一个实施例中,可以由媒体内容管理系统100的管理员生成集合。在一个实施例中,可以基于集合中的媒体内容项目104共享的一个或多个属性来自动生成集合。在实施例中,内容关联(content association)或唯一标识符可以用于表示媒体内容管理系统100中的集合。例如,媒体内容项目104可以被“内容关联”为媒体内容管理系统100中的“#happy(#快乐)”集合的一部分。在一个实施例中,用户或管理员可以将媒体内容项目104内容关联为“#happy”集合的一部分。在另一实施例中,内容关联器模块108可以使用存储在内容关联存储118中的内容关联,将媒体内容项目104与媒体内容项目104自动关联。以这种方式,在媒体内容管理系统100中,可以使用内容关联(诸如“#happy”)来获得和分类内容。在媒体内容管理系统100中,各个集合或文件组均可以用内容关联标记。在一个实施例中,特定文件可以与一个或多个内容关联相关联。
内容关联器模块108可以包括一个或多个时间分析模型109,例如,如上面参考图2的时间分析模型86所述的时间分析模型。内容关联模块108可以被配置为分析媒体内容项目104并基于从媒体内容项目中提取的时间分析数据生成媒体内容项目104的内容关联。
在一个实施例中,媒体内容管理系统100的用户可以通过用户设备102a将内容添加到媒体内容管理系统100。例如,用户可能已经在用户设备102a上安装了应用扩展116,使得用户可以“保存”通过使用用户设备102a上的浏览器110浏览网页112找到的内容项目114。在一个实施例中,通过使用应用扩展116保存内容项目114,可以将URL(统一资源定位符)与内容项目114关联地存储为内容项目的属性。在一个实施例中,应用扩展116可以包括使用户能够浏览到网页并收集呈现在网页上的媒体内容项目的可下载应用。作为示例,博客的网页可以发布在媒体内容管理系统100上可能可获得或可能不可获得的特别有趣的内容项目。使用应用扩展116,用户可以浏览到网页112,通过浏览器110访问菜单,并选择选项以保存已经呈现在网页112上的一个或多个内容项目114。在一个实施例中,应用扩展116是使移动浏览器110能够执行此功能的移动应用。在其他实施例中,应用扩展116可以是浏览器扩展应用或小应用,其可以通过移动设备或台式计算机上的浏览器110下载。在其他实施例中,应用扩展116可以使用户能够直接将内容项目114上传到媒体内容管理系统100中的媒体内容存储106。
在另一实施例中,作为用户操作上述应用扩展116的一部分,将内容项目114的副本存储在媒体内容存储106中。在其他实施例中,将内容项目114的链接或URL存储在媒体内容存储106中。在又另一实施例中,内容项目114的副本作为用户设备102a上的“保存”的集合或用户生成的集合的一部分被存储在用户设备102a上。用户可以在各种用户设备102上登录到他或她的帐户,使得可以在用户设备102之间同步集合,包括用户生成的集合,诸如“保存”的集合。
在一个实施例中,可以由媒体内容管理系统100的管理员以其他方式来获得呈现在网页112上或以其他方式可以通过web服务器访问的内容项目114。例如,内容所有者(诸如电影工作室、电视工作室)、品牌所有者和其他内容产生者可以与媒体内容管理系统100的管理员合作,使得可以将许可的内容递送并存储在媒体内容存储106中。在这样的获得过程(procurement process)中,内容所有者可以提供具有预先填充的属性的媒体内容项目104,如上所述。诸如内容所有者的媒体内容源124可以包括例如由第三方源或网站维护和操作的服务器上的内容存储或数据库。作为获得过程的一部分,可以通过将内容项目104与来自内容关联存储118的一个或多个内容关联相关联地存储来将内容项目104分类为一个或多个集合。在一个实施例中,内容关联可以由内容关联器模块108基于内容项目104的属性自动生成。在另一实施例中,可以通过一个或多个用户接口或通过应用编程接口(API)来选择内容关联。在其他实施例中,媒体内容项目104可以是在通过用户设备102上的一个或多个用户接口存储在媒体内容存储106中之后由媒体内容管理系统100的用户关联的内容。
如图5A进一步所示,例如,可以在用户设备102b上提供动态键盘界面122。动态键盘界面122可以包括媒体内容项目104以及媒体内容项目104的集合。例如,动态键盘界面122可以包括被内容关联为“#FOMO”的媒体内容项目104的集合。“#FOMO”是互联网用语中的表达,表示“害怕错过(fear of missing out)”。因此,包括在“#FOMO”集合中的媒体内容项目104可以关于或包括关于特定表达“害怕错过”的表达性陈述。在一个实施例中,可以从媒体内容项目104中提取和/或以其他方式从其解译一个或多个表达性陈述。例如,管理用户(curating user)可以基于媒体内容项目104中的图像与表达“害怕错过”相关(诸如图像中“FOMO”的闪烁文本(blinking text)、来自电影或电视节目的指示图像中的人物孤独、没有朋友或以其他方式害怕错过很酷的事件的文字说明对话)将媒体内容项目104内容关联为“#FOMO”。通过获得过程,表达性陈述可以被映射到媒体内容管理系统100中的内容关联。在一个实施例中,这些表达性陈述可以与用户经由动态界面中的动画输入执行搜索的搜索意图相关。
如图5A所示,动态键盘界面122还可以包括实现动画输入的动态键盘的其他动画键(key)或区域。除了还包括香槟酒瓶的“#FOMO”动画键之外,还示出了以握手方式握住的两只手、婴儿哭泣、一副眼镜、“#happy”内容关联和“#LOL”内容关联的动画键作为示例动画键。尽管未示出,但是动画键可以包括在动态键盘界面122中渲染为动画的媒体内容项目104,这意味着内容可以在键内以不断的循环移动。在一个实施例中,媒体内容项目104可以被预处理以能够实现动态界面中的动画输入。
在选择动态键盘界面122中的动画键之一之后,用户设备102b可以通过搜索界面模块(search interface module)120与媒体内容管理系统100进行通信。在一个实施例中,可以针对动态键盘界面122的每个用户将用户的搜索历史和/或用户的共享历史作为个性化信息存储在个性化存储150中。可以捕获关于用户设备102的其他个性化信息,诸如位置(经由GPS和/或IP地址)、安装的语言键盘、默认语言选择、电话信息、联系人信息、安装的消息收发应用等。例如,个性化存储150中包括的数据可以被搜索界面模块120用作确定用户的搜索意图的一个或多个因素。如图5B中进一步示出的,可以通过安装在用户设备102b上的动态键盘应用130在用户设备102b上渲染动态键盘界面122。动态键盘应用130可以安装动态键盘用户界面132,该动态键盘用户界面132使动态键盘界面122能够作为第三方键盘在整个用户设备102b中被访问。以这种方式,使用消息收发应用140的收发消息的用户可以从消息收发应用140内访问动态键盘界面122。
图5B是描绘实施例中执行搜索以在动态界面中实现动画输入的过程的高级框图。如图5B中进一步示出的,通过与搜索界面模块120通信的动态键盘用户界面132在动态键盘界面122中渲染媒体内容项目104。在一个实施例中,可以选择一组集合以在动态键盘界面122上显示。如图1B所示,动态键盘界面122包括“#PLEASE”、“#HAPPY”、“#RUDE”和“#FACEPALM”集合。尽管在此处包括的示例中使用了井号符号(#'),但内容关联不一定需要以井号开始。通过选择动态键盘界面122上的动画键,搜索界面模块120可以从媒体内容存储106中检索媒体内容项目104的集合,然后由动态键盘用户界面132在动态键盘界面122中渲染该媒体内容项目104的集合。通过这样的方式,进行搜索的用户将通过使用诸如“#HAPPY”的选择的内容关联来搜索媒体内容管理系统100。检索到的媒体内容项目104的集合可以在动态键盘界面122内渲染。由于“#HAPPY”集合可以被实时地更新和添加,因此当新项目被添加到集合时可以向进行搜索的用户呈现不同的媒体内容项目104。如上所述,可以预处理媒体内容项目104以减小内容的文件大小,从而使媒体内容项目104能够在动态键盘界面122上快速渲染。
然后,进行搜索的用户可以通过触摸动态键盘用户界面132或以其他方式与动态键盘用户界面132交互来从动态键盘界面122中选择媒体内容项目。然后,可以将选择的媒体内容项目144发送或粘贴到消息收发应用140的消息收发用户界面142中。在一个实施例中,通过点击(clicking)、轻击(tapping)或触摸动态键盘界面122来选择所选择的媒体内容项目144,并保持选择的媒体内容项目144至“复制”该内容,以便可以通过消息收发用户界面142将其“粘贴”到消息收发应用140中。在一个实施例中,这种复制和粘贴方法可以利用用户设备102的操作系统,使得选择的媒体内容项目144不会永久地存储到用户设备102上。在另一实施例中,进行搜索的用户可以通过动态键盘界面122上的搜索域(searchfield)来搜索媒体内容,本文会进一步进行描述。以此方式,可以通过用户设备上可用的任何消息收发平台来共享媒体内容项目104。如上所述,还可以例如通过搜索界面模块120在个性化存储150中捕获个性化信息。在至少一些实施例中,动态键盘界面122可以被实现为由加利福尼亚州旧金山的RIFFSY公司生产的GIF键盘。
图6A是根据实施例的用于在媒体内容管理系统中对获得的内容分类以执行搜索的系统的网络图,示出了媒体内容管理系统的框图。系统环境包括一个或多个用户设备102、媒体内容源124、第三方应用202、媒体内容管理系统100和网络204。在替代配置中,系统中可以包括不同和/或附加模块。
用户设备102可以包括可以接收用户输入并可以经由网络204发送和接收数据的一个或多个计算设备。在另一实施例中,用户设备102可以是具有计算机功能的设备,诸如个人数字助理(PDA)、移动电话、智能电话、可穿戴设备等。用户设备102被配置为经由网络204进行通信。用户设备102可以执行应用,例如,允许用户设备102的用户与媒体内容管理系统100交互的浏览器应用。在另一实施例中,用户设备102通过在用户设备102的原生操作系统上运行的应用编程接口(API)与媒体内容管理系统100交互。
在一个实施例中,网络204使用标准通信技术和/或协议。因此,网络204可以包括使用诸如以太网、802.11、全球微波接入互操作性(WiMAX)、3G、4G、CDMA、数字用户线(DSL)等技术的链路。类似地,网络204上使用的联网协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)和文件传输协议(FTP)。可以使用包括超文本标记语言(HTML)和可扩展标记语言(XML)的技术和/或格式来表示通过网络204交换的数据。另外,可以使用常规加密技术(诸如安全套接字层(SSL)、传输层安全(TLS)和互联网协议安全(IPsec))对所有或某些链路进行加密。
图6A包含媒体内容管理100的框图。媒体内容管理系统100包括媒体内容存储106、内容关联存储118、个性化存储150、搜索界面模块120、内容关联器模块108、动态键盘界面模块208、web服务器210、动态键盘呈现模块212、内容关联管理模块214、情感分析模块220、图像分析器模块222、运动分析器224、自然语言处理(NLP)解析器218、启发式引擎(heuristics engine)216和搜索路由器规则引擎206。在其他实施例中,媒体内容管理系统100可以包括用于各种应用的附加、更少或不同的模块。未示出诸如网络接口、安全功能、负载平衡器、故障转移服务器、管理和网络操作控制台等的常规组件以免使系统的细节模糊不清。
web服务器210经由网络204将媒体内容管理系统100链接到一个或多个用户设备102;web服务器210提供网页以及其他web相关的内容,诸如Java、Flash、XML等。web服务器210可以提供在媒体内容管理系统100和用户设备102之间接收和路由消息的功能,所述消息为例如,即时消息、队列消息(例如,电子邮件)、文本和SMS(短消息服务)消息或使用任何其他合适的消息收发技术发送的消息。用户可以向web服务器210发送请求以上传信息,例如,图像或媒体内容存储在媒体内容存储106中。另外,web服务器210可以提供API功能以直接向原生用户设备操作系统发送数据。
内容关联器模块108可以基于媒体内容项目104的属性自动为媒体内容管理系统100中的媒体内容项目104生成一个或多个内容关联。例如,内容关联器模块108可以使用机器学习技术来确定媒体内容项目104与存储在内容关联存储118中的内容关联之间的关系。
内容关联器模块108可以包括一个或多个时间分析模型109,例如,如以上参考图2的时间分析模型86所述的时间分析模型。内容关联器模块108可以从NLP解析器218接收描述在媒体内容项目的一个或多个图像帧中识别的文本的数据(例如,图2的文本识别数据89)。可以将该数据输入时间分析模型86中。
内容关联模块108可以被配置为分析媒体内容项目104并基于从媒体内容项目中提取的时间分析数据生成媒体内容项目104的内容关联。
在一个实施例中,内容关联器模块108可以识别一个或多个内容源,诸如电影工作室、电影、电视工作室、电视节目、演员、流派等。在另一实施例中,内容关联器模块108可以基于对媒体内容项目104内的图像帧的分析来自动生成媒体内容项目104的内容关联。在又另一实施例中,内容关联器模块108可以使用一种或多种计算机视觉技术和其他图像处理方法。例如,可以采用各种第三方应用202来分析媒体内容项目104内的图像帧,并自动生成要与内容项目关联的一个或多个内容关联。在一个实施例中,内容关联器模块108可以利用一个或多个第三方应用202、NLP解析器218、情感分析模块220、图像分析器222、运动分析器224和启发式引擎216来分析和解析媒体内容项目104中包括的文本以及分析媒体内容项目104的运动图像帧,以自动生成内容关联和/或自动选择存储在内容关联存储118中的内容关联。在另一实施例中,NLP解析器218可以与情感分析模块220组合,并且可以被依赖来分析图像和/或视听内容以确定媒体内容项目104的情感。例如,图像分析器222和运动分析器224可以用于检测和/或分类描绘笑脸的图像序列。启发式引擎216可以包括当媒体内容项目104被存储在媒体内容管理系统100中的媒体内容存储106内时,自动地将具有已经被分析为检测微笑的图像序列的媒体内容项目104与来自内容关联存储118的“#happy”内容关联进行关联的规则。替代地,或除此分析之外,NLP解析器218可以解析图像中包括的文本串并确定与单词“AWESOME(极好的)”的匹配。另外,NLP解析器218可以将微笑解释为表示积极情感。情感分析模块220可以指示单词“AWESOME”与强烈的积极情感关联,并且启发式引擎216可以包括自动地将“#happy”内容关联(和/或其他积极内容关联)与具有强烈的积极情感的媒体内容项目104进行关联的规则。
在实施例中,搜索界面模块120可以管理从用户设备102接收的对媒体内容管理系统100中的媒体内容项目104的搜索请求和/或搜索查询。在一个实施例中,搜索查询可以在搜索界面模块120处被接收并且由搜索路由器规则引擎206来处理。在另一实施例中,作为选择动画键或文本搜索的结果,搜索界面模块120可以基于诸如“#HAPPY”、“#RUDE”、“#FOMO”等的内容关联从用户设备102接收对集合的请求。在实施例中,搜索界面模块120可以将搜索查询传送给搜索路由器规则引擎206以处理该请求。
内容关联管理模块214可以管理与媒体内容管理系统100中的每个媒体内容项目104关联的一个或多个内容关联。内容关联可以通过各种接口(诸如用户接口和应用编程接口(API))通过内容关联管理模块214与媒体内容项目104关联。API可以用于接收、访问和存储来自媒体内容源124、第三方应用202(和/或网站)和用户设备102的数据。在一个实施例中,内容关联管理模块214可以管理如何通过各种获得方法将内容关联与媒体内容项目104进行关联。
动态键盘界面模块208可以管理媒体内容管理系统100和用户设备102之间的接口通信。例如,如图5A和5B所示,动态键盘界面122可以包括菜单选择元素,其使得进行搜索的用户能够在媒体内容管理系统100上查看趋势(trending)媒体内容。“趋势”媒体内容可以包括媒体内容管理系统100的用户经常查看和/或经常共享的内容。例如,动态键盘界面模块208可以接收对趋势媒体内容的请求并从媒体内容存储106中检索过去一个小时中具有最高共享数量的媒体内容项目104。在一个实施例中,动态键盘界面模块208然后可以通过动态键盘呈现模块212通过动态键盘应用130将检索到的趋势媒体内容项目提供给动态键盘界面122。例如,动态键盘呈现模块212可以确定如何呈现媒体内容项目以及以什么次序呈现媒体内容项目。在一个实施例中,如果没有媒体内容项目104满足来自用户设备的搜索查询或请求,则动态键盘界面模块208可以与搜索界面模块120和搜索路由器规则引擎206联合或协同地递送受欢迎或已共享的其他媒体内容项目104。在一个实施例中,动态键盘界面模块208可以从第三方应用202(或网站)中选择内容项目,以将其包括在动态键盘界面122的动画键或搜索结果中。
启发式引擎216可以包括一个或多个启发式规则,以确定一个或多个结果。例如,内容关联器模块108可以使用启发式引擎216基于媒体内容项目104的属性来确定媒体内容项目104的候选内容关联的排名。某些属性可以具有与它们关联的各种启发式规则,诸如视觉动作(例如,检测到的微笑可以与“#HAPPY”内容关联进行关联)、视觉特性(例如,闪烁文本可以指示文本串的重要性,或者井号符号可以指示特定的内容关联)、内容源、媒体内容项目中包括的字符以及其他属性。在一个实施例中,管理员可以生成各种启发式规则,以基于属性自动生成内容项目的内容关联。在另一实施例中,启发式规则还可以使用各种属性的参数范围。例如,可以在启发式规则中使用特定用户为了共享而对媒体内容项目104的三十次选择以在存在少数搜索结果的情况下响应于来自该特定用户的搜索查询呈现相同的媒体内容项目。例如,这里的范围可以被定义为共享的阈值次数。
情感分析模块220可以提供对由媒体内容管理系统100接收的各种文本的分析,以确定该文本是否表现出积极、消极或中性的含义。此信息可以由各种模块使用以高效地转换搜索查询来提取进行搜索的用户的表达性意图。例如,可以使用多种语言的术语词典来确定是否可以将文本确定为具有积极、消极或中性的含义。在一个实施例中,情感分析模块220可以使用各种第三方应用202来执行该分析。例如,使用情感分析模块220,搜索路由器规则引擎206可以基于搜索查询的含义来提供媒体内容项目104的一个或多个集合。
图6B是根据实施例的用于在媒体内容管理系统中对获得的内容进行分类以执行搜索的系统的高级框图。在一个实施例中,内容关联管理模块214可以包括元数据分析器模块240、用户界面模块242、内容关联选择模块244和关联相关模块246。
当在媒体内容管理系统100中从媒体内容源124接收到具有一个或多个属性的媒体内容项目104时,元数据分析器模块240可基于媒体内容项目104的属性生成一个或多个内容关联。例如,可以基于与来自特定电影的媒体内容项目104关联的电影元数据属性,将该媒体内容项目104自动地内容关联在该特定电影的集合中。在一个实施例中,媒体内容源124的管理员可以将一个或元数据属性关联到媒体内容项目104。可以以各种方式将元数据属性存储在媒体内容项目104的源文件中,诸如源文件内的标头内容关联,以及与源文件关联的其他文件,诸如描述由媒体内容系统100批量获得内容项目的XML文件。
在一个实施例中,元数据分析器模块240可以解析与媒体内容项目104关联的元数据,并基于一个或多个规则自动生成内容关联和/或从内容关联存储118选择内容关联。如图6B所示,内容关联存储118可以存储关联-属性关系250,使得属性已经与内容关联关联。以此方式,元数据分析器模块240可以基于存储在内容关联存储118中的关联-属性关系250,自动将内容关联分配给媒体内容项目104。
可以由元数据分析器模块240分析的其他元数据属性包括进行搜索的用户或管理用户使用的移动设备或用户设备的互联网协议(IP)地址。IP地址可以提供用户的地理位置(包括原籍国)的指示。替代地,移动设备的全球定位系统(GPS)可以包括用户的当前地理位置。结果,可以基于在用户的地理位置处说的主要语言向用户呈现不同的集合或内容关联。在另一实施例中,可由元数据分析器模块240分析的另一元数据属性包括进行查看的用户选择的一种或多种语言。以这种方式,语言偏好可以帮助告知搜索意图、管理意图或搜索意图和管理意图。例如,法语的单词在印度尼西亚语中可能具有完全不同的含义。结果,语言和原籍国可以是可以由元数据分析器模块240确定的元数据属性。
用户界面模块242可以为诸如计算机或移动设备的用户设备102提供一个或多个用户界面,以选择获得的媒体内容项目104的一个或多个内容关联。例如,管理用户可以被给予将来自内容关联存储118的一个或多个内容关联分配给媒体内容项目104的能力。以这种方式,内容关联管理模块214使得能够手动选择内容关联以对获得的媒体内容项目104进行分类。
根据实施例,内容关联选择模块244可以在由用户界面模块242提供的一个或多个用户界面中提供来自内容关联存储118的一个或多个内容关联。在一个实施例中,内容关联选择模块244可以基于存储在内容关联存储118中的内容关联-属性关联250来呈现预测的内容关联,以供操作用户设备102的管理用户进行选择和/或确认。例如,媒体内容项目104基于来自媒体内容源124的预填充信息可能具有喜剧的流派属性。在一个实施例中,由于“喜剧”属性可以与“#HAPPY”内容关联关联,因此媒体内容项目104可能已经被元数据分析器模块240分配“#HAPPY”内容关联。内容关联选择模块244可以在由用户界面模块242提供的用户界面中呈现“#HAPPY”内容关联连同其他相关的内容关联,供管理用户以分配或撤销与关联的内容项目104关联的内容关联。在一个实施例中,存储在内容关联存储118中的关联-属性关联250可以包括与其他内容关联相关的内容关联。例如,“#HAPPY”内容关联可以与“LOL”和“LMAO”内容关联相关,因为LOL和LMAO都包括“笑”解释。结果,在一个实施例中,可以呈现其他内容关联以供管理用户选择。
内容关联选择模块244可以包括一个或多个时间分析模型245,例如,如以上参考图2的时间分析模型86所述的时间分析模型。内容关联选择模块244可以被配置为分析媒体内容项目104,并基于从媒体内容项目104中提取的时间分析数据生成媒体内容项目104的内容关联。
作为获得过程的一部分,可以在将媒体内容项目存储在媒体内容存储106中之前对其进行预处理252。这使得媒体内容项目104能够被快速检索并在用户设备102上的动态键盘界面122中无缝地渲染。对媒体内容项目的预处理252可以包括减少像素计数、修改分辨率清晰度和其他文件大小减少技术。在一个实施例中,动态键盘呈现模块212可以用于执行对媒体内容项目的这种预处理252。有利地,对媒体内容项目的预处理252使得在用户设备102b上呈现给用户的动态键盘界面122能够以动画形式渲染至少两个媒体内容项目的至少两个渲染,并将它们同时显示在动态键盘界面122中。
关联相关模块246可以将内容关联与媒体内容存储106中的媒体内容项目104相关。内容关联可以由元数据分析器模块240(或媒体内容管理系统100中的其他模块)自动地与内容项目关联,或者可以作为通过由用户界面模块242提供的用户界面接收的内容关联的选择的结果而关联内容关联。如图6B所示,项目关联关系254存储在媒体内容存储106中。每个内容项目可以具有内容标识符,并且每个内容关联可以具有内容关联标识符,使得可以将项目-关联关系254存储在媒体内容存储106中。如图6B所示,内容项目(“item(项目)”)可以与一个或多个关联(“ass’n”)相关,并且例如,项目-关联关系254被存储在媒体内容存储106中。
图6C是根据实施例的用于在媒体内容管理系统中编排合成内容项目的系统的高级框图。可以在用户设备102上提供编排器界面(composer interface)264,该编排器界面264使查看的用户能够搜索媒体内容项目104并选择两个或更多个内容项目以生成合成内容项目。如图所示,已经在编排器界面264中选择了两个内容项目以创建具有两个选择的内容项目的组合属性的合成内容项目266。例如,查看的用户可以通过搜索界面搜索“No”,这在后面进行更详细的描述。可以检索到满足搜索词(searchterm)“No”的几个内容项目104。第一选择的内容项目可能已经与“No”和“Chandler”的内容关联关联,而第二选择的内容项目可能已经与“No”和“Taylor”的内容关联关联。结果,合成内容项目266可以包括内容关联“No”、“Chandler”和“Taylor”。合成内容项目266可以由编排器界面模块262接收,并由合成项目模块260作为媒体内容项目104存储在媒体内容存储106中。如图6C进一步所示,除了编排器界面模块262之外,合成项目模块260还可以联合如上述类似地操作的元数据分析器模块240、内容关联选择模块244和关联相关模块246进行操作,或者还可以包括这些模块。
内容关联选择模块244可以包括一个或多个时间分析模型245,例如以上参考图2的时间分析模型86所述的时间分析模型。内容关联选择模块244可以被配置为分析媒体内容项目104,并基于从媒体内容项目104中提取的时间分析数据生成媒体内容项目104的内容关联。
在至少一些实施例中,合成内容项目266可以与传达与合成内容项目266中包括的单独内容项目不同的含义的表达性陈述关联。返回到上面的示例,人物“Chandler”表达陈述“No”的第一内容项目104可以向媒体内容管理系统100的大多数用户传达特定含义。媒体内容管理系统100的管理用户可以将其他内容关联与该特定内容项目104关联,诸如“#cool”和“FRIENDS”。描绘名人TAYLOR LAUTNER的第二内容项目104可以唤起与描绘来自电视节目FRIENDS中的人物“CHANDLER”的第一内容项目104的分离且不同的含义。除了“No”的共享内容关联之外,第二内容项目104还可以自动地或手动地与例如“cool(酷)”和/或“famous(有名)”的内容关联内容关联。结果,两个媒体内容项目的组合呈现与分离地呈现的每个媒体内容项目不同的信息。在一个实施例中,由合成内容项目266呈现的表达性陈述可以是与包括在合成内容项目266中的单独内容项目关联的内容关联的简单混合体(conglomeration)。在另一实施例中,可以从合成内容项目266中提取或以其他方式解释出与包括在单独内容项目中的内容关联不同的表达性陈述。如本文所述,当通过与合成内容项目266关联的关联的内容关联被存储时,该表达性陈述将用于将进行搜索的用户的意图与相关内容项目相关。
图7A是根据一些示例的用于在媒体内容管理系统中对获得的内容进行分类的系统的高级框图。内容关联器模块108可以包括用于自动地选择媒体内容项目104的内容关联402的内容关联算法406。内容关联器模块108还可以包括用于从内容关联存储118中选择内容关联402的内容关联选择器408。内容关联器模块108可以联合图像分析器222、运动分析器224和启发式引擎216进行操作或包括图像分析器222、运动分析器224和启发式引擎216,以辅助自动地选择媒体内容项目104的内容关联402。
内容关联器模块108可以包括一个或多个时间分析模型245,例如,如上面参考图2的时间分析模型86所述的时间分析模型。内容关联器模块108可以被配置为分析媒体内容项目104并基于从媒体内容项目104中提取的时间分析数据生成媒体内容项目104的内容关联。
图像分析器222可以包括识别面部特征的计算机视觉技术,面部特征诸如脸、眼睛、微笑的嘴巴、皱眉等。图像分析器222还可以包括其他计算机视觉技术和/或模式识别算法,以创建用于识别这些面部特性的基线训练集。类似地,运动分析器224可以包括计算机视觉技术和/或模式识别算法,以及机器学习和贝叶斯推断技术,以识别哭、笑、摔倒以及可以以类似方式建模的其他动作。运动分析器224还可包括眼睛跟踪功能,以识别眼睛在一组图像或动画图像内的位置。运动分析器224的眼睛跟踪功能可以与媒体内容管理系统100中的一个或多个其他模块联合使用,例如,以生成新的媒体内容项目104,诸如将一副太阳镜渲染到一组动画图像上,在这些图像内检测到的眼睛上方。可以使用其他模块将文本添加到媒体内容项目104,诸如词组“deal with it(处理它)”以创建和/或生成新的媒体内容项目104。如前所述,启发式引擎216可以使用各种规则基于接收的数据得出结论。例如,如图7A所示,媒体内容项目104可以包括例如婴儿哭泣的GIF。图像分析器222可以分析媒体内容项目104的GIF的帧,并且确定诸如双眼眯着(squint)、处于皱眉状位置张开的嘴和抬起眉毛的面部特性。运动分析器224可以基于婴儿哭泣的基线模型和其他机器学习技术来识别媒体内容项目104包括婴儿哭泣。
结果,内容关联器模块108可以通过内容关联选择器408从内容关联存储118中选择一个或多个内容关联。内容关联算法406可以包括来自启发式引擎216的一个或多个启发式规则,以自动生成媒体内容项目104的内容关联。在此示例中,已为媒体内容项目104选择了“#sad”内容关联402。如前所述,内容关联可以与其他内容关联关联,诸如哭泣内容关联可以与“#sad”内容关联402关联。以这种方式,可以基于自动生成的内容关联将婴儿哭泣的媒体内容项目104包括在“#sad”集合404中,并存储在媒体内容存储106中。
图7B是根据一些示例的用于执行搜索以在动态界面中实现动画输入的系统的高级框图。搜索路由器规则引擎206可以包括查询分析器602、意图提取器604、意图匹配器606和机器学习模块608。在一个实施例中,查询分析器602可以将接收的文本和/或图片分解为重叠的窗口。例如,进行搜索的用户可以输入搜索词“happy birthday(生日快乐)”作为查询。查询分析器602可以将查询分解为单词和重叠的部分单词,诸如“ha”、“happy”、“birth”、“birthday”、“happy birth”和“happy birthday”。在一个实施例中,查询分析器602可以将单词和部分单词提供给搜索界面模块120,用于基于单词和部分单词在媒体内容存储106中对关联媒体内容项目的内容关联进行搜索。
在另一实施例中,查询分析器602可以将单词和部分单词提供给意图提取器604。例如,意图提取器604可能先前已经从查询“happy birthday”中映射或提取了意图以包括庆祝生日的意图。因此,词“happy birthday”可以具体地仅映射到具有生日元素的内容项目,诸如蛋糕、蜡烛、文本串“happy birthday”、聚会、吹蜡烛的人等。意图提取器604还可以将单词和部分单词提供给自然语言处理(NLP)解析器218,以从搜索词中得出含义和/或意图。在无法识别搜索词的一个实施例中,NLP解析器218可能特别有用。例如,如果搜索词是“happy dia de los muertos”,而词“dia de los muertos”(西班牙语为“死亡之日”)未包含在词典或学习到的词的语料库中,则意图提取器604可以基于单词“happy”被包括在搜索查询中来提取希望庆祝某件开心事的进行搜索的用户的意图。另一方面,如果“muertos”包括在字典或作为内容项目的元数据属性而包括的文本串中,则可以依靠NLP解析器218呈现与“happy”和“muertos”内容关联关联的内容项目。
在一个实施例中,可以在搜索路由器规则引擎206中使用意图匹配器606,以将进行搜索的用户的意图与内容关联存储118中的一个或多个内容关联进行匹配。返回到先前示例,搜索查询“happy dia de los muertos”中包括的词“happy”可以使搜索查询被意图匹配器606匹配到“#happy”内容关联以用于进一步的查询。在一个实施例中,词“muertos”可以匹配到“dead(死)”内容关联和“Halloween(万圣节)”内容关联。因为“dia de losmuertos”不直接与万圣节相关,但实际上是11月1日发生的墨西哥假日,因此可以不呈现某些内容项目。在一个实施例中,意图匹配器606可以调整搜索词组与内容关联之间的匹配。在一个实施例中,这些匹配可以被存储在内容关联存储118中。
在另一实施例中,意图匹配器606可以与机器学习模块608联合,分析用户反馈,诸如当响应于“happy dia de los muertos”搜索查询在搜索结果中呈现具有“Halloween”属性和“skull(颅骨)”属性两者的内容项目时选择这些项目。结果,意图匹配器606可以生成搜索词组“happy dia de los muertos”与具有“Halloween”和“skull”内容关联两者的内容项目之间的新匹配。在一个实施例中,意图匹配器606可以基于概率方法和/或机器学习来针对每个匹配确定意图匹配的似然分数(likelihood score)。可以针对每个意图匹配将该分数存储在内容关联存储118中。这些分数可以进一步基于由NLP解析器218和机器学习模块608提供的统计推断算法。
机器学习模块608可以使用各种机器学习方法,诸如监督和无监督学习方法、贝叶斯知识库、贝叶斯网络、最近邻、随机游走和其他方法,以基于接收的训练数据和接收的用户反馈(基于查看的用户是否选择/共享了呈现在搜索结果组中的内容项目)确定各种结果。例如,有时将随机内容项目连同具有特定属性(诸如“#happy”内容关联)的内容项目一起呈现。在其他时间,可以在针对不同内容关联(诸如“dog”)的搜索结果中随机呈现同一内容项目。随机呈现的内容项目可能不与“#happy”内容关联或“狗”内容关联关联,但是进行搜索和/或查看的用户可能会频繁选择并共享随机呈现的内容项目。结果,机器学习模块608可以确定总体上80%的时间选择了随机呈现的内容项目,当与关联为“#happy”的内容一起呈现时为70%的时间,而当与关联为“dog”的内容一起呈现时为60%的时间。机器学习模块608可以用于进一步使过程自动化,并创建启发式规则,以在搜索查询包括词“#happy”和“dog”时以及在搜索查询这些词之一时自动呈现该内容项目。在一个实施例中,机器学习模块608可以基于在阈值时间百分比(诸如50%)内在具有公共属性的搜索结果中选择了内容项目,将内容关联与内容项目关联或相关。根据至少一个实施例,诸如这些的相关可能还需要管理员通过用户界面批准。
机器学习模块608可以包括一个或多个时间分析模型245,例如以上参考图2的时间分析模型86所述的时间分析模型。机器学习模块608可以被配置为分析媒体内容项目104并基于从媒体内容项目104中提取的时间分析数据生成媒体内容项目104的内容关联。
搜索路由器规则引擎206还可以包括用于处理搜索查询的规则,以优化处理时间并即使在媒体内容管理系统100中不存在直接匹配的情况下也包括搜索结果。例如,搜索路由器规则引擎206可以联合情感分析模块220、图像分析器222和/或运动分析器224进行操作以分析媒体内容存储106中不具有关联属性的内容项目。情感分析模块220可以用于处理单词、部分单词和搜索查询以确定意图是否包括积极、消极或中立的含义。图像分析器222可以类似地用于处理作为搜索查询接收的接收图像,以提取进行搜索的用户的意图。例如,如果图像是作为查询直接发送的由移动设备捕获的照片,则图像分析器222可以分析该照片以检测视觉特性,诸如面部表情和在照片中发生的活动。此外,运动分析器224可以用于检测动作、行为和运动的模式,诸如笑、哭、摔倒、握手、击拳、捶胸、眼睛滚动、撩拨头发等。规则可以包括在搜索路由器规则引擎206中,以将识别的行为、动作、活动和/或面部表情与作为内容关联存储在内容关联存储118中的一个或多个表达性陈述关联。在一个实施例中,这些规则可以是由启发式引擎216生成的启发式规则。
图9示出了根据各种实施例的设置在设备中的示例性计算平台,该设备被配置为在媒体内容管理系统100中对获得的内容进行分类以执行搜索。在一些示例中,计算平台1000可以用于实现计算机程序、应用、方法、过程、算法或其他软件以执行上述技术。
在某些情况下,计算平台可以被设置在可穿戴设备中或实现移动计算设备1090b或任何其他设备,诸如计算设备1090a。
计算平台1000包括用于传送信息的总线1004或其他通信机制,其互连子系统和设备,诸如处理器1006、系统存储器1010(例如,RAM等)、存储设备1008(例如,ROM等)、通信接口1012(例如,以太网或无线控制器、蓝牙控制器等),以促进经由通信链路1014上的端口的通信,从而例如与包括具有处理器的移动计算和/或通信设备的计算设备进行通信。处理器1006可以用一个或多个中央处理单元(“CPU”)或一个或多个虚拟处理器以及CPU和虚拟处理器的任意组合来实现。计算平台1000经由输入和输出设备1002交换表示输入和输出的数据,该输入和输出设备包括但不限于键盘、鼠标、音频输入(例如,语音到文本设备)、用户接口、显示器、监视器、光标、触敏显示器、LCD或LED显示器以及其他I/O相关设备。
根据一些示例,计算平台1000通过处理器1006执行存储在系统存储器1010中的一个或多个指令的一个或多个序列来执行特定操作,并且计算平台1000可以以客户端-服务器布置、对等(peer-to-peer)布置实现,或实现为任何移动计算设备,包括智能电话等。这样的指令或数据可以从诸如存储设备1008的另一计算机可读介质读取到系统存储器1010中。在一些示例中,可以使用硬连线电路代替软件指令或与软件指令组合来实现。指令可以嵌入软件或固件中。术语“计算机可读介质”是指参与向处理器1006提供指令以供执行的任何有形介质。这样的介质可以采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质包括例如光盘或磁盘等。易失性介质包括动态存储器,诸如系统存储器1010。
计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、任何其他光学介质、打孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、快闪EPROM(FLASH-EPROM)、任何其他存储器芯片或盒或者计算机可以从中读取的任何其他介质。还可以使用传输介质发送或接收指令。术语“传输介质”可以包括能够存储、编码或承载供机器执行的指令的任何有形或无形介质,并且包括数字或模拟通信信号或其他无形介质以促进这样的指令的通信。传输介质包括同轴电缆、铜线和光纤,包括包含用于发送计算机数据信号的总线1004的电线。
在一些示例中,指令序列的执行可以由计算平台1000执行。根据一些示例,计算平台1000可以通过通信链路1014(例如,诸如LAN、PSTN的有线网络或任何无线网络,包括各种标准和协议的WiFi、Zig-Bee等)联接到任何其他处理器,以相互协同(或异步)地执行指令序列。计算平台1000可以通过通信链路1014和通信接口1012发送和接收消息、数据和指令,包括程序代码(例如,应用代码)。接收的程序代码可以在其被接收时由处理器1006执行和/或存储在存储器1010或其他非易失性存储装置中供以后执行。
在所示的示例中,系统存储器1010可以包括各种模块,这些模块包括用于实现本文描述的功能的可执行指令。系统存储器1010可以包括操作系统(“O/S”)1030,以及应用1032和/或逻辑模块1050。在所示的示例中,系统存储器1010包括内容关联器模块108,该内容关联器模块包括内容关联(“ass’n”)选择器模块408和内容关联(“CA”)算法模块1040。内容关联器模块108可以包括一个或多个时间分析模型245,例如,如上面参考图2的时间分析模型86所述的时间分析模型。内容关联器模块108可以被配置为分析媒体内容项目104,并基于从媒体内容项目104中提取的时间分析数据来生成媒体内容项目104的内容关联。
系统存储器1010还可包括图像分析器222、运动分析器224、启发式引擎216、搜索界面模块120、动态键盘界面模块208、动态键盘呈现模块212、情感分析模块220、自然语言处理(NLP)解析器218、搜索路由器规则引擎206(包括查询分析器602、意图提取器604、意图匹配器606和机器学习(ML)模块608)、内容关联(“ass’n”)管理(“mgmt.”)模块214(包括元数据分析器模块240、用户界面模块242、内容关联选择模块244和关联(“ass’n”)相关模块246)。系统存储器1010还可以包括合成项目模块260和编排器界面模块262。存储器1010中包括的模块中的一个或多个可以被配置为提供或消耗输出以实现本文描述的一个或多个功能。
在至少一些示例中,任何上述特征的结构和/或功能可以以软件、硬件、固件、电路或其组合来实现。注意,以上结构和构成元素及其功能可以与一个或多个其他结构或元素聚合。替代地,如果有的话,元素及其功能可以细分为组成子元素。作为软件,可以使用各种类型的编程或格式化语言、框架、语法、应用、协议、对象或技术来实现上述技术。作为硬件和/或固件,可以使用各种类型的编程或集成电路设计语言来实现上述技术,包括硬件描述语言,诸如被配置为设计现场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)或任何其他类型的集成电路的任何寄存器传递语言(“RTL”)。根据一些实施例,术语“模块”可以指例如算法或算法的一部分,和/或以硬件电路或软件实现的逻辑或其组合。这些可以变化,并且不限于所提供的示例或描述。
在一些实施例中,媒体内容管理系统或其组件中的一个或多个或本文描述的任何过程或设备可以与诸如移动电话的移动设备或计算设备进行通信(例如,有线或无线),或者可以被设置在其中。
在一些情况下,与动作提醒控制器或其一个或多个组件(或本文描述的任何过程或设备)通信的移动设备或任何联网计算设备(未示出)可以提供本文描述的任何特征的结构和/或功能中的至少一些。如上述附图中所描绘的,任何上述特征的结构和/或功能可以以软件、硬件、固件、电路或其任何组合来实现。注意,以上结构和构成元素及其功能可以与一个或多个其他结构或元素聚合或组合。替代地,如果有的话,元素及其功能可以细分为组成子元素。作为软件,可以使用各种类型的编程或格式化语言、框架、语法、应用、协议、对象或技术来实现至少一些上述技术。例如,在任何附图中描绘的元素中的至少一个可以表示一个或多个算法。或者,元素中的至少一个可以表示逻辑的一部分,其包括被配置为提供构成结构和/或功能的一部分硬件。
例如,可以在包括被配置为执行存储器中的一个或多个算法的一个或多个处理器的一个或多个计算设备(即,任何移动计算设备,诸如可穿戴设备、音频设备(诸如耳机或头戴式受话器)或移动电话,不管它们是穿戴的或携带的)中实现动态键盘呈现模块212或其任何一个或多个组件或本文所述的任何过程或设备。因此,上述附图中的至少一些元素可以表示一个或多个算法。或者,元素中的至少一个可以表示逻辑的一部分,其包括被配置为提供构成结构和/或功能的一部分硬件。这些可以变化,并且不限于所提供的示例或描述。
附加公开
本文讨论的技术参考了服务器、数据库、软件应用和其他基于计算机的系统,以及采取的动作和向和从这样的系统发送的信息。基于计算机的系统的固有灵活性允许在组件之间以及之中进行任务和功能的各种各样的可能的配置、组合以及划分。例如,本文讨论的过程可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现,也可以跨多个系统分布。分布式组件可以顺序地或并行地操作。
作为硬件和/或固件,可以使用各种类型的编程或集成电路设计语言来实现上述结构和技术,包括硬件描述语言,诸如被配置为设计现场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)、多芯片模块或任何其他类型的集成电路的任何寄存器传递语言(“RTL”)。
例如,可以在包括一个或多个电路的一个或多个计算设备中实现媒体内容管理系统,包括本文描述的一个或多个组件、或任何过程或设备。因此,上述附图中的元素中的至少一个可以表示硬件的一个或多个组件。或者,元素中的至少一个可以表示逻辑的一部分,包括被配置为提供构成结构和/或功能的一部分电路。
根据一些实施例,术语“电路”可以指例如包括多个组件的任何系统,电流流过该多个组件以执行一个或多个功能,这些组件包括分立组件和复杂组件。分立组件的示例包括晶体管、电阻器、电容器、电感器、二极管等,而复杂组件的示例包括存储器、处理器、模拟电路、数字电路等,包括现场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)。因此,电路可以包括电子组件和逻辑组件(例如,被配置为执行指令(诸如例如算法的一组可执行指令)的逻辑,并因此是电路的组件)的系统。根据一些实施例,术语“模块”可以指例如算法或其一部分,和/或以硬件电路或软件或其组合实现的逻辑(即,模块可以被实现为电路)。在一些实施例中,算法和/或存储有算法的存储器是电路的“组件”。因此,术语“电路”也可以指例如包括算法的组件的系统。这些可以变化,并且不限于提供的示例或描述。
尽管出于清楚理解的目的已经以一些细节描述了前述示例,但是上述发明技术不限于所提供的细节。存在许多实现上述发明技术的替代方式。所公开的示例是说明性的而非限制性的。
为了说明的目的已经呈现了本发明的实施例的前述描述;它并不旨在穷举或将本发明限制为所公开的精确形式。相关领域的技术人员可以理解,根据以上公开,许多修改和变化是可能的。
本描述的某些部分根据算法和对信息的操作的符号表示来描述本发明的实施例。这些算法描述和表示通常由数据处理领域的技术人员用来将其工作的实质有效地传达给本领域的其他技术人员。这些操作虽然在功能上、计算上或逻辑上进行描述,但应被理解为通过计算机程序或等效电路、微代码等来实现。此外,在不失一般性的情况下,还已证实将操作的这些布置称为模块有时也很方便。所描述的操作及其关联模块可以以软件、固件、硬件或其任何组合来体现。
本文描述的任何步骤、操作或过程可以单独地或与其他设备组合地利用一个或多个硬件或软件模块来执行或实现。在一个实施例中,用计算机程序产品实现软件模块,该计算机程序产品包括包含计算机程序代码的计算机可读介质,该计算机程序代码可以由计算机处理器执行以执行所描述的任何或所有步骤、操作或过程。
本发明的实施例还可以涉及用于执行本文的操作的装置。该装置可以针对所需目的被专门地构造,和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。可以将这样的计算机程序存储在非暂时性有形计算机可读存储介质中,或者存储在可以联接到计算机系统总线的适合于存储电子指令的任何类型的介质中。此外,说明书中提到的任何计算系统可以包括单个处理器,或者可以是采用多个处理器设计以提高计算能力的架构。
本发明的实施例还可以涉及通过本文描述的计算过程产生的产品。这样的产品可以包括由计算过程导致的信息,其中,该信息被存储在非暂时性有形计算机可读存储介质上,并且可以包括计算机程序产品的任何实施例或本文描述的其他数据组合。
最后,主要为了可读性和说明性目的选择了本说明书中使用的语言,并且可能没有为了界定或限制本发明主题而选择该语言。因此,意图是本发明的范围不受该详细描述的限制,而是由基于本文的申请所发布的任何权利要求来限制。因此,本发明的实施例的公开意图是说明性的,而不是限制本发明的范围,本发明的范围在所附权利要求中阐明。
尽管已经针对本主题的各种特定示例实施例详细描述了本主题,但是每个示例都是通过解释而非限制本公开的方式提供的。本领域技术人员在获得前述内容的理解之后,可以容易地产生这样的实施例的变更、变型和等同。因此,主题公开并不排除包括对本主题的这样的修改、变型和/或添加,这对于本领域普通技术人员来说将是显而易见的。例如,作为一个实施例的一部分示出或描述的特征可以与另一实施例一起使用以产生又另一实施例。因此,意图是本公开涵盖这样的变更、变型和等同。
Claims (22)
1.一种计算机实现的方法,包括:
通过包括一个或多个计算设备的计算系统接收描述媒体内容项目的数据,所述媒体内容项目包括用于顺序显示的多个图像帧;
通过所述计算系统将描述所述媒体内容项目的数据输入机器学习时间分析模型中,所述机器学习时间分析模型被配置为接收描述所述媒体内容项目的数据,并响应于接收描述所述媒体内容项目的数据,输出描述与顺序查看所述媒体内容项目的多个图像帧关联的时间信息的时间分析数据;以及
通过所述计算系统作为所述机器学习时间分析模型的输出接收所述时间分析数据。
2.根据权利要求1所述的计算机实现的方法,其中,所述时间信息不由所述多个图像帧中的单独图像帧描述。
3.根据权利要求1或权利要求2所述的计算机实现的方法,其中:
所述多个图像帧包括:第一图像帧和第二图像帧,所述第一图像帧包括第一文本串,所述第二图像帧用于在所述第一图像帧之后顺序地显示,所述第二图像帧包括第二文本串;以及
由所述时间分析数据描述的时间信息描述由在所述第二文本串之前顺序阅读所述第一文本串描述的语义含义,该语义含义不是通过单独阅读所述第一文本串或所述第二文本串被描述的。
4.根据权利要求3所述的计算机实现的方法,其中,所述第一文本串和第二文本串中的一个或多个包括没有附加单词的单个单词或没有附加字母的单个字母。
5.根据权利要求3或权利要求4所述的计算机实现的方法,其中,所述第一图像帧的第一文本串在颜色、粗度、位置或字体中的至少一个方面具有与所述第二图像帧的第二文本串的外观不同的外观。
6.根据权利要求5所述的计算机实现的方法,其中,所述时间分析数据描述与所述第一文本串具有与所述第二文本串的外观不同的外观关联的语义含义。
7.根据前述权利要求中的任一项所述的计算机实现的方法,其中:
所述多个图像帧包括描述第一场景的第一图像帧和用于在所述第一图像帧之后顺序地显示的第二图像帧,所述第二图像帧描述第二场景;以及
由所述时间分析数据描述的时间信息描述由在所述第二场景之前顺序地查看所述第一场景描述的语义含义,该语义含义不是通过单独查看所述第一场景或所述第二场景被描述的。
8.根据前述权利要求中的任一项所述的计算机实现的方法,其中,所述时间分析数据描述所述媒体内容项目的情感内容。
9.根据前述权利要求中的任一项所述的计算机实现的方法,还包括:基于由所述时间分析数据描述的时间信息,将内容标签分配给所述媒体内容项目。
10.根据前述权利要求中的任一项所述的计算机实现的方法,其中,所述媒体内容项目包括广告。
11.根据权利要求10所述的计算机实现的方法,其中,由所述时间分析数据描述的时间信息描述所述广告的情感内容。
12.根据前述权利要求中的任一项所述的计算机实现的方法,还包括:
通过所述计算系统的用户计算设备接收对媒体内容项目的搜索查询;
通过所述计算系统基于描述时间信息的所述时间分析数据选择所述媒体内容项目;以及
通过所述计算系统响应于所述搜索查询提供所述媒体内容项目。
13.根据权利要求12所述的计算机实现的方法,还包括:通过所述计算系统的用户计算设备提供动态键盘界面进行显示,并且其中,在由所述用户计算设备提供的动态键盘界面内接收所述搜索查询。
14.一种计算系统,包括:
一个或多个处理器;
机器学习时间分析模型,所述机器学习时间分析模型被配置为接收描述媒体内容项目的数据,并响应于接收描述所述媒体内容项目的数据,输出描述与顺序地查看所述媒体内容项目的多个图像帧关联的时间信息的时间分析数据,以及其中,所述时间信息不由所述多个图像帧中的单独图像帧描述;
共同存储指令的一个或多个非暂时性计算机可读介质,所述指令在由所述一个或多个处理器执行时使所述计算系统执行操作,所述操作包括:
接收描述包括用于顺序显示的多个图像帧的媒体内容项目的数据;
将描述所述媒体内容项目的数据输入所述机器学习时间分析模型中;以及
接收所述时间分析数据作为所述机器学习时间分析模型的输出。
15.根据权利要求14所述的计算系统,其中:
所述多个图像帧包括:第一图像帧和第二图像帧,所述第一图像帧包括第一文本串,所述第二图像帧用于在所述第一图像帧之后顺序地显示,所述第二图像帧包括第二文本串;以及
由所述时间分析数据描述的时间信息描述由在所述第二文本串之前顺序阅读所述第一文本串描述的语义含义,该语义含义不是通过单独阅读所述第一文本串或所述第二文本串被描述的。
16.根据权利要求15所述的计算系统,其中,所述第一文本串和第二文本串中的一个或多个包括没有附加单词的单个单词或没有附加字母的单个字母。
17.根据权利要求15或权利要求16所述的计算系统,其中,所述第一图像帧的第一文本串在颜色、粗度、位置或字体中的至少一个方面具有与所述第二图像帧的第二文本串的外观不同的外观。
18.根据权利要求17所述的计算系统,其中,所述时间分析数据描述与所述第一文本串具有与所述第二文本串的外观不同的外观关联的语义含义。
19.根据权利要求14至18中的任一项所述的计算系统,其中,所述媒体内容项目包括广告,并且其中,由所述时间分析数据描述的时间信息描述所述广告的情感内容。
20.一种用于训练机器学习时间分析模型的计算机实现的方法,所述方法包括:
通过包括一个或多个计算设备的计算系统接收描述媒体内容项目的数据,所述媒体内容项目包括用于顺序显示的多个图像帧;
通过所述计算系统将描述所述媒体内容项目的数据输入所述机器学习时间分析模型中,所述机器学习时间分析模型被配置为接收描述所述媒体内容项目的数据,并响应于接收描述所述媒体内容项目的数据,输出描述与顺序地查看所述媒体内容项目的多个图像帧关联的时间信息的时间分析数据,并且其中,所述时间信息不由所述多个图像帧中的单独图像帧描述;
通过所述计算系统作为所述机器学习时间分析模型的输出接收所述时间分析数据;以及
通过所述计算系统基于所述时间分析数据与基准真相时间分析数据的比较来调整所述机器学习时间分析模型的一个或多个参数。
21.一种计算系统,包括:
至少一个处理器;
存储指令的至少一个有形的非暂时性计算机可读介质,所述指令在由所述至少一个处理器执行时使所述至少一个处理器执行根据权利要求1至13中的任一项所述的方法。
22.一种存储指令的计算机可读介质,所述指令在由至少一个处理器执行时使所述至少一个处理器执行根据权利要求1至13中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062979624P | 2020-02-21 | 2020-02-21 | |
US62/979,624 | 2020-02-21 | ||
PCT/US2020/030727 WO2021167632A1 (en) | 2020-02-21 | 2020-04-30 | Systems and methods for extracting temporal information from animated media content items using machine learning |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113557521A true CN113557521A (zh) | 2021-10-26 |
Family
ID=70969002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080005148.8A Pending CN113557521A (zh) | 2020-02-21 | 2020-04-30 | 使用机器学习从动画媒体内容项目提取时间信息的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220406033A1 (zh) |
EP (1) | EP3895036A1 (zh) |
JP (1) | JP7192086B2 (zh) |
KR (1) | KR102498812B1 (zh) |
CN (1) | CN113557521A (zh) |
WO (1) | WO2021167632A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220382766A1 (en) * | 2021-06-01 | 2022-12-01 | Apple Inc. | Automatic Media Asset Suggestions for Presentations of Selected User Media Items |
EP4248415A1 (en) * | 2022-02-04 | 2023-09-27 | Google LLC | Automated video and audio annotation techniques |
CN115426525B (zh) * | 2022-09-05 | 2023-05-26 | 北京拙河科技有限公司 | 一种基于高速动帧联动图像拆分方法及装置 |
CN117576785B (zh) * | 2024-01-15 | 2024-04-16 | 杭州巨岩欣成科技有限公司 | 泳客行为检测方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2605152A1 (en) * | 2010-08-11 | 2013-06-19 | Sony Corporation | Information processing device, information processing method, and program |
US20180025221A1 (en) * | 2016-07-20 | 2018-01-25 | International Business Machines Corporation | Video sentiment analysis tool for video messaging |
CN110020437A (zh) * | 2019-04-11 | 2019-07-16 | 江南大学 | 一种视频和弹幕相结合的情感分析及可视化方法 |
KR20190091420A (ko) * | 2019-07-17 | 2019-08-06 | 장호정 | 이모티콘 입력에 동기화된 광고컨텐츠 순간 노출 광고 방법 |
US20190266406A1 (en) * | 2016-11-28 | 2019-08-29 | Microsoft Technology Licensing, Llc | Automatically detecting contents expressing emotions from a video and enriching an image index |
CN110427454A (zh) * | 2019-06-21 | 2019-11-08 | 平安科技(深圳)有限公司 | 文本情绪分析方法及装置、电子设备和非暂态存储介质 |
US20190373322A1 (en) * | 2018-05-29 | 2019-12-05 | Sony Interactive Entertainment LLC | Interactive Video Content Delivery |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007043679A1 (ja) | 2005-10-14 | 2007-04-19 | Sharp Kabushiki Kaisha | 情報処理装置およびプログラム |
JP4812733B2 (ja) | 2007-11-01 | 2011-11-09 | 日本電信電話株式会社 | 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 |
US10671267B2 (en) * | 2018-05-07 | 2020-06-02 | Google Llc | Systems and methods for presentation of content items relating to a topic |
CN109145712B (zh) | 2018-06-28 | 2020-10-16 | 南京邮电大学 | 一种融合文本信息的gif短视频情感识别方法及系统 |
US11200456B2 (en) * | 2019-07-31 | 2021-12-14 | GE Precision Healthcare LLC | Systems and methods for generating augmented training data for machine learning models |
-
2020
- 2020-04-30 KR KR1020217001267A patent/KR102498812B1/ko active IP Right Grant
- 2020-04-30 CN CN202080005148.8A patent/CN113557521A/zh active Pending
- 2020-04-30 US US17/295,576 patent/US20220406033A1/en active Pending
- 2020-04-30 EP EP20730150.8A patent/EP3895036A1/en not_active Withdrawn
- 2020-04-30 JP JP2021503172A patent/JP7192086B2/ja active Active
- 2020-04-30 WO PCT/US2020/030727 patent/WO2021167632A1/en unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2605152A1 (en) * | 2010-08-11 | 2013-06-19 | Sony Corporation | Information processing device, information processing method, and program |
US20180025221A1 (en) * | 2016-07-20 | 2018-01-25 | International Business Machines Corporation | Video sentiment analysis tool for video messaging |
US20190266406A1 (en) * | 2016-11-28 | 2019-08-29 | Microsoft Technology Licensing, Llc | Automatically detecting contents expressing emotions from a video and enriching an image index |
US20190373322A1 (en) * | 2018-05-29 | 2019-12-05 | Sony Interactive Entertainment LLC | Interactive Video Content Delivery |
CN110020437A (zh) * | 2019-04-11 | 2019-07-16 | 江南大学 | 一种视频和弹幕相结合的情感分析及可视化方法 |
CN110427454A (zh) * | 2019-06-21 | 2019-11-08 | 平安科技(深圳)有限公司 | 文本情绪分析方法及装置、电子设备和非暂态存储介质 |
KR20190091420A (ko) * | 2019-07-17 | 2019-08-06 | 장호정 | 이모티콘 입력에 동기화된 광고컨텐츠 순간 노출 광고 방법 |
Non-Patent Citations (5)
Title |
---|
DAZHEN LIN等: "GIF Video Sentiment Detection Using Semantic Sequence", 《MATHEMATICAL PROBLEMS IN ENGINEERING》, 16 May 2017 (2017-05-16), pages 1 - 12 * |
KE ZHANG等: "Transfer Correlation Between Textual Content to Images for Sentiment Analysis", 《IEEE ACCESS》, vol. 8, 19 February 2020 (2020-02-19), pages 35276 - 35289, XP011774571, DOI: 10.1109/ACCESS.2020.2975036 * |
TIANLIANG LIU等: "Sentiment Recognition for Short Annotated GIFs Using Visual-Textual Fusion", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 22, no. 4, 21 August 2019 (2019-08-21), pages 1098 - 1110, XP011780159, DOI: 10.1109/TMM.2019.2936805 * |
ZHENG CAI等: "A Spatial-Temporal Visual Mid-Level Ontology for GIF Sentiment Analysis", 《2016 IEEE CONGRESS ON EVOLUTIONARY COMPUTATION (CEC)》, 31 December 2016 (2016-12-31), pages 4860 - 4865 * |
洪庆等: "基于弹幕情感分析和聚类算法的视频用户群体分类", 《计算机工程与科学》, vol. 40, no. 6, 30 June 2018 (2018-06-30), pages 1127 * |
Also Published As
Publication number | Publication date |
---|---|
KR20210107608A (ko) | 2021-09-01 |
JP2022524471A (ja) | 2022-05-06 |
US20220406033A1 (en) | 2022-12-22 |
JP7192086B2 (ja) | 2022-12-19 |
EP3895036A1 (en) | 2021-10-20 |
KR102498812B1 (ko) | 2023-02-10 |
WO2021167632A1 (en) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10474877B2 (en) | Automated effects generation for animated content | |
Zhao et al. | Affective image content analysis: Two decades review and new perspectives | |
Zhao et al. | Predicting personalized image emotion perceptions in social networks | |
CN109952572B (zh) | 基于消息贴纸的建议响应 | |
US11138207B2 (en) | Integrated dynamic interface for expression-based retrieval of expressive media content | |
US11829404B2 (en) | Functional image archiving | |
US20170212892A1 (en) | Predicting media content items in a dynamic interface | |
KR102498812B1 (ko) | 기계 학습을 사용하여 애니메이션 미디어 컨텐츠 아이템에서 시간 정보를 추출하기 위한 시스템 및 방법 | |
US20170083519A1 (en) | Platform and dynamic interface for procuring, organizing, and retrieving expressive media content | |
US20170083520A1 (en) | Selectively procuring and organizing expressive media content | |
WO2018009666A1 (en) | Combining faces from source images with target images based on search queries | |
CN110554782B (zh) | 一种表情输入的图像合成方法和系统 | |
US20220092071A1 (en) | Integrated Dynamic Interface for Expression-Based Retrieval of Expressive Media Content | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
CN111507097A (zh) | 一种标题文本处理方法、装置、电子设备及存储介质 | |
US20230353820A1 (en) | Systems and Methods for Improved Searching and Categorizing of Media Content Items Based on a Destination for the Media Content Machine Learning | |
US9129216B1 (en) | System, method and apparatus for computer aided association of relevant images with text | |
CN115168568A (zh) | 一种数据内容的识别方法、装置以及存储介质 | |
Qureshi et al. | Video based sentiment analysis | |
US11797780B1 (en) | Context-biased artificial intelligence video generation | |
Bauckhage et al. | Can computers learn from the aesthetic wisdom of the crowd? | |
CN117590981A (zh) | 显示方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |