CN112088369A - 音频和视频多媒体的修改和呈现 - Google Patents

音频和视频多媒体的修改和呈现 Download PDF

Info

Publication number
CN112088369A
CN112088369A CN201980030872.3A CN201980030872A CN112088369A CN 112088369 A CN112088369 A CN 112088369A CN 201980030872 A CN201980030872 A CN 201980030872A CN 112088369 A CN112088369 A CN 112088369A
Authority
CN
China
Prior art keywords
audio
video stream
video
processor
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980030872.3A
Other languages
English (en)
Other versions
CN112088369B (zh
Inventor
T·R·惠特曼
A·鲍格曼
D·巴斯蒂安
N·迈克罗里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qindarui Co
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN112088369A publication Critical patent/CN112088369A/zh
Application granted granted Critical
Publication of CN112088369B publication Critical patent/CN112088369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • H04N19/426Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements using memory downsizing methods
    • H04N19/427Display on the fly, e.g. simultaneous writing to and reading from decoding memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了一种用于改进音频和视频多媒体修改和呈现的方法和系统。方法包括:接收音频/视频流;以及分析音频/视频流的对象,以针对对象生成预测。针对音频/视频流执行组件分析代码,并且从音频/视频流中移除对象从而生成修改后的音频/视频流,从而减少了音频/视频流的硬件存储和传输大小要求。修改的音频/视频流通过图形用户界面呈现给用户。

Description

音频和视频多媒体的修改和呈现
技术领域
本发明总体上涉及一种用于修改音频和视频多媒体的方法,尤其涉及一种用于改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术的方法和相关系统,从而减少了音频/视频流的硬件存储和传输大小要求。
背景技术
通常在给定的一天中观看多个小时的广播视频流与众所周知的过程相关联。同样,移动设备市场的增长与互联网对移动设备的当前访问可用性相结合,使得可以在任何时间,任何位置轻松访问多媒体内容。当前的预测估计,未来多媒体内容的水平将增长到数百万兆兆字节。当前存在关于减小多媒体的大小以解决传输的大量数据的大量解决方案。与基于整个视觉场景中的对象运动确定的捕获或帧速率相关的过程可能会导致使用较少的带宽。在多媒体数据传输期间分配网络资源或压缩图像可以实现视频信号的更快传输。类似地,用于检测运动图像中的像素的过程可以使用户能够查看某些对象。
然而,前述解决方案可能需要使用不准确且复杂的系统来传输多媒体流。另外,前述解决方案可能导致较慢的数据传输速率。结果,当前的解决方案不包括减小传输大小要求的有效手段。
因此,在本领域中需要实现一种用于发送多媒体内容的有效手段。
发明内容
本发明的第一方面提供了一种基于音频和视频多媒体部分移除的修改和呈现改进方法,包括:硬件设备的处理器从本地或远程源接收音频/视频流;执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测,从而通过检测主要关注对象相对于非主要关注对象的运动来标识和标记主要和非主要关注对象并确定相关联的交互;处理器针对音频/视频流执行分量分析代码,从而导致根据指定时间段针对音频/视频流的各个帧解析每个对象的过程,从而基于主要关注对象的改变来预测非主要关注对象的改变;处理器响应于分量分析代码的执行从音频/视频流中移除所述对象的一个对象,从而导致生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;和处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
本发明的一些实施例还提供了一种用于:确定附加对象比原始对象更位于GUI内的中央;检索音频/视频流的其他视图;向修改后的音频/视频流添加一个附加对象;和通过GUI呈现包括附加对象的修改的音频/视频流。这些实施例有利地提供了一种有效的手段,用于基于图像内音频/视频对象之间的交互来隔离音频和视频馈送的主要成分,以针对(在多媒体流内)视觉核心动作集中用户的注意力。另外,本发明的这些实施例有利地使得能够基于音频/视频对象运动来实现语义修剪过程,并且可以被配置通过平滑相邻像素使用户专注于每个音频/视频帧内的高潮动作而不是围绕核心对象的多余对象来减小多媒体流的大小。
本发明的第二方面提供了一种计算机程序产品,包括存储计算机可读程序代码的计算机可读硬件存储设备,计算机可读程序代码包括算法,在由硬件设备的处理器执行时实现基于音频和视频多媒体部分移除的修改和呈现改进方法,方法包括:硬件设备的处理器从本地或远程源接收音频/视频流;执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测,从而通过检测主要关注对象相对于非主要关注对象的运动来标识和标记主要和非主要关注对象并确定相关联的交互;处理器针对音频/视频流执行分量分析代码,从而导致根据指定时间段针对音频/视频流的各个帧解析每个对象的过程,从而基于主要关注对象的改变来预测非主要关注对象的改变;处理器响应于分量分析代码的执行从音频/视频流中移除所述对象的一个对象,从而导致生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;和处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
本发明的一些实施例还提供了一种用于:确定附加对象比原始对象更位于GUI内的中央;检索音频/视频流的其他视图;向修改后的音频/视频流添加一个附加对象;和通过GUI呈现包括附加对象的修改的音频/视频流。这些实施例有利地提供了一种有效的手段,用于基于图像内音频/视频对象之间的交互来隔离音频和视频馈送的主要成分,以针对(在多媒体流内)视觉核心动作集中用户的注意力。另外,本发明的这些实施例有利地使得能够基于音频/视频对象运动来实现语义修剪过程,并且可以被配置通过平滑相邻像素使用户专注于每个音频/视频帧内的高潮动作而不是围绕核心对象的多余对象来减小多媒体流的大小。
本发明的第三方面提供了一种硬件设备,包括耦合至计算机可读存储单元的处理器,存储单元包括指令,指令在由处理器执行时实现基于音频和视频多媒体部分移除的修改和呈现改进方法,方法包括:硬件设备的处理器从本地或远程源接收音频/视频流;执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测,从而通过检测主要关注对象相对于非主要关注对象的运动来标识和标记主要和非主要关注对象并确定相关联的交互;处理器针对音频/视频流执行分量分析代码,从而导致根据指定时间段针对音频/视频流的各个帧解析每个对象的过程,从而基于主要关注对象的改变来预测非主要关注对象的改变;处理器响应于分量分析代码的执行从音频/视频流中移除所述对象的一个对象,从而导致生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;和处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
本发明的一些实施例还提供了一种用于:确定附加对象比原始对象更位于GUI内的中央;检索音频/视频流的其他视图;向修改后的音频/视频流添加一个附加对象;和通过GUI呈现包括附加对象的修改的音频/视频流。这些实施例有利地提供了一种有效的手段,用于基于图像内音频/视频对象之间的交互来隔离音频和视频馈送的主要成分,以针对(在多媒体流内)视觉核心动作集中用户的注意力。另外,这些实施例有利地使得能够基于音频/视频对象运动来实现语义修剪过程,并且可以被配置通过平滑相邻像素使用户专注于每个音频/视频帧内的高潮动作而不是围绕核心对象的多余对象来减小多媒体流的大小。
本发明的第四方面提供了一种音频和视频多媒体的修改和呈现改进方法,包括:硬件设备的处理器从本地或远程源接收音频/视频流;执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测;处理器针对音频/视频流执行分量分析代码;处理器响应于分量分析代码的执行针对对象的至少一个附加对象修改对象的一个对象从而生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;以及处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
本发明的一些实施例还提供一种方法,使得修改视频对象可以包括减小对象的尺寸、模糊对象的视图或增强对象的视图。本发明的另一方面提供了一种方法,使得修改音频对象可以包括增加或减少对象的可听水平。这些实施例有利地提供了一种有效的手段,用于基于图像内音频/视频对象之间的交互来隔离音频和视频馈送的主要成分,以针对(在多媒体流内)视觉核心动作集中用户的注意力。另外,本发明的这些实施例有利地使得能够基于音频/视频对象运动来实现语义修剪过程,并且可以被配置为通过使相邻像素平滑以使用户专注于每个音频/视频帧内的高潮动作而不是围绕核心对象的多余对象来减小多媒体流的大小。
本发明的第五方面提供了一种计算机程序产品,包括存储计算机可读程序代码的计算机可读硬件存储设备,计算机可读程序代码包括算法,算法在由硬件设备的处理器执行时实现音频和视频多媒体的修改和呈现改进方法,包括:硬件设备的处理器从本地或远程源接收音频/视频流;执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测;处理器针对音频/视频流执行分量分析代码;处理器响应于分量分析代码的执行针对对象的至少一个附加对象修改对象的一个对象从而生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;以及处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
本发明的一些实施例还提供一种方法,使得修改视频对象可以包括减小对象的尺寸、模糊对象的视图或增强对象的视图。本发明的另一方面提供了一种方法,使得修改音频对象可以包括增加或减少对象的可听水平。这些实施例有利地提供了一种有效的手段,用于基于图像内音频/视频对象之间的交互来隔离音频和视频馈送的主要成分,以针对(在多媒体流内)视觉核心动作集中用户的注意力。另外,本发明的这些实施例有利地使得能够基于音频/视频对象运动来实现语义修剪过程,并且可以被配置为通过使相邻像素平滑以使用户专注于每个音频/视频帧内的高潮动作而不是围绕核心对象的多余对象来减小多媒体流的大小。
本发明有利地提供了一种能够准确地广播视频流的简单方法和相关系统。
附图说明
图1示出了根据本发明实施例的用于改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术的系统100,从而减少硬件存储和音频/视频流的传输大小要求。
图2示出了根据本发明实施例的详述由图1的系统100所启用的用于改进音频和视频多媒体技术的处理流程的算法。
图3示出了根据本发明实施例的进一步详述图2的用于改进音频和视频多媒体技术的处理流程的算法。
图4示出了根据本发明实施例的相对于图3的算法的替代算法。
图5示出了根据本发明实施例的图1的软件/硬件结构121的内部结构图。
图6示出了根据本发明实施例的呈现修改的音频/视频流的GUI600的结构图。
图7示出了根据本发明实施例的由图1的系统使用或包括的用于改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术的计算机系统90,使得硬件存储和音频/视频流的传输大小要求的减少。
图8示出了根据本发明实施例的云计算环境。
图9示出了根据本发明实施例的由云计算环境提供的一组功能抽象层。
具体实施方式
图1示出了根据本发明实施例的用于改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术的系统100,从而减少硬件存储和音频/视频流的传输大小要求。当前多媒体内容的激增需要对有关减小多媒体内容的大小更有效的关注。此外,由于多种选择,用户的注意力可能需要更多地关注多媒体内容。当前,典型的系统使用参数化为PCA变换的多通道音频的可伸缩编码。进一步的系统可以将图像序列分解成稀疏的前景分量。基于检测到的图像序列中的运动来压缩分解图像。相反,系统100通过逐帧交互检查多媒体内容以呈现对象依赖性。另外,系统100可以使视觉场景能够被分析以用于定位视频内的密集视觉区域。系统100基于图像内音频/视频对象之间的交互,提供了一种针对视觉核心动作(在多媒体流中)集中用户的注意力有效的手段。另外,系统100使得能够基于音频/视频对象运动来实现语义修剪过程,并且系统100可以被配置为通过使相邻像素平滑以使用户专注于每个音频/视频帧内的高潮动作而不是围绕核心对象的多余对象来减小多媒体流的大小。
系统100使得能够如下修改视频呈现中描绘的对象的过程:
解析(流式)多媒体呈现的帧,以检索多媒体呈现的每个视频帧内的一组对象。作为响应,将数字语义标签分别应用于每个视频帧内的每个对象。语义标签描述了对象的相对运动特性。可以用加权值来修改标签,加权值对于位于视频帧内中心的对象以及相对于相对运动的增加程度而增加。可以基于与对象相关联的加权值来确定(对象的)一组主要对象。作为响应,相对于该组对象中的其他对象,修改该组主要对象的外观。修改对象的外观可以包括从关联的视频帧中移除附加对象。另外,可以生成背景图像以替换从关联的视频帧移除的任何对象。此外,可以通过执行主成分分析(PCA)代码来预测对其他对象的变化。
系统100启用基于硬件/软件启用的搜索功能,基于显示图像内不同音频/视频对象的交互,将用户的注意力集中在视频呈现中的核心动作上。音频/视频对象基于主要对象运动通过用于平滑与主要对象相邻的像素的处理而在语义上被修剪。另外,系统100提供了一种用于使用户的注意力集中于每个视频帧内的动作顶点(apex)的装置。
图1的系统100包括服务器硬件设备104(即专用硬件设备)、多媒体硬件设备105a…105n(即专用硬件设备,例如尤其是移动设备、PDA等)以及通过网络117互连的数据库107(例如,基于云的系统)。服务器数据库系统104包括专用电路127(可以包括专用软件)和软件/硬件结构121。多媒体硬件设备105a…105n可以包括提供给每个用户的个人设备。多媒体硬件设备105a…105n可以启用蓝牙或无线功能,以提供与任何类型的系统的连接。多媒体硬件设备105a...105n包括专用电路125a...125n(可能包括专用软件)、音频/视频检索设备132a...132n、音频/视频传感器110a...110n和代码112a...112n(包括统计回归代码和分量分析代码)。音频/视频传感器110a…110n可以包括任何类型的内部或外部传感器(或生物特征传感器),其中包括心率监视器、血压监视器、温度传感器、脉搏率监视器、超声波传感器、光学传感器、视频检索设备、音频检索设备、湿度传感器等。服务器硬件设备104、多媒体硬件设备105a…105n和数据库107可以各自包括嵌入式设备。嵌入式设备在本文中被定义为专用设备或计算机,包括专门设计用于执行专用功能的计算机硬件和软件(功能固定或可编程)的组合。可编程嵌入式计算机或设备可以包括专门的编程接口。在一个实施例中,服务器硬件设备104、多媒体硬件设备105…105n和数据库107可各自包括专用硬件设备,包括专用(非通用)硬件和电路(即,基于专用离散非通用模拟、数字和逻辑的电路)(独立地或组合地)执行参照图1-9描述的过程。基于专用离散非通用模拟、数字和逻辑的电路可以包括专用的专用组件(例如,仅设计用于实施用于改进音频的自动化过程的专用集成电路,例如专用集成电路(ASIC))以及与从音频/视频流中移除对象的硬件设备相关的视频多媒体技术,从而减少了音频/视频流的硬件存储和传输大小要求。音频/视频检索设备132a…132n可以包括任何类型的音频/视频设备,尤其包括照相机、摄像机、静态相机、麦克风等。网络117可以包括任何类型的网络,其中包括尤其是局域网(LAN)、广域网(WAN)、因特网、无线网络等。可替换地,网络117可以包括应用编程接口(API)。
系统100包括用于提供以下基于视频对象的功能的硬件/软件模块:
1.解析每个视频帧内的视频对象的图像,以产生关于时间的基于帧的交互呈现,以确定哪些视频帧彼此交互。
2.确定每个视频对象的语义标签以确定该语义标签是否可用于描述视频对象相对于附加视频对象的运动。
3.与相对于GUI的显示位于中心的视频对象相关联的扩散语义运动权重。
4.基于中心性和语义运动权重的组合来确定原理图像。
5.使用主成分分析(PCA)基于主要视频对象的变化来预测非主要视频对象的变化。
6.如果视频对象被添加到核心动作,则基于来自多媒体视频流的视频对象,修剪视频对象和声音并从其他摄像机角度或相邻像素插入新的背景视频对象。
图2示出了根据本发明实施例的详述由图1的系统100所启用的用于改进音频和视频多媒体技术的处理流程的算法。图2的算法中的每个步骤可以由执行计算机代码的计算机处理器以任何顺序启用和执行。另外,服务器硬件设备104和多媒体硬件设备105a…105n可以组合地启用和执行图2的算法中的每个步骤。在步骤200中,从多个来源接收音频视频输入流,多个来源尤其包括数据库、文件系统、基于云的存储系统等。在步骤202中,分析音频视频输入流。该分析可以包括识别和标记相关的主要音频/视频对象成分。在步骤204,通过R平方统计回归过程进一步分析音频视频输入流。本文中将R平方统计回归过程定义为(视频)数据与拟合回归线(例如,确定系数)的接近程度的统计量度。因此,R平方的统计回归过程包括由线性模型定义的响应变量变化的百分比,例如:R平方=解释变化/总变化。执行R平方统计回归过程以预测主要音频/视频对象分量跟踪相对于周围的非主要音频/视频对象分量的运动以及音频/视频流帧之间的关联交互。在步骤208,应用主成分分析代码以分割音频/视频流,从而导致将主要音频/视频对象成分呈现为清晰、清楚和/或可听的结构。同样,所有非主要的音频/视频对象成分都显示为模糊、修剪或听不见的结构。在步骤210中,(基于步骤208)修改的结果音频/视频流(通过输出设备)被呈现和/或被存储(在本地数据存储中),并且重复步骤200。
图3示出了根据本发明实施例的进一步详述图2的用于改进音频和视频多媒体技术的处理流程的算法。图3的算法中的每个步骤可以由执行计算机代码的计算机处理器以任何顺序启用和执行。另外,服务器硬件设备104和多媒体硬件设备105a…105n可以组合地启用和执行图3的算法中的每个步骤。在步骤300中,(由多媒体设备)从本地或远程源接收音频/视频流。在步骤302中,通过执行R平方(R2)统计回归代码来分析音频/视频流的(音频和/或视频)对象。该分析导致关于音频/视频流的对象的预测的生成。分析音频/视频流的对象可以包括:
1.识别对象的主要关注对象。
2.识别对象的非主要关注对象。
3.标记主要关注对象和非主要关注对象。
4.相对于音频/视频流的各个帧,(基于标记的结果)确定主要关注和非主要关注对象之间的交互。确定交互可以包括检测在各个帧内主要关注对象相对于非主要关注对象的运动。
在步骤304中,针对音频/视频流执行分量分析代码。步骤304的执行可以导致用于根据指定时间段相对于音频/视频流的各个帧来解析每个对象的过程。步骤304的执行可以包括:
1.确定主要关注对象。
2.识别非主要关注对象。
3.确定主要关注对象与非主要关注对象之间的交互。
4.基于对主要关注对象的变化,预测对非主要关注对象的变化。
在步骤308中,基于音频/视频流(基于步骤304的结果)移除一个或多个对象,从而生成修改的音频/视频流。修改的音频/视频流导致降低硬件存储、音频/视频流的传输大小要求。可以基于步骤302的确定的交互来执行移除对象。移除对象可以导致将用户的关注指向主要关注对象。在步骤310中,经由图形用户界面(GUI)来呈现修改的音频/视频流。在步骤312,将修改后的音频/视频流存储在远程数据库中。在步骤314,确定对象中的附加对象比原始对象更位于GUI内的中央。在步骤317,从本地或远程源检索音频/视频流的其他视图。在步骤318,添加附加对象,以添加到修改后的音频/视频流。在步骤320中,经由GUI呈现包括附加对象的修改的音频/视频流。。
图4示出了根据本发明实施例的相对于图3的算法的替代算法。图4的算法中的每个步骤可以由执行计算机代码的计算机处理器以任何顺序启用和执行。另外,服务器硬件设备104和多媒体硬件设备105a…105n可以组合地启用和执行图4的算法中的每个步骤。在步骤400中,(由多媒体设备)从本地或远程源接收音频/视频流。在步骤402中,通过执行R平方(R2)统计回归代码来分析音频/视频流的(音频和/或视频)对象。该分析导致关于音频/视频流的对象的预测的生成。在步骤404,针对音频/视频流执行分量分析代码。步骤404的执行可以导致用于根据指定时间段相对于音频/视频流的各个帧来解析每个对象的过程。在步骤408中,相对于至少一个另外的对象(响应于步骤404的执行)修改对象,从而生成修改的音频/视频流。修改后的音频/视频流导致降低硬件存储、音频/视频流的传输大小要求。修改视频对象可能包括:
1.相对于至少一个另外的视频对象减小对象的尺寸。
2.相对于至少一个另外的视频对象模糊对象的视图。
3.相对于至少一个另外的视频对象增强对象的视图。
修改音频对象可以包括:
1.相对于至少一个另外的音频对象降低对象的可听水平。
2.相对于至少一个另外的音频对象增加对象的可听水平。
在步骤410中,经由图形用户界面(GUI)呈现修改后的音频/视频流。在步骤412中,将修改的音频/视频流存储在远程数据库中。
图5示出了根据本发明实施例的图1的软件/硬件结构121的内部结构图。软件/硬件结构121包括音频/视频(A/V)传感器接口模块504、A/V控制模块510、分析模块508、代码生成模块514和通信控制器502。
A/V传感器接口模块504包括专用硬件和软件,用于控制与图1的音频/视频传感器110a…110n有关的所有功能。A/V控制模块510包括专用硬件和软件,用于控制与音频视频检索设备132a…132n有关的所有功能,以检索音频/视频流并实现关于图2-4的算法描述的过程。分析模块508包括专用硬件和软件,用于控制与R平方回归分析和分量分析有关的所有功能,以移除或修改多媒体流的音频/视频对象。代码生成模块514包括用于控制与生成或修改R平方统计回归代码和/或分量分析代码有关的所有功能的专用硬件和软件。通信控制器502被启用以控制A/V传感器接口模块504、A/V控制模块310、分析模块508和代码生成模块514之间的所有通信。
图6示出了根据本发明实施例的呈现修改的音频/视频流的GUI 600的结构图。GUI600包括主观看部分600a,包括从A/V流平滑或修剪的第一非关注对象的第一流音频/视频部分600b,包括从A/V流平滑或修剪的第二(和更少)非关注对象的第二流音频/视频部分600b,以及可以包括单个主要(音频和/或视频)对象或多个相关主要(音频和/或视频)对象的主要关注对象602。GUI 600是通过以下过程生成的:该过程用于分割实时视频摄像机馈送并呈现正在流式传输的整个可视区域的局部视图,同时分析剩余的可视区域以预测对象和摄像机的运动。对正在流式传输的对象进行标记和监视,以确定是否可能过渡到主要重要性对象。通过检测主要对象的运动,可以从A/V流中修剪(例如,移除)其他对象。同样地,基于主要对象的运动来预测非主要对象的运动。例如,关于用于检查监视视频流的过程,视频流的基本分量可以包括与视频流中的人的移动相关联的图像。同样,视频的非必要组成部分可以包括与动物在视频流中的运动相关的图像。因此,可以从监视视频中修剪或模糊视频流中动物运动的图像,以使查看监视视频的用户将他/她的注意力集中在视频中的人上,以便他们能够更好地确定是否有任何必须解决的问题。附加示例可以包括与移动设备可访问的有限带宽相关联的场景。因此,可以从数据流中移除任何非必需的音频、视频或数据对象,以使数据流可以消耗更少的带宽,同时保留数据流内容的主要部分。
GUI 600使得能够进行以下处理:抖动/平滑/修剪流实时帧内(数据流)内识别出的非必要和非主要可视对象,其中预测的主要对象或多个主要对象或相机执行相关动作。因此,在保留单个或多个主题突出显示的同时,实现了实时视频流传输数据量的减少。同样,通过实时视频馈送捕获可以减少存储量,并且生成的视频需要更少的总体存储空间,并减少了对后处理的需求。
图7示出了根据本发明实施例的由图1的系统(例如,图1的多媒体硬件105a…105n和/或服务器硬件设备104)使用或包括的用于改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术的计算机系统90,使得硬件存储和音频/视频流的传输大小要求的减少。
本发明的方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或结合了软件和硬件方面的实施例的形式,这些方面通常可以被全部提及。在本文中称为“电路”、“模块”或“系统”。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
图7所示的计算机系统90包括处理器91,耦合到处理器91的输入设备92,耦合到处理器91的输出设备93以及分别耦合到处理器91的存储设备94和95。输入设备92尤其可以是键盘、鼠标、照相机、触摸屏等。输出设备93尤其可以是打印机、绘图仪、计算机屏幕、磁带、可移动硬盘、软盘等。存储设备94和95尤其可以是硬盘、软盘、磁带、诸如光盘(CD)或数字视频盘(DVD)的光学存储器、动态随机存取存储器(DRAM)、只读存储器(ROM)等。存储设备95包括计算机代码97。计算机代码97包括用于改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术的算法(例如,图2-4的算法),从而减少硬件存储和音频/视频流的传输大小要求。处理器91执行计算机代码97。存储设备94包括输入数据96。输入数据96包括计算机代码97所需的输入。输出设备93显示计算机代码97的输出。存储设备94和95之一或两者(或一个或多个其他存储设备,例如只读存储设备96)可以包括算法(例如,图2-4的算法),并且可以用作计算机可用介质(或计算机可读介质或程序存储设备),其中包含体现的计算机可读程序代码和/或具有存储在其中的其他数据,其中计算机可读程序代码包括计算机代码97。通常,计算机系统90的计算机程序产品(或替代地,制品)可以包括计算机可用介质(或程序存储设备)。
在一些实施例中,不是从硬盘驱动器、光盘或其他可写、可重写或可移动硬件存储设备95进行存储和访问,而是可以将存储的计算机程序代码84(例如,包括算法)存储在诸如只读存储器(ROM)设备85之类的静态、不可移动、只读存储介质上,或者可由处理器91直接从这种静态、不可移动的只读介质85访问。类似地,在一些实施例中,所存储的计算机程序代码97可以被存储为计算机可读固件85,或者可以由处理器91直接从这种固件85而不是从更具动态性或可移动性的硬件数据存储设备95(诸如,硬盘驱动器或光盘)来访问。
然而,本发明的任何组件可以由服务提供商创建、集成、托管、维护、部署、管理、服务等,该服务提供商提供改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术,从而减少硬件存储和音频/视频流的传输大小要求。因此,本发明公开了一种用于部署、创建、集成、托管、维护和/或集成计算基础架构的过程,包括将计算机可读代码集成到计算机系统90中,其中该代码与计算机系统90结合能够执行一种方法,使得能够改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术的过程,从而减少硬件存储和音频/视频流的传输大小要求。在另一个实施例中,本发明提供了一种商业方法,基于订阅、广告和/或费用执行本发明的处理步骤。也就是说,诸如解决方案集成商之类的服务供应商可以提供一种能够改进与从音频/视频流中移除对象的硬件设备相关联的音频和视频多媒体技术的过程,从而减少硬件存储和音频/视频流的传输大小要求。在这种情况下,服务提供商可以创建、维护、支持等为一个或多个客户执行本发明的处理步骤的计算机基础结构。作为回报,服务提供商可以根据订阅和/或费用协议从客户那里收到付款,和/或服务提供商可以从向一个或多个第三方出售广告内容中收到付款。
尽管图7将计算机系统90示为硬件和软件的特定配置,但是对于本领域普通技术人员来说,可以结合图7的特定计算机系统90将硬件和软件的任何配置用于上述目的。例如,存储设备94和95可以是单个存储设备的一部分,而不是单独的存储设备。
云计算环境
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图8,其中显示了根据本发明一个实施例的示例性的云计算环境50。如图所示,云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10,本地计算设备例如可以是个人数字助理(PDA)或移动电话54A,台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图2显示的各类计算设备54A-N仅仅是示意性的,云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。
现在参考图9,其中显示了根据本发明一个实施例的云计算环境50(参见图8)提供的一组功能抽象层。首先应当理解,图9所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图9所示,提供下列层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的例子包括:主机61;基于RISC(精简指令集计算机)体系结构的服务器62;服务器63;刀片服务器64;存储设备65;网络和网络组件66。软件组件的例子包括:网络应用服务器软件67以及数据库软件68。
虚拟层70提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74,以及虚拟客户端75。
在一个示例中,管理层80可以提供下述功能:资源供应功能81:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能82:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能83:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层89提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航91;软件开发及生命周期管理92;虚拟教室的教学提供93;数据分析处理94;交易处理95;以及改善与分析多个视频流以呈现指定的可见数据相关的显示生成和呈现技术,检索关联的反馈,并从音频/视频流中移除对象96,从而减少音频/视频流的硬件存储和传输大小要求。
尽管这里出于说明的目的已经描述了本发明的实施例,但是许多修改和改变对于本领域技术人员将变得显而易见。因此,所附权利要求书旨在涵盖落入本发明范围内的所有此类修改和改变。

Claims (25)

1.一种基于音频和视频多媒体部分移除的修改和呈现改进方法,包括:
硬件设备的处理器从本地或远程源接收音频/视频流;
执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测;
处理器针对音频/视频流执行分量分析代码;
处理器响应于分量分析代码的执行从音频/视频流中移除所述对象的一个对象从而生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;以及
处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
2.根据权利要求1所述的方法,其中所述分析音频/视频流的对象包括:
识别对象的主要关注对象;
识别对象的非主要关注对象;
标记主要关注对象和非主要关注对象;以及
基于标记的结果,相对于音频/视频流的各个帧确定主要关注和非主要关注对象之间的交互,其中基于所述交互执行所述移除,并且其中所述移除导致将用户的关注指向所述主要关注对象。
3.根据权利要求2所述的方法,其中确定所述交互包括检测在各个帧内主要关注对象相对于非主要关注对象的运动。
4.根据权利要求1所述的方法,其中所述对象包括视频对象。
5.根据权利要求1所述的方法,其中所述对象包括音频对象。
6.根据权利要求1所述的方法,其中所述对象包括视频对象和相关的音频对象。
7.根据权利要求1所述的方法,还包括:
处理器在远程数据库中存储修改后的音频/视频流。
8.根据权利要求1所述的方法,其中,针对音频/视频流执行所述分量分析代码导致根据指定的时间段针对音频/视频流的各个帧解析每个所述对象。
9.根据权利要求1所述的方法,还包括:
处理器响应于分量分析代码的执行确定所述对象的附加对象比所述对象更位于所述GUI内的中央,其中,所述移除还基于所述确定的结果。
10.根据权利要求1所述的方法,针对音频/视频流执行分量分析代码:
确定主要关注对象;
识别非主要关注对象;
确定主要关注对象与非主要关注对象之间的交互;以及
基于对主要关注对象的变化,预测对非主要关注对象的变化。
11.根据权利要求1所述的方法,还包括:
处理器从本地或远程源检索音频/视频流的其他视图;
处理器响应于分量分析代码的执行向修改后的音频/视频流添加一个附加对象;以及
处理器和通过GUI呈现包括附加对象的修改的音频/视频流。
12.根据权利要求1所述的方法,还包括:
为在控制硬件中创建、集成、托管、维护和部署计算机可读代码中的至少一项提供至少一种支持服务,所述代码由计算机处理器执行以实现:所述接收、所述分析、所述执行、所述移除和所述呈现。
13.一种计算机程序产品,包括存储计算机可读程序代码的计算机可读硬件存储设备,计算机可读程序代码包括算法,在由硬件设备的处理器执行时实现基于音频和视频多媒体部分移除的修改和呈现改进方法,方法包括:
硬件设备的处理器从本地或远程源接收音频/视频流;
执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测;
处理器针对音频/视频流执行分量分析代码;
处理器响应于分量分析代码的执行从音频/视频流中移除所述对象的一个对象从而生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;以及
处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
14.一种硬件设备,包括耦合至计算机可读存储单元的处理器,存储单元包括指令,指令在由处理器执行时实现基于音频和视频多媒体部分移除的修改和呈现改进方法,方法包括:
硬件设备的处理器从本地或远程源接收音频/视频流;
执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测;
处理器针对音频/视频流执行分量分析代码;
处理器响应于分量分析代码的执行从音频/视频流中移除所述对象的一个对象,从而导致生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;以及
处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
15.一种音频和视频多媒体的修改和呈现改进方法,包括:
硬件设备的处理器从本地或远程源接收音频/视频流;
执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测;
处理器针对音频/视频流执行分量分析代码;
处理器响应于分量分析代码的执行针对对象的至少一个附加对象修改所述对象的一个对象从而生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;以及
处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
16.根据权利要求15所述的方法,其中所述对象包括视频对象,并且所述修改所述对象包括针对至少一个附加视频对象,减小经由所述GUI投影的对象的尺寸。
17.根据权利要求15所述的方法,其中所述对象包括视频对象,并且所述修改所述对象包括针对至少一个附加视频对象,模糊通过所述GUI投影的对象的视图。
18.根据权利要求15所述的方法,其中所述对象包括视频对象,并且所述修改所述对象包括针对至少一个附加视频对象,增强通过所述GUI投影的对象的视图。
19.根据权利要求15所述的方法,其中所述对象包括音频对象,并且所述修改所述对象包括针对至少一个附加音频对象,减小经由所述GUI投影的对象的可听水平。
20.根据权利要求15所述的方法,其中所述对象包括音频对象,并且所述修改所述对象包括针对至少一个附加音频对象,增加经由所述GUI投影的对象的可听水平。
21.一种计算机程序产品,包括存储计算机可读程序代码的计算机可读硬件存储设备,计算机可读程序代码包括算法,算法在由硬件设备的处理器执行时实现音频和视频多媒体的修改和呈现改进方法,包括:
硬件设备的处理器从本地或远程源接收音频/视频流;
执行R2统计回归代码的处理器分析音频/视频流的对象,以针对音频/视频流的对象生成预测;
处理器针对音频/视频流执行分量分析代码;
处理器响应于分量分析代码的执行针对对象的至少一个附加对象修改对象的一个对象从而生成修改的音频/视频流,使得音频/视频流的硬件存储和传输大小要求降低;以及
处理器通过图形用户界面(GUI)呈现修改后的音频/视频流。
22.根据权利要求21所述的计算机程序产品,其中所述对象包括视频对象,并且所述修改所述对象包括针对至少一个附加视频对象,减小经由所述GUI投影的对象的尺寸。
23.根据权利要求21所述的计算机程序产品,其中所述对象包括视频对象,并且所述修改所述对象包括针对至少一个附加视频对象,模糊通过所述GUI投影的对象的视图。
24.根据权利要求21所述的计算机程序产品,其中所述对象包括视频对象,并且所述修改所述对象包括针对至少一个附加视频对象,增强通过所述GUI投影的对象的视图。
25.根据权利要求21所述的计算机程序产品,其中所述对象包括音频对象,并且所述修改所述对象包括针对至少一个附加音频对象,减小经由所述GUI投影的对象的可听水平。
CN201980030872.3A 2018-06-19 2019-06-13 音频和视频多媒体的修改和呈现 Active CN112088369B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/011,905 2018-06-19
US16/011,905 US10666954B2 (en) 2018-06-19 2018-06-19 Audio and video multimedia modification and presentation
PCT/IB2019/054946 WO2019243961A1 (en) 2018-06-19 2019-06-13 Audio and video multimedia modification and presentation

Publications (2)

Publication Number Publication Date
CN112088369A true CN112088369A (zh) 2020-12-15
CN112088369B CN112088369B (zh) 2024-04-16

Family

ID=68840757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980030872.3A Active CN112088369B (zh) 2018-06-19 2019-06-13 音频和视频多媒体的修改和呈现

Country Status (6)

Country Link
US (1) US10666954B2 (zh)
JP (1) JP7416718B2 (zh)
CN (1) CN112088369B (zh)
DE (1) DE112019001822B4 (zh)
GB (1) GB2587584B (zh)
WO (1) WO2019243961A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10862938B1 (en) * 2018-06-21 2020-12-08 Architecture Technology Corporation Bandwidth-dependent media stream compression
EP4187906A1 (en) * 2021-11-30 2023-05-31 Nokia Technologies Oy Playback

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005295133A (ja) * 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 情報配信装置
CN103559402A (zh) * 2013-11-07 2014-02-05 大连东方之星信息技术有限公司 一种应用线性回归方法的统计分析方法
CN103828349A (zh) * 2011-06-07 2014-05-28 英特尔公司 对视频会议流的自动隐私调整
US20160142672A1 (en) * 2014-11-17 2016-05-19 International Business Machines Corporation Automatic screen adjustment for multi location video conferencing
CN106933207A (zh) * 2015-10-09 2017-07-07 费希尔-罗斯蒙特系统公司 用于分布式工业性能监控的数据分析服务

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9004978D0 (en) 1990-03-06 1990-05-02 Crosfield Electronics Ltd Image compression
JPH04273687A (ja) * 1991-02-28 1992-09-29 Hitachi Ltd 動画像符号化装置
US6154754A (en) 1997-09-25 2000-11-28 Siemens Corporate Research, Inc. Automatic synthesis of semantic information from multimedia documents
US6324217B1 (en) 1998-07-08 2001-11-27 Diva Systems Corporation Method and apparatus for producing an information stream having still images
US6665423B1 (en) 2000-01-27 2003-12-16 Eastman Kodak Company Method and system for object-oriented motion-based video description
US6947378B2 (en) 2001-02-28 2005-09-20 Mitsubishi Electric Research Labs, Inc. Dynamic network resource allocation using multimedia content features and traffic features
JP2003242252A (ja) 2002-02-18 2003-08-29 Nec Soft Ltd 病室用支援システム、病室用テレビ、病室用支援プログラム
EP1367505A1 (en) 2002-05-30 2003-12-03 Thomson Licensing S.A. Method and device for creating semantic browsing options
KR101001172B1 (ko) 2003-01-06 2010-12-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 유사 비디오 콘텐츠 호핑을 위한 방법 및 장치
JP2006197321A (ja) 2005-01-14 2006-07-27 Sony Corp 画像処理方法および装置、並びにプログラム
US8055783B2 (en) 2005-08-22 2011-11-08 Utc Fire & Security Americas Corporation, Inc. Systems and methods for media stream processing
FR2898725A1 (fr) 2006-03-15 2007-09-21 France Telecom Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale
US7957601B2 (en) * 2006-08-30 2011-06-07 Siemens Medical Solutions Usa, Inc. Systems and methods of inter-frame compression
JP2011509697A (ja) 2007-12-04 2011-03-31 ジーイー・ヘルスケア・リミテッド 画像解析
US8515258B2 (en) 2009-02-20 2013-08-20 Indian Institute Of Technology, Bombay Device and method for automatically recreating a content preserving and compression efficient lecture video
US8179466B2 (en) 2009-03-11 2012-05-15 Eastman Kodak Company Capture of video with motion-speed determination and variable capture rate
JP5235746B2 (ja) 2009-03-25 2013-07-10 三洋電機株式会社 画像送信装置、およびそれを搭載した撮像装置
US8306283B2 (en) * 2009-04-21 2012-11-06 Arcsoft (Hangzhou) Multimedia Technology Co., Ltd. Focus enhancing method for portrait in digital image
US9183560B2 (en) * 2010-05-28 2015-11-10 Daniel H. Abelow Reality alternate
WO2012170093A2 (en) * 2011-03-25 2012-12-13 Exxonmobil Upstream Research Company Autonomous detection of chemical plumes
US8885706B2 (en) 2011-09-16 2014-11-11 Google Inc. Apparatus and methodology for a video codec system with noise reduction capability
US9349193B2 (en) 2014-03-31 2016-05-24 National Taipei University Of Technology Method and apparatus for moving object detection using principal component analysis based radial basis function network
CN103957389B (zh) 2014-05-13 2017-02-22 重庆大学 基于压缩感知的3g视频传输方法及系统
US9584814B2 (en) * 2014-05-15 2017-02-28 Intel Corporation Content adaptive background foreground segmentation for video coding
US9237307B1 (en) * 2015-01-30 2016-01-12 Ringcentral, Inc. System and method for dynamically selecting networked cameras in a video conference
US9679387B2 (en) 2015-02-12 2017-06-13 Mitsubishi Electric Research Laboratories, Inc. Depth-weighted group-wise principal component analysis for video foreground/background separation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005295133A (ja) * 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 情報配信装置
CN103828349A (zh) * 2011-06-07 2014-05-28 英特尔公司 对视频会议流的自动隐私调整
CN103559402A (zh) * 2013-11-07 2014-02-05 大连东方之星信息技术有限公司 一种应用线性回归方法的统计分析方法
US20160142672A1 (en) * 2014-11-17 2016-05-19 International Business Machines Corporation Automatic screen adjustment for multi location video conferencing
CN106933207A (zh) * 2015-10-09 2017-07-07 费希尔-罗斯蒙特系统公司 用于分布式工业性能监控的数据分析服务

Also Published As

Publication number Publication date
CN112088369B (zh) 2024-04-16
US20190387235A1 (en) 2019-12-19
GB2587584A (en) 2021-03-31
DE112019001822B4 (de) 2021-12-23
GB2587584B (en) 2021-10-27
US10666954B2 (en) 2020-05-26
WO2019243961A1 (en) 2019-12-26
JP2021527969A (ja) 2021-10-14
JP7416718B2 (ja) 2024-01-17
DE112019001822T5 (de) 2021-04-01
GB202100132D0 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
US10593118B2 (en) Learning opportunity based display generation and presentation
US11036796B2 (en) Video clips generation system
US10931612B2 (en) Integration of social interactions into media sharing
US11159631B2 (en) Integration of social interactions into media sharing
US11122332B2 (en) Selective video watching by analyzing user behavior and video content
US10547582B1 (en) Methods and systems for enhancing viewer engagement with content portions
US10957089B2 (en) Animation generation
US10798037B1 (en) Media content mapping
US20200409451A1 (en) Personalized content for augemented reality based on past user experience
CN112088369B (zh) 音频和视频多媒体的修改和呈现
US11843569B2 (en) Filtering group messages
US11240570B1 (en) Object-based video loading
AU2021269911B2 (en) Optimized deployment of analytic models in an edge topology
US11894023B2 (en) Video enhancement
US20210065043A1 (en) Dynamic content rating assistant
US11729481B2 (en) Providing customized abridged versions of media items based on available user time
US10834381B1 (en) Video file modification
US11166069B1 (en) Video content conversion
US10986422B2 (en) Hyper video navigation
US11157554B2 (en) Video response generation and modification
US10372993B2 (en) Selectively retaining high-resolution segments of continuous video data stream
US20230419047A1 (en) Dynamic meeting attendee introduction generation and presentation
US20200394532A1 (en) Detaching Social Media Content Creation from Publication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220216

Address after: USA New York

Applicant after: Qindarui Co.

Address before: USA New York

Applicant before: International Business Machines Corp.

GR01 Patent grant
GR01 Patent grant