CN116612731A - 现场音乐表演的多媒体内容的基于网络的处理及分布 - Google Patents

现场音乐表演的多媒体内容的基于网络的处理及分布 Download PDF

Info

Publication number
CN116612731A
CN116612731A CN202310747017.2A CN202310747017A CN116612731A CN 116612731 A CN116612731 A CN 116612731A CN 202310747017 A CN202310747017 A CN 202310747017A CN 116612731 A CN116612731 A CN 116612731A
Authority
CN
China
Prior art keywords
video
live
data
audio data
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310747017.2A
Other languages
English (en)
Inventor
P·尼科尔
A·马特奥斯·索莱
G·真加勒
C·M·瓦斯科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Priority claimed from PCT/US2017/043152 external-priority patent/WO2018017878A1/en
Publication of CN116612731A publication Critical patent/CN116612731A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/44Tuning means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/305Source positioning in a soundscape, e.g. instrument positioning on a virtual soundstage, stereo panning or related delay or reverberation changes; Changing the stereo width of a musical source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Stereophonic System (AREA)
  • Studio Circuits (AREA)

Abstract

本发明揭示用于现场音乐表演的多媒体内容的基于网络的处理及分布的方法、系统及计算机程序产品。在一些实施方案中,录制装置可经配置以录制多媒体事件(例如,音乐表演)。所述录制装置可在所述事件正在进行时将所述录制提供到服务器。所述服务器对所述录制进行自动同步、混音及母带处理。所述服务器使用先前在排练期间所捕获的参考音频数据执行所述自动混音及母带处理。所述服务器通过因特网或者其它公用或专用网络将所述经母带处理的录制流式传输到多个终端用户。所述流式传输可为现场流式传输。

Description

现场音乐表演的多媒体内容的基于网络的处理及分布
分案申请的相关信息
本案是分案申请。该分案的母案是申请日为2017年07月20日、申请号为201780045266.X、发明名称为“现场音乐表演的多媒体内容的基于网络的处理及分布”的发明专利申请案。
技术领域
本发明一般来说涉及现场音乐表演的多媒体内容的捕获、处理及分布。
背景技术
经由因特网分布现场表演的高质量音频及视频可为具挑战性的。上传到因特网的许多业余制作的视频录制具有不良视频及声音质量。当乐队在未经声学处理的场地中演奏时,如果在不进行进一步处理的情况下直接上传录制,那么声音质量可为不良的。举例来说,如果使用架子鼓,那么可大声地演奏所述架子鼓,使得无法清晰地听到乐队的其它乐器。另外,如果乐队未恰当地设置其录制设备(例如,包含多个麦克风、前置放大器及混音控制台),那么表演的录制可具有低声音质量。即使恰当地设置录制设备,乐队也可能缺乏高效地使用录制设备的技术专长。同样地,表演的专业质量视频录制及编辑可需要超出表演者的技能的技术专长。
发明内容
本发明揭示用于基于排练及现场数据而进行视频编辑的系统、程序产品及方法。系统从一或多个麦克风及一或多个视频摄像机接收关于表演的排练的排练数据。所述系统基于所述排练数据而匹配声音与表演者。在现场表演期间,所述系统接收所述表演的现场音频与视频数据。基于所述排练数据的分析,所述系统导出表演者相对于排练所演奏的等级,以及在所述一或多个视频摄像机中所述表演者在排练期间的代表性位置。所述系统接着基于利用所述所导出等级及位置来(举例来说)强调突显表演者的规则而编辑所述视频数据;所述系统任选地使用其表演的分析来改进所述编辑,所述分析产生(举例来说)节奏或节拍数据及表演者移动追踪数据。所述系统接着使所述音频数据与所述经编辑视频数据相关联以用于存储且流式传输到一或多个用户装置。
本发明揭示用于在有限网络带宽下进行视频处置的系统、程序产品及方法。视频摄像机可捕获表演的高清晰度视频(例如,4K视频)。所述视频可难以经由通信网络进行现场流式传输(或甚至离线上传)。所述视频摄像机可将所述视频的一或多个帧(任选地处于较低分辨率中且任选地使用有损视频编解码器经压缩)提交给服务器系统。基于所述一或多个帧及音频数据,如在先前段落中所描述,所述服务器系统可产生对视频数据的编辑决策。所述服务器系统可指导所述视频摄像机裁剪与表演者或表演者群组对应的所述高清晰度视频的一部分,且将所述视频的那部分作为中等或低清晰度视频(例如,720p视频)(任选地使用有损视频编解码器经压缩)提交给所述服务器系统。视频摄像机装置可连续地存储与最后所捕获帧对应的高清晰度视频(例如4K)的长缓冲区(例如数十秒),使得可对几秒前捕获的帧实施来自所述服务器系统的所接收指令。所述服务器系统接着可存储所述中等或低清晰度视频或将所述中等或低清晰度视频流式传输到用户装置。
揭示用于现场表演的多媒体内容的基于网络的处理及分布的实施方案。在一些实施方案中,录制装置可经配置以录制事件(例如,现场音乐表演)。所述录制装置在所述表演期间将录制提供到服务器。所述服务器对所述录制进行自动同步、混音及母带处理。在实施方案中,所述服务器使用在排练期间捕获的参考音频数据执行所述自动化混音及母带处理,在所述排练中,所述录制装置及声音源放置于与在所述事件中相同的声学(且在视频录制装置的情形中,可视)布置中。所述服务器(例如)通过现场流式传输将所述经母带处理的录制提供到多个终端用户装置。
在一些实施方案中,所述服务器将现场事件的视频信号流式传输到多个用户。使用在排练阶段期间录制的所述参考音频数据(还称为排练数据),所述服务器确定各种乐器及歌手(下文还称为“声音源”)的位置以及录制位置处的表演者的位置。在现场表演期间,所述服务器基于一或多个参数(例如,音量)而确定一或多个主导声音源。图像捕获装置(例如,视频摄像机)可捕获所述表演的现场视频且将其发送到所述服务器。使用所述主导声音源的位置,所述服务器确定视频中的一部分来施加视频编辑操作(例如,缩放、转变、可视效应)。可实时发生对现场视频或对先前所录制的视频数据施加所述视频编辑操作。所述服务器将与主导声音源对应的视频的部分(例如,主唱歌手或首席吉他演奏者的近镜头)流式传输到终端用户装置。在实施方案中,音频与视频流式传输可为互动的。举例来说,所述服务器可在终端用户装置上提供允许终端用户控制音频混音(例如,提高歌手或独奏乐器的音量)及视频编辑(例如,对特定表演者进行放大)的视频覆盖或图形用户接口。在一些实施方案中,所述服务器可将调整一或多个录制参数(例如,对麦克风前置放大器的录制等级调整、视频录制器的缩放等级、接通或关断特定麦克风或视频录制器或以上各项的任何组合)的命令发布到音频或视频录制装置。
本说明书中所描述的特征可达成优于常规音频与视频技术的一或多个优点。所述特征通过至少部分地基于从参考音频数据获得的参考音频数据而进行音轨的自动化混音及母带处理来对常规手动音频与视频处理技术进行改进。因此,乐队不需要具有音频录制或混音专长来制作其现场表演的良好发声录制。使用本文中所揭示的自动化混音及母带处理,乐队可在不诉诸于使用专业录制、混音及母带处理工程师的情况下产生协调声音。如果乐队期望来自特定专家的混音风格,那么所述乐队可使用本文中所揭示的基于网络的平台来聘用专家对其录制进行远程混音及母带处理。
同样地,所揭示实施方案通过至少部分地基于音频与视频排练数据而用自动化摄像机操作替换手动摄像机操作(例如,平移及缩放)来对常规视频处理技术进行改进。视频可自动放大或聚焦于个别表演者或乐器。乐队可在不聘用专业摄像师的情况下制作且编辑其现场表演的专业质量视频。
乐队可使用各种技术(例如,现场流式传输)将高质量音频及视频提供到多个终端用户装置。为增强终端用户体验,可使流式传输为互动的,从而允许终端用户控制音频混音及视频编辑的各种方面。在本说明书中,为了方便,术语乐队可指一或多个表演者及乐器的乐队。所述术语还可指非音乐环境中的一或多个参与者(例如,戏剧中的表演者、会议上的扬声器或广播系统中的扬声器)的群组。
本文中所揭示的特征及过程通过将服务器计算机配置为执行现场表演的音轨的自动化同步、混音及母带处理以及视频数据的编辑而对常规服务器计算机进行改进。所述服务器计算机可将经处理音频及视频流式传输到终端用户装置且提供允许终端用户对音频及视频进行进一步混音或编辑的控制。在各种实施方案中,所述服务器计算机可存储现场表演的原始数据以用于离线使用、混音、母带处理、重新目的化、分割、策展。所述服务器计算机可存储经处理数据以用于稍后分布。所述服务器计算机可存储已经过各种处理阶段(原始数据与完全经处理数据之间的任何地方,包含性的)的数据。服务器可将数据存储于存储装置(例如,硬盘、光盘(CD)、远程存储网站(例如,基于云的音频与视频服务)或内存条)上。
本文中所揭示的特征及过程通过允许服务器计算机基于各种规则自动编辑视频数据来对常规服务器计算机进行改进。实施所揭示技术的所述服务器计算机可引导录制装置(例如,视频摄像机)在表演者(例如,独唱者)以不同于其它表演者的方式(例如,更大声)演唱时或在所述表演者移动时或在所述表演者在无伴奏(例如,清唱)的情况下演唱时自动聚焦于所述表演者。所述服务器计算机可根据音乐的节奏及节拍来剪切且改变场景。所述服务器计算机引导所述录制装置追踪声音源的移动,包含(举例来说)从第一表演者切换到第二表演者,因此所述切换可为从所述第一表演者到所述第二表演者的硬剪切或缓慢平移。可在不使录制装置物理地移动的情况下对所录制数据执行追踪。因此,基于音频数据分析,所述服务器计算机可模仿人类电影摄影技师可做的事情。所揭示技术因此具有在不使录制装置物理地移动的情况下使事件的视图移动的技术优点。
本文中所揭示的特征及过程通过降低用于传输高清晰度视频数据的带宽要求而对常规服务器计算机进行改进。高清晰度视频数据(例如,4K视频)可需要高带宽来传输。所揭示特征可选择视频的加亮区(例如,与独唱者的位置对应的部分)来传输,且聚焦于所述位置。所述系统可传输处于较低分辨率中的视频数据的部分,例如,720p视频。因此,当观众仅观看独唱者时,系统不需要在4K视频中传输整个舞台的视频。所述系统仍可保持对独唱者的所感知清晰度及透明度。因此,所述系统实现在经减少带宽下传输高质量视频的技术优点。
在另一实施例中,一或多个摄像机装置捕获高分辨率(例如4K)视频,且此处所描述的方法用于流式传输中间经编辑较低分辨率视频(例如1080),使得服务器系统可进一步做出在1080个帧内进行编辑的决策且将720p供应给观众。
在随附图式及下文说明中陈述所揭示标的物的一或多个实施方案的细节。依据说明、图式及权利要求书将明了所揭示标的物的其它特征、方面及优点
附图说明
图1是图解说明录制装置在事件处的第一实例性布置的图式。
图2是图解说明录制装置在事件处的第二实例性布置的图式。
图3是图解说明录制装置的实例性架构的框图。
图4是图解说明用于基于网络的音频处理的实例性音频与视频系统的架构的图式。
图5是图解说明用于音频与视频处理的实例性信号路径的框图。
图6是音频处理的实例性过程的流程图。
图7是图解说明实例性自动化混音及母带处理单元的框图。
图8是图解说明自动化调平的实例性过程的流程图。
图9是图解说明自动化平移的实例性过程的流程图。
图10图解说明最大翘曲中的实例性角度变换。
图11是图解说明依据麦克风信号推断能级的实例性过程的流程图。
图12是图解说明推断频带中的能级的实例性过程的流程图。
图13是图解说明自动均衡个别声音源的实例性过程的流程图。
图14A是表示实例性三乐器混音经均衡的图式。
图14B是图解说明自动均衡中的实例性增益的图式。
图15是图解说明基于音频数据中的新奇积累而分割视频的实例性过程的流程图。
图16是图解说明实例性新奇积累处理的图式。
图17是使来自多个麦克风的信号同步的实例性过程的流程图。
图18图解说明使五个麦克风同步的实例性序列。
图19A及19B图解说明显示自动化视频编辑的结果的实例性用户接口。
图20是自动化视频编辑的实例性过程的流程图。
图24是图解说明噪声降低的实例性过程2400的流程图。
图25是图解说明基于排练数据而进行视频编辑的实例性技术的框图。
图26是图解说明基于排练数据而进行视频编辑的实例性过程的流程图。
图27是图解说明从全帧视频数据选择子帧区域的实例性技术的框图。
图28是由服务器系统执行的从全帧视频数据选择子帧区域的实例性过程的流程图。
图29是由视频捕获装置执行的从全帧视频数据选择子帧区域的实例性过程的流程图。
图21是图解说明实施参考图1到20及24到29所描述的特征及操作的移动装置的实例性装置架构的框图。
图22是图1到20及24到29的移动装置的实例性网络操作环境的框图。
图23是实施参考图1到20及24到29所描述的特征及操作的服务器系统的实例性系统架构的框图。
相似参考符号在各个图式中指示相似元件。
具体实施方式
实例性上游架构
图1是图解说明录制装置在现场表演事件100处的第一实例性布置的图式。事件100可为其中制作音频内容(例如,语音、声乐或器乐)及任选地视频内容的任何事件。特定来说,事件100可为其中一或多个乐器及/或一或多个歌手进行表演的演唱会。一或多个声音源可存在于事件100处。每一声音源可为乐器、歌手、扬声器或产生声音的任何项目。为了简单,包含非乐器声音源的声音源在本说明书的各种部分中共同称为乐器。
在一些实施方案中,装置102、104及106可经配置以录制事件100的音频及视频。装置102及104可为移动装置(例如,智能电话、可穿戴装置或便携式音频与视频录制器)。装置102及104可包含内部麦克风,可耦合到外部麦克风,或为两种情况。如果使用外部麦克风,那么所述外部麦克风可耦合到一或多个麦克风前置放大器。所述外部麦克风可使用有线或无线连接耦合到装置102及104。在一些实施方案中,装置102及104中的每一者可耦合到一或多个外部声音产生装置,其中所述声音产生装置直接依据模拟电信号(例如,键盘输出)或数字信号(例如,膝上型计算机产生的数字声音)产生音频信号。可经由对应适配器将此些信号直接馈送到装置102及104。
装置102及104中的每一者可执行用于录制事件100的音频内容的应用程序。所述应用程序可通过通信网络110将所录制音轨发送到远程服务器计算机。通信网络110可为个人局域网(PAN,例如,BluetoothTM网络)、局域网(LAN)、蜂窝式网络(例如,4G或5G数据网络)、广域网(WAN,例如,因特网)或临时网络。通信可通过网关(例如,无线装置108)或个别地进行。在一些实施方案中,服务器计算机可在事件100的局部。举例来说,服务器计算机可为装置102及104中的任一者。
在一些实施方案中,装置102及104中的每一者可包含链接到线上用户帐户以用于进行音频处理的客户端应用程序。所述客户端应用程序可在将音轨发送到线上用户帐户之前执行用户验证及授权。所述客户端应用程序可包含对来自远程服务器的命令做出响应的音频处理功能,举例来说,调整滤波器(例如,低通滤波器、高通滤波器、层架滤波器)、构建到装置102或104中或耦合到装置102或104的麦克风前置放大器的增益或频带的命令。另外或替代地,所述命令可控制录制的位深度及采样率(例如,16个位@44.1Hz)。
装置102及104中的每一者可通过有线装置(例如,有线或无线路由器)或者其它有线或无线装置108将所录制音轨提交到服务器。无线装置108可为无线局域网(WLAN)的无线存取点(AP),或蜂窝塔。无线装置108可连接到通信网络110。装置102及104可通过通信网络110将所录制现场音轨发送到服务器。可实时(例如,在表演正在进行时)或离线(例如,在部分地或完全地完成表演之后由装置102及104同时或顺序地)发生数据的提交。装置102及104可存储所录制音轨以用于离线提交。
在一些实施方案中,装置106为经配置以捕获事件100的图像以及音频的图像捕获装置。举例来说,装置106可经配置以捕获高清晰度视频(例如,4K分辨率视频)。装置106可捕获事件100的静止图像及视频。装置106可通过无线装置108及通信网络110将所捕获静止图像或视频发送到服务器。装置106可实时或离线发送静止图像或视频。在一些实施方案中,装置106可执行服务器计算机的操作。
在一些实施方案中,装置102、104及106的一个或两个麦克风经指定为从所有乐器及歌手捕获音频的一或多个主要麦克风(例如,“房间”麦克风)。从一个或两个主要麦克风输出的信号可经指定为主要信号(例如,主要单声道或主要立体声信号)或主要声道信号。有时放置于相应个别声音源(例如,人声麦克风)或个别声音源群组(例如,鼓麦克风)处的其它麦克风经指定为点麦克风,还称为卫星麦克风。点麦克风可通过提供声音源的更局部化捕获而增强主要麦克风(例如,底鼓麦克风、军鼓麦克风、踩镲麦克风、用以捕获大镲的顶部麦克风、吉他与贝斯放大器麦克风等)。
在一些实施方案中,装置102、104及106中的每一者可经配置以通过执行一或多个计算机程序来执行服务器的操作。在此些实施方案中,可在事件100处原位执行音频信号的处理。执行操作的装置(例如,装置106)接着可通过通信网络110将经处理信号上传到存储装置或上传到终端用户装置。
图2是图解说明录制装置在事件100处的第二实例性布置的图式。集成式录制器200可经配置以录制事件100的音频及视频信号。集成式录制器200可包含麦克风202及204。麦克风202及204中的每一者可为全向性、方向性或双向麦克风或者具有任何方向性模式的麦克风。麦克风202及204中的每一者可经布置以指向给定方向。麦克风202及204可经指定为主要麦克风。在各种实施方案中,集成式录制器200可耦合到一或多个点麦克风以用于额外音频输入。
集成式录制器200可包含用于捕获事件100的静止图像或视频的图像捕获装置206。集成式录制器200可包含用于规定事件100中的声音源的一或多个属性(例如,目标响度等级)的用户接口或耦合到所述用户接口。举例来说,集成式录制器200可通过装置标识符与移动应用程序相关联。所述移动应用程序可具有用于显示在移动装置207的触敏表面上的图形用户接口(GUI)。所述GUI可包含经配置以接受用户输入以用于规定声音源的属性(例如,吉他、主唱歌手、贝斯或鼓的目标音量或增益等级)的一或多个用户接口项目。举例来说,所述属性可包含应将两个声音源(例如,在主唱歌手与其它声音源之间)分离多少分贝(dB)、哪一声音源应为主导的(例如,通过以高于其它声音源的音量等级来演奏)及分离程度如何(例如,达X dB)。一或多个用户接口项目可接受用户输入以用于规定排练阶段,其中收集来自声音源的参考音频数据以用于自动化混音。
集成式录制器200可任选地执行一或多个操作,举例来说,所述操作包含使来自主要及点麦克风的信号同步、从所录制信号分离出声音源、基于参考音频数据而对不同声音源的信号进行混音及对所述经混音信号进行母带处理。集成式录制器200可通过连接到通信网络210的无线装置208将经母带处理的信号作为立体声或多声道信号提交到服务器。同样地,集成式录制器200可将视频信号提供到服务器。服务器接着可在事件100期间将立体声或多声道信号及视频信号基本上实时发布到终端用户装置。通信网络210可为PAN、LAN、蜂窝式数据网络(例如,4G网络或5G网络)、WAN或临时网络。
图3是图解说明录制装置302的实例性架构的框图。录制装置302可为图1的装置102或104或者图2的集成式录制器200。
录制装置302可包含或耦合到主要麦克风304及视频摄像机306。主要麦克风304可为内置式麦克风或耦合到录制装置302的专用麦克风。主要麦克风304可为音频信号处理提供基线(还称为基础),如下文进一步详细地描述。视频摄像机306可为内置式摄像机,或耦合到录制装置302的专用摄像机。视频摄像机306可为数字电影倡导联盟(DCI)4K、DCI 2K或全HD视频摄像机,其经配置而以充分高分辨率捕获视频使得所捕获视频的一部分如果经放大那么仍可利用具有中等(例如,1080p、1080i、720p或720i)分辨率的常规监视器的全容量。
录制装置302可包含用于连接到一或多个点麦克风310的外部麦克风接口308。外部麦克风接口308经配置以从一或多个点麦克风310接收信号。在一些实施方案中,外部麦克风接口308经配置以将控制信号提供到一或多个点麦克风310。录制装置302可包含用于连接到一或多个外部摄像机314的外部摄像机接口312。外部摄像机接口312经配置以从一或多个外部摄像机314接收信号,且将控制信号提供到一或多个外部摄像机314。
录制装置302可包含一或多个处理器320。一或多个处理器320可经配置以执行来自麦克风的音频信号的模/数转换,且执行来自摄像机的数字音频信号及视频信号的数字压缩。在一些实施方案中,一或多个处理器320进一步经配置以使来自各种声道的音频信号同步,从音频信号分离出声音源,对单独声音源进行自动混音,且对经混音信号进行母带处理。
录制装置302可包含用于通过网络装置将数字音频及可视信号提交给服务器的网络接口322。在一些实施方案中,网络接口322可将经母带处理的数字音频及视频信号提交给服务器。网络接口322可经配置以从服务器接收用于调整音频或可视录制的一或多个参数的命令。举例来说,网络接口322可接收用于使视频摄像机平移到规定方向且放大(或缩小)或调整特定麦克风的录制等级的命令。
录制装置302可包含用于接收控制录制的属性的各种用户输入的用户接口324。用户接口324可包含在录制装置302的触敏表面上显示的GUI。用户接口324可显示在与录制装置302分开的装置上,例如,执行客户端应用程序的智能电话或平板计算机上。
图4是图解说明用于基于网络的音频与视频处理的音频与视频系统400的实例性架构的图式。在基于网络的音频与视频处理中,通信网络402将事件链接到终端用户装置,使得装置的终端用户可在事件100(图1)处听到且观看艺术家的现场表演。通信网络402可为PAN、LAN、蜂窝式网络、WAN(例如,因特网)或临时网络。音频与视频系统400可包含一或多个子系统,其中的每一者在下文经描述。
演播室侧系统404为音频系统400的子系统,包含位于且布置于其中发生事件的位置处(例如,演播室、音乐厅、剧院、体育场、起居室或其它场地中)的设备。演播室侧系统404可包含参考图1所论述的架构,其中各自执行音频或视频处理应用程序的多个通用装置(例如,智能电话、平板计算机、膝上型计算机)进行录制且将所录制信号发送到服务器408。替代地,演播室侧系统404可包含参考图2所论述的实例性架构,其中专用集成式录制器进行录制且将所录制信号发送到服务器408。
服务器408为音频系统400的子系统,包含一或多个计算机或者一或多个离散或集成电子电路(例如,一或多个处理器)。服务器408经配置以通过通信网络402接收事件100的现场音频与视频内容,处理所述音频与视频内容,且通过通信网络402将所述音频与视频内容提供到终端用户装置。服务器408可包含经编程以执行音频处理的一或多个处理器。在一些实施方案中,服务器408可控制演播室侧系统404的各种方面。举例来说,服务器408可基于所检测到的带宽限制而增加或减小在检测到剪辑时麦克风的音量等级,增加或减小样本位速率或位深度,或者选择压缩类型。
在一些实施方案中,服务器408对音频信号进行自动混音及母带处理。服务器408还可从对应于演奏乐器的视频流自动选择特定部分。下文参考图5描述关于服务器计算机408的组件及操作的额外细节。
在一些实施方案中,服务器408允许编辑器侧系统420中的设备来执行混音、母带处理及场景选择。编辑器侧系统420为音频系统400的子系统,其经配置以允许第三方编辑器在现场内容流式传输期间编辑音频或视频内容。编辑器侧系统420可包含一或多个混音器装置422。混音器装置422可由终端用户、执行现场事件的乐队或管弦乐队中的演奏者或者专业混音工程师操作。编辑器侧系统420可包含一或多个视频编辑装置424。视频编辑装置424可由终端用户、表演者或专业摄像师操作。
终端用户可在各种终端用户系统410中收听或观看事件100的现场内容。在各种终端用户系统410中,可在用户音频装置412(例如,具有多个扬声器的立体声或多声道音频系统)、用户视频装置414(例如,一或多个计算机监视器)或两者的组合(例如,电视机、智能电话、桌上型计算机、膝上型或平板计算机或可穿戴装置)上播放现场或所存储内容。
在一些实施方案中,音频系统400允许终端用户使用其终端用户装置提供对现场内容的反馈且控制现场内容的各种方面。举例来说,音频系统400可允许基于投票而进行的现场内容的实时评级,或由特定经授权终端用户进行的音频或视频平移。
图5是图解说明音频与视频处理的实例性信号路径的框图。可在服务器408(图4)上实施信号路径的组件。所述组件可包含同步器502、源分离器504、混音与母带处理单元506、分布前端508及估计器522。在一些实施方案中,可在服务器计算机408上的软件中实施所述组件中的一些或所有组件。在其它实施方案中,所述组件中的一些或所有组件可包含经配置以执行各种操作的一或多个电子电路。每一电子电路可包含一或多个离散组件(例如,电阻器、晶体管或真空管)或集成组件(例如,集成电路、微处理器或计算机)。
同步器502可从一或多个录制装置接收事件100的数字音频数据。所述数字音频数据可为(举例来说)经取样音频数据。每一录制装置或耦合到录制装置的每一麦克风可对应于音乐表演的音频声道或音轨。来自录制装置的信号被称为声道信号。因此,同步器502可接收Nm个声道信号,其中Nm为录制事件100的麦克风的总数目,或更一般来说,在事件100中捕获所有声音信号的集合。举例来说,Nm个声道信号可包含来自键盘的直接输出或来自计算装置或便携式音乐播放器的线路音频输出的一或多个声道。所述Nm个声道信号可包含来自环境麦克风的主要声道信号,以及来自点麦克风的点声道信号(还称为波束)。所述Nm个声道信号可由录制装置上的麦克风录制,由在录制装置在本地由模/数转换器取样。所述录制装置可经由网络将经取样音频数据以数据包中的音频格式发送到同步器502。因此,所述Nm个声道信号可指经数字化音频信号而非直接来自麦克风的模拟信号。
所述Nm个声道信号可并非时间同步。举例来说,数字信号的数据包可不考虑物理地产生对应所捕获声音信号的时间次序而到达服务器。同步器502可(例如)基于与数据包相关联的时间戳而产生包含Nm个经同步声道信号的输出。同步器502可将Nm个经同步声道信号馈送到源分离器504。下文参考图17及图18描述同步器502的操作的额外细节。
源分离器504为经配置以从Nm个经同步信号分离出每一声音源的服务器408的组件。每一声音源可对应于(举例来说)乐器、歌手、乐器群组或歌手群组。源分离器504输出Ns个信号,每一信号对应于声音源。声音源数目(Ns)可相同于或不同于经同步信号数目Nm。在一些实施方案中,可绕开源分离器504。
来自源分离器504的Ns个信号的输出或来自同步器502的Nm个经同步信号的输出(假使绕开源分离器504)可馈送到一或多个混音与母带处理单元506中。混音与母带处理单元506可为服务器408的软件及/或硬件组件,其经配置以至少部分地基于参考音频数据而对个别声音源的声道执行混音操作,且对经混音音频信号执行母带处理操作以产生最后N个声道音频信号(例如,立体声音频、环绕声)。混音与母带处理单元506可将N声道音频信号输出到分布前端508。在各种实施方案中,混音与母带处理单元506可执行施加混音增益、均衡每一信号、对每一信号执行动态范围校正(DRC)且对每一信号执行噪声降低的操作。混音与母带处理单元506可对每一信号个别地或对多个信号同时以各种组合执行这些操作。
参考音频数据可包含由麦克风在排练中录制且由估计器522处理的音频内容。在排练中,麦克风及声音源放置于与在现场事件100中相同的声学布置中。当个别地演奏每一声音源时所述麦克风接着录制音频信号。另外,所述麦克风可录制噪声样本,其中声音源不在演奏。
估计器522为经配置以从排练阶段收集且处理音频数据的组件。估计器522可指导表演位置处的声音源的每一演奏者演奏其乐器或个别地歌唱。举例来说,估计器522可指导(例如,通过透过装置用户接口来提示)每一表演者以低音量演奏其乐器X秒,且以高音量演奏其乐器Y秒。可录制排练的来自麦克风的Nm个信号。估计器522可处理Nm个信号,确定响度矩阵,导出声音源特性及位置,且将乐器特性及位置提供到混音与母带处理单元506以用于混音操作。估计器522可接收对参数进行配置以用于确定乐器特性及位置的额外输入。下文参考图8、图9、图10及图13描述估计器522的组件及操作的额外细节。
分布前端508可包含用于将N声道音频提供到存储装置或提供到终端用户装置以用于下载的接口(例如,流式传输或网络服务器),包含现场流式传输(例如,超文本传输协议(HTTP)现场流式传输、实时流式传输协议(RTSP)、实时传送协议(RTP)、RTP控制协议(RTCP))。可在事件100期间基本上实时发生现场流式传输。
服务器408可包含视频编辑器530。视频编辑器530为经配置以接收事件100的视频信号且至少部分地基于音频内容而自动编辑视频信号的服务器的组件。自动编辑视频可包含(举例来说)当视频编辑器530确定特定乐器为主导声音源时放大特定乐器或演奏者(例如,特写镜头)。下文参考图19A及19B及图20描述视频编辑器530的操作的额外细节。
图6为音频处理的实例性过程600的流程图。可由(举例来说)图4的服务器408执行过程600。过程600通过至少部分地基于在排练中录制的参考音频数据而使各种混音与母带处理操作自动化来对常规音频处理技术进行改进。在本说明书中,术语排练是指其中的阶段。
服务器408可从一或多个声道信号源接收(602)参考音频数据。所述参考音频数据可包含在排练中个别地演奏的一或多个声音源的声学信息。所述参考音频数据可包含(例如)当声音源未演奏时排练中的本底噪声的声学信息。每一声道信号源可包含麦克风或线路输出。每一声音源可为(举例来说)乐器、歌手或合成器。服务器408可通过通信网络(例如,图4的通信网络402)接收参考音频数据。第一声道信号可由在第一位置处(例如,舞台左侧前面或在特定乐器处)录制排练的第一声道信号源(例如,装置102)捕获。第二声道信号可由在第二位置处(例如,舞台右侧前面或在特定乐器处)录制排练的第二声道信号源(例如,装置104)捕获。
服务器408可从一或多个声道信号源接收(604)表演事件(例如,事件100)的一或多个声道信号。每一声道信号可为来自相应声道信号源的数字或模拟信号。每一声道信号可包含来自在表演事件处演奏的一或多个声音源的音频信号。在表演事件中,声音源及声道信号源的位置放置于相同声学布置中(例如,相同位置处)。在一些实施方案中,服务器408可使第一声道信号与第二声道信号在时间域中自动同步。在同步之后,服务器408可依据第一声道信号及第二声道信号确定第一声音源及第二声音源。
服务器408可在事件100期间或在事件100已结束之后对一或多个声道信号进行自动混音(606)。自动化混音操作可包含基于参考音频数据而调整事件100的一或多个声音源的声学效应的一或多个属性。举例来说,自动化混音操作可包含对每一声音源个别地执行噪声降低,从而平衡或调平每一声音源且使每一声音源平移。
混音操作还可包含至少部分地基于参考音频数据而自动调整来自事件100的一或多个声音源的信号的属性。自动调整一或多个声音源的属性可包含根据每一声音源的相应音量等级增加或减少一或多个声音源的增益。自动调整一或多个声音源的属性可包含增加或减少每一声道信号的增益(每一信号来自相应声音源)或两者,从而致使一或多个声音源中的每一者达到或大致达到目标音量等级。服务器计算机408可使用估计器522至少部分地依据参考音频数据确定每一相应音量等级。其它混音操作可包含但不限于:施加压缩、均衡、饱和或破音、延迟、混响、调制、立体声、滤波及骑乘人声或乐器音量。
参考音频数据可包含由第一录制装置及第二录制装置在排练阶段中在事件100之前录制的音频信号。可在排练阶段中针对每一声音源或声音源群组个别地录制参考音频数据。参考音频数据可针对每一声音源包含第一声音等级信号(例如,经指定为软或低音量的第一声音等级信号)及第二声音等级信号(例如,经指定为大声或高音量的第二声音等级信号)。当声音源正在演奏时可针对背景噪声录制参考音频数据。在一些实施方案中,参考音频数据可包含单个声音等级信号(例如,当每一声音源以中等音量演奏时)。
服务器408可至少部分地依据参考音频数据确定事件100中的每一声音源的相应增益。确定相应增益可针对每一声音源或声音源群组(例如,吉他群组、鼓群组、背景人声)包含接收规定目标音量等级的输入。服务器计算机408可使用估计器522确定参考音频数据中的信号的相应音量等级。服务器408可基于参考音频数据中的信号的音量等级与目标音量等级之间的差而确定每一相应增益。
在一些实施方案中,自动化混音(606)操作可包含根据来自远程人类混音或母带处理工程师(其通过通信网络登录到服务器系统)的输入调整来自一或多个声音源的信号的增益。因此,未存在于事件100处的远程混音或母带处理工程师可在现场流式传输期间对事件100的声音源进行混音或母带处理。
服务器408可(例如)通过现场流式传输将降混音从服务器系统提供(608)到存储装置,或作为事件100的现场内容提供到终端用户装置。终端用户装置可在集成于终端用户装置中或耦合到终端用户装置的一或多个扬声器上播放内容。在一些实施方案中,服务器408可使针对事件100的视频编辑自动化。视频编辑可为在事件100进行时的现场编辑或对事件100的先前所录制视频的离线编辑。在图19A、19B及20中描述关于自动化视频编辑操作的额外细节。在一些实施方案中,远程人类视频编辑器可在事件100期间使用平台来提供视频编辑。
在一些实施方案中,服务器408可基于第一声道信号或第二声道信号而将命令提供到第一录制装置及第二录制装置。所述命令可调整录制装置的录制参数。举例来说,所述命令可指导录制装置调整增益、压缩类型、压缩或采样率(例如,44.1Hz)或位深度(例如,16或24个位)。
图7是图解说明实例性混音与母带处理单元506的组件的框图。混音与母带处理单元506可包含经配置以执行混音与母带处理操作的各种电子电路。混音与母带处理单元506通过在混音阶段中使信号调平及平移自动化且通过在存在连续且长声音渐增时使基于新奇的信号分割自动化而对常规混音与母带处理技术进行改进。
混音与母带处理单元506可包含混音单元702及母带处理单元704。混音单元702为经配置以使用来自一或多个远程或局部混音控制台的参考音频数据及输入对来自源分离器504的Ns个信号或来自同步器502的Nm个经同步信号自动执行混音操作的混音与母带处理单元704的组件。
除其它组件外,混音单元702还可包含调平单元706、平移器708、声音源均衡器710及噪声降低单元711。调平单元706为经配置以针对每一声音源或每一麦克风调整相应增益的混音单元702的组件。所述调整可至少部分地基于参考音频数据、通过来自混音控制台的输入或两种方式的组合。下文参考图8描述调平单元706的操作的额外细节。
平移器708为经配置以在空间上将每一声音源放置于虚拟音乐舞台上的一位置处(例如,左边、右边、中心)的混音单元702的组件。下文参考图9及图10描述平移器708的操作的额外细节。
声音源均衡器710为经配置以对个别声音源而非对作为整体的经混音音频信号执行均衡(EQ)操作的混音单元702的组件。下文参考图13、图14A及图14B描述声音源均衡器710的操作的额外细节。
噪声降低单元711为经配置以对个别信号而非跨越所有信号的频谱执行噪声降低(NR)操作的混音单元702的组件。下文参考图24描述噪声降低单元711的操作的额外细节。
除其它组件外,母带处理单元704还可包含均衡器712及分割单元714。均衡器712为经配置以针对作为整体的经混音音频信号使声音等级跨越不同频率平滑化的母带处理单元704的模块。分割单元714为经配置以基于音频信号的固有特性而将视频信号划分为多个片段的母带处理单元704的模块。在一些实施方案中,分割单元714为图5的视频编辑器530的组件,或耦合到视频编辑器530。下文参考图15及16描述分割单元714的操作的额外细节。
图8是图解说明自动调平声音源的实例性过程800的流程图。可由调平单元706(图7)执行过程800。在自动调平中,调平单元706可将声音源的相应音量等级自动调整到目标等级。过程800通过至少部分地基于参考音频数据而非基于人类的手动调整而自动执行增益调整来对常规混音技术进行改进。此允许实时快速处理大量音乐内容。
调平单元706可接收(802)参考音频数据(还称为排练数据)。所述参考音频数据可包含来自多个声音源的声道信号源(例如,主要麦克风及点麦克风)的声道信号的表示。所述表示可为直接来自声道信号源的声道信号,或部分地经处理(例如,经均衡或已经过动态范围校正)的信号。
调平单元706可确定(804)声道信号源(例如,麦克风)的每一对之间的相应相关性。下文参考方程式(3)描述确定所述相关性的细节。
调平单元706可将每一主要麦克风的相应能级指定(806)为与单位增益相关联的基线或某一其它参考等级(例如,-18dB)。
在一些实施方案中,调平单元706可确定(808)每一点麦克风对基线的相应贡献。
调平单元706可接收(810)目标等级数据,所述目标等级数据规定每一声音源的目标等级。可从用户接口接收所述目标等级数据。
调平单元706可基于相应贡献而确定(812)用于根据相应增益将音频信号重新按比例缩放到目标等级的成本函数。成本函数可为经求解使得函数具有最小值的变量(在此情形中,增益)的函数。对成本函数的变量求解被称为使成本函数最小化。下文在具有标题“通过最佳猜测使成本函数最小化”的章节中描述对成本函数的变量求解的细节及实例。
调平单元706可通过使成本函数最小化而计算(814)声道信号中的每一者的相应增益。调平单元706可将相应增益施加到现场音频数据中的声道信号以实现每一声音源的目标等级。调平单元706可将所得信号提供到其它组件以用于在终端用户装置的扬声器或头戴式耳机上进行额外处理及播放。下文描述过程800的额外细节及实例。
索引集i=1,...,Ni可表示声音源数目,其中Ni为事件100(图1)处的声音源的总数目。索引集b=1,...,Nb可表示波束数目,其中如较早描述的每一波束为来自相应点麦克风的声道信号。Nb为点麦克风的总数目。索引集M=L,R,1,...,Nb可表示经组合主要左麦克风(L)及主要右麦克风(R)加上波束索引。在其中主要麦克风为单声道麦克风的情形中,索引集可为M=Mono,1,...,Nb,其中项Mono表示单声道麦克风。后续处理为类似的。多个声音源可指派给同一波束。因此,在一些情景中,Nb<Ni。此为(举例来说)将点麦克风放置为靠近于也在唱歌的吉他演奏者的情形。在此实例中,人声及吉他指派给同一点麦克风。因此,调平单元706可将将要存在于最后混音中的信号的总数目指定为NM
到由调平单元706执行的算法的输入中的一者为使每一波束M中的每一乐器i的响度等级(例如,以dB为单位)量化的响度矩阵LiM。估计器522可计算响度矩阵LiM。调平单元706可针对响度矩阵LiM使用线性标度,使得调平单元706可以如下的能量矩阵EiM表示每一麦克风中的每一乐器的能量:
如果调平单元706将增益gM施加到波束b,那么波束的能量可改变为另外,能量矩阵可规定每一声音源的多少能量存在于两个主要立体声声道中(由EiL、EiR指定)。
调平单元706经配置以确定增益gM,其为表示每一声道(包含主要声道及点声道)的相应增益的向量,其中首先表示两个主要声道的增益。调平单元706可固定绝对标度,使得所有能量都被称为主要立体声声道中的能量。调平单元706可确定不将任何增益施加到主要立体声声道中的能量。在此方法中,主要立体声声道可经指定为具有单位增益的基线。调平单元706可计算每一点麦克风在此基线上的贡献。因此,调平单元706可将gM的前两个条目设定为单位:
为估计在对不同信号进行混音之后的能量,调平单元706可首先依据每一声音源i的参考音频数据获得波束M与波束M'之间的经正规化相关性矩阵(Ci)M,M′。可仅从声音源i的排练获得每一Ci。调平单元706可使用siM来表示在排练乐器i时由M个麦克风捕获的信号(主要立体声加上波束)。调平单元706可如下计算经正规化协方差矩阵:
其中“<>”代表在一时间周期内的时间平均值。所述时间周期可为整个排练时间。替代地,调平单元706可获得在排练的门控部分内的平均值,使得调平单元706可移除几乎沉默部分(如果存在)。因此,调平单元706可保持具有良好信噪比(SNR)的部分。经正规化协方差满足以下各项:
·(Ci)M,M=1,其为麦克风始终与自身完全相关。
·(Ci)M,M′=0,如果两个麦克风中的信号完全不相关。
·(Ci)M,M′=1,如果两个麦克风中的信号以正相完全相关:siM=αsiM′,其中α为值且α>0。
·(Ci)M,M′=-1,如果两个麦克风中的信号以反相完全相关:siM=αsiM′,其中α为值且α<0。
使用此协方差矩阵,调平单元706可如下表达声音源i的总能量Ei
等效较短形式(然而,对重复项进行求和)为:
到调平单元706的另一输入可为最后混音中的每一声音源i的目标响度等级(或目标能量Ti,在线性标度中)。原则上,仅相对目标等级有关系。如果调平单元706已经通过将主要立体声声道的增益固定到单位而固定了全局音量,那么此给予绝对目标音量物理意义。调平单元706可确定将其设定到适当等级的一或多个准则。
为达成此,调平单元706可获得特定数据项目以在达到所要相对目标响度等级Ti的所有可能方式中确定调平单元706可如何规定绝对标度,使得调平单元706可控制最终来自主要立体声麦克风对点麦克风的总能量的分率。在一些实施方案中,调平单元706可将此分率设定为用户输入参数。
在一些实施方案中,调平单元706可通过以直接能量与混响能量之间的给定比率(经指定为直接与混响比率)为目标来推断此分率。举例来说,在具有强混响的音频环境(例如,教堂)中,调平单元706可施加高等级的相对点麦克风能量。通过比较,在其中主要立体声麦克风处于最佳位置中的具有低混响的音频环境(例如,经声学处理的房间)中,调平单元706可允许大多数能量来自主要立体声麦克风。因此,调平单元706可从用户或通过自动计算而获得规定点与主要能量比率Rspots的输入。调平单元706接着可使用下文的方程式(6)确定成本函数中的项:
/>
在此处,Emain为来自主要麦克风的能量,Espot为来自点麦克风的能量,且Etotal为总能量。
调平单元706可约计此方程式以简化处理。假定正确地达到最后声音源能量,使得在下文的约计中Ei≈Ti
在此约计中,这些能量不取决于gM,且因此,调平单元706可在最小化之前几乎不施加点与全部的约束。调平单元706可对目标能量进行重新按比例缩放,且对按比例缩放因数r求解:
其中为由按比例缩放因数r进行按比例缩放的Ti
调平单元706接着可依据经恰当地重新按比例缩放的来确定成本函数。即使调平单元706设定Rspots=0,在所述情形中,Etotal≈∑iTi=Emain,也可需要一些点麦克风达到某一声音源i的目标等级Ti。此违背了设定Rspots=0的直觉,且其归因于在最小化之后调平单元706可变得接近于Ei≈Ti的约计。
调平单元706可确定成本函数为(使用速记法:dBp[·]=20log10[·]及dBI[·]=10log10[·]):
其中F为Nb个未知数gM的函数,所有相依性经由Ei由隐式相依性产生。在方程式(9)及下文的其它方程式中,以平方来表达dB的项,例如,(dB)2。在各种实施方案中,可用绝对值(例如,|dB|)替换这些项。
正规化因数确保可跨越具有不同数目个声音源的情形将第一项的绝对值进行比较。调平单元706可使用成本函数F来表示每一声音源未能达到目标的平均平方误差(例如,以dB为单位)。在一些实施方案中,调平单元706可获得成本函数且避免如上文所描述的约计。调平单元706可促成额外成本项:
F[r,gM]=F0[r,gM]+F1[gM],
(10)
其中在方程式(6)中依据gb定义Espots、Emain。此允许调平单元706藉由增加α而控制将给予Rspots约束多少重要性。注意,在此实施方案中,调平单元706还需要找到r的最小值,此可为目标的全局标度。
在各种实施方案中,调平单元706可使用可在调平单元706获得关于哪些声音源更重要的信息的情况下提供其应达到规定响度目标的较佳结果的算法。举例来说,输入信息可规定主唱人声应高于其它乐器而为3dB。此信息可关键地确定混音的质量。其它乐器可能差几dB达到其正确目标,而混音却不会被判断为像主唱人声低于目标一样差。调平单元706可针对每一声音源确定重要性权数集以捕获此方面。调平单元706可如下定义并入有重要性权数的成本函数:
调平单元706可使如上文所描述的成本函数F最小化以对gM求解。在一些实施方案中,调平单元706可根据乐器是否为主乐器而设定重要性权数举例来说,调平单元706可针对非主乐器将重要性权数/>设定为1,且针对主乐器将重要性权数/>设定为介于2与5之间的值。
添加专用点麦克风
在一些情景中,算法趋向于几乎不使用来自特定声道信号源(例如,专用点麦克风)的任何能量,因为还可使用其它麦克风正确地实现对应声音源的等级。此情况可发生在具有泄漏的情形(如其中点麦克风为全向性的(例如,智能手机的内部麦克风)的情形)中。一般来说,当使用专用点麦克风时,调平单元706可经配置以从此些麦克风获得对应乐器的能量中的大部分能量。
从排练阶段,调平单元706可定义给定点麦克风针对给定声音源所具有的专用程度。如果点麦克风几乎不具有来自其它声音源的泄漏,那么调平单元706可将专用程度设定为1。如果来自其它声音源的泄漏是严重的(例如,超过阈值),那么调平单元706可将专用程度设定为0。因此对于其波束为b(i)的声音源i,此专用程度D(i)应为:
/>
其中SNR(i)为声音源i的信噪比,dBMaxRatio为第一阈值,高于所述第一阈值,调平单元706将程度设定为1,且dBMinRatio为第二阈值,低于所述第二阈值,调平单元706将程度设定为0。阈值可为预定义的,或可来自用户输入。
调平单元706可钳位到D(i)∈[0,1]。在一些实施方案中,调平单元706可如下设定这些参数的数值:dBMaxRatio=3dB,dBMinRatio=-6dB。这些设定暗示,如果相关乐器高于所述麦克风中的所有其它乐器的和而为至少3dB,那么所述程度为1,且如果处于-6dB或更少,那么所述程度为0。
调平单元706可使用D(i)来对成本函数中的新项Nded加权:
其中Nded为存在多少专用麦克风的度量(实数),且Ei,spots为源自点麦克风、源自乐器i的混音中的总能量:
调平单元706可通过使包含此新项的成本函数最小化而计算gM
通过最佳猜测使成本函数最小化
在一些实施方案中,这些成本函数可为非线性的。为使非线性成本函数最小化,调平单元706可采用猜测方法。调平单元706可在(例如)±5dB的范围内以1dB的步阶离散化所有gM,且找到使F最小化的组合。调平单元706可从最佳猜测开始,且通过以下方式找到组合:在最佳猜测处开始且跨越范围远离最佳猜测而行进若干步阶,直到调平单元706找到成本函数的最小值为止。
要做到这一点,调平单元706可执行第一猜测。此可(举例来说)通过忽视泄漏来获得,使得E为对角线的(假定估计器522或调平单元706对行及列进行归类,使得声音源的对应波束为对角线的)。在所述情形中,仅一个波束贡献于每一i。所述波束经标记为b(i)。因此:
其中Ei,main为主要麦克风中的乐器i的能量。假定调平单元706达到目标,调平单元706可对g求解:
在其中调平单元706针对一个以上乐器重复相同波束的情形中,调平单元706可如下对g求解:
其中<>为平均值,平均值为针对指派给相同波束b的各种乐器。调平单元706可将解指定为最佳猜测,且使解增加及减小X个dB步阶以找到最佳解。
对分子的正负号的注释。很好地确保的仅有事实是:来自所有波束的总目标能量大于或等于来自主要麦克风的能量:
然而,和中的一些个别项针对某一i可为负的。此意味:针对某一声音源i,主要立体声声道中已经存在足以达到目标的响度。在此些情形中,调平单元706可将对应波束的增益设定为零。在一些实施方案中,调平单元706可查找可能性范围,例如,-15dB。
调平单元706可针对目标Ti使用相同响度模型。替代以dB表达响度,调平单元706可以宋表达响度,且使用调平单元706一直在使用的响度模型来转换回到dB。
自动平移器
图9是图解说明自动平移的实例性过程900的流程图。可由图7的平移器708执行过程900。通过执行过程900,平移器708通过将乐器自动放置于音乐舞台上的其相应正确位置处而对常规平移技术进行改进。
平移器708可接收(902)事件100的声道信号。所述声道信号可为调平单元706的输出。每一声道信号可对应于麦克风。平移器708可接收(904)事件100中的声音源的参考音频数据。可依据在排练阶段中录制的信号产生所述参考音频数据。平移器708可基于参考音频数据而计算(906)如由每一声音源贡献的左声道中的总能量及右声道中的总能量。平移器708可基于总能量而计算(908)左右失衡。平移器708可确定成本函数以使失衡最小化。平移器708可计算(910)如由主要麦克风捕获的声音源的自然平移。平移器708可确定使自然平移最大化的成本函数。平移器708可(例如)根据将声音源指定为不可平移的输入确定(912)不可平移声音源。平移器708可确定考虑不可平移声音源的成本函数。
平移器708可确定(914)具有作为变量的针对每一声道信号的平移角度的成本函数。成本函数可具有与失衡对应的第一分量、与可平移声音源对应的第二分量及与不可平移声音源对应的第三分量。
平移器708可通过使成本函数最小化而确定(916)每一声道信号的平移位置。所述平移位置可经参数化为平移角度、左输出声道与右输出声道之间的比率或左输出信号与右输出声道的百分比。平移器708可将平移位置施加到声道信号以实现将声音源放置在立体声舞台的左边与右边之间以用于输出到扬声器的音频效应。
在一些实施方案中,平移器708可基于视频数据而执行音频平移。平移器708可使用对视频数据的面部追踪或乐器追踪来确定特定声音源(例如,歌手或乐器)的位置。平移器708接着可基于所述位置而确定所述声音源的平移位置。
一旦调平单元706已计算了针对每一波束所需要的增益(gb),平移器708便可决定如何以能量保持方式将每一波束分裂成左及右L/R。平移器708可计算每一波束b的平移角度θb
lb=cosθbgb,rb=sinθbgbb=0,...,π/2,
(19)
其中lb为波束b的左声道分量,且rb为波束b的右声道分量。极左为θ=0,极右为θ=π/2,中心为θ=π/4。
平移器708可使索引延伸到M,假定平移器708使主要立体声声道不变,其中lL=rL=1。随角度而变的所得混音为:
其中sM为由麦克风M拾取的信号,L为混音的左分量,且R为混音的右分量。
基于参考音频数据,平移器708可计算由每一乐器产生的L/R声道中的总能量:
其中为针对平移角度θb的左声道中的声音源i的总能量,且/>为针对平移角度θb的右声道中的声音源i的总能量。这些表达现在仅取决于θb,因为增益gb已经由调平单元706调谐。
平移器708可强加的一个事情为:使总体混音在L与R之间平衡。因此,平移器708可使L-R失衡成本函数HLR-balance最小化:
另一方面,平移器708可经配置以从事件100的角度来考虑如布置于事件100中的声音源的自然平移。由主要立体声能量完全地捕获自然平移:EiL、EiR。因此,平移器708还可强加如下内容:
在一些实施方案中,平移器708可接收所要位置作为外部输入,而非在通过分析左声道及右声道而获得的自然平移之后确定所述位置。举例来说,平移器708可依据图像或视频确定自然位置。另外或替代地,平移器708可依据用户的输入确定自然位置。
另外,决不应使一些声音源(例如,主唱人声、贝斯等)平移。平移器708可经配置以尽可能多地考虑此情况。这些声音源可经指定为不可平移声音源。平移器708可分别由IP/IU表示可平移/不可平移声音源集。平移器708接着可将前述一般化为
平移器708接着可确定不可平移源的成本函数Hunpanneble及可平移声音源的成本函数Hpanneble
平移器708可控制指示使乐器平移得更宽(与将其放在音乐舞台的中央相反)的趋势的平移量。在一些实施方案中,平移器708可引入另一项。在一些实施方案中,平移器708可放大来自主要麦克风的估计。平移器708可接收参数d∈[0,1](其指示发散度)作为预设定或用户输入。平移器708可对所感知主要声道能量执行引发对乐器角度的变换的以下变换:
EiLEiR→(EiLEiR)1+4d
θ0→θfinal=tan-1(tanθ0)1+4d
(26)
其中θ0为原始平移角度,θfinal为最后平移角度。针对d=0,没有改变,θfinal=θ0。针对极端情形d=1,下文在图10中展示翘曲。
就d来说,平移器708可使用以下可平移成本函数:
平移器708可使用最后成本函数:
H[θb]=HLR-balanceuHunpannablepHpannable
(28)
其中权数αu及αp控制想要分别给予不可平移及可平移声音源的成本函数中的每一者的重要性。平移器708可通过离散化θi的可能值(举例来说,从-50到50每10度)且使经离散化值迭代直到找到成本函数的最小值为止而使成本函数H[θb]最小化。
图10图解说明最大翘曲的实例性角度变换。可由平移器708执行最大翘曲的角度变换(d=1)。水平轴表示一或多个声音源的原始角度θ0。垂直轴表示一或多个声音源的最后角度θfinal。角度=45为中心平移。
联合最小化
调平单元706可使用比其能够处置的点麦克风少的点麦克风。举例来说,输入增益的各种配置可竞争,其中所有输入增益产生相同响度。此可对平移器708具有消极影响,因为在仅使用1到2个点麦克风的情况下可大大减小平移器708的可能性范围。
在一些实施方案中,为降低自动等级阶段中的此不确定性且支持使用更多点麦克风的配置,调平单元706的自动等级阶段操作可与平移器708的平移阶段操作有联系。
在此些实施方案中,调平与平移单元可组合调平单元706与平移器708的电路及功能。所述调平与平移单元可接收参考音频数据。所述参考音频数据可包含在一或多个声音源的排练中录制的来自多个声道信号源的声道信号的表示。所述调平与平移单元可接收目标等级数据,所述目标等级数据规定每一声音源的目标等级。所述调平与平移单元可接收现场音频数据。所述现场音频数据可包含来自在现场事件100处演奏的一或多个声音源的所录制或实时信号。所述调平与平移单元可确定用于基于参考音频数据而调平现场音频数据且使现场音频数据平移的联合成本函数。所述联合成本函数可具有用于调平现场音频数据的第一分量及用于使现场音频数据平移的第二分量。所述第一分量可基于目标等级数据。所述第二分量可基于左声道与右声道之间的失衡的第一表示、声音源当中的可平移源的第二表示及声音源当中的不可平移源的第三表示。所述调平与平移单元可通过使联合成本函数最小化而计算将施加到每一声道信号的相应增益及每一声道信号的相应平移位置。所述调平与平移单元可将增益及平移位置施加到事件的现场音频数据的信号以实现调平现场音频数据中的声音源且将现场音频数据中的声音源放置在立体声舞台的左边与右边之间以用于输出到存储装置或输出到立体声复制系统的音频效应。
联合成本函数在下文在方程式(29)中经展示,其中重新命名上文所出现的项中的一些项:
Hautomixer[gbb]=Hlevel[gb]+αpannerHpanner[gbb],
Hlevel=HtargetsdHdedicated,
Hpanner=HLR-balanceuHunpannablepHpannable
(29)
其中Hautomixer为经组合调平单元706与平移器708的成本函数,Hlevel为调平单元706的成本函数,Hpanner为平移器708的成本函数,Htargets为在考虑重要声音源的目标时的成本函数,且Hdedicated为在考虑专用波束时的成本函数。另外,αd为专用麦克风的权数,αu为不可平移声音源的权数,且αp为可平移声音源的权数。平移器708可接收这些权数作为预设定参数或用户输入。
下文定义联合成本函数中的成本函数。
/>
其中
lb=cosθbgb,rb=sinθbgbb=0,...,π/2.
(31)
在此处,调平单元706的自动等级处理不取决于平移角度。其测量单声道降混音的总体响度。除平移角度以外,平移器708的自动平移处理还取决于波束的增益gb。依据麦克风信号推断乐器RMS
图11是图解说明依据麦克风信号推断能级的实例性过程1100的流程图。图5及7的估计器522可执行过程1100以测量乐器RMS。乐器RMS可为各种声音源的能级的均方根表示。
估计器522可接收(1102)参考音频数据。所述参考音频数据可包含在排练中录制的关于i=1,...,Ni个声音源的来自m=1,..,M个麦克风的声道信号。
估计器522可基于参考音频数据而计算(1104)每一麦克风中的每一乐器的相应等级(例如,响度等级、能级或两者)。
估计器522可确定(1108)关于每一声音源的相应增益的成本函数。在成本函数中,估计器522可给予来自主要麦克风的信号比给予点麦克风少的权数。在成本函数中,估计器522可对估计现场数据中比在参考音频数据中所表示的那些乐器响度显著高的乐器响度进行惩罚。在成本函数中,估计器522可使成本函数按比例缩放在表演与排练之间测量的等级之间的平均(跨越麦克风)差。
估计器522可通过使成本函数最小化而确定(1110)针对每一声音源的相应增益。估计器522可将能量矩阵或响度矩阵中的相应增益提供到处理器(例如,视频编辑器530)以用于处理视频信号,例如,用于识别哪一乐器以比其它乐器的阈值多的等级进行演奏,且用于聚焦于所述乐器或所述乐器的演奏者。在下文描述过程1100的额外细节及实例。
事件100的音频场景可含有m=1,..,M个麦克风及i=1,...,Ni个声音源。在排练阶段中,单独演奏每一乐器。估计器522为经配置以计算每一麦克风Ei,m中的每一乐器的响度且将所述数值转换为能量的服务器408(图4)的组件。在一些实施方案中,响度测量可基于(举例来说)欧洲广播联盟(EBU)的R128标准,且经由10L/10将其转换为能量。因此,在排练中,估计器522可依据以下关系计算矩阵ei,m
其中为在排练乐器i时每一麦克风中的所测量响度,且/>为当在排练阶段中进行演奏时每一乐器的响度(未知的,不可测量的)。
当所有乐队一起表演时,估计器522可仅有权测量每一麦克风中的总响度。如果来自乐器及麦克风的转移函数保持恒定,且与排练阶段相等,且所有乐器的信号在统计上相互独立,那么以下关系将成立:
估计器522可使用增益gi来将每一乐器的等级与在排练每一乐器时的其等级进行比较:
在一些实施方案中,估计器522可使用成本函数C(其可为增益gi的函数)来确保估计器522估计表演等级,使得在最小平方意义上最佳地满足模型:
其中C1(gi)为成本函数C的第一分量。
在一些实施方案中,估计器522可通过给予主要立体声麦克风较少重要性而改进结果,因为主要立体声麦克风可不如点麦克风具判别性。估计器522可分别针对每一麦克风各自施加一组权数wm,使得
针对主要信号,wm=wmain<1
否则,wm=1
(36)
且因此:
/>
估计能级的问题可为不确定的,其中存在比乐器少的麦克风。不确定性可对应于通过同步提升一些乐器的估计同时使其它乐器暗淡而获得每一麦克风中的相同总体响度。为降低此不确定性,在一些实施方案中,估计器522可引入对估计比在排练中测量的乐器响度显著高的乐器响度进行惩罚的项。下文定义一个可能项。
其中C2(gi)为成本函数C的第二分量,α2及n为惩罚的参数。
如果(举例来说)α2=0.1且n=6,那么在增益低于排练的情况下基本上不存在惩罚但在所推断的等级高于排练而为6dB时惩罚成为6.4。当添加此项C2时,其标度可不同于C1。估计器522可如下引入标度△:
其中△为在表演与排练之间测量的等级之间的平均(跨越麦克风)平方差。
因此,估计器522可施加以下成本函数:
在一些实施方案中,估计器522可以dB为单位进行测量。以dB为单位测量一切可在估计低等级时提供较佳表演。
其中dB[·]=10log10[·]。参数的实例性值为:α2=0.001,n=4,wmain=0.2。在一些实施方案中,估计器522可在使成本函数最小化时忽略以上所有1/M因数。
在一些实施方案中,估计器522可在使成本函数最小化之前应用初始滤波级。在所述初始级中,估计器522可使用声音源i的专用程度D(i)来确定给定声道信号针对其具有来自其它乐器的泄漏的声音源。举例来说,估计器522可确定声音源i的专用程度D(i)是否高于给定阈值。针对每一此类声音源,估计器522可通过限定以上成本函数以仅包含对应专用声道信号而获得对应增益。举例来说,如果估计器522确定乐器及专用麦克风/>的一对满足阈值,那么估计器522可通过使经减小成本函数最小化而确定增益/>在其中估计器522选择方程式(40)中的成本函数的情形中,经减小成本函数将为下文的方程式(40.1)。
方程式(40.1)允许估计器522使用下文的方程式(40.2)执行最小化。
估计器522可通过应用与参考方程式(40.1)及(40.2)所描述的操作类似的简化而使用上文所描述的其它成本函数以仅包含一对信号源(有时为专用麦克风)且确定对的增益中的每一者。
在确定初始滤波级中的这些增益之后,估计器522即刻减少使成本函数最小化以仅确定不具有专用声道信号的乐器的增益的问题。估计器522可将这些增益固定到存在于初始滤波级中的所述增益。估计器522接着可关于剩余增益使成本函数最小化。
推断频带中的乐器RMS
使用如上文所描述的估计器522推断信号RMS可以频率相依方式经延伸,以在其中不同乐器促成总体频谱的不同部分的情形中改进估计。图12是图解说明推断频带中的能级的实例性过程1200的流程图。估计器522可执行过程1200的操作。
估计器522可接收(1202)参考音频数据。参考音频数据可包含从排练录制的音频信号,其中声音源及麦克风放置于与在现场表演期间的布置相同的布置中。
在第一阶段中,估计器522可计算(1204)频带中的每一声音源的相应排练响度其中所述频带可为借助遵循ANSI(美国国家标准委员会)规格的标准滤波器获得的以频率f={32,65,125,250,500,1000,2000,4000,8000}为中心的倍频带。
在下一阶段中,估计器522可使用如下成本函数计算(1206)作为每声音源的成本的和的总成本:
其中C1(gi)为跨越麦克风及频带的成本函数的第一分量。
估计器522可计算(1208)频带中的质量项:
其中C2(gi)为跨越麦克风及频带的成本函数的第二分量。
估计器522通过使成本最小化而确定(1210)频带中的相应增益。估计器522可将增益提供到处理器以用于处理事件100的现场数据。举例来说,估计器522可将增益提供到视频编辑器530以用于识别以高于其它声音源的等级演奏的声音源以允许视频编辑器530聚焦于或放大所述声音源。
在一些实施方案中,估计器522可偏向于估计乐器接通或关断。此可通过修改方程式(43)中的第二项使得其在g=0,1处具有最小值而完成。举例来说,估计器522可将函数f应用于gi
在此处,p为控制值,a为项具有最小值的所要点。在此处,a=1。
下,此函数为对称的,因为仅有最小值在x=0,x=±a时,且其仅在处具有最小值,其中f=p。因此,估计器522可使用p的值来控制处于最大值的值(因此,在x=0,a时最小值之间的壁的大小)。更一般来说,
具有相同性质,只是现在最大值处于x=3-2na。成本函数中的第二项成为:
方程式(45)中的参数的实例性设定为a=1,n=1,p=5。
在一些实施方案中,估计器522可实施以下函数。
其中m及n为控制值。方程式(45)中的参数的实例性设定为n=1.2,m=1e-5,a=1。
在一些实施方案中,估计器522可实施在x奇偶校验下对称的六阶多项式,其符合点(0,0),(xp,yp),(xa,0),(xl,yl):
响度域中的自动化EQ
图13是图解说明使个别声音源自动均衡的实例性过程1300的流程图。可由(举例来说)图7的声音源均衡器710执行过程1300。声音源均衡器710经配置以出于以自动化方式清除、强调或减弱乐器的特定目的而以个别声音源的等级(与总体立体声混音相反)施加均衡(EQ)。
声音源均衡器710可接收(1302)音频数据。所述音频数据可为事件100的现场音频数据或排练数据。所述音频数据可包含来自声音源的声道信号。
声音源均衡器710可将每一声音源的相应信号映射(1304)到每一频带中的激励。声音源均衡器710可对来自激励空间中的不同源的声音进行加总,且对来自响度空间中的不同频带的效应进行加总。
声音源均衡器710接着使一或多个声音源自动均衡。声音源均衡器710可产生使每一声音源与每一频带映射的源-频带对列表。声音源均衡器710可确定(1306)列表中的每一源-频带对的相应需求值。所述需求值可指示在对中所表示的声音源在对中的频带中经均衡相对于其它声音源及其它频带的相对重要性。所述需求值可为相对重要性的值与其它声音源对源的掩蔽等级的乘积,或检验当分别使相对重要性或掩蔽等级增加或减小时需求增加或减小的任何数学上可表示的关系。
声音源均衡器710可将需求值与阈值进行比较。如果所有需求值低于阈值,那么声音源均衡器710可终止过程1300。
在确定源-频带对的需求值超过阈值之后,声音源均衡器710即刻可针对在对中所表示的声音源进行均衡以突出源-频带对(1308)。均衡可包含(举例来说)降低频带中的其它声音源。
声音源均衡器710可从可能对列表移除(1310)突出的源-频带,且返回到阶段1306。
声音源均衡器710可将过程1300仅应用于参考音频数据。声音源均衡器710接着可使用事件100的固定设定。替代地或另外,声音源均衡器710可任选地在使用参考音频数据作为种子之后在现场事件100期间自适应地运行这些操作及特征。
声音源均衡器710可使用索引i∈{1,...,Ni}来表示声音源(例如i=1为贝斯等)。在一些情景中,使将混音的所有乐器很好地分离。声音源均衡器710可从每一乐器信号si映射到每一频带b的激励:
si→E(i,b),
(49)
其中E(i,b)为频带b中的声音源i的激励。频带b可为ERB(等效矩形带宽)频带。
可在Glasberg-Moore响度模型中表示此映射。通过执行此映射,声音源均衡器710考虑针对正面入射的头部的效应(或替代地,在漫射场中),及静音阈值的逆滤波器。类似地,声音源均衡器710可从激励空间映射到特定响度L[E(i,b)]:
si→E(i,b)→L[E(i,b)],
(50)
其将由底膜施加的压缩模型化。此函数的实例高于1KHz而为L=α(E+1)0.2。术语“特定响度”可表示每频带的响度,且“响度”可表示在所有频带内的和。如方程式中所展示的对b的相依性指示特定响度。与b的独立性指示和。
声音源均衡器710可对来自激励空间中的不同源的声音进行加总,且对来自响度空间中的不同频带的效应进行加总:
其中Esources(b)为频带b中的所有声音源的激励,且Lall-bands(i)为所有频带中的声音源i的响度。
重要量为在存在噪声的情况下(或在存在几个其它信号的情况下)信号的部分响度。声音源均衡器710可将所有声音源分裂成具有索引i的经指定为信号pL的一个声音源及具有索引i′的所有其它声音源:
其可具有的最大值精确地为所述声音源i的响度,pL(i,b)=L(i,b),其中L(i,b)为频带b中的声音源i的响度。当声音源之间根本不存在掩蔽时出现此值,且因此,压缩器单独起作用:L(∑E)=∑L(E)。掩蔽可减小此值。
声音源均衡器710接着使一些声音源自动均衡。在一些实施方案中,均衡可避免一些声音源被其它声音源掩蔽。声音源均衡器710因此假定初始预混音阶段已调谐所有声音源,使得其以给定目标响度发出声音。举例来说,所有声音源可具有相等响度(惟主唱人声除外),声音源均衡器710可使主唱人声高于所有其它声音源而处于3dB。
预混音阶段可仅单独聚焦于声音源。然而,当所有声音源在相同时间演奏时,可发生掩蔽。声音源均衡器710可执行均衡操作以强调一些源,例如,帮助一些声音源突出。典型实例为贝斯。当贝斯与管风琴或其它宽带乐器一起演奏时,声音源均衡器710可对这些宽带乐器进行高通操作,且使贝斯在低端中为更突显的。相反地,在管风琴独奏音频事件中,声音源均衡器710出于此原因而不施加均衡。因此,此问题为跨乐器问题。
使声音源均衡器710继续进行的一种方式是检测哪一声音源或哪一声音源的哪一频带具有经均衡的更大需求。声音源均衡器710可针对乐器i及频带b将此量指定为Need(i,b)。此需求可取决于以下因素:i)频带对于声音源有多重要;及ii)声音源如何被所有其它声音源掩蔽。声音源均衡器710可分别使用I(i,b)、M(i,b)来量化重要性及掩蔽的程度。
乐器的频带的重要性仅取决于所述乐器(与掩蔽不同)。举例来说,贝斯的低端频带对于贝斯可为重要的。通过比较,管风琴的低端频带可能不那么重要,因为管风琴在频率上延伸得更多。声音源均衡器710可如下测量定界到[0,1]的重要性:
其中I(i,b)表示乐器i在频带b中经均衡的重要性等级。
为测量被所有其它乐器掩蔽,声音源均衡器710可将所有其它声音源指定为噪声。声音源均衡器710可使用其它声音源的部分响度。为获得定界到[0,1]的指示符:
其中M(i,b)表示频带b中的其它乐器对乐器i的掩蔽等级。
因此,声音源均衡器710可如下实施需求函数:
其中Need(i,b)为指示声音源i在频带b中经均衡相对于其它声音源及其它频带的相对重要性的需求值。
声音源均衡器710可简化除i以外的所有声音源的响度的记法:L({i′},b)=L[∑i′E(i′,b)]。可如下表达最后实施方案:
声音源均衡器710可实施以下算法以实现自动均衡。在下一章节中描述改进。为了方便,量Need(i,b)经简化为N(i,b)。
步骤1:声音源均衡器710可找到具有最高N(i,b)的声音源及频带。声音源均衡器710可将此指定为源-频带对:举例来说:(贝斯,第三频带)。声音源均衡器710可将此最高N(i,b)与阈值t∈[0,1]进行比较。如果N(i,b)>t,那么继续进行到步骤2,否则停止(不需要使任何其它事物均衡)。
步骤2:声音源均衡器710可使其余乐器均衡以突出选定对。声音源均衡器710可使用i′来表示除以外的所有声音源。声音源均衡器710可以与其对/>导致的掩蔽成比例的方式在每一声音源i′当中分担责任。进行此操作的方式为通过将增益减少界定到每一乐器的频带:
其中g为将通过要求足够突出而固定的仅有未知数。在图14A及14B中展示每一乐器的增益随g而变的行为。
如果g=1,那么所有增益为1,且每一源-频带对与其掩蔽的程度成比例地减少其激励。依据相同方程式(54)获得i′对/>造成的掩蔽,但将i′视为噪声且将/>视为信号:
/>
其中表示声音源i′对频带b中的声音源/>造成的掩蔽程度。
在相同时间处,声音源均衡器710还可提升选定乐器-频带
其中α为控制将多少相对提升提供给(关于声音源均衡器710使所有其它/>衰减多少)的参数。举例来说,如果α=0,那么声音源均衡器710决不提升。如果α=1,那么声音源均衡器710提升多达声音源均衡器710使其余部分衰减的量。
最后,声音源均衡器710通过以下方式对g求解:界定所述源-频带对的目标掩蔽等级,使得其未被充足地掩蔽,其中Mthreshold为掩蔽阈值。此为由一个未知数(g)的方程式表示的实施方案。方程式(54)展示方程式为非线性的。声音源均衡器710可通过以下方式对g求解:使g以(举例来说)dB的分率的离散步阶减少,直到满足界限为止。声音源均衡器710可使增益与响度映射反转,且因此从响度域返回到线性域。
在此上下文中,声音源均衡器710可通过设定所允许的g的最小值或(为具有较佳控制)通过直接限定及/>的所允许值而强加最大等级的可容忍均衡。
步骤3:声音源均衡器710可从可能对列表移除对以使其突出。返回到步骤1。
上文所描述的算法仅通过检查具有最大需求的对来选择候选对算法不保证益处跨越所有乐器为全局的。全局方法为模仿空间编码:找到在增强之后即刻使全局需求最小化的对;接着迭代。
举例来说,声音源均衡器710可将待均衡的混音的全局需求定义为:
在此处,Need(global)为全局需求。
声音源均衡器710接着执行以下操作。首先,声音源均衡器710可计算初始全局需求Need(global)。其次,声音源均衡器710接着获取所有可能对(i,b),或选择具有较高N(i,b)的若干个对(例如,10个对)。针对每一对,声音源均衡器710将其指定为待增强的候选者,且运行先前算法以找到待施加以提升候选者且使其它衰减的增益g(i,b)。针对如此考虑的每一对,声音源均衡器710可重新计算新全局需求。第三,声音源均衡器710选择使全局需求最小化且施加其增强增益的对。声音源均衡器710接着由其新值替换Need(global)且返回到第一步骤。
如果发生以下情况中的任一者,那么声音源均衡器710可终止以上迭代。1.Need(global)已经低于给定阈值;2.(i,b)选择未导致Need(global)的减少;或3.声音源均衡器710已迭代多于给定最大数目次。
图14A是表示待均衡的三乐器混音的图式。水平轴线表示频率f。三乐器混音包含贝斯、管风琴及其它乐器。垂直轴线表示能量。如所展示,贝斯的能量集中于较低ERB频带中。因此,声音源均衡器710可确定:与管风琴及其它乐器相比较,贝斯在较低ERB频带中具有对均衡的较高需求。
图14B是图解说明自动均衡中的增益的图式。从g=1开始减少,在较低ERB频带中增加贝斯的增益,同时在较低ERB频带中使所有其它乐器衰减。管风琴掩蔽贝斯比“另一”乐器掩蔽的多,且因此管风琴衰减更多。
基于新奇的分割
图15是图解说明基于音频数据中的新奇积累而分割视频的实例性过程1500的流程图。可由图7的分割单元714执行过程1500。在一些实施方案中,可由图5的视频编辑器530实施分割单元714。
分割单元714可接收(1502)音频信号。分割单元714可跨越时间构建(1504)关于音频信号的新奇索引。分割单元714可确定高于阈值的音频信号的峰值。分割单元714可基于平均剪切长度而确定(1506)片段长度。剪切长度可为输入、预设定值或从过去剪切导出(例如,通过对过去X个剪切求平均)。分割单元714可确定(1508)从最后剪切以来的新奇索引的和。所述和可为新奇索引随着时间的积分。
在确定和高于新奇阈值之后,分割单元714即刻可确定(1510)下一剪切的随机时间,其中下一剪切的时间的随机性平均化到平均片段长度。分割单元714可在随机时间处将音频信号或与音频信号同步的对应视频信号剪切(1512)成新片段,且开始对下一剪切的新奇索引求和。分割单元714可将新片段提供到用户装置以用于流式传输或用于下载,且用于在扬声器上播放。下文描述过程1500的额外细节及实例。
视频编辑可基于新奇,其可指示音频或视频显著改变的点。分割单元714可构建测量新奇的索引,称为新奇索引。分割单元714可通过跨越音频录制的不同片段将所提取特征集进行比较而构建新奇索引。分割单元714可构建类似度索引,且用跳棋盘内核对其求卷积以提取新奇。
分割单元714可跨越时间计算新奇索引。分割单元714可首先选择高于特定阈值的峰值。用于提取特征的片段的大小可确定新奇操作的标度。短片段允许区分个别音符。长片段允许区分较粗略概念,例如,区分引子与合唱。将被视为新奇的片段的阈值可影响剪切的频率,且因此其可被设定为所要平均剪切长度的函数,所要平均剪切长度又可被设定为节奏的函数。因此,分割单元714可执行如下操作:
·检索节奏→设定平均剪切长度→设定阈值。
分割单元714可恰当地处置具有声音渐强的歌曲的区段。这些由不导致突显峰值的新奇索引的延长平滑增加来表征,且因此其导致在非常长时间内不存在剪切。分割单元714可包含独立于可出现峰值的事实而将在持续周期内具有一剪切的需求量化的积累处理模块。分割单元714可表征对从最后剪切tlast以来新奇索引的积分的此需求:
其中N(t)为需求,novelty(t)为时间t处的新奇索引。
在确定N(t)高于阈值Nthr之后,分割单元714以经调谐使得在接下来T秒期间平均将存在一剪切的概率开始随机抽取。分割单元714可将Nthr指派给被视为大需求的值,例如,在至少3秒期间新奇的持续值=0.6。同样地,T的值可与所需要的平均剪切长度有联系,如上文所描述。
图16是图解说明实例性新奇积累处理的图式。在图16中展示对具有声音渐增的歌曲的新奇积累处理效应。X轴表示以秒为单位的时间。Y轴表示积分的值。存在介于150秒与180秒之间的长声音渐增,如由曲线1602所展示。曲线1602展示不具有积累后处理的新奇的积分。如果仅使用索引的峰值,那么将在此片段中检测不到事件。曲线1604展示在积累后处理之后的积分,从而揭露新剪切的存在以及其外观的受控随机性两者。所述外观可基于硬阈值或优选地基于概率。
同步
图17图解说明使来自多个麦克风的音频信号同步的实例性过程1700。可由图5的同步器502执行过程1700。执行过程1700的同步器502对常规同步技术进行改进,因为同步器可仅基于音频信号而使音频信号同步。
同步器502可仅仅通过分析音频而使在音频场景中使用的麦克风同步。在一些实施方案中,同步器502可使用各种相关性确定技术(例如,交叉相关算法)使所有麦克风同步到主要立体声声道。
同步器502可接收(1702)音频信号。音频信号可为来自麦克风的声道信号。同步器502可计算(1704)音频信号的每一对之间的相关性的相应质量值。同步器502可将质量值指派(1706)于映射向量中。
同步器502可如下迭代地确定一系列延迟且将延迟插入到映射向量中(1708)。同步器502可识别具有最高质量值的映射向量中的一对信号。同步器502可对准对中的音频信号且将对降混音到单声道信号,且将对准的延迟附加到映射向量。同步器502可用降混音单声道信号替换对中的第一音频信号,且从最大值的索引列表移除第二音频信号。同步器502可使降混音单声道信号保持固定且重新计算质量值。同步器502可从识别阶段再迭代,直到留下仅一个信号为止。
在完成迭代之后,同步器502即刻可使用映射向量中的相应延迟根据插入到映射向量中的延迟的次序使音频信号同步(1710)。同步器502接着可将经同步信号提交到其它组件(例如,图5的源分离器504)以用于额外处理及流式传输。下文描述过程1700的额外细节及实例。
在一些实施方案中,同步器502执行全局地同步的算法,从而更加重视依据与强峰值的交叉相关性计算的延迟。同步器502可将场景处的麦克风标记为m=1,..,M。如果麦克风中的一者为立体声,那么其先前已经极性检查且降混音到单声道。同步器502可随着时间如下确定其相关性Cm,m′(t):
其中sm表示来自麦克风m的信号,对于t=0,此符合上文在方程式(3)中使用的经正规化相关性。
针对每一对,同步器502可获得分别导致较高及较低相关性的tmax、tmin的值。描述相关性多好的品质因数(或相关性的质量Q)将为:/>
其中如果最小值比最大值强,那么Q可为负的。此将不影响结果,因为同步器502可寻求Q的最大值。
同步器502可如下执行递归算法。首先,同步器502可使将具有(M-1)个条目的空映射向量Map初始化。同步器502将仅考虑Q的上部对角线(由于其对称性),及因此其中m1<m2
1.找到具有最大的对m1,m2
2.将对准到/>且降混音到单声道。将/>附加到Map。
3.用此降混音替换从索引列表移除m2以扫描Q的最大值。
4.针对所有m重新计算所有且其中m1为固定的。
5.重复第一步骤直到仅留下1个麦克风为止。
使同步器502具有M-1个延迟的集tm,m′,其中第二索引针对除第一麦克风(其通常为主要立体声的降混音)之外的每个麦克风仅出现一次。为将麦克风m所需要的延迟重建为与(举例来说)第一麦克风同步,同步器502可遵循引向第一麦克风的链:
tm=tm′,m+tm″,m′+...+t1,m″′。 (64)
在一些实施方案中,同步器502可通过避免在到单声道的每一降混音之后重新计算所有相关性而改进计算的速度。假定同步器502已在第一阶段中计算所有Cm,m′,此意味同步器502计算了所有cm,m′(T)=<sm(t)sm′(t+T)>。在将m′对准到m及降混音之后,同步器502可获得新信号(检验tm,m′的正负号):
为计算新关于sm~的相关性:
分子具有两个项。同步器502可从Cn,m导出第一项。同步器502可依据从Cn,m′已知的项的tm,m′个单位的循环移位导出第二项。分母也具有两个项。同步器502可从|sm|及|sm′及其相关性导出第二项:
因此,同步器502仅需要计算初始相关性矩阵。
噪声降低
图24是图解说明噪声降低的实例性过程2400的流程图。可由图7的噪声降低单元711执行过程2400。噪声降低单元711可将噪声降低施加到每一声道信号。举例来说,所揭示方法的优点包含:通过将各种增益个别地施加到每一声道,噪声降低单元711可在特定声道具有足够高以掩蔽来自其它声道的声道信号的音频等级时减少噪声。另外,声道信号可来自可位于场地的单独点处(例如,多于两到三米远)的不同声道信号源(例如,具有不同型号、模式的麦克风)。
噪声降低单元711可接收(2402)参考音频数据。参考音频数据包含在排练阶段的沉默周期期间录制的声道信号。沉默周期可为不演奏乐器的周期(例如,X秒)。
噪声降低单元711可包含噪声估计器组件。噪声估计器可估计(2404)参考音频数据中的每一声道信号中的相应噪声等级。噪声估计器可将所估计噪声等级指定为本底噪声。可在称为频段的多个频带内执行估计参考音频数据中的每一声道信号中的相应噪声等级。
噪声降低单元711可接收(2406)现场表演数据。现场表演数据包含在事件100期间录制的声道信号,曾在排练阶段中沉默的一或多个乐器在事件100中进行演奏。
噪声降低单元711可包含噪声降低器组件。噪声降低器可个别地减少(2408)现场表演数据中的每一声道信号中的相应噪声等级。在确定现场表演数据中的声道信号中的噪声等级与所估计噪声等级之间的差满足阈值之后,噪声降低器即刻可在现场表演数据中的每一声道信号中施加相应抑制增益。可在频段中的每一者中执行降低现场表演数据中的每一声道信号中的相应噪声等级。
在降低噪声等级之后,噪声降低单元711可将声道信号提供(2410)到下游装置以用于进一步处理、存储或分布到一或多个终端用户装置。下游装置可为(举例来说)图5的分布前端508或图7的母带处理单元704。
可根据包含阈值、斜率、起音时间、衰减时间及倍频程大小的噪声降低参数执行估计(2404)及降低(2408)阶段。参数的实例性值为:阈值为10dB;斜率为每dB 20dB;起音时间与衰减时间相同,其为50毫秒(ms)。下文描述噪声降低操作的额外细节及实例。
在估计(2404)阶段期间,噪声估计器可个别地对参考音频数据中的每一声道信号执行以下操作。噪声估计器可分割X个样本(例如,2049个样本)的缓冲器中的声道信号。所述缓冲器可具有二分之一长度重叠。噪声估计器可将离散窗函数(例如,哈宁窗)的平方根施加到每一缓冲器。噪声估计器可施加离散傅里叶变换。噪声估计器可使用下文的方程式(68)计算噪声等级。
n(f)=10*log10(|·|2),
(68)
其中n(f)为特定频段f的噪声等级。
噪声估计器可使用下文的方程式(69)通过在缓冲器内对噪声等级求平均而确定本底噪声。
nestimate(f)=<n(f)>buffers
(69)
其中nestimate(f)为经指定为频段f的本底噪声的噪声等级,<>为平均值。因此,噪声估计器可确定每一声道信号的每一频段的数目nestimate(f)。
在噪声降低(2408)阶段期间,噪声降低器可通过对每一声道信号个别地执行以下操作而抑制事件100的现场表演数据中的每一声道信号的噪声等级。噪声降低器可分割X个样本(例如,2049个样本)的缓冲器中的现场表演数据中的声道信号。所述缓冲器可具有二分之一长度重叠。噪声降低器可将离散窗函数(例如,哈宁窗)的平方根施加到每一缓冲器。噪声降低器可施加离散傅里叶变换。噪声降低器可使用上文的方程式(68)计算噪声等级n(f)。
噪声降低器可使用下文的方程式(70)计算现场表演数据中的噪声等级n(f)与本底噪声之间的差。
d(f)=n(f)-nestimate(f),
(70)
其中d(f)为差。
噪声降低器接着可在扩张器模式中将抑制增益施加到现场表演数据中的声道信号。在扩张器模式中施加抑制增益可包含确定差d(f)是否小于阈值。在确定d(f)小于阈值之后,噪声降低器即刻可施加根据斜率参数抑制差dB的dB数目的增益。
噪声降低器可跨越频段或在如倍频程大小参数中所规定的给定带宽上使所有抑制增益平滑化。噪声降低器可使用起音时间及衰减时间参数使使所有抑制增益随着时间而平滑。噪声降低器可施加逆离散傅里叶变换,再次施加离散窗函数的平方根。噪声降低器接着可重叠且使结果相加。
图18图解说明使五个麦克风同步的实例性序列。首先,同步器502将来自麦克风3的信号对准到来自麦克风2的信号。同步器502可确定延迟t23,且将延迟t23添加到列表。同步器502将经对准信号降混音到单声道信号。同步器502接着用单声道信号替换来自麦克风2的信号。同步器502可通过将单声道信号与来自麦克风4的信号对准、接着将来自麦克风1到麦克风5的信号对准而继续所述过程。最后,同步器502将来自麦克风1的信号与来自麦克风2的信号对准。同步器502可最终获得列表{t23,t24,t15,t12}。在此情形中,t2=t12,t3=t23+t12,t4=t24+t12,t5=t15
视频编辑
图19A及19B图解说明显示自动视频编辑的结果的实例性用户接口。所述用户接口可呈现在用户装置(例如,视频装置414)的显示表面上。可由视频编辑器530(图5)实施在图19A及19B中所描述的特征。
图19A图解说明显示事件100(图1)的第一视频场景的用户接口。在所展示的实例中,乐队在事件100中演奏。视频摄像机捕获乐队演奏的现场视频。乐队中的每一声音源(例如,歌手192及吉他194及其它声音源)以类似等级演奏。视频编辑器530可接收现场视频以及乐队演奏的音频数据。现场视频可包含事件100的实时视频或经预存储视频。视频编辑器530可依据音频数据确定声音源中的每一者的能量(或响度)等级之间的差小于阈值。作为响应,视频编辑器530可确定可呈现事件100的整个视频场景196。视频编辑器530接着可提供现场视频中的整个视频场景196以用于流式传输。视频装置414可接收整个视频场景196,且呈现所述场景以用于显示。
图19B图解说明显示事件100(图1)的第二视频场景的用户接口。在如参考图19A所描述的一段时间的现场演奏期间,视频编辑器530可依据音频数据确定一或多个声音源以显著高于其它乐器的等级演奏。举例来说,视频编辑器530可确定歌手192及吉他194的响度等级或能级为比其它乐器的响度等级或能级高的阈值等级以上。作为响应,视频编辑器530可确定一或多个声音源的平移角度,并且聚焦于且放大视频数据的一部分以获得局部视频场景198。在所展示的实例中,视频编辑器520聚焦于且放大歌手192及吉他194的位置。视频编辑器530接着可提供现场视频中的包含歌手192及吉他194的局部视频场景198以用于流式传输。视频装置414可接收包含歌手192及吉他194的局部视频场景198。视频装置414可呈现局部视频场景198以用于显示。
图20是自动视频编辑的实例性过程2000的流程图。可由视频编辑器530(图5)执行过程2000。视频编辑器530为经配置以接收事件100的现场视频录制的服务器的组件。
视频编辑器530可接收(2002)事件100(图1)的视频数据及事件100的音频数据。视频数据及音频数据可为现场数据。现场数据可为实时数据或经预存储数据。视频数据可包含位于事件100中的不同位置处的声音源的图像。音频数据可包含声音源的能级或响度等级及声音源的平移角度。
视频编辑器530可依据音频数据确定(2004)特定声音源为主导声音源。举例来说,视频编辑器530可确定在音频数据中所表示的声音源的信号指示声音源正在以比在音频数据中所表示的其它声音源的音量等级高出阈值量的音量等级进行演奏。
视频编辑器530可确定(2006)视频数据中的声音源的位置。在一些实施方案中,视频编辑器530可基于音频数据中的声音源的平移角度而确定位置。举例来说,视频编辑器530可确定视频数据中的整个场景的角宽度,且确定与整个空间中的角度(与声音源的平移角度对应)对应的位置。视频编辑器530可基于音频数据而确定声音源的平移位置。视频编辑器530可将声音源的平移位置指定为视频数据中的声音源的位置。在一些实施方案中,视频编辑器530可(例如)通过使用面部追踪或乐器追踪基于视频数据而确定位置。
视频编辑器530可确定(2008)现场视频数据的与声音源的位置对应的一部分。举例来说,视频编辑器530可根据声音源的平移角度放大现场视频数据的一部分。
视频编辑器530可同步提供(2010)音频数据及现场视频数据的所述部分以用于流式传输到存储装置或终端用户装置。因此,举例来说,如果歌手或吉他弹奏者正在演奏独奏曲,那么在终端用户装置上播放的现场视频可在不具有摄像机操作者的干扰及控制的情况下自动放大歌手或吉他演奏者。
另外,在一些实施方案中,视频编辑器530可接收识别事件100中的各种声音源的位置的输入。举例来说,视频编辑器530可包含或耦合到具有用户接口的客户端侧应用。用户接口可在事件100输入的静止图像或视频上接收一或多个触控输入,每一触控输入可使位置与声音源相关联。举例来说,用户可通过触控静止图像或视频中的吉他演奏者而用静止图像或视频中的吉他演奏者规定“吉他”。在排练期间,用户可规定“吉他”且接着录制一段吉他演奏。因此,经标记为“吉他”的声音可与静止图像或视频中的位置相关联。
虽然事件100正在进行,但视频编辑器530可接收现场视频录制而且从源分离器504接收Ns个声音源的Ns个信号。视频编辑器530可从多个信号识别一或多个主导信号。举例来说,视频编辑器530可确定来自特定声音源(例如,歌手)的信号为比每一其它信号响亮而为X dB,其中X为阈值数目。作为响应,视频编辑器530可识别标签(例如,“歌手”)且识别与标签对应的现场视频录制的位置。视频编辑器530可(例如)通过剪辑与位置对应的原始视频录制的部分或放大原始视频录制的部分而聚焦于所述位置。举例来说,如果原始视频录制处于4K分辨率中,那么视频编辑器530可剪辑与位置对应的720p分辨率视频。视频编辑器530可将经剪辑视频提供到分布前端508以用于流式传输到终端用户装置。
基于排练的视频处理
图25是图解说明基于排练数据而进行视频编辑的实例性技术的框图。实例性服务器系统2502经配置以基于排练视频数据而提供对现场视频数据的编辑决策。服务器系统2502可包含一或多个处理器。
服务器系统2502经配置以基于排练视频数据及排练音频数据而自动编辑现场数据2504,例如,音乐表演的现场音频与视频或任一事件的现场音频与视频。现场数据包含由M个视频捕获装置(例如,一或多个视频摄像机)捕获的表演的M个视频信号2506。音频数据2508包含来自N个音频捕获装置(例如,一或多个麦克风)的N个音频信号。音频捕获装置的数量及位置可为任意的。因此,音频捕获装置的相应输入增益可为未知的。由于音频捕获装置的布置,因此音频信号的等级可不与表演者演奏的自然或所感知等级直接相关。
服务器系统2502可基于现场数据2504及排练数据2510而确定哪一表演者正在演奏及处于什么等级的大致值。每一表演者可为乐器、演奏乐器的人、作为歌手而表演的人、操作以其它方式产生电子或物理声音信号的装置的人。如较早所指示,乐器、歌手及装置被称为声音源。举例来说,在现场数据2504中,与第二表演者的第二声音源(例如,吉他)相比较,与第一表演者的第一声音源(例如,贝斯)对应的馈源可为低的,甚至当在实际表演中时,第一声音源比第二乐器演奏的声音更大。此差异可由录制配置导致,其中每一声音源的链中所涉及的各种输入等级阶段以及音频捕获装置与声音源之间的物理距离可为不同的。
常规地,人类操作者(例如,声音工程师、电影摄影技师或视频导演)使用谁在演奏及处于什么等级的知识来确定如何编辑视频。服务器系统2502可从排练数据2510导出知识,且应用规定用户偏好(例如,艺术设定)的一或多个编辑规则以执行模拟人类操作者的编辑的编辑。
服务器系统2502可在排练阶段中且使用排练数据2510确定每一表演者位于摄像机馈源中何处。服务器系统2502接着形成声音源与表演者的声音之间的映射,而不需要表演者或操作者手动进入映射。
在排练阶段处,乐队以与在现场表演中相同的布局将声音源定位于舞台上的各种位置处。一或多个音频捕获装置及一或多个视频捕获装置还以与在现场表演中相同的布局定位于排练处。每一音频捕获装置可为气压(气压梯度)麦克风、直接输入馈源(例如,来自电子键盘)或在由数字声音源(例如运行音乐制作软件的膝上型计算机)产生的数字域信号中进行捕获的装置。至少一个视频捕获装置为经定位使得可在单个视频帧中捕获乐队中的所有声音源及表演者的视频摄像机。服务器系统2502可使用排练的音频及视频录制作为排练数据2510来配置用于编辑现场数据2504的参数。
排练数据2510包含排练音频数据2512及排练视频数据2514。服务器系统2502的分析模块2516使声音源的响度范围与存在于最后数字流中的数字响度范围有关。分析模块2516因此校准在信号的捕获与最后数字表示之间所涉及的多个等级阶段。在一些实施方案中,分析模块2516确定如由音频捕获装置中的每一者捕获的每一声音源的相应平均数字范围。所述平均值可为低等级的软播放与高等级的高声播放之间的EBU响度等级之间的经加权平均值。
分析模块2516可分析排练视频数据2514以确定每一表演者位于视频帧中何处。分析模块2516可使用人类检测、面部检测算法、躯干检测算法、经由背景减法进行预滤波及以上各项与其它物体辨识算法的任一组合来做出此确定。一些实例性算法包含主成分分析(PCA)、线性判别分析(LDA)、局部二值模式(LBP)、面部特点代码(FTC)、全体投票算法(EVA)、深度学习网络(DLN)以及其它算法。
在一些实施方案中,分析模块2516包含声音源检测器。声音源检测器经配置以分析排练音频数据2512以识别每一个别声音源,应用媒体智能以确定在低等级(例如,贝斯、钢琴或人声)、高等级(例如,谐波、打击乐)或两者下其为什么类型的声音源。在一些实施方案中,在分析模块2516中执行的一或多个乐器辨识(MIR)过程可检索事件的全局描述符,所述全局描述符(举例来说)指示所播放的曲段的流派是否为摇滚乐、古典乐、爵士乐等。分析模块2516可将声音源类型及全局描述符提供到自动视频编辑引擎(AVEE)2518以用于编辑现场数据2504。
分析模块2516使由分析模块2516检测的每一表演者与声音源的相应声音有关。举例来说,分析模块2516可映射由分析模块2516辨识的面部与特定声音(例如,吉他的声音)。在一些实施方案中,分析模块2516通过对声音及面部进行排序来确定映射。举例来说,排练音频数据2512可包含如从视频所见依(例如)从左到右的次序播放的声音源。分析模块2516接着使所检测到的最左边的面部与在排练时演奏的第一声音源有关。在另一实例中,数据通过直接人类输入经由定制化图形接口(举例来说,通过展示如由视频装置中的一者捕获的乐队的静止帧,且提示用户轻敲每一表演者以接着从预填充菜单选择所述表演者演奏哪些声音源)来采集。
在乐队完成排练之后,乐队可开始现场表演。服务器系统2502以与在排练期间相同的方式捕获现场数据2504。声音源(例如,表演者)在现场表演中及在排练中可定位于大致相同位置处。音频与视频捕获装置放置于与在排练中相同的位置中。服务器系统2502将现场音频数据2508馈送到推断模块2520及特征提取模块2522中。推断模块2520经配置以在给定时刻确定每一声音源或每一声音源群组的响度。推断模块2520的输出可包含每一声音源或声音源群组的声音等级,举例来说,参考在排练期间演奏的响度,以dB为单位,例如,与低等级相差、与高等级相差或与平均值相差X个dB。参考在排练期间的响度可消除与在每一声音源的模/数转换期间使用的可能不同等级阶段有关的模糊度。
特征提取模块2522经配置以(举例来说)通过使用MIR算法来检索现场音频数据2508的时间变化特征。特征提取模块2522可执行包含(举例来说)节拍检测(包含降拍检测)、计算新奇索引、节奏、调和性及其它的操作。
服务器系统2502可将现场视频数据2506馈送到自适应追踪模块2524中。自适应追踪模块2524经配置以执行自适应面部追踪、表演者追踪或其它物体追踪。自适应追踪模块2524因此考虑可离开舞台且因此不应被聚焦的表演者。自适应追踪模块2524还经配置以追踪从原始位置显著移动(例如,当歌手在舞台上走动且跳舞时)的表演者。
分析模块2516、推断模块2520及特征提取模块2522将输出提供到AVEE 2518。AVEE2518为经配置以执行包含对表演者进行组帧的操作的系统2502的组件。常规面部检测算法可准确描述每一人的面部在何处,但不准确描述如何对其进行组帧以用于缩放及裁剪。AVEE 2518使用每一面部的相应大小及相应位置来导出提供对应表演者的聚焦视图的原始高清晰度视频帧的对应子帧的相应大小及相应位置。子帧可为AVEE 2518或视频捕获装置从较高分辨率(例如,4K)帧裁剪的较低分辨率(例如,720p)帧。AVEE 2518可将子帧呈现为事件的图像。AVEE 2518可在做出基于大小、基于位置及基于突显度的剪切决策中确定帧的大小及位置。
在做出基于大小的剪切决策中,AVEE 2518使用面部比例组帧算法确定子帧的大小,其中AVEE 2518确定子帧的大小与表演者的经辨识面部成比例。举例来说,AVEE 2518可确定表演者的子帧的高度为面部直径的X(例如,五)倍。AVEE 2518可确定子帧的宽度为实现预规定纵横比的高度的倍数。同样地,AVEE 2518可确定表演者的子帧的宽度为面部直径的Y(例如,八)倍。AVEE 2518可确定子帧的高度为实现纵横比的权数的倍数。AVEE 2518可确定面部水平集中于子帧及从子帧的顶部向下的路程的1/3中。
替代地或另外,在一些实施方案中,AVEE 2518使用手比例算法确定子帧的大小,其中AVEE 2518确定子帧的大小与表演者的一或若干经辨识手成比例。替代地或另外,在一些实施方案中,AVEE 2518使用声音源比例算法确定子帧的大小,其中AVEE 2518确定子帧的大小与经辨识音乐声音源或经辨识声音源或者一或若干其它所关注区成比例。
在做出基于位置的剪切决策中,AVEE 2518可使用移动追踪确定高分辨率帧中的子帧的位置。举例来说,当自适应追踪模块2524通知表演者正跨越舞台移动且提供移动路径时,AVEE 2518可跟随通过面部来识别的表演者,且使焦点视图的子帧沿着路径移动。
在做出基于突显度的剪切决策中,AVEE 2518将子帧放置于突显表演者或突显表演者群组上。AVEE 2518可基于来自现场音频数据2508的各种状态而确定表演者的突显度。举例来说,AVEE 2518可依据推断模块2520及特征提取模块2522的输出确定表演者在特定时刻在表演中为突显的可能性。AVEE 2518可基于所述可能性而选择下一视频剪切中的表演者,所述可能性越高,其将针对下一剪切进行选择的概率越高。AVEE 2518选择覆盖所述表演者的子帧的可能性与表演者为突显的可能性正相关,例如,表演者为突显的可能性越高,AVEE 2518选择覆盖所述表演者的子帧的可能性越高。AVEE 2518可基于音频特点而确定表演者为突显的可能性,所述音频特征包含(举例来说)对应表演者的相应音频信号的能量(例如,RMS能量)、与最后N秒的表演相比较的RMS能量Δ(增加或减少)、音符起始频率、节奏改变以及其它特点。另外或替代地,AVEE2518可使用各种视频特点来确定突显度。所述视频特点可包含(举例来说)在子帧边界内的运动。
AVEE 2518可形成与音乐的速度及流量匹配的视频编辑。举例来说,AVEE 2518可以使得剪切的平均频率与音乐的节奏相关(如由特征提取模块2522所估计)的方式确定剪切。AVEE 2518可通过使剪切与高于给定阈值的现场音频数据2508的新奇的改变对准而确定每一特定剪切的精确定时,所述阈值任选地与音乐的节奏有关。较高节奏对应于较低阈值,及因此剪切的较高频率。所述改变可包含(举例来说)总体响度或音色的改变,或一或多个表演者开始或停止播放。AVEE 2518可基于表演的音乐结构的评估而对剪切进行定时。举例来说,AVEE 2518可使剪切与音乐测量或乐句在时间上对准。
AVEE 2518可基于包含来自分析模块2516、推断模块2520、特征提取模块2522及任选地自适应追踪模块2524的输出的表演度量而确定将剪切的子帧的选择。所述表演度量可包含如上文所描述的每一表演者的相应突显度度量、每一表演者的子帧的相应规格、做出基于大小、基于位置及基于突显度的剪切决策。AVEE 2518可使用如下的实例性过程来确定将剪切哪一子帧的选择。
AVEE 2518可检测新奇索引的下一峰值。AVEE可使用最大响度后续接着超过预定义及/或可配置阈值时间、阈值等级或两者的衰减来界定峰值。
AVEE 2518可确定从最后剪切以来的逝去时间及从展示所有表演者的全帧镜头以来的逝去时间。在确定从最后剪切以来的逝去时间小于预定义及/或可配置最小剪切长度之后,AVEE 2518即刻可返回到第一阶段以检测新奇索引的下一峰值。在确定从全帧镜头以来的逝去时间超过阈值之后,AVEE 2518即刻可剪切到全帧。AVEE 2518可依据从节奏导出的剪切次数或持续时间界定阈值。
AVEE 2518可从可能选择消除一或多个表演者(如果其子帧已展示超过阈值时间的时间)。AVEE 2518可基于节奏而确定此阈值时间。举例来说,较快节奏可对应于较短阈值时间。
AVEE 2518可提升经指定为具有主角的表演者的突显度,以匹配所有表演者当中的最大突显度。AVEE 2518可基于从用户接口接收的输入而将一或多个表演者指定为具有主角。
AVEE 2518可建构表演者列表,其突显值在所有表演者当中在最大突显度的X(例如,三)dB内。AVEE 2518可将额外条目添加到领衔表演者的此列表。AVEE 2518可确定将添加到列表的额外条目数目。举例来说,额外条目数目可与总表演者数目相关。AVEE 2518可依据如上文所描述的选择表演者的方式随机选择表演者。
基于对视频编辑的决策,AVEE 2518可(例如)在表演进行时实时编辑现场视频数据2506。AVEE 2518可提供经编辑视频数据以用于存储或用于流式传输到一或多个用户装置。在流式传输情形中,AVEE 2518可使用AVEE 2518中的预见时间来进行缓冲以执行如上文所描述的处理。预见时间可经预配置为X秒,例如,高于1秒、5秒到10秒等。AVEE 2518可基于接收流式传输的云端服务应用中所需要的缓冲量而确定预见时间。在其中存储而非流式传输内容的离线情形中,AVEE 2518可将预见时间设定为无穷大或致使整个表演或整个歌曲被覆盖的任何足够大时间周期。
为了方便,参考表演者来描述追踪。在各种实施方案中,追踪不需要限制于表演者。举例来说,可能追踪乐器(例如,吉他),或乐器的部分(例如,吉他颈部),或表演者的部分(钢琴演奏者的手)。AVEE 2518可将这些区指定为将被聚焦且将组帧的可能候选者。
在图25中,为了方便而将分析模块2516、AVEE 2518、推断模块2520、特征提取模块2522及自适应追踪模块2524展示为单独模块。在各种实施方案中,所述模块可经组合或经细分。举例来说,在一些实施方案中,可由AVEE 2518实施分析模块2516、推断模块2520、特征提取模块2522及自适应追踪模块2524的功能。在一些实施方案中,AVEE做出视频编辑决策,且将所述决策作为指令提供到一或多个视频捕获装置。一或多个视频捕获装置接着实行实施决策。
图26是图解说明基于排练数据进行视频编辑的实例性过程2600的流程图。可由服务器系统(例如,图25的服务器系统2502)执行过程2600。
服务器系统从一或多个录制装置接收(2602)包含排练视频数据及排练音频数据的排练数据。排练数据表示由事件的一或多个表演者进行的所述事件的排练。一或多个录制装置包含一或多个麦克风及一或多个视频摄像机。一或多个视频摄像机可包含经指定为高分辨率视频摄像机(例如,4K能力的视频摄像机)的至少一个视频摄像机。
服务器系统依据排练视频数据辨识(2604)一或多个表演者中的每一者的相应图像。辨识相应图像可基于对表演者或由表演者演奏的乐器中的至少一者的基于视频的追踪。举例来说,辨识可基于面部辨识、乐器辨识或其它物体辨识。
服务器系统依据排练音频数据确定(2606)与每一经辨识图像相关联的对应声音属性。声音属性可包含声音类型、声音等级或两者。声音类型可指示由表演者使用的乐器类型,例如,吉他、鼓或声乐。
服务器系统从一或多个录制装置接收(2608)包含事件的现场视频数据及现场音频数据的现场数据。在一些实施方案中,现场数据可在一或多个录制装置上、在服务器系统上或在两者上经缓冲与数据的处理时间对应且与结果将存储还是流式传输到用户装置对应的一时间周期。
服务器系统基于经辨识图像及相关联声音属性而确定(2610)每一表演者的相应突显度。系统可导出每一表演者相对于排练所演奏的相应等级以及如由一或多个视频摄像机捕获的每一表演者在排练期间的相应位置。如上文所描述,服务器系统可使用确定主导声音源的技术来确定突显表演者。在一些实施方案中,确定第一表演者为突显表演者可包含以下操作。服务器系统基于现场排练音频数据而在表演者当中使每一响度等级正规化。服务系统确定:在现场音频数据中,至少一个表演者以在正规化之后比其它表演者的经正规化响度等级高出至少阈值量的等级来表演。服务系统接着可确定第一表演者为突显表演者。
在一些实施方案中,使每一响度等级正规化可包含以下操作。服务器系统可依据排练音频数据确定每一表演者的第一等级声音及每一表演者的第二等级声音。第一等级低于第二等级。服务器系统接着通过按比例缩放且对准第一等级而且按比例缩放且对准第二等级来使每一响度等级正规化。
在一些实施方案中,确定第一表演者为突显表演者可包含以下操作。服务器系统基于现场视频数据而确定第一表演者的移动量超过其它表演者的移动量达至少一阈值。服务器系统接着基于移动量而确定第一表演者为突显表演者。
服务器系统根据一或多个编辑规则编辑(2612)现场视频数据及现场音频数据。在编辑现场数据中,服务器系统基于相应突显度而强调至少一个表演者。举例来说,编辑可强调包含多个表演者的乐队或管弦乐队(例如,铜管乐组或木管乐组)的歌手、乐器或乐组。可由服务器系统对现场视频数据执行编辑。在一些实施方案中,可由录制装置执行编辑。举例来说,服务器系统可将编辑指令提供到录制装置,从而致使录制装置执行编辑操作。
编辑现场视频数据及现场音频数据可包含基于现场音频数据而确定事件的速度及节奏。服务器系统接着可根据速度及节奏剪切现场视频数据。编辑现场视频数据及现场音频数据可包含确定表演者(例如,第一表演者)已开始或停止播放。服务器系统接着可作为响应而(例如)在执行已开始或已停止播放的时间处剪切现场视频数据。
在一些实施方案中,编辑现场视频数据及现场音频数据包含以下操作。服务器系统确定从展示所有表演者的全帧镜头以来逝去的时间超过阈值时间。服务器系统可作为响应而剪切现场视频数据。服务器系统可基于剪切次数或从现场音频数据的节奏导出的持续时间而确定阈值时间。
服务器系统接着提供(2614)经编辑数据以用于播放。服务器系统可将经编辑现场视频数据与经编辑现场音频数据的关联性存储于存储装置上,或将经编辑现场视频数据与经编辑现场音频数据的关联性流式传输到用户装置。
帧区域选择
图27是图解说明从全帧视频数据选择子帧区域的实例性技术的框图。在现场事件(例如,音乐会)处,至少一个视频捕获装置2702捕获事件的视频。至少一个音频捕获装置2704捕获事件的音频。装置2702及2704通过通信网络2708(例如,因特网)将现场视频数据及现场音频数据提交给服务器系统2706。视频捕获装置2702可以高分辨率(例如,4K)录制视频。高分辨率视频可消耗通信网络2708的太多带宽以上传到服务器系统2706或从服务器系统2706下载到用户装置。
服务器系统2706可相同于或不同于参考图25所描述的服务器系统2502。服务器系统2706可将中等分辨率(例如,720p)的视频存储或流式传输到用户装置。视频捕获装置2702可配置为服务器系统2706的从装置。作为服务器系统2706的从装置,视频捕获装置2702遵循来自服务器系统2706的命令以缩放、裁剪且选择视频数据的焦点。从音频捕获装置2704接收现场音频数据的服务器系统2706识别表演者及对应乐器,做出关于选择子帧的决策,且引导视频捕获装置2702将选定子帧提交给服务器系统2706。
服务器系统2706在事件处接收全频带的至少一个视频帧。视频帧包含所有表演者,且不需要处于全分辨率中,且可使用有损编解码器可选地经压缩。服务器系统2706接着做出关于基于现场音频数据而聚焦于何处及选择哪一子帧的决策。服务器系统2706引导视频捕获装置2702将仅选定子帧的中等分辨率现场视频提交给服务器系统2706。
视频捕获装置2702可包含视频缓冲器2710。视频缓冲器2710为经配置而以全分辨率存储X秒(例如,十秒)的视频数据的数据存储器。视频数据可包含一系列全频带帧2712及相关联时间信息。视频捕获装置2702包含视频转换器2714。视频转换器2714将全频带帧2712从全分辨率转换为一系列较低分辨率(例如,720p或640×480)图像。视频转换器2714以经减小帧速率(例如,1fps)将较低分辨率图像提交给服务器系统2706。在平均时间中,视频捕获装置2702将视频缓冲器2710中的视频流转换为中等分辨率视频,且以标准帧速率(例如,24fps)将中等分辨率视频提交给服务器系统2706。
在初始时间t0处,所提交视频可为覆盖全频带、具有与较低分辨率图像一致的帧的视频。视频捕获装置2702接着等待来自服务器系统2706的关于编辑决策的指令,同时继续将中等分辨率视频数据及图像提交给服务器系统2706。
服务器系统2706包含AVEE 2718。AVEE 2718可相同于或不同于图25的AVEE 2518。AVEE 2718接收全帧图像及现场音频数据。AVEE 2718经配置以基于从音频捕获装置2704接收的全帧图像及现场音频数据而确定将聚焦于哪一表演者或乐器。举例来说,AVEE 2718可确定歌手在时间t1处为突显表演者。AVEE 2718接着可在从时间t1开始的视频中发布对突显表演者(在此实例中,歌手)进行缩放的指令。所述指令可与传感器像素坐标(例如,从左边的X个像素、从底部的Y个像素)、大小及时间t1相关联。
响应于指令,视频捕获装置2702根据指令实施编辑。视频捕获装置2702从视频缓冲器2710检索对应时间t1的视频数据。视频捕获装置2702根据坐标裁剪到位置。视频捕获装置2702将经裁剪视频数据调整到规定大小,且将经调整视频数据提交到服务器系统2706,同时继续将经转换全帧图像提交到服务器系统2706。视频捕获装置2702可以标准帧速率(例如,24fps)提交经调整视频数据。因此,服务器系统2706将接收从时间t1起聚焦于突显表演者(例如,歌手)的视频。
基于提交给服务器系统2706的现场音频数据及图像,服务器系统2706可确定在第二时间t2处第二表演者(例如,小提琴家)成为突显表演者。服务器系统2706接着将聚焦于包含小提琴家的视频的现场视频的一部分的指令提供到视频捕获装置2702。在接收到规定子帧的位置及大小以及时间t2的指令之后,视频捕获装置2702即刻改变裁剪坐标,而且将包含小提琴家的经裁剪且任选地经重新定大小的视频提交给服务器系统2706。因此,服务器系统2706从时间t2接收小提琴家的中等分辨率视频。
服务器系统2706包含汇编单元2720。汇编单元2720经配置以汇编来自视频捕获装置2702的中等分辨率视频数据及来自音频捕获装置2704的现场音频数据以用于存储或用于流式传输到用户装置。针对现场流式传输,汇编单元2720可将延迟添加到经汇编视频流的开始。视频缓冲器2710及延迟两者皆可对做决策及数据传输中的延迟进行补偿。举例来说,服务器系统2706可决定在鼓手踢鼓时对鼓手进行缩放,命令视频捕获装置2702在与鼓手踢鼓的时间对应的保持于存储器中的缓冲器的位置处聚焦于鼓手。此时间可为在视频捕获装置2702接收到命令之前的X(例如,0.2)秒。服务器系统2706接着接收新编辑的视频,且将其供应给观众,从而使用延迟来掩盖做决策且传输命令的时间。
图28是由服务器系统执行的从全帧视频数据选择子帧区域的实例性过程2800的流程图。所述服务器系统可为图27的服务器系统2706。
服务器系统从一或多个音频捕获装置接收(2802)事件的音频数据及所述事件的视频数据的至少一个帧。所述视频数据由经配置而以第一分辨率录制视频的视频捕获装置捕获。所述第一分辨率可为4K或高于4K。所述帧可具有相同于或低于所述第一分辨率的分辨率。所述事件的视频数据帧可为所述视频数据的一系列帧当中的帧。所述系列帧可在所述服务器系统处以低于视频捕获装置的帧捕获速率(例如,24fps或高于24fps)的帧速率(例如,1fps或低于1fps)经接收。在一些实施方案中,捕获事件的所有表演者的单个帧是充足的。在一些实施方案中,视频捕获装置将多个帧提交给服务器系统,以覆盖在事件期间可能已移动的表演者。
服务器系统基于音频数据及在视频数据的帧中辨识的个别表演者的图像而确定(2804)事件的个别表演者中的每一者的相应位置。服务器系统可基于排练数据而进行确定。
在由服务器系统依据音频数据确定个别表演者中的第一表演者在第一时间处为突显表演者之后,服务器系统即刻引导(2806)视频捕获装置以第二分辨率将视频数据的第一部分提交给服务器系统。视频数据的第一部分在空间上针对在第一时间处捕获的第一表演者的位置。第二分辨率可为1080p或低于1080p。
在由服务器系统依据音频数据确定个别表演者中的第二表演者在第二时间处为突显表演者之后,服务器系统即刻引导(2808)视频录制器以第二分辨率将视频数据的第二部分提交给服务器系统。视频数据的第二部分在空间上针对在第二时间处捕获的第二表演者的位置。
服务器系统将视频数据的第一部分及第二部分指定(2810)为处于第二分辨率的事件的视频。服务器系统接着将音频数据与处于第二分辨率的事件的视频的关联性作为事件的音频及视频录制提供(2812)到存储装置或用户装置。举例来说,服务器系统可添加处于第二分辨率的事件的视频的延迟。服务器系统接着将经延迟视频及相关联音频数据流式传输到一或多个用户装置。
在一些实施方案中,视频捕获装置缓冲处于第一分辨率的视频数据的周期。响应于来自服务器系统的命令,视频捕获装置选择与第一表演者及第二表演者对应的经缓冲视频数据的帧的位置来提交给服务器系统。
图29是由视频捕获装置执行的从全帧视频数据选择子帧区域的实例性过程2900的流程图。所述视频捕获装置可为图27的视频捕获装置2702。
视频捕获装置以第一分辨率录制(2902)视频数据。所述第一分辨率可为4K或高于4K。视频捕获装置将视频数据存储(2904)于视频捕获装置的本地缓冲器中。视频捕获装置依据所录制视频数据确定(2906)一系列的一或多个图像。视频捕获装置以第一帧速率将所述系列的一或多个图像提交(2908)到服务器系统。所述第一帧速率可为每秒一个帧或低于每秒一个帧。视频捕获装置从服务器系统接收(2910)聚焦于视频数据的一部分的指令,所述指令指示所录制视频数据中的所述部分的时间位置及空间位置。
响应于所述指令,视频捕获装置根据所指示时间位置及空间位置将存储于本地缓冲器中的视频数据的部分转换(2912)为具有第二分辨率且具有比第一帧速率高的第二帧速率的视频数据。所述第二分辨率可为1080p或低于1080p。所述第二帧速率可为每秒24个帧或高于每秒24个帧。视频捕获装置接着将处于第二分辨率的经转换视频数据作为事件的现场视频数据提交(2914)到服务器。
示范性录制装置架构
图21是图解说明实施参考图1到20及24到29所描述的特征及操作的装置的示范性装置架构2100的框图。所述装置可为(举例来说)图1的录制装置102或104或者图3的录制装置302。装置可包含存储器接口2102、一或多个数据处理器、图像处理器及/或处理器2104及外围装置接口2106。存储器接口2102、一或多个处理器2104及/或外围装置接口2106可为单独组件或可集成于一或多个集成电路中。处理器2104可包含应用程序处理器、基带处理器及无线处理器。举例来说,移动装置中的各种组件可由一或多个通信总线或信号线耦合。
传感器、装置及子系统可耦合到外围装置接口2106以促进多个功能性。举例来说,运动传感器2110、光传感器2112及接近传感器2114可耦合到外围装置接口2106以促进移动装置的定向、光照及接近功能。位置处理器2115可连接到外围装置接口2106以提供地理定位。在一些实施方案中,位置处理器2115可经编程以执行GNSS接收器的操作。电子磁强计2116(例如,集成电路芯片)也可连接到外围装置接口2106以提供可用于确定磁北的方向的数据。因此,电子磁强计2116可用作电子罗盘。运动传感器2110可包含经配置以确定移动装置的移动速度及方向的改变的一或多个加速度计。气压计2117可包含连接到外围装置接口2106且经配置以测量移动装置周围的大气压力的一或多个装置。
可利用摄像机子系统2120及光学传感器2122(例如,电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器)以促进摄像机功能,例如录制照相及视频剪辑。
可通过一或多个无线通信子系统2124(其可包含射频接收器及传输器及/或光学(例如,红外线)接收器及传输器)来促进通信功能。通信子系统2124的特定设计及实施方案可取决于移动装置打算经由其操作的通信网络。举例来说,移动装置可包含经设计以经由GSM网络、GPRS网络、EDGE网络、Wi-FiTM或WiMaxTM网络及BluetoothTM网络操作的通信子系统2124。特定来说,无线通信子系统2124可包含托管协议,使得移动装置可配置为用于其它无线装置的基站。
音频子系统2126可耦合到扬声器2128及麦克风2130以促进支持语音的功能,例如语音辨识、语音复制、数字录制及电话语音功能。音频子系统2126可经配置以从用户接收语音命令。
I/O子系统2140可包含触控表面控制器2142及/或其它输入控制器2144。触控表面控制器2142可耦合到触控表面2146或触控板。触控表面2146及触控表面控制器2142可(举例来说)使用多个触摸灵敏度技术(包含但不限于电容式、电阻式、红外线及表面声波技术)以及其它接近传感器阵列或其它元件中的任一者来检测其接触及移动或间断以用于确定与触控表面2146的一或多个接触点。触控表面2146可包含(举例来说)触摸屏。
其它输入控制器2144可耦合到其它输入/控制装置2148,例如一或多个按钮、摇臂开关、拇指旋轮、红外端口、USB端口及/或指针装置(例如触笔)。一或多个按钮(未展示)可包含用于扬声器2128及/或麦克风2130的音量控制的向上/向下按钮。
在一个实施方案中,按压按钮达第一持续时间可解除触控表面2146的锁定;且按压按钮达比第一持续时间长的第二持续时间可接通或关断去往移动装置的电力。用户可能够定制化按钮中的一或多者的功能性。触控表面2146还可(举例来说)用于实施虚拟或软按钮及/或键盘。
在一些实施方案中,移动装置可呈现所录制音频及/或视频文件,例如MP3、AAC及MPEG文件。在一些实施方案中,移动装置可包含MP3播放器的功能性。还可使用其它输入/输出及控制装置。
存储器接口2102可耦合到存储器2150。存储器2150可包含高速随机存取存储器及/或非易失性存储器,例如一或多个磁盘存储装置、一或多个光学存储装置及/或快闪存储器(例如,NAND、NOR)。存储器2150可存储操作系统2152,例如iOS、Darwin、RTXC、LINUX、UNIX、OS X、WINDOWS或嵌入式操作系统(例如VxWorks)。操作系统2152可包含用于处置基本系统服务且用于执行硬件相依任务的指令。在一些实施方案中,操作系统2152可包含内核(例如,UNIX内核)。
存储器2150还可存储通信指令2154以促进与一或多个额外装置、一或多个计算机及/或一或多个服务器通信。存储器2150可包含:图形用户接口指令2156,其用以促进图形用户接口处理;传感器处理指令2158,其用以促进传感器相关的处理及功能;电话指令2160,其用以促进电话相关的过程及功能;电子消息接发指令2162,其用以促进电子消息接发相关的过程及功能;网络浏览指令2164,其用以促进网络浏览相关的过程及功能;媒体处理指令2166,其用以促进媒体处理相关的过程及功能;GNSS/位置指令2168,其用以促进通用GNSS及位置相关的过程及指令;摄像机指令2170,其用以促进摄像机相关的过程及功能;磁强计数据2172及校准指令2174,其用以促进磁强计校准。存储器2150可还存储其它软件指令(未展示),例如安全指令、用以促进网络视频相关的过程及功能的网络视频指令及/或用以促进网络购物相关的过程及功能的网络购物指令。在一些实施方案中,将媒体处理指令2166划分成音频处理指令及视频处理指令以分别促进音频处理相关的过程及功能以及视频处理相关的过程及功能。激活记录及国际移动设备标识(IMEI)或类似硬件标识符也可存储于存储器2150中。存储器2150可存储在由处理器2104执行时可致使处理器2104执行各种操作(举例来说,包含通过登录用户帐户加入录制服务群组,将装置的一或多个麦克风指定为点麦克风或主要麦克风,使用一或多个麦克风录制群组的音频信号,且将所录制信号提交给服务器)的音频处理指令2176。在一些实施方案中,音频处理指令2176可致使处理器2104执行参考图4及其它图所描述的服务器408的操作。存储器2150可存储在由处理器2104执行时可致使处理器2104执行参考图25到29所描述的各种操作的视频处理指令。
以上所识别指令及应用程序中的每一者可对应于用于执行上文所描述的一或多个功能的指令集。这些指令不需要实施为单独软件程序、程序步骤或模块。存储器2150可包含额外指令或较少指令。此外,移动装置的各种功能可实施于硬件中及/或软件中,包含实施于一或多个信号处理及/或专用集成电路中。
图22是图1到20及24到29的移动装置的实例性网络操作环境2200的框图。装置2202a及2202b在数据通信中可(举例来说)经由一或多个有线及/或无线网络2210来通信。举例来说,无线网络2212(例如,蜂窝式网络)可通过使用网关2216与广域网(WAN)2214(例如因特网)通信。同样地,存取装置2218(例如802.11g无线存取点)可提供对广域网2214的通信存取。装置2202a及2202b中的每一者可为图1的装置102或装置104或者图3的录制装置302。
在一些实施方案中,可经由无线网络2212及存取装置2218建立语音及数据通信两者。举例来说,装置2202a可经由无线网络2212、网关2216及广域网2214(例如,使用传输控制协议/因特网协议(TCP/IP)或用户数据报协议(UDP))进行且接收电话呼叫(例如,经由因特网协议(VoIP)协议使用语音),发送且接收电子邮件消息(例如,使用邮局协议3(POP3)),并且检索电子文档及/或流(例如网页、照片及视频)。同样地,在一些实施方案中,装置2202b可经由存取装置2218及广域网2214进行且接收电话呼叫,发送且接收电子邮件消息,并且检索电子文档。在一些实施方案中,装置2202a或2202b可使用一或多个电缆物理地连接到存取装置2218且存取装置2218可为个人计算机。在此配置中,装置2202a或2202b可被称为“系连”装置。
装置2202a及2202b还可通过其它手段建立通信。举例来说,无线装置2202a可经由无线网络2212与其它无线装置(例如,其它移动装置、移动电话等)通信。同样地,装置2202a及2202b可通过使用一或多个通信子系统(例如BluetoothTM通信装置)建立对等通信2220,例如,个人局域网。还可实施其它通信协议及拓扑。
装置2202a或2202b可(举例来说)经由一或多个有线及/或无线网络与一或多个服务2230、2240及2250通信。举例来说,一或多个音频与视频处理服务2230可提供包含自动同步、自动调平、自动平移、自动声音源均衡、自动分割及流式传输(如上文所描述)的音频处理的服务。混音服务2240可提供允许混音专业人员通过远程控制台登录以对现场音频数据执行混音操作的用户接口。视觉效应服务2250可提供允许视觉效应专业人员通过远程控制台登录以编辑视频数据的用户接口。
装置2202a或2202b还可经由一或多个有线及/或无线网络存取其它数据及内容。举例来说,内容发布者(例如新闻网站、真正简单聚合(RSS)馈源、网站、博客、社交网站、开发者网络等)可由装置2202a或2202b存取。此存取可通过调用网络浏览功能或应用程序(例如,浏览器)响应于用户触控(举例来说)网络对象来提供。
实例性系统架构
图23是实施参考图1到20及24到29所描述的特征及操作的系统架构(举例来说,服务器系统)的框图。其它架构也是可能的,包含具有更多或更少组件的架构。在一些实施方案中,架构2300包含一或多个处理器2302(例如,双核处理器)、一或多个输出装置2304(例如,LCD)、一或多个网络接口2306、一或多个输入装置2308(例如,鼠标、键盘、触敏显示器)及一或多个计算机可读媒体2312(例如,RAM、ROM、SDRAM、硬盘、光盘、快闪存储器等)。这些组件可经由一或多个通信声道2310(例如,总线)交换通信及数据,通信声道2310可利用各种硬件及软件来促进数据及控制信号在组件之间的传送。
术语“计算机可读媒体”是指参与将指令提供到处理器2302以用于执行的媒体,不具限制地包含非易失性媒体(例如,光盘或磁盘)、易失性媒体(例如,存储器)及传输媒体。传输媒体不具限制地包含同轴电缆、铜线及光纤。
计算机可读媒体2312可进一步包含操作系统2314(例如,操作系统)、网络通信模块2316、音频处理管理器2320、视频处理管理器2330及现场内容分布器2340。操作系统2314可为多用户、多重处理、多任务处理、多线程处理、实时的等。操作系统2314执行包含但不限于以下各项的基本任务:辨识来自网络接口2306及/或装置2308的输入且将输出提供到网络接口2306及/或装置2308;追踪且管理计算机可读媒体2312(例如,存储器或存储装置)上的文件及目录;控制外围装置;且管理一或多个通信声道2310上的业务。网络通信模块2316包含用于建立且维持网络连接的各种组件(例如,用于实施例如TCP/IP、HTTP等通信协议的软件)。
音频处理管理器2320可包含在经执行时致使处理器2302执行如上文(例如)参考服务器408所描述的各种音频估计及操纵操作的计算机指令。视频处理管理器2330可包含在经执行时致使处理器2302执行如上文(例如)参考视频编辑器530、AVEE 2518或AVEE2718所描述的视频编辑及操纵操作的计算机指令。现场内容分布器2340可包含在经执行时致使处理器2302执行接收音频事件的参考音频数据及现场数据且在处理音频及可视数据之后将所述经处理现场数据流式传输到一或多个用户装置的操作的计算机指令。
可在并行处理或对等基础结构中或在具有一或多个处理器的单个装置上实施架构2300。软件可包含多个软件组件或可为单个代码主体。
所描述特征可在可执行于可编程系统上的一或多个计算机程序中实施,所述可编程系统包含经耦合以从数据存储系统接收数据及指令且将数据及指令传输到所述数据存储系统的至少一个可编程处理器、至少一个输入装置及至少一个输出装置。计算机程序为可直接或间接在计算机中使用以执行特定活动或带来特定结果的指令集。可以包含编译语言或解译语言的任一形式的编程语言(例如,Objective-C、Java)撰写计算机程序,且可以任一形式部署所述计算机程序,包含部署为独立程序或部署为模块、组件、子例程、基于浏览器的网络应用程序或适合于在计算环境中使用的其它单元。
用于执行指令程序的适合处理器通过实例方式包含任一种类的计算机的一般用途微处理器及特殊用途微处理器两者以及单独处理器或多个处理器或核心中的一者。一般来说,处理器将从只读存储器或随机存取存储器或两者接收指令及数据。计算机的基本元件为用于执行指令的处理器及用于存储指令及数据的一或多个存储器。一般来说,计算机还将包含用于存储数据文件的一或多个大容量存储装置或以操作方式经耦合以与一或多个大容量存储装置通信;此些装置包含磁盘(例如内部硬盘及可拆卸磁盘)、磁光盘及光盘。适合于有形地体现计算机程序指令及数据的存储装置包含所有形式的非易失性存储器,其以实例方式包含:半导体存储器装置,例如EPROM、EEPROM及快闪存储器装置;磁盘,例如内部硬盘或可拆卸磁盘;磁光盘;以及CD-ROM及DVD-ROM磁盘。所述处理器及所述存储器可由ASIC(专用集成电路)补充,或并入于ASIC(专用集成电路)中。
为提供与用户的交互,特征可在计算机上实施,所述计算机具有例如CRT(阴极射线管)或LCD(液晶显示器)监视器的显示器装置或用于将信息显示给用户的视网膜显示器装置。所述计算机可具有用户可借以将输入提供到计算机的触控表面输入装置(例如,触摸屏)或键盘及指向装置(例如鼠标或轨迹球)。计算机可具有用于从用户接收语音命令的语音输入装置。
特征可在包含后端组件(例如数据服务器)或包含中间件组件(例如应用程序服务器或因特网服务器)或包含前端组件(例如具有图形用户接口或因特网浏览器的客户端计算机)或其任何组合的计算机系统中实施。系统的组件可通过任一数字数据通信形式或媒体(例如通信网络)连接。通信网络的实例包含(例如)LAN、WAN以及形成因特网的计算机与网络。
计算系统可包含客户端及服务器。客户端与服务器一般彼此远离且通常通过通信网络互动。客户端与服务器的关系是借助于在相应计算机上运行且彼此之间具有客户端-服务器关系的计算机程序而产生。在一些实施例中,服务器将数据(例如,HTML页)传输到客户端装置(例如,出于向与客户端装置交互的用户显示数据及从所述用户接收用户输入的目的)。可在服务器处从客户端装置接收在客户端装置处产生的数据(例如,用户交互的结果)。
一或多个计算机的系统可经配置以借助于在系统上安装有软件、固件、硬件或其组合(其在操作中致使系统执行特定动作)而执行所述动作。一或多个计算机程序可经配置以借助于包含在由数据处理设备执行时致使所述设备执行特定动作的指令而执行所述动作。
虽然本说明书含有许多具体实施细节,但不应将这些细节解释为对任何发明或可主张的内容的范围的限制,而是应将其解释为特定发明的特定实施例所特有的特征的描述。在单独实施例的上下文中于本说明书中描述的特定特征还可以组合方式实施于单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可单独地或以任何适合子组合形式实施于多个实施例中。此外,尽管上文可将特征描述为以一些组合形式起作用且甚至最初是如此主张的,但在一些情形中,可从所主张组合去除来自所述组合的一或多个特征,且所主张组合可针对子组合或子组合的变化形式。
类似地,虽然在图式中以特定次序描绘操作,但不应将此理解为需要以所展示的特定次序或以按顺序次序执行此类操作,或执行所有所图解说明的操作以实现合意的结果。在特定情形下,多任务处理及并行处理可为有利的。此外,不应将在上文所描述的实施例中的各种系统组件的分离理解为在所有实施例中需要此分离,且应理解,一般可将所描述的程序组件及系统一起集成于单个软件产品中或封装到多个软件产品中。
因此,已描述标的物的特定实施例。在所附权利要求书的范围内存在其它实施例。在一些情形中,权利要求书中所陈述的动作可以不同次序执行且仍实现合意结果。另外,附图中所描绘的过程未必需要所展示的特定次序或顺序次序来实现合意结果。在特定实施方案中,多任务处理及并行处理可为有利的。
已描述本发明的若干个实施方案。然而,将理解,在不背离本发明的精神及范围的情况下可做出各种修改。
可从以下所列举的实例性实施例(EEE)了解本发明的各种方面:
EEE 1.一种调平音频的方法,其包括:
由包含一或多个电子电路的调平单元接收参考音频数据,所述参考音频数据包含来自多个声道信号源的声道信号的表示;
由所述调平单元接收目标等级数据,所述目标等级数据规定每一声音源的目标等级;
由所述调平单元基于所述参考音频数据而确定用于根据相应增益将音频信号重新按比例缩放到所述目标等级的成本函数;及
通过使所述成本函数最小化而计算将施加到现场音频数据中的所述声道信号中的每一者的相应增益。
EEE 2.根据EEE 1所述的方法,其中所述声道信号的所述表示包含原始声道信号或经处理声道信号,所述经处理声道信号包含已由噪声降低单元、均衡器、动态范围校正单元或声音源分离器处理的声道信号。
EEE 3.根据EEE 1或EEE 2所述的方法,其包括由所述调平单元确定所述声道信号源的每一对之间的相应相关性。
EEE 4.一种使音频平移的方法,其包括:
由包括一或多个电子电路的平移器接收声音源的参考音频数据,所述声音源包含经指定为一或多个可平移源的一或多个源及经指定为一或多个不可平移源的一或多个源;
接收所述声音源在其中进行演奏的事件的声道信号;
基于所述参考音频数据而确定成本函数,所述成本函数具有作为变量的针对每一声道信号的平移位置,所述成本函数包含用于表示左声道与右声道之间的失衡的第一分量、表示所述一或多个可平移源的第二分量及表示所述声音源当中的所述一或多个不可平移源的第三分量;
通过使所述成本函数最小化而确定每一声道信号的相应平移位置;及
将所述平移位置施加到所述声道信号以实现将所述事件的声音源放置在立体声舞台的左边与右边之间以用于输出到立体声复制系统的音频效应。
EEE 5.根据EEE 4所述的方法,其中所述平移位置包含平移角度中的至少一者或左声道与右声道之间的比率,且其中所述立体声复制系统包含头戴式耳机或扬声器。
EEE 6.一种调平音频且使音频平移的方法,其包括:
由包含一或多个电子电路的调平与平移单元接收参考音频数据,所述参考音频数据包含在一或多个声音源的排练中录制的来自多个声道信号源的声道信号的表示;
由所述调平与平移单元接收目标等级数据,所述目标等级数据规定每一声音源的目标等级;
由所述调平与平移单元接收现场音频数据,所述现场音频数据包含来自在现场事件处演奏的所述一或多个声音源的所录制或实时信号;
由所述调平与平移单元基于所述参考音频数据而确定用于调平所述现场音频数据且使所述现场音频数据平移的联合成本函数,所述联合成本函数具有用于调平所述现场音频数据的第一分量及用于使所述现场音频数据平移的第二分量,所述第一分量基于所述目标等级数据,所述第二分量基于左声道与右声道之间的失衡的第一表示、所述声音源当中的可平移源的第二表示及所述声音源当中的不可平移源的第三表示;
通过使所述联合成本函数最小化来计算将施加到所述声道信号中的每一者的相应增益及每一声道信号的相应平移位置;及
将所述增益及平移位置施加到事件的现场音频数据的信号以实现调平所述现场音频数据中的声音源且将所述现场音频数据中的声音源放置在立体声舞台的左边与右边之间以用于输出到存储装置或立体声复制系统的音频效应。
EEE 7.根据EEE 6所述的方法,其中每一等级为能级或响度等级。
EEE 8.一种确定音频等级的方法,其包括:
由包含一或多个电子电路的估计器接收参考音频数据,所述参考音频数据包含各自表示在排练期间演奏的一或多个声音源的声道信号;
由所述估计器基于所述参考音频数据而计算每一麦克风中的每一声音源的相应等级;
确定现场音频数据与参考音频数据之间的等级差,包含将如在所述现场音频数据中所表示的每一声音源及如在所述参考音频数据中所表示的所述声音源的相应等级进行比较;
基于所述差而确定关于每一声音源的相应等级的成本函数;
通过使所述成本函数最小化而确定所述相应等级;及
将所述等级作为输入提供到音频或视频处理器。
EEE 9.根据EEE 8所述的方法,其包括:
由所述估计器计算多个频带中的每一频带中的每一声音源的相应等级,其中
所述成本函数包含每声音源跨越各频带的成本的相应和;
在每一频带中确定所述相应等级。
EEE 10.一种使音频均衡的方法,其包括:
由包括一或多个电子电路的均衡器接收包含来自多个声音源的信号的音频数据;
由所述均衡器将针对每一声音源的相应信号映射到每一频带中的激励;
确定源-频带对列表中的每一源-频带对的需求值,每一源-频带对表示声音源及频带,所述需求值指示在所述对中所表示的所述声音源在所述对中的所述频带中经均衡相对于其它声音源及其它频带的相对重要性以及一或多个其它声音源对在所述对中所表示的所述声音源的掩蔽等级;
迭代地使在所述列表中的具有最高需求值的所述源-频带对中所表示的声音源的信号均衡且从所述列表移除经均衡源-频带对,直到剩余源-频带对的最高需求值低于阈值为止;及
提供所述经均衡信号以在一或多个扬声器上播放。
EEE 11.根据EEE 10所述的方法,其中所述需求值为表示所述相对重要性的一或多个值与表示所述声音源的掩蔽等级的一或多个值的乘积。
EEE 12.一种分割视频内容的方法,其包括:
由包括一或多个电子电路的分割单元接收音频信号;
由所述分割单元跨越时间建构关于所述音频信号的新奇索引;
基于所述新奇索引中的峰值而确定下一剪切的剪切时间;
在所述剪切时间处剪切所述视频内容;及
将所述经剪切视频内容作为新视频片段提供到存储装置或提供到一或多个终端用户装置。
EEE 13.根据EEE 12所述的方法,其中确定所述剪切时间包括:
基于平均剪切长度而确定片段长度,所述片段长度与音频片段的长度对应;及
基于片段长度而确定所述剪切时间。
EEE 14.根据EEE 13所述的方法,其中基于所述片段长度而确定所述剪切时间包括:
确定在从最后剪切以来的时间内所述新奇索引的和;及
在确定所述和高于新奇阈值之后,即刻按照从所述新奇索引的所述和满足所述新奇阈值的时间到所述下一剪切的时间的时间来确定所述剪切时间,且其中所述剪切时间的随机性平均化到所述片段长度。
EEE 15.一种使音频同步的方法,其包括:
从多个麦克风接收音频信号;
确定所述音频信号的每一对之间的相关性的相应质量值且将所述质量值指派于映射向量中;
迭代地确定一系列延迟且将所述延迟插入到所述映射向量,其中迭代地确定所述系列延迟包括迭代地对具有最高质量值的所述音频信号的一对进行对准及降混音;及
在完成所述迭代之后,即刻使用所述映射向量中的所述相应延迟根据将所述延迟插入到所述映射向量中的次序使所述音频信号同步。
EEE 16.一种噪声降低的方法,其包括:
由包含一或多个电子电路的噪声降低单元接收参考音频数据,所述参考音频数据包含在沉默周期排练阶段期间所录制的声道信号;
由所述噪声降低单元的噪声估计器估计所述参考音频数据中的每一声道信号中的相应噪声等级;
接收现场表演数据,所述现场表演数据包含在事件期间录制的声道信号,曾在所述排练阶段中沉默的一或多个乐器在所述事件中进行演奏;
由所述噪声降低单元的噪声降低器个别地降低所述现场表演数据中的每一声道信号中的相应噪声等级,包含在确定所述现场表演数据中的每一声道信号中的噪声等级与所述所估计噪声等级之间的差满足阈值之后,即刻在所述现场表演数据中的所述声道信号中施加相应抑制增益;及
在降低所述噪声等级之后,将所述声道信号提供到下游装置以用于进一步处理、存储或分布到一或多个终端用户装置。
EEE 17.根据EEE 16所述的方法,其中:
在多个频段内执行估计所述参考音频数据中的每一声道信号中的所述相应噪声等级,
在所述频段中执行降低所述现场表演数据中的每一声道信号中的所述相应噪声等级,且
根据包含所述阈值、斜率、起音时间、衰减时间及倍频程大小的噪声降低参数执行所述估计及所述降低。
EEE 18.一种方法,其包括:
由服务器系统且从一或多个声道信号源接收参考音频数据,所述参考音频数据包括在排练中个别地演奏的一或多个声音源的声学信息;
由所述服务器系统且从所述一或多个声道信号源接收表演事件的一或多个声道信号,每一声道信号来自相应声道信号源且包括来自在所述表演事件处演奏的所述一或多个声音源的音频信号;
由所述服务器系统对所述一或多个声道信号进行混音,所述混音包括基于所述参考音频数据而自动调整所述表演事件的一或多个声音源的一或多个音频属性;
将所述表演事件的经混音录制从所述服务器系统提供到存储装置或提供到多个终端用户装置;及
将所述表演事件的所述一或多个声道信号及至少描述一或多个音频属性的所述调整的单独文件从所述服务器系统提供到存储装置。
EEE 19.一种方法,其包括:
由服务器系统且从一或多个声道信号源接收参考音频数据,所述参考音频数据包括个别地演奏的一或多个声音源的声学信息;
由所述服务器系统且从所述一或多个声道信号源接收表演事件的一或多个声道信号,每一声道信号来自相应声道信号源且包括来自在所述表演事件处演奏的所述一或多个声音源的音频信号;
由所述服务器系统对所述一或多个声道信号进行混音,所述混音包括基于所述参考音频数据而自动调整所述表演事件的一或多个声音源的一或多个音频属性;及
将所述表演事件的经混音录制从所述服务器系统提供到存储装置或提供到多个终端用户装置。
EEE 20.根据前述EEE中任一EEE所述的方法,其中:
每一声道信号源包含具有信号输出的麦克风或声音信号产生器,
每一声音源为歌手、乐器或合成器,
所述服务器系统包含通过通信网络连接到所述一或多个声道信号源的一或多个计算机,及
所述一或多个声道信号源及所述一或多个声音源在所述排练中与在所述表演事件中具有相同声学布置。
EEE 21.根据前述EEE中任一EEE所述的方法,其中:
所述一或多个声道信号包含来自所述一或多个声道信号源中的第一声道信号源的第一声道信号及来自所述一或多个声道信号源中的第二声道信号源的第二声道信号,及
所述方法包括由所述服务器系统使所述第一声道信号与所述第二声道信号在时间域中同步。
EEE 22.根据前述EEE中任一EEE所述的方法,其包括:从所述一或多个声道信号分离出第一声音源及第二声音源,包含从在所述一或多个声道信号中所表示的多个声音源分离出所述第一声音源及所述第二声音源,其中所述一或多个声道信号包括表示所述第一声音源的第一信号及表示所述第二声音源的第二信号。
EEE 23.根据前述EEE中任一EEE所述的方法,其中所述混音包括由所述服务器系统调平第一声音源及第二声音源且使所述第一声音源及所述第二声音源平移。
EEE 24.根据EEE 23所述的方法,其中调平所述第一声音源及所述第二声音源包括根据每一声音源的相应能级增加或减少所述一或多个声音源的增益,每一相应能级由所述服务器系统依据所述参考音频数据来确定。
EEE 25.根据前述EEE中任一EEE所述的方法,其中所述参考音频数据包括以下各项中的至少一者:
以经指定为低等级的第一等级及经指定为高等级的第二等级来演奏的每一声音源的信号;或
以单个等级来演奏的每一声音源的信号。
EEE 26.根据前述EEE中任一EEE所述的方法,其包括依据所述参考音频数据确定所述事件中的每一声音源的相应增益,其中确定所述相应增益包括针对每一声音源:
接收规定目标等级的输入;
确定所述参考音频数据中的所述信号的相应等级;及
基于所述参考音频数据中的所述信号的所述等级与所述目标等级之间的差而确定每一相应增益。
EEE 27.根据前述EEE中任一EEE所述的方法,其中对所述一或多个声道信号进行混音包括根据来自登录到所述服务器系统的混音器装置的输入调整所述一或多个声道信号、来自所述一或多个声音源的所述信号或两者的增益。
EEE 28.根据前述EEE中任一EEE所述的方法,其包括针对所述事件执行视频编辑,其中执行所述视频编辑包括:
由所述服务器系统的视频编辑器接收所述事件的视频数据及音频数据,所述视频数据包含其中声音源可见地位于所述事件中的不同位置处的视频,所述音频数据包含声音源的能级;
依据所述音频数据确定在所述音频数据中所表示的第一声音源的信号指示所述第一声音源正在以比在所述音频数据中所表示的其它声音源的等级高出阈值量的等级进行演奏;
确定所述视频数据中的所述第一声音源的位置;
确定所述视频数据的与所述第一声音源的所述位置对应的一部分;及
将所述音频数据及所述视频数据的所述部分同步提供到所述存储装置或提供到所述终端用户装置。
EEE 29.根据EEE 28所述的方法,其中确定所述视频数据中的所述声音源的所述位置包括:
基于音频数据而确定所述第一声音源的平移位置;及
将所述第一声音源的所述平移位置指定为所述视频数据中的所述声音源的所述位置。
EEE 30.根据EEE 28所述的方法,其中确定所述视频数据中的所述声音源的所述位置包括使用面部追踪或乐器追踪确定所述声音源的所述位置。
EEE 31.根据前述EEE中任一EEE所述的方法,其包括:
基于所述一或多个声道信号而将命令从所述服务器系统提供到所述一或多个声道信号源,所述命令经配置以调整所述一或多个声道信号源的录制参数,所述录制参数包含增益、压缩类型、位深度或数据传输速率中的至少一者。

Claims (39)

1.一种调平音频的方法,其包括:
由包含一或多个电子电路的调平单元接收参考音频数据,所述参考音频数据包含来自多个声道信号源的声道信号的表示;
由所述调平单元接收目标等级数据,所述目标等级数据规定每一声音源的目标等级;
由所述调平单元基于所述参考音频数据而确定用于根据相应增益将音频信号重新按比例缩放到所述目标等级的成本函数;及
通过使所述成本函数最小化而计算将施加到现场音频数据中的所述声道信号中的每一者的相应增益。
2.根据权利要求1所述的方法,其中所述声道信号的所述表示包含原始声道信号或经处理声道信号,所述经处理声道信号包含已由噪声降低单元、均衡器、动态范围校正单元或声音源分离器处理的声道信号。
3.根据权利要求1所述的方法,其包括由所述调平单元确定所述声道信号源的每一对之间的相应相关性。
4.一种使音频平移的方法,其包括:
由包括一或多个电子电路的平移器接收声音源的参考音频数据,所述声音源包含经指定为一或多个可平移源的一或多个源及经指定为一或多个不可平移源的一或多个源;
接收所述声音源在其中进行演奏的事件的声道信号;
基于所述参考音频数据而确定成本函数,所述成本函数具有作为变量的针对每一声道信号的平移位置,所述成本函数包含用于表示左声道与右声道之间的失衡的第一分量、表示所述一或多个可平移源的第二分量及表示所述声音源当中的所述一或多个不可平移源的第三分量;
通过使所述成本函数最小化而确定每一声道信号的相应平移位置;及
将所述平移位置施加到所述声道信号以实现将所述事件的声音源放置在立体声舞台的左边与右边之间以用于输出到立体声复制系统的音频效应。
5.根据权利要求4所述的方法,其中所述平移位置包含平移角度中的至少一者或左声道与右声道之间的比率,且其中所述立体声复制系统包含头戴式耳机或扬声器。
6.一种调平音频且使音频平移的方法,其包括:
由包含一或多个电子电路的调平与平移单元接收参考音频数据,所述参考音频数据包含在一或多个声音源的排练中录制的来自多个声道信号源的声道信号的表示;
由所述调平与平移单元接收目标等级数据,所述目标等级数据规定每一声音源的目标等级;
由所述调平与平移单元接收现场音频数据,所述现场音频数据包含来自在现场事件处演奏的所述一或多个声音源的所录制或实时信号;
由所述调平与平移单元基于所述参考音频数据而确定用于调平所述现场音频数据且使所述现场音频数据平移的联合成本函数,所述联合成本函数具有用于调平所述现场音频数据的第一分量及用于使所述现场音频数据平移的第二分量,所述第一分量基于所述目标等级数据,所述第二分量基于左声道与右声道之间的失衡的第一表示、所述声音源当中的可平移源的第二表示及所述声音源当中的不可平移源的第三表示;
通过使所述联合成本函数最小化来计算将施加到所述声道信号中的每一者的相应增益及每一声道信号的相应平移位置;及
将所述增益及平移位置施加到事件的现场音频数据的信号以实现调平所述现场音频数据中的声音源且将所述现场音频数据中的声音源放置在立体声舞台的左边与右边之间以用于输出到存储装置或立体声复制系统的音频效应。
7.根据权利要求6所述的方法,其中每一等级为能级或响度等级。
8.一种确定音频等级的方法,其包括:
由包含一或多个电子电路的估计器接收参考音频数据,所述参考音频数据包含各自表示在排练期间演奏的一或多个声音源的声道信号;
由所述估计器基于所述参考音频数据而计算每一麦克风中的每一声音源的相应等级;
确定现场音频数据与参考音频数据之间的等级差,包含将如在所述现场音频数据中所表示的每一声音源及如在所述参考音频数据中所表示的所述声音源的相应等级进行比较;
基于所述差而确定关于每一声音源的相应等级的成本函数;
通过使所述成本函数最小化而确定所述相应等级;及
将所述等级作为输入提供到音频或视频处理器。
9.根据权利要求8所述的方法,其包括:
由所述估计器计算多个频带中的每一频带中的每一声音源的相应等级,其中
所述成本函数包含每声音源跨越各频带的成本的相应和;
在每一频带中确定所述相应等级。
10.一种使音频均衡的方法,其包括:
由包括一或多个电子电路的均衡器接收包含来自多个声音源的信号的音频数据;
由所述均衡器将针对每一声音源的相应信号映射到每一频带中的激励;
确定源-频带对列表中的每一源-频带对的需求值,每一源-频带对表示声音源及频带,所述需求值指示在所述对中所表示的所述声音源在所述对中的所述频带中经均衡相对于其它声音源及其它频带的相对重要性以及一或多个其它声音源对在所述对中所表示的所述声音源的掩蔽等级;
迭代地使在所述列表中的具有最高需求值的所述源-频带对中所表示的声音源的信号均衡且从所述列表移除经均衡源-频带对,直到剩余源-频带对的最高需求值低于阈值为止;及
提供所述经均衡信号以在一或多个扬声器上播放。
11.根据权利要求10所述的方法,其中所述需求值为表示所述相对重要性的一或多个值与表示所述声音源的掩蔽等级的一或多个值的乘积。
12.一种分割视频内容的方法,其包括:
由包括一或多个电子电路的分割单元接收音频信号;
由所述分割单元跨越时间建构关于所述音频信号的新奇索引;
基于所述新奇索引中的峰值而确定下一剪切的剪切时间;
在所述剪切时间处剪切所述视频内容;及
将所述经剪切视频内容作为新视频片段提供到存储装置或提供到一或多个终端用户装置。
13.根据权利要求12所述的方法,其中确定所述剪切时间包括:
基于平均剪切长度而确定片段长度,所述片段长度与音频片段的长度对应;及
基于片段长度而确定所述剪切时间。
14.根据权利要求13所述的方法,其中基于所述片段长度而确定所述剪切时间包括:
确定在从最后剪切以来的时间内所述新奇索引的和;及
在确定所述和高于新奇阈值之后,即刻按照从所述新奇索引的所述和满足所述新奇阈值的时间到所述下一剪切的时间的时间来确定所述剪切时间,且其中所述剪切时间的随机性平均化到所述片段长度。
15.一种使音频同步的方法,其包括:
从多个麦克风接收音频信号;
确定所述音频信号的每一对之间的相关性的相应质量值且将所述质量值指派于映射向量中;
迭代地确定一系列延迟且将所述延迟插入到所述映射向量,其中迭代地确定所述系列延迟包括迭代地对具有最高质量值的所述音频信号的一对进行对准及降混音;及
在完成所述迭代之后,即刻使用所述映射向量中的所述相应延迟根据将所述延迟插入到所述映射向量中的次序使所述音频信号同步。
16.一种噪声降低的方法,其包括:
由包含一或多个电子电路的噪声降低单元接收参考音频数据,所述参考音频数据包含在沉默周期排练阶段期间所录制的声道信号;
由所述噪声降低单元的噪声估计器估计所述参考音频数据中的每一声道信号中的相应噪声等级;
接收现场表演数据,所述现场表演数据包含在事件期间所录制的声道信号,曾在所述排练阶段中沉默的一或多个乐器在所述事件中进行演奏;
由所述噪声降低单元的噪声降低器个别地降低所述现场表演数据中的每一声道信号中的相应噪声等级,包含在确定所述现场表演数据中的每一声道信号中的噪声等级与所述所估计噪声等级之间的差满足阈值之后,即刻在所述现场表演数据中的所述声道信号中施加相应抑制增益;及
在降低所述噪声等级之后,将所述声道信号提供到下游装置以用于进一步处理、存储或分布到一或多个终端用户装置。
17.根据权利要求16所述的方法,其中:
在多个频段内执行估计所述参考音频数据中的每一声道信号中的所述相应噪声等级,
在所述频段中执行降低所述现场表演数据中的每一声道信号中的所述相应噪声等级,且
根据包含所述阈值、斜率、起音时间、衰减时间及倍频程大小的噪声降低参数执行所述估计及所述降低。
18.一种方法,其包括:
由服务器系统且从一或多个录制装置接收包含排练视频数据及排练音频数据的排练数据,所述排练数据表示由事件的一或多个表演者进行的所述事件的排练;
由所述服务器系统依据所述排练视频数据辨识所述一或多个表演者中的每一者的相应图像;
依据所述排练音频数据确定与每一经辨识图像相关联的对应声音属性;
由所述服务器系统且从所述一或多个录制装置接收包含所述事件的现场视频数据及现场音频数据的现场数据;
由所述服务器系统基于所述经辨识图像及相关联声音属性而确定每一表演者的相应突显度;
根据一或多个编辑规则编辑所述现场视频数据及所述现场音频数据,所述编辑规则基于所述相应突显度及所述经辨识图像;及
提供所述经编辑现场视频数据及所述经编辑现场音频数据以进行播放,包含将所述经编辑现场视频数据与所述经编辑现场音频数据的关联性存储于存储装置上或流式传输所述经编辑现场视频数据及所述经编辑现场音频数据,
其中所述服务器系统包含一或多个计算机处理器。
19.根据权利要求18所述的方法,其中:
所述一或多个录制装置包含一或多个麦克风及一或多个视频摄像机;
辨识所述相应图像基于对表演者或由所述表演者演奏的乐器中的至少一者的基于视频的追踪;且
所述声音属性包含声音类型及响度等级。
20.根据权利要求18或权利要求19所述的方法,其中确定每一表演者的所述相应突显度包括:
依据所述排练音频数据确定表演者的响度等级;
相对于依据所述排练音频数据所确定的每一表演者的对应响度等级,随着时间而依据所述现场音频数据确定每一表演者的所述响度等级;
通过将每一表演者的对应所确定相对响度等级进行比较来随着时间而确定每一表演者的所述相对突显度;及
基于所述所确定的相对突显度作为所述编辑规则的输入而编辑所述现场视频数据。
21.根据权利要求20所述的方法,其中依据所述排练音频数据确定所述响度等级包括:
依据所述排练音频数据确定每一表演者的第一等级声音及每一表演者的第二等级声音,所述第一等级比所述第二等级低;及
计算所述第一等级与所述第二等级之间的经加权平均值。
22.根据权利要求18或权利要求19所述的方法,其包括确定至少一个表演者为突显表演者,其中确定所述至少一个表演者为所述突显表演者包括:
基于所述现场视频数据而确定所述第一表演者的移动量超过其它表演者的移动量达至少一阈值;及
基于所述移动量而确定所述第一表演者为所述突显表演者。
23.根据权利要求18或权利要求19所述的方法,其中编辑所述现场视频数据及所述现场音频数据包括通过放大或裁剪一或多个突显表演者的一或多个图像而对所述一或多个突显表演者进行组帧。
24.根据权利要求23所述的方法,其中编辑所述现场视频数据及所述现场音频数据包括追踪至少一个表演者的移动。
25.根据权利要求24所述的方法,其中编辑所述现场视频数据及所述现场音频数据包括:
基于所述现场音频数据而确定所述事件的速度及节奏;及
根据所述速度及节奏剪切所述现场视频数据。
26.根据权利要求25所述的方法,其中编辑所述现场视频数据及所述现场音频数据包括:
确定至少一个表演者已开始或停止演奏;及
作为响应而剪切所述现场视频数据。
27.根据权利要求18或权利要求19所述的方法,其中编辑所述现场视频数据及所述现场音频数据包括:
响应于依据所述现场视频数据确定从展示所有表演者的全帧镜头以来逝去的时间超过阈值时间而剪切所述现场视频数据,其中所述阈值时间是基于剪切次数或持续时间而确定的。
28.根据权利要求18或权利要求19所述的方法,其中编辑所述现场视频数据及所述现场音频数据包括:
确定从至少一个表演者出现在所述经编辑现场视频数据中以来逝去的时间低于阈值时间,其中所述阈值时间是基于剪切次数或持续时间而确定的;及
规定在所述逝去的时间保持低于所述阈值时间时,在接下来的经编辑剪切中不展示所述至少一个表演者。
29.根据权利要求18或权利要求19所述的方法,其包括提供所述经编辑现场视频数据及所述经编辑现场音频数据以用于流式传输到用户装置。
30.根据权利要求18或权利要求19所述的方法,其中在所述服务器系统上执行所述编辑。
31.根据权利要求18或权利要求19所述的方法,其中所述编辑包括将指令提供到录制装置,所述指令可操作以致使所述装置执行所述编辑的操作。
32.一种方法,其包括:
由服务器系统从一或多个音频捕获装置接收事件的音频数据及所述事件的视频数据的帧,所述视频数据由经配置而以第一分辨率录制视频的视频捕获装置捕获;
基于所述音频数据而确定出现在所述视频数据的所述帧中的所述事件的个别表演者的平移角度及平移位置;
基于所述平移角度及平移位置而确定所述事件的所述个别表演者中的每一者的相应位置;
在由所述服务器系统依据所述音频数据确定所述个别表演者中的第一表演者在第一时间处为突显表演者之后,即刻引导所述视频捕获装置将所述视频数据的第一部分以第二分辨率提交给所述服务器系统,所述视频数据的所述第一部分在空间上针对在所述第一时间处捕获的所述第一表演者的位置;
在由所述服务器系统依据所述音频数据确定所述个别表演者中的第二表演者在第二时间处为突显表演者之后,即刻引导所述视频录制器将所述视频数据的第二部分以所述第二分辨率提交给所述服务器系统,所述视频数据的所述第二部分在空间上针对在所述第二时间处捕获的所述第二表演者的位置;
将所述视频数据的所述第一部分及所述第二部分指定为处于第二分辨率的所述事件的视频;及
将所述音频数据与处于所述第二分辨率的所述事件的所述视频的关联性作为所述事件的音频及视频录制提供到存储装置或用户装置,
其中所述服务器系统包含一或多个计算机处理器。
33.根据权利要求32所述的方法,其中所述第一分辨率为4K或高于4K,且所述第二分辨率为1080p或低于1080p。
34.根据权利要求32或权利要求33所述的方法,其中所述事件的视频数据的所述帧为所述视频数据的一系列帧当中的帧,所述系列帧在所述服务器系统处以比所述视频捕获装置的帧捕获速率低的帧速率经接收。
35.根据权利要求32或权利要求33所述的方法,其中确定所述事件的所述个别表演者中的每一者的所述相应位置基于排练数据。
36.根据权利要求32或权利要求33所述的方法,其中所述视频捕获装置缓冲处于所述第一分辨率的所述视频数据的周期,且响应于来自所述服务器系统的命令,选择与所述第一表演者及所述第二表演者对应的所述经缓冲视频数据的帧的位置来提交给所述服务器系统。
37.根据权利要求32或权利要求33所述的方法,其包括:
添加处于所述第二分辨率的所述事件的所述视频的延迟;及
将所述经延迟视频及相关联音频数据流式传输到一或多个用户装置。
38.一种方法,其包括:
由视频捕获装置以第一分辨率录制事件的视频数据;
将所述视频数据存储于所述视频捕获装置的本地缓冲器中;
依据所述所录制视频数据确定一系列的一或多个图像;
以第一帧速率将所述系列的一或多个图像提交给服务器系统;
从所述服务器系统接收聚焦于所述视频数据的一部分的指令,所述指令指示所述所录制视频数据中的所述部分的时间位置及空间位置;
响应于所述指令,根据所述所指示时间位置及空间位置将存储于所述本地缓冲器中的所述视频数据的所述部分转换为具有第二分辨率且具有比所述第一帧速率高的第二帧速率的视频数据;及
将处于所述第二分辨率的所述经转换视频数据作为所述事件的现场视频数据提交给所述服务器。
39.根据权利要求38所述的方法,其中所述第一分辨率为4K或高于4K,所述第二分辨率为1080p或低于1080p,所述第一帧速率为每秒一个帧或低于每秒一个帧,且所述第二帧速率为每秒24个帧或高于每秒24个帧。
CN202310747017.2A 2016-07-22 2017-07-20 现场音乐表演的多媒体内容的基于网络的处理及分布 Pending CN116612731A (zh)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
ESP201631002 2016-07-22
ES201631002 2016-07-22
US201662398835P 2016-09-23 2016-09-23
US62/398,835 2016-09-23
ESP201730282 2017-03-02
ES201730282 2017-03-02
US201762501344P 2017-05-04 2017-05-04
US62/501,344 2017-05-04
PCT/US2017/043152 WO2018017878A1 (en) 2016-07-22 2017-07-20 Network-based processing and distribution of multimedia content of a live musical performance
CN201780045266.XA CN109478400B (zh) 2016-07-22 2017-07-20 现场音乐表演的多媒体内容的基于网络的处理及分布

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201780045266.XA Division CN109478400B (zh) 2016-07-22 2017-07-20 现场音乐表演的多媒体内容的基于网络的处理及分布

Publications (1)

Publication Number Publication Date
CN116612731A true CN116612731A (zh) 2023-08-18

Family

ID=65661420

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780045266.XA Active CN109478400B (zh) 2016-07-22 2017-07-20 现场音乐表演的多媒体内容的基于网络的处理及分布
CN202310747017.2A Pending CN116612731A (zh) 2016-07-22 2017-07-20 现场音乐表演的多媒体内容的基于网络的处理及分布

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201780045266.XA Active CN109478400B (zh) 2016-07-22 2017-07-20 现场音乐表演的多媒体内容的基于网络的处理及分布

Country Status (4)

Country Link
US (3) US10944999B2 (zh)
EP (2) EP3923269B1 (zh)
JP (2) JP7404067B2 (zh)
CN (2) CN109478400B (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8847053B2 (en) 2010-10-15 2014-09-30 Jammit, Inc. Dynamic point referencing of an audiovisual performance for an accurate and precise selection and controlled cycling of portions of the performance
WO2014204875A1 (en) 2013-06-16 2014-12-24 Jammit, Inc. Synchronized display and performance mapping of musical performances submitted from remote locations
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US20200045094A1 (en) * 2017-02-14 2020-02-06 Bluejay Technologies Ltd. System for Streaming
GB201702386D0 (en) 2017-02-14 2017-03-29 Bluejay Tech Ltd System for streaming
US10469880B1 (en) * 2017-09-25 2019-11-05 Amazon Technologies, Inc. Providing alternative live media content
US11521390B1 (en) 2018-04-30 2022-12-06 LiveLiveLive, Inc. Systems and methods for autodirecting a real-time transmission
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
WO2020191354A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11195543B2 (en) 2019-03-22 2021-12-07 Clear Peaks LLC Systems, devices, and methods for synchronizing audio
JP2020170939A (ja) * 2019-04-03 2020-10-15 ヤマハ株式会社 音信号処理装置、及び音信号処理方法
CN114051738A (zh) 2019-05-23 2022-02-15 舒尔获得控股公司 可操纵扬声器阵列、系统及其方法
TW202105369A (zh) 2019-05-31 2021-02-01 美商舒爾獲得控股公司 整合語音及雜訊活動偵測之低延時自動混波器
CN114788293B (zh) 2019-06-11 2023-07-14 唯众挚美影视技术公司 用于制作包括电影的多媒体数字内容的系统、方法和介质
EP3997700A1 (en) * 2019-07-09 2022-05-18 Dolby Laboratories Licensing Corporation Presentation independent mastering of audio content
WO2021022499A1 (en) 2019-08-07 2021-02-11 WeMovie Technologies Adaptive marketing in cloud-based content production
CN112399189B (zh) * 2019-08-19 2022-05-17 腾讯科技(深圳)有限公司 延时输出控制方法、装置、系统、设备及介质
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
CN110460800B (zh) * 2019-08-28 2021-02-23 长沙市回音科技有限公司 远程排演系统和排演方法
CN110740296B (zh) * 2019-09-30 2022-02-08 视联动力信息技术股份有限公司 一种视联网监控视频流的处理方法及装置
WO2021068105A1 (en) 2019-10-08 2021-04-15 WeMovie Technologies Pre-production systems for making movies, tv shows and multimedia contents
JP2021125760A (ja) * 2020-02-04 2021-08-30 ヤマハ株式会社 オーディオ信号処理装置、オーディオシステム及びオーディオ信号処理方法
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN111402933B (zh) * 2020-03-04 2022-01-21 Oppo广东移动通信有限公司 音频录制方法、装置、存储介质和相关设备
JP2021158419A (ja) * 2020-03-25 2021-10-07 株式会社タムラ製作所 サーバ、ネットワークシステム
WO2021225608A1 (en) 2020-05-08 2021-11-11 WeMovie Technologies Fully automated post-production editing for movies, tv shows and multimedia contents
KR20210142393A (ko) * 2020-05-18 2021-11-25 엘지전자 주식회사 영상표시장치 및 그의 동작방법
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11616589B2 (en) * 2020-06-25 2023-03-28 Sony Interactive Entertainment LLC Methods and systems for performing and recording live music near live with no latency
US11563504B2 (en) * 2020-06-25 2023-01-24 Sony Interactive Entertainment LLC Methods and systems for performing and recording live music using audio waveform samples
US20230262271A1 (en) * 2020-07-17 2023-08-17 Harman International Industries, Incorporated System and method for remotely creating an audio/video mix and master of live audio and video
US11561758B2 (en) * 2020-08-11 2023-01-24 Virtual Sound Engineer, Llc Virtual sound engineer system and method
US11070888B1 (en) 2020-08-27 2021-07-20 WeMovie Technologies Content structure aware multimedia streaming service for movies, TV shows and multimedia contents
CN112165648B (zh) * 2020-10-19 2022-02-01 腾讯科技(深圳)有限公司 一种音频播放的方法、相关装置、设备及存储介质
CN112420005A (zh) * 2020-10-23 2021-02-26 深圳市伟博思技术有限公司 全景音效网络协同系统
US11812121B2 (en) 2020-10-28 2023-11-07 WeMovie Technologies Automated post-production editing for user-generated multimedia contents
US11166086B1 (en) 2020-10-28 2021-11-02 WeMovie Technologies Automated post-production editing for user-generated multimedia contents
CN112613538B (zh) * 2020-12-09 2022-07-05 华中科技大学 一种基于加权主成分分析的非线性均衡方法
KR102284914B1 (ko) * 2020-12-23 2021-08-03 디알시스 주식회사 프리셋 영상이 구현되는 사운드 트랙킹 시스템
JP6967735B1 (ja) * 2021-01-13 2021-11-17 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理システム
US11659331B2 (en) * 2021-01-22 2023-05-23 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for audio balance adjustment
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
WO2022232645A1 (en) * 2021-04-30 2022-11-03 Little Dog Live, LLC Audio workstation control over computing networks
US11330154B1 (en) 2021-07-23 2022-05-10 WeMovie Technologies Automated coordination in multimedia content production
JP2023040568A (ja) * 2021-09-10 2023-03-23 ヤマハ株式会社 演奏収録方法、演奏収録システムおよびプログラム
US11321639B1 (en) 2021-12-13 2022-05-03 WeMovie Technologies Automated evaluation of acting performance using cloud services
WO2024107342A1 (en) * 2022-11-15 2024-05-23 Cerence Operating Company Dynamic effects karaoke
WO2024118624A1 (en) * 2022-11-29 2024-06-06 Akm Productions, Inc. Computer-based tools and techniques for real-time optimization of audio and audiovisual content
CN117236937B (zh) * 2023-11-13 2024-02-27 国网天津市电力公司宝坻供电分公司 一种基于安全域凹陷可视化的配电网缺陷定位方法及装置

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54131915A (en) 1978-04-03 1979-10-13 Matsushita Electric Ind Co Ltd Acoustic apparatus
US5790124A (en) 1995-11-20 1998-08-04 Silicon Graphics, Inc. System and method for allowing a performer to control and interact with an on-stage display device
AU5808099A (en) 1998-09-04 2000-03-27 Creative Artists Agency, Llc Remote virtual concert system and method
AU1523500A (en) 1998-11-12 2000-05-29 Chris Beekman Method and apparatus for mixing, archiving and delivering of sound and/or video generated at remote locations
JP2001169309A (ja) 1999-12-13 2001-06-22 Mega Chips Corp 情報記録装置および情報再生装置
JP4423790B2 (ja) * 2001-01-11 2010-03-03 ソニー株式会社 実演システム、ネットワークを介した実演方法
US20030236581A1 (en) * 2002-06-25 2003-12-25 Chambers Marc A. Method for recording live performances as two or more tracks
US20030235316A1 (en) * 2002-06-25 2003-12-25 Chambers Marc A. Method and apparatus for recording live performances
JP4391091B2 (ja) 2003-01-17 2009-12-24 ソニー株式会社 情報伝送方法、情報伝送装置、情報記録方法、情報記録装置、情報再生方法、情報再生装置および記録媒体
JP4513274B2 (ja) * 2003-04-24 2010-07-28 ソニー株式会社 電子情報配信システム、情報収録送出装置、情報編集配信装置及び情報処理方法
JP2006119320A (ja) * 2004-10-21 2006-05-11 Yamaha Corp 電子音楽装置システム、サーバ側電子音楽装置およびクライアント側電子音楽装置
JP2006287716A (ja) * 2005-04-01 2006-10-19 Tamura Seisakusho Co Ltd 音声調整装置
US20060251382A1 (en) 2005-05-09 2006-11-09 Microsoft Corporation System and method for automatic video editing using object recognition
US20070044137A1 (en) 2005-08-22 2007-02-22 Bennett James D Audio-video systems supporting merged audio streams
US7514620B2 (en) 2006-08-25 2009-04-07 Apple Inc. Method for shifting pitches of audio signals to a desired pitch relationship
US7665113B1 (en) * 2007-05-24 2010-02-16 TrueSentry, Inc. Rate adaptive video transmission and synchronization system
JP5200434B2 (ja) * 2007-07-06 2013-06-05 ヤマハ株式会社 音響設定支援装置
US9131016B2 (en) 2007-09-11 2015-09-08 Alan Jay Glueckman Method and apparatus for virtual auditorium usable for a conference call or remote live presentation with audience response thereto
KR101434200B1 (ko) 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
US8136133B2 (en) 2007-11-13 2012-03-13 Walker Digital, Llc Methods and systems for broadcasting modified live media
AU2009295348A1 (en) 2008-09-25 2010-04-01 Igruuv Pty Ltd Video and audio content system
US20100095829A1 (en) 2008-10-16 2010-04-22 Rehearsal Mix, Llc Rehearsal mix delivery
JP4952698B2 (ja) 2008-11-04 2012-06-13 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9141860B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US8098851B2 (en) * 2009-05-29 2012-01-17 Mathias Stieler Von Heydekampf User interface for network audio mixers
JP2013500544A (ja) 2009-07-24 2013-01-07 ディジマーク コーポレイション 改善された音声/映像の方法及びシステム
US8707381B2 (en) * 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
US9031243B2 (en) 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
US20110112913A1 (en) * 2009-11-12 2011-05-12 Ian Murray System and method for live music performance digital recording, distribution, and digital advertising
US9526156B2 (en) 2010-05-18 2016-12-20 Disney Enterprises, Inc. System and method for theatrical followspot control interface
JP5532518B2 (ja) * 2010-06-25 2014-06-25 ヤマハ株式会社 周波数特性制御装置
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
JP2012205050A (ja) * 2011-03-25 2012-10-22 Roland Corp マルチメディアデータ記録再生装置
EP3893521B1 (en) * 2011-07-01 2024-06-19 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
AU2012294568A1 (en) * 2011-08-05 2014-03-13 Fox Sports Productions, Inc. Selective capture and presentation of native image portions
JP5999408B2 (ja) * 2012-02-08 2016-09-28 ヤマハ株式会社 楽音信号制御システムおよびプログラム
US9495591B2 (en) 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
US8886526B2 (en) 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
GB2503867B (en) * 2012-05-08 2016-12-21 Landr Audio Inc Audio processing
US9659595B2 (en) * 2012-05-31 2017-05-23 Nokia Technologies Oy Video remixing system
EP2868112A4 (en) 2012-06-29 2016-06-29 Nokia Technologies Oy SYSTEM FOR VIDEO MIX
US9031262B2 (en) 2012-09-04 2015-05-12 Avid Technology, Inc. Distributed, self-scaling, network-based architecture for sound reinforcement, mixing, and monitoring
CA2891291A1 (en) 2012-11-12 2014-05-15 Moontunes, Inc. Systems and methods for communicating a live event to users using the internet
US20140161263A1 (en) * 2012-12-10 2014-06-12 Microsoft Corporation Facilitating recognition of real-time content
US9967305B2 (en) * 2013-06-28 2018-05-08 Divx, Llc Systems, methods, and media for streaming media content
US20150124171A1 (en) * 2013-11-05 2015-05-07 LiveStage°, Inc. Multiple vantage point viewing platform and user interface
US9361875B2 (en) 2013-11-22 2016-06-07 At&T Mobility Ii Llc Selective suppression of audio emitted from an audio source
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US9693137B1 (en) * 2014-11-17 2017-06-27 Audiohand Inc. Method for creating a customizable synchronized audio recording using audio signals from mobile recording devices
US10839309B2 (en) * 2015-06-04 2020-11-17 Accusonus, Inc. Data training in multi-sensor setups
US10001968B1 (en) * 2016-03-18 2018-06-19 Audio Fusion Systems, LLC Monitor mixing apparatus that presents each musician with summary control of both their contributed channels and the remaining channels, for rapid and accurate sound balance

Also Published As

Publication number Publication date
US20190215540A1 (en) 2019-07-11
EP3488439A1 (en) 2019-05-29
EP3488439A4 (en) 2020-02-26
EP3923269A1 (en) 2021-12-15
EP3488439B1 (en) 2021-08-11
US11363314B2 (en) 2022-06-14
JP2019525571A (ja) 2019-09-05
JP2023052537A (ja) 2023-04-11
CN109478400A (zh) 2019-03-15
US10944999B2 (en) 2021-03-09
US11749243B2 (en) 2023-09-05
EP3923269B1 (en) 2023-11-08
JP7404067B2 (ja) 2023-12-25
US20210204003A1 (en) 2021-07-01
CN109478400B (zh) 2023-07-07
US20220303593A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
CN109478400B (zh) 现场音乐表演的多媒体内容的基于网络的处理及分布
US10645518B2 (en) Distributed audio capture and mixing
JP6046307B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6573870B2 (ja) オーディオ分類および処理のための装置および方法
JP6053984B2 (ja) 等化器コントローラおよび制御方法
US9918174B2 (en) Wireless exchange of data between devices in live events
WO2018017878A1 (en) Network-based processing and distribution of multimedia content of a live musical performance
CN109313907A (zh) 合并音频信号与空间元数据
Miron et al. Score‐Informed Source Separation for Multichannel Orchestral Recordings
US20160155455A1 (en) A shared audio scene apparatus
US10728688B2 (en) Adaptive audio construction
JP7453712B2 (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
US20140039891A1 (en) Automatic separation of audio data
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
CN114598917B (zh) 显示设备及音频处理方法
CN113766307A (zh) 用于音轨分析以支持音频个性化的技术
JPWO2020066681A1 (ja) 情報処理装置および方法、並びにプログラム
WO2022230450A1 (ja) 情報処理装置、情報処理方法、情報処理システムおよびプログラム
US20230135778A1 (en) Systems and methods for generating a mixed audio file in a digital audio workstation
EQUIPMENT AES 140TH CONVENTION PROGRAM
JP2013134339A (ja) 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination