DE112018001871T5 - Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung - Google Patents

Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung Download PDF

Info

Publication number
DE112018001871T5
DE112018001871T5 DE112018001871.7T DE112018001871T DE112018001871T5 DE 112018001871 T5 DE112018001871 T5 DE 112018001871T5 DE 112018001871 T DE112018001871 T DE 112018001871T DE 112018001871 T5 DE112018001871 T5 DE 112018001871T5
Authority
DE
Germany
Prior art keywords
audio
vocal
procedure according
musician
guest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018001871.7T
Other languages
English (en)
Inventor
Anton Holmberg
Benjamin Hersh
Jeannie Yang
Perry R. Cook
Jeffry C. Smith
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smule Inc
Original Assignee
Smule Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smule Inc filed Critical Smule Inc
Publication of DE112018001871T5 publication Critical patent/DE112018001871T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1108Web based protocols, e.g. webRTC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/611Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for multicast or broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43079Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on multiple devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/175Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments for jam sessions or musical collaboration through a network, e.g. for composition, ensemble playing or repeating; Compensation of network or internet delays therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities

Abstract

[1051] Es sind Techniken zum Ermöglichen des Livestreamings von audiovisuellen Gruppendarbietungen entwickelt worden. Audiovisuelle Darbietungen einschließlich Gesangsmusik werden aufgenommen und mit Darbietungen anderer Benutzer auf Weisen koordiniert, die fesselnde Benutzer- und Zuhörererlebnisse erzeugen können. Bei manchen Fällen oder Ausführungsformen können zum Beispiel Duette mit einem Gastgebermusiker in einem Sing-mit-dem-Künstler-artigen audiovisuellen Livestream unterstützt werden, in dem aufstrebende Sänger spezielle Lieder für ein Live-Radioshow-Entertainmentformat anfordern oder in eine Warteschlange einreihen. Die entwickelten Techniken stellen einen kommunikationslatenztoleranten Mechanismus zum Synchronisieren von Gesangsdarbietungen bereit, die an geografisch getrennten Vorrichtungen (z. B. an global verteilten, aber netzwerkverbundenen Mobiltelefonen oder Tablets oder an audiovisuellen Aufnahmevorrichtungen, die von einem Live-Studio geografisch getrennt sind) aufgenommen werden.

Description

  • Technisches Gebiet
  • Die Erfindung betrifft allgemein die Aufnahme, die Verarbeitung und/oder das Aussenden von audiovisuellen Darbietungen mehrerer Musiker und insbesondere Techniken, die sich zum Verwalten einer Übertragungslatenz für audiovisuellen Inhalt eignen, der im Zusammenhang einer audiovisuellen Fast-Echtzeit-Kollaboration mehrerer geografisch verteilter Musiker aufgenommen wird.
  • Stand der Technik
  • Die installierte Basis von Mobiltelefonen, persönlichen Medienplayern und tragbaren Rechenvorrichtungen zusammen mit Medien-Streamers und Fernseh-Set-Top-Boxen wächst jeden Tag in der bloßen Anzahl und Rechenleistung an. Viele dieser Vorrichtungen überschreiten kulturelle und ökonomische Barrieren, da sie weltweit allgegenwärtig in den Lebensweisen der Menschen tief verwurzelt sind. Rechnerisch bieten diese Rechenvorrichtungen Geschwindigkeit und Speicherfähigkeiten an, die mit einer Engineering-Workstation oder Arbeitsgruppencomputern von vor weniger als zehn Jahren vergleichbar sind, und beinhalten typischerweise leistungsstarke Medienprozessoren, die sie für Echtzeit-Klangsynthese und andere Musikanwendungen geeignet machen. Zum Teil aus diesen Gründen unterstützen manche tragbaren handgehaltenen Vorrichtungen, wie etwa iPhone®, iPad®, iPod Touch® und andere iOS®- oder Android-Vorrichtungen, sowie Medienanwendungsplattformen und Set-Top-Box(STB)-artige Vorrichtungen, wie etwa AppleTV®-Vorrichtungen, Audio- und Videoverarbeitung recht kompetent, während sie zur gleichen Zeit Plattformen bereitstellen, die sich für fortgeschrittene Benutzeroberflächen eignen. Tatsächlich haben Anwendungen wie etwa die Smule Ocarina™-, Leaf Trombone®-, I Am T-Pain™-, AutoRap®-, Sing! Karaoke™-, Guitar! By Smule®- und Magic Piano®-Apps, die von Smule, Inc. verfügbar sind, gezeigt, dass fortgeschrittene digitale Akustiktechniken unter Verwendung derartiger Vorrichtungen auf eine Weise geliefert werden können, die fesselnde Musikerlebnisse bereitstellt.
  • Sing! Karaoke™-Implementierungen haben zuvor eine Ansammlung von Gesangsdarbietungen demonstriert, die auf einer Nichtechtzeit-Basis bezüglich zueinander unter Verwendung von geografisch verteilten handgehaltenen Vorrichtungen aufgenommen werden, sowie Implementierungen, bei denen eine enger gekoppelte Koordination zwischen tragbaren handgehaltenen Vorrichtungen und einer lokalen Medienanwendungsplattform (z. B. raumintern) unterstützt wird, typischerweise mit Kurzstrecken-Kommunikationen mit vernachlässigbarer Latenz auf demselben lokalen oder persönlichen Netzwerksegment. Verbesserte Techniken und Funktionsfähigkeiten sind gewünscht, um ein inniges Gefühl von „jetzt“ oder „Lebhaftigkeit“ zu kollaborativen Gesangsdarbietungen zu erweitern, bei denen die Musiker um wesentlichere geografische Abstände , und ungeachtet von nicht vernachlässigbaren Kommunikationslatenzen zwischen Vorrichtungen voneinander getrennt sind.
  • Während Forscher versuchen, ihre Neuerungen in kommerzielle Anwendungen umzuwandeln, die in modernen handgehaltenen Vorrichtungen und Medienanwendungsplattformen in den Einschränkungen der realen Welt, die durch den Prozessor, Speicher und andere beschränkte Rechenressourcen davon auferlegt werden, und/oder mit für drahtlose und großflächige Netze typischen Kommunikationsbandbreiten- und Übertragungslatenzeinschränkungen, einsetzbar sind, bestehen erhebliche praktische Herausforderungen. Während zum Beispiel Anwendungen wie etwa Sing! Karaoke die Aussicht von audiovisuellen Mixes nach der Darbietung demonstriert haben, um Gesangsduette oder kollaborative Gesangsdarbietungen größerer Anzahlen von Musikern zu simulieren, hat sich das Erzeugen eines Gefühls von Jetzt- und Live-Kollaborationen ohne eine physische Kolokation als schwer fassbar herausgestellt.
  • Verbesserte Techniken und Funktionsfähigkeiten sind gewünscht, insbesondere bezüglich der Verwaltung von Kommunikationslatenzen und des aufgenommenen audiovisuellen Inhalts auf eine derartige Weise, dass eine kombinierte audiovisuelle Darbietung nichtsdestotrotz auf eine Art und Weise ausgestrahlt (z. B. übertragen) werden kann, die Empfängern, Zuhörern und/oder Zuschauern als eine interaktive Live-Kollaboration von geografisch verteilten Musikern dargeboten wird. Zuhörerschaftsbeteiligungs- und -teilnahmegebilde, die ein inniges Gefühl von „jetzt“ und „Lebhaftigkeit“ liefern, sind auch gewünscht.
  • Offenbarung der Erfindung(en)
  • Es ist entdeckt worden, dass audiovisuelle Darbietungen einschließlich Gesangsmusik trotz praktischer Beschränkungen, die durch mobile Vorrichtungsplattformen und Medienanwendungsausführungsumgebungen auferlegt werden, aufgenommen und mit jenen anderer Benutzer auf Weisen koordiniert werden können, die fesselnde Benutzer- und Zuhörererlebnisse erzeugen. In manchen Fällen werden die Gesangsdarbietungen von kollaborierenden Mitwirkenden (zusammen mit darbietungssynchronisiertem Video) im Zusammenhang einer karaokeartigen Präsentation eines Liedtexts und entsprechend einer hörbaren Wiedergabe eines Backing-Tracks aufgenommen. In manchen Fällen wird Gesang (und typischerweise synchronisiertes Video) als Teil einer Live- oder improvisierten Darbietung mit Gesangsinteraktionen (z. B. Duett oder Dialog) zwischen kollaborierenden Mitwirkenden aufgenommen. In jedem Fall wird in Betracht gezogen, dass nicht vernachlässigbare Netzwerkkommunikationslatenzen zwischen zumindest manchen der kollaborierenden Mitwirkenden vorhanden sein werden, insbesondere, wenn diese Mitwirkenden geografisch getrennt sind. Infolgedessen besteht eine technische Herausforderung, Latenzen und den aufgenommenen audiovisuellen Inhalt auf eine derartige Weise zu verwalten, dass eine kombinierte audiovisuelle Darbietung nichtsdestotrotz auf eine Art und Weise ausgestrahlt (z. B. übertragen) werden kann, die Empfängern, Zuhörern und/oder Zuschauern als eine interaktive Live-Kollaboration dargeboten wird.
  • Bei einer Technik zum Erzielen dieser Reproduktion einer interaktiven Live-Darbietungskollaboration wird eine tatsächliche und nicht vernachlässigbare Netzwerkkommunikationslatenz (im Endeffekt) in eine Richtung zwischen einem Gast- und einem Gastgeber-Musiker maskiert und in die andere Richtung toleriert. Eine aufgenommene audiovisuelle Darbietung eines Gastmusikers bei einer „Live Show“-Internetübertragung eines Gastgebermusikers könnte zum Beispiel ein Duett von Gast + Gastgeber beinhalten, das in anscheinender Echtzeit-Synchronie gesungen wird. In manchen Fällen könnte der Gast ein Musiker sein, der eine spezielle Musikdarbietung popularisiert hat. In manchen Fällen könnte der Gast ein Amateursänger sein, dem die Möglichkeit gegeben wurde, „live“ (wenngleich entfernt) mit dem beliebten Künstler oder der beliebten Gruppe „im Studio“ als der (oder mit dem) Gastgeber der Show zu singen. Ungeachtet einer nicht vernachlässigbaren Netzwerkkommunikationslatenz vom Gast zum Gastgeber, die bei der Übermittlung des audiovisuellen Beitrags-Streams des Gastes vorhanden ist (vielleicht 200-500 ms oder mehr), bietet der Gastgeber in scheinbarer Synchronie (obwohl im absoluten Sinn zeitlich verzögert) mit dem Gast dar und der scheinbar synchron dargebotene Gesang wird aufgenommen und mit dem Beitrag des Gastes gemischt, um übertragen oder ausgestrahlt zu werden.
  • Das Ergebnis ist eine scheinbar interaktive Live-Darbietung (zumindest aus der Perspektive des Gastgebers und der Empfänger, Zuhörer und/oder Zuschauer der ausgestrahlten oder übertragenen Darbietung). Obwohl die nicht vernachlässigbare Netzwerkkommunikationslatenz vom Gast zum Gastgeber maskiert ist, versteht sich, dass eine Latenz vorhanden ist und in die Gastgeber-zu-Gast-Richtung toleriert wird. Obwohl die Gastgeber-zu-Gast-Latenz für den Gast wahrnehmbar (und vielleicht recht bemerkbar) ist, muss sie nicht= in der scheinbaren Live-Aussendung oder einer anderen Ausstrahlung erkennbar sein. Es wurde entdeckt, dass eine verzögerte hörbare Wiedergabe eines Gastgeber-Gesangs (oder allgemeiner der aufgenommenen audiovisuellen Darbietung des Gastgebers) die Darbietung des Gastes nicht psychoakustisch beeinträchtigen muss.
  • Ein darbietungssynchronisiertes Video kann aufgenommen und in einer kombinierten audiovisuellen Darbietung kombiniert werden, die die scheinbare Live-Aussendung bildet, wohingegen Bildmaterial zumindest teilweise auf zeitlich variierenden, rechnerisch definierten Audiomerkmalen basieren kann, die aus aufgenommenem Gesangsaudio extrahiert (oder darüber berechnet) werden. In manchen Fällen oder Ausführungsformen sind diese rechnerisch definierten Audiomerkmale über den Verlauf eines koordinierten audiovisuellen Mixes für ein spezielles synchronisiertes Video eines oder mehrerer der beitragenden Sänger (oder deren Prominenz) auswählbar.
  • Optional und in manchen Fällen oder Ausführungsformen kann Gesangsaudio in Echtzeit an der Vorrichtung des Gastmusikers (oder allgemeiner an einer tragbaren Rechenvorrichtung, wie etwa einem Mobiltelefon, einem Personal Digital Assistant, einem Laptop-Computer, einem Notebook-Computer, einem Pad-artigen Computer oder einem Netbook, oder auf einem Inhalts- oder Medienanwendungsserver) gemäß Tonhöhenkorrektureinstellungen tonhöhenkorrigiert werden. In manchen Fällen codieren die Tonhöhenkorrektureinstellungen eine spezielle Tonart oder Tonleiter für die Gesangsdarbietung oder Teile davon. In manchen Fällen beinhalten die Tonhöhenkorrektureinstellungen eine partiturcodierte Melodie und/oder Harmoniefolge, die mit dem Liedtext und Backing-Tracks geliefert wird, oder die mit diesen assoziiert werden soll. Harmonienoten oder Akkorde können als explizite Ziele oder relativ zu der partiturcodierten Melodie oder selbst zu tatsächlichen Tonhöhen, die durch einen Sänger gesungen werden, codiert werden, falls gewünscht.
  • Durch das Verwenden von hochgeladenem Gesang, der bei Gastmusikervorrichtungen, wie etwa den zuvor genannten tragbaren Rechenvorrichtungen, aufgenommen wird, kann ein Inhaltsserver oder Dienst für den Gastgeber koordinierte Darbietungen ferner vermitteln, indem der hochgeladene audiovisuelle Inhalt mehrerer beitragender Sänger für eine weitere Aussendung oder eine andere Ausstrahlung manipuliert und gemischt wird. In Abhängigkeit von den Zielen und der Implementierung eines speziellen Systems können die Uploads zusätzlich zu dem Videoinhalt tonhöhenkorrigierte Gesangsdarbietungen (mit oder ohne Harmonien), trockenen (d. h. unkorrigierten) Gesang und/oder Kontroll-Tracks von Benutzertonart- und/oder -tonhöhenkorrekturauswahlen usw. beinhalten.
  • Synthetisierte Harmonien und/oder zusätzlicher Gesang (z. B. Gesang, der von einem anderen Sänger an noch einem anderen Ort aufgenommen wird und optional tonhöhenverschoben wird, um mit anderem Gesang harmonisiert zu werden) können auch im Mix enthalten sein. Ein Geocodieren von aufgenommenen Gesangsdarbietungen (oder individueller Beiträge zu einer kombinierten Darbietung) und/oder Zuhörerfeedback kann Animationen oder Anzeigeartefakte auf Weisen ermöglichen, die eine Darbietung oder Befürwortung suggerieren, die aus einem speziellen geografischen Ort auf einer benutzermanipulierbaren Weltkugel hervorgeht. Auf diese Weise können Implementierungen der beschriebenen Funktionalität ansonsten alltägliche mobile Vorrichtungen und Wohnzimmer- oder Entertainmentsysteme in soziale Instrumente transformieren, die ein einzigartiges Gefühl von globaler Konnektivität, Kollaboration und Gemeinschaft fördern.
  • Bei manchen Ausführungsformen gemäß der vorliegenden Erfindung(en) ist ein Audiokollaborationsverfahren zum Aussenden einer gemeinsamen Darbietung von geografisch verteilten Musikern mit nicht vernachlässigbarer Peer-zu-Peer-Kommunikationslatenz zwischen Gastgeber- und Gastvorrichtungen bereitgestellt. Das Verfahren beinhaltet (1) Empfangen an der Gastgebervorrichtung, die als ein lokaler Peer arbeitet, einer Mediencodierung einer gemischten Audiodarbietung, die (i) Gesangsaudio beinhaltet, das an der Gastvorrichtung, die kommunikativ als ein entfernter Peer gekoppelt ist, von einem ersten der Musiker aufgenommen wird, und (ii) mit einem Backing-Audio-Track gemischt wird; (2) an der Gastgebervorrichtung, hörbares Wiedergeben der empfangenen gemischten Audiodarbietung und demgegenüber Aufnehmen von Gesangsaudio von einem zweiten der Musiker; und (3) Mischen des aufgenommenen Gesangsaudios des zweiten Musikers mit der empfangenen gemischten Audiodarbietung zur Übertragung zu einer Zuhörerschaft als die Aussendung, wobei der Aussendungsmix Gesangsaudio des ersten und zweiten Musikers und den Backing-Audio-Track mit einer vernachlässigbaren zeitlichen Verzögerung dazwischen beinhaltet.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Übertragen des Aussendungsmixes als einen Livestream über ein großflächiges Netzwerk zu mehreren Empfängern, wobei die mehreren Empfänger die Zuhörerschaft bilden. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner ein selektives Anschließen, an der Gastgebervorrichtung, des zweiten Musikers dem ersten Musiker bei der gemeinsamen Darbietung. Bei manchen Fällen oder Ausführungsformen wird der beigetretene erste Musiker aus der Zuhörerschaft ausgewählt und wird zumindest für die Dauer der gemeinsamen Darbietung von der Livestream-Übertragung der Aussendung zu der Zuhörerschaft entkoppelt. In manchen Fällen oder Ausführungsformen ist die übertragene Livestream-Aussendung zu der Zuhörerschaft um zumindest mehrere Sekunden bezüglich der Gesangsaudioaufnahme des ersten Musikers zeitlich verzögert.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Zurückgeben des ersten Musikers zu der Zuhörerschaft und gleichzeitiges Wiedereinkoppeln zu der Livestream-Übertragung. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner selektives Anschließen eines dritten Musikers als einen neuen entfernten Peer und danach (1) Empfangen, an der Gastgebervorrichtung, einer zweiten Mediencodierung, die (i) Gesangsaudio beinhaltet, das von dem dritten Musiker an einer neuen Gastvorrichtung, die kommunikativ als der neue entfernte Peer gekoppelt ist, aufgenommen wird, und (ii) mit einem zweiten Backing-Audio-Track gemischt wird; (2) an der Gastgebervorrichtung, hörbares Wiedergeben der zweiten Mediencodierung und demgegenüber Aufnehmen von zusätzlichem Gesangsaudio vom zweiten Musiker; und (3) Mischen des aufgenommenen zusätzlichen Gesangsaudios mit der empfangenen zweiten Mediencodierung zur Übertragung zu der Zuhörerschaft als eine Fortsetzung der Aussendung, wobei der Aussendungsmix Gesangsaudio des zweiten und dritten Musikers und den zweiten Backing-Audio-Track mit einer vernachlässigbaren zeitlichen Verzögerung dazwischen beinhaltet.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Liefern des aufgenommenen Gesangsaudios des zweiten Musikers zu dem entfernten Gastvorrichtung-Peer zur hörbaren Wiedergabe an der Gastvorrichtung mit zumindest mancher gastseitigen zeitlichen Verzögerung bezüglich der Aufnahme von Gesangsaudio vom ersten Musiker. Bei manchen Fällen oder Ausführungsformen beträgt die ersichtliche gastseitige zeitliche Verzögerung mindestens etwa 40-1200 ms.
  • Bei manchen Fällen oder Ausführungsformen ist im Wesentlichen die gesamte nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz in der gastseitigen zeitlichen Verzögerung ersichtlich. Bei manchen Fällen oder Ausführungsformen ist im Wesentlichen keine der nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz an der Gastgebervorrichtung oder im Aussendungsmix eines ersten und zweiten Musikers ersichtlich. Bei manchen Fällen oder Ausführungsformen beinhaltet die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz ein Eingangssignal zum Senden von Verzögerung, Netzwerkverzögerung, Jitter-Pufferverzögerung und Puffer-und-Ausgabe-Verzögerung. Die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz kann variieren und kann in manchen Fällen psychoakustisch maßgeblich sein. Bei manchen Fällen oder Ausführungsformen beträgt die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz mindestens etwa 30-100 ms. Bei manchen Fällen oder Ausführungsformen beträgt die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz mindestens etwa 100-250 ms. Bei manchen Fällen oder Ausführungsformen beträgt die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz etwa 100-600 ms.
  • Bei manchen Fällen oder Ausführungsformen finden der Empfang an der Gastgebervorrichtung der gemischten Audiodarbietung und die Lieferung des aufgenommenen Gesangsaudios des zweiten Musikers zu der Gastvorrichtung über eine audiovisuelle Peer-zu-Peer-Verbindung unter Verwendung eines WebRTC-artigen Frameworks (WebRTC: Web Real-Time Communications - Web-Echtzeit-Kommunikationen) statt. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Liefern des Aussendungsmixes von Gesangsaudio des ersten und zweiten Musikers über ein großflächiges Netzwerk. Bei manchen Fällen oder Ausführungsformen findet das Liefern des Aussendungsmixes über ein RTMP-artiges audiovisuelles Streaming-Protokoll (RTMP: Real-Time Messaging Protocol - Echtzeit-Messaging-Protokoll) statt. Bei manchen Fällen oder Ausführungsformen bildet zumindest die Gastvorrichtung ein mobiles handgehaltenes Telefon oder einen Medienplayer.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Tonhöhenkorrigieren von Gesang eines zweiten Musikers an der Gastgebervorrichtung gemäß einer Gesangspartitur, die eine Folge von Noten für eine Gesangsmelodie codiert. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Tonhöhenkorrigieren, an der Gastgebervorrichtung, von Gesang des zweiten Musikers gemäß einer Gesangspartitur, die zumindest einen ersten Satz von Harmonienoten für zumindest manche Teile der Gesangsmelodie codiert.
  • Bei manchen Fällen oder Ausführungsformen ist der in der empfangenen gemischten Darbietung enthaltene Gesang des ersten Musikers ein tonhöhenkorrigierter Gesang. Bei manchen Fällen oder Ausführungsformen wird der Gesang entweder des ersten oder zweiten Musikers gemäß einer Gesangspartitur, die eine Folge von Noten für eine Gesangsmelodie codiert, tonhöhenkorrigiert und der Gesang des anderen des ersten und zweiten Musikers wird gemäß einer Gesangspartitur, die zumindest einen ersten Satz von Harmonienoten für zumindest manche Teile der Gesangsmelodie codiert, tonhöhenkorrigiert.
  • Bei manchen Fällen oder Ausführungsformen wird der Gesang des ersten und/oder zweiten Musikers vor dem Einschluss in die Aussendung rechnerisch verarbeitet, um einen oder mehrere Audioeffekte anzuwenden. Bei manchen Fällen oder Ausführungsformen beinhalten die angewendeten Audioeffekte einen Nachhalleffekt und/oder eine digitale Filterung und/oder eine spektrale Entzerrung und/oder eine nichtlineare Verzerrung und/oder eine Audiokomprimierung und/oder eine Tonhöhenkorrektur oder Tonhöhenverschiebung und/oder eine kanalrelative Verstärkung und/oder Phasenverzögerung, um eine ersichtliche Platzierung des ersten oder zweiten Musikers in einem Stereofeld zu manipulieren.
  • Bei manchen Fällen oder Ausführungsformen beinhaltet die empfangene Mediencodierung Video, das mit dem aufgenommenen Gesang des ersten Musikers darbietungssynchronisiert ist, wobei das Verfahren ferner Aufnehmen, an der Gastgebervorrichtung, von Video beinhaltet, das mit dem aufgenommenen Gesang des zweiten Musikers darbietungssynchronisiert ist, und der Aussendungsmix ein audiovisueller Mix des aufgenommenen Audios und Videos von zumindest dem ersten und zweiten Musiker ist.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner dynamisches Variieren, im Aussendungsmix, zumindest einer visuellen Prominenz entweder des ersten oder zweiten Musikers basierend auf einer Evaluierung eines rechnerisch definierten Audiomerkmal des Gesangs des ersten und/oder zweiten Musikers. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Anwenden eines oder mehrerer Videoeffekte am Aussendungsmix zumindest teilweise basierend auf einem rechnerisch definierten Audio- oder Videomerkmal des Audios oder Videos des ersten und/oder zweiten Musikers.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Empfangen, an der Gastgebervorrichtung, von Chat-Nachrichten von Mitgliedern der Zuhörerschaft. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Einbeziehen von zumindest manchem Inhalt der Chat-Nachrichten als Teil des Videos des Aussendungsmixes. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Empfangen, an der Gastgebervorrichtung, von Chat-Nachrichten und/oder Emojis und/oder animierten GIFs und/oder Abstimmungsindikationen von Mitgliedern der Zuhörerschaft. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Einbeziehen einer visuellen Präsentation von zumindest manchen des empfangenen Chat-Nachrichteninhalts, der Emojis, der animierten GIFs oder der Abstimmungsindikationen als Teil des Aussendungsmixes.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Einreihen von Playlist-Anfragen von einem oder mehreren Empfängern des Aussendungsmixes in eine Warteschlange. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner, als Reaktion auf eine Auswahl durch den zweiten Musiker an der Gastgebervorrichtung einer speziellen der Playlist-Anfragen in der Warteschlange, Abrufen des Backing-Audio-Tracks und/oder eines Liedtexts und/oder von partiturcodierten Notenzielen aus einem Inhaltsrepositorium. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner, als Reaktion auf eine Auswahl durch den zweiten Musiker an der Gastgebervorrichtung einer speziellen der Playlist-Anfragen in der Warteschlange, Beliefern der kommunikativ gekoppelten Gastvorrichtung mit dem Backing-Audio-Track und/oder dem Liedtext und/oder von partiturcodierten Notenzielen nach Bedarf.
  • Bei manchen Fällen oder Ausführungsformen wird der Aussendungsmix als ein Gesangsduett präsentiert. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Empfangen, an der Gastgebervorrichtung, einer Mediencodierung von mindestens einer anderen gemischten Audiodarbietung, die (i) Gesangsaudio bildet, das an einer anderen Gastvorrichtung, die kommunikativ als ein anderer entfernter Peer gekoppelt ist, von einem dritten Musiker aufgenommen wird, und (ii) zeitlich mit dem Backing-Audio-Track ausgerichtet oder ausrichtbar ist. Bei manchen Fällen oder Ausführungsformen beinhaltet das Audio des Livestreams sowohl gesprächsartige Audioteile, die entsprechend einem interaktiven Gespräch zwischen dem ersten und zweiten Musiker aufgenommen werden, als auch Gesangsdarbietungsaudioteile, die entsprechend einer musikalischen Gesangsdarbietung des ersten und/oder zweiten Musikers gegenüber dem Backing-Audio-Track aufgenommen werden.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen eines Highlights-Clips-Satzes von Segmenten aus dem Livestream, wobei der Highlights-Clips-Satz von Segmenten allgemein die musikalischen Gesangsdarbietungsteile beinhaltet und allgemein die gesprächsartigen Audioteile ausschließt. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen eines Higlight-Clips-Satzes von Segmenten aus dem Livestream basierend auf Zuhörerschaftsreaktionen auf den Livestream und/oder der Liedstruktur und/oder der Audioleistung. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen eines Highlight-Clips-Satzes von Segmenten basierend auf einer Korrespondenz spezieller Audioteile des Livestreams mit Vers-, Refrain- oder Musikabschnittsabgrenzungen, entweder partiturcodiert oder rechnerisch durch Audiomerkmalsanalyse bestimmt. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner, als Reaktion auf eine Auswahl durch einen Benutzer, Abspeichern oder Sharing einer audiovisuellen Codierung eines oder mehrerer der Highlight-Clips.
  • Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Empfangen, von der Gastvorrichtung, einer oder mehrerer Liedtextsynchronisationsmarkierungen. Die Liedtextsynchronisationsmarkierungen übermitteln der Gastgebervorrichtung eine zeitliche Ausrichtung eines Liedtexts, der an der Gastvorrichtung mit dem Gesangsaudio, das an der Gastvorrichtung aufgenommen wird, visuell präsentiert wird. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner visuelles Präsentieren des Liedtexts an der Gastgebervorrichtung, wobei die visuelle Präsentation des Liedtexts zeitlich mit der Mediencodierung der gemischten Audiodarbietung, die von der Gastvorrichtung empfangen wird, basierend auf der bzw. den empfangenen einen oder mehreren Liedtextsynchronisationsmarkierungen ausgerichtet ist. Bei manchen Fällen oder Ausführungsformen koordinieren die eine oder die mehreren empfangenen Liedtextsynchronisationsmarkierungen den Verlauf des Liedtexts, der auf der Gastgebervorrichtung präsentiert wird, mit einer Pause oder anderen zeitlichen Steuerung an der Gastvorrichtung.
  • Bei manchen Ausführungsformen gemäß der vorliegenden Erfindung(en) beinhaltet ein System zur Ausstrahlung einer scheinbaren Live-Aussendung einer gemeinsamen Darbietung eines geografisch verteilten ersten und zweiten Musikers Gastgeber- und Gastvorrichtungen. Die Gastgeber- und Gastvorrichtungen sind als lokale und entfernte Peers durch ein Kommunikationsnetzwerk mit einer nicht vernachlässigbaren Peer-zu-Peer-Latenz für Übertragungen von audiovisuellem Inhalt gekoppelt. Die Gastgebervorrichtung ist kommunikativ als der lokale Peer gekoppelt, um eine Mediencodierung einer gemischten Audiodarbietung, die an der Gastvorrichtung aufgenommenes Gesangsaudio bildet, zu empfangen, und die Gastvorrichtung ist kommunikativ als der entfernte Peer gekoppelt, um die Mediencodierung zu liefern, die von einem ersten der Musiker aufgenommen und mit einem Backing-Audio-Track gemischt wird. Die Gastgebervorrichtung ist dazu ausgelegt, die empfangene gemischte Audiodarbietung hörbar wiederzugeben, demgegenüber ein Gesangsaudio von einem zweiten der Musiker aufzunehmen, und das aufgenommene Gesangsaudio des zweiten Musikers mit der empfangenen gemischten Audiodarbietung zur Übertragung als die scheinbare Live-Aussendung zu mischen.
  • Bei manchen Ausführungsformen gemäß der vorliegenden Erfindung(en) beinhaltet ein Audiokollaborationsverfahren für eine Livestream-Aussendung einer koordinierten audiovisuellen Arbeit eines ersten und zweiten Musikers, die an jeweiligen geografisch verteilten ersten und zweiten Vorrichtungen aufgenommen wird, Folgendes: (a) Empfangen, an der zweiten Vorrichtung, einer Mediencodierung einer gemischten Audiodarbietung, die (i) Gesangsaudio beinhaltet, das an der ersten Vorrichtung von einem ersten der Musiker aufgenommen wird, und (ii) mit einem Backing-Audio-Track gemischt wird; (b) an der zweiten Vorrichtung, hörbares Wiedergeben der empfangenen gemischten Audiodarbietung und demgegenüber Aufnehmen von Gesangsaudio von einem zweiten der Musiker; (c) Mischen des aufgenommenen Gesangsaudios des zweiten Musikers mit der empfangenen gemischten Audiodarbietung, um einen Aussendungsmix bereitzustellen, der das aufgenommene Gesangsaudio des ersten und zweiten Musikers und den Backing-Audio-Track ohne eine ersichtliche zeitliche Verzögerung dazwischen beinhaltet; und (d) Liefern des Aussendungsmixes zu einer Dienstplattform, die dazu ausgelegt ist, den Aussendungsmix per Livestream zu mehreren Empfangsvorrichtungen, die eine Zuhörerschaft bilden, zu übertragen.
  • Bei manchen Fällen oder Ausführungsformen ist die erste Vorrichtung mit der zweiten Vorrichtung als ein aktueller Livestream-Gast assoziiert und die zweite Vorrichtung fungiert als ein aktueller Livestream-Gastgeber. Der aktuelle Livestream-Gastgeber steuert die Assoziation und Trennung spezieller Vorrichtungen von der Zuhörerschaft als der aktuelle Livestream-Gast. Bei manchen Fällen oder Ausführungsformen wählt der aktuelle Livestream-Gastgeber aus einer Warteschlange von Anfragen von der Zuhörerschaft für eine Assoziation als der aktuelle Livestream-Gast aus.
  • Bei manchen Fällen oder Ausführungsformen arbeitet die erste Vorrichtung in einer Livestream-Gast-Funktion und die zweite Vorrichtung arbeitet in einer Livestream-Gastgeber-Funktion. Das Verfahren beinhaltet ferner entweder eines oder beides des Folgenden: die zweite Vorrichtung gibt die Livestream-Gastgeber-Funktion zur Annahme durch eine andere Vorrichtung frei; und die zweite Vorrichtung gibt die Livestream-Gastgeber-Funktion zu einer speziellen Vorrichtung weiter, die aus einem Satz, der die erste Vorrichtung und die Zuhörerschaft umfasst, ausgewählt wird.
  • Figurenliste
  • Die vorliegende(n) Erfindung(en) sind mittels Beispielen und ohne Beschränkung unter Bezugnahme auf die begleitenden Figuren veranschaulicht, in denen gleiche Bezüge allgemein ähnliche Elemente oder Merkmale angeben.
    • 1 bildet Informationsflüsse zwischen veranschaulichenden mobiltelefonartigen tragbaren Rechenvorrichtungen in einer Gastgeber-und-Gast-Konfiguration zum Livestreaming einer duettartigen audiovisuellen Gruppendarbietung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) ab.
    • 2 ist ein Flussdiagramm, das den Fluss von Audiosignalen abbildet, die an jeweiligen Gast- und Gastgebervorrichtungen aufgenommen und verarbeitet werden, die in einer „Gastgeber-Sync“-Peer-zu-Peer-Konfiguration zur Erzeugung eines audiovisuellen Gruppendarbietungs-Livestreams gekoppelt sind, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en).
    • 3 ist ein Flussdiagramm, das den Fluss von Audiosignalen abbildet, die an jeweiligen Gast- und Gastgebervorrichtungen aufgenommen und verarbeitet werden, die in einer „Geteilte-Latenz“-Peer-zu-Peer-Konfiguration zur Erzeugung eines audiovisuellen Gruppendarbietungs-Livestreams gekoppelt sind, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en).
    • 4 ist ein Flussdiagramm, das für eine audiovisuelle Darbietung, die an einer Gast- oder Gastgebervorrichtung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) aufgenommen wird, optionale Echtzeit-Signalflüsse für kontinuierliche Tonhöhenkorrektur und Harmonieerzeugung veranschaulicht, die basierend auf partiturcodierten Tonhöhenkorrektureinstellungen durchgeführt werden können.
    • 5 ist ein Funktionsblockdiagramm von Hardware- und Softwarekomponenten, die an einer veranschaulichenden mobiltelefonartigen tragbaren Rechenvorrichtung ausführbar sind, um eine Verarbeitung und Kommunikation einer aufgenommenen audiovisuellen Darbietung zur Verwendung in einer Livestreaming-Konfiguration mit mehreren Sängern von netzwerkverbundenen Vorrichtungen gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) zu ermöglichen.
    • 6 veranschaulicht Merkmale einer mobilen Vorrichtung, die als eine Plattform zur Ausführung von Softwareimplementierungen zumindest mancher Audiovisuelle-Darbietungsaufnahme- und/oder Livestream-Darbietungsvorrichtungen dienen kann, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en).
    • 7 ist ein Netzwerkdiagramm, das eine Kooperation beispielhafter Vorrichtungen gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) veranschaulicht.
  • Fachleute werden erkennen, dass Elemente oder Merkmale in den Figuren zur Vereinfachung und Verdeutlichung veranschaulicht sind und nicht notwendigerweise maßstabsgetreu gezeichnet wurden. Die Abmessungen oder Prominenz von manchen der veranschaulichten Elemente oder Merkmale können zum Beispiel bezüglich anderen Elementen oder Merkmalen übertrieben sein, in dem Bestreben, die Verbesserung des Verständnisses von Ausführungsformen der vorliegenden Erfindung zu unterstützen. Gleichermaßen wird eine Vielzahl von Daten- und Steuerflüssen (einschließlich konstituierender Signale oder Codierungen) als konsistent mit den Beschreibungen ungeachtet einer Veranschaulichung in den Zeichnungen als ein einzelner Fluss zur Vereinfachung oder Vermeidung von Komplexität, die ansonsten die Beschreibung der erfindungsgemäßen Konzepte verundeutlichen könnten, verstanden.
  • AUSFÜHRUNGSWEISEN DER ERFINDUNG(EN)
  • Es sind Techniken zum Ermöglichen des Livestreaming von audiovisuellen Gruppendarbietungen entwickelt worden. Audiovisuelle Darbietungen einschließlich Gesangsmusik werden aufgenommen und mit Darbietungen anderer Benutzer auf Weisen koordiniert, die fesselnde Benutzer- und Zuhörererlebnisse erzeugen können. Bei manchen Fällen oder Ausführungsformen können zum Beispiel Duette mit einem Gastgebermusiker in einem Sing-mit-dem-Künstler-artigen audiovisuellen Livestream unterstützt werden, in dem aufstrebende Sänger spezielle Lieder für ein Live-Radioshow-Entertainmentformat anfordern oder in eine Warteschlange einreihen. Die entwickelten Techniken stellen einen kommunikationslatenztoleranten Mechanismus zum Synchronisieren von Gesangsdarbietungen bereit, die an geografisch getrennten Vorrichtungen (z. B. an global verteilten, aber netzwerkverbundenen Mobiltelefonen oder Tablets oder an audiovisuellen Aufnahmevorrichtungen, die von einem Live-Studio geografisch getrennt sind) aufgenommen werden.
  • Obwohl Nur-Audio-Ausführungsformen mit Sicherheit in Betracht gezogen werden, wird sich vorgestellt, dass ein Livestream-Inhalt typischerweise ein darbietungssynchronisiertes Video enthalten wird, das in Verbindung mit Gesang aufgenommen wird. Obwohl netzwerkverbundene Mobiltelefone als audiovisuelle Aufnahmevorrichtungen veranschaulicht sind, wird basierend auf der Beschreibung hierin verstanden, dass zusätzlich dazu audiovisuelle Aufnahme- und Betrachtungsvorrichtungen zweckmäßig konfigurierte Computer, Smart-Fernseher und/oder Wohnzimmer-Set-Top-Box-Konfigurationen und sogar intelligente virtuelle Assistenzvorrichtungen mit Audio- und/oder audiovisuellen Aufnahmevorrichtungen oder -fähigkeiten beinhalten können. Schließlich, obwohl Anwendungen für Gesangsmusik ausführlich beschrieben sind, wird basierend auf der Beschreibung hierin verstanden, dass Audio- oder audiovisuelle Aufnahmeanwendungen nicht auf Gesangsduette beschränkt sein müssen, sondern an andere Formen von Gruppendarbietung angepasst werden können, bei der eine oder mehrere aufeinanderfolgende Darbietungen für eine vorherige Darbietung angesammelt werden, um einen Livestream zu erzeugen.
  • In manchen Fällen werden die Gesangsdarbietungen von kollaborierenden Mitwirkenden (zusammen mit darbietungssynchronisiertem Video) im Zusammenhang einer karaokeartigen Präsentation eines Liedtexts und entsprechend einer hörbaren Wiedergabe eines Backing-Tracks aufgenommen. In manchen Fällen wird Gesang (und typischerweise synchronisiertes Video) als Teil einer Live- oder improvisierten Darbietung mit Gesangsinteraktionen (z. B. Duett oder Dialog) zwischen kollaborierenden Mitwirkenden aufgenommen. In jedem Fall wird in Betracht gezogen, dass nicht vernachlässigbare Netzwerkkommunikationslatenzen zwischen zumindest manchen der kollaborierenden Mitwirkenden vorhanden sein werden, insbesondere, wenn diese Mitwirkenden geografisch getrennt sind. Infolgedessen besteht eine technische Herausforderung, Latenzen und den aufgenommenen audiovisuellen Inhalt auf eine derartige Weise zu verwalten, dass eine kombinierte audiovisuelle Darbietung nichtsdestotrotz auf eine Art und Weise ausgestrahlt (z. B. übertragen) werden kann, die Empfängern, Zuhörern und/oder Zuschauern als eine interaktive Live-Kollaboration dargeboten wird.
  • Bei einer Technik zum Erzielen dieser Reproduktion einer interaktiven Live-Darbietungskollaboration wird eine tatsächliche und nicht vernachlässigbare Netzwerkkommunikationslatenz (im Endeffekt) in eine Richtung zwischen einem Gast- und einem Gastgeber-Musiker maskiert und in die andere Richtung toleriert. Eine aufgenommene audiovisuelle Darbietung eines Gastmusikers bei einer „Live Show“-Internetübertragung eines Gastgebermusikers könnte zum Beispiel ein Duett von Gast + Gastgeber beinhalten, das in anscheinender Echtzeit-Synchronie gesungen wird. In manchen Fällen könnte der Gastgeber ein Musiker sein, der eine spezielle Musikdarbietung popularisiert hat. In manchen Fällen könnte der Gast ein Amateursänger sein, dem die Möglichkeit gegeben wurde, „live“ (wenngleich entfernt) mit dem beliebten Künstler oder der beliebten Gruppe „im Studio“ als der (oder mit dem) Gastgeber der Show zu singen. Ungeachtet einer nicht vernachlässigbaren Netzwerkkommunikationsverzögerung vom Gast zum Gastgeber (vielleicht 200-500 ms oder mehr), um den audiovisuellen Beitrag des Gastes zu übermitteln, bietet der Gastgeber in scheinbarer Synchronie (obwohl im absoluten Sinn zeitlich verzögert) mit dem Gast dar und der scheinbar synchron dargebotene Gesang wird aufgenommen und mit dem Beitrag des Gastes gemischt, um ausgesendet oder ausgestrahlt zu werden.
  • Das Ergebnis ist eine scheinbar interaktive Live-Darbietung (zumindest aus der Perspektive des Gastgebers und der Empfänger, Zuhörer und/oder Zuschauer der ausgestrahlten oder übertragenen Darbietung). Obwohl die nicht vernachlässigbare Netzwerkkommunikationslatenz vom Gast zum Gastgeber maskiert ist, versteht sich, dass eine Latenz vorhanden ist und in die Gastgeber-zu-Gast-Richtung toleriert wird. Obwohl die Gastgeber-zu-Gast-Latenz für den Gast wahrnehmbar (und vielleicht recht bemerkbar) ist, muss sie nicht in der scheinbaren Live-Aussendung oder einer anderen Ausstrahlung erkennbar sein. Es wurde entdeckt, dass eine verzögerte hörbare Wiedergabe eines Gastgeber-Gesangs (oder allgemeiner der aufgenommenen audiovisuellen Darbietung des Gastgebers) die Darbietung des Gastes nicht psychoakustisch beeinträchtigen muss.
  • Obwohl ein Großteil der Beschreibung hierin für Veranschaulichungszwecke einen festgelegten Gastgebermusiker auf einer speziellen Gastgebervorrichtung annimmt, wird basierend auf der Beschreibung hierin verstanden, dass manche Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) Gastgeber/Gast-Steuerlogik bereitstellen können, die einem Gastgeber gestattet, „das Mikrofon weiterzugeben“, sodass ein neuer Benutzer (in manchen Fällen ein Benutzer, der durch den aktuellen Gastgeber ausgewählt wird, und in anderen Fällen ein Benutzer, der „das Mikrofon aufnimmt“, nachdem der aktuelle Gastgeber „das Mikrofon fallenlässt“) als ein Gastgeber übernehmen kann. Gleichermaßen wird basierend auf der Beschreibung hierin verstanden werden, dass manche Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) Gastgeber/Gast-Steuerlogik bereitstellen können, die Gäste (und/oder aufstrebende Gastgeber) in eine Warteschlange einreiht und in die Warteschlange eingereihten Benutzern automatisch geeignete Funktionen zuweist.
  • Bei manchen Fällen oder Ausführungsformen wird Gesangsaudio von individuellen Gastgeber- und Gastfunktionsmusikern zusammen mit darbietungssynchronisiertem Video in einem karaokeartigen Benutzeroberflächen-Framework aufgenommen und mit den audiovisuellen Beiträgen der anderen Benutzer koordiniert, um duettartige oder chorartige audiovisuelle Gruppendarbietungen zu bilden. Die Gesangsdarbietungen individueller Benutzer können zum Beispiel (zusammen mit darbietungssynchronisiertem Video) auf mobilen Vorrichtungen, einer fernsehartigen Anzeige und/oder einem Set-Top-Box-Gerät im Zusammenhang von karaokeartigen Präsentationen eines Liedtexts entsprechend hörbaren Wiedergaben eines Backing-Tracks aufgenommen werden. Bei manchen Fällen oder Ausführungsformen kann eine partiturcodierte kontinuierliche Tonhöhenkorrektur sowie benutzerauswählbare Audio- und/oder Videoeffekte bereitgestellt werden. In Übereinstimmung mit dem Vorstehenden, aber ohne Beschränkung hinsichtlich einer beliebigen speziellen beanspruchten Ausführungsform, liefert eine karaokeartige Gesangsdarbietungsaufnahme unter Verwendung von tragbaren handgehaltenen Vorrichtungen einen veranschaulichenden Zusammenhang.
  • Karaokeartiae Gesanasdarbietunasaufnahme
  • Obwohl Ausführungsformen der vorliegenden Erfindung nicht darauf beschränkt sind, liefert eine tonhöhenkorrigierte, karaokeartige Gesangsaufnahme unter Verwendung eines mobiltelefonartigen und/oder fernsehartigen audiovisuellen Geräts einen nützlichen beschreibenden Zusammenhang. Bei manchen Ausführungsformen, wie etwa in 1 veranschaulicht, führen zum Beispiel iPhone™-Handapparate verfügbar von Apple Inc. (oder allgemeiner Handapparate 101A, 101B, die als Gast- bzw. Gastgebervorrichtungen arbeiten) Software aus, die in Koordination mit einem Inhaltsserver 110 arbeitet, um eine Gesangsaufnahme bereitzustellen. Die Konfiguration stellt optional eine kontinuierliche partiturcodierte Echtzeit-Tonhöhenkorrektur und -Harmonisierung des aufgenommenen Gesangs bereit. Ein darbietungssynchronisertes Video kann auch unter Verwendung einer Kamera aufgenommen werden, die durch oder in Verbindung mit einem Computer, einem Fernseher oder einem anderen audiovisuellen Gerät (nicht spezifisch dargestellt) oder einem verbundenen Set-Top-Box-Gerät, wie etwa einer Apple-TV™-Vorrichtung, bereitgestellt wird. Bei manchen Ausführungsformen kann das darbietungssynchroniserte Video unter Verwendung einer geräteinternen Kamera aufgenommen werden, die durch einen Handapparat bereitgestellt wird, der mit einem verbundenen Set-Top-Box-Gerät gekoppelt ist. Geeignete Techniken sind ausführlich in der eigenen, gleichzeitig anhängigen US-Patentanmeldung mit Nr. 15/337,866, eingereicht am 28. Oktober 2016, die Hersh, Shimmin, Yang und Cook als Erfinder nennt, mit dem Titel „Audiovisual Media Application Platform with Wireless Handheld Audiovisual Input“ beschrieben, deren Gesamtheit hiermit unter Bezugnahme aufgenommen wird.
  • In der Veranschaulichung von 1 steuert ein aktueller Gastgeberbenutzer einer aktuellen Gastgebervorrichtung 101B zumindest teilweise den Inhalt eines Livestreams 122, der für eine Zuhörerschaft auf Vorrichtungen 120A, 120B, ..., 120N gepuffert und zu dieser gestreamt wird. In der veranschaulichten Konfiguration trägt ein aktueller Gastbenutzer einer aktuellen Gastvorrichtung 101A zu dem audiovisuellen Gruppendarbietungsmix 111 bei, der durch die aktuelle Gastgebervorrichtung 101B (letztendlich über den Inhaltsserver 110) als der Livestream 122 geliefert wird. Obwohl die Vorrichtungen 120A, 120B, ..., 120N und in der Tat die aktuellen Gast- und Gastgebervorrichtungen 101A, 101B zur Vereinfachung als handgehaltene Vorrichtungen, wie etwa Mobiltelefone, veranschaulicht sind, werden Fachleute, die die vorliegende Offenbarung kennen, verstehen, dass ein beliebiges gegebenes Mitglied der Zuhörerschaft den Livestream 122 auf einem beliebigen geeigneten Computer, Smart-Fernseher, Tablet, über eine Set-Top-Box oder einem anderen Streaming-Medien-fähigen Gerät empfangen kann.
  • Ein Inhalt, der zum Bilden des audiovisuellen Gruppendarbietungsmixes 111 gemischt wird, wird in der veranschaulichten Konfiguration im Zusammenhang einer karaokeartigen Darbietungsaufnahme aufgenommen, bei der ein Liedtext 102, optionale Tonhöhenhinweise 105 und typischerweise ein Backing-Track 107 vom Inhaltsserver 110 zu der aktuellen Gastvorrichtung 101A und/oder der aktuellen Gastgebervorrichtung 101B geliefert werden. Ein aktueller Gastgeber (auf der aktuellen Gastgebervorrichtung 101B) übt typischerweise die endgültige Steuerung gegenüber dem Livestream aus, z. B. durch Auswählen eines speziellen Benutzers (oder spezieller Benutzer) aus der Zuhörerschaft, um als der aktuelle Gast bzw. die aktuellen Gäste zu agieren, durch Auswählen eines speziellen Liedes aus einer Anfragewarteschlange (und/oder von Gesangteilen davon für spezielle Benutzer) und/oder durch Starten, Stoppen oder Pausieren der Gruppen-AV-Darbietung. Sobald der aktuelle Gastgeber einen Gast und/oder ein Lied auswählt oder bestätigt, kann der Gastbenutzer (bei manchen Ausführungsformen) das Abspielen eines Backing-Tracks 107A zur lokalen hörbaren Wiedergabe starten/stoppen/pausieren und anderweitig den Inhalt eines Gastmixes 106 (Backing-Track-Abspielen gemischt mit aufgenommenem audiovisuellem Gastinhalt), der zu der aktuellen Gastgebervorrichtung 101B geliefert wird, steuern. Das Abspielen des Liedtexts 102A und optionaler Tonhöhenhinweise 105A an der aktuellen Gastvorrichtung 101A findet in zeitlicher Korrespondenz mit dem Backing-Track 107A statt und wird gleichermaßen der Start-/Stopp-/Pausensteuerung durch den aktuellen Gast unterzogen. In manchen Fällen oder Situationen kann Hintergrundaudio und/oder -video aus einem Medienspeicher wiedergegeben werden, wie etwa einer iTunes™-Bibliothek, die sich auf einem Handapparat, einer Set-Top-Box usw. befindet oder auf die von diesem bzw. dieser zugegriffen werden kann.
  • Typischerweise werden Liedanfragen 132 von der Zuhörerschaft bezogen und durch Signalisierungspfade zu einer Inhaltsauswahl-und-Gastwarteschlange-Steuerlogik 112 des Inhaltsservers 110 übermittelt. Gastgebersteuerungen 131 und Gaststeuerungen 133 sind als bidirektionale Signalisierungspfade veranschaulicht. Andere Warteschlangen- und Steuerlogikkonfigurationen, die mit dem beschriebenen Betrieb konsistent sind, einschließlich gastgeber- oder gastgesteuerter Warteschlangenbildung und/oder Liedauswahl, werden basierend auf der vorliegenden Offenbarung erkannt werden.
  • In der veranschaulichten Konfiguration von 1 und ungeachtet einer nicht vernachlässigbaren zeitlichen Verzögerung (typischerweise 100-250 ms, aber möglicherweise mehr) empfängt die aktuelle Gastgebervorrichtung 101B den Gastmix 106 als einen Backing-Track und gibt diesen hörbar wieder, gegenüber dem die audiovisuelle Darbietung des aktuellen Gastgebers an der aktuellen Gastgebervorrichtung 101B aufgenommen wird. Das Abspielen des Liedtexts 102B und optionaler Tonhöhenhinweise 105B an der aktuellen Gastgebervorrichtung 101B stehen in zeitlicher Korrespondenz mit dem Backing-Track, hier dem Gastmix 106. Um eine Synchronisation des Gastmixes 106 hinsichtlich der zeitlichen Verzögerung im Peer-zu-Peer-Kommunikationskanal zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowie eine gastseitige Start-/Stopp-/Pausensteuerung zu ermöglichen, können Markierungs-Beacons in den Gastmix codiert werden, um die geeignete Phasensteuerung des Liedtexts 102B und der optionalen Tonhöhenhinweise 105B auf dem Bildschirm bereitzustellen. Alternativ dazu kann eine Phasenanalyse eines jeglichen Backing-Tracks 107A, der im Gastmix 106 enthalten ist (oder ein jeglicher Bleed-Through, falls der Backing-Track separat codiert oder übermittelt wird), verwendet werden, um die geeignete Phasensteuerung des Liedtexts 102B und der optionalen Tonhöhenhinweise 105B auf dem Bildschirm an der aktuellen Gastgebervorrichtung 101B bereitzustellen.
  • Es versteht sich, dass eine zeitliche Verzögerung im Peer-zu-Peer-Kommunikationskanal zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowohl den Gastmix 106 als auch Kommunikationen in die entgegengesetzte Richtung (z. B. Signalcodierungen des Gastgebermikrofons 103C) beeinflusst. Beliebige einer Vielfalt von Kommunikationskanälen können verwendet werden, um audiovisuelle Signale und Steuerungen zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowie zwischen den Gast- und Gastgebervorrichtungen 101A, 101B und dem Inhaltsserver 110 und zwischen Zuhörerschaftsvorrichtungen 120A, 120B, ..., 120N und dem Inhaltsserver 110 zu übermitteln. Beispielsweise können jeweilige drahtlose Telekommunikationsträgereinrichtungen und/oder drahtlose Lokalnetze und jeweilige großflächige Netzwerk-Gateways (nicht spezifisch dargestellt) Kommunikationen zu und von den Vorrichtungen 101A, 101B, 120A, 120B, ..., 120N bereitstellen. Basierend auf der Beschreibung hierin werden Fachleute erkennen, dass eine beliebige einer Vielfalt von Datenkommunikationsanlagen, einschließlich 802.11 WiFi, Bluetooth™, 4G-LTE drahtlose, verdrahtete Datennetze, verdrahtete oder drahtlose audiovisuelle Verbindungen wie etwa gemäß HDMI, AVI, Wi-Di-Standards oder -Einrichtungen, individuell oder in Kombination eingesetzt werden kann, um Kommunikationen und/oder eine audiovisuelle Wiedergabe wie hierin beschrieben zu ermöglichen.
  • Benutzergesang 103A und 103B wird an jeweiligen Handapparaten 101A, 101B aufgenommen und kann optional kontinuierlich und in Echtzeit tonhöhenkorrigiert werden und gemischt mit dem lokal geeigneten Backing-Track (z. B. Backing-Track 107A an der aktuellen Gastvorrichtung 101A und Gastmix 106 an der aktuellen Gastgebervorrichtung 101B) hörbar wiedergegeben werden, um dem Benutzer eine Wiedergabe mit verbesserter Tonqualität seiner eigenen Gesangsdarbietung bereitzustellen. Die Tonhöhenkorrektur basiert typischerweise auf partiturcodierten Notensätzen oder Hinweisen (z. B. die Tonhöhen- und Harmoniehinweise 105A, 105B, die an der aktuellen Gastvorrichtung 101A bzw. an der aktuellen Gastgebervorrichtung 101B visuell angezeigt werden), die kontinuierliche Tonhöhenkorrekturalgorithmen liefern, die auf der jeweiligen Vorrichtung mit darbietungssynchronisierten Folgen von Zielnoten in einer aktuellen Tonart oder Tonleiter ausgeführt werden. Zusätzlich zu darbietungssynchronisierten Melodiezielen liefern partiturcodierte Hamonienotenfolgen (oder -sätze) Tonhöhenverschiebungsalgorithmen mit zusätzlichen Zielen (typischerweise als Versätze relativ zu einer Hauptmelodie-Notenspur codiert und typischerweise nur für ausgewählte Teile davon in einer Partitur befindlich) zum Tonhöhenverschieben zu Harmonieversionen des eigenen aufgenommenen Gesangs des Benutzers. In manchen Fällen können Tonhöhenkorrektureinstellungen für einen speziellen Künstler charakteristisch sein, wie etwa den Künstler, der mit dem speziellen Backing-Track assoziierten Gesang darbot.
  • Im Allgemeinen können Liedtext, Melodie und Harmoniespur-Notensätze und zugehörige Timing- und Steuerinformationen in einem geeigneten Container oder Objekt (z. B. in einem MIDI(Musical Instrument Digital Interface)-oderjson(Java Script Object Notation)-artigen Format zur gemeinsamen Lieferung mit dem/den Backing-Track(s) eingekapselt werden. Unter Verwendung derartiger Informationen können die Vorrichtungen 101A und 101B (sowie assoziierte audiovisuelle Anzeigen und/oder Set-Top-Box-Geräte, nicht spezifisch dargestellt) Liedtext und sogar visuelle Hinweise bezüglich Zielnoten, Harmonien und eine aktuell detektierte Gesangtonhöhe entsprechend einer hörbaren Darbietung des/der Backing-Track(s) anzeigen, sodass eine karaokeartige Gesangsdarbietung durch einen Benutzer ermöglicht wird. Falls somit ein aufstrebender Sänger „When I Was Your Man“, wie durch Bruno Mars popularisiert, auswählt, können your_man.json und your_man.m4a vom Inhaltsserver heruntergeladen werden (falls nicht schon basierend auf einem vorherigen Herunterladen verfügbar oder gecacht) und im Gegenzug zum Bereitstellen einer Hintergrundmusik, eines synchronisierten Liedtexts und bei manchen Situationen oder Ausführungsformen von partiturcodierten Notenspuren für eine kontinuierliche Echtzeit-Tonhöhenkorrektur während des Singens des Benutzers verwendet werden. Optional können zumindest für gewisse Ausführungsformen oder Genres Harmonienotenspuren für Harmonieverschiebungen an aufgenommenem Gesang partiturcodiert werden. Typischerweise wird eine aufgenommene tonhöhenkorrigierte (möglicherweise harmonisierte) Gesangsdarbietung zusammen mit einem darbietungssynchronisierten Video lokal auf der handgehaltenen Vorrichtung oder Set-Top-Box als eine oder mehrere audiovisuelle Dateien abgespeichert und anschließend zur Kommunikation (z. B. als Gastmix 106 oder audiovisueller Gruppendarbietungsmix 111 oder Bestandteilcodierungen davon) zum Inhaltsserver 110 als eine MPEG-4-Containerdatei komprimiert und codiert. MPEG-4 ist ein geeigneter Standard für die codierte Repräsentation und Übertragung eines digitalen Multimedieninhalts für das Internet, Mobilnetze und fortgeschrittene Aussendungsanwendungen. Andere geeignete Codecs, Komprimierungstechniken, Codierungsformate und/oder Container können falls gewünscht eingesetzt werden.
  • Wie Fachleute verstehen werden, die die vorliegende Offenbarung kennen, können Darbietungen mehrerer Sänger (einschließlich darbietungssynchronisiertem Video) angesammelt und kombiniert werden, sodass eine duettartige Darbietung, eine chorartige Darbietung oder eine Gesang-Jam-Session gebildet wird. Bei manchen Ausführungsformen der vorliegenden Erfindung können soziale Netzwerkgebilde zumindest teilweise eine Gastgebersteuerung der Paarung von geografisch verteilten Sängern und/oder die Bildung von geografisch verteilten virtuellen Chor ersetzen oder darüber informieren. Bezüglich 1 können zum Beispiel individuelle Sänger als aktuelle Gastgeber- und Gastbenutzer auf eine Art und Weise darbieten, die (mit Gesangsaudio und darbietungssynchronisiertem Video) aufgenommen und letztendlich als ein Livestream 122 zu einer Zuhörerschaft gestreamt wird. Ein derartiger aufgenommener audiovisueller Inhalt kann im Gegenzug zu sozialen Medienkontakten des Sängers, Mitgliedern der Zuhörerschaft usw. über einen offenen Anruf, der durch den Inhaltsserver vermittelt wird, verteilt werden. Auf diese Weise können die Sänger selbst, Mitglieder der Zuhörerschaft (und/oder der Inhaltsserver oder die Dienstplattform in ihrem Auftrag) andere Menschen einladen, bei einer koordinierten audiovisuellen Darbietung oder als Mitglieder einer Zuhörerschaft- oder Gastwarteschlange teilzunehmen.
  • Wo die Lieferung und Verwendung von Backing-Tracks hierin veranschaulicht und beschrieben sind, versteht es sich, dass aufgenommener, tonhöhenkorrigierter (und möglicherweise, wenngleich nicht notwendigerweise, harmonisierter) Gesang selbst gemischt werden kann (wie mit dem Gastmix 106), um einen „Backing-Track“ zu erzeugen, der zum Motivieren, Anleiten oder Formulieren einer anschließenden Gesangsaufnahme verwendet wird. Des Weiteren können zusätzliche Sänger eingeladen werden, einen speziellen Teil (z. B. Tenor, Teil B im Duett usw.) zu singen oder um einfach zu singen, die anschließende Gesangsaufnahmevorrichtung (z. B. die aktuelle Gastgebervorrichtung 101B in der Konfiguration von 1) kann ihren aufgenommenen Gesang tonhöhenverschieben und an eine oder mehrere Stellen in einem Duett oder virtuellen Chor platzieren. Diese und andere Aspekte der Darbietungsansammlung sind (für eine inhaltsserververmittelte Ausführungsform) im eigenen US-Patent mit der Nr. 8,983,829 und dem Titel „Coordinating and Mixing Vocals Captured from Geographically Distributed Performers“, das Cook, Lazier, Lieber und Kirk als Erfinder nennt, beschrieben, das hiermit unter Bezugnahme in seiner Gesamtheit aufgenommen wird.
  • Synchronisationsverfahren
  • Basierend auf der Beschreibung hierin werden Fachleute eine Vielfalt von Gastgeber-Gast-Synchronisationsverfahren kennen, die eine nicht vernachlässigbare zeitliche Verzögerung im Peer-zu-Peer-Kommunikationskanal zwischen der Gastvorrichtung 101A und der Gastgebervorrichtung 101B tolerieren. Wie im Zusammenhang von 1 veranschaulicht, kann der Backing-Track (z. B. der Backing-Track 107A) den Synchronisationszeitrahmen für eine zeitlich gestaffelte Gesangsaufnahme, die an den jeweiligen Peer-Vorrichtungen (Gastvorrichtung 101A und Gastgebervorrichtung 101B) dargeboten wird, bereitstellen und die wahrgenommene Latenz der Benutzer davon minimieren (oder eliminieren).
  • 2 ist ein Flussdiagramm, das den Fluss von Audiosignalen abbildet, die an jeweiligen Gast- und Gastgebervorrichtungen aufgenommen und verarbeitet werden, die in einer „Gastgeber-Sync“-Peer-zu-Peer-Konfiguration zur Erzeugung eines audiovisuellen Gruppendarbietungs-Livestreams gekoppelt sind, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en). Genauer gesagt veranschaulicht 2, wie eine beispielhafte Konfiguration von Gast- und Gastgebervorrichtungen 101A und 101B (siehe 1) und audiovisuelle Signalflüsse dazwischen (z. B. Gastmix 106 und Gastgebermikrofonaudio 103C) während einer Peer-zu-Peer-Session ein Benutzererlebnis bereitstellen, bei dem der Gastgebervorrichtungssänger (an der Gastgebervorrichtung 101B) immer Gastgesang (der von einer lokalen Gastmikrofoneingabe 103A aufgenommen wird) und einen Backing-Track 107A in perfekter Synchronisation hört. Während der Gast den angesammelten Gesang des Gastgebers um eine volle Audio-Umlaufzeit(RTT)-Verzögerung verzögert wahrnehmen wird (in dem Mix, der an den Gastlautsprecher oder das Gastheadset 240A geliefert wird), weist der Audio-Stream (einschließlich des entfernten Gastmikrofons gemischt mit dem Backing-Track), der der Gastgebervorrichtung 101B geliefert und als die mehrstimmige Livestream-Darbietung (122) gemischt wird, eine Latenz von Null (oder vernachlässigbare Latenz) gegenüber dem Gastgebersänger oder der Zuhörerschaft auf.
  • Ein Schlüssel zum Maskieren tatsächlicher Latenzen besteht in dem Einschließen des Tracks 107A in den Audiomix, der von der Gastvorrichtung 101A und der Vorrichtung des Aussenders, der Gastgebervorrichtung 101B, geliefert wird. Dieser Audiofluss gewährleistet, dass die Stimme des Gastes und der Backing-Track immer vom Standpunkt des Aussenders aus synchronisiert sind (basierend auf einer hörbaren Wiedergabe am Gastgeberlautsprecher oder -headset 240B). Der Gast kann weiterhin wahrnehmen, dass der Aussender leicht nicht synchron singt, falls die Netzwerkverzögerung erheblich ist. Solange sich der Gast jedoch auf das Singen im Takt mit dem Backing-Track anstelle auf die leicht verzögerte Stimme des Gastgebers konzentriert, ist der mehrstimmige Mix von Gastgebergesang mit Gastgesang und dem Backing-Track synchron, wenn er zu einer Zuhörerschaft im Livestream übertragen wird.
  • 3 ist ein Flussdiagramm, das den Fluss von Audiosignalen abbildet, die an jeweiligen Gast- und Gastgebervorrichtungen aufgenommen und verarbeitet werden, die in einer alternativen „Geteilte-Latenz“-Peer-zu-Peer-Konfiguration zur Erzeugung eines audiovisuellen Gruppendarbietungs-Livestreams gekoppelt sind, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en). Genauer gesagt veranschaulicht 3, wie eine beispielhafte Konfiguration von Gast- und Gastgebervorrichtungen 101A und 101B (siehe 1) und audiovisuelle Signalflüsse dazwischen (z. B. Gastmix 106 und Gastgebermikrofonaudio 103C) während einer Peer-zu-Peer-Session kombiniert werden, um die Wahrnehmung des Gast- und Gastgebersängers gegenüber der Audioverzögerung des anderen Sängers auf nur eine Einwegeverzögerung (nominell eine Hälfte der vollen Audio-Umlaufzeit-Verzögerung) nach dem Backing-Track zu beschränken.
  • Diese beschränkte Wahrnehmung der Verzögerung wird durch das lokale Abspielen des Backing-Tracks auf beiden Vorrichtungen und Veranlassen, sie in Echtzeit synchron zu halten, erzielt. Die Gastvorrichtung 101A sendet periodische Timing-Nachrichten zu dem Gastgeber, die die aktuelle Stelle im Lied enthalten, und die Gastgebervorrichtung 101B passt die Playback-Position des Lieds dementsprechend an.
  • Wir haben mit zwei unterschiedlichen Ansätzen zum Synchronhalten der Backing-Tracks auf den beiden Vorrichtungen (Gast- und Gastgebervorrichtungen 101A und 101B) experimentiert:
    • □ Verfahren 1: Wir passen die Playback-Position, die wir an der Gastgeberseite empfangen, um die Einweg-Netzwerkverzögerung an, die als die Netzwerk-RTT/2 approximiert wird.
    • □ Verfahren 2: Wir synchronisieren die Takte der beiden Vorrichtungen unter Verwendung eines Netzwerkzeitprotokolls (NTP). Auf diese Weise müssen wir nicht die Timing-Nachrichten basierend auf der Einweg-Netzwerkverzögerung anpassen, wir fügen einfach einen NTP-Zeitstempel zu jeder Lied-Timing-Nachricht hinzu.
  • Für „Geteilte-Latenz“-Konfigurationen hat sich das Verfahren 2 als stabiler als das Verfahren 1 herausgestellt. Als eine Optimierung, um übermäßige Timing-Anpassungen zu vermeiden, aktualisiert der Gastgeber nur die Backing-Track-Playback-Position, falls wir gegenwärtig mehr als 50 ms von der Backing-Track-Playback-Position des Gastes versetzt sind.
  • Partiturcodierte Tonhöhenspuren
  • 4 ist ein Flussdiagramm, das eine kontinuierliche partiturcodierte Echtzeit-Tonhöhenkorrektur und -Harmonieerzeugung für eine aufgenommene Gesangsdarbietung veranschaulicht, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en). In der veranschaulichten Konfiguration singt ein Benutzer/Sänger (z. B. der Gast- oder Gastgebersänger an der Gastvorrichtung 101A oder der Gastgebervorrichtung 101B, siehe 1) karaokeartig zusammen mit einem Backing-Track. Im Fall des Gastsängers an der aktuellen Gastvorrichtung 101A ist der wirksame Backing-Track der Backing-Track 107A, wohingegen für den Gastgebersänger an der aktuellen Gastgebervorrichtung 101B der wirksame Backing-Track der Gastmix 106 ist, der, zumindest in Ausführungsformen, die das „Gastgebersynchronisations“-Verfahren einsetzen, den ursprünglichen Backing-Track gemischt mit dem Gastgesang übermittelt. In jedem Fall kann Gesang, der von einer Mikrofoneingabe 201 aufgenommen wird (251), optional in Echtzeit für einen Mix (253) mit dem wirksamen Backing-Track, der hörbar an einem oder mehreren akustischen Wandlern 202 wiedergegeben wird, kontinuierlich tonhöhenkorrigiert (252) und harmonisiert (255) werden.
  • Sowohl Tonhöhenkorrektur als auch hinzugefügte Harmonien werden so gewählt, dass sie einer Partitur 207 entsprechen, die in der veranschaulichten Konfiguration drahtlos zu der/den Vorrichtung(en) kommuniziert wird (261) (z. B. vom Inhaltsserver 110 zu der Gastvorrichtung 101A oder über die Gastvorrichtung 101A zu der Gastgebervorrichtung 101B, siehe 1), auf denen eine Gesangsaufnahme und Tonhöhenkorrektur durchzuführen ist, zusammen mit Liedtext 208 und einer Audiocodierung des wirksamen Backing-Tracks 209 (z. B. Backing-Tracks 107A oder Gastmixes 106). Bei manchen Fällen oder Ausführungsformen ist die Inhaltsauswahl-und - Gastwarteschlange-Steuerlogik 112 für Melodie- oder Harmonienotenauswahlen an den jeweiligen Gast- und Gastgebervorrichtungen 101A und 101B auswählbar.
  • Bei manchen Ausführungsformen von hierin beschriebenen Techniken wird die Note (in einer aktuellen Tonleiter oder Tonart), die sich am nächsten zu der durch den Benutzer/Sänger gesungenen befindet, basierend auf einer Partitur 207 bestimmt. Obwohl diese nächste Note typischerweise eine Haupttonhöhe entsprechend der partiturcodierten Gesangsmelodie sein kann, muss sie dies nicht sein. In der Tat kann der Benutzer/Sänger in manchen Fällen beabsichtigen, eine Harmonie zu singen, und die gesungenen Noten können eine Harmoniespur näher approximieren.
  • Audiovisuelle Aufnahme an einer hand-gehaltenen Vorrichtung
  • Obwohl eine darbietungssynchronisierte Videoaufnahme nicht bei allen Ausführungsformen unterstützt werden muss, können die handgehaltene Vorrichtung 101 (z. B. die aktuelle Gastvorrichtung 101A oder die aktuelle Gastgebervorrichtung 101B, siehe 1) selbst sowohl Gesangsaudio als auch darbietungssynchronisiertes Video aufnehmen. Somit veranschaulicht 5 grundlegende Signalverarbeitungsflüsse (350) gemäß gewissen Implementierungen, die sich für eine mobiltelefonartige handgehaltene Vorrichtung 101 zum Aufnehmen von Gesangsaudio und darbietungssynchronisiertem Video eignen, um tonhöhenkorrigierten und optional hamonisierten Gesang zur hörbaren Wiedergabe (lokal und/oder an einer entfernten Zielvorrichtung) zu erzeugen und mit einem Inhaltsserver oder einer Dienstplattform 110 zu kommunizieren.
  • Basierend auf der Beschreibung hierin werden Fachleute geeignete Zuweisungen von Signalverarbeitungstechniken (Abtastung, Filterung, Dezimierung usw.) und Datenrepräsentationen zu Funktionsblöcken (z. B. einen oder mehrere Decodierer 352, Digital-Analog(D/A)-Wandler 351, Aufnahme 353, 353A und Codierer 355) einer Software kennen, die zum Bereitstellen von in 5 veranschaulichten Signalverarbeitungsflüssen 350 ausführbar ist. Gleichermaßen werden Fachleute, bezüglich 4, die Signalverarbeitungsflüsse 250 und die veranschaulichenden partiturcodierten Notenziele (einschließlich Harmonienotenzielen), geeignete Zuweisungen von Signalverarbeitungstechniken und Datenrepräsentationen zu Funktionsblöcken und Signalverarbeitungskonstrukte (z. B. einen oder mehrere Decodierer 258, Aufnahme 251, Digital-Analog(D/A)-Wandler 256, Mischer 253, 254 und Codierer 257) kennen, die zumindest teilweise als Software implementiert werden können, die auf einer handgehaltenen oder anderen tragbaren Rechenvorrichtung ausführbar ist.
  • Wie Fachleuten bekannt ist, haben Tonhöhendetektion und Tonhöhenkorrektur eine reiche technologische Geschichte in der Musik und den Sprachcodierungstechniken. In der Tat sind eine breite Vielfalt von Merkmalsaufnahme-, Zeitbereichs- und selbst Frequenzbereichstechniken in der Technik eingesetzt worden und können bei manchen Ausführungsformen gemäß der vorliegenden Erfindung eingesetzt werden. In diesem Sinne und mit der Erkenntnis, dass mehrstimmige Synchronisationstechniken gemäß der vorliegenden Erfindung(en) allgemein unabhängig von einer beliebigen speziellen Tonhöhendetektions- oder Tonhöhenkorrekturtechnologie sind, versucht die vorliegende Beschreibung nicht, die breite Vielfalt an Signalverarbeitungstechniken, die sich bei verschiedenen Gestaltungen oder Implementierungen gemäß der vorliegenden Beschreibung eignen können, ausführlich zu inventarisieren. Stattdessen wird einfach angemerkt, dass bei manchen Ausführungsformen gemäß den vorliegenden Erfindungen Tonhöhendetektionsverfahren eine durchschnittliche Magnitudendifferenzfunktion (AMDF) berechnen und Logik zum Wählen einer Spitze ausführen, die einer Schätzung der Tonhöhenperiode entspricht. Auf derartigen Schätzungen aufbauend werden PSOLA (Pitch Shift Overlap Add)-Techniken verwendet, um ein Resampling einer Wellenform zu ermöglichen, sodass eine tonhöhenverschobene Variante erzeugt wird, während aperiodische Effekte eines Splice reduziert werden. Spezifische Implementierungen basierend auf AMDF/PSOLA-Techniken sind ausführlich im eigenen US-Patent mit der Nr. 8,983,829 und dem Titel „Coordinating and Mixing Vocals Captured from Geographically Distributed Performers“, das Cook, Lazier, Lieber und Kirk als Erfinder nennt, beschrieben.
  • Eine beispielhafte mobile Vorrichtung
  • 6 veranschaulicht Merkmale einer mobilen Vorrichtung, die als eine Plattform zur Ausführung von Softwareimplementierungen gemäß manchen Ausführungsformen der vorliegenden Erfindung dienen kann. Genauer gesagt ist 6 ein Blockdiagramm einer mobilen Vorrichtung 400, die allgemein mit kommerziell erhältlichen Versionen einer mobilen digitalen iPhone™-Vorrichtung konsistent ist. Obwohl Ausführungsformen der vorliegenden Erfindung mit Sicherheit nicht auf iPhone-Einsätze oder -Anwendungen (oder selbst iPhone-artige Vorrichtungen) beschränkt sind, liefert die iPhone-Vorrichtungsplattform zusammen mit ihrem reichen Komplement an Sensoren, Multimediageräten, Anwendungsprogrammiererschnittstellen und drahtlosem Anwendungsliefermodell eine äußerst fähige Plattform, auf der gewisse Implementierungen einzusetzen sind. Basierend auf der Beschreibung hierin werden Durchschnittsfachleute einen breiten Bereich von zusätzlichen mobilen Vorrichtungsplattformen kennen, die (jetzt oder nachfolgend) für eine gegebene Implementierung oder einen gegebenen Einsatz der hierin beschriebenen erfindungsgemäßen Techniken geeignet sein können.
  • Kurz zusammengefasst beinhaltet die mobile Vorrichtung 400 eine Anzeige 402, die gegenüber einem haptischen und/oder taktilen Kontakt mit einem Benutzer empfindlich sein kann. Die berührungsempfindliche Anzeige 402 kann Mehrfachberührungsmerkmale, die Verarbeitung von mehreren gleichzeitigen Berührungspunkten, einschließlich der Verarbeitung von Daten bezüglich des Drucks, des Grads und/oder der Position jedes Berührungspunkts, unterstützen. Eine derartige Verarbeitung ermöglicht Gesten und Interaktionen mit mehreren Fingern und andere Interaktionen. Natürlich können auch andere berührungsempfindliche Anzeigetechnologien verwendet werden, z. B. eine Anzeige, bei der ein Kontakt unter Verwendung eines Stylus oder einer anderen Zeigevorrichtung hergestellt wird.
  • Typischerweise präsentiert die mobile Vorrichtung 400 eine grafische Benutzeroberfläche auf der berührungsempfindlichen Anzeige 402, wodurch dem Benutzer ein Zugang zu verschiedenen Systemobjekten und zur Übermittlung von Informationen bereitgestellt wird. Bei manchen Implementierungen kann die grafische Benutzeroberfläche ein oder mehrere Anzeigeobjekte 404, 406 beinhalten. In dem dargestellten Beispiel sind die Anzeigeobjekte 404, 406 grafische Repräsentationen von Systemobjekten. Beispiele für Systemobjekte beinhalten Vorrichtungsfunktionen, Anwendungen, Fenster, Dateien, Warnungen, Ereignisse oder andere identifizierbare Systemobjekte. Bei manchen Ausführungsformen der vorliegenden Erfindung stellen Anwendungen bei ihrer Ausführung zumindest einen Teil der hierin beschriebenen digitalen akustischen Funktionalität bereit.
  • Typischerweise unterstützt die mobile Vorrichtung 400 Netzwerkkonnektivität, einschließlich zum Beispiel sowohl Mobilfunk- als auch Drahtlosvernetzungsfunktionalität, um dem Benutzer zu ermöglichen, mit der mobilen Vorrichtung 400 und ihren assoziierten netzwerkgestützten Funktionen zu reisen. In manchen Fällen kann die mobile Vorrichtung 400 mit anderen nahegelegenen Vorrichtungen (z. B. über WiFi, Bluetooth usw.) interagieren. Die mobile Vorrichtung 400 kann zum Beispiel dazu ausgelegt sein, mit Peers oder einer Basisstation für eine oder mehrere Vorrichtungen zu interagieren. Demnach kann die mobile Vorrichtung 400 einen Netzwerkzugriff für andere drahtlose Vorrichtungen gewähren oder verweigern.
  • Die mobile Vorrichtung 400 beinhaltet eine Vielfalt von Eingabe/Ausgabe(E/A)-Vorrichtungen, Sensoren und Wandlern. Beispielsweise sind typischerweise ein Lautsprecher 460 und ein Mikrofon 462 enthalten, um Audio zu ermöglichen, wie etwa die Aufnahme von Gesangsdarbietungen und eine hörbare Wiedergabe von Backing-Tracks und gemischter tonhöhenkorrigierter Gesangsdarbietungen, wie anderweitig hierin beschrieben. Bei manchen Ausführungsformen der vorliegenden Erfindung können der Lautsprecher 460 und das Mikrofon 662 geeignete Wandler für hierin beschriebene Techniken bereitstellen. Ein externer Lautsprecheranschluss 464 kann enthalten sein, um Freisprechfunktionalitäten zu ermöglichen, wie etwa Lautsprechertelefonfunktionen. Eine Audiobuchse 466 kann auch zur Verwendung von Kopfhörern und/oder eines Mikrofons enthalten sein. Bei manchen Ausführungsformen kann ein externer Lautsprecher und/oder ein externes Mikrofon als ein Wandler für die hierin beschriebenen Techniken verwendet werden.
  • Andere Sensoren können auch verwendet oder bereitgestellt werden. Ein Näherungssensor 468 kann enthalten sein, um die Detektion einer Benutzerpositionierung der mobilen Vorrichtung 400 zu ermöglichen. Bei manchen Implementierungen kann ein Umgebungslichtsensor 470 genutzt werden, um die Anpassung der Helligkeit der berührungsempfindlichen Anzeige 402 zu ermöglichen. Ein Beschleunigungsmesser 472 kann genutzt werden, um eine Bewegung der mobilen Vorrichtung 400 zu detektieren, wie durch den Richtungspfeil 474 angegeben. Dementsprechend können Anzeigeobjekte und/oder Medien gemäß einer detektierten Orientierung, z. B. Hochformat oder Querformat, präsentiert werden. Bei manchen Implementierungen kann die mobile Vorrichtung 400 einen Schaltkreis und Sensoren zum Unterstützen einer Ortsbestimmungsfähigkeit beinhalten, wie etwa jene, die durch das globale Positionierungssystem (GPS) oder andere Positionierungssysteme (z. B. Systeme, die WiFi-Zugangspunkte, Fernsehsignale, zellulare Netze, URLs (Uniform Resource Locators) verwenden) bereitgestellt wird, um hierin beschriebene Geocodierungen zu ermöglichen. Die mobile Vorrichtung 400 beinhaltet auch eine Kameralinse und einen Bilderfassungssensor 480. Bei manchen Implementierungen befinden sich Instanzen einer Kameralinse und eines Sensors 480 an Vorder- und Rückflächen der mobilen Vorrichtung 400. Die Kameras ermöglichen die Aufnahme von Standbildern und/oder von Video zur Assoziation mit aufgenommenem tonhöhenkorrigiertem Gesang.
  • Die mobile Vorrichtung 400 kann auch ein oder mehrere Drahtloskommunikationsuntersysteme beinhalten, wie etwa eine 802.11 b/g/n/ac-Kommunikationsvorrichtung und/oder eine Bluetooth™-Kommunikationsvorrichtung 488. Andere Kommunikationsprotokolle können auch unterstützt werden, einschließlich anderer 802.x-Kommunikationsprotokolle (z. B. WiMax, WiFi, 3G), Viertgeneration-Protokolle und -Modulationen (4G-LTE) und darüber hinaus (z. B. 5G), CDMA (Code Division Multiple Access - Codemultiplex-Mehrfachzugriff), GSM (Global System for Mobile Communications - globales System für Mobilkommunikationen), EDGE (Enhanced Data GSM Environment - erweiterte Daten-GSM-Umgebung) usw. Eine Anschlussvorrichtung 490, z. B. ein USB (Universal Serial Bus)-Anschluss, oder ein Andockanschluss oder eine andere verdrahtete Anschlussverbindung kann enthalten sein und zum Erstellen einer verdrahteten Verbindung mit anderen Rechenvorrichtungen verwendet werden, wie etwa anderen Kommunikationsvorrichtungen 400, Netzwerkzugangsvorrichtungen, einem Personal Computer, einem Drucker oder anderen Verarbeitungsvorrichtungen, die in der Lage sind, Daten zu empfangen und/oder zu übertragen. Die Anschlussvorrichtung 490 kann auch der mobilen Vorrichtung 400 gestatten, sich mit einer Gastgebervorrichtung unter Verwendung eines oder mehrerer Protokolle zu synchronisieren, wie etwa zum Beispiel des TCP/IP-, HTTP-, UDP- und eines beliebigen anderen bekannten Protokolls.
  • 7 veranschaulicht jeweilige Instanzen (701, 720A, 720B und 711) von Rechenvorrichtungen, die mit Gesangsaudio- und Videoaufnahmecode, Benutzeroberflächencode, Tonhöhenkorrekturcode, einer Audiowiedergabepipeline und Playback-Code gemäß den Funktionsbeschreibungen hierin programmiert (oder programmierbar) sind. Die Vorrichtungsinstanz 701 ist als in einem Aufnahmemodus für Gesangsaudio und darbietungssynchronisiertes Video arbeitend abgebildet, während die Vorrichtungsinstanzen 720A und 720B als in einem Modus arbeitend abgebildet sind, der gemischte audiovisuelle Livestream-Darbietungen empfängt. Obwohl eine fernsehartige Anzeige und/oder ein Set-Top-Box-Gerät 720B als in einem Livestream-Empfangsmodus arbeitend abgebildet ist, kann ein derartiges Gerät und ein derartiger Computer 711 als Teil einer Aufnahmeanlage für Gesangsaudio und darbietungssynchronisiertes Video arbeiten (als Gastvorrichtung 101A oder Gastgebervorrichtung 101B, siehe 1). Jede der vorgenannten Vorrichtungen kommuniziert über drahtlose Datentransport- und/oder zwischenliegende Netzwerke 704 mit einem Server 712 oder einer Dienstplattform, der bzw. die eine Speicherung und/oder Funktionalität hostet, die hierin bezüglich des Inhaltsservers 110 erläutert ist. Die aufgenommenen tonhöhenkorrigierten Gesangsdarbietungen gemischt mit einem darbietungssynchronisierten Video zum Definieren einer audiovisuellen Darbietung mit mehreren Sängern, wie hierin beschrieben, können (optional) an einem Laptop-Computer 711 live gestreamt und audiovisuell wiedergegeben werden.
  • ANDERE AUSFÜHRUNGSFORMEN
  • Obwohl die Erfindung(en) unter Bezugnahme auf verschiedene Ausführungsformen beschrieben ist (sind), wird verstanden, dass diese Ausführungsformen veranschaulichend sind und der Schutzumfang der Erfindung(en) nicht auf diese beschränkt ist. Viele Variationen, Modifikationen, Zusätze und Verbesserungen sind möglich. Obwohl Tonhöhenkorrektur-Gesangsdarbietungen beschrieben wurden, die gemäß einer karaokeartigen Schnittstelle aufgenommen werden, sind zum Beispiel andere Variationen bekannt. Des Weiteren, obwohl gewisse veranschaulichende Signalverarbeitungstechniken im Zusammenhang gewisser veranschaulichender Anwendungen beschrieben wurden, werden Durchschnittsfachleute erkennen, dass es einfach ist, die beschriebenen Techniken zu modifizieren, um anderen geeigneten Signalverarbeitungstechniken und Effekten entgegenzukommen.
  • Ausführungsformen gemäß der vorliegenden Erfindung können die Form eines Computerprogrammprodukts annehmen und/oder als dieses bereitgestellt sein, das in einem maschinenlesbaren Medium als Anweisungsfolgen und andere Funktionskonstrukte von Software codiert ist, die im Gegenzug in einem Rechensystem (wie etwa einem iPhone-Handapparat, einer mobilen oder tragbaren Rechenvorrichtung, einer Medienanwendungsplattform, einer Set-Top-Box oder einer Inhaltsserverplattform) ausgeführt werden können, um hierin beschriebene Verfahren durchzuführen. Im Allgemeinen kann ein maschinenlesbares Medium greifbare Artikel, die Informationen in einer Form (z. B. als Anwendungen, Quell- oder Objektcode, funktionelle deskriptive Informationen usw.) codieren, die durch eine Maschine (z. B. einen Computer, Recheneinrichtungen einer mobilen oder tragbaren Rechenvorrichtung, eine Medienvorrichtung oder einen Streamer usw.) lesbar ist, sowie eine nichtflüchtige Speicherung, die mit der Aussendung der Informationen verbunden ist, beinhalten. Ein maschinenlesbares Medium kann unter anderem ein magnetisches Speicherungsmedium (z. B. Platten- und/oder Bandspeicherung); ein optisches Speicherungsmedium (z. B. CD-ROM, DVD usw.); ein magnetooptisches Speicherungsmedium; einen Nurlesespeicher (ROM); einen Direktzugriffsspeicher (RAM); einen löschbaren programmierbaren Speicher (z. B. EPROM und EEPROM); Flash-Speicher oder andere Arten von Medium beinhalten, die sich zur Speicherung elektronischer Anweisungen, Operationsfolgen, funktionellen deskriptiven Informationscodierungen usw. eignen.
  • Im Allgemeinen können mehrere Instanzen für Komponenten, Operationen oder Strukturen bereitgestellt sein, die hierin als eine einzelne Instanz beschrieben sind. Abgrenzungen zwischen verschiedenen Komponenten, Operationen und Datenspeichern sind in gewisser Hinsicht willkürlich und spezielle Operationen sind im Zusammenhang spezifischer veranschaulichender Konfigurationen veranschaulicht. Andere Zuweisungen von Funktionalität werden in Betracht gezogen und können in den Schutzumfang der Erfindung(en) fallen. Allgemein können Strukturen und Funktionalität, die in den beispielhaften Konfigurationen als separate Komponenten dargelegt sind, als eine kombinierte Struktur oder Komponente implementiert werden. Gleichermaßen können Strukturen und Funktionalität, die als eine einzelne Komponente dargelegt sind, als separate Komponenten implementiert werden. Diese und andere Variationen, Modifikationen, Zusätze und Verbesserungen können in den Schutzumfang der Erfindung(en) fallen.

Claims (50)

  1. Audiokollaborationsverfahren zum Aussenden einer gemeinsamen Darbietung eines geografisch verteilten ersten und zweiten Musikers mit einer nicht vernachlässigbaren Peer-zu-Peer-Kommunikationslatenz zwischen Gastgeber- und Gastvorrichtungen, wobei das Verfahren Folgendes umfasst: Empfangen, an der Gastgebervorrichtung, die als ein lokaler Peer arbeitet, einer Mediencodierung einer gemischten Audiodarbietung, die (i) Gesangsaudio, das an der Gastvorrichtung, die kommunikativ als ein entfernter Peer gekoppelt ist, aufgenommen wird, von einem ersten der Musiker beinhaltet, und (ii) mit einem Backing-Audio-Track gemischt wird; an der Gastgebervorrichtung, hörbares Wiedergeben der empfangenen gemischten Audiodarbietung und demgegenüber Aufnehmen von Gesangsaudio von einem zweiten der Musiker; und Mischen des aufgenommenen Gesangsaudios des zweiten Musikers mit der empfangenen gemischten Audiodarbietung zur Übertragung zu einer Zuhörerschaft als die Aussendung, wobei der Aussendungsmix Gesangsaudio des ersten und zweiten Musikers und den Backing-Audio-Track mit einer vernachlässigbaren zeitlichen Verzögerung dazwischen beinhaltet.
  2. Verfahren nach Anspruch 1, ferner umfassend: über ein großflächiges Netzwerk, Übertragen des Aussendungsmixes zu mehreren Empfängern als ein Livestream, wobei die mehreren Empfänger die Zuhörerschaft bilden.
  3. Verfahren nach Anspruch 1, ferner umfassend: selektives Anschließen, an der Gastgebervorrichtung, des zweiten Musikers, dem ersten Musiker bei der gemeinsamen Darbietung.
  4. Verfahren nach Anspruch 3, wobei der beigetretene erste Musiker aus der Zuhörerschaft ausgewählt wird, und zumindest für die Dauer der gemeinsamen Darbietung von der Livestream-Übertragung der Aussendung zu der Zuhörerschaft entkoppelt wird.
  5. Verfahren nach Anspruch 4, wobei die übertragene Livestream-Aussendung zu der Zuhörerschaft um zumindest mehrere Sekunden bezüglich der Gesangsaudioaufnahme des ersten Musikers zeitlich verzögert ist.
  6. Verfahren nach Anspruch 4, ferner umfassend: Zurückgeben des ersten Musikers zu der Zuhörerschaft und gleichzeitiges Wiedereinkoppeln zu der Livestream-Übertragung.
  7. Verfahren nach Anspruch 6, ferner umfassend: selektives Anschließen eines dritten Musikers als einen neuen entfernten Peer, und danach Empfangen, an der Gastgebervorrichtung, einer zweiten Mediencodierung einer gemischten Audiodarbietung, die (i) Gesangsaudio beinhaltet, das von dem dritten Musiker an einer neuen Gastvorrichtung aufgenommen wird, die kommunikativ als der neue entfernte Peer gekoppelt ist, und (ii) mit einem zweiten Backing-Audio-Track gemischt wird; an der Gastgebervorrichtung, hörbares Wiedergeben der zweiten Mediencodierung und demgegenüber Aufnehmen von zusätzlichem Gesangsaudio vom zweiten Musiker; und Mischen des aufgenommenen zusätzlichen Gesangsaudios mit der empfangenen zweiten Mediencodierung zur Übertragung zu der Zuhörerschaft als eine Fortsetzung der Aussendung, wobei der Aussendungsmix Gesangsaudio des zweiten und dritten Musikers und den zweiten Backing-Audio-Track mit einer vernachlässigbaren zeitlichen Verzögerung dazwischen beinhaltet.
  8. Verfahren nach Anspruch 1, ferner umfassend: Liefern des aufgenommenen Gesangsaudios des zweiten Musikers zu dem entfernten Gastvorrichtungs-Peer zur hörbaren Wiedergabe an der Gastvorrichtung mit zumindest mancher gastseitigen zeitlichen Verzögerung relativ zu der Aufnahme von Gesangsaudio vom ersten Musiker.
  9. Verfahren nach Anspruch 8, wobei die ersichtliche gastseitige zeitliche Verzögerung mindestens etwa 40-1200 ms beträgt.
  10. Verfahren nach Anspruch 8, wobei im Wesentlichen die gesamte nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz in der gastseitigen zeitlichen Verzögerung ersichtlich ist.
  11. Verfahren nach Anspruch 10, wobei im Wesentlichen keine der nicht vernachlässigbaren Peer-zu-Peer-Kommunikationslatenz an der Gastgebervorrichtung oder im Aussendungsmix des ersten und zweiten Musikers ersichtlich ist.
  12. Verfahren nach Anspruch 1, wobei die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz Folgendes beinhaltet: Eingangssignal-zu-Senden-Verzögerung, Netzwerkverzögerung, Jitter-Pufferverzögerung, und Puffer-und-Ausgabe-Verzögerung.
  13. Verfahren nach Anspruch 1, wobei die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz mindestens etwa 100-250 ms beträgt.
  14. Verfahren nach Anspruch 1, wobei die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz etwa 100-600 ms beträgt.
  15. Verfahren nach Anspruch 1, wobei die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz mindestens etwa 30-100 ms beträgt.
  16. Verfahren nach Anspruch 1, wobei der Empfang der gemischten Audiodarbietung an der Gastgebervorrichtung und die Lieferung des aufgenommenen Gesangsaudios des zweiten Musikers zu der Gastvorrichtung über eine audiovisuelle Peer-zu-Peer-Verbindung unter Verwendung eines WebRTC-artigen Frameworks (WebRTC: Web Real-Time Communications - Web-Echtzeit-Kommunikationen) stattfinden.
  17. Verfahren nach Anspruch 1, ferner umfassend: Liefern des Aussendungsmixes von Gesangsaudio des ersten und zweiten Musikers über ein großflächiges Netzwerk.
  18. Verfahren nach Anspruch 17, wobei das Liefern des Aussendungsmixes über ein RTMP-artiges audiovisuelles Streaming-Protokoll (RTMP: Real-Time Messaging Protocol - Echtzeit-Messaging-Protokoll) stattfindet.
  19. Verfahren nach Anspruch 1, wobei zumindest die Gastvorrichtung ein mobiles handgehaltenes Telefon oder einen Medienplayer bildet.
  20. Verfahren nach Anspruch 1, ferner umfassend: an der Gastgebervorrichtung, Tonhöhenkorrigieren von Gesang des zweiten Musikers gemäß einer Gesangspartitur, die eine Folge von Noten für eine Gesangsmelodie codiert.
  21. Verfahren nach Anspruch 20, ferner umfassend: an der Gastgebervorrichtung, Tonhöhenkorrigieren von Gesang des zweiten Musikers gemäß einer Gesangspartitur, die zumindest einen ersten Satz von Harmonienoten für zumindest manche Teile der Gesangsmelodie codiert.
  22. Verfahren nach Anspruch 1, wobei der in der empfangenen gemischten Darbietung enthaltene Gesang des ersten Musikers ein tonhöhenkorrigierter Gesang ist.
  23. Verfahren nach Anspruch 1, wobei der Gesang entweder des ersten oder des zweiten Musikers gemäß einer Gesangspartitur, die eine Folge von Noten für eine Gesangsmelodie codiert, tonhöhenkorrigiert wird; und wobei der Gesang des anderen des ersten und zweiten Musikers gemäß einer Gesangspartitur, die zumindest einen ersten Satz von Harmonienoten für zumindest manche Teile der Gesangsmelodie codiert.
  24. Verfahren nach Anspruch 1, wobei der Gesang des ersten und/oder zweiten Musikers vor dem Einschluss in die Aussendung rechnerisch verarbeitet wird, um einen oder mehrere Audioeffekte anzuwenden.
  25. Verfahren nach Anspruch 24, wobei die angewendeten Audioeffekte eines oder mehrere der Folgenden beinhalten: einen Nachhalleffekt, digitale Filterung, spektrale Entzerrung, nichtlineare Verzerrung, Audiokomprimierung, Tonhöhenkorrektur oder Tonhöhenverschiebung, kanalrelative Verstärkung und/oder Phasenverzögerung, um eine ersichtliche Platzierung des ersten oder zweiten Musikers in einem Stereofeld zu manipulieren.
  26. Verfahren nach Anspruch 1, wobei die empfangene Mediencodierung Video beinhaltet, das mit dem aufgenommenen Gesang des ersten Musikers darbietungssynchronisiert ist, wobei das Verfahren ferner Aufnehmen, an der Gastgebervorrichtung, von Video beinhaltet, das mit dem aufgenommenen Gesang des zweiten Musikers darbietungssynchronisiert ist, und wobei der Aussendungsmix ein audiovisueller Mix von aufgenommenem Audio und Video zumindest des ersten und zweiten Musikers ist.
  27. Verfahren nach Anspruch 26, ferner umfassend: dynamisches Variieren im Aussendungsmix zumindest einer visuellen Prominenz entweder des ersten oder zweiten Musikers basierend auf einer Evaluierung eines rechnerisch definierten Audiomerkmals des Gesangs des ersten und/oder zweiten Musikers.
  28. Verfahren nach Anspruch 26, ferner umfassend: Anwenden eines oder mehrerer Videoeffekte am Aussendungsmix zumindest teilweise basierend auf einem rechnerisch definierten Audio- oder Videomerkmal des Audios oder Videos des ersten und/oder zweiten Musikers.
  29. Verfahren nach Anspruch 1, ferner umfassend: Empfangen, an der Gastgebervorrichtung, von Chat-Nachrichten von Mitgliedern der Zuhörerschaft.
  30. Verfahren nach Anspruch 1, ferner umfassend: Einbeziehen von zumindest manchem Inhalt der Chat-Nachrichten als Teil des Videos des Aussendungsmixes.
  31. Verfahren nach Anspruch 1, ferner umfassend: Empfangen, an der Gastgebervorrichtung, von Chat-Nachrichten und/oder Emojis und/oder animierten GIFs und/oder Abstimmungsindikationen von Mitgliedern der Zuhörerschaft.
  32. Verfahren nach Anspruch 31, ferner umfassend: Einbeziehen einer visuellen Präsentation von zumindest manchen des empfangenen Chat-Nachrichteninhalts, der Emojis, der animierten GIFs oder der Abstimmungsindikationen als Teil des Aussendungsmixes.
  33. Verfahren nach Anspruch 1, ferner umfassend: Einreihen einer Anfragen-Playlist von einem oder mehreren Empfängern des Aussendungsmixes in eine Warteschlange.
  34. Verfahren nach Anspruch 33, ferner umfassend: als Reaktion auf eine Auswahl durch den zweiten Musiker an der Gastgebervorrichtung einer speziellen der Playlist-Anfragen in der Warteschlange, Abrufen des Backing-Audio-Tracks und/oder des Liedtexts und/oder von partiturcodierten Notenzielen aus einem Inhaltsrepositorium.
  35. Verfahren nach Anspruch 33, ferner umfassend: als Reaktion auf eine Auswahl durch den zweiten Musiker an der Gastgebervorrichtung einer speziellen der Playlist-Anfragen in der Warteschlange, Beliefern der kommunikativ gekoppelten Gastvorrichtung mit dem Backing-Audio-Track und/oder Liedtext und/oder partiturcodierten Notenzielen nach Bedarf.
  36. Verfahren nach Anspruch 1, wobei der Aussendungsmix als ein Gesangsduett präsentiert wird.
  37. Verfahren nach Anspruch 1, ferner umfassend: Empfangen, an der Gastgebervorrichtung, einer Mediencodierung von mindestens einer anderen gemischten Audiodarbietung, die (i) Gesangsaudio bildet, das an einer anderen Gastvorrichtung, die kommunikativ als ein anderer entfernter Peer gekoppelt ist, von einem dritten Musiker aufgenommen wird, und (ii) zeitlich mit dem Backing-Audio-Track ausgerichtet oder ausrichtbar ist.
  38. Verfahren nach Anspruch 2, wobei Audio des Livestreams Folgendes beinhaltet: gesprächsartige Audioteile, die entsprechend einem interaktiven Gespräch zwischen dem ersten und zweiten Musiker aufgenommen werden; sowie Gesangsdarbietungsaudioteile, die entsprechend einer musikalischen Gesangsdarbietung des ersten und/oder zweiten Musikers gegenüber dem Backing-Audio-Track aufgenommen werden.
  39. Verfahren nach Anspruch 38, ferner umfassend: Auswählen eines Highlights-Clips-Satzes von Segmenten aus dem Livestream, wobei der Highlights-Clips-Satz von Segmenten allgemein die musikalischen Gesangsdarbietungsteile beinhaltet und allgemein die gesprächsartigen Audioteile ausschließt.
  40. Verfahren nach Anspruch 38, ferner umfassend: Auswählen eines Highlight-Clips-Satzes von Segmenten basierend auf einer Korrespondenz spezieller Audioteile des Livestreams mit Vers-, Refrain- oder Musikabschnittsabgrenzungen, entweder partiturcodiert oder rechnerisch durch eine Audiomerkmalsanalyse bestimmt.
  41. Verfahren nach Anspruch 38, ferner umfassend: Auswählen eines Higlight-Clips-Satzes von Segmenten aus dem Livestream basierend auf Zuhörerschaftreaktionen auf den Livestream und/oder der Liedstruktur und/oder der Audioleistung.
  42. Verfahren nach Anspruch 38, ferner umfassend: als Reaktion auf eine Auswahl durch einen Benutzer, Abspeichern oder Sharing einer audiovisuellen Codierung eines oder mehrerer der Highlight-Clips.
  43. Verfahren nach Anspruch 1, ferner umfassend: Empfangen, von der Gastvorrichtung, einer oder mehrerer Liedtextsynchronisationsmarkierungen, wobei die Liedtextsynchronisationsmarkierungen der Gastgebervorrichtung eine zeitliche Ausrichtung eines Liedtexts übermitteln, der an der Gastvorrichtung mit dem Gesangsaudio, das an der Gastvorrichtung aufgenommen wird, visuell präsentiert wird.
  44. Verfahren nach Anspruch 43, ferner umfassend: visuelles Präsentieren des Liedtextes an der Gastgebervorrichtung, wobei die visuelle Präsentation des Liedtextes zeitlich mit der Mediencodierung der gemischten Audiodarbietung, die von der Gastvorrichtung empfangen wird, basierend auf der bzw. den empfangenen einen oder mehreren Liedtextsynchronisationsmarkierungen ausgerichtet ist.
  45. Verfahren nach Anspruch 43, wobei die eine oder die mehreren empfangenen Liedtextsynchronisationsmarkierungen den Verlauf des Liedtexts, der auf der Gastgebervorrichtung präsentiert wird, mit einer Pause oder anderen zeitlichen Steuerung an der Gastvorrichtung koordinieren.
  46. System zur Ausstrahlung einer scheinbaren Live-Aussendung einer gemeinsamen Darbietung eines geografisch verteilten ersten und zweiten Musikers, wobei das System Folgendes umfasst: Gastgeber- und Gastvorrichtungen, die als lokale und entfernte Peers durch ein Kommunikationsnetzwerk mit einer nicht vernachlässigbaren Peer-zu-Peer-Latenz für Übertragungen von audiovisuellem Inhalt gekoppelt sind, wobei die Gastgebervorrichtung kommunikativ als der lokale Peer gekoppelt ist, um eine Mediencodierung einer gemischten Audiodarbietung, die an der Gastvorrichtung aufgenommenes Gesangsaudio bildet, zu empfangen, und die Gastvorrichtung kommunikativ als der entfernte Peer gekoppelt ist, um die Mediencodierung zu liefern, die von einem ersten der Musiker aufgenommen und mit einem Backing-Audio-Track gemischt wird; die Gastgebervorrichtung dazu ausgelegt ist, die empfangene gemischte Audiodarbietung hörbar wiederzugeben, demgegenüber ein Gesangsaudio von einem zweiten der Musiker aufzunehmen, und das aufgenommene Gesangsaudio des zweiten Musikers mit der empfangenen gemischten Audiodarbietung zur Übertragung als die scheinbare Live-Aussendung zu mischen.
  47. Audiokollaborationsverfahren für eine Livestream-Aussendung einer koordinierten audiovisuellen Arbeit eines ersten und zweiten Musikers, die an jeweiligen geografisch verteilten ersten und zweiten Vorrichtungen aufgenommen wird, wobei das Verfahren Folgendes umfasst: Empfangen, an der zweiten Vorrichtung, einer Mediencodierung einer gemischten Audiodarbietung, die (i) an der ersten Vorrichtung aufgenommenes Gesangsaudio von einem ersten der Musiker beinhaltet, und (ii) mit einem Backing-Audio-Track gemischt wird; an der zweiten Vorrichtung, hörbares Wiedergeben der empfangenen gemischten Audiodarbietung und demgegenüber Aufnehmen von Gesangsaudio von einem zweiten der Musiker; Mischen des aufgenommenen Gesangsaudios des zweiten Musikers mit der empfangenen gemischten Audiodarbietung, um einen Aussendungsmix bereitzustellen, der das aufgenommene Gesangsaudio des ersten und zweiten Musikers und den Backing-Audio-Track ohne eine ersichtliche zeitliche Verzögerung dazwischen beinhaltet; und Liefern des Aussendungsmixes zu einer Dienstplattform, die dazu ausgelegt ist, den Aussendungsmix zu mehreren Empfangsvorrichtungen, die eine Zuhörerschaft bilden, im Livestream zu übertragen.
  48. Verfahren nach Anspruch 47, wobei die erste Vorrichtung mit der zweiten Vorrichtung als ein aktueller Livestream-Gast assoziiert ist, und wobei die zweite Vorrichtung als ein aktueller Livestream-Gastgeber arbeitet, wobei der aktuelle Livestream-Gastgeber die Assoziation und Trennung spezieller Vorrichtungen von der Zuhörerschaft als den aktuellen Livestream-Gast steuert.
  49. Verfahren nach Anspruch 48, wobei der aktuelle Livestream-Gastgeber aus einer Warteschlange von Anfragen von der Zuhörerschaft für eine Assoziation als der aktuelle Livestream-Gast auswählt.
  50. Verfahren nach Anspruch 47, wobei die erste Vorrichtung in einer Livestream-Gastfunktion arbeitet und die zweite Vorrichtung in einer Livestream-Gastgeberfunktion arbeitet, wobei das Verfahren ferner Folgendes umfasst: durch die zweite Vorrichtung, Freigeben der Livestream-Gastgeberfunktion zur Annahme durch eine andere Vorrichtung; und/oder durch die zweite Vorrichtung, Weitergeben der Livestream-Gastgeberfunktion zu einer speziellen Vorrichtung, die aus einem Satz, der die erste Vorrichtung und die Zuhörerschaft umfasst, ausgewählt wird.
DE112018001871.7T 2017-04-03 2018-04-03 Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung Pending DE112018001871T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762480610P 2017-04-03 2017-04-03
US62/480,610 2017-04-03
PCT/US2018/025937 WO2018187360A2 (en) 2017-04-03 2018-04-03 Audiovisual collaboration method with latency management for wide-area broadcast

Publications (1)

Publication Number Publication Date
DE112018001871T5 true DE112018001871T5 (de) 2020-02-27

Family

ID=63671202

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018001871.7T Pending DE112018001871T5 (de) 2017-04-03 2018-04-03 Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung

Country Status (4)

Country Link
US (3) US11032602B2 (de)
CN (1) CN110692252B (de)
DE (1) DE112018001871T5 (de)
WO (1) WO2018187360A2 (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11488569B2 (en) 2015-06-03 2022-11-01 Smule, Inc. Audio-visual effects system for augmentation of captured performance based on content thereof
CN109923609A (zh) * 2016-07-13 2019-06-21 思妙公司 用于音调轨道生成的众包技术
US11611547B2 (en) 2016-11-08 2023-03-21 Dish Network L.L.C. User to user content authentication
US10498794B1 (en) * 2016-11-30 2019-12-03 Caffeine, Inc. Social entertainment platform
US11310538B2 (en) 2017-04-03 2022-04-19 Smule, Inc. Audiovisual collaboration system and method with latency management for wide-area broadcast and social media-type user interface mechanics
DE112018001871T5 (de) 2017-04-03 2020-02-27 Smule, Inc. Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung
US10887387B2 (en) * 2018-01-05 2021-01-05 Barrett Adams Digital media synchronization system and method
US11250825B2 (en) * 2018-05-21 2022-02-15 Smule, Inc. Audiovisual collaboration system and method with seed/join mechanic
WO2019226681A1 (en) * 2018-05-21 2019-11-28 Smule, Inc. Non-linear media segment capture and edit platform
US20220122573A1 (en) * 2018-12-03 2022-04-21 Smule, Inc. Augmented Reality Filters for Captured Audiovisual Performances
WO2020117823A1 (en) 2018-12-03 2020-06-11 Smule, Inc. Augmented reality filters for captured audiovisual performances
CN110267081B (zh) * 2019-04-02 2021-01-22 北京达佳互联信息技术有限公司 直播流处理方法、装置、系统、电子设备及存储介质
CN110109597B (zh) * 2019-05-20 2020-12-22 北京字节跳动网络技术有限公司 一种歌单切换方法、装置、系统、终端和存储介质
CN110366023B (zh) * 2019-06-10 2021-12-07 北京字节跳动网络技术有限公司 一种直播互动方法、装置、介质和电子设备
CN110392276B (zh) * 2019-07-29 2021-06-22 湖南卡罗德音乐集团有限公司 一种基于rtmp协议同步传输midi的直播录播方法
US11695722B2 (en) 2019-07-30 2023-07-04 Sling Media L.L.C. Devices, systems and processes for providing geo-located and content-to-comment synchronized user circles
CN110992920B (zh) * 2019-11-29 2022-04-29 北京达佳互联信息技术有限公司 直播合唱方法、装置、电子设备及存储介质
US11838450B2 (en) 2020-02-26 2023-12-05 Dish Network L.L.C. Devices, systems and processes for facilitating watch parties
CN111510738B (zh) * 2020-04-26 2023-08-11 北京字节跳动网络技术有限公司 一种直播中音频的传输方法及装置
US11563504B2 (en) * 2020-06-25 2023-01-24 Sony Interactive Entertainment LLC Methods and systems for performing and recording live music using audio waveform samples
US11616589B2 (en) * 2020-06-25 2023-03-28 Sony Interactive Entertainment LLC Methods and systems for performing and recording live music near live with no latency
US20220036868A1 (en) * 2020-07-31 2022-02-03 Virtual Music Ensemble Technologies, LLC Automated creation of virtual ensembles
US11606597B2 (en) 2020-09-03 2023-03-14 Dish Network Technologies India Private Limited Devices, systems, and processes for facilitating live and recorded content watch parties
CN114257905B (zh) * 2020-09-23 2023-04-07 华为技术有限公司 音频处理方法、计算机可读存储介质、及电子设备
CN112333051B (zh) * 2021-01-04 2021-04-02 北京创世云科技股份有限公司 一种单向网络延迟确定方法、装置和电子设备
US11758245B2 (en) 2021-07-15 2023-09-12 Dish Network L.L.C. Interactive media events
US20230146585A1 (en) * 2021-11-10 2023-05-11 Harmonix Music Systems, Inc. Techniques of coordinating sensory event timelines of multiple devices
US11849171B2 (en) 2021-12-07 2023-12-19 Dish Network L.L.C. Deepfake content watch parties
US20230179822A1 (en) * 2021-12-07 2023-06-08 Dish Network L.L.C. Karaoke Content Watch Parties
WO2023184032A1 (en) * 2022-03-30 2023-10-05 Syncdna Canada Inc. Method and system for providing a virtual studio environment over the internet

Family Cites Families (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1605497A (en) 1925-01-23 1926-11-02 John W Bate Oil circulator and gauge
US4688464A (en) 1986-01-16 1987-08-25 Ivl Technologies Ltd. Pitch detection apparatus
US5231671A (en) 1991-06-21 1993-07-27 Ivl Technologies, Ltd. Method and apparatus for generating vocal harmonies
US5477003A (en) 1993-06-17 1995-12-19 Matsushita Electric Industrial Co., Ltd. Karaoke sound processor for automatically adjusting the pitch of the accompaniment signal
US8661477B2 (en) * 1994-10-12 2014-02-25 Touchtunes Music Corporation System for distributing and selecting audio and video information and method implemented by said system
JP2820052B2 (ja) 1995-02-02 1998-11-05 ヤマハ株式会社 コーラス効果付与装置
US7989689B2 (en) 1996-07-10 2011-08-02 Bassilic Technologies Llc Electronic music stand performer subsystems and music communication methodologies
JP3952523B2 (ja) 1996-08-09 2007-08-01 ヤマハ株式会社 カラオケ装置
JP3246347B2 (ja) 1996-08-26 2002-01-15 ヤマハ株式会社 カラオケシステム
JP3718919B2 (ja) 1996-09-26 2005-11-24 ヤマハ株式会社 カラオケ装置
JP3709631B2 (ja) 1996-11-20 2005-10-26 ヤマハ株式会社 カラオケ装置
US5966687A (en) 1996-12-30 1999-10-12 C-Cube Microsystems, Inc. Vocal pitch corrector
JP3900580B2 (ja) 1997-03-24 2007-04-04 ヤマハ株式会社 カラオケ装置
US6336092B1 (en) 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6971882B1 (en) 1998-01-07 2005-12-06 Electric Planet, Inc. Method and apparatus for providing interactive karaoke entertainment
US6477506B1 (en) 1998-02-23 2002-11-05 Sony Corporation Terminal apparatus, information service center, transmitting system, and transmitting method
US6369311B1 (en) 1999-06-25 2002-04-09 Yamaha Corporation Apparatus and method for generating harmony tones based on given voice signal and performance data
JP3365354B2 (ja) 1999-06-30 2003-01-08 ヤマハ株式会社 音声信号または楽音信号の処理装置
US6353174B1 (en) 1999-12-10 2002-03-05 Harmonix Music Systems, Inc. Method and apparatus for facilitating group musical interaction over a network
JP2004538496A (ja) 1999-12-20 2004-12-24 ハンセウルソフト カンパニー リミテッド ネットワーク基盤の音楽演奏/歌の伴奏サービスシステム及びその方法
US6643372B2 (en) 2000-03-08 2003-11-04 Dennis L. Ford Apparatus and method for music production by at least two remotely located music sources
US6751439B2 (en) 2000-05-23 2004-06-15 Great West Music (1987) Ltd. Method and system for teaching music
US6535269B2 (en) 2000-06-30 2003-03-18 Gary Sherman Video karaoke system and method of use
US7068596B1 (en) 2000-07-07 2006-06-27 Nevco Technology, Inc. Interactive data transmission system having staged servers
JP4356226B2 (ja) 2000-09-12 2009-11-04 ソニー株式会社 サーバ装置、配信システム、配信方法、及び端末装置
US7085613B2 (en) 2000-11-03 2006-08-01 International Business Machines Corporation System for monitoring audio content in a video broadcast
JP2002149166A (ja) 2000-11-09 2002-05-24 Yamaha Corp 楽曲情報配信装置、方法、及び記録媒体
US6898637B2 (en) 2001-01-10 2005-05-24 Agere Systems, Inc. Distributed audio collaboration method and apparatus
JP4423790B2 (ja) 2001-01-11 2010-03-03 ソニー株式会社 実演システム、ネットワークを介した実演方法
RU2178922C1 (ru) 2001-03-28 2002-01-27 Ровнер Яков Шоел-Берович Мобильная система караоке
US6917912B2 (en) 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
US20050106546A1 (en) 2001-09-28 2005-05-19 George Strom Electronic communications device with a karaoke function
US7928310B2 (en) 2002-11-12 2011-04-19 MediaLab Solutions Inc. Systems and methods for portable audio synthesis
JP4042571B2 (ja) 2003-01-15 2008-02-06 ヤマハ株式会社 コンテンツ提供方法及び装置
JP2005012674A (ja) 2003-06-20 2005-01-13 Canon Inc 画像表示方法及びそれを実行するプログラム並びに画像表示装置
US20060206582A1 (en) 2003-11-17 2006-09-14 David Finn Portable music device with song tag capture
JP4305153B2 (ja) 2003-12-04 2009-07-29 ヤマハ株式会社 音楽セッション支援方法、音楽セッション用楽器
KR100570633B1 (ko) 2003-12-05 2006-04-12 한국전자통신연구원 셋탑박스를 이용한 노래반주 서비스 시스템 및 그 방법
US7164076B2 (en) 2004-05-14 2007-01-16 Konami Digital Entertainment System and method for synchronizing a live musical performance with a reference performance
JP2008517305A (ja) 2004-09-27 2008-05-22 コールマン、デーヴィッド 遠隔のボイス・オーバまたは音楽の制作と管理の方法および装置
US7297858B2 (en) 2004-11-30 2007-11-20 Andreas Paepcke MIDIWan: a system to enable geographically remote musicians to collaborate
US7825321B2 (en) 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
JP2006311079A (ja) 2005-04-27 2006-11-09 Victor Co Of Japan Ltd 画像ビットストリーム変換装置
JP2007025933A (ja) 2005-07-14 2007-02-01 Hitachi Ltd ストレージシステム及びそのファームウェア自動更新方法
KR100748060B1 (ko) 2005-08-05 2007-08-09 주식회사 오아시스미디어 실시간 다층 동영상 합성 시스템을 이용한 인터넷 방송시스템 및 이를 이용한 인터넷 방송 제공방법
US7899389B2 (en) 2005-09-15 2011-03-01 Sony Ericsson Mobile Communications Ab Methods, devices, and computer program products for providing a karaoke service using a mobile terminal
TWI295433B (en) 2005-09-22 2008-04-01 Asustek Comp Inc Karaoke apparatus and the method thereof
US7853342B2 (en) 2005-10-11 2010-12-14 Ejamming, Inc. Method and apparatus for remote real time collaborative acoustic performance and recording thereof
US20070150082A1 (en) 2005-12-27 2007-06-28 Avera Technology Ltd. Method, mechanism, implementation, and system of real time listen-sing-record STAR karaoke entertainment (STAR "Sing Through And Record")
US20070245882A1 (en) 2006-04-04 2007-10-25 Odenwald Michael J Interactive computerized digital media management system and method
US20070245881A1 (en) 2006-04-04 2007-10-25 Eran Egozy Method and apparatus for providing a simulated band experience including online interaction
WO2007121776A1 (en) 2006-04-21 2007-11-01 Nero Ag Apparatus and method for encoding and decoding plurality of digital data sets
US8019815B2 (en) 2006-04-24 2011-09-13 Keener Jr Ellis Barlow Interactive audio/video method on the internet
US20070287141A1 (en) 2006-05-11 2007-12-13 Duane Milner Internet based client server to provide multi-user interactive online Karaoke singing
JP2008004134A (ja) 2006-06-20 2008-01-10 Sony Corp 音楽再生方法および音楽再生装置
US8010350B2 (en) 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
US8667160B1 (en) * 2007-02-02 2014-03-04 Max Haot System and method for internet audio/video delivery
EP2118769A2 (de) * 2007-02-09 2009-11-18 Dilithium Networks Pty Ltd. Verfahren und vorrichtung für ein system zur bereitstellung von mehrwert-multimediadiensten
US7838755B2 (en) 2007-02-14 2010-11-23 Museami, Inc. Music-based search engine
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8108144B2 (en) 2007-06-28 2012-01-31 Apple Inc. Location based tracking
WO2009003347A1 (fr) 2007-06-29 2009-01-08 Multak Technology Development Co., Ltd Appareil de karaoké
CN101080000A (zh) 2007-07-17 2007-11-28 华为技术有限公司 视频会议中显示发言人的方法、系统、服务器和终端
US8138409B2 (en) 2007-08-10 2012-03-20 Sonicjam, Inc. Interactive music training and entertainment system
KR20070099501A (ko) 2007-09-18 2007-10-09 테크온팜 주식회사 노래 학습 시스템 및 방법
US20090106429A1 (en) 2007-10-22 2009-04-23 Matthew L Siegal Collaborative music network
US8173883B2 (en) 2007-10-24 2012-05-08 Funk Machine Inc. Personalized music remixing
US7973230B2 (en) 2007-12-31 2011-07-05 Apple Inc. Methods and systems for providing real-time feedback for karaoke
EP2141689A1 (de) * 2008-07-04 2010-01-06 Koninklijke KPN N.V. Erzeugung eines Stroms mit interaktivem Inhalt
US8487173B2 (en) 2009-06-30 2013-07-16 Parker M. D. Emmerson Methods for online collaborative music composition
KR20100057307A (ko) 2008-11-21 2010-05-31 삼성전자주식회사 노래점수 평가방법 및 이를 이용한 가라오케 장치
US8233026B2 (en) 2008-12-23 2012-07-31 Apple Inc. Scalable video encoding in a multi-view camera system
CN101853498B (zh) 2009-03-31 2012-01-11 华为技术有限公司 图像合成方法及图像处理装置
US8222507B1 (en) 2009-11-04 2012-07-17 Smule, Inc. System and method for capture and rendering of performance on synthetic musical instrument
US20110126103A1 (en) 2009-11-24 2011-05-26 Tunewiki Ltd. Method and system for a "karaoke collage"
US8983829B2 (en) 2010-04-12 2015-03-17 Smule, Inc. Coordinating and mixing vocals captured from geographically distributed performers
US9058797B2 (en) 2009-12-15 2015-06-16 Smule, Inc. Continuous pitch-corrected vocal capture device cooperative with content server for backing track mix
US8682653B2 (en) 2009-12-15 2014-03-25 Smule, Inc. World stage for pitch-corrected vocal performances
US20110154197A1 (en) 2009-12-18 2011-06-23 Louis Hawthorne System and method for algorithmic movie generation based on audio/video synchronization
US9601127B2 (en) 2010-04-12 2017-03-21 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
CN102456340A (zh) 2010-10-19 2012-05-16 盛大计算机(上海)有限公司 基于互联网的卡拉ok对唱方法及系统
US9866731B2 (en) * 2011-04-12 2018-01-09 Smule, Inc. Coordinating and mixing audiovisual content captured from geographically distributed performers
US8938393B2 (en) 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
US9135311B2 (en) 2012-03-20 2015-09-15 Tagboard, Inc. Gathering and contributing content across diverse sources
WO2013149188A1 (en) 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
US8806518B2 (en) * 2012-06-27 2014-08-12 Intel Corporation Performance analysis for combining remote audience responses
US20140105411A1 (en) * 2012-10-16 2014-04-17 Peter Santos Methods and systems for karaoke on a mobile device
CN102982832B (zh) * 2012-11-24 2015-05-27 安徽科大讯飞信息科技股份有限公司 一种在线卡拉ok伴奏、人声与字幕的同步方法
US10971191B2 (en) 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
US9459768B2 (en) 2012-12-12 2016-10-04 Smule, Inc. Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters
US9872079B2 (en) * 2013-03-15 2018-01-16 The Roger B. And Ann K. Mcnamee Trust U/T/A/D Systems and methods for distributing audio/video feed of a live event via satellite
US9288435B2 (en) 2013-03-27 2016-03-15 Google Inc. Speaker switching delay for video conferencing
WO2015103415A1 (en) 2013-12-31 2015-07-09 Smule, Inc. Computationally-assisted musical sequencing and/or composition techniques for social music challenge or competition
WO2016070080A1 (en) 2014-10-30 2016-05-06 Godfrey Mark T Coordinating and mixing audiovisual content captured from geographically distributed performers
KR101605497B1 (ko) 2014-11-13 2016-03-22 유영재 음악 반주 장치를 이용한 콜라보레이션 방법
JP6457326B2 (ja) 2015-04-28 2019-01-23 株式会社第一興商 歌唱音声の伝送遅延に対応したカラオケシステム
US9911403B2 (en) 2015-06-03 2018-03-06 Smule, Inc. Automated generation of coordinated audiovisual work based on content captured geographically distributed performers
JP6696140B2 (ja) * 2015-09-30 2020-05-20 ヤマハ株式会社 音響処理装置
US11093210B2 (en) * 2015-10-28 2021-08-17 Smule, Inc. Wireless handheld audio capture device and multi-vocalist method for audiovisual media application
US10257174B2 (en) * 2016-01-20 2019-04-09 Medicom Technologies, Inc. Methods and systems for providing secure and auditable transfer of encrypted data between remote locations
US9812105B2 (en) * 2016-03-29 2017-11-07 Mixed In Key Llc Apparatus, method, and computer-readable storage medium for compensating for latency in musical collaboration
US10447931B2 (en) * 2016-04-01 2019-10-15 Tdk Taiwan Corp. Camera module having electromagnetic driving assembly
EP3440839A4 (de) * 2016-04-06 2019-08-28 Charles R. Tudor Videorundfunk über ausgewählte video-hosts
CN109923609A (zh) * 2016-07-13 2019-06-21 思妙公司 用于音调轨道生成的众包技术
DE112018001871T5 (de) 2017-04-03 2020-02-27 Smule, Inc. Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung

Also Published As

Publication number Publication date
US20180288467A1 (en) 2018-10-04
US20230353812A1 (en) 2023-11-02
CN110692252A (zh) 2020-01-14
US11032602B2 (en) 2021-06-08
WO2018187360A3 (en) 2018-11-15
WO2018187360A2 (en) 2018-10-11
US11553235B2 (en) 2023-01-10
US20220030056A1 (en) 2022-01-27
CN110692252B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
DE112018001871T5 (de) Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung
US11683536B2 (en) Audiovisual collaboration system and method with latency management for wide-area broadcast and social media-type user interface mechanics
US11394855B2 (en) Coordinating and mixing audiovisual content captured from geographically distributed performers
US20230335094A1 (en) Audio-visual effects system for augmentation of captured performance based on content thereof
US8782176B2 (en) Synchronized video system
US20210174837A1 (en) Template-Based Excerpting and Rendering of Multimedia Performance
US20220051448A1 (en) Augmented reality filters for captured audiovisual performances
CN110910860A (zh) 线上ktv实现方法、装置、电子设备及存储介质
US10262693B2 (en) Direct media feed enhanced recordings
US20220122573A1 (en) Augmented Reality Filters for Captured Audiovisual Performances
WO2016070080A1 (en) Coordinating and mixing audiovisual content captured from geographically distributed performers
CN112567758A (zh) 具有时延管理和社交媒体类型用户界面机构的视听实况流系统和方法
Deal et al. Auksalaq, A telematic opera
Alexandraki et al. Enabling virtual music performance communities
CN111345044B (zh) 基于所捕获的表演的内容来增强该表演的视听效果系统
WO2014169634A1 (zh) 媒体播放处理方法、装置、系统及媒体服务器
Cook Telematic music: History and development of the medium and current technologies related to performance
Elen Music in the metaverse
WO2023184032A1 (en) Method and system for providing a virtual studio environment over the internet
Alexandraki et al. DIAMOUSES-An Experimental Platform for Network-based Collaborative Musical Interactions
Crundwell Areas of remote music collaboration on the Internet: exploring constraints and possibilities through four case studies.
JP2014230241A (ja) ラジオ番組配信システム、ラジオ番組連動処理方法及びラジオ番組連動処理プログラム