DE112018001871T5

DE112018001871T5 - Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung

Info

Publication number: DE112018001871T5
Application number: DE112018001871.7T
Authority: DE
Inventors: Anton Holmberg; Benjamin Hersh; Jeannie Yang; Perry R. Cook; Jeffry C. Smith
Original assignee: Smule Inc
Current assignee: Smule Inc
Priority date: 2017-04-03
Filing date: 2018-04-03
Publication date: 2020-02-27
Also published as: US20180288467A1; US20230353812A1; CN110692252A; US11032602B2; WO2018187360A3; WO2018187360A2; US11553235B2; US20220030056A1; CN110692252B

Abstract

[1051] Es sind Techniken zum Ermöglichen des Livestreamings von audiovisuellen Gruppendarbietungen entwickelt worden. Audiovisuelle Darbietungen einschließlich Gesangsmusik werden aufgenommen und mit Darbietungen anderer Benutzer auf Weisen koordiniert, die fesselnde Benutzer- und Zuhörererlebnisse erzeugen können. Bei manchen Fällen oder Ausführungsformen können zum Beispiel Duette mit einem Gastgebermusiker in einem Sing-mit-dem-Künstler-artigen audiovisuellen Livestream unterstützt werden, in dem aufstrebende Sänger spezielle Lieder für ein Live-Radioshow-Entertainmentformat anfordern oder in eine Warteschlange einreihen. Die entwickelten Techniken stellen einen kommunikationslatenztoleranten Mechanismus zum Synchronisieren von Gesangsdarbietungen bereit, die an geografisch getrennten Vorrichtungen (z. B. an global verteilten, aber netzwerkverbundenen Mobiltelefonen oder Tablets oder an audiovisuellen Aufnahmevorrichtungen, die von einem Live-Studio geografisch getrennt sind) aufgenommen werden.

Description

Technisches Gebiet
Die Erfindung betrifft allgemein die Aufnahme, die Verarbeitung und/oder das Aussenden von audiovisuellen Darbietungen mehrerer Musiker und insbesondere Techniken, die sich zum Verwalten einer Übertragungslatenz für audiovisuellen Inhalt eignen, der im Zusammenhang einer audiovisuellen Fast-Echtzeit-Kollaboration mehrerer geografisch verteilter Musiker aufgenommen wird.
Stand der Technik
Die installierte Basis von Mobiltelefonen, persönlichen Medienplayern und tragbaren Rechenvorrichtungen zusammen mit Medien-Streamers und Fernseh-Set-Top-Boxen wächst jeden Tag in der bloßen Anzahl und Rechenleistung an. Viele dieser Vorrichtungen überschreiten kulturelle und ökonomische Barrieren, da sie weltweit allgegenwärtig in den Lebensweisen der Menschen tief verwurzelt sind. Rechnerisch bieten diese Rechenvorrichtungen Geschwindigkeit und Speicherfähigkeiten an, die mit einer Engineering-Workstation oder Arbeitsgruppencomputern von vor weniger als zehn Jahren vergleichbar sind, und beinhalten typischerweise leistungsstarke Medienprozessoren, die sie für Echtzeit-Klangsynthese und andere Musikanwendungen geeignet machen. Zum Teil aus diesen Gründen unterstützen manche tragbaren handgehaltenen Vorrichtungen, wie etwa iPhone^®, iPad^®, iPod Touch^® und andere iOS^®- oder Android-Vorrichtungen, sowie Medienanwendungsplattformen und Set-Top-Box(STB)-artige Vorrichtungen, wie etwa AppleTV^®-Vorrichtungen, Audio- und Videoverarbeitung recht kompetent, während sie zur gleichen Zeit Plattformen bereitstellen, die sich für fortgeschrittene Benutzeroberflächen eignen. Tatsächlich haben Anwendungen wie etwa die Smule Ocarina™-, Leaf Trombone^®-, I Am T-Pain™-, AutoRap®-, Sing! Karaoke™-, Guitar! By Smule^®- und Magic Piano^®-Apps, die von Smule, Inc. verfügbar sind, gezeigt, dass fortgeschrittene digitale Akustiktechniken unter Verwendung derartiger Vorrichtungen auf eine Weise geliefert werden können, die fesselnde Musikerlebnisse bereitstellt.
Sing! Karaoke™-Implementierungen haben zuvor eine Ansammlung von Gesangsdarbietungen demonstriert, die auf einer Nichtechtzeit-Basis bezüglich zueinander unter Verwendung von geografisch verteilten handgehaltenen Vorrichtungen aufgenommen werden, sowie Implementierungen, bei denen eine enger gekoppelte Koordination zwischen tragbaren handgehaltenen Vorrichtungen und einer lokalen Medienanwendungsplattform (z. B. raumintern) unterstützt wird, typischerweise mit Kurzstrecken-Kommunikationen mit vernachlässigbarer Latenz auf demselben lokalen oder persönlichen Netzwerksegment. Verbesserte Techniken und Funktionsfähigkeiten sind gewünscht, um ein inniges Gefühl von „jetzt“ oder „Lebhaftigkeit“ zu kollaborativen Gesangsdarbietungen zu erweitern, bei denen die Musiker um wesentlichere geografische Abstände , und ungeachtet von nicht vernachlässigbaren Kommunikationslatenzen zwischen Vorrichtungen voneinander getrennt sind.
Während Forscher versuchen, ihre Neuerungen in kommerzielle Anwendungen umzuwandeln, die in modernen handgehaltenen Vorrichtungen und Medienanwendungsplattformen in den Einschränkungen der realen Welt, die durch den Prozessor, Speicher und andere beschränkte Rechenressourcen davon auferlegt werden, und/oder mit für drahtlose und großflächige Netze typischen Kommunikationsbandbreiten- und Übertragungslatenzeinschränkungen, einsetzbar sind, bestehen erhebliche praktische Herausforderungen. Während zum Beispiel Anwendungen wie etwa Sing! Karaoke die Aussicht von audiovisuellen Mixes nach der Darbietung demonstriert haben, um Gesangsduette oder kollaborative Gesangsdarbietungen größerer Anzahlen von Musikern zu simulieren, hat sich das Erzeugen eines Gefühls von Jetzt- und Live-Kollaborationen ohne eine physische Kolokation als schwer fassbar herausgestellt.
Verbesserte Techniken und Funktionsfähigkeiten sind gewünscht, insbesondere bezüglich der Verwaltung von Kommunikationslatenzen und des aufgenommenen audiovisuellen Inhalts auf eine derartige Weise, dass eine kombinierte audiovisuelle Darbietung nichtsdestotrotz auf eine Art und Weise ausgestrahlt (z. B. übertragen) werden kann, die Empfängern, Zuhörern und/oder Zuschauern als eine interaktive Live-Kollaboration von geografisch verteilten Musikern dargeboten wird. Zuhörerschaftsbeteiligungs- und -teilnahmegebilde, die ein inniges Gefühl von „jetzt“ und „Lebhaftigkeit“ liefern, sind auch gewünscht.
Offenbarung der Erfindung(en)
Es ist entdeckt worden, dass audiovisuelle Darbietungen einschließlich Gesangsmusik trotz praktischer Beschränkungen, die durch mobile Vorrichtungsplattformen und Medienanwendungsausführungsumgebungen auferlegt werden, aufgenommen und mit jenen anderer Benutzer auf Weisen koordiniert werden können, die fesselnde Benutzer- und Zuhörererlebnisse erzeugen. In manchen Fällen werden die Gesangsdarbietungen von kollaborierenden Mitwirkenden (zusammen mit darbietungssynchronisiertem Video) im Zusammenhang einer karaokeartigen Präsentation eines Liedtexts und entsprechend einer hörbaren Wiedergabe eines Backing-Tracks aufgenommen. In manchen Fällen wird Gesang (und typischerweise synchronisiertes Video) als Teil einer Live- oder improvisierten Darbietung mit Gesangsinteraktionen (z. B. Duett oder Dialog) zwischen kollaborierenden Mitwirkenden aufgenommen. In jedem Fall wird in Betracht gezogen, dass nicht vernachlässigbare Netzwerkkommunikationslatenzen zwischen zumindest manchen der kollaborierenden Mitwirkenden vorhanden sein werden, insbesondere, wenn diese Mitwirkenden geografisch getrennt sind. Infolgedessen besteht eine technische Herausforderung, Latenzen und den aufgenommenen audiovisuellen Inhalt auf eine derartige Weise zu verwalten, dass eine kombinierte audiovisuelle Darbietung nichtsdestotrotz auf eine Art und Weise ausgestrahlt (z. B. übertragen) werden kann, die Empfängern, Zuhörern und/oder Zuschauern als eine interaktive Live-Kollaboration dargeboten wird.
Bei einer Technik zum Erzielen dieser Reproduktion einer interaktiven Live-Darbietungskollaboration wird eine tatsächliche und nicht vernachlässigbare Netzwerkkommunikationslatenz (im Endeffekt) in eine Richtung zwischen einem Gast- und einem Gastgeber-Musiker maskiert und in die andere Richtung toleriert. Eine aufgenommene audiovisuelle Darbietung eines Gastmusikers bei einer „Live Show“-Internetübertragung eines Gastgebermusikers könnte zum Beispiel ein Duett von Gast + Gastgeber beinhalten, das in anscheinender Echtzeit-Synchronie gesungen wird. In manchen Fällen könnte der Gast ein Musiker sein, der eine spezielle Musikdarbietung popularisiert hat. In manchen Fällen könnte der Gast ein Amateursänger sein, dem die Möglichkeit gegeben wurde, „live“ (wenngleich entfernt) mit dem beliebten Künstler oder der beliebten Gruppe „im Studio“ als der (oder mit dem) Gastgeber der Show zu singen. Ungeachtet einer nicht vernachlässigbaren Netzwerkkommunikationslatenz vom Gast zum Gastgeber, die bei der Übermittlung des audiovisuellen Beitrags-Streams des Gastes vorhanden ist (vielleicht 200-500 ms oder mehr), bietet der Gastgeber in scheinbarer Synchronie (obwohl im absoluten Sinn zeitlich verzögert) mit dem Gast dar und der scheinbar synchron dargebotene Gesang wird aufgenommen und mit dem Beitrag des Gastes gemischt, um übertragen oder ausgestrahlt zu werden.
Das Ergebnis ist eine scheinbar interaktive Live-Darbietung (zumindest aus der Perspektive des Gastgebers und der Empfänger, Zuhörer und/oder Zuschauer der ausgestrahlten oder übertragenen Darbietung). Obwohl die nicht vernachlässigbare Netzwerkkommunikationslatenz vom Gast zum Gastgeber maskiert ist, versteht sich, dass eine Latenz vorhanden ist und in die Gastgeber-zu-Gast-Richtung toleriert wird. Obwohl die Gastgeber-zu-Gast-Latenz für den Gast wahrnehmbar (und vielleicht recht bemerkbar) ist, muss sie nicht= in der scheinbaren Live-Aussendung oder einer anderen Ausstrahlung erkennbar sein. Es wurde entdeckt, dass eine verzögerte hörbare Wiedergabe eines Gastgeber-Gesangs (oder allgemeiner der aufgenommenen audiovisuellen Darbietung des Gastgebers) die Darbietung des Gastes nicht psychoakustisch beeinträchtigen muss.
Ein darbietungssynchronisiertes Video kann aufgenommen und in einer kombinierten audiovisuellen Darbietung kombiniert werden, die die scheinbare Live-Aussendung bildet, wohingegen Bildmaterial zumindest teilweise auf zeitlich variierenden, rechnerisch definierten Audiomerkmalen basieren kann, die aus aufgenommenem Gesangsaudio extrahiert (oder darüber berechnet) werden. In manchen Fällen oder Ausführungsformen sind diese rechnerisch definierten Audiomerkmale über den Verlauf eines koordinierten audiovisuellen Mixes für ein spezielles synchronisiertes Video eines oder mehrerer der beitragenden Sänger (oder deren Prominenz) auswählbar.
Optional und in manchen Fällen oder Ausführungsformen kann Gesangsaudio in Echtzeit an der Vorrichtung des Gastmusikers (oder allgemeiner an einer tragbaren Rechenvorrichtung, wie etwa einem Mobiltelefon, einem Personal Digital Assistant, einem Laptop-Computer, einem Notebook-Computer, einem Pad-artigen Computer oder einem Netbook, oder auf einem Inhalts- oder Medienanwendungsserver) gemäß Tonhöhenkorrektureinstellungen tonhöhenkorrigiert werden. In manchen Fällen codieren die Tonhöhenkorrektureinstellungen eine spezielle Tonart oder Tonleiter für die Gesangsdarbietung oder Teile davon. In manchen Fällen beinhalten die Tonhöhenkorrektureinstellungen eine partiturcodierte Melodie und/oder Harmoniefolge, die mit dem Liedtext und Backing-Tracks geliefert wird, oder die mit diesen assoziiert werden soll. Harmonienoten oder Akkorde können als explizite Ziele oder relativ zu der partiturcodierten Melodie oder selbst zu tatsächlichen Tonhöhen, die durch einen Sänger gesungen werden, codiert werden, falls gewünscht.
Durch das Verwenden von hochgeladenem Gesang, der bei Gastmusikervorrichtungen, wie etwa den zuvor genannten tragbaren Rechenvorrichtungen, aufgenommen wird, kann ein Inhaltsserver oder Dienst für den Gastgeber koordinierte Darbietungen ferner vermitteln, indem der hochgeladene audiovisuelle Inhalt mehrerer beitragender Sänger für eine weitere Aussendung oder eine andere Ausstrahlung manipuliert und gemischt wird. In Abhängigkeit von den Zielen und der Implementierung eines speziellen Systems können die Uploads zusätzlich zu dem Videoinhalt tonhöhenkorrigierte Gesangsdarbietungen (mit oder ohne Harmonien), trockenen (d. h. unkorrigierten) Gesang und/oder Kontroll-Tracks von Benutzertonart- und/oder -tonhöhenkorrekturauswahlen usw. beinhalten.
Synthetisierte Harmonien und/oder zusätzlicher Gesang (z. B. Gesang, der von einem anderen Sänger an noch einem anderen Ort aufgenommen wird und optional tonhöhenverschoben wird, um mit anderem Gesang harmonisiert zu werden) können auch im Mix enthalten sein. Ein Geocodieren von aufgenommenen Gesangsdarbietungen (oder individueller Beiträge zu einer kombinierten Darbietung) und/oder Zuhörerfeedback kann Animationen oder Anzeigeartefakte auf Weisen ermöglichen, die eine Darbietung oder Befürwortung suggerieren, die aus einem speziellen geografischen Ort auf einer benutzermanipulierbaren Weltkugel hervorgeht. Auf diese Weise können Implementierungen der beschriebenen Funktionalität ansonsten alltägliche mobile Vorrichtungen und Wohnzimmer- oder Entertainmentsysteme in soziale Instrumente transformieren, die ein einzigartiges Gefühl von globaler Konnektivität, Kollaboration und Gemeinschaft fördern.
Bei manchen Ausführungsformen gemäß der vorliegenden Erfindung(en) ist ein Audiokollaborationsverfahren zum Aussenden einer gemeinsamen Darbietung von geografisch verteilten Musikern mit nicht vernachlässigbarer Peer-zu-Peer-Kommunikationslatenz zwischen Gastgeber- und Gastvorrichtungen bereitgestellt. Das Verfahren beinhaltet (1) Empfangen an der Gastgebervorrichtung, die als ein lokaler Peer arbeitet, einer Mediencodierung einer gemischten Audiodarbietung, die (i) Gesangsaudio beinhaltet, das an der Gastvorrichtung, die kommunikativ als ein entfernter Peer gekoppelt ist, von einem ersten der Musiker aufgenommen wird, und (ii) mit einem Backing-Audio-Track gemischt wird; (2) an der Gastgebervorrichtung, hörbares Wiedergeben der empfangenen gemischten Audiodarbietung und demgegenüber Aufnehmen von Gesangsaudio von einem zweiten der Musiker; und (3) Mischen des aufgenommenen Gesangsaudios des zweiten Musikers mit der empfangenen gemischten Audiodarbietung zur Übertragung zu einer Zuhörerschaft als die Aussendung, wobei der Aussendungsmix Gesangsaudio des ersten und zweiten Musikers und den Backing-Audio-Track mit einer vernachlässigbaren zeitlichen Verzögerung dazwischen beinhaltet.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Übertragen des Aussendungsmixes als einen Livestream über ein großflächiges Netzwerk zu mehreren Empfängern, wobei die mehreren Empfänger die Zuhörerschaft bilden. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner ein selektives Anschließen, an der Gastgebervorrichtung, des zweiten Musikers dem ersten Musiker bei der gemeinsamen Darbietung. Bei manchen Fällen oder Ausführungsformen wird der beigetretene erste Musiker aus der Zuhörerschaft ausgewählt und wird zumindest für die Dauer der gemeinsamen Darbietung von der Livestream-Übertragung der Aussendung zu der Zuhörerschaft entkoppelt. In manchen Fällen oder Ausführungsformen ist die übertragene Livestream-Aussendung zu der Zuhörerschaft um zumindest mehrere Sekunden bezüglich der Gesangsaudioaufnahme des ersten Musikers zeitlich verzögert.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Zurückgeben des ersten Musikers zu der Zuhörerschaft und gleichzeitiges Wiedereinkoppeln zu der Livestream-Übertragung. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner selektives Anschließen eines dritten Musikers als einen neuen entfernten Peer und danach (1) Empfangen, an der Gastgebervorrichtung, einer zweiten Mediencodierung, die (i) Gesangsaudio beinhaltet, das von dem dritten Musiker an einer neuen Gastvorrichtung, die kommunikativ als der neue entfernte Peer gekoppelt ist, aufgenommen wird, und (ii) mit einem zweiten Backing-Audio-Track gemischt wird; (2) an der Gastgebervorrichtung, hörbares Wiedergeben der zweiten Mediencodierung und demgegenüber Aufnehmen von zusätzlichem Gesangsaudio vom zweiten Musiker; und (3) Mischen des aufgenommenen zusätzlichen Gesangsaudios mit der empfangenen zweiten Mediencodierung zur Übertragung zu der Zuhörerschaft als eine Fortsetzung der Aussendung, wobei der Aussendungsmix Gesangsaudio des zweiten und dritten Musikers und den zweiten Backing-Audio-Track mit einer vernachlässigbaren zeitlichen Verzögerung dazwischen beinhaltet.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Liefern des aufgenommenen Gesangsaudios des zweiten Musikers zu dem entfernten Gastvorrichtung-Peer zur hörbaren Wiedergabe an der Gastvorrichtung mit zumindest mancher gastseitigen zeitlichen Verzögerung bezüglich der Aufnahme von Gesangsaudio vom ersten Musiker. Bei manchen Fällen oder Ausführungsformen beträgt die ersichtliche gastseitige zeitliche Verzögerung mindestens etwa 40-1200 ms.
Bei manchen Fällen oder Ausführungsformen ist im Wesentlichen die gesamte nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz in der gastseitigen zeitlichen Verzögerung ersichtlich. Bei manchen Fällen oder Ausführungsformen ist im Wesentlichen keine der nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz an der Gastgebervorrichtung oder im Aussendungsmix eines ersten und zweiten Musikers ersichtlich. Bei manchen Fällen oder Ausführungsformen beinhaltet die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz ein Eingangssignal zum Senden von Verzögerung, Netzwerkverzögerung, Jitter-Pufferverzögerung und Puffer-und-Ausgabe-Verzögerung. Die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz kann variieren und kann in manchen Fällen psychoakustisch maßgeblich sein. Bei manchen Fällen oder Ausführungsformen beträgt die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz mindestens etwa 30-100 ms. Bei manchen Fällen oder Ausführungsformen beträgt die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz mindestens etwa 100-250 ms. Bei manchen Fällen oder Ausführungsformen beträgt die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz etwa 100-600 ms.
Bei manchen Fällen oder Ausführungsformen finden der Empfang an der Gastgebervorrichtung der gemischten Audiodarbietung und die Lieferung des aufgenommenen Gesangsaudios des zweiten Musikers zu der Gastvorrichtung über eine audiovisuelle Peer-zu-Peer-Verbindung unter Verwendung eines WebRTC-artigen Frameworks (WebRTC: Web Real-Time Communications - Web-Echtzeit-Kommunikationen) statt. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Liefern des Aussendungsmixes von Gesangsaudio des ersten und zweiten Musikers über ein großflächiges Netzwerk. Bei manchen Fällen oder Ausführungsformen findet das Liefern des Aussendungsmixes über ein RTMP-artiges audiovisuelles Streaming-Protokoll (RTMP: Real-Time Messaging Protocol - Echtzeit-Messaging-Protokoll) statt. Bei manchen Fällen oder Ausführungsformen bildet zumindest die Gastvorrichtung ein mobiles handgehaltenes Telefon oder einen Medienplayer.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Tonhöhenkorrigieren von Gesang eines zweiten Musikers an der Gastgebervorrichtung gemäß einer Gesangspartitur, die eine Folge von Noten für eine Gesangsmelodie codiert. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Tonhöhenkorrigieren, an der Gastgebervorrichtung, von Gesang des zweiten Musikers gemäß einer Gesangspartitur, die zumindest einen ersten Satz von Harmonienoten für zumindest manche Teile der Gesangsmelodie codiert.
Bei manchen Fällen oder Ausführungsformen ist der in der empfangenen gemischten Darbietung enthaltene Gesang des ersten Musikers ein tonhöhenkorrigierter Gesang. Bei manchen Fällen oder Ausführungsformen wird der Gesang entweder des ersten oder zweiten Musikers gemäß einer Gesangspartitur, die eine Folge von Noten für eine Gesangsmelodie codiert, tonhöhenkorrigiert und der Gesang des anderen des ersten und zweiten Musikers wird gemäß einer Gesangspartitur, die zumindest einen ersten Satz von Harmonienoten für zumindest manche Teile der Gesangsmelodie codiert, tonhöhenkorrigiert.
Bei manchen Fällen oder Ausführungsformen wird der Gesang des ersten und/oder zweiten Musikers vor dem Einschluss in die Aussendung rechnerisch verarbeitet, um einen oder mehrere Audioeffekte anzuwenden. Bei manchen Fällen oder Ausführungsformen beinhalten die angewendeten Audioeffekte einen Nachhalleffekt und/oder eine digitale Filterung und/oder eine spektrale Entzerrung und/oder eine nichtlineare Verzerrung und/oder eine Audiokomprimierung und/oder eine Tonhöhenkorrektur oder Tonhöhenverschiebung und/oder eine kanalrelative Verstärkung und/oder Phasenverzögerung, um eine ersichtliche Platzierung des ersten oder zweiten Musikers in einem Stereofeld zu manipulieren.
Bei manchen Fällen oder Ausführungsformen beinhaltet die empfangene Mediencodierung Video, das mit dem aufgenommenen Gesang des ersten Musikers darbietungssynchronisiert ist, wobei das Verfahren ferner Aufnehmen, an der Gastgebervorrichtung, von Video beinhaltet, das mit dem aufgenommenen Gesang des zweiten Musikers darbietungssynchronisiert ist, und der Aussendungsmix ein audiovisueller Mix des aufgenommenen Audios und Videos von zumindest dem ersten und zweiten Musiker ist.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner dynamisches Variieren, im Aussendungsmix, zumindest einer visuellen Prominenz entweder des ersten oder zweiten Musikers basierend auf einer Evaluierung eines rechnerisch definierten Audiomerkmal des Gesangs des ersten und/oder zweiten Musikers. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Anwenden eines oder mehrerer Videoeffekte am Aussendungsmix zumindest teilweise basierend auf einem rechnerisch definierten Audio- oder Videomerkmal des Audios oder Videos des ersten und/oder zweiten Musikers.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Empfangen, an der Gastgebervorrichtung, von Chat-Nachrichten von Mitgliedern der Zuhörerschaft. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Einbeziehen von zumindest manchem Inhalt der Chat-Nachrichten als Teil des Videos des Aussendungsmixes. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Empfangen, an der Gastgebervorrichtung, von Chat-Nachrichten und/oder Emojis und/oder animierten GIFs und/oder Abstimmungsindikationen von Mitgliedern der Zuhörerschaft. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Einbeziehen einer visuellen Präsentation von zumindest manchen des empfangenen Chat-Nachrichteninhalts, der Emojis, der animierten GIFs oder der Abstimmungsindikationen als Teil des Aussendungsmixes.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Einreihen von Playlist-Anfragen von einem oder mehreren Empfängern des Aussendungsmixes in eine Warteschlange. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner, als Reaktion auf eine Auswahl durch den zweiten Musiker an der Gastgebervorrichtung einer speziellen der Playlist-Anfragen in der Warteschlange, Abrufen des Backing-Audio-Tracks und/oder eines Liedtexts und/oder von partiturcodierten Notenzielen aus einem Inhaltsrepositorium. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner, als Reaktion auf eine Auswahl durch den zweiten Musiker an der Gastgebervorrichtung einer speziellen der Playlist-Anfragen in der Warteschlange, Beliefern der kommunikativ gekoppelten Gastvorrichtung mit dem Backing-Audio-Track und/oder dem Liedtext und/oder von partiturcodierten Notenzielen nach Bedarf.
Bei manchen Fällen oder Ausführungsformen wird der Aussendungsmix als ein Gesangsduett präsentiert. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Empfangen, an der Gastgebervorrichtung, einer Mediencodierung von mindestens einer anderen gemischten Audiodarbietung, die (i) Gesangsaudio bildet, das an einer anderen Gastvorrichtung, die kommunikativ als ein anderer entfernter Peer gekoppelt ist, von einem dritten Musiker aufgenommen wird, und (ii) zeitlich mit dem Backing-Audio-Track ausgerichtet oder ausrichtbar ist. Bei manchen Fällen oder Ausführungsformen beinhaltet das Audio des Livestreams sowohl gesprächsartige Audioteile, die entsprechend einem interaktiven Gespräch zwischen dem ersten und zweiten Musiker aufgenommen werden, als auch Gesangsdarbietungsaudioteile, die entsprechend einer musikalischen Gesangsdarbietung des ersten und/oder zweiten Musikers gegenüber dem Backing-Audio-Track aufgenommen werden.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen eines Highlights-Clips-Satzes von Segmenten aus dem Livestream, wobei der Highlights-Clips-Satz von Segmenten allgemein die musikalischen Gesangsdarbietungsteile beinhaltet und allgemein die gesprächsartigen Audioteile ausschließt. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen eines Higlight-Clips-Satzes von Segmenten aus dem Livestream basierend auf Zuhörerschaftsreaktionen auf den Livestream und/oder der Liedstruktur und/oder der Audioleistung. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen eines Highlight-Clips-Satzes von Segmenten basierend auf einer Korrespondenz spezieller Audioteile des Livestreams mit Vers-, Refrain- oder Musikabschnittsabgrenzungen, entweder partiturcodiert oder rechnerisch durch Audiomerkmalsanalyse bestimmt. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner, als Reaktion auf eine Auswahl durch einen Benutzer, Abspeichern oder Sharing einer audiovisuellen Codierung eines oder mehrerer der Highlight-Clips.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Empfangen, von der Gastvorrichtung, einer oder mehrerer Liedtextsynchronisationsmarkierungen. Die Liedtextsynchronisationsmarkierungen übermitteln der Gastgebervorrichtung eine zeitliche Ausrichtung eines Liedtexts, der an der Gastvorrichtung mit dem Gesangsaudio, das an der Gastvorrichtung aufgenommen wird, visuell präsentiert wird. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner visuelles Präsentieren des Liedtexts an der Gastgebervorrichtung, wobei die visuelle Präsentation des Liedtexts zeitlich mit der Mediencodierung der gemischten Audiodarbietung, die von der Gastvorrichtung empfangen wird, basierend auf der bzw. den empfangenen einen oder mehreren Liedtextsynchronisationsmarkierungen ausgerichtet ist. Bei manchen Fällen oder Ausführungsformen koordinieren die eine oder die mehreren empfangenen Liedtextsynchronisationsmarkierungen den Verlauf des Liedtexts, der auf der Gastgebervorrichtung präsentiert wird, mit einer Pause oder anderen zeitlichen Steuerung an der Gastvorrichtung.
Bei manchen Ausführungsformen gemäß der vorliegenden Erfindung(en) beinhaltet ein System zur Ausstrahlung einer scheinbaren Live-Aussendung einer gemeinsamen Darbietung eines geografisch verteilten ersten und zweiten Musikers Gastgeber- und Gastvorrichtungen. Die Gastgeber- und Gastvorrichtungen sind als lokale und entfernte Peers durch ein Kommunikationsnetzwerk mit einer nicht vernachlässigbaren Peer-zu-Peer-Latenz für Übertragungen von audiovisuellem Inhalt gekoppelt. Die Gastgebervorrichtung ist kommunikativ als der lokale Peer gekoppelt, um eine Mediencodierung einer gemischten Audiodarbietung, die an der Gastvorrichtung aufgenommenes Gesangsaudio bildet, zu empfangen, und die Gastvorrichtung ist kommunikativ als der entfernte Peer gekoppelt, um die Mediencodierung zu liefern, die von einem ersten der Musiker aufgenommen und mit einem Backing-Audio-Track gemischt wird. Die Gastgebervorrichtung ist dazu ausgelegt, die empfangene gemischte Audiodarbietung hörbar wiederzugeben, demgegenüber ein Gesangsaudio von einem zweiten der Musiker aufzunehmen, und das aufgenommene Gesangsaudio des zweiten Musikers mit der empfangenen gemischten Audiodarbietung zur Übertragung als die scheinbare Live-Aussendung zu mischen.
Bei manchen Ausführungsformen gemäß der vorliegenden Erfindung(en) beinhaltet ein Audiokollaborationsverfahren für eine Livestream-Aussendung einer koordinierten audiovisuellen Arbeit eines ersten und zweiten Musikers, die an jeweiligen geografisch verteilten ersten und zweiten Vorrichtungen aufgenommen wird, Folgendes: (a) Empfangen, an der zweiten Vorrichtung, einer Mediencodierung einer gemischten Audiodarbietung, die (i) Gesangsaudio beinhaltet, das an der ersten Vorrichtung von einem ersten der Musiker aufgenommen wird, und (ii) mit einem Backing-Audio-Track gemischt wird; (b) an der zweiten Vorrichtung, hörbares Wiedergeben der empfangenen gemischten Audiodarbietung und demgegenüber Aufnehmen von Gesangsaudio von einem zweiten der Musiker; (c) Mischen des aufgenommenen Gesangsaudios des zweiten Musikers mit der empfangenen gemischten Audiodarbietung, um einen Aussendungsmix bereitzustellen, der das aufgenommene Gesangsaudio des ersten und zweiten Musikers und den Backing-Audio-Track ohne eine ersichtliche zeitliche Verzögerung dazwischen beinhaltet; und (d) Liefern des Aussendungsmixes zu einer Dienstplattform, die dazu ausgelegt ist, den Aussendungsmix per Livestream zu mehreren Empfangsvorrichtungen, die eine Zuhörerschaft bilden, zu übertragen.
Bei manchen Fällen oder Ausführungsformen ist die erste Vorrichtung mit der zweiten Vorrichtung als ein aktueller Livestream-Gast assoziiert und die zweite Vorrichtung fungiert als ein aktueller Livestream-Gastgeber. Der aktuelle Livestream-Gastgeber steuert die Assoziation und Trennung spezieller Vorrichtungen von der Zuhörerschaft als der aktuelle Livestream-Gast. Bei manchen Fällen oder Ausführungsformen wählt der aktuelle Livestream-Gastgeber aus einer Warteschlange von Anfragen von der Zuhörerschaft für eine Assoziation als der aktuelle Livestream-Gast aus.
Bei manchen Fällen oder Ausführungsformen arbeitet die erste Vorrichtung in einer Livestream-Gast-Funktion und die zweite Vorrichtung arbeitet in einer Livestream-Gastgeber-Funktion. Das Verfahren beinhaltet ferner entweder eines oder beides des Folgenden: die zweite Vorrichtung gibt die Livestream-Gastgeber-Funktion zur Annahme durch eine andere Vorrichtung frei; und die zweite Vorrichtung gibt die Livestream-Gastgeber-Funktion zu einer speziellen Vorrichtung weiter, die aus einem Satz, der die erste Vorrichtung und die Zuhörerschaft umfasst, ausgewählt wird.
Figurenliste
Die vorliegende(n) Erfindung(en) sind mittels Beispielen und ohne Beschränkung unter Bezugnahme auf die begleitenden Figuren veranschaulicht, in denen gleiche Bezüge allgemein ähnliche Elemente oder Merkmale angeben.

1 bildet Informationsflüsse zwischen veranschaulichenden mobiltelefonartigen tragbaren Rechenvorrichtungen in einer Gastgeber-und-Gast-Konfiguration zum Livestreaming einer duettartigen audiovisuellen Gruppendarbietung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) ab.
2 ist ein Flussdiagramm, das den Fluss von Audiosignalen abbildet, die an jeweiligen Gast- und Gastgebervorrichtungen aufgenommen und verarbeitet werden, die in einer „Gastgeber-Sync“-Peer-zu-Peer-Konfiguration zur Erzeugung eines audiovisuellen Gruppendarbietungs-Livestreams gekoppelt sind, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en).
3 ist ein Flussdiagramm, das den Fluss von Audiosignalen abbildet, die an jeweiligen Gast- und Gastgebervorrichtungen aufgenommen und verarbeitet werden, die in einer „Geteilte-Latenz“-Peer-zu-Peer-Konfiguration zur Erzeugung eines audiovisuellen Gruppendarbietungs-Livestreams gekoppelt sind, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en).
4 ist ein Flussdiagramm, das für eine audiovisuelle Darbietung, die an einer Gast- oder Gastgebervorrichtung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) aufgenommen wird, optionale Echtzeit-Signalflüsse für kontinuierliche Tonhöhenkorrektur und Harmonieerzeugung veranschaulicht, die basierend auf partiturcodierten Tonhöhenkorrektureinstellungen durchgeführt werden können.
5 ist ein Funktionsblockdiagramm von Hardware- und Softwarekomponenten, die an einer veranschaulichenden mobiltelefonartigen tragbaren Rechenvorrichtung ausführbar sind, um eine Verarbeitung und Kommunikation einer aufgenommenen audiovisuellen Darbietung zur Verwendung in einer Livestreaming-Konfiguration mit mehreren Sängern von netzwerkverbundenen Vorrichtungen gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) zu ermöglichen.
6 veranschaulicht Merkmale einer mobilen Vorrichtung, die als eine Plattform zur Ausführung von Softwareimplementierungen zumindest mancher Audiovisuelle-Darbietungsaufnahme- und/oder Livestream-Darbietungsvorrichtungen dienen kann, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en).
7 ist ein Netzwerkdiagramm, das eine Kooperation beispielhafter Vorrichtungen gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) veranschaulicht.

Fachleute werden erkennen, dass Elemente oder Merkmale in den Figuren zur Vereinfachung und Verdeutlichung veranschaulicht sind und nicht notwendigerweise maßstabsgetreu gezeichnet wurden. Die Abmessungen oder Prominenz von manchen der veranschaulichten Elemente oder Merkmale können zum Beispiel bezüglich anderen Elementen oder Merkmalen übertrieben sein, in dem Bestreben, die Verbesserung des Verständnisses von Ausführungsformen der vorliegenden Erfindung zu unterstützen. Gleichermaßen wird eine Vielzahl von Daten- und Steuerflüssen (einschließlich konstituierender Signale oder Codierungen) als konsistent mit den Beschreibungen ungeachtet einer Veranschaulichung in den Zeichnungen als ein einzelner Fluss zur Vereinfachung oder Vermeidung von Komplexität, die ansonsten die Beschreibung der erfindungsgemäßen Konzepte verundeutlichen könnten, verstanden.
AUSFÜHRUNGSWEISEN DER ERFINDUNG(EN)
Es sind Techniken zum Ermöglichen des Livestreaming von audiovisuellen Gruppendarbietungen entwickelt worden. Audiovisuelle Darbietungen einschließlich Gesangsmusik werden aufgenommen und mit Darbietungen anderer Benutzer auf Weisen koordiniert, die fesselnde Benutzer- und Zuhörererlebnisse erzeugen können. Bei manchen Fällen oder Ausführungsformen können zum Beispiel Duette mit einem Gastgebermusiker in einem Sing-mit-dem-Künstler-artigen audiovisuellen Livestream unterstützt werden, in dem aufstrebende Sänger spezielle Lieder für ein Live-Radioshow-Entertainmentformat anfordern oder in eine Warteschlange einreihen. Die entwickelten Techniken stellen einen kommunikationslatenztoleranten Mechanismus zum Synchronisieren von Gesangsdarbietungen bereit, die an geografisch getrennten Vorrichtungen (z. B. an global verteilten, aber netzwerkverbundenen Mobiltelefonen oder Tablets oder an audiovisuellen Aufnahmevorrichtungen, die von einem Live-Studio geografisch getrennt sind) aufgenommen werden.
Obwohl Nur-Audio-Ausführungsformen mit Sicherheit in Betracht gezogen werden, wird sich vorgestellt, dass ein Livestream-Inhalt typischerweise ein darbietungssynchronisiertes Video enthalten wird, das in Verbindung mit Gesang aufgenommen wird. Obwohl netzwerkverbundene Mobiltelefone als audiovisuelle Aufnahmevorrichtungen veranschaulicht sind, wird basierend auf der Beschreibung hierin verstanden, dass zusätzlich dazu audiovisuelle Aufnahme- und Betrachtungsvorrichtungen zweckmäßig konfigurierte Computer, Smart-Fernseher und/oder Wohnzimmer-Set-Top-Box-Konfigurationen und sogar intelligente virtuelle Assistenzvorrichtungen mit Audio- und/oder audiovisuellen Aufnahmevorrichtungen oder -fähigkeiten beinhalten können. Schließlich, obwohl Anwendungen für Gesangsmusik ausführlich beschrieben sind, wird basierend auf der Beschreibung hierin verstanden, dass Audio- oder audiovisuelle Aufnahmeanwendungen nicht auf Gesangsduette beschränkt sein müssen, sondern an andere Formen von Gruppendarbietung angepasst werden können, bei der eine oder mehrere aufeinanderfolgende Darbietungen für eine vorherige Darbietung angesammelt werden, um einen Livestream zu erzeugen.
In manchen Fällen werden die Gesangsdarbietungen von kollaborierenden Mitwirkenden (zusammen mit darbietungssynchronisiertem Video) im Zusammenhang einer karaokeartigen Präsentation eines Liedtexts und entsprechend einer hörbaren Wiedergabe eines Backing-Tracks aufgenommen. In manchen Fällen wird Gesang (und typischerweise synchronisiertes Video) als Teil einer Live- oder improvisierten Darbietung mit Gesangsinteraktionen (z. B. Duett oder Dialog) zwischen kollaborierenden Mitwirkenden aufgenommen. In jedem Fall wird in Betracht gezogen, dass nicht vernachlässigbare Netzwerkkommunikationslatenzen zwischen zumindest manchen der kollaborierenden Mitwirkenden vorhanden sein werden, insbesondere, wenn diese Mitwirkenden geografisch getrennt sind. Infolgedessen besteht eine technische Herausforderung, Latenzen und den aufgenommenen audiovisuellen Inhalt auf eine derartige Weise zu verwalten, dass eine kombinierte audiovisuelle Darbietung nichtsdestotrotz auf eine Art und Weise ausgestrahlt (z. B. übertragen) werden kann, die Empfängern, Zuhörern und/oder Zuschauern als eine interaktive Live-Kollaboration dargeboten wird.
Bei einer Technik zum Erzielen dieser Reproduktion einer interaktiven Live-Darbietungskollaboration wird eine tatsächliche und nicht vernachlässigbare Netzwerkkommunikationslatenz (im Endeffekt) in eine Richtung zwischen einem Gast- und einem Gastgeber-Musiker maskiert und in die andere Richtung toleriert. Eine aufgenommene audiovisuelle Darbietung eines Gastmusikers bei einer „Live Show“-Internetübertragung eines Gastgebermusikers könnte zum Beispiel ein Duett von Gast + Gastgeber beinhalten, das in anscheinender Echtzeit-Synchronie gesungen wird. In manchen Fällen könnte der Gastgeber ein Musiker sein, der eine spezielle Musikdarbietung popularisiert hat. In manchen Fällen könnte der Gast ein Amateursänger sein, dem die Möglichkeit gegeben wurde, „live“ (wenngleich entfernt) mit dem beliebten Künstler oder der beliebten Gruppe „im Studio“ als der (oder mit dem) Gastgeber der Show zu singen. Ungeachtet einer nicht vernachlässigbaren Netzwerkkommunikationsverzögerung vom Gast zum Gastgeber (vielleicht 200-500 ms oder mehr), um den audiovisuellen Beitrag des Gastes zu übermitteln, bietet der Gastgeber in scheinbarer Synchronie (obwohl im absoluten Sinn zeitlich verzögert) mit dem Gast dar und der scheinbar synchron dargebotene Gesang wird aufgenommen und mit dem Beitrag des Gastes gemischt, um ausgesendet oder ausgestrahlt zu werden.
Das Ergebnis ist eine scheinbar interaktive Live-Darbietung (zumindest aus der Perspektive des Gastgebers und der Empfänger, Zuhörer und/oder Zuschauer der ausgestrahlten oder übertragenen Darbietung). Obwohl die nicht vernachlässigbare Netzwerkkommunikationslatenz vom Gast zum Gastgeber maskiert ist, versteht sich, dass eine Latenz vorhanden ist und in die Gastgeber-zu-Gast-Richtung toleriert wird. Obwohl die Gastgeber-zu-Gast-Latenz für den Gast wahrnehmbar (und vielleicht recht bemerkbar) ist, muss sie nicht in der scheinbaren Live-Aussendung oder einer anderen Ausstrahlung erkennbar sein. Es wurde entdeckt, dass eine verzögerte hörbare Wiedergabe eines Gastgeber-Gesangs (oder allgemeiner der aufgenommenen audiovisuellen Darbietung des Gastgebers) die Darbietung des Gastes nicht psychoakustisch beeinträchtigen muss.
Obwohl ein Großteil der Beschreibung hierin für Veranschaulichungszwecke einen festgelegten Gastgebermusiker auf einer speziellen Gastgebervorrichtung annimmt, wird basierend auf der Beschreibung hierin verstanden, dass manche Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) Gastgeber/Gast-Steuerlogik bereitstellen können, die einem Gastgeber gestattet, „das Mikrofon weiterzugeben“, sodass ein neuer Benutzer (in manchen Fällen ein Benutzer, der durch den aktuellen Gastgeber ausgewählt wird, und in anderen Fällen ein Benutzer, der „das Mikrofon aufnimmt“, nachdem der aktuelle Gastgeber „das Mikrofon fallenlässt“) als ein Gastgeber übernehmen kann. Gleichermaßen wird basierend auf der Beschreibung hierin verstanden werden, dass manche Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) Gastgeber/Gast-Steuerlogik bereitstellen können, die Gäste (und/oder aufstrebende Gastgeber) in eine Warteschlange einreiht und in die Warteschlange eingereihten Benutzern automatisch geeignete Funktionen zuweist.
Bei manchen Fällen oder Ausführungsformen wird Gesangsaudio von individuellen Gastgeber- und Gastfunktionsmusikern zusammen mit darbietungssynchronisiertem Video in einem karaokeartigen Benutzeroberflächen-Framework aufgenommen und mit den audiovisuellen Beiträgen der anderen Benutzer koordiniert, um duettartige oder chorartige audiovisuelle Gruppendarbietungen zu bilden. Die Gesangsdarbietungen individueller Benutzer können zum Beispiel (zusammen mit darbietungssynchronisiertem Video) auf mobilen Vorrichtungen, einer fernsehartigen Anzeige und/oder einem Set-Top-Box-Gerät im Zusammenhang von karaokeartigen Präsentationen eines Liedtexts entsprechend hörbaren Wiedergaben eines Backing-Tracks aufgenommen werden. Bei manchen Fällen oder Ausführungsformen kann eine partiturcodierte kontinuierliche Tonhöhenkorrektur sowie benutzerauswählbare Audio- und/oder Videoeffekte bereitgestellt werden. In Übereinstimmung mit dem Vorstehenden, aber ohne Beschränkung hinsichtlich einer beliebigen speziellen beanspruchten Ausführungsform, liefert eine karaokeartige Gesangsdarbietungsaufnahme unter Verwendung von tragbaren handgehaltenen Vorrichtungen einen veranschaulichenden Zusammenhang.
Karaokeartiae Gesanasdarbietunasaufnahme
Obwohl Ausführungsformen der vorliegenden Erfindung nicht darauf beschränkt sind, liefert eine tonhöhenkorrigierte, karaokeartige Gesangsaufnahme unter Verwendung eines mobiltelefonartigen und/oder fernsehartigen audiovisuellen Geräts einen nützlichen beschreibenden Zusammenhang. Bei manchen Ausführungsformen, wie etwa in 1 veranschaulicht, führen zum Beispiel iPhone™-Handapparate verfügbar von Apple Inc. (oder allgemeiner Handapparate 101A, 101B, die als Gast- bzw. Gastgebervorrichtungen arbeiten) Software aus, die in Koordination mit einem Inhaltsserver 110 arbeitet, um eine Gesangsaufnahme bereitzustellen. Die Konfiguration stellt optional eine kontinuierliche partiturcodierte Echtzeit-Tonhöhenkorrektur und -Harmonisierung des aufgenommenen Gesangs bereit. Ein darbietungssynchronisertes Video kann auch unter Verwendung einer Kamera aufgenommen werden, die durch oder in Verbindung mit einem Computer, einem Fernseher oder einem anderen audiovisuellen Gerät (nicht spezifisch dargestellt) oder einem verbundenen Set-Top-Box-Gerät, wie etwa einer Apple-TV™-Vorrichtung, bereitgestellt wird. Bei manchen Ausführungsformen kann das darbietungssynchroniserte Video unter Verwendung einer geräteinternen Kamera aufgenommen werden, die durch einen Handapparat bereitgestellt wird, der mit einem verbundenen Set-Top-Box-Gerät gekoppelt ist. Geeignete Techniken sind ausführlich in der eigenen, gleichzeitig anhängigen US-Patentanmeldung mit Nr. 15/337,866, eingereicht am 28. Oktober 2016, die Hersh, Shimmin, Yang und Cook als Erfinder nennt, mit dem Titel „Audiovisual Media Application Platform with Wireless Handheld Audiovisual Input“ beschrieben, deren Gesamtheit hiermit unter Bezugnahme aufgenommen wird.
In der Veranschaulichung von 1 steuert ein aktueller Gastgeberbenutzer einer aktuellen Gastgebervorrichtung 101B zumindest teilweise den Inhalt eines Livestreams 122, der für eine Zuhörerschaft auf Vorrichtungen 120A, 120B, ..., 120N gepuffert und zu dieser gestreamt wird. In der veranschaulichten Konfiguration trägt ein aktueller Gastbenutzer einer aktuellen Gastvorrichtung 101A zu dem audiovisuellen Gruppendarbietungsmix 111 bei, der durch die aktuelle Gastgebervorrichtung 101B (letztendlich über den Inhaltsserver 110) als der Livestream 122 geliefert wird. Obwohl die Vorrichtungen 120A, 120B, ..., 120N und in der Tat die aktuellen Gast- und Gastgebervorrichtungen 101A, 101B zur Vereinfachung als handgehaltene Vorrichtungen, wie etwa Mobiltelefone, veranschaulicht sind, werden Fachleute, die die vorliegende Offenbarung kennen, verstehen, dass ein beliebiges gegebenes Mitglied der Zuhörerschaft den Livestream 122 auf einem beliebigen geeigneten Computer, Smart-Fernseher, Tablet, über eine Set-Top-Box oder einem anderen Streaming-Medien-fähigen Gerät empfangen kann.
Ein Inhalt, der zum Bilden des audiovisuellen Gruppendarbietungsmixes 111 gemischt wird, wird in der veranschaulichten Konfiguration im Zusammenhang einer karaokeartigen Darbietungsaufnahme aufgenommen, bei der ein Liedtext 102, optionale Tonhöhenhinweise 105 und typischerweise ein Backing-Track 107 vom Inhaltsserver 110 zu der aktuellen Gastvorrichtung 101A und/oder der aktuellen Gastgebervorrichtung 101B geliefert werden. Ein aktueller Gastgeber (auf der aktuellen Gastgebervorrichtung 101B) übt typischerweise die endgültige Steuerung gegenüber dem Livestream aus, z. B. durch Auswählen eines speziellen Benutzers (oder spezieller Benutzer) aus der Zuhörerschaft, um als der aktuelle Gast bzw. die aktuellen Gäste zu agieren, durch Auswählen eines speziellen Liedes aus einer Anfragewarteschlange (und/oder von Gesangteilen davon für spezielle Benutzer) und/oder durch Starten, Stoppen oder Pausieren der Gruppen-AV-Darbietung. Sobald der aktuelle Gastgeber einen Gast und/oder ein Lied auswählt oder bestätigt, kann der Gastbenutzer (bei manchen Ausführungsformen) das Abspielen eines Backing-Tracks 107A zur lokalen hörbaren Wiedergabe starten/stoppen/pausieren und anderweitig den Inhalt eines Gastmixes 106 (Backing-Track-Abspielen gemischt mit aufgenommenem audiovisuellem Gastinhalt), der zu der aktuellen Gastgebervorrichtung 101B geliefert wird, steuern. Das Abspielen des Liedtexts 102A und optionaler Tonhöhenhinweise 105A an der aktuellen Gastvorrichtung 101A findet in zeitlicher Korrespondenz mit dem Backing-Track 107A statt und wird gleichermaßen der Start-/Stopp-/Pausensteuerung durch den aktuellen Gast unterzogen. In manchen Fällen oder Situationen kann Hintergrundaudio und/oder -video aus einem Medienspeicher wiedergegeben werden, wie etwa einer iTunes™-Bibliothek, die sich auf einem Handapparat, einer Set-Top-Box usw. befindet oder auf die von diesem bzw. dieser zugegriffen werden kann.
Typischerweise werden Liedanfragen 132 von der Zuhörerschaft bezogen und durch Signalisierungspfade zu einer Inhaltsauswahl-und-Gastwarteschlange-Steuerlogik 112 des Inhaltsservers 110 übermittelt. Gastgebersteuerungen 131 und Gaststeuerungen 133 sind als bidirektionale Signalisierungspfade veranschaulicht. Andere Warteschlangen- und Steuerlogikkonfigurationen, die mit dem beschriebenen Betrieb konsistent sind, einschließlich gastgeber- oder gastgesteuerter Warteschlangenbildung und/oder Liedauswahl, werden basierend auf der vorliegenden Offenbarung erkannt werden.
In der veranschaulichten Konfiguration von 1 und ungeachtet einer nicht vernachlässigbaren zeitlichen Verzögerung (typischerweise 100-250 ms, aber möglicherweise mehr) empfängt die aktuelle Gastgebervorrichtung 101B den Gastmix 106 als einen Backing-Track und gibt diesen hörbar wieder, gegenüber dem die audiovisuelle Darbietung des aktuellen Gastgebers an der aktuellen Gastgebervorrichtung 101B aufgenommen wird. Das Abspielen des Liedtexts 102B und optionaler Tonhöhenhinweise 105B an der aktuellen Gastgebervorrichtung 101B stehen in zeitlicher Korrespondenz mit dem Backing-Track, hier dem Gastmix 106. Um eine Synchronisation des Gastmixes 106 hinsichtlich der zeitlichen Verzögerung im Peer-zu-Peer-Kommunikationskanal zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowie eine gastseitige Start-/Stopp-/Pausensteuerung zu ermöglichen, können Markierungs-Beacons in den Gastmix codiert werden, um die geeignete Phasensteuerung des Liedtexts 102B und der optionalen Tonhöhenhinweise 105B auf dem Bildschirm bereitzustellen. Alternativ dazu kann eine Phasenanalyse eines jeglichen Backing-Tracks 107A, der im Gastmix 106 enthalten ist (oder ein jeglicher Bleed-Through, falls der Backing-Track separat codiert oder übermittelt wird), verwendet werden, um die geeignete Phasensteuerung des Liedtexts 102B und der optionalen Tonhöhenhinweise 105B auf dem Bildschirm an der aktuellen Gastgebervorrichtung 101B bereitzustellen.
Es versteht sich, dass eine zeitliche Verzögerung im Peer-zu-Peer-Kommunikationskanal zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowohl den Gastmix 106 als auch Kommunikationen in die entgegengesetzte Richtung (z. B. Signalcodierungen des Gastgebermikrofons 103C) beeinflusst. Beliebige einer Vielfalt von Kommunikationskanälen können verwendet werden, um audiovisuelle Signale und Steuerungen zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowie zwischen den Gast- und Gastgebervorrichtungen 101A, 101B und dem Inhaltsserver 110 und zwischen Zuhörerschaftsvorrichtungen 120A, 120B, ..., 120N und dem Inhaltsserver 110 zu übermitteln. Beispielsweise können jeweilige drahtlose Telekommunikationsträgereinrichtungen und/oder drahtlose Lokalnetze und jeweilige großflächige Netzwerk-Gateways (nicht spezifisch dargestellt) Kommunikationen zu und von den Vorrichtungen 101A, 101B, 120A, 120B, ..., 120N bereitstellen. Basierend auf der Beschreibung hierin werden Fachleute erkennen, dass eine beliebige einer Vielfalt von Datenkommunikationsanlagen, einschließlich 802.11 WiFi, Bluetooth™, 4G-LTE drahtlose, verdrahtete Datennetze, verdrahtete oder drahtlose audiovisuelle Verbindungen wie etwa gemäß HDMI, AVI, Wi-Di-Standards oder -Einrichtungen, individuell oder in Kombination eingesetzt werden kann, um Kommunikationen und/oder eine audiovisuelle Wiedergabe wie hierin beschrieben zu ermöglichen.
Benutzergesang 103A und 103B wird an jeweiligen Handapparaten 101A, 101B aufgenommen und kann optional kontinuierlich und in Echtzeit tonhöhenkorrigiert werden und gemischt mit dem lokal geeigneten Backing-Track (z. B. Backing-Track 107A an der aktuellen Gastvorrichtung 101A und Gastmix 106 an der aktuellen Gastgebervorrichtung 101B) hörbar wiedergegeben werden, um dem Benutzer eine Wiedergabe mit verbesserter Tonqualität seiner eigenen Gesangsdarbietung bereitzustellen. Die Tonhöhenkorrektur basiert typischerweise auf partiturcodierten Notensätzen oder Hinweisen (z. B. die Tonhöhen- und Harmoniehinweise 105A, 105B, die an der aktuellen Gastvorrichtung 101A bzw. an der aktuellen Gastgebervorrichtung 101B visuell angezeigt werden), die kontinuierliche Tonhöhenkorrekturalgorithmen liefern, die auf der jeweiligen Vorrichtung mit darbietungssynchronisierten Folgen von Zielnoten in einer aktuellen Tonart oder Tonleiter ausgeführt werden. Zusätzlich zu darbietungssynchronisierten Melodiezielen liefern partiturcodierte Hamonienotenfolgen (oder -sätze) Tonhöhenverschiebungsalgorithmen mit zusätzlichen Zielen (typischerweise als Versätze relativ zu einer Hauptmelodie-Notenspur codiert und typischerweise nur für ausgewählte Teile davon in einer Partitur befindlich) zum Tonhöhenverschieben zu Harmonieversionen des eigenen aufgenommenen Gesangs des Benutzers. In manchen Fällen können Tonhöhenkorrektureinstellungen für einen speziellen Künstler charakteristisch sein, wie etwa den Künstler, der mit dem speziellen Backing-Track assoziierten Gesang darbot.
Im Allgemeinen können Liedtext, Melodie und Harmoniespur-Notensätze und zugehörige Timing- und Steuerinformationen in einem geeigneten Container oder Objekt (z. B. in einem MIDI(Musical Instrument Digital Interface)-oderjson(Java Script Object Notation)-artigen Format zur gemeinsamen Lieferung mit dem/den Backing-Track(s) eingekapselt werden. Unter Verwendung derartiger Informationen können die Vorrichtungen 101A und 101B (sowie assoziierte audiovisuelle Anzeigen und/oder Set-Top-Box-Geräte, nicht spezifisch dargestellt) Liedtext und sogar visuelle Hinweise bezüglich Zielnoten, Harmonien und eine aktuell detektierte Gesangtonhöhe entsprechend einer hörbaren Darbietung des/der Backing-Track(s) anzeigen, sodass eine karaokeartige Gesangsdarbietung durch einen Benutzer ermöglicht wird. Falls somit ein aufstrebender Sänger „When I Was Your Man“, wie durch Bruno Mars popularisiert, auswählt, können your_man.json und your_man.m4a vom Inhaltsserver heruntergeladen werden (falls nicht schon basierend auf einem vorherigen Herunterladen verfügbar oder gecacht) und im Gegenzug zum Bereitstellen einer Hintergrundmusik, eines synchronisierten Liedtexts und bei manchen Situationen oder Ausführungsformen von partiturcodierten Notenspuren für eine kontinuierliche Echtzeit-Tonhöhenkorrektur während des Singens des Benutzers verwendet werden. Optional können zumindest für gewisse Ausführungsformen oder Genres Harmonienotenspuren für Harmonieverschiebungen an aufgenommenem Gesang partiturcodiert werden. Typischerweise wird eine aufgenommene tonhöhenkorrigierte (möglicherweise harmonisierte) Gesangsdarbietung zusammen mit einem darbietungssynchronisierten Video lokal auf der handgehaltenen Vorrichtung oder Set-Top-Box als eine oder mehrere audiovisuelle Dateien abgespeichert und anschließend zur Kommunikation (z. B. als Gastmix 106 oder audiovisueller Gruppendarbietungsmix 111 oder Bestandteilcodierungen davon) zum Inhaltsserver 110 als eine MPEG-4-Containerdatei komprimiert und codiert. MPEG-4 ist ein geeigneter Standard für die codierte Repräsentation und Übertragung eines digitalen Multimedieninhalts für das Internet, Mobilnetze und fortgeschrittene Aussendungsanwendungen. Andere geeignete Codecs, Komprimierungstechniken, Codierungsformate und/oder Container können falls gewünscht eingesetzt werden.
Wie Fachleute verstehen werden, die die vorliegende Offenbarung kennen, können Darbietungen mehrerer Sänger (einschließlich darbietungssynchronisiertem Video) angesammelt und kombiniert werden, sodass eine duettartige Darbietung, eine chorartige Darbietung oder eine Gesang-Jam-Session gebildet wird. Bei manchen Ausführungsformen der vorliegenden Erfindung können soziale Netzwerkgebilde zumindest teilweise eine Gastgebersteuerung der Paarung von geografisch verteilten Sängern und/oder die Bildung von geografisch verteilten virtuellen Chor ersetzen oder darüber informieren. Bezüglich 1 können zum Beispiel individuelle Sänger als aktuelle Gastgeber- und Gastbenutzer auf eine Art und Weise darbieten, die (mit Gesangsaudio und darbietungssynchronisiertem Video) aufgenommen und letztendlich als ein Livestream 122 zu einer Zuhörerschaft gestreamt wird. Ein derartiger aufgenommener audiovisueller Inhalt kann im Gegenzug zu sozialen Medienkontakten des Sängers, Mitgliedern der Zuhörerschaft usw. über einen offenen Anruf, der durch den Inhaltsserver vermittelt wird, verteilt werden. Auf diese Weise können die Sänger selbst, Mitglieder der Zuhörerschaft (und/oder der Inhaltsserver oder die Dienstplattform in ihrem Auftrag) andere Menschen einladen, bei einer koordinierten audiovisuellen Darbietung oder als Mitglieder einer Zuhörerschaft- oder Gastwarteschlange teilzunehmen.
Wo die Lieferung und Verwendung von Backing-Tracks hierin veranschaulicht und beschrieben sind, versteht es sich, dass aufgenommener, tonhöhenkorrigierter (und möglicherweise, wenngleich nicht notwendigerweise, harmonisierter) Gesang selbst gemischt werden kann (wie mit dem Gastmix 106), um einen „Backing-Track“ zu erzeugen, der zum Motivieren, Anleiten oder Formulieren einer anschließenden Gesangsaufnahme verwendet wird. Des Weiteren können zusätzliche Sänger eingeladen werden, einen speziellen Teil (z. B. Tenor, Teil B im Duett usw.) zu singen oder um einfach zu singen, die anschließende Gesangsaufnahmevorrichtung (z. B. die aktuelle Gastgebervorrichtung 101B in der Konfiguration von 1) kann ihren aufgenommenen Gesang tonhöhenverschieben und an eine oder mehrere Stellen in einem Duett oder virtuellen Chor platzieren. Diese und andere Aspekte der Darbietungsansammlung sind (für eine inhaltsserververmittelte Ausführungsform) im eigenen US-Patent mit der Nr. 8,983,829 und dem Titel „Coordinating and Mixing Vocals Captured from Geographically Distributed Performers“, das Cook, Lazier, Lieber und Kirk als Erfinder nennt, beschrieben, das hiermit unter Bezugnahme in seiner Gesamtheit aufgenommen wird.
Synchronisationsverfahren
Basierend auf der Beschreibung hierin werden Fachleute eine Vielfalt von Gastgeber-Gast-Synchronisationsverfahren kennen, die eine nicht vernachlässigbare zeitliche Verzögerung im Peer-zu-Peer-Kommunikationskanal zwischen der Gastvorrichtung 101A und der Gastgebervorrichtung 101B tolerieren. Wie im Zusammenhang von 1 veranschaulicht, kann der Backing-Track (z. B. der Backing-Track 107A) den Synchronisationszeitrahmen für eine zeitlich gestaffelte Gesangsaufnahme, die an den jeweiligen Peer-Vorrichtungen (Gastvorrichtung 101A und Gastgebervorrichtung 101B) dargeboten wird, bereitstellen und die wahrgenommene Latenz der Benutzer davon minimieren (oder eliminieren).
2 ist ein Flussdiagramm, das den Fluss von Audiosignalen abbildet, die an jeweiligen Gast- und Gastgebervorrichtungen aufgenommen und verarbeitet werden, die in einer „Gastgeber-Sync“-Peer-zu-Peer-Konfiguration zur Erzeugung eines audiovisuellen Gruppendarbietungs-Livestreams gekoppelt sind, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en). Genauer gesagt veranschaulicht 2, wie eine beispielhafte Konfiguration von Gast- und Gastgebervorrichtungen 101A und 101B (siehe 1) und audiovisuelle Signalflüsse dazwischen (z. B. Gastmix 106 und Gastgebermikrofonaudio 103C) während einer Peer-zu-Peer-Session ein Benutzererlebnis bereitstellen, bei dem der Gastgebervorrichtungssänger (an der Gastgebervorrichtung 101B) immer Gastgesang (der von einer lokalen Gastmikrofoneingabe 103A aufgenommen wird) und einen Backing-Track 107A in perfekter Synchronisation hört. Während der Gast den angesammelten Gesang des Gastgebers um eine volle Audio-Umlaufzeit(RTT)-Verzögerung verzögert wahrnehmen wird (in dem Mix, der an den Gastlautsprecher oder das Gastheadset 240A geliefert wird), weist der Audio-Stream (einschließlich des entfernten Gastmikrofons gemischt mit dem Backing-Track), der der Gastgebervorrichtung 101B geliefert und als die mehrstimmige Livestream-Darbietung (122) gemischt wird, eine Latenz von Null (oder vernachlässigbare Latenz) gegenüber dem Gastgebersänger oder der Zuhörerschaft auf.
Ein Schlüssel zum Maskieren tatsächlicher Latenzen besteht in dem Einschließen des Tracks 107A in den Audiomix, der von der Gastvorrichtung 101A und der Vorrichtung des Aussenders, der Gastgebervorrichtung 101B, geliefert wird. Dieser Audiofluss gewährleistet, dass die Stimme des Gastes und der Backing-Track immer vom Standpunkt des Aussenders aus synchronisiert sind (basierend auf einer hörbaren Wiedergabe am Gastgeberlautsprecher oder -headset 240B). Der Gast kann weiterhin wahrnehmen, dass der Aussender leicht nicht synchron singt, falls die Netzwerkverzögerung erheblich ist. Solange sich der Gast jedoch auf das Singen im Takt mit dem Backing-Track anstelle auf die leicht verzögerte Stimme des Gastgebers konzentriert, ist der mehrstimmige Mix von Gastgebergesang mit Gastgesang und dem Backing-Track synchron, wenn er zu einer Zuhörerschaft im Livestream übertragen wird.
3 ist ein Flussdiagramm, das den Fluss von Audiosignalen abbildet, die an jeweiligen Gast- und Gastgebervorrichtungen aufgenommen und verarbeitet werden, die in einer alternativen „Geteilte-Latenz“-Peer-zu-Peer-Konfiguration zur Erzeugung eines audiovisuellen Gruppendarbietungs-Livestreams gekoppelt sind, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en). Genauer gesagt veranschaulicht 3, wie eine beispielhafte Konfiguration von Gast- und Gastgebervorrichtungen 101A und 101B (siehe 1) und audiovisuelle Signalflüsse dazwischen (z. B. Gastmix 106 und Gastgebermikrofonaudio 103C) während einer Peer-zu-Peer-Session kombiniert werden, um die Wahrnehmung des Gast- und Gastgebersängers gegenüber der Audioverzögerung des anderen Sängers auf nur eine Einwegeverzögerung (nominell eine Hälfte der vollen Audio-Umlaufzeit-Verzögerung) nach dem Backing-Track zu beschränken.
Diese beschränkte Wahrnehmung der Verzögerung wird durch das lokale Abspielen des Backing-Tracks auf beiden Vorrichtungen und Veranlassen, sie in Echtzeit synchron zu halten, erzielt. Die Gastvorrichtung 101A sendet periodische Timing-Nachrichten zu dem Gastgeber, die die aktuelle Stelle im Lied enthalten, und die Gastgebervorrichtung 101B passt die Playback-Position des Lieds dementsprechend an.
Wir haben mit zwei unterschiedlichen Ansätzen zum Synchronhalten der Backing-Tracks auf den beiden Vorrichtungen (Gast- und Gastgebervorrichtungen 101A und 101B) experimentiert:

□ Verfahren 1: Wir passen die Playback-Position, die wir an der Gastgeberseite empfangen, um die Einweg-Netzwerkverzögerung an, die als die Netzwerk-RTT/2 approximiert wird.
□ Verfahren 2: Wir synchronisieren die Takte der beiden Vorrichtungen unter Verwendung eines Netzwerkzeitprotokolls (NTP). Auf diese Weise müssen wir nicht die Timing-Nachrichten basierend auf der Einweg-Netzwerkverzögerung anpassen, wir fügen einfach einen NTP-Zeitstempel zu jeder Lied-Timing-Nachricht hinzu.

Für „Geteilte-Latenz“-Konfigurationen hat sich das Verfahren 2 als stabiler als das Verfahren 1 herausgestellt. Als eine Optimierung, um übermäßige Timing-Anpassungen zu vermeiden, aktualisiert der Gastgeber nur die Backing-Track-Playback-Position, falls wir gegenwärtig mehr als 50 ms von der Backing-Track-Playback-Position des Gastes versetzt sind.
Partiturcodierte Tonhöhenspuren
4 ist ein Flussdiagramm, das eine kontinuierliche partiturcodierte Echtzeit-Tonhöhenkorrektur und -Harmonieerzeugung für eine aufgenommene Gesangsdarbietung veranschaulicht, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en). In der veranschaulichten Konfiguration singt ein Benutzer/Sänger (z. B. der Gast- oder Gastgebersänger an der Gastvorrichtung 101A oder der Gastgebervorrichtung 101B, siehe 1) karaokeartig zusammen mit einem Backing-Track. Im Fall des Gastsängers an der aktuellen Gastvorrichtung 101A ist der wirksame Backing-Track der Backing-Track 107A, wohingegen für den Gastgebersänger an der aktuellen Gastgebervorrichtung 101B der wirksame Backing-Track der Gastmix 106 ist, der, zumindest in Ausführungsformen, die das „Gastgebersynchronisations“-Verfahren einsetzen, den ursprünglichen Backing-Track gemischt mit dem Gastgesang übermittelt. In jedem Fall kann Gesang, der von einer Mikrofoneingabe 201 aufgenommen wird (251), optional in Echtzeit für einen Mix (253) mit dem wirksamen Backing-Track, der hörbar an einem oder mehreren akustischen Wandlern 202 wiedergegeben wird, kontinuierlich tonhöhenkorrigiert (252) und harmonisiert (255) werden.
Sowohl Tonhöhenkorrektur als auch hinzugefügte Harmonien werden so gewählt, dass sie einer Partitur 207 entsprechen, die in der veranschaulichten Konfiguration drahtlos zu der/den Vorrichtung(en) kommuniziert wird (261) (z. B. vom Inhaltsserver 110 zu der Gastvorrichtung 101A oder über die Gastvorrichtung 101A zu der Gastgebervorrichtung 101B, siehe 1), auf denen eine Gesangsaufnahme und Tonhöhenkorrektur durchzuführen ist, zusammen mit Liedtext 208 und einer Audiocodierung des wirksamen Backing-Tracks 209 (z. B. Backing-Tracks 107A oder Gastmixes 106). Bei manchen Fällen oder Ausführungsformen ist die Inhaltsauswahl-und - Gastwarteschlange-Steuerlogik 112 für Melodie- oder Harmonienotenauswahlen an den jeweiligen Gast- und Gastgebervorrichtungen 101A und 101B auswählbar.
Bei manchen Ausführungsformen von hierin beschriebenen Techniken wird die Note (in einer aktuellen Tonleiter oder Tonart), die sich am nächsten zu der durch den Benutzer/Sänger gesungenen befindet, basierend auf einer Partitur 207 bestimmt. Obwohl diese nächste Note typischerweise eine Haupttonhöhe entsprechend der partiturcodierten Gesangsmelodie sein kann, muss sie dies nicht sein. In der Tat kann der Benutzer/Sänger in manchen Fällen beabsichtigen, eine Harmonie zu singen, und die gesungenen Noten können eine Harmoniespur näher approximieren.
Audiovisuelle Aufnahme an einer hand-gehaltenen Vorrichtung
Obwohl eine darbietungssynchronisierte Videoaufnahme nicht bei allen Ausführungsformen unterstützt werden muss, können die handgehaltene Vorrichtung 101 (z. B. die aktuelle Gastvorrichtung 101A oder die aktuelle Gastgebervorrichtung 101B, siehe 1) selbst sowohl Gesangsaudio als auch darbietungssynchronisiertes Video aufnehmen. Somit veranschaulicht 5 grundlegende Signalverarbeitungsflüsse (350) gemäß gewissen Implementierungen, die sich für eine mobiltelefonartige handgehaltene Vorrichtung 101 zum Aufnehmen von Gesangsaudio und darbietungssynchronisiertem Video eignen, um tonhöhenkorrigierten und optional hamonisierten Gesang zur hörbaren Wiedergabe (lokal und/oder an einer entfernten Zielvorrichtung) zu erzeugen und mit einem Inhaltsserver oder einer Dienstplattform 110 zu kommunizieren.
Basierend auf der Beschreibung hierin werden Fachleute geeignete Zuweisungen von Signalverarbeitungstechniken (Abtastung, Filterung, Dezimierung usw.) und Datenrepräsentationen zu Funktionsblöcken (z. B. einen oder mehrere Decodierer 352, Digital-Analog(D/A)-Wandler 351, Aufnahme 353, 353A und Codierer 355) einer Software kennen, die zum Bereitstellen von in 5 veranschaulichten Signalverarbeitungsflüssen 350 ausführbar ist. Gleichermaßen werden Fachleute, bezüglich 4, die Signalverarbeitungsflüsse 250 und die veranschaulichenden partiturcodierten Notenziele (einschließlich Harmonienotenzielen), geeignete Zuweisungen von Signalverarbeitungstechniken und Datenrepräsentationen zu Funktionsblöcken und Signalverarbeitungskonstrukte (z. B. einen oder mehrere Decodierer 258, Aufnahme 251, Digital-Analog(D/A)-Wandler 256, Mischer 253, 254 und Codierer 257) kennen, die zumindest teilweise als Software implementiert werden können, die auf einer handgehaltenen oder anderen tragbaren Rechenvorrichtung ausführbar ist.
Wie Fachleuten bekannt ist, haben Tonhöhendetektion und Tonhöhenkorrektur eine reiche technologische Geschichte in der Musik und den Sprachcodierungstechniken. In der Tat sind eine breite Vielfalt von Merkmalsaufnahme-, Zeitbereichs- und selbst Frequenzbereichstechniken in der Technik eingesetzt worden und können bei manchen Ausführungsformen gemäß der vorliegenden Erfindung eingesetzt werden. In diesem Sinne und mit der Erkenntnis, dass mehrstimmige Synchronisationstechniken gemäß der vorliegenden Erfindung(en) allgemein unabhängig von einer beliebigen speziellen Tonhöhendetektions- oder Tonhöhenkorrekturtechnologie sind, versucht die vorliegende Beschreibung nicht, die breite Vielfalt an Signalverarbeitungstechniken, die sich bei verschiedenen Gestaltungen oder Implementierungen gemäß der vorliegenden Beschreibung eignen können, ausführlich zu inventarisieren. Stattdessen wird einfach angemerkt, dass bei manchen Ausführungsformen gemäß den vorliegenden Erfindungen Tonhöhendetektionsverfahren eine durchschnittliche Magnitudendifferenzfunktion (AMDF) berechnen und Logik zum Wählen einer Spitze ausführen, die einer Schätzung der Tonhöhenperiode entspricht. Auf derartigen Schätzungen aufbauend werden PSOLA (Pitch Shift Overlap Add)-Techniken verwendet, um ein Resampling einer Wellenform zu ermöglichen, sodass eine tonhöhenverschobene Variante erzeugt wird, während aperiodische Effekte eines Splice reduziert werden. Spezifische Implementierungen basierend auf AMDF/PSOLA-Techniken sind ausführlich im eigenen US-Patent mit der Nr. 8,983,829 und dem Titel „Coordinating and Mixing Vocals Captured from Geographically Distributed Performers“, das Cook, Lazier, Lieber und Kirk als Erfinder nennt, beschrieben.
Eine beispielhafte mobile Vorrichtung
6 veranschaulicht Merkmale einer mobilen Vorrichtung, die als eine Plattform zur Ausführung von Softwareimplementierungen gemäß manchen Ausführungsformen der vorliegenden Erfindung dienen kann. Genauer gesagt ist 6 ein Blockdiagramm einer mobilen Vorrichtung 400, die allgemein mit kommerziell erhältlichen Versionen einer mobilen digitalen iPhone™-Vorrichtung konsistent ist. Obwohl Ausführungsformen der vorliegenden Erfindung mit Sicherheit nicht auf iPhone-Einsätze oder -Anwendungen (oder selbst iPhone-artige Vorrichtungen) beschränkt sind, liefert die iPhone-Vorrichtungsplattform zusammen mit ihrem reichen Komplement an Sensoren, Multimediageräten, Anwendungsprogrammiererschnittstellen und drahtlosem Anwendungsliefermodell eine äußerst fähige Plattform, auf der gewisse Implementierungen einzusetzen sind. Basierend auf der Beschreibung hierin werden Durchschnittsfachleute einen breiten Bereich von zusätzlichen mobilen Vorrichtungsplattformen kennen, die (jetzt oder nachfolgend) für eine gegebene Implementierung oder einen gegebenen Einsatz der hierin beschriebenen erfindungsgemäßen Techniken geeignet sein können.
Kurz zusammengefasst beinhaltet die mobile Vorrichtung 400 eine Anzeige 402, die gegenüber einem haptischen und/oder taktilen Kontakt mit einem Benutzer empfindlich sein kann. Die berührungsempfindliche Anzeige 402 kann Mehrfachberührungsmerkmale, die Verarbeitung von mehreren gleichzeitigen Berührungspunkten, einschließlich der Verarbeitung von Daten bezüglich des Drucks, des Grads und/oder der Position jedes Berührungspunkts, unterstützen. Eine derartige Verarbeitung ermöglicht Gesten und Interaktionen mit mehreren Fingern und andere Interaktionen. Natürlich können auch andere berührungsempfindliche Anzeigetechnologien verwendet werden, z. B. eine Anzeige, bei der ein Kontakt unter Verwendung eines Stylus oder einer anderen Zeigevorrichtung hergestellt wird.
Typischerweise präsentiert die mobile Vorrichtung 400 eine grafische Benutzeroberfläche auf der berührungsempfindlichen Anzeige 402, wodurch dem Benutzer ein Zugang zu verschiedenen Systemobjekten und zur Übermittlung von Informationen bereitgestellt wird. Bei manchen Implementierungen kann die grafische Benutzeroberfläche ein oder mehrere Anzeigeobjekte 404, 406 beinhalten. In dem dargestellten Beispiel sind die Anzeigeobjekte 404, 406 grafische Repräsentationen von Systemobjekten. Beispiele für Systemobjekte beinhalten Vorrichtungsfunktionen, Anwendungen, Fenster, Dateien, Warnungen, Ereignisse oder andere identifizierbare Systemobjekte. Bei manchen Ausführungsformen der vorliegenden Erfindung stellen Anwendungen bei ihrer Ausführung zumindest einen Teil der hierin beschriebenen digitalen akustischen Funktionalität bereit.
Typischerweise unterstützt die mobile Vorrichtung 400 Netzwerkkonnektivität, einschließlich zum Beispiel sowohl Mobilfunk- als auch Drahtlosvernetzungsfunktionalität, um dem Benutzer zu ermöglichen, mit der mobilen Vorrichtung 400 und ihren assoziierten netzwerkgestützten Funktionen zu reisen. In manchen Fällen kann die mobile Vorrichtung 400 mit anderen nahegelegenen Vorrichtungen (z. B. über WiFi, Bluetooth usw.) interagieren. Die mobile Vorrichtung 400 kann zum Beispiel dazu ausgelegt sein, mit Peers oder einer Basisstation für eine oder mehrere Vorrichtungen zu interagieren. Demnach kann die mobile Vorrichtung 400 einen Netzwerkzugriff für andere drahtlose Vorrichtungen gewähren oder verweigern.
Die mobile Vorrichtung 400 beinhaltet eine Vielfalt von Eingabe/Ausgabe(E/A)-Vorrichtungen, Sensoren und Wandlern. Beispielsweise sind typischerweise ein Lautsprecher 460 und ein Mikrofon 462 enthalten, um Audio zu ermöglichen, wie etwa die Aufnahme von Gesangsdarbietungen und eine hörbare Wiedergabe von Backing-Tracks und gemischter tonhöhenkorrigierter Gesangsdarbietungen, wie anderweitig hierin beschrieben. Bei manchen Ausführungsformen der vorliegenden Erfindung können der Lautsprecher 460 und das Mikrofon 662 geeignete Wandler für hierin beschriebene Techniken bereitstellen. Ein externer Lautsprecheranschluss 464 kann enthalten sein, um Freisprechfunktionalitäten zu ermöglichen, wie etwa Lautsprechertelefonfunktionen. Eine Audiobuchse 466 kann auch zur Verwendung von Kopfhörern und/oder eines Mikrofons enthalten sein. Bei manchen Ausführungsformen kann ein externer Lautsprecher und/oder ein externes Mikrofon als ein Wandler für die hierin beschriebenen Techniken verwendet werden.
Andere Sensoren können auch verwendet oder bereitgestellt werden. Ein Näherungssensor 468 kann enthalten sein, um die Detektion einer Benutzerpositionierung der mobilen Vorrichtung 400 zu ermöglichen. Bei manchen Implementierungen kann ein Umgebungslichtsensor 470 genutzt werden, um die Anpassung der Helligkeit der berührungsempfindlichen Anzeige 402 zu ermöglichen. Ein Beschleunigungsmesser 472 kann genutzt werden, um eine Bewegung der mobilen Vorrichtung 400 zu detektieren, wie durch den Richtungspfeil 474 angegeben. Dementsprechend können Anzeigeobjekte und/oder Medien gemäß einer detektierten Orientierung, z. B. Hochformat oder Querformat, präsentiert werden. Bei manchen Implementierungen kann die mobile Vorrichtung 400 einen Schaltkreis und Sensoren zum Unterstützen einer Ortsbestimmungsfähigkeit beinhalten, wie etwa jene, die durch das globale Positionierungssystem (GPS) oder andere Positionierungssysteme (z. B. Systeme, die WiFi-Zugangspunkte, Fernsehsignale, zellulare Netze, URLs (Uniform Resource Locators) verwenden) bereitgestellt wird, um hierin beschriebene Geocodierungen zu ermöglichen. Die mobile Vorrichtung 400 beinhaltet auch eine Kameralinse und einen Bilderfassungssensor 480. Bei manchen Implementierungen befinden sich Instanzen einer Kameralinse und eines Sensors 480 an Vorder- und Rückflächen der mobilen Vorrichtung 400. Die Kameras ermöglichen die Aufnahme von Standbildern und/oder von Video zur Assoziation mit aufgenommenem tonhöhenkorrigiertem Gesang.
Die mobile Vorrichtung 400 kann auch ein oder mehrere Drahtloskommunikationsuntersysteme beinhalten, wie etwa eine 802.11 b/g/n/ac-Kommunikationsvorrichtung und/oder eine Bluetooth™-Kommunikationsvorrichtung 488. Andere Kommunikationsprotokolle können auch unterstützt werden, einschließlich anderer 802.x-Kommunikationsprotokolle (z. B. WiMax, WiFi, 3G), Viertgeneration-Protokolle und -Modulationen (4G-LTE) und darüber hinaus (z. B. 5G), CDMA (Code Division Multiple Access - Codemultiplex-Mehrfachzugriff), GSM (Global System for Mobile Communications - globales System für Mobilkommunikationen), EDGE (Enhanced Data GSM Environment - erweiterte Daten-GSM-Umgebung) usw. Eine Anschlussvorrichtung 490, z. B. ein USB (Universal Serial Bus)-Anschluss, oder ein Andockanschluss oder eine andere verdrahtete Anschlussverbindung kann enthalten sein und zum Erstellen einer verdrahteten Verbindung mit anderen Rechenvorrichtungen verwendet werden, wie etwa anderen Kommunikationsvorrichtungen 400, Netzwerkzugangsvorrichtungen, einem Personal Computer, einem Drucker oder anderen Verarbeitungsvorrichtungen, die in der Lage sind, Daten zu empfangen und/oder zu übertragen. Die Anschlussvorrichtung 490 kann auch der mobilen Vorrichtung 400 gestatten, sich mit einer Gastgebervorrichtung unter Verwendung eines oder mehrerer Protokolle zu synchronisieren, wie etwa zum Beispiel des TCP/IP-, HTTP-, UDP- und eines beliebigen anderen bekannten Protokolls.
7 veranschaulicht jeweilige Instanzen (701, 720A, 720B und 711) von Rechenvorrichtungen, die mit Gesangsaudio- und Videoaufnahmecode, Benutzeroberflächencode, Tonhöhenkorrekturcode, einer Audiowiedergabepipeline und Playback-Code gemäß den Funktionsbeschreibungen hierin programmiert (oder programmierbar) sind. Die Vorrichtungsinstanz 701 ist als in einem Aufnahmemodus für Gesangsaudio und darbietungssynchronisiertes Video arbeitend abgebildet, während die Vorrichtungsinstanzen 720A und 720B als in einem Modus arbeitend abgebildet sind, der gemischte audiovisuelle Livestream-Darbietungen empfängt. Obwohl eine fernsehartige Anzeige und/oder ein Set-Top-Box-Gerät 720B als in einem Livestream-Empfangsmodus arbeitend abgebildet ist, kann ein derartiges Gerät und ein derartiger Computer 711 als Teil einer Aufnahmeanlage für Gesangsaudio und darbietungssynchronisiertes Video arbeiten (als Gastvorrichtung 101A oder Gastgebervorrichtung 101B, siehe 1). Jede der vorgenannten Vorrichtungen kommuniziert über drahtlose Datentransport- und/oder zwischenliegende Netzwerke 704 mit einem Server 712 oder einer Dienstplattform, der bzw. die eine Speicherung und/oder Funktionalität hostet, die hierin bezüglich des Inhaltsservers 110 erläutert ist. Die aufgenommenen tonhöhenkorrigierten Gesangsdarbietungen gemischt mit einem darbietungssynchronisierten Video zum Definieren einer audiovisuellen Darbietung mit mehreren Sängern, wie hierin beschrieben, können (optional) an einem Laptop-Computer 711 live gestreamt und audiovisuell wiedergegeben werden.
ANDERE AUSFÜHRUNGSFORMEN
Obwohl die Erfindung(en) unter Bezugnahme auf verschiedene Ausführungsformen beschrieben ist (sind), wird verstanden, dass diese Ausführungsformen veranschaulichend sind und der Schutzumfang der Erfindung(en) nicht auf diese beschränkt ist. Viele Variationen, Modifikationen, Zusätze und Verbesserungen sind möglich. Obwohl Tonhöhenkorrektur-Gesangsdarbietungen beschrieben wurden, die gemäß einer karaokeartigen Schnittstelle aufgenommen werden, sind zum Beispiel andere Variationen bekannt. Des Weiteren, obwohl gewisse veranschaulichende Signalverarbeitungstechniken im Zusammenhang gewisser veranschaulichender Anwendungen beschrieben wurden, werden Durchschnittsfachleute erkennen, dass es einfach ist, die beschriebenen Techniken zu modifizieren, um anderen geeigneten Signalverarbeitungstechniken und Effekten entgegenzukommen.
Ausführungsformen gemäß der vorliegenden Erfindung können die Form eines Computerprogrammprodukts annehmen und/oder als dieses bereitgestellt sein, das in einem maschinenlesbaren Medium als Anweisungsfolgen und andere Funktionskonstrukte von Software codiert ist, die im Gegenzug in einem Rechensystem (wie etwa einem iPhone-Handapparat, einer mobilen oder tragbaren Rechenvorrichtung, einer Medienanwendungsplattform, einer Set-Top-Box oder einer Inhaltsserverplattform) ausgeführt werden können, um hierin beschriebene Verfahren durchzuführen. Im Allgemeinen kann ein maschinenlesbares Medium greifbare Artikel, die Informationen in einer Form (z. B. als Anwendungen, Quell- oder Objektcode, funktionelle deskriptive Informationen usw.) codieren, die durch eine Maschine (z. B. einen Computer, Recheneinrichtungen einer mobilen oder tragbaren Rechenvorrichtung, eine Medienvorrichtung oder einen Streamer usw.) lesbar ist, sowie eine nichtflüchtige Speicherung, die mit der Aussendung der Informationen verbunden ist, beinhalten. Ein maschinenlesbares Medium kann unter anderem ein magnetisches Speicherungsmedium (z. B. Platten- und/oder Bandspeicherung); ein optisches Speicherungsmedium (z. B. CD-ROM, DVD usw.); ein magnetooptisches Speicherungsmedium; einen Nurlesespeicher (ROM); einen Direktzugriffsspeicher (RAM); einen löschbaren programmierbaren Speicher (z. B. EPROM und EEPROM); Flash-Speicher oder andere Arten von Medium beinhalten, die sich zur Speicherung elektronischer Anweisungen, Operationsfolgen, funktionellen deskriptiven Informationscodierungen usw. eignen.
Im Allgemeinen können mehrere Instanzen für Komponenten, Operationen oder Strukturen bereitgestellt sein, die hierin als eine einzelne Instanz beschrieben sind. Abgrenzungen zwischen verschiedenen Komponenten, Operationen und Datenspeichern sind in gewisser Hinsicht willkürlich und spezielle Operationen sind im Zusammenhang spezifischer veranschaulichender Konfigurationen veranschaulicht. Andere Zuweisungen von Funktionalität werden in Betracht gezogen und können in den Schutzumfang der Erfindung(en) fallen. Allgemein können Strukturen und Funktionalität, die in den beispielhaften Konfigurationen als separate Komponenten dargelegt sind, als eine kombinierte Struktur oder Komponente implementiert werden. Gleichermaßen können Strukturen und Funktionalität, die als eine einzelne Komponente dargelegt sind, als separate Komponenten implementiert werden. Diese und andere Variationen, Modifikationen, Zusätze und Verbesserungen können in den Schutzumfang der Erfindung(en) fallen.

Claims

Audiokollaborationsverfahren zum Aussenden einer gemeinsamen Darbietung eines geografisch verteilten ersten und zweiten Musikers mit einer nicht vernachlässigbaren Peer-zu-Peer-Kommunikationslatenz zwischen Gastgeber- und Gastvorrichtungen, wobei das Verfahren Folgendes umfasst: Empfangen, an der Gastgebervorrichtung, die als ein lokaler Peer arbeitet, einer Mediencodierung einer gemischten Audiodarbietung, die (i) Gesangsaudio, das an der Gastvorrichtung, die kommunikativ als ein entfernter Peer gekoppelt ist, aufgenommen wird, von einem ersten der Musiker beinhaltet, und (ii) mit einem Backing-Audio-Track gemischt wird; an der Gastgebervorrichtung, hörbares Wiedergeben der empfangenen gemischten Audiodarbietung und demgegenüber Aufnehmen von Gesangsaudio von einem zweiten der Musiker; und Mischen des aufgenommenen Gesangsaudios des zweiten Musikers mit der empfangenen gemischten Audiodarbietung zur Übertragung zu einer Zuhörerschaft als die Aussendung, wobei der Aussendungsmix Gesangsaudio des ersten und zweiten Musikers und den Backing-Audio-Track mit einer vernachlässigbaren zeitlichen Verzögerung dazwischen beinhaltet.
Verfahren nach Anspruch 1, ferner umfassend: über ein großflächiges Netzwerk, Übertragen des Aussendungsmixes zu mehreren Empfängern als ein Livestream, wobei die mehreren Empfänger die Zuhörerschaft bilden.
Verfahren nach Anspruch 1, ferner umfassend: selektives Anschließen, an der Gastgebervorrichtung, des zweiten Musikers, dem ersten Musiker bei der gemeinsamen Darbietung.
Verfahren nach Anspruch 3, wobei der beigetretene erste Musiker aus der Zuhörerschaft ausgewählt wird, und zumindest für die Dauer der gemeinsamen Darbietung von der Livestream-Übertragung der Aussendung zu der Zuhörerschaft entkoppelt wird.
Verfahren nach Anspruch 4, wobei die übertragene Livestream-Aussendung zu der Zuhörerschaft um zumindest mehrere Sekunden bezüglich der Gesangsaudioaufnahme des ersten Musikers zeitlich verzögert ist.
Verfahren nach Anspruch 4, ferner umfassend: Zurückgeben des ersten Musikers zu der Zuhörerschaft und gleichzeitiges Wiedereinkoppeln zu der Livestream-Übertragung.
Verfahren nach Anspruch 6, ferner umfassend: selektives Anschließen eines dritten Musikers als einen neuen entfernten Peer, und danach Empfangen, an der Gastgebervorrichtung, einer zweiten Mediencodierung einer gemischten Audiodarbietung, die (i) Gesangsaudio beinhaltet, das von dem dritten Musiker an einer neuen Gastvorrichtung aufgenommen wird, die kommunikativ als der neue entfernte Peer gekoppelt ist, und (ii) mit einem zweiten Backing-Audio-Track gemischt wird; an der Gastgebervorrichtung, hörbares Wiedergeben der zweiten Mediencodierung und demgegenüber Aufnehmen von zusätzlichem Gesangsaudio vom zweiten Musiker; und Mischen des aufgenommenen zusätzlichen Gesangsaudios mit der empfangenen zweiten Mediencodierung zur Übertragung zu der Zuhörerschaft als eine Fortsetzung der Aussendung, wobei der Aussendungsmix Gesangsaudio des zweiten und dritten Musikers und den zweiten Backing-Audio-Track mit einer vernachlässigbaren zeitlichen Verzögerung dazwischen beinhaltet.
Verfahren nach Anspruch 1, ferner umfassend: Liefern des aufgenommenen Gesangsaudios des zweiten Musikers zu dem entfernten Gastvorrichtungs-Peer zur hörbaren Wiedergabe an der Gastvorrichtung mit zumindest mancher gastseitigen zeitlichen Verzögerung relativ zu der Aufnahme von Gesangsaudio vom ersten Musiker.
Verfahren nach Anspruch 8, wobei die ersichtliche gastseitige zeitliche Verzögerung mindestens etwa 40-1200 ms beträgt.
Verfahren nach Anspruch 8, wobei im Wesentlichen die gesamte nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz in der gastseitigen zeitlichen Verzögerung ersichtlich ist.
Verfahren nach Anspruch 10, wobei im Wesentlichen keine der nicht vernachlässigbaren Peer-zu-Peer-Kommunikationslatenz an der Gastgebervorrichtung oder im Aussendungsmix des ersten und zweiten Musikers ersichtlich ist.
Verfahren nach Anspruch 1, wobei die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz Folgendes beinhaltet: Eingangssignal-zu-Senden-Verzögerung, Netzwerkverzögerung, Jitter-Pufferverzögerung, und Puffer-und-Ausgabe-Verzögerung.
Verfahren nach Anspruch 1, wobei die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz mindestens etwa 100-250 ms beträgt.
Verfahren nach Anspruch 1, wobei die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz etwa 100-600 ms beträgt.
Verfahren nach Anspruch 1, wobei die nicht vernachlässigbare Peer-zu-Peer-Kommunikationslatenz mindestens etwa 30-100 ms beträgt.
Verfahren nach Anspruch 1, wobei der Empfang der gemischten Audiodarbietung an der Gastgebervorrichtung und die Lieferung des aufgenommenen Gesangsaudios des zweiten Musikers zu der Gastvorrichtung über eine audiovisuelle Peer-zu-Peer-Verbindung unter Verwendung eines WebRTC-artigen Frameworks (WebRTC: Web Real-Time Communications - Web-Echtzeit-Kommunikationen) stattfinden.
Verfahren nach Anspruch 1, ferner umfassend: Liefern des Aussendungsmixes von Gesangsaudio des ersten und zweiten Musikers über ein großflächiges Netzwerk.
Verfahren nach Anspruch 17, wobei das Liefern des Aussendungsmixes über ein RTMP-artiges audiovisuelles Streaming-Protokoll (RTMP: Real-Time Messaging Protocol - Echtzeit-Messaging-Protokoll) stattfindet.
Verfahren nach Anspruch 1, wobei zumindest die Gastvorrichtung ein mobiles handgehaltenes Telefon oder einen Medienplayer bildet.
Verfahren nach Anspruch 1, ferner umfassend: an der Gastgebervorrichtung, Tonhöhenkorrigieren von Gesang des zweiten Musikers gemäß einer Gesangspartitur, die eine Folge von Noten für eine Gesangsmelodie codiert.
Verfahren nach Anspruch 20, ferner umfassend: an der Gastgebervorrichtung, Tonhöhenkorrigieren von Gesang des zweiten Musikers gemäß einer Gesangspartitur, die zumindest einen ersten Satz von Harmonienoten für zumindest manche Teile der Gesangsmelodie codiert.
Verfahren nach Anspruch 1, wobei der in der empfangenen gemischten Darbietung enthaltene Gesang des ersten Musikers ein tonhöhenkorrigierter Gesang ist.
Verfahren nach Anspruch 1, wobei der Gesang entweder des ersten oder des zweiten Musikers gemäß einer Gesangspartitur, die eine Folge von Noten für eine Gesangsmelodie codiert, tonhöhenkorrigiert wird; und wobei der Gesang des anderen des ersten und zweiten Musikers gemäß einer Gesangspartitur, die zumindest einen ersten Satz von Harmonienoten für zumindest manche Teile der Gesangsmelodie codiert.
Verfahren nach Anspruch 1, wobei der Gesang des ersten und/oder zweiten Musikers vor dem Einschluss in die Aussendung rechnerisch verarbeitet wird, um einen oder mehrere Audioeffekte anzuwenden.
Verfahren nach Anspruch 24, wobei die angewendeten Audioeffekte eines oder mehrere der Folgenden beinhalten: einen Nachhalleffekt, digitale Filterung, spektrale Entzerrung, nichtlineare Verzerrung, Audiokomprimierung, Tonhöhenkorrektur oder Tonhöhenverschiebung, kanalrelative Verstärkung und/oder Phasenverzögerung, um eine ersichtliche Platzierung des ersten oder zweiten Musikers in einem Stereofeld zu manipulieren.
Verfahren nach Anspruch 1, wobei die empfangene Mediencodierung Video beinhaltet, das mit dem aufgenommenen Gesang des ersten Musikers darbietungssynchronisiert ist, wobei das Verfahren ferner Aufnehmen, an der Gastgebervorrichtung, von Video beinhaltet, das mit dem aufgenommenen Gesang des zweiten Musikers darbietungssynchronisiert ist, und wobei der Aussendungsmix ein audiovisueller Mix von aufgenommenem Audio und Video zumindest des ersten und zweiten Musikers ist.
Verfahren nach Anspruch 26, ferner umfassend: dynamisches Variieren im Aussendungsmix zumindest einer visuellen Prominenz entweder des ersten oder zweiten Musikers basierend auf einer Evaluierung eines rechnerisch definierten Audiomerkmals des Gesangs des ersten und/oder zweiten Musikers.
Verfahren nach Anspruch 26, ferner umfassend: Anwenden eines oder mehrerer Videoeffekte am Aussendungsmix zumindest teilweise basierend auf einem rechnerisch definierten Audio- oder Videomerkmal des Audios oder Videos des ersten und/oder zweiten Musikers.
Verfahren nach Anspruch 1, ferner umfassend: Empfangen, an der Gastgebervorrichtung, von Chat-Nachrichten von Mitgliedern der Zuhörerschaft.
Verfahren nach Anspruch 1, ferner umfassend: Einbeziehen von zumindest manchem Inhalt der Chat-Nachrichten als Teil des Videos des Aussendungsmixes.
Verfahren nach Anspruch 1, ferner umfassend: Empfangen, an der Gastgebervorrichtung, von Chat-Nachrichten und/oder Emojis und/oder animierten GIFs und/oder Abstimmungsindikationen von Mitgliedern der Zuhörerschaft.
Verfahren nach Anspruch 31, ferner umfassend: Einbeziehen einer visuellen Präsentation von zumindest manchen des empfangenen Chat-Nachrichteninhalts, der Emojis, der animierten GIFs oder der Abstimmungsindikationen als Teil des Aussendungsmixes.
Verfahren nach Anspruch 1, ferner umfassend: Einreihen einer Anfragen-Playlist von einem oder mehreren Empfängern des Aussendungsmixes in eine Warteschlange.
Verfahren nach Anspruch 33, ferner umfassend: als Reaktion auf eine Auswahl durch den zweiten Musiker an der Gastgebervorrichtung einer speziellen der Playlist-Anfragen in der Warteschlange, Abrufen des Backing-Audio-Tracks und/oder des Liedtexts und/oder von partiturcodierten Notenzielen aus einem Inhaltsrepositorium.
Verfahren nach Anspruch 33, ferner umfassend: als Reaktion auf eine Auswahl durch den zweiten Musiker an der Gastgebervorrichtung einer speziellen der Playlist-Anfragen in der Warteschlange, Beliefern der kommunikativ gekoppelten Gastvorrichtung mit dem Backing-Audio-Track und/oder Liedtext und/oder partiturcodierten Notenzielen nach Bedarf.
Verfahren nach Anspruch 1, wobei der Aussendungsmix als ein Gesangsduett präsentiert wird.
Verfahren nach Anspruch 1, ferner umfassend: Empfangen, an der Gastgebervorrichtung, einer Mediencodierung von mindestens einer anderen gemischten Audiodarbietung, die (i) Gesangsaudio bildet, das an einer anderen Gastvorrichtung, die kommunikativ als ein anderer entfernter Peer gekoppelt ist, von einem dritten Musiker aufgenommen wird, und (ii) zeitlich mit dem Backing-Audio-Track ausgerichtet oder ausrichtbar ist.
Verfahren nach Anspruch 2, wobei Audio des Livestreams Folgendes beinhaltet: gesprächsartige Audioteile, die entsprechend einem interaktiven Gespräch zwischen dem ersten und zweiten Musiker aufgenommen werden; sowie Gesangsdarbietungsaudioteile, die entsprechend einer musikalischen Gesangsdarbietung des ersten und/oder zweiten Musikers gegenüber dem Backing-Audio-Track aufgenommen werden.
Verfahren nach Anspruch 38, ferner umfassend: Auswählen eines Highlights-Clips-Satzes von Segmenten aus dem Livestream, wobei der Highlights-Clips-Satz von Segmenten allgemein die musikalischen Gesangsdarbietungsteile beinhaltet und allgemein die gesprächsartigen Audioteile ausschließt.
Verfahren nach Anspruch 38, ferner umfassend: Auswählen eines Highlight-Clips-Satzes von Segmenten basierend auf einer Korrespondenz spezieller Audioteile des Livestreams mit Vers-, Refrain- oder Musikabschnittsabgrenzungen, entweder partiturcodiert oder rechnerisch durch eine Audiomerkmalsanalyse bestimmt.
Verfahren nach Anspruch 38, ferner umfassend: Auswählen eines Higlight-Clips-Satzes von Segmenten aus dem Livestream basierend auf Zuhörerschaftreaktionen auf den Livestream und/oder der Liedstruktur und/oder der Audioleistung.
Verfahren nach Anspruch 38, ferner umfassend: als Reaktion auf eine Auswahl durch einen Benutzer, Abspeichern oder Sharing einer audiovisuellen Codierung eines oder mehrerer der Highlight-Clips.
Verfahren nach Anspruch 1, ferner umfassend: Empfangen, von der Gastvorrichtung, einer oder mehrerer Liedtextsynchronisationsmarkierungen, wobei die Liedtextsynchronisationsmarkierungen der Gastgebervorrichtung eine zeitliche Ausrichtung eines Liedtexts übermitteln, der an der Gastvorrichtung mit dem Gesangsaudio, das an der Gastvorrichtung aufgenommen wird, visuell präsentiert wird.
Verfahren nach Anspruch 43, ferner umfassend: visuelles Präsentieren des Liedtextes an der Gastgebervorrichtung, wobei die visuelle Präsentation des Liedtextes zeitlich mit der Mediencodierung der gemischten Audiodarbietung, die von der Gastvorrichtung empfangen wird, basierend auf der bzw. den empfangenen einen oder mehreren Liedtextsynchronisationsmarkierungen ausgerichtet ist.
Verfahren nach Anspruch 43, wobei die eine oder die mehreren empfangenen Liedtextsynchronisationsmarkierungen den Verlauf des Liedtexts, der auf der Gastgebervorrichtung präsentiert wird, mit einer Pause oder anderen zeitlichen Steuerung an der Gastvorrichtung koordinieren.
System zur Ausstrahlung einer scheinbaren Live-Aussendung einer gemeinsamen Darbietung eines geografisch verteilten ersten und zweiten Musikers, wobei das System Folgendes umfasst: Gastgeber- und Gastvorrichtungen, die als lokale und entfernte Peers durch ein Kommunikationsnetzwerk mit einer nicht vernachlässigbaren Peer-zu-Peer-Latenz für Übertragungen von audiovisuellem Inhalt gekoppelt sind, wobei die Gastgebervorrichtung kommunikativ als der lokale Peer gekoppelt ist, um eine Mediencodierung einer gemischten Audiodarbietung, die an der Gastvorrichtung aufgenommenes Gesangsaudio bildet, zu empfangen, und die Gastvorrichtung kommunikativ als der entfernte Peer gekoppelt ist, um die Mediencodierung zu liefern, die von einem ersten der Musiker aufgenommen und mit einem Backing-Audio-Track gemischt wird; die Gastgebervorrichtung dazu ausgelegt ist, die empfangene gemischte Audiodarbietung hörbar wiederzugeben, demgegenüber ein Gesangsaudio von einem zweiten der Musiker aufzunehmen, und das aufgenommene Gesangsaudio des zweiten Musikers mit der empfangenen gemischten Audiodarbietung zur Übertragung als die scheinbare Live-Aussendung zu mischen.
Audiokollaborationsverfahren für eine Livestream-Aussendung einer koordinierten audiovisuellen Arbeit eines ersten und zweiten Musikers, die an jeweiligen geografisch verteilten ersten und zweiten Vorrichtungen aufgenommen wird, wobei das Verfahren Folgendes umfasst: Empfangen, an der zweiten Vorrichtung, einer Mediencodierung einer gemischten Audiodarbietung, die (i) an der ersten Vorrichtung aufgenommenes Gesangsaudio von einem ersten der Musiker beinhaltet, und (ii) mit einem Backing-Audio-Track gemischt wird; an der zweiten Vorrichtung, hörbares Wiedergeben der empfangenen gemischten Audiodarbietung und demgegenüber Aufnehmen von Gesangsaudio von einem zweiten der Musiker; Mischen des aufgenommenen Gesangsaudios des zweiten Musikers mit der empfangenen gemischten Audiodarbietung, um einen Aussendungsmix bereitzustellen, der das aufgenommene Gesangsaudio des ersten und zweiten Musikers und den Backing-Audio-Track ohne eine ersichtliche zeitliche Verzögerung dazwischen beinhaltet; und Liefern des Aussendungsmixes zu einer Dienstplattform, die dazu ausgelegt ist, den Aussendungsmix zu mehreren Empfangsvorrichtungen, die eine Zuhörerschaft bilden, im Livestream zu übertragen.
Verfahren nach Anspruch 47, wobei die erste Vorrichtung mit der zweiten Vorrichtung als ein aktueller Livestream-Gast assoziiert ist, und wobei die zweite Vorrichtung als ein aktueller Livestream-Gastgeber arbeitet, wobei der aktuelle Livestream-Gastgeber die Assoziation und Trennung spezieller Vorrichtungen von der Zuhörerschaft als den aktuellen Livestream-Gast steuert.
Verfahren nach Anspruch 48, wobei der aktuelle Livestream-Gastgeber aus einer Warteschlange von Anfragen von der Zuhörerschaft für eine Assoziation als der aktuelle Livestream-Gast auswählt.
Verfahren nach Anspruch 47, wobei die erste Vorrichtung in einer Livestream-Gastfunktion arbeitet und die zweite Vorrichtung in einer Livestream-Gastgeberfunktion arbeitet, wobei das Verfahren ferner Folgendes umfasst: durch die zweite Vorrichtung, Freigeben der Livestream-Gastgeberfunktion zur Annahme durch eine andere Vorrichtung; und/oder durch die zweite Vorrichtung, Weitergeben der Livestream-Gastgeberfunktion zu einer speziellen Vorrichtung, die aus einem Satz, der die erste Vorrichtung und die Zuhörerschaft umfasst, ausgewählt wird.