DE112018004717T5

DE112018004717T5 - Audiovisual effects system for expanding a recorded performance based on its content

Info

Publication number: DE112018004717T5
Application number: DE112018004717.2T
Authority: DE
Inventors: David Steinwedel; Perry R. Cook; Paul T. Chi; Wei Zhou; Jon Moldover; Anton Holmberg; Jingxi Li
Original assignee: Smule Inc
Current assignee: Smule Inc
Priority date: 2017-08-21
Filing date: 2018-08-21
Publication date: 2020-06-10
Also published as: CN111345044B; WO2019040492A1; CN111345044A

Abstract

Visuelle Effektschemas werden an audiovisuellen Darbietungen angewendet, wobei unterschiedliche visuelle Effekte entsprechend unterschiedlichen Elementen einer musikalischen Struktur angewendet werden. Segmentierungstechniken, die an einem oder mehreren Audio-Tracks (z. B. Gesangs- oder Backing-Tracks) angewendet werden, werden zum Berechnen von manchen der Komponenten der musikalischen Struktur verwendet. In manchen Fällen sind angewendete visuelle Effektschemas stimmungsbezeichnend und können durch einen Performer als eine Komponente seines visuellen Ausdrucks ausgewählt oder aus einer audiovisuellen Darbietung unter Verwendung von Maschinenlerntechniken bestimmt werden.Visual effect schemes are applied to audiovisual performances, with different visual effects applied according to different elements of a musical structure. Segmentation techniques applied to one or more audio tracks (e.g., vocal or backing tracks) are used to compute some of the components of the musical structure. In some cases, visual effects schemes applied are mood-indicative and can be selected by a performer as a component of his visual expression or determined from an audiovisual performance using machine learning techniques.

Description

TECHNISCHES GEBIETTECHNICAL AREA

Die Erfindung betrifft allgemein das Aufnehmen und/oder Bearbeiten von Gesangsaudiodarbietungen und insbesondere Techniken, die sich zur Verwendung beim Anwenden ausgewählter visueller Effekte an darbietungssynchronisiertem Video eignen, auf eine Art und Weise, die mit der musikalischen Struktur der Darbietung konsistent ist oder dieser zugrunde liegt.The invention relates generally to the recording and / or editing of vocal audio performances and, more particularly, to techniques suitable for use in applying selected visual effects to performance-synchronized video in a manner consistent with or underlying the musical structure of the performance.

STAND DER TECHNIKSTATE OF THE ART

Der installierte Bestand von Mobiltelefonen und anderen tragbaren Rechenvorrichtungen wächst jeden Tag in der Anzahl und der Rechenleistung erheblich an. Allgegenwärtig und tief verwurzelt in den Lebensstilen von Menschen auf der ganzen Welt, überwinden sie fast jede kulturelle und ökonomische Barriere. Rechnerisch bieten die heutigen Mobiltelefone Geschwindigkeits- und Speicherfähigkeiten, die mit Desktop-Computern von vor weniger als zehn Jahren vergleichbar sind, was sie überraschenderweise für Echtzeit-Klangsynthese und andere musikalische Anwendungen geeignet macht. Teilweise unterstützen moderne Mobiltelefone, wie etwa iPhone®-Handheld digitale Vorrichtungen, verfügbar von Apple Inc., aus diesem Grund Audio- und Video-Playback recht gut.The installed inventory of mobile phones and other portable computing devices increases significantly in number and computing power every day. Omnipresent and deeply rooted in the lifestyles of people all over the world, they overcome almost every cultural and economic barrier. Mathematically, today's mobile phones offer speed and storage capabilities comparable to desktop computers less than ten years ago, which surprisingly makes them suitable for real-time sound synthesis and other musical applications. In part, modern cell phones, such as iPhone® handheld digital devices available from Apple Inc., therefore support audio and video playback quite well.

Wie traditionelle akustische Instrumente können Mobiltelefone persönliche Klangerzeugungs- und -aufnahmevorrichtungen sein. Im Vergleich zu den meisten traditionellen Instrumenten sind sie jedoch etwas in der akustischen Bandbreite und Leistung beschränkt. Nichtsdestotrotz besitzen Mobiltelefone trotz dieser Nachteile die Vorteile von Allgegenwärtigkeit, ihrer großen Anzahl und Ultramobilität, was es (zumindest in der Theorie) ermöglicht, Künstler für eine Darbietung fast überall und jederzeit zusammenzubringen. Das Gebiet der Mobilmusik wurde in mehreren Entwicklungsforschungsarbeiten erforscht. In der Tat hat die jüngste Erfahrung mit Anwendungen wie etwa Smule Ocarina™, Smule Magic Piano und Smule Sing! Karaoke™ (alle verfügbar von Smule, Inc.) gezeigt, dass fortgeschrittene digitale akustische Techniken auf Weisen geliefert werden können, die eine fesselnde Benutzererfahrung liefern.Like traditional acoustic instruments, cell phones can be personal sound generating and recording devices. Compared to most traditional instruments, however, they are somewhat limited in acoustic bandwidth and performance. Nevertheless, despite these disadvantages, mobile phones have the advantages of omnipresence, their large number and ultra-mobility, which (at least in theory) makes it possible to bring artists together for a performance almost anywhere and at any time. The field of mobile music has been researched in several development research projects. Indeed, recent experience has included applications such as Smule Ocarina ™, Smule Magic Piano and Smule Sing! Karaoke ™ (all available from Smule, Inc.) demonstrated that advanced digital acoustic techniques can be delivered in ways that provide an engaging user experience.

Während Forscher der digitalen Akustik versuchen, ihre Neuerungen in kommerzielle Anwendungen umzuwandeln, die bei den modernen handgehaltenen Vorrichtungen wie etwa dem iPhone®-Handheld und anderen Plattformen einsetzbar sind, die innerhalb der Beschränkungen in der realen Welt, die durch den Prozessor, den Speicher und andere beschränkende Rechenressourcen davon auferlegt werden, und/oder innerhalb für Drahtlosnetze typischer Kommunikationsbandbreiten- und Übertragungslatenzbeschränkungen arbeiten, liegen erhebliche praktische Herausforderungen vor. Verbesserte Techniken und Funktionsfähigkeiten sind gewünscht, insbesondere bezüglich Video.While researchers in digital acoustics are trying to transform their innovations into commercial applications that can be used with modern handheld devices such as the iPhone® handheld and other platforms that are within the real world constraints imposed by the processor, memory, and other restrictive computational resources are imposed, and / or operate within wireless bandwidth and transmission latency limitations typical of wireless networks, pose significant practical challenges. Improved techniques and capabilities are desired, especially with regard to video.

OFFENBARUNG DER ERFINDUNG(EN)DISCLOSURE OF THE INVENTION (DE)

Es wurde entdeckt, dass trotz vieler praktischer Beschränkungen, die durch Mobilvorrichtungsplattformen und Anwendungsausführungsumgebungen auferlegt werden, audiovisuelle Darbietungen, einschließlich Gesangsmusik, aufgenommen oder manipuliert und (in manchen Fällen) mit denen anderer Benutzer koordiniert werden können, auf Weisen, die fesselnde Benutzererfahrungen erzeugen. In manchen Fällen werden die Gesangsdarbietungen individueller Benutzer (zusammen mit darbietungssynchronisiertem Video) auf Mobilvorrichtungen oder unter Verwendung eines Set-Top-Box-artigen Geräts im Zusammenhang mit einer karaokeartigen Präsentation eines Liedtexts entsprechend hörbaren Wiedergaben eines Backing-Tracks aufgenommen. In manchen Fällen können Sängern Tonhöhenhinweise in Verbindung mit der karaokeartigen Präsentation eines Liedtexts präsentiert werden und optional kann eine kontinuierliche automatische Tonhöhenkorrektur (oder Tonhöhenverschiebung zu Harmonie) bereitgestellt werden.It has been discovered that, despite many practical restrictions imposed by mobile device platforms and application execution environments, audiovisual performances, including vocal music, are recorded or manipulated and (in some cases) can be coordinated with other users in ways that create engaging user experiences. In some cases, singing performances by individual users (along with performance-synchronized video) are recorded on mobile devices or using a set-top box-like device in connection with a karaoke-like presentation of lyrics to audible renditions of a backing track. In some cases, pitch notes can be presented to singers in connection with the karaoke-like presentation of lyrics, and optionally, continuous automatic pitch correction (or pitch shifting to harmony) can be provided.

Gesangsaudio eines Benutzers zusammen mit darbietungssynchronisiertem Video wird in manchen Fällen oder Ausführungsformen mit audiovisuellen Beiträgen anderer Benutzer aufgenommen und koordiniert, um zusammengesetzte duettartige oder Glee-Club-artige oder fensterbasierte musikvideoartige audiovisuelle Darbietungen zu bilden. In manchen Fällen werden die Gesangsdarbietungen individueller Benutzer (zusammen mit darbietungssynchronisiertem Video) auf Mobilvorrichtungen, einer fernseherartigen Anzeige und/oder einem Set-Top-Box-Gerät im Zusammenhang von karaokeartigen Präsentationen eines Liedtexts entsprechend hörbaren Wiedergaben eines Backing-Tracks aufgenommen. Beiträge mehrerer Sänger können auf eine Art und Weise koordiniert und gemischt werden, die zu einer beliebigen gegebenen Zeit entlang einer gegebenen Darbietungszeitleiste ein darbietungssynchronisiertes Video eines oder mehrerer der Mitwirkenden zur Präsentation auswählt. Auswahlen liefern eine Folge von visuellen Layouts entsprechend anderer codierter Aspekte einer Darbietungspartitur wie etwa Tonhöhenspuren, Backing-Audio, Liedtext, Abschnitte und/oder Gesangsparts.A user's vocal audio along with performance-synchronized video is in some cases or embodiments recorded and coordinated with other users' audiovisual contributions to form composite duet-like or glee-club-like or window-based music video-like audiovisual performances. In some cases, the singing performances of individual users (along with performance-synchronized video) are recorded on mobile devices, a television-like display and / or a set-top box device in the context of karaoke-like presentations of a song text corresponding to audible reproductions of a backing track. Multiple singer contributions can be coordinated and mixed in a manner that, at any given time along a given performance timeline, selects a performance-synchronized video of one or more of the contributors for presentation. Selections provide a sequence of visual layouts corresponding to other encoded aspects of a performance score, such as pitch tracks, backing audio, lyrics, sections, and / or vocal parts.

Visuelle Effektschemas werden an audiovisuellen Darbietungen angewendet, wobei unterschiedliche visuelle Effekte entsprechend unterschiedlichen Elementen der musikalischen Struktur angewendet werden. In manchen Fällen werden Segmentierungstechniken, die an einem oder mehreren Audio-Tracks (z. B. Gesangs-Tracks oder Backing-Tracks) angewendet werden, zum Bestimmen von Elementen der musikalischen Struktur verwendet. In manchen Fällen sind angewendete visuelle Effektschemas stimmungsbezeichnend und können durch einen Performer als eine Komponente seines visuellen Ausdrucks ausgewählt werden oder können aus einer audiovisuellen Darbietung unter Verwendung von Maschinenlerntechniken bestimmt werden.Visual effect schemes are applied to audiovisual performances, with different visual effects applied according to different elements of the musical structure will. In some cases, segmentation techniques applied to one or more audio tracks (e.g. vocal tracks or backing tracks) are used to determine elements of the musical structure. In some cases, visual effects schemes applied are mood-indicative and can be selected by a performer as a component of their visual expression or can be determined from an audiovisual presentation using machine learning techniques.

Bei manchen Ausführungsformen der vorliegenden Erfindung beinhaltet ein Verfahren Zugreifen auf eine maschinenlesbare Codierung einer ersten audiovisuellen Darbietung und Anwenden eines ersten visuellen Effektschemas an zumindest einem Teil der ersten audiovisuellen Darbietungscodierung. Die erste audiovisuelle Darbietung wird als Gesangsaudio mit darbietungssynchronisiertem Video aufgenommen und weist eine assoziierte musikalische Strukturcodierung auf, die zumindest Musikabschnittsabgrenzungen beinhaltet, die zum zeitlichen Abgleich mit der ersten audiovisuellen Darbietungscodierung codiert sind. Das angewendete visuelle Effektschema codiert unterschiedliche visuelle Effekte für unterschiedliche musikalische Strukturelemente der ersten audiovisuellen Darbietungscodierung und liefert Übergänge für visuelle Effekte in zeitlichem Abgleich mit zumindest manchen der codierten Musikabschnittsabgrenzungen.In some embodiments of the present invention, a method includes accessing machine readable encoding of a first audiovisual presentation and applying a first visual effects scheme to at least a portion of the first audiovisual presentation encoding. The first audiovisual performance is recorded as a vocal audio with performance-synchronized video and has an associated musical structure coding, which at least contains music segment delimitations that are coded for temporal comparison with the first audiovisual performance coding. The applied visual effects scheme encodes different visual effects for different musical structural elements of the first audiovisual performance coding and provides transitions for visual effects in chronological comparison with at least some of the encoded music section boundaries.

Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Segmentieren zumindest eines Audio-Tracks der ersten audiovisuellen Darbietungscodierung, um die assoziierte musikalische Strukturcodierung bereitzustellen. In manchen Fällen oder Ausführungsformen beinhaltet die assoziierte musikalische Strukturcodierung Gruppenpart- oder Musikabschnittsmetadaten. In manchen Fällen oder Ausführungsformen unterscheiden sich die unterschiedlichen visuellen Effekte entweder im Grad oder Typ oder sowohl im Grad als auch Typ.In some embodiments, the method further includes segmenting at least one audio track of the first audiovisual performance encoding to provide the associated musical structure encoding. In some cases or embodiments, the associated musical structure encoding includes group part or musical section metadata. In some cases or embodiments, the different visual effects differ either in grade or type, or both in grade and type.

Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen des ersten visuellen Effektschemas aus mehreren stimmungsbezeichnenden visuellen Effektschemas. In manchen Fällen oder Ausführungsformen basiert das Auswählen auf einer rechnerisch bestimmten Stimmung für zumindest das aufgenommene Gesangsaudio. In manchen Fällen oder Ausführungsformen basiert das Auswählen auf einer Benutzeroberflächenauswahl durch den Performer des Gesangsaudios vor oder gleichzeitig mit der Aufnahme des Gesangsaudios. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner (i) Auswählen (nach der audiovisuellen Wiedergabe der ersten audiovisuellen Darbietung) eines zweiten visuellen Effektschemas aus den mehreren stimmungsbezeichnenden visuellen Effektschemas, wobei sich das zweite visuelle Effektschema von dem ersten visuellen Effektschema unterscheidet, und (ii) Anwenden des zweiten visuellen Effektschemas an zumindest einem Teil der ersten audiovisuellen Darbietungscodierung. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen eines zweiten visuellen Effektschemas aus den mehreren stimmungsbezeichnenden visuellen Effektschemas, wobei sich das zweite visuelle Effektschema von dem ersten visuelle Effektschema unterscheidet; und Anwenden des zweiten visuellen Effektschemas an zumindest einem Teil der ersten audiovisuellen Darbietungscodierung.In some embodiments, the method further includes selecting the first visual effects scheme from a plurality of mood-designing visual effects schemes. In some cases or embodiments, the selection is based on a computed mood for at least the recorded vocal audio. In some cases or embodiments, the selection is based on user interface selection by the performer of the vocal audio prior to or concurrently with the recording of the vocal audio. In some embodiments, the method further includes (i) selecting (after the audiovisual rendering of the first audiovisual performance) a second visual effects scheme from the plurality of mood-designating visual effects schemes, the second visual effects scheme being different from the first visual effects scheme, and (ii) applying of the second visual effect scheme on at least part of the first audiovisual performance coding. In some embodiments, the method further includes selecting a second visual effects scheme from the plurality of mood-designating visual effects schemes, the second visual effects scheme being different from the first visual effects scheme; and applying the second visual effects scheme to at least a portion of the first audiovisual performance encoding.

Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Streamen der ersten audiovisuellen Darbietung zu einer Zuhörerschaft an einer oder mehreren entfernten Client-Vorrichtungen. In manchen Fällen oder Ausführungsformen wird die gestreamte erste audiovisuelle Darbietung mit einer Codierung eines Backing-Tracks gemischt, demgegenüber das Gesangsaudio aufgenommen wurde. In manchen Fällen oder Ausführungsformen wird die gestreamte erste audiovisuelle Darbietung mit dem ersten visuellen Effektschema angewendet gestreamt. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Liefern einer Identifikation des angewendeten visuellen Effektschemas zur Videoeffektwiedergabe an einer oder mehreren der entfernten Client-Vorrichtungen.In some embodiments, the method further includes streaming the first audiovisual performance to an audience on one or more remote client devices. In some cases or embodiments, the streamed first audiovisual performance is mixed with encoding of a backing track against which the vocal audio was recorded. In some cases or embodiments, the streamed first audiovisual presentation is streamed with the first visual effects scheme applied. In some embodiments, the method further includes providing identification of the applied visual effects scheme for video effects rendering on one or more of the remote client devices.

Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Transferieren (zu, von oder über einen Inhaltsserver oder eine Dienstplattform) der ersten audiovisuellen Darbietung zusammen mit zumindest einer Kennung für das eine oder die mehreren angewendeten visuellen Effektschemas. In manchen Fällen oder Ausführungsformen basiert das Auswählen auf einer Benutzeroberflächenauswahl während oder vor der audiovisuellen Wiedergabe der ersten audiovisuellen Darbietung.In some embodiments, the method further includes transferring (to, from or via a content server or service platform) the first audiovisual presentation along with at least one identifier for the one or more visual effects schemes applied. In some cases or embodiments, the selection is based on user interface selection during or before the audiovisual playback of the first audiovisual performance.

In manchen Fällen oder Ausführungsformen werden für ein spezielles stimmungsbezeichnendes visuelles Effektschema Stimmungswerte als eine zweidimensionale Größe parametrisiert, wobei eine erste Dimension der Stimmungsparametrisierung eine Emotion codiert und wobei eine zweite Dimension der Stimmungsparametrisierung eine Intensität codiert. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Bestimmen einer Intensitätsdimension der Stimmungsparametrisierung basierend auf einem oder mehreren von Folgenden: (i) einer zeitlich variierenden Audiosignalstärke oder einem Maß der Gesangsenergiedichte, die bzw. das rechnerisch aus dem Gesangsaudio bestimmt wird, und (ii) Beats, Tempo, Signalstärke oder Energiedichte eines Backing-Audio-Tracks.In some cases or embodiments, for a particular mood-designing visual effects scheme, mood values are parameterized as a two-dimensional quantity, a first dimension of the mood parameterization encoding an emotion and a second dimension of the mood parameterization encoding an intensity. In some embodiments, the method further includes determining an intensity dimension of mood parameterization based on one or more of the following: (i) a time-varying audio signal strength or a measure of the vocal energy density that is computed from the vocal audio, and (ii) beats, Tempo, signal strength or energy density of a backing audio track.

Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Segmentieren der ersten audiovisuellen Darbietungscodierung, um die unterschiedlichen musikalischen Strukturelemente zu identifizieren. In manchen Fällen oder Ausführungsformen basiert das Segmentieren zumindest teilweise auf einer rechnerischen Bestimmung einer Gesangsintensität, wobei zumindest manche Segmentierungsgrenzen beschränkt sind, um zeitlich mit Beats oder einem Tempo abgeglichen zu werden, die rechnerisch aus einem entsprechenden Audio-Backing-Track extrahiert werden. In manchen Fällen oder Ausführungsformen basiert das Segmentieren zumindest teilweise auf einer Ähnlichkeitsanalyse, die rechnerisch an einem zeitlich abgeglichenen Liedtext-Track durchgeführt wird, um spezielle Teile der ersten audiovisuellen Darbietungscodierung als Vers oder Refrain zu klassifizieren.In some embodiments, the method further includes segmenting the first audiovisual performance encoding to identify the different musical structural elements. In some cases or embodiments, segmentation is based at least in part on a mathematical determination of a vocal intensity, at least some segmentation limits being limited in order to be compared in time with beats or a tempo that are mathematically extracted from a corresponding audio backing track. In some cases or embodiments, segmentation is based, at least in part, on a similarity analysis that is computationally performed on a timed song text track to classify specific portions of the first audiovisual performance encoding as a verse or refrain.

In manchen Fällen oder Ausführungsformen beinhalten die durch das angewendete visuelle Effektschema codierten unterschiedlichen visuellen Effekte für ein gegebenes Element davon eines oder mehrere von Folgenden: (i) einen partikelbasierten Effekt oder eine Linsenreflexion, (ii) Übergänge zwischen verschiedenen Quellvideos, (iii) Animationen oder Bewegung eines Einzelbildes innerhalb eines Quellvideos, (iv) Vektorgrafiken oder Bilder von Mustern oder Texturen; und (v) Farbe, Sättigung oder Kontrast. In manchen Fällen oder Ausführungsformen codiert die assoziierte musikalische Struktur Musikabschnitte unterschiedlicher Typen und das angewendete visuelle Effektschema definiert unterschiedliche visuelle Effekte für unterschiedliche der codierten Musikabschnitte. In manchen Fällen oder Ausführungsformen codiert die assoziierte musikalische Struktur Ereignisse oder Übergänge und das angewendete visuelle Effektschema definiert unterschiedliche visuelle Effekte für unterschiedliche decodierte Ereignisse oder Übergänge.In some cases or embodiments, the different visual effects encoded by the applied visual effects scheme for a given element thereof include one or more of the following: (i) a particle-based effect or lens reflection, (ii) transitions between different source videos, (iii) animations or Movement of a single image within a source video, (iv) vector graphics or images of patterns or textures; and (v) color, saturation or contrast. In some cases or embodiments, the associated musical structure encodes sections of music of different types and the visual effects scheme applied defines different visual effects for different of the encoded sections of music. In some cases or embodiments, the associated musical structure encodes events or transitions, and the visual effects scheme applied defines different visual effects for different decoded events or transitions.

In manchen Fällen oder Ausführungsformen codiert die maschinenlesbare Codierung ferner zumindest einen Teil einer zweiten audiovisuellen Darbietung, die als ein zweites Gesangsaudio mit darbietungssynchronisiertem Video aufgenommen wird, wobei die erste und zweite audiovisuelle Darbietung eine Gruppendarbietung bilden. In manchen Fällen oder Ausführungsformen codiert die assoziierte musikalische Struktur Gruppenparts und das angewendete visuelle Effektschema ist für ein spezielles darbietungssynchronisiertes Video entsprechend der codierten musikalischen Struktur zeitlich auswählbar.In some cases or embodiments, the machine-readable encoding further encodes at least a portion of a second audiovisual performance that is recorded as a second vocal audio with performance-synchronized video, the first and second audiovisual performance forming a group performance. In some cases or embodiments, the associated musical structure encodes group parts and the visual effects scheme applied is selectable in time for a special performance-synchronized video according to the encoded musical structure.

In manchen Fällen oder Ausführungsformen werden die erste und zweite audiovisuelle Darbietung als ein Duett präsentiert. In manchen Fällen oder Ausführungsformen codiert das angewendete visuelle Effektschema für zumindest manche musikalischen Strukturelemente eine Farbabstimmung des darbietungssynchronisierten Videos für jeweilige Performer in der Gruppendarbietung. In manchen Fällen oder Ausführungsformen codiert das angewendete visuelle Effektschema für zumindest manche musikalischen Strukturelemente eine visuelle Unschärfe oder Vermischung an einer Übergangsstelle zwischen darbietungssynchronisiertem Video für jeweilige Performer in der Gruppendarbietung. In manchen Fällen oder Ausführungsformen werden die erste und zweite audiovisuelle Darbietung gegenüber einem gemeinsamen Backing-Track aufgenommen.In some cases or embodiments, the first and second audiovisual performances are presented as a duet. In some cases or embodiments, the visual effects scheme applied encodes color matching of the performance-synchronized video for respective performers in the group performance for at least some musical structural elements. In some cases or embodiments, the visual effects scheme applied encodes visual blurring or blending at least for some musical structural elements at a transition point between performance-synchronized video for respective performers in the group performance. In some cases or embodiments, the first and second audiovisual performances are recorded against a common backing track.

Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Aufnehmen der ersten audiovisuellen Darbietung bei einer netzwerkverbundenen Gesangsaufnahmevorrichtung, die kommunikativ mit einem Inhaltsserver oder einer Dienstplattform gekoppelt ist, von dem bzw. der die musikalische Strukturcodierung geliefert wird. In manchen Fällen oder Ausführungsformen wird die Aufnahme der visuellen Darbietung bei der netzwerkverbundenen Gesangsaufnahmevorrichtung gemäß einem karaokeartigen operativen Mechanismus durchgeführt, bei dem ein Liedtext entsprechend einer hörbaren Wiedergabe eines Backing-Tracks visuell präsentiert wird.In some embodiments, the method further includes recording the first audiovisual performance on a network-connected vocal recording device that is communicatively coupled to a content server or service platform from which the musical structure coding is provided. In some cases or embodiments, the recording of the visual performance in the network-connected vocal recording device is performed according to a karaoke-like operating mechanism in which a song text is visually presented according to an audible reproduction of a backing track.

Bei manchen Ausführungsformen wird das Verfahren zumindest teilweise auf einem Inhaltsserver oder einer Dienstplattform durchgeführt, mit dem bzw. der geografisch verteilte, netzwerkverbundene Gesangsaufnahmevorrichtungen kommunikativ gekoppelt sind. Bei manchen Ausführungsformen wird das Verfahren zumindest teilweise auf einer netzwerkverbundenen Gesangsaufnahmevorrichtung durchgeführt, die kommunikativ mit einem Inhaltsserver oder einer Dienstplattform gekoppelt ist. Bei manchen Ausführungsformen ist das Verfahren zumindest teilweise als eine Computerprogrammproduktcodierung von Anweisungen umgesetzt, die auf einem Inhaltsserver oder einer Dienstplattform ausführbar sind, mit dem bzw. der mehrere geografisch verteilte, netzwerkverbundene Gesangsaufnahmevorrichtungen kommunikativ gekoppelt sind.In some embodiments, the method is performed at least in part on a content server or a service platform to which geographically distributed, network-connected vocal recording devices are communicatively coupled. In some embodiments, the method is performed, at least in part, on a network-connected vocal recording device that is communicatively coupled to a content server or service platform. In some embodiments, the method is implemented, at least in part, as a computer program product encoding of instructions executable on a content server or service platform to which a plurality of geographically distributed, network-connected vocal recorders are communicatively coupled.

Bei manchen Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) beinhaltet ein System einen geografisch verteilten Satz von netzwerkverbundenen Vorrichtungen, die dazu ausgelegt sind, audiovisuelle Darbietungen einschließlich Gesangsaudio mit darbietungssynchronisiertem Video aufzunehmen, und eine Dienstplattform. Die Dienstplattform ist dazu ausgelegt, (i) Codierungen der aufgenommenen audiovisuellen Darbietungen zu empfangen und, entsprechend assoziierter musikalischer Strukturcodierungen, die zumindest Musikabschnittsabgrenzungen beinhalten, die für einen zeitlichen Abgleich mit den audiovisuellen Darbietungscodierungen codiert sind, (ii) spezielle visuelle Effektschemas an zumindest einem Teil der audiovisuellen Darbietungscodierungen anzuwenden. Die angewendeten visuellen Effektschemas codieren unterschiedliche visuelle Effekte für unterschiedliche musikalische Strukturelemente der audiovisuellen Darbietungscodierungen und liefern Übergänge für visuelle Effekte in zeitlichem Abgleich mit zumindest manchen der codierten Musikabschnittsabgrenzungen.In some embodiments in accordance with the present invention (s), a system includes a geographically distributed set of network-connected devices configured to record audiovisual performances, including vocal audio, with performance synchronized video, and a service platform. The service platform is designed to (i) receive encodings of the recorded audiovisual performances and, in accordance with associated musical structural encodings, which at least include musical segment boundaries which are encoded for a time comparison with the audiovisual presentation encodings, (ii) special visual effect schemes on at least one part the audiovisual Perform encoding. The visual effect schemes used encode different visual effects for different musical structural elements of the audiovisual performance encoding and provide transitions for visual effects in a temporal comparison with at least some of the encoded music section boundaries.

In manchen Fällen oder Ausführungsformen ist die Dienstplattform dazu ausgelegt, (als Reaktion auf Benutzer- oder Performerauswahlen) die angewendeten visuellen Effektschemas zu ändern und resultierende aufgenommene audiovisuelle Darbietungen zu jeweiligen der geografisch verteilten, netzwerkverbundenen Vorrichtungen für eine audiovisuelle Wiedergabe darauf zu liefern. In manchen Fällen oder Ausführungsformen werden die angewendeten visuellen Effektschemas aus mehreren stimmungsbezeichnenden visuellen Effektschemas ausgewählt.In some cases or embodiments, the service platform is designed (in response to user or performer selections) to change the visual effects schemes applied and deliver resulting recorded audiovisual performances to respective ones of the geographically distributed, network-connected devices for audiovisual reproduction thereon. In some cases or embodiments, the visual effect schemes applied are selected from a plurality of mood-designing visual effect schemes.

Bei manchen Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) beinhaltet ein System zumindest eine Gast-und-Gastgeber-Paarung von netzwerkverbundenen Vorrichtungen, die dazu ausgelegt sind, zumindest Gesangsaudio aufzunehmen. Die Gastgebervorrichtung ist dazu ausgelegt, (i) eine Codierung einer jeweiligen Codierung von zumindest Gesangsaudio von der Gastvorrichtung zu empfangen und, entsprechend einer assoziierten musikalischen Strukturcodierung, die zumindest Musikabschnittsabgrenzungen beinhaltet, die für einen zeitlichen Abgleich mit einer audiovisuellen Darbietungscodierung codiert sind, (ii) ausgewählte visuelle Effektschemas an der audiovisuellen Darbietungscodierung anzuwenden. Die angewendeten visuellen Effektschemas codieren unterschiedliche visuelle Effekte für unterschiedliche musikalische Strukturelemente der audiovisuellen Darbietungscodierung und liefern Übergänge für visuelle Effekte in zeitlichem Abgleich mit zumindest manchen der codierten Musikab schni ttsab grenzungen.In some embodiments according to the present invention (s), a system includes at least one guest-and-host pairing of network-connected devices that are configured to record at least vocal audio. The host device is designed to (i) receive a coding of a respective coding of at least vocal audio from the guest device and, in accordance with an associated musical structure coding, which includes at least music segment boundaries which are coded for a time comparison with an audiovisual performance coding, (ii) apply selected visual effect schemes to the audiovisual performance coding. The visual effect schemes used encode different visual effects for different musical structural elements of the audiovisual performance coding and provide transitions for visual effects in chronological comparison with at least some of the encoded musical section delimitations.

In manchen Fällen oder Ausführungsformen sind die Gastgeber- und Gastvorrichtung als lokale und entfernte Peers über ein Kommunikationsnetzwerk mit nicht vernachlässigbarer Peer-zu-Peer-Latenz für Übertragungen von audiovisuellem Inhalt gekoppelt, wobei die Gastgebervorrichtung kommunikativ als der lokale Peer gekoppelt ist, um eine Mediencodierung einer gemischten Audiodarbietung, die an der Gastvorrichtung aufgenommenes Gesangsaudio bildet, zu empfangen, und die Gastvorrichtung kommunikativ als der entfernte Peer gekoppelt ist, um die Mediencodierung zu liefern, die von einem ersten der Performer aufgenommen und mit einem Backing-Audio-Track gemischt wird. In manchen Fällen oder Ausführungsformen wird die assoziierte musikalische Strukturcodierung rechnerisch an der Gastgebervorrichtung basierend auf einer Segmentierung von zumindest einem Audio-Track, der von der Gastvorrichtung empfangen wird, bestimmt. In manchen Fällen oder Ausführungsformen ist die Gastgebervorrichtung dazu ausgelegt, die audiovisuelle Darbietungscodierung als eine gemischte audiovisuelle Darbietung einschließlich Gesangsaudio und darbietungssynchronisiertem Video von dem ersten und einem zweiten der Performer wiederzugeben und die audiovisuelle Darbietungscodierung als eine scheinbare Live-Aussendung mit dem ausgewählten visuellen Effektschema angewendet zu übertragen.In some cases or embodiments, the host and guest devices are coupled as local and remote peers over a communication network with non-negligible peer-to-peer latency for broadcasts of audiovisual content, with the host device communicatively coupled as the local peer for media encoding a mixed audio performance that forms vocal audio recorded on the guest device, and the guest device is communicatively coupled as the remote peer to provide the media encoding that is recorded by a first one of the performers and mixed with a backing audio track. In some cases or embodiments, the associated musical structure coding is computed at the host device based on segmentation of at least one audio track received from the guest device. In some cases or embodiments, the host device is configured to render the audiovisual performance encoding as a mixed audiovisual performance including vocal audio and performance-synchronized video from the first and second of the performers, and to apply the audiovisual performance encoding as an apparent live broadcast with the selected visual effects scheme transfer.

Diese und andere Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) werden unter Bezugnahme auf die Beschreibung und die angehängten folgenden Ansprüche verstanden.These and other embodiments according to the present invention (s) will be understood with reference to the description and the appended claims that follow.

FigurenlisteFigure list

Die vorliegende Erfindung wird beispielhaft und ohne Beschränkung unter Bezugnahme auf die begleitenden Figuren veranschaulicht, in denen gleiche Bezugsziffern allgemein gleiche Elemente oder Merkmale angeben.

1 bildet Informationsflüsse zwischen illustrativen mobiltelefonartigen tragbaren Rechenvorrichtungen, fernseherartigen Anzeigen, Set-Top-Box-artigen Medienanwendungsplattformen und einem beispielhaften Inhaltsserver gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) ab, bei denen ein visuelles Effektschema an einer audiovisuellen Darbietung angewendet wird.
2A, 2B und 2C sind aufeinanderfolgende Momentaufnahmen von gesangsdarbietungssynchronisiertem Video entlang einer Zeitleiste koordinierter visueller Darbietungen, wobei, gemäß manchen Ausführungsformen der vorliegenden Erfindung, an einem Video für einen, den anderen oder beide von zwei beitragenden Performern Gesangseffekte basierend auf einer Stimmung und basierend auf einem rechnerisch definierten Audiomerkmal wie etwa Gesangsintensität, die über den aufgenommenen Gesang berechnet wird, angewendet werden.
3A, 3B und 3C veranschaulichen eine beispielhafte Implementierung einer Segmentierung-und-Videoeffekt(VFX)-Engine gemäß manchen Ausführungsformen der vorliegenden Erfindung(en). 3A bildet Informationsflüsse ab, die eine beispielhafte musikalische Strukturcodierung beinhalten, während 3B eine alternative Ansicht abbildet, die den Schwerpunkt auf eine beispielhafte VFX-Wiedergabepipeline legt. Schließlich bildet 3C eine beispielhafte Abbildung von Gesangsparts und Segmenten zu visuellen Layouts, Übergängen, nachbearbeiteten Videoeffekten und partikelbasierten Effekten grafisch ab.
4 bildet Informationsflüsse zwischen illustrativen mobiltelefonartigen tragbaren Rechenvorrichtungen in einer Gastgeber-und-Gast-Konfiguration gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) ab, bei denen ein visuelles Effektschema an einer duettartigen audiovisuellen Livestream-Gruppendarbietung angewendet wird.
5 ist ein Flussdiagramm, das Informationstransfers veranschaulicht, die bei einer zusammengesetzten audiovisuellen Darbietung beitragen oder diese beinhalten, die segmentiert ist, um eine musikalische Struktur für eine Abbildung visueller Effekte gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) bereitzustellen.
6 ist ein Funktionsblockdiagramm von Hardware- und Softwarekomponenten, die an einer illustrativen mobiltelefonartigen tragbaren Rechenvorrichtung ausführbar sind, um die Bearbeitung einer aufgenommenen audiovisuellen Darbietung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) zu ermöglichen.
7 veranschaulicht Prozessschritte und Ergebnisse der Bearbeitung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en), um Farbkorrektur und stimmungsbezeichnende Videoeffekte an Video für jeweilige Performer einer Gruppendarbietung, die getrennt unter Verwendung von Kameras jeweiliger Aufnahmevorrichtungen aufgenommen werden, anzuwenden.
8A und 8B veranschaulichen Bildmaterial für eine Gruppendarbietung mit und ohne Verwendung einer visuellen Unschärfetechnik, die gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) angewendet wird.
9 veranschaulicht Merkmale einer Mobilvorrichtung, die als eine Plattform zur Ausführung von Softwareimplementierungen einschließlich audiovisueller Aufnahme gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) dienen kann.
10 ist ein Netzwerkdiagramm, das eine Zusammenarbeit beispielhafter Vorrichtungen gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) veranschaulicht.

The present invention is illustrated by way of example and without limitation with reference to the accompanying figures, in which like reference numerals generally indicate like elements or features.

1 depicts information flows between illustrative mobile phone type portable computing devices, television type displays, set-top box type media application platforms, and an example content server in accordance with some embodiments of the present invention (s) that apply a visual effects scheme to an audiovisual performance.
2A , 2 B and 2C 10 are sequential snapshots of vocal performance-synchronized video along a timeline of coordinated visual performances, wherein, in accordance with some embodiments of the present invention, vocal effects on a video for one, the other, or both of two contributing performers based on a mood and based on a computed audio feature such as Singing intensity, which is calculated from the recorded singing, can be used.
3A , 3B and 3C 13 illustrate an exemplary implementation of a Segmentation and Video Effect (VFX) engine in accordance with some embodiments of the present invention (s). 3A maps information flows that include exemplary musical structure coding, while 3B depicts an alternative view that focuses on an exemplary VFX rendering pipeline. Finally forms 3C an exemplary illustration of vocal parts and segments to visual layouts, transitions, post-processed video effects and particle-based effects.
4th depicts flows of information between illustrative cellular phone type portable computing devices in a host-and-guest configuration, in accordance with some embodiments of the present invention (s), where a visual effects scheme is applied to a duet type audiovisual live stream group performance.
5 FIG. 10 is a flowchart illustrating information transfers that contribute to or include a composite audiovisual performance that is segmented to provide a musical structure for visual effects mapping in accordance with some embodiments of the present invention (s).
6 FIG. 10 is a functional block diagram of hardware and software components executable on an illustrative cellular phone type portable computing device to enable editing of a recorded audiovisual performance in accordance with some embodiments of the present invention (s).
7 illustrates process steps and results of processing in accordance with some embodiments of the present invention (s) to apply color correction and mood-designing video effects to video for respective performers of a group performance, which are recorded separately using cameras of respective recording devices.
8A and 8B Figure 13 illustrates visuals for a group performance with and without the use of a visual blurring technique used in accordance with some embodiments of the present invention (s).
9 illustrates features of a mobile device that can serve as a platform for executing software implementations, including audiovisual recording, in accordance with some embodiments of the present invention (s).
10th 10 is a network diagram illustrating collaboration of exemplary devices according to some embodiments of the present invention (s).

Fachleute werden erkennen, dass Elemente oder Merkmale in den Figuren zur Vereinfachung und Verdeutlichung veranschaulicht werden und nicht notwendigerweise maßstabsgetreu gezeichnet wurden. Beispielsweise können die Abmessungen oder die Hervorhebung von manchen der veranschaulichten Elemente oder Merkmale relativ zu anderen Elementen oder Merkmalen übertrieben sein, um das Verständnis von Ausführungsformen der vorliegenden Erfindung zu verbessern.Those skilled in the art will recognize that elements or features are illustrated in the figures for simplicity and clarification and have not necessarily been drawn to scale. For example, the dimensions or highlighting of some of the illustrated elements or features may be exaggerated relative to other elements or features to improve understanding of embodiments of the present invention.

AUSFÜHRUNGSWEISEN DER ERFINDUNG(EN)MODES FOR CARRYING OUT THE INVENTION (DE)

Es sind Techniken entwickelt worden, um die Aufnahme, Tonhöhenkorrektur, Harmonisierung, Codierung und/oder Wiedergabe von audiovisuellen Darbietungen auf tragbaren Rechenvorrichtungen und Entertainment-Geräten im Wohnzimmer zu ermöglichen. Gesangsaudio zusammen mit darbietungssynchronisiertem Video kann aufgenommen und mit audiovisuellen Beiträgen anderer Benutzer koordiniert werden, um duettartige oder Glee-Club-artige oder fensterbasierte musikvideoartige audiovisuelle Darbietungen zu bilden. In manchen Fällen werden die Gesangsdarbietungen individueller Benutzer (zusammen mit darbietungssynchronisiertem Video) auf Mobilvorrichtungen, einer fernseherartigen Anzeige und/oder einem Set-Top-Box-Gerät im Zusammenhang von karaokeartigen Präsentationen eines Liedtexts entsprechend hörbaren Wiedergaben eines Backing-Tracks aufgenommen. In manchen Fällen können Sängern Tonhöhenhinweise in Verbindung mit der karaokeartigen Präsentation eines Liedtexts präsentiert werden und optional kann eine kontinuierliche automatische Tonhöhenkorrektur (oder Tonhöhenverschiebung zu Harmonie) bereitgestellt werden.Techniques have been developed to enable the recording, pitch correction, harmonization, coding and / or reproduction of audiovisual performances on portable computing devices and entertainment devices in the living room. Vocal audio along with performance-synced video can be recorded and coordinated with other users' audiovisual contributions to form duet-like or glee-club-like or window-based music video-like audiovisual performances. In some cases, the singing performances of individual users (along with performance-synchronized video) are recorded on mobile devices, a television-like display and / or a set-top box device in the context of karaoke-like presentations of a song text corresponding to audible reproductions of a backing track. In some cases, pitch notes can be presented to singers in connection with the karaoke-like presentation of lyrics, and optionally, continuous automatic pitch correction (or pitch shifting to harmony) can be provided.

Häufig werden Beiträge mehrerer Sänger auf eine Art und Weise koordiniert und gemischt, die für Präsentation auswählt und zu gegebenen Zeiten entlang einer gegebenen Darbietungszeitleiste stimmungsbezeichnende visuelle Effekte an darbietungssynchronisiertem Video eines oder mehrerer der Mitwirkenden anwendet. In manchen Fällen oder Ausführungsformen können Techniken der vorliegenden Erfindung(en) selbst an einem audiovisuellen Inhalt eines einzelnen Performers angewendet werden. Allgemein werden Auswahlen gemäß einer Segmentierung eines gewissen Audio-Tracks durchgeführt, um die musikalische Struktur der audiovisuellen Darbietung zu bestimmen. Basierend auf der musikalischen Struktur werden partikelbasierte Effekte, Übergänge zwischen Videoquellen, Animationen oder Bewegung von Einzelbildern, Vektorgrafiken oder Bilder von Mustern/Texturen, Farbe/Sättigung/Kontrast und/oder andere visuelle Effekte, die in einem visuellen Effektschema codiert sind, an jeweiligen Teilen der audiovisuellen Darbietung angewendet. Auf diese Weise werden visuelle Effekte entsprechend codierten Aspekten einer Darbietung oder Merkmalen wie etwa Gesangs-Tracks, Backing-Audio, Liedtext, Abschnitten und/oder Gesangsparts angewendet. Die speziellen angewendeten visuellen Effekte variieren während des Verlaufs einer gegebenen audiovisuellen Darbietung basierend auf einer Segmentierung, die an einer Gesangsintensität, die rechnerisch für eine oder mehrere Gesangs-Tracks bestimmt wird, durchgeführt wird und/oder darauf basiert.Often, multiple singers' contributions are coordinated and mixed in a manner that selects for presentation and at times applies mood-designing visual effects to a performance-synchronized video of one or more of the contributors along a given performance timeline. In some cases or embodiments, techniques of the present invention (s) may be applied even to a single performer's audiovisual content. Generally, selections are made according to segmentation of a certain audio track to determine the musical structure of the audiovisual performance. Based on the musical structure, particle-based effects, transitions between video sources, animations or movement of single images, vector graphics or images of patterns / textures, color / saturation / contrast and / or other visual effects, which are coded in a visual effect scheme, are applied to the respective parts audiovisual performance. In this way, visual effects are applied according to coded aspects of a performance or features such as vocal tracks, backing audio, lyrics, sections and / or vocal parts. The particular visual effects applied vary during the course of a given audiovisual performance based on a segmentation based on a vocal intensity that is computational for one or more vocal tracks is determined, carried out and / or based on it.

Allgemein sind, für ein gegebenes Lied, Aspekte der musikalischen Struktur des Liedes für die speziellen visuellen Effekte auswählbar, die von einem stimmungsbezeichnenden visuellen Effektschema angewendet werden, und Intensitätsmaße (typischerweise Gesangsintensität, aber in manchen Fällen Leistungsdichte von Nichtgesangsaudio) werden verwendet, um die Größenordnung oder Prominenz der angewendeten visuellen Effekte zu modulieren oder anderweitig zu steuern. In manchen Fällen, Situationen oder Ausführungsformen wird zum Beispiel Liedform, wie etwa {Vers, Refrain, Vers, Refrain, Überbrückung...} verwendet, um die Abbildung zu beschränken. In manchen Fällen, wie etwa in einem Duett, liefert eine Gesangspartsequenzierung (z. B. du singst eine Zeile, ich singe eine Zeile, du singst zwei Wörter, ich singe drei, wir singen zusammen...) strukturelle Informationen, die zum Erzeugen einer Folge von visuellen Layouts verwendet werden. In manchen Fällen, Situationen oder Ausführungsformen kann eine sich bildende Intensität eines Liedes (z. B. wie durch akustische Leistung, Tempo oder ein anderes Maß gemessen) für die speziellen visuellen Effekte, die von einem speziellen Gesangseffekteschema angewendet werden, auswählbar sein.In general, for a given song, aspects of the song's musical structure are selectable for the particular visual effects used by a mood-designing visual effects scheme, and intensity measures (typically vocal intensity, but in some cases, power density of non-vocal audio) are used to order the magnitude or modulate or otherwise control prominence of the visual effects applied. In some cases, situations, or embodiments, for example, song form such as {verse, refrain, verse, refrain, bridging ...} is used to limit the illustration. In some cases, such as in a duet, singing parts sequencing (e.g. you sing one line, I sing one line, you sing two words, I sing three, we sing together ...) provides structural information that is used to generate a series of visual layouts. In some cases, situations, or embodiments, a song's intensity of formation (e.g., as measured by acoustic performance, pace, or other measure) may be selectable for the particular visual effects applied by a particular vocal effects scheme.

Optional und in manchen Fällen oder Ausführungsformen kann Gesangsaudio in Echtzeit an der Gesangsaufnahmevorrichtung (z. B. an einer tragbaren Rechenvorrichtung wie etwa einem Mobiltelefon, Personal Digital Assistant, Laptop-Computer, Notebook-Computer, Pad-artigen Computer oder Netbook) gemäß Tonhöhenkorrektureinstellungen tonhöhenkorrigiert werden. In manchen Fällen codieren Tonhöhenkorrektureinstellungen eine spezielle Tonart oder Tonleiter für die Gesangsdarbietung oder für Teile davon. In manchen Fällen beinhalten Tonhöhenkorrektureinstellungen eine partiturcodierte Melodie und/oder Harmoniefolge, die mit oder zur Verbindung mit dem Liedtext und Backing-Tracks geliefert werden. Harmonienoten oder Akkorde können als explizite Ziele oder relativ zu der partiturcodierten Melodie oder sogar tatsächlichen Tonhöhen, die durch einen Sänger gesungen werden, falls gewünscht, codiert werden. Maschinenverwendbare MIDI-artige Codierungen (MIDI: Musical Instrument Digital Interface) können für Liedtext, Backing-Tracks, Notenziele, Gesangsparts (z. B. Gesangspart 1, Gesangspart 2, ... zusammen), Musikabschnittsinformationen (z. B. Intro/Outro, Vers, Pre-Chorus, Refrain, Überbrückung, Übergang und/oder andere Abschnittscodierungen) usw. eingesetzt werden. In manchen Fällen oder Ausführungsformen können herkömmliche MIDI-artige Codierungen erweitert werden, sodass sie auch einen partiturabgeglichenen Verlauf von anzuwendenden visuellen Effekten codiert.Optionally, and in some cases or embodiments, vocal audio can be pitch corrected in real time on the vocal recording device (e.g., a portable computing device such as a cellular phone, personal digital assistant, laptop computer, notebook computer, pad-type computer, or netbook) according to pitch correction settings will. In some cases, pitch correction settings encode a specific key or scale for the vocal performance or for parts thereof. In some cases, pitch correction settings include a score-encoded melody and / or harmony sequence that are provided with or for connection to the lyrics and backing tracks. Harmony notes or chords can be encoded as explicit targets or relative to the score-encoded melody or even actual pitches sung by a singer if desired. Machine-usable MIDI-like encodings (MIDI: Musical Instrument Digital Interface) can be used for lyrics, backing tracks, note targets, vocal parts (e.g. vocal part 1, vocal part 2, ... together), music section information (e.g. intro / outro , Verse, pre-chorus, refrain, bridging, transition and / or other section encodings) etc. are used. In some cases or embodiments, conventional MIDI-like encodings can be expanded to encode a score-matched history of visual effects to be applied.

Basierend auf der fesselnden und transformativen Art des tonhöhencodierten Gesangs, darbietungssynchronisiertem Video und partiturcodierten Harmoniemixes können Benutzer/Sänger eine ansonsten natürliche Schüchternheit oder Angst überwinden, die mit dem Teilen ihrer Gesangsdarbietungen assoziiert ist. Stattdessen werden selbst geografisch verteilte Sänger ermuntert, mit Freunden oder Familie zu teilen oder zusammenzuarbeiten und Gesangsdarbietungen als Teil von sozialen Musiknetzwerken beizutragen. Bei manchen Implementierungen werden diese Interaktionen durch Sozialnetzwerk- und/oder E-Mail-vermitteltes Teilen von Darbietungen und Einladungen, bei einer Gruppendarbietung teilzunehmen, ermöglicht. Durch das Verwenden von hochgeladenem Gesang, der an Clients wie etwa den vorgenannten tragbaren Rechenvorrichtungen aufgenommen wird, kann ein Inhaltsserver (oder Dienst) derartige koordinierte Darbietungen durch Manipulieren und Mischen des hochgeladenen audiovisuellen Inhalts mehrerer beitragender Sänger vermitteln. In Abhängigkeit von den Zielen und der Implementierung eines speziellen Systems können Uploads zusätzlich zu Videoinhalt tonhöhenkorrigierte Gesangsdarbietungen (mit oder ohne Harmonien), trockenen (d. h. nicht korrigierten) Gesang und/oder Kontroll-Tracks von Benutzertonart und/oder Tonhöhenkorrekturauswahlen usw. beinhalten.Based on the captivating and transformative nature of pitch-coded vocals, performance-synced video, and score-coded harmony mixes, users / singers can overcome an otherwise natural shyness or fear associated with sharing their vocal performances. Instead, even geographically dispersed singers are encouraged to share or collaborate with friends or family, and to contribute vocal performances as part of social music networks. In some implementations, these interactions are enabled through social networking and / or email mediated sharing of performances and invitations to attend a group performance. By using uploaded vocals recorded on clients such as the aforementioned portable computing devices, a content server (or service) can deliver such coordinated performances by manipulating and mixing the uploaded audiovisual content of multiple contributing singers. Depending on the goals and implementation of a special system, uploads may include pitch-corrected vocal performances (with or without harmonies), dry (i.e. uncorrected) vocals and / or user-type control tracks and / or pitch correction selections, in addition to video content, in addition to video content.

Soziale Musik kann auf eine beliebige einer Vielfalt von Weisen vermittelt werden. Bei manchen Implementierungen wird beispielsweise eine Gesangsdarbietung eines ersten Benutzers, die gegenüber einem Backing-Track an einer tragbaren Rechenvorrichtung aufgenommen wird und typischerweise gemäß partiturcodierten Melodie- und/oder Harmoniehinweisen tonhöhenkorrigiert ist, als eine Seed-Darbietung zu anderen potenziellen Gesangsperformern geliefert. Darbietungssynchronisiertes Video wird ebenfalls aufgenommen und kann mit dem tonhöhenkorrigierten aufgenommenen Gesang geliefert werden. Der gelieferte Gesang wird typischerweise mit Backing-Instrumentalstücken/Gesang gemischt und bildet den Backing-Track zur Aufnahme von Gesang eines zweiten (und potenziell nachfolgenden) Benutzers. Häufig sind die nachfolgenden Gesangsmitwirkenden geografisch getrennt und können (zumindest a priori) untereinander unbekannt sein, jedoch tendiert die Intimität des Gesangs zusammen mit der kollaborativen Erfahrung selbst dazu, diese Trennung zu minimieren. Während nachfolgende Gesangsdarbietungen und Video aufgenommen werden (z. B. an jeweiligen tragbaren Rechenvorrichtungen) und als Teil der sozialen Musikerfahrung angesammelt werden, kann sich der Backing-Track, gegenüber dem jeweiliger Gesang aufgenommen wird, so entwickeln, dass er zuvor aufgenommenen Gesang anderer Mitwirkender enthält.Social music can be conveyed in any of a variety of ways. For example, in some implementations, a first user's vocal performance recorded against a backing track on a portable computing device and typically pitch corrected according to score-encoded melody and / or harmony cues is provided as a seed performance to other potential vocal performers. Performance-synchronized video is also recorded and can be delivered with the pitch-corrected recorded vocals. The delivered vocals are typically mixed with backing instrumentals / vocals and form the backing track for recording vocals from a second (and potentially subsequent) user. Often the subsequent singers are geographically separated and may (at least a priori) be unknown to each other, but the intimacy of the singing, together with the collaborative experience itself, tends to minimize this separation. While subsequent vocal performances and video are recorded (e.g. on respective portable computing devices) and accumulated as part of the social music experience, the backing track versus which each vocal is recorded may develop to include previously recorded vocals by other performers contains.

In manchen Fällen wird Gesang (und typischerweise synchronisiertes Video) als Teil einer Live-Darbietung oder improvisierten Darbietung mit Gesangsinteraktionen (z. B. ein Duett oder Dialog) zwischen kollaborierenden Mitwirkenden aufgenommen. Es wird sich vorgestellt, dass nicht vernachlässigbare Netzwerkkommunikationslatenzen zwischen zumindest manchen der kollaborierenden Mitwirkenden bestehen werden, besonders wenn diese Mitwirkenden geografisch getrennt sind. Infolgedessen besteht eine technische Herausforderung darin, Latenzen und den aufgenommenen audiovisuellen Inhalt auf eine derartige Weise zu verwalten, dass eine kombinierte audiovisuelle Darbietung nichtsdestotrotz auf eine Art und Weise ausgestrahlt (z. B. ausgesendet) werden kann, die Empfängern, Zuhörern und/oder Zuschauern als eine interaktive Live-Kollaboration präsentiert wird. In some cases, vocals (and typically dubbed video) are recorded as part of a live performance or improvised performance with vocal interactions (e.g., a duet or dialogue) between collaborators. It is envisioned that non-negligible network communication latencies will exist between at least some of the collaborating contributors, especially if these contributors are geographically separate. As a result, a technical challenge is to manage latencies and the recorded audiovisual content in such a way that a combined audiovisual performance can nonetheless be broadcast (e.g., broadcast) in a manner that is useful to recipients, listeners, and / or viewers is presented as an interactive live collaboration.

Bei einer Technik zum Erreichen einer Reproduktion einer interaktiven Live-Darbietungskollaboration wird beispielsweise eine tatsächliche und nicht vernachlässigbare Netzwerkkommunikationslatenz (im Endeffekt) in eine Richtung zwischen einem Gast- und Gastgeberperformer maskiert und in die andere Richtung toleriert. Eine aufgenommene audiovisuelle Darbietung eines Gastperformers in einer „Live-Show“-Internetaussendung eines Gastgeberperformers könnte zum Beispiel ein Gast+Gastgeber-Duett beinhalten, das in scheinbarer Echtzeit-Synchronität gesungen wird. In manchen Fällen könnte der Gast ein Performer sein, der eine spezielle Musikdarbietung populär gemacht hat. In manchen Fällen könnte der Gast ein Amateursänger sein, dem die Möglichkeit gegeben wurde, „live“ (obwohl entfernt) mit dem populären Künstler oder der populären Gruppe „im Studio“ als der (oder mit dem) Gastgeber der Show zu singen. Ungeachtet einer nicht vernachlässigbaren Netzwerkkommunikationslatenz von Gast zu Gastgeber, die bei der Übermittlung des audiovisuellen Beitragsstroms des Gastes eingeschlossen ist (vielleicht 200-500 ms oder mehr), führt der Gastgeber eine Darbietung in scheinbarer Synchronität (obwohl im absoluten Sinne zeitlich verlagert davon) mit dem Gast durch und der scheinbar synchron durchgeführte Gesang wird aufgenommen und mit dem Beitrag des Gastes zur Aussendung oder Ausstrahlung aufgenommen und gemischt.For example, in one technique for achieving a reproduction of an interactive live performance collaboration, an actual and non-negligible network communication latency (in effect) is masked in one direction between a guest and host performer and tolerated in the other direction. For example, a recorded audiovisual performance by a guest performer on a host show's “live show” internet broadcast could include a guest + host duet that is sung in apparent real-time synchrony. In some cases, the guest could be a performer who popularized a particular music performance. In some cases, the guest could be an amateur singer who was given the opportunity to sing "live" (though remotely) with the popular artist or group "in the studio" as the host (or host) of the show. Notwithstanding a non-negligible guest-to-host network communication latency involved in delivering the guest's audiovisual stream of contributions (perhaps 200-500 ms or more), the host performs in apparent synchronicity (although in an absolute sense, temporally shifted from it) with the Guest through and the apparently synchronized singing is recorded and recorded and mixed with the guest's contribution to the broadcast or broadcast.

Das Ergebnis ist eine interaktive scheinbare Live-Darbietung (zumindest von der Perspektive des Gastgebers und der Empfänger, Zuhörer und/oder Zuschauer der ausgestrahlten oder ausgesendeten Darbietung aus). Obwohl die nicht vernachlässigbare Netzwerkkommunikationslatenz vom Gast zum Gastgeber maskiert wird, versteht es sich, dass die Latenz vorhanden ist und in die Gastgeber-zu-Gast-Richtung toleriert wird. Die Gastgeber-zu-Gast-Latenz, obwohl sie für den Gast ersichtlich (und vielleicht recht erkennbar) ist, muss in der scheinbaren Live-Aussendung oder anderen Ausstrahlung nicht ersichtlich sein. Es wurde entdeckt, dass eine verzögerte hörbare Wiedergabe von Gastgebergesang (oder allgemeiner der aufgenommenen audiovisuellen Darbietung des Gastgebers) nicht die Darbietung des Gastes psychoakustisch stören muss.The result is an interactive, seemingly live performance (at least from the perspective of the host and the recipients, listeners and / or viewers of the broadcast or broadcast performance). Although the non-negligible network communication latency is masked from the guest to the host, it is understood that the latency is present and is tolerated in the host-to-guest direction. The host-to-guest latency, although visible to the guest (and perhaps quite recognizable), need not be apparent in the apparent live broadcast or other broadcast. It has been discovered that delayed audible playback of host singing (or more generally, the host's recorded audiovisual performance) need not psychoacoustically disrupt the guest's performance.

Darbietungssynchronisiertes Video kann aufgenommen und in einer kombinierten audiovisuellen Darbietung eingeschlossen werden, die die scheinbare Live-Aussendung bildet, wobei Bildmaterial zumindest teilweise auf zeitlich variierenden, rechnerisch definierten Audiomerkmalen basieren kann, die aus aufgenommenen Gesangsaudio extrahiert (oder darüber berechnet) werden. In manchen Fällen oder Ausführungsformen sind diese rechnerisch definierten Audiomerkmale über den Verlauf eines koordinierten audiovisuellen Mixes für ein spezielles synchronisiertes Video eines oder mehrerer der mitwirkenden Sänger (oder deren Prominenz) auswählbar.Performance-synchronized video can be recorded and included in a combined audiovisual performance that forms the apparent live broadcast, with imagery based at least in part on time-varying, computationally-defined audio features extracted from (or calculated from) recorded vocal audio. In some cases or embodiments, these arithmetically defined audio features can be selected over the course of a coordinated audio-visual mix for a special synchronized video of one or more of the participating singers (or their celebrities).

In manchen Fällen werden mitreißende visuelle Animationen und/oder Einrichtungen für Zuhörerkommentar und -einstufung, sowie Duett-, Glee-Club- oder Chorgruppenbildungs- oder Ansammlungslogik in Verbindung mit einer hörbaren Wiedergabe einer Gesangsdarbietungen (die z. B. an einer ähnlich konfigurierten Mobilvorrichtung aufgenommen und tonhöhenkorrigiert wurde), gemischt mit Backing-Instrumentalstücken und/oder Gesang bereitgestellt. Synthetisierte Harmonien und/oder zusätzlicher Gesang (z. B. Gesang, der von einem anderen Sänger an noch anderen Standorten aufgenommen und optional tonhöhenkorrigiert wird, um mit anderem Gesang zu harmonisieren) können auch im Mix enthalten sein. Die Geocodierung von aufgenommenen Gesangsdarbietungen (oder individuellen Beiträgen zu einer kombinierten Darbietung) und/oder Zuhörer-Feedback können Animationen oder Anzeigeartefakte auf Weisen ermöglichen, die eine Darbietung oder Bestätigung suggerieren, die von einem speziellen geografischen Ort auf einer benutzermanipulierbaren Erdkugel ausgehen. Auf diese Weise können Implementierungen der beschriebenen Funktionalität ansonsten mondäne Mobilvorrichtungen in soziale Instrumente transformieren, die einen Sinn von globaler Konnektivität, Kollaboration und Gemeinschaft fördern.In some cases, engaging visual animations and / or facilities for listener commenting and grading, as well as duet, glee club, or chorus grouping or gathering logic are combined with audible playback of a vocal performance (e.g., recorded on a similarly configured mobile device and pitch corrected) mixed with backing instrumentals and / or vocals. Synthesized harmonies and / or additional vocals (e.g. vocals recorded by another singer at other locations and optionally corrected for pitch to harmonize with other vocals) can also be included in the mix. The geocoding of recorded vocal performances (or individual contributions to a combined performance) and / or listener feedback can enable animations or display artifacts in ways that suggest a performance or confirmation that emanate from a specific geographic location on a user-manipulable globe. In this way, implementations of the functionality described can transform otherwise sophisticated mobile devices into social instruments that promote a sense of global connectivity, collaboration, and community.

Karaokeartige GesangsdarbietungsaufnahmeKaraoke-like vocal performance recording

Obwohl Ausführungsformen der vorliegenden Erfindung(en) nicht darauf beschränkt sind, liefert eine tonhöhenkorrigierte, karaokeartige Gesangsaufnahme unter Verwendung eines mobiltelefonartigen und/oder fernseherartigen audiovisuellen Geräts einen nützlichen deskriptiven Zusammenhang. Gleichermaßen, obwohl Ausführungsformen der vorliegenden Erfindung(en) nicht auf einen Inhalt mit mehreren Performern beschränkt sind, liefert ein koordinierter audiovisueller Inhalt mit mehreren Performern, einschließlich eines Inhalts mit mehreren Gesängen, der asynchron aufgenommen oder aufbereitet wird oder mit hierin beschriebenen Latenzverwaltungstechniken aufgenommen und Live gestreamt wird, einen nützlichen deskriptiven Zusammenhang.Although embodiments of the present invention (s) are not limited to this, pitch corrected, karaoke-like vocal recording using a cellular phone and / or television type audiovisual device provides a useful descriptive context. Likewise, although embodiments of the present invention (s) are not limited to multi-performer content coordinated, multi-performer audio-visual content, including multi-chant content that is recorded or edited asynchronously or recorded and streamed live using latency management techniques described herein, a useful descriptive context.

Bei manchen Ausführungsformen, wie etwa in 1 veranschaulicht, hostet ein iPhone®-Handheld, verfügbar von Apple Inc., (oder allgemeiner ein Handheld 101) Software, die in Abstimmung mit einem Inhaltsserver 110 ausgeführt wird, um eine Gesangsaufnahme und kontinuierliche partiturcodierte Echtzeit-Tonhöhenkorrektur und Harmonisierung des aufgenommenen Gesangs bereitzustellen. Darbietungssynchronisiertes Video kann unter Verwendung einer Kamera aufgenommen werden, die durch oder in Verbindung mit einem Fernseher oder einer anderen audiovisuellen Medienvorrichtung 101A oder einem verbundenen Set-Top-Box-Gerät (101B) wie etwa einer Apple-TV™-Vorrichtung, bereitgestellt wird. Darbietungssynchronisiertes Video kann auch unter Verwendung einer gerätinternen Kamera aufgenommen werden, die durch das Handheld 101 bereitgestellt wird.In some embodiments, such as in 1 an iPhone® handheld, available from Apple Inc., (or more generally, a handheld 101 ) Software that is in coordination with a content server 110 is performed to provide vocal recording and continuous score-coded real-time pitch correction and harmonization of the recorded vocal. Performance synchronized video can be recorded using a camera through or in conjunction with a television or other audiovisual media device 101A or a connected set-top box device ( 101B ) such as an Apple TV ™ device. Performance-synchronized video can also be recorded using an in-camera device that is held by the handheld 101 provided.

Wie für karaokeartige Anwendungen (wie etwa die von Smule, Inc. verfügbare Sing! Karaoke™-App) typisch ist, kann ein Backing-Track von Instrumentalstücken und/oder Gesang hörbar für einen Benutzer/Sänger wiedergegeben werden, um demgegenüber zu singen. In derartigen Fällen kann ein Liedtext (102, 102A) entsprechend der hörbaren Wiedergabe (104, 104A) angezeigt werden, sodass eine karaokeartige Gesangsdarbietung durch einen Benutzer ermöglicht wird. In der veranschaulichten Konfiguration von 1 können ein Liedtext, Timing-Informationen, Tonhöhen- und Harmoniehinweise (105), Backing-Tracks (z. B. Instrumentalstücke/Gesang), darbietungskoordiniertes Video, Videoeffektschemas (107) usw. von einem netzwerkverbundenen Inhaltsserver 110 bezogen werden. In manchen Fällen oder Situationen kann Backing-Audio und/oder -Video von einem Medienspeicher wie etwa einer iTunes™-Bibliothek oder einem anderen audiovisuellen Inhaltsspeicher wiedergegeben werden, der auf dem Handheld, einer Set-Top-Box, einer Medien-Streaming-Vorrichtung usw. vorhanden oder von diesen zugänglich ist.As is typical of karaoke-like applications (such as the Sing! Karaoke ™ app available from Smule, Inc.), a backing track of instrumental and / or vocals can be audibly played back by a user / singer to sing against. In such cases, lyrics ( 102 , 102A ) according to the audible reproduction ( 104 , 104A ) are displayed, so that a karaoke-like vocal performance by a user is made possible. In the illustrated configuration of 1 can include lyrics, timing information, pitch and harmony notes ( 105 ), Backing tracks (e.g. instrumental / vocals), performance-coordinated video, video effects schemes ( 107 ) etc. from a network connected content server 110 can be obtained. In some cases or situations, backing audio and / or video may be played back from a media store, such as an iTunes ™ library or other audiovisual content store, on the handheld, a set-top box, or a media streaming device etc. is available or accessible from them.

Zur Einfachheit halber kann angenommen werden, dass ein drahtloses Lokalnetzwerk 180 Kommunikationen zwischen dem Handheld 101, einem beliebigen audiovisuellen Gerät und/oder Set-Top-Box-Gerät und einem Gateway eines großflächigen Netzwerks zu gehosteten Dienstplattformen wie etwa dem Inhaltsserver 110 bereitstellt. 10 bildet eine beispielhafte Netzwerkkonfiguration ab. Basierend auf der Beschreibung hierin werden Fachleute jedoch erkennen, dass eine beliebige von einer Vielfalt von Datenkommunikationsanlagen, einschließlich 802.11 WiFi, Bluetooth™, 4G-LTE-Wireless, verdrahteten Datennetzwerken, verdrahteten oder drahtlosen audiovisuellen Interconnects wie etwa gemäß HDMI-, AVI-, Wi-Di-Standards oder -Einrichtungen, individuell oder in Kombination eingesetzt werden können, um Kommunikationen und/oder die hierin beschriebene audiovisuelle Wiedergabe zu ermöglichen.For the sake of simplicity, it can be assumed that a wireless local area network 180 Communications between the handheld 101 , any audio-visual device and / or set-top box device and a gateway of a large area network to hosted service platforms such as the content server 110 provides. 10th depicts an exemplary network configuration. However, based on the description herein, those skilled in the art will recognize that any of a variety of data communication systems including 802.11 WiFi, Bluetooth ™, 4G-LTE wireless, wired data networks, wired or wireless audio-visual interconnects such as HDMI, AVI, Wi -Di standards or devices, individually or in combination, to enable communications and / or the audiovisual reproduction described herein.

Erneut unter Bezugnahme auf das Beispiel von 1 wird Benutzergesang 103 am Handheld 101 aufgenommen und optional kontinuierlich und in Echtzeit entweder an dem Handheld oder unter Verwendung von Recheneinrichtungen der audiovisuellen Anzeige und/oder des Set-Top-Box-Geräts (101B) tonhöhenkorrigiert und gemischt mit dem Backing-Track hörbar wiedergegeben (siehe 104, 104A), um dem Benutzer eine Wiedergabe seiner eigenen Gesangsdarbietung mit verbesserter Tonqualität bereitzustellen. Es ist zu beachten, dass, während aufgenommener Gesang 103 und die hörbare Wiedergabe 104, 104A unter Verwendung einer herkömmlichen visuellen Symbologie veranschaulicht sind, die auf Mikrofon- und Lautsprecheranlagen des Handheld 101 oder des Fernsehers/der audiovisuellen Medienvorrichtung 101A ausgerichtet ist, Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, erkennen werden, dass in vielen Fällen Mikrofon- und Lautsprecherfunktionalität unter Verwendung von angeschlossenen oder drahtlos verbundenen Ohrsteckern, Kopfhörern, Lautsprechern, rückkopplungsisolierten Mikrofonen usw. bereitgestellt werden kann. Dementsprechend, insofern nicht spezifisch beschränkt, sollten Gesangsaufnahme und hörbare Wiedergabe weitläufig und ohne Beschränkung auf eine spezielle Audiowandlerkonfiguration verstanden werden.Again referring to the example of 1 becomes user vocals 103 on the handheld 101 recorded and optionally continuously and in real time either on the handheld or using computing devices of the audiovisual display and / or the set-top box device ( 101B ) pitch corrected and audibly mixed with the backing track (see 104, 104A) to provide the user with a reproduction of their own vocal performance with improved sound quality. It should be noted that while recorded vocals 103 and the audible playback 104 , 104A using a conventional visual symbology illustrated on handheld microphone and speaker systems 101 or the television / audiovisual media device 101A , those skilled in the art having the benefit of the present disclosure will recognize that in many cases, microphone and speaker functionality can be provided using attached or wirelessly connected ear plugs, headphones, speakers, feedback isolated microphones, etc. Accordingly, insofar as not specifically limited, vocal recording and audible reproduction should be understood broadly and without limitation to a specific audio converter configuration.

Tonhöhenkorrektur, wenn bereitgestellt, basiert typischerweise auf partiturcodierten Notensätzen oder Hinweisen (z. B. Tonhöhen- und Harmoniehinweisen 105), die kontinuierliche Tonhöhenkorrekturalgorithmen mit darbietungssynchronisierten Folgen von Zielnoten in einer aktuellen Tonart oder Tonleiter bereitstellen. Zusätzlich zu darbietungssynchronisierten Melodiezielen können partiturcodierte Harmonienotenfolgen (oder -sätze) Tonhöhenverschiebungsalgorithmen mit zusätzlichen Zielen (typischerweise als Versatze relativ zu einem Lead-Melodinoten-Track codiert und typischerweise eine Partitur nur für ausgewählte Teile davon erstellt) zur Tonhöhenverschiebung zu Harmonieversionen des eigenen aufgenommenen Gesangs des Benutzers bereitstellen. In manchen Fällen können Tonhöhenkorrektureinstellungen charakteristisch für einen speziellen Künstler sein, wie etwa den Künstler, der den mit dem speziellen Backing-Track assoziierten Gesang ursprünglich darbot (oder populär machte).Pitch correction, if provided, is typically based on score-encoded scores or clues (e.g., pitch and harmony clues) 105 ) that provide continuous pitch correction algorithms with performance-synchronized sequences of target notes in a current key or scale. In addition to performance-synchronized melody targets, score-coded harmony note sequences (or sentences) can have pitch shift algorithms with additional targets (typically coded as offsets relative to a lead melodic note track and typically create a score only for selected parts thereof) for pitch shifting to harmony versions of the user's own recorded vocals provide. In some cases, pitch correction settings can be characteristic of a particular artist, such as the artist who originally performed (or popularized) the vocals associated with the particular backing track.

Zusätzlich dazu können ein Liedtext, eine Melodie und Harmonie-Track-Notensätze und in Beziehung stehende Timing- und Steuerinformationen als eine Partitur zusammengefasst werden, die in einem geeigneten Container oder Objekt (z. B. in einem Musical-Instrument-Digital-Interface- bzw. MIDI- oder Java-Script-Object-Notation- bzw. json-artigen Format) zur Lieferung zusammen mit dem (den) Backing-Track(s) codiert sind. Unter Verwendung derartiger Informationen können das Handheld 101, die audiovisuelle Anzeige 101A und/oder das Set-Top-Box-Gerät oder beides einen Liedtext und sogar visuelle Hinweise bezüglich Zielnoten, Harmonie und gegenwärtig detektierte Gesangstonhöhe entsprechend einer hörbaren Darbietung des (der) Backing-Tracks anzeigen, um eine karaokeartige Gesangsdarbietung durch einen Benutzer zu ermöglichen. Falls somit ein aufstrebender Sänger „When I was your Man“, wie durch Bruno Mars populär gemacht, auswählt, können your_man.json und your_man.m4a vom Inhaltsserver 110 heruntergeladen werden (falls nicht schon verfügbar oder basierend auf einem vorherigen Herunterladen gecacht) und im Gegenzug zum Bereitstellen von Hintergrundmusik, einem synchronisierten Liedtext und in manchen Situationen oder Ausführungsformen partiturcodierten Noten-Tracks für eine kontinuierliche Echtzeit-Tonhöhenkorrektur, während der Benutzer singt, verwendet werden. In addition, lyrics, melody and harmony track sheet music, and related timing and control information can be summarized as a score, stored in a suitable container or object (e.g. in a musical instrument digital interface). or MIDI or Java Script Object Notation or json-like format) for delivery together with the backing track (s). Using such information, the handheld 101 who have favourited Audiovisual Display 101A and / or the set-top box device or both display lyrics and even visual cues regarding target notes, harmony and currently detected vocal pitch according to an audible performance of the backing track (s) to enable karaoke-style vocal performance by a user. So if an aspiring singer chooses "When I was your Man", as made popular by Bruno Mars, your_man.json and your_man.m4a from the content server 110 downloaded (if not already available or cached based on a previous download) and used in return to provide background music, synchronized lyrics and, in some situations or embodiments, score-encoded note tracks for continuous real-time pitch correction as the user sings .

Optional können zumindest für gewisse Ausführungsformen oder Genres Harmonienoten-Tracks für Harmonieverschiebungen bei aufgenommenem Gesang partiturcodiert werden. Typischerweise wird eine aufgenommene tonhöhenkorrigierte (möglicherweise harmonisierte) Gesangsdarbietung zusammen mit darbietungssynchronisiertem Video lokal auf der Handheld-Vorrichtung oder Set-Top-Box als eine oder mehrere audiovisuelle Dateien gespeichert und wird anschließend zum Hochladen (106) zu dem Inhaltsserver 110 als eine MPEG-4-Containerdatei komprimiert und codiert. MPEG-4 ist ein internationaler Standard für die codierte Repräsentation und Übertragung von digitalem Multimedia-Inhalt für das Internet, Mobilnetze und fortgeschrittene Aussendungsanwendungen. Andere geeignete Codecs, Komprimierungstechniken, Codierungsverfahren und/oder Container können, falls gewünscht, eingesetzt werden.Optionally, at least for certain embodiments or genres, harmony note tracks for harmony shifts can be coded for recorded vocals. Typically, a recorded pitch-corrected (possibly harmonized) vocal performance along with performance-synchronized video is stored locally on the handheld device or set-top box as one or more audiovisual files and is then uploaded ( 106 ) to the content server 110 compressed and encoded as an MPEG-4 container file. MPEG-4 is an international standard for the encoded representation and transmission of digital multimedia content for the Internet, mobile networks and advanced broadcasting applications. Other suitable codecs, compression techniques, coding methods and / or containers can be used if desired.

In Abhängigkeit von der Implementierung können Codierungen von trockenem Gesang und/oder tonhöhenkorrigiertem Gesang zum Inhaltsserver 110 hochgeladen (106) werden. Allgemein kann derartiger Gesang (z. B. in einem MPEG-4-Container oder anderweitig codiert), egal, ob schon tonhöhenkorrigiert oder am Inhaltsserver 110 tonhöhenkorrigiert, dann z. B. mit Backing-Audio oder anderen aufgenommenen (und möglicherweise tonhöhenverschobenen) Gesangsdarbietungen gemischt (111) werden, um Dateien oder Streams mit Qualitäts- oder Codierungscharakteristiken zu erzeugen, die gemäß Fähigkeiten oder Beschränkungen eines speziellen Ziels oder Netzwerks (z. B. Handheld 120, audiovisuelle Anzeige und/oder Set-Top-Box-Gerät, eine Sozialmedienplattform usw.) ausgewählt werden.Depending on the implementation, encodings of dry vocals and / or pitch corrected vocals can be sent to the content server 110 uploaded (106). In general, such vocals (e.g. in an MPEG-4 container or otherwise encoded), regardless of whether they are already pitch corrected or on the content server 110 pitch corrected, then z. B. mixed with backing audio or other recorded (and possibly pitch-shifted) vocal performances to produce files or streams with quality or coding characteristics that are compatible with the capabilities or limitations of a particular target or network (e.g., handheld 120 , audiovisual display and / or set-top box device, a social media platform, etc.) can be selected.

Wie ferner hierin ausführlich beschrieben, können Darbietungen mehrerer Sänger (einschließlich darbietungssynchronisiertem Video) angesammelt und kombiniert werden, sodass sie als eine duettartige Darbietung, Glee-Club-, fensterbasierte Musikvideokomposition oder Gesangs-Jam-Session dargestellt wird. Bei manchen Ausführungsformen kann ein darbietungssynchronisierter Videobeitrag (zum Beispiel in der Veranschaulichung von 1, das darbietungssynchronisierte Video 122 einschließlich einer Darbietung, die am Handheld 101 oder unter Verwendung eines audiovisuellen Geräts und/oder Set-Top-Box-Geräts 101A, 101B aufgenommen wird) in der resultierenden gemischten audiovisuellen Darbietungswiedergabe 123 mit Videoeffekten, die im Verlauf der gemischten audiovisuellen Darbietungswiedergabe 123 angewendet und dynamisch variiert werden, präsentiert werden. Daran angewendete Videoeffekte basieren zumindest teilweise auf einer Anwendung eines Videoeffekt(VFX)-Schemas, das basierend entweder auf einer Benutzerauswahl oder einer rechnerisch bestimmten Stimmung ausgewählt (113) wird. In manchen Fällen oder Ausführungsformen können ein oder mehrere VFX-Schemas ein stimmungsbezeichnender Satz von Formeln und/oder Filtern sein, die zum Präsentieren einer speziellen Stimmung angewendet werden können. Eine Segmentierung-und-VFX-Engine 112 bestimmt die musikalische Struktur und wendet spezielle visuelle Effekte gemäß den ausgewählten Videoeffekten an. Allgemein basieren die speziellen angewendeten visuellen Effekte auf der Segmentierung von Gesangs- und/oder Backing-Track-Audio, einer bestimmten oder codierten musikalischen Struktur, einer ausgewählten oder detektierten Stimmung oder einem ausgewählten oder detektierten Stil und einer rechnerisch bestimmten Gesangs- oder Audiointensität.As further described in detail herein, performances of multiple singers (including performance-synchronized video) can be accumulated and combined to be presented as a duet-style performance, glee club, window-based music video composition, or vocal jam session. In some embodiments, a presentation-synchronized video post (for example, in the illustration of FIG 1 , the performance synced video 122 including a handheld performance 101 or using an audiovisual device and / or set-top box device 101A , 101B is recorded) in the resulting mixed audiovisual performance 123 with video effects that appear in the course of mixed audiovisual performance 123 applied and dynamically varied, presented. Video effects applied to it are based, at least in part, on an application of a video effect (VFX) scheme, which is selected based on either a user selection or a calculated mood ( 113 ) becomes. In some cases or embodiments, one or more VFX schemes may be a mood-defining set of formulas and / or filters that can be used to present a particular mood. A segmentation-and-VFX engine 112 determines the musical structure and applies special visual effects according to the selected video effects. In general, the special visual effects used are based on the segmentation of vocal and / or backing track audio, a specific or coded musical structure, a selected or detected mood or a selected or detected style and a computationally determined vocal or audio intensity.

Die VFX-Schema-Auswahl kann durch einen Benutzer am Handheld 101 oder unter Verwendung des audiovisuellen Geräts und/oder Set-Top-Box-Geräts 101A, 101B stattfinden. Ein Benutzer kann zum Beispiel ein stimmungsbezeichnendes VFX-Schema auswählen, das Videoeffekte beinhaltet, die zum Bereitstellen einer Palette von „traurigen“ oder „trüben“ Videoverarbeitungseffekten ausgewählt werden. Eine derartige Palette kann in Verbindung mit der bestimmten oder codierten musikalischen Struktur Filter bereitstellen und anwenden, die Farben, Sättigungen und Kontrast bereitstellen, die dazu tendieren, eine „traurige“ oder „trübe“ Stimmung hervorzurufen, Übergänge zwischen Quellvideos mit wenig visueller Energie bereitstellen und/oder partikelbasierte Effekte enthalten, die Regen, Nebel oder andere Effekte darstellen, die mit der ausgewählten Stimmung konsistent sind. Andere Paletten können wiederum in Verbindung mit der bestimmten oder codierten musikalischen Struktur Filter bereitstellen und anwenden, die Farben, Sättigungen und Kontrast bereitstellen, die dazu tendieren, eine „schwungvolle“ oder „energetische“ Stimmung hervorzurufen, Übergänge zwischen Quellvideos mit erheblicher visueller Energie oder Bewegung bereitstellen, Linsenreflexionen oder partikelbasierte Effekte enthalten, die eine visuelle Szene mit Blasen, Ballons, Feuerwerk oder anderen visuellen Merkmalen erweitern, die mit der ausgewählten Stimmung konsistent sind.The VFX scheme selection can be done by a user on the handheld 101 or using the audiovisual device and / or set-top box device 101A , 101B occur. For example, a user may select a mood-designing VFX scheme that includes video effects that are selected to provide a range of “sad” or “cloudy” video processing effects. Such a palette, in conjunction with the particular or coded musical structure, can provide and apply filters that provide colors, saturations, and contrast that tend to create a “sad” or “cloudy” mood to provide transitions between source videos with little visual energy and / or contain particle-based effects that represent rain, fog or other effects consistent with the selected mood. In turn, other palettes, in conjunction with the particular or encoded musical structure, can provide and apply filters that provide colors, saturations, and contrasts that tend to create a "swingy" or "energetic" mood, transitions between source videos with significant visual energy or movement Provide lens reflections or particle-based effects that augment a visual scene with bubbles, balloons, fireworks, or other visual features that are consistent with the mood selected.

Bei manchen Ausführungsformen können Formeln und/oder Filter eines gegebenen VFX-Schemas z. B. basierend auf rechnerischen Merkmalen, wie etwa durchschnittlicher Gesangsenergie, die aus Audiodarbietungen oder basierend auf Tempo, Beat oder Audioenergie von Backing-Tracks extrahiert werden, parametrisiert werden. In manchen Fällen oder Ausführungsformen können Liedtext- oder Musikauswahlmetadaten zur VFX-Schemaauswahl eingesetzt werden. Allgemein versteht sich im Zusammenhang mit der Beschreibung und den folgenden Ansprüchen, dass visuelle Effektschemas in manchen Fällen oder Ausführungsformen iterativ ausgewählt und an einer gegebenen Darbietung oder Teildarbietung angewendet werden können, z. B. während ein Benutzer oder ein beitragender Sänger oder ein Nachbearbeitungs-Videoeditor versucht, eine spezielle Stimmung, egal ob „traurig“, „nachdenklich“, „schwungvoll“ oder „romantisch“, zu erzeugen.In some embodiments, formulas and / or filters of a given VFX scheme may e.g. B. be parameterized based on computational features, such as average vocal energy, which are extracted from audio performances or based on tempo, beat or audio energy of backing tracks. In some cases or embodiments, lyrics or music selection metadata can be used for VFX scheme selection. In general, in connection with the description and the following claims, it is understood that visual effects schemes in some cases or embodiments can be iteratively selected and applied to a given performance or sub-performance, e.g. B. while a user or contributing singer or post-processing video editor tries to create a special mood, whether "sad", "thoughtful", "peppy" or "romantic".

Zur Vereinfachung der anfänglichen Veranschaulichung bildet 1 eine Aufnahme von darbietungssynchronisiertem Audio (103) und Video (105) einer Darbietung 106 ab, die zu dem Inhaltsserver 110 (oder der Dienstplattform) hochgeladen und zu einem oder mehreren potenziellen beitragenden Sängern oder Performern z. B. als eine Seed-Darbietung verteilt wird, dergegenüber die anderen beitragenden Sänger oder Performer (Nr. 2, Nr. 3 Nr. N) zusätzliche audiovisuelle (AV) Darbietungen aufnehmen. 1 bildet die Lieferung von anderen aufgenommenen AV-Darbietungen Nr. 2, Nr. 3 ... Nr. N zum Audiomix und zur visuellen Anordnung 111 am Inhaltsserver 110 ab, um darbietungssynchronisiertes Video 122 zu erzeugen. Allgemein können angewendete visuelle Effekte im Verlauf der gemischten audiovisuellen Darbietungswiedergabe 123 gemäß einem speziellen visuellen Effektschema und einer Segmentierung einer oder mehrerer der konstituierenden AV-Darbietungen variiert werden. In manchen Fällen kann die Segmentierung auf einer Signalverarbeitung von Gesangsaudio basieren und/oder kann auf einer vorcodierten musikalischen Struktur, einschließlich Gesangspart oder Abschnittsnotationen, Phrase oder sich wiederholender Struktur eines Liedtexts usw., basieren.To simplify the initial illustration forms 1 a recording of performance-synchronized audio ( 103 ) and video ( 105 ) a performance 106 from that to the content server 110 (or the service platform) and uploaded to one or more potential contributing singers or performers e.g. B. is distributed as a seed performance, while the other contributing singers or performers (No. 2, No. 3 No. N) record additional audiovisual (AV) performances. 1 forms the delivery of other recorded AV performances No. 2, No. 3 ... No. N for the audio mix and for the visual arrangement 111 on the content server 110 down to presentation synced video 122 to create. Generally, visual effects can be applied in the course of mixed audiovisual performance playback 123 can be varied according to a special visual effects scheme and segmentation of one or more of the constituent AV performances. In some cases, the segmentation may be based on vocal audio signal processing and / or may be based on a pre-encoded musical structure including vocal part or section notations, phrase or repetitive structure of a song text, etc.

Die 2A, 2B und 2C sind aufeinanderfolgende Momentaufnahmen 191, 192 und 193 von gesangsdarbietungssynchronisiertem Video entlang einer koordinierten audiovisuellen Darbietungszeitleiste 151, bei dem gemäß manchen Ausführungsformen der vorliegenden Erfindung ein Video 123 für einen, den anderen oder beide von zwei beitragenden Sängern Gesangseffekte aufweist, die basierend auf einer Stimmung und basierend auf einem rechnerisch definierten Audiomerkmal wie etwa Gesangsintensität, die über den aufgenommenen Gesang berechnet wird, angewendet werden. Obwohl die Bilder der 2A, 2B und 2C nicht versuchen, spezielle Videoeffekte getreu abzubilden (die dazu tendieren, dynamisch zu sein, und visuell subtil sein können), werden Durchschnittsfachleute, die den Vorteil der vorliegenden Offenbarung besitzen, verstehen, dass für einen ersten Teil (der durch die Momentaufnahme 191 repräsentiert wird) einer koordinierten audiovisuellen Darbietung VFX an dem darbietungssynchronisierten Video für individuelle Performer basierend auf der jeweiligen ausgewählten oder detektierten Stimmung für diesen Performer und basierend auf der Gesangsintensität der speziellen Darbietung angewendet wird. Für einen zweiten Teil (der durch die Momentaufnahme 192 repräsentiert wird) der koordinierten audiovisuellen Darbietung wird VFX an dem darbietungssynchronisierten Video für einen einzelnen Performer basierend auf einer ausgewählten oder detektierten Stimmung für diesen Performer und einer aktuellen Gesangsintensität angewendet. Schließlich wird für einen dritten Teil (wie etwa einen Refrain, der durch die Momentaufnahme 193 repräsentiert wird) der koordinierten audiovisuellen Darbietung VFX an dem darbietungssynchronisierten Video beider Performer basierend auf einer gemeinsamen oder zusammengesetzten Stimmung (egal, ob detektiert oder ausgewählt) für die Performer und einem aktuellen Maß der gemeinsamen Gesangsintensität angewendet.The 2A , 2 B and 2C are consecutive snapshots 191 , 192 and 193 of vocal performance-synchronized video along a coordinated audiovisual performance timeline 151 A video in accordance with some embodiments of the present invention 123 has vocal effects for one, the other, or both of two contributing singers that are applied based on a mood and based on a computationally defined audio feature such as vocal intensity calculated from the recorded vocal. Although the pictures of the 2A , 2 B and 2C not attempting to faithfully reproduce special video effects (which tend to be dynamic and can be visually subtle), those of ordinary skill in the art having the benefit of the present disclosure will understand that for a first part (that of the snapshot 191 a coordinated audiovisual performance VFX is applied to the performance-synchronized video for individual performers based on the selected or detected mood for that performer and based on the vocal intensity of the particular performance. For a second part (that by the snapshot 192 of the coordinated audiovisual performance, VFX is applied to the performance-synchronized video for a single performer based on a selected or detected mood for that performer and a current vocal intensity. Finally, for a third part (such as a chorus caused by the snapshot 193 is represented) of the coordinated audiovisual performance VFX applied to the performance-synchronized video of both performers based on a common or composite mood (whether detected or selected) for the performers and a current measure of the common singing intensity.

Wie Fachleute verstehen werden, die den Vorteil der vorliegenden Offenbarung besitzen, führt die Darbietungszeitleiste 151 das darbietungssynchronisierte Video über verschiedene Audiosegmentierungsgrenzen, über Abschnitts- und/oder Gruppenpartübergänge und durch verschiedene Momente, sodass erwartet wird, dass die Momentaufnahmen 191, 192 und 193 bei unterschiedlichen Teilen der Darbietungszeitleiste und basierend auf der musikalischen Struktur des Audios unterschiedliche Aspekte eines speziellen VFX-Schemas anwenden, z. B. unterschiedliche VFX-Formeln und VFX-Filter davon.As will be understood by those skilled in the art having the benefit of the present disclosure, the performance timeline guides 151 the presentation-synchronized video across different audio segmentation boundaries, across section and / or group part transitions and through different moments, so that the snapshots are expected 191 , 192 and 193 apply different aspects of a special VFX scheme to different parts of the performance timeline and based on the musical structure of the audio, e.g. B. different VFX formulas and VFX filters thereof.

Die 3A, 3B und 3C veranschaulichen eine beispielhafte Implementierung einer Segmentierung-und-Videoeffekte(VFX)-Engine 112, (siehe 1) gemäß manchen Ausführungsformen der vorliegenden Erfindung(en). Insbesondere bildet 3A Informationsflüsse ab, die eine beispielhafte Codierung einer musikalischen Struktur 115 beinhalten, bei der Audiomerkmale von darbietungssynchronisierten Gesangs-Tracks (z. B. Gesang Nr. 1 und Gesang Nr. 2) und eines Backing-Tracks extrahiert werden, um Segmentierung und Annotation für die musikalische Strukturcodierung 115 bereitzustellen. The 3A , 3B and 3C illustrate an exemplary implementation of a Segmentation and Video Effects (VFX) engine 112, (see 1 ) according to some embodiments of the present invention (s). In particular forms 3A Information flows from an exemplary coding of a musical structure 115 involve extracting audio features from performance-synchronized vocal tracks (e.g., vocal # 1 and vocal # 2) and a backing track to segmentation and annotation for musical structure coding 115 to provide.

Merkmalsextraktion und Segmentierung 117 liefern die Annotationen und Übergangsmarkierungen der musikalischen Strukturcodierung 115, um Formeln und Filter von einem ausgewählten visuellen Effektschema vor der Videowiedergabe 119 anzuwenden. In der beispielhaften veranschaulichten Implementierung wirkt die Merkmalsextraktion und Segmentierung beispielsweise an:

• Gesang: Segmentierung „Singen“ gegenüber „Nichtsingen“, augenblickliche Lautstärke, relative Lautstärke jedes Segments.
• Backing-Tracks: Tempo, augenblickliche Lautstärke, Beat-Detektion.
• MIDI-Dateien: Tonhöhe, Harmonie, Liedtext, „Part“-Anordnungsmarkierungen (wann jeder Sänger singen sollte).

Feature extraction and segmentation 117 provide the annotations and transition marks of the musical structure coding 115 to formulas and filters from a selected visual effects scheme before playing video 119 to apply. In the exemplary implementation illustrated, the feature extraction and segmentation affects, for example:

• Singing: segmentation "singing" versus "not singing", instantaneous volume, relative volume of each segment.
• Backing tracks: tempo, instantaneous volume, beat detection.
• MIDI files: pitch, harmony, lyrics, “part” arrangement marks (when each singer should sing).

Bei einer beispielhaften Implementierung wird ein Gesangs-Track als mit Singen- und Schweigen-Segmente konsistent behandelt. Die Merkmalsextraktion versucht, Teil eines Sologesangs-Tracks als Schweigen- und Singen-Segmente zu klassifizieren. Für Duettgesangs-Tracks mit Part 1 und 2 versucht die Merkmalsextraktion, sie als Schweigen-, Part-1-Singen-, Part-2-Singen- und Miteinander-Singen-Segmente zu klassifizieren. Als Nächstes wird eine Segmenttypisierung durchgeführt. Bei manchen Implementierungen werden zum Beispiel eine globale durchschnittliche Gesangsintensität und durchschnittliche Gesangsintensitäten pro Segment berechtigt, um die „musikalische Intensität“ jedes Segments bezüglich einer speziellen Darbietung eines Sängers eines Liedes zu bestimmen. Anders gesagt, versuchen Segmentierungsalgorithmen, zu bestimmen, ob ein gegebener Abschnitt ein „lauterer“ Abschnitt oder ein „ruhiger“ Abschnitt ist. Die Startzeit und Endzeit jeder Liedtextzeile werden bei manchen Implementierungen auch aus den Liedtextmetadaten abgerufen, um die Segmenttypisierung zu ermöglichen. Gültige Segmenttypen und Klassifizierungskriterien beinhalten:

• Intro: Segment(e) vor dem Start der ersten Liedtextzeile.
• Vers: Intensität des Segments ist geringer als die durchschnittliche Gesangsintensität des Sängers.
• Überbrückung: Wie Vers, aber in der zweiten Hälfte eines Liedes vorhanden.
• Pre-Chorus: Ein Segment vor dem Refrainsegment.
• Inter: Stille Segmente, aber keine Intro- oder Outro-Segmente.
• Outro: Segment(e) nach dem Ende der letzten Liedtextzeile.

In an example implementation, a vocal track is treated as consistent with singing and silent segments. Feature extraction tries to classify part of a solo vocal track as silence and singing segments. For duet vocal tracks with

parts

1 and 2, the feature extraction tries to classify them as silence, part 1 singing, part 2 singing and singing together segments. Next, segment typing is performed. For example, in some implementations, a global average vocal intensity and average vocal intensities per segment are authorized to determine the "musical intensity" of each segment with respect to a particular performance of a singer of a song. In other words, segmentation algorithms attempt to determine whether a given section is a "louder" section or a "quiet" section. The start time and end time of each lyrics line are also retrieved from the lyrics metadata in some implementations to enable segment typing. Valid segment types and classification criteria include:

• Intro: segment (s) before the start of the first line of lyrics.
• Verse: Intensity of the segment is lower than the average singing intensity of the singer.
• Bridging: Like verse, but present in the second half of a song.
• Pre-chorus: one segment before the chorus segment.
• Inter: Silent segments, but no intro or outro segments.
• Outro: segment (s) after the end of the last line of lyrics.

Merkmalsextraktion und Segmentierung 117 können außerdem ferner eine Audiosignalverarbeitung beinhalten, um das Timing von Beats und Down-Beats im Backing-Track zu extrahieren und die bestimmten Segmente mit Down-Beats abzugleichen. Bei manchen Implementierungen wird ein Beats-Per-Minute(BPM)-Maß zum Bestimmen des Tempos des Liedes und Momenten wie etwa Höhepunkt, Halten und Crescendo, die unter Verwendung von Gesangsintensitäten und Tonhöheninformationen identifiziert werden, berechnet. Momenttypen und Klassifikationskriterien können beispielsweise beinhalten:

• Höhepunkt: Ein Segment ist auch als ein Höhepunktsegment markiert, falls es die höchste Gesangsintensität aufweist.
• Halten: Falls eine Note eine Tonhöhenlänge länger als eine vorbestimmte Schwelle aufweist.
• Crescendo: Eine Folge von Noten mit zunehmender Tonhöhe.

Feature extraction and segmentation 117 may also further include audio signal processing to extract the timing of beats and down beats in the backing track and to match the particular segments with down beats. In some implementations, a beats per minute (BPM) measure is used to determine the tempo of the song and moments such as climax, hold and crescendo, which are identified using vocal intensities and pitch information. Moment types and classification criteria can include, for example:

• High point: A segment is also marked as a high point segment if it has the highest singing intensity.
• Hold: If a note has a pitch length longer than a predetermined threshold.
• Crescendo: A sequence of notes with increasing pitch.

Allgemein können diese und andere Annotationen und Segmentierungen mit Stilen, Formeln und Filtern verwendet werden, um darbietungsangesteuerte visuelle Effekte bereitzustellen.In general, these and other annotations and segmentations with styles, formulas, and filters can be used to provide display-driven visual effects.

3B bildet zusätzliche Einzelheiten für eine Ausführungsform ab, die ihre visuellen Effektschemas in videostilbezeichnende Formeln (116B), die zur VFX-Planung verwendet werden, und spezielle Videofilter (116A), die in einer beispielhaften VFX-Wiedergabepipeline verwendet werden, zerlegt. Ein Videostil kann benutzerausgewählt sein oder kann bei manchen Ausführungsformen basierend auf einer rechnerisch bestimmten Stimmung ausgewählt werden. Allgemein sind für einen gegebenen Videostil mehrere Formeln definiert und für spezielle Liedtempos, Aufzeichnungstyp (Solo, Duett oder Partnerkünstler) usw. spezialisiert. Eine Formel definiert typischerweise die visuellen Effekte, wie etwa Layouts, Übergänge, Nachbearbeitung, Farbfilter, Wasserzeichen und Logos, für jeden Segmenttyp oder Moment. Basierend auf dem bestimmten Tempo und Aufzeichnungstyp eines Liedes wird eine geeignete Formel aus dem Satz (116B) davon ausgewählt. 3B depicts additional details for an embodiment that translates its visual effects schemes into video style formulas (116B) used for VFX planning and special video filters ( 116A ) used in an exemplary VFX playback pipeline. A video style can be user-selected or, in some embodiments, can be selected based on a computed mood. In general, several formulas are defined for a given video style and specialized for special song tempo, recording type (solo, duet or partner artist) etc. A formula typically defines the visual effects, such as layouts, transitions, post-processing, color filters, watermarks and logos, for each segment type or moment. Based on the particular pace and Record type of a song is a suitable formula from the sentence ( 116B ) selected from it.

Der VFX-Planer 118 bildet die extrahierten Merkmale (Segmente und Momente, die in der musikalischen Strukturcodierung 115 annotiert oder markiert wurden, wie oben beschrieben) zu speziellen visuellen Effekten basierend auf der ausgewählten Videostilformel (116B) ab. Der VFX-Planer 118 erzeugt einen Videowiedergabejob, der eine Reihe von visuellen Effektkonfigurationen enthält. Für jede visuelle Effektkonfiguration wird ein Satz von Konfigurationsparametern erzeugt. Parameter wie etwa der Name eines zuvor erstellten Videoeffekts, Eingabevideo, Start- und Endzeit, Backing-Track-Intensitäten und Gesangsintensitäten während des Effekts, Beats-Timing-Informationen während des Effekts, spezifische Steuerparameter des Videoeffekts und usw. Videoeffekte, die in der Konfiguration spezifiziert sind, können zuvor erstellt und zur direkten Verwendung durch den VFX-Renderer 119 codiert werden, um den codierten Videoeffekt wiederzugeben. Gesangsintensitäten und Backing-Track-Intensitäten werden verwendet, um die visuellen Effekte anzusteuern. Beats-Timing-Informationen werden verwendet, um angewendete Videoeffekte mit dem Audio abzugleichen.The VFX planner 118 forms the extracted features (segments and moments in the musical structure coding 115 annotated or marked as described above) for special visual effects based on the selected video style formula ( 116B ). The VFX planner 118 creates a video playback job that contains a number of visual effects configurations. A set of configuration parameters is generated for each visual effect configuration. Parameters such as the name of a previously created video effect, input video, start and end time, backing track intensities and vocal intensities during the effect, beat timing information during the effect, specific control parameters of the video effect and etc. Video effects that are configured can be created beforehand and used directly by the VFX renderer 119 be encoded to reproduce the encoded video effect. Vocal intensities and backing track intensities are used to control the visual effects. Beats timing information is used to match applied video effects with the audio.

Schließlich bildet 3C eine beispielhafte Abbildung von Gesangsparts und -segmenten zu visuellen Layouts, Übergängen, nachbearbeiteten Videoeffekten und partikelbasierten Effekten grafisch ab, wie etwa als die musikalische Strukturcodierung 115 (siehe 3A) oder bei manchen Ausführungsformen durch videostilbezeichnende Formeln (116B), die zur VFX-Planung verwendet werden, und speziellen Videofiltern (116A) zur VFX-Wiedergabe repräsentiert werden können. Rechnerisch bestimmte Segmente (Intro, Vers, Inter, Pre-Chorus, Überbrückung und Outro) werden zum Beispiel zu speziellen visuellen Layouts, nachbearbeiteten Effekten und partikelbasierten Effekten mit codierten visuellen Übergängen zwischen Segmenten abgebildet.Finally forms 3C an exemplary illustration of vocal parts and segments to visual layouts, transitions, post-processed video effects and particle-based effects graphically, such as as the musical structure coding 115 (please refer 3A) or, in some embodiments, by video style-defining formulas (116B) used for VFX planning and special video filters ( 116A ) can be represented for VFX playback. Calculated segments (intro, verse, inter, pre-chorus, bridging and outro) are mapped, for example, to special visual layouts, post-processed effects and particle-based effects with coded visual transitions between segments.

4 bildet eine Variation von zuvor beschriebenen Informationsflüssen ab. Genauer gesagt bildet 4 Flüsse zwischen illustrativen mobiltelefonartigen tragbaren Rechenvorrichtungen in einer Gastgeber-und-Gast-Konfiguration gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) ab, bei der ein visuelles Effektschema an einer duettartigen audiovisuellen Livestream-Gruppendarbietung angewendet wird. 4th depicts a variation of the information flows described above. More specifically, forms 4th Flows between illustrative cellular phone-style portable computing devices in a host-and-guest configuration, in accordance with some embodiments of the present invention (s), where a visual effects scheme is applied to a duet-style audiovisual live stream group performance.

In der Veranschaulichung von 4 steuert ein aktueller Gastgeberbenutzer der aktuellen Gastgebervorrichtung 101B zumindest teilweise den Inhalt eines Livestreams 122, der für eine Zuhörerschaft auf Vorrichtungen 120A, 120B ... 120N gepuffert und zu diesen gestreamt wird. In der veranschaulichten Konfiguration trägt ein aktueller Gastbenutzer der aktuellen Gastvorrichtung 101A zu dem audiovisuellen Gruppendarbietungsmix 111 bei, die durch die aktuelle Gastgebervorrichtung 101B als der Livestream 122 (schließlich über den Inhaltsserver 110) geliefert wird. Obwohl die Vorrichtungen 120A, 120B ... 120N und in der Tat die aktuelle Gast- und Gastgebervorrichtung 101A, 101B zur Vereinfachung als Handheld-Vorrichtungen wie etwa Mobiltelefone veranschaulicht sind, werden Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, erkennen, dass ein beliebiges Mitglied der Zubehörkraft den Livestream 122 auf einem beliebigen geeigneten Computer, Smart-Fernseher, Tablet, über eine Set-Top-Box oder einen anderen Streaming-Medien-fähigen Client empfangen kann.In the illustration of 4th controls a current host user of the current host device 101B at least partially the content of a live stream 122 who is for an audience on devices 120A , 120B ... 120N is buffered and streamed to them. In the illustrated configuration, a current guest user is wearing the current guest device 101A to the audiovisual group performance mix 111 at by the current host device 101B than the livestream 122 (finally through the content server 110 ) is delivered. Although the devices 120A , 120B ... 120N and indeed the current host and host device 101A , 101B For convenience, as illustrated as handheld devices, such as cellular phones, those skilled in the art having the benefit of the present disclosure will appreciate that any member of the accessory can watch the live stream 122 on any suitable computer, smart TV, tablet, set-top box or other streaming media enabled client.

Ein Inhalt, der gemischt wird, um den audiovisuellen Gruppendarbietungsmix 111 zu bilden, wird bei der veranschaulichten Konfiguration im Zusammenhang mit einer karaokeartigen Darbietungsaufnahme aufgenommen, bei der ein Liedtext 102, optionale Tonhöhenhinweise 105 und typischerweise ein Backing-Track 107 vom Inhaltsserver 110 zu der aktuellen Gastvorrichtung 101A und/oder der aktuellen Gastgebervorrichtung 101B geliefert werden. Ein aktueller Gastgeber (auf der aktuellen Gastgebervorrichtung 101B) übt typischerweise die endgültige Steuerung über den Livestream aus, z. B. durch Auswählen eines speziellen Benutzers (oder spezieller Benutzer) aus der Zuhörerschaft, um als der eine oder die mehreren aktuellen Gäste zu agieren, durch Auswählen eines speziellen Liedes aus einer Anfragewarteschlange (und/oder von Gesangsparts davon für spezielle Benutzer) und/oder durch Starten, Stoppen oder Passieren der Gruppen-AV-Darbietung. Sobald der aktuelle Gastgeber einen Gast und/oder ein Lied auswählt oder genehmigt, kann der Gastbenutzer (bei manchen Ausführungsformen) das Abspielen des Backing-Tracks 107A zur lokalen hörbaren Wiedergabe starten/stoppen/passieren und anderweitig den Inhalt des Gastmixes 106 (Backing-Track-Abspielen gemischt mit aufgenommenem audiovisuellem Gastinhalt) steuern, der der aktuellen Gastgebervorrichtung 101B geliefert wird. Das Abspielen des Liedtexts 102A und optionaler Tonhöhenhinweise 105A an der aktuellen Gastvorrichtung 101A entspricht zeitlich dem Backing-Track 107A und unterliegt gleichermaßen der Steuerung zum Starten/Stoppen/Pausieren durch den aktuellen Gast. In manchen Fällen oder Situationen kann Backing-Audio und/oder -Video aus einem Medienspeicher wie etwa einer iTunes™-Bibliothek wiedergegeben werden, die sich auf einem Handheld, einer Set-Top-Box usw. befindet oder von diesen zugänglich ist.A content that is blended to form the audiovisual group performance mix 111 to form is recorded in the illustrated configuration in connection with a karaoke-like performance recording in which a song text 102 , optional pitch notes 105 and typically a backing track 107 from the content server 110 to the current guest device 101A and / or the current host device 101B to be delivered. A current host (on the current host device 101B ) typically exercises final control over the livestream, e.g. B. by selecting a special user (or special user) from the audience to act as the one or more current guests, selecting a special song from a request queue (and / or vocal parts thereof for special users) and / or by starting, stopping or passing the group AV presentation. Once the current host selects or approves a guest and / or song, the guest user can (in some embodiments) play the backing track 107A start / stop / pass for local audible playback and otherwise the content of the guest mix 106 (Backing track playback mixed with recorded audiovisual guest content) control that of the current host device 101B is delivered. Playing the lyrics 102A and optional pitch notices 105A on the current guest device 101A corresponds in time to the backing track 107A and is also subject to control by the current guest to start / stop / pause. In some cases or situations, backing audio and / or video can be played from a media storage such as an iTunes ™ library located on or accessible from a handheld, set-top box, etc.

Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, werden verstehen, dass Instanzen der Segmentierung-und-VFX-Engine-Funktionalität, wie zuvor beschrieben (siehe 1, Segmentierung-und-VFX-Engine 112) in der Gast-Gastgeber-Livestream-Konfiguration von 4 zu dem Gastgeber 101B, dem Gast 101A und/oder dem Inhaltsserver 110 verteilt sein können. Beschreibungen der Segmentierung-und-VFX-Engine 112 bezüglich der 3A, 3B und 3C werden somit so verstanden, dass sie analog Implementierungen einer ähnlichen Funktionalität 112A, 112B und/oder 112C bezüglich der Vorrichtungen oder Komponenten von 4 beschreiben.Those skilled in the art having the benefit of the present disclosure will understand that instances of the segmentation and VFX engine functionality are as previously described (see 1 , Segmentation-and-VFX engine 112 ) in the guest-host livestream configuration of 4th to the host 101B , the guest 101A and / or the content server 110 can be distributed. Descriptions of the segmentation and VFX engine 112 regarding the 3A , 3B and 3C are thus understood to be analog implementations of similar functionality 112A , 112B and or 112C regarding the devices or components of 4th describe.

Bei Ausführungsformen gemäß der Gast-Gastgeber-Livestream-Konfiguration von 4 werden typischerweise Liedanfragen 132 aus der Zuhörerschaft ermittelt und durch Signalisierungspfade zu einer Inhaltsauswahl-und-Gastwarteschlangensteuerung-Logik 112 des Inhaltsservers 110 übermittelt. Die Gastgebersteuerungen 131 und die Gaststeuerungen 133 sind als bidirektionale Signalisierungspfade veranschaulicht. Andere Warteschlangen-und-Steuerung-Logikkonfigurationen, die mit dem beschriebenen Betrieb konsistent sind, einschließlich gastgeber- oder gastgesteuerter Warteschlangenbildung und/oder Liedauswahl, werden basierend auf der vorliegenden Offenbarung ersichtlich werden.In embodiments according to the guest-host livestream configuration of 4th are typically song requests 132 determined from the audience and through signaling paths to content selection and guest queue control logic 112 the content server 110 transmitted. The host controls 131 and the guest controls 133 are illustrated as bidirectional signaling paths. Other queuing and control logic configurations consistent with the described operation, including host or guest queuing and / or song selection, will be apparent based on the present disclosure.

Trotz einer nicht vernachlässigbaren zeitlichen Verzögerung (typischerweise 100-250 ms, aber möglicherweise mehr) empfängt die aktuelle Gastgebervorrichtung 101B den Gastmix 106 und gibt diesen hörbar als einen Backing-Track wieder, demgegenüber die audiovisuelle Darbietung des aktuellen Gastgebers an der aktuellen Gastgebervorrichtung 101B aufgenommen wird. Das Abspielen des Liedtexts 102B und optionaler Tonhöhenhinweise 105B an der aktuellen Gastgebervorrichtung 101B entspricht zeitlich dem Backing-Track, hier dem Gastmix 106. Um die Synchronisation mit dem Gastmix 106 angesichts der zeitlichen Verzögerung in dem Peer-zu-Peer-Kommunikationskanal zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowie die gastseitige Steuerung von Starten/Stoppen/Pausieren zu ermöglichen, können Markierungs-Beacons in den Gastmix codiert werden, um die geeignete Phasensteuerung des Liedtexts 102B und optionaler Tonhöhenhinweise 105B auf dem Bildschirm bereitzustellen. Alternativ dazu kann eine Phasenanalyse eines beliebigen Backing-Tracks 107A, der in dem Gastmix 106 enthalten ist (oder eines beliebigen Bleed-Through, falls der Backing-Track separat codiert oder übermittelt wird) verwendet werden, um die geeignete Phasensteuerung des Liedtexts 102B und optionaler Tonhöhenhinweise 105B auf dem Bildschirm an der aktuellen Gastgebervorrichtung 101B bereitzustellen.Despite a non-negligible time delay (typically 100-250 ms, but possibly more), the current host device is receiving 101B the guest mix 106 and audibly reproduces this as a backing track, in contrast to the audiovisual presentation of the current host on the current host device 101B is recorded. Playing the lyrics 102B and optional pitch notices 105B on the current host device 101B corresponds in time to the backing track, here the guest mix 106 . For synchronization with the guest mix 106 given the time delay in the peer-to-peer communication channel between the current guest device 101A and the current host device 101B and to allow guest-side control of start / stop / pause, marker beacons can be encoded in the guest mix to provide appropriate phase control of the lyrics 102B and optional pitch notices 105B to provide on the screen. Alternatively, a phase analysis of any backing track can be done 107A who is in the guest mix 106 is included (or any bleed-through if the backing track is encoded or transmitted separately) can be used to control the appropriate phase of the lyrics 102B and optional pitch notices 105B on the screen on the current host device 101B to provide.

Es versteht sich, dass die zeitliche Verzögerung in dem Peer-zu-Peer-Kommunikationskanal zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowohl den Gastmix 106 als auch Kommunikationen in die entgegengesetzte Richtung (z. B. Signalcodierungen des Gastgebermikrofons 103C) beeinträchtigt. Ein beliebiger einer Vielfalt von Kommunikationskanälen kann zum Übermitteln von audiovisuellen Signalen und Steuerungen zwischen der aktuellen Gastvorrichtung 101A und der aktuellen Gastgebervorrichtung 101B sowie zwischen der Gast- und der Gastgebervorrichtung 101A, 101B und dem Inhaltsserver 110 und zwischen Zuhörerschaftsvorrichtungen 120A, 120B ... 120N und dem Inhaltsserver 110 verwendet werden. Beispielsweise können jeweilige drahtlose Telekommunikationsträgereinrichtungen und/oder drahtlose lokale Netzwerke und jeweilige Gateways von großflächigen Netzwerken (nicht spezifisch gezeigt) Kommunikationen zu und von den Vorrichtungen 101A, 101B, 120A, 120B ... 120N bereitstellen. Basierend auf der Beschreibung hierin werden Fachleute erkennen, dass eine beliebige einer Vielfalt von Datenkommunikationseinrichtungen, einschließlich 802.11 WiFi, Bluetooth™, 4G-LTE-Drahtlos, verdrahteten Datennetzwerken, verdrahteten oder drahtlosen audiovisuellen Interconnects wie etwa gemäß HDMI-, AVI-, Wi-Di-Standards oder -Einrichtungen individuell oder in Kombination eingesetzt werden können, um Kommunikationen und/oder eine hierin beschriebene audiovisuelle Wiedergabe zu ermöglichen.It is understood that the time delay in the peer-to-peer communication channel between the current guest device 101A and the current host device 101B both the guest mix 106 as well as communications in the opposite direction (e.g. signal coding of the host microphone 103C ) impaired. Any of a variety of communication channels can be used to convey audiovisual signals and controls between the current guest device 101A and the current host device 101B as well as between the host and host devices 101A , 101B and the content server 110 and between audience devices 120A , 120B ... 120N and the content server 110 be used. For example, respective wireless telecommunication carrier devices and / or wireless local area networks and respective gateways from large area networks (not specifically shown) can communicate to and from the devices 101A , 101B , 120A , 120B ... 120N provide. Based on the description herein, those skilled in the art will recognize that any of a variety of data communication devices including 802.11 WiFi, Bluetooth ™, 4G LTE wireless, wired data networks, wired or wireless audio-visual interconnects such as HDMI, AVI, Wi-Di -Standards or devices may be used individually or in combination to enable communications and / or audiovisual reproduction described herein.

Benutzergesänge 103A und 103B werden an jeweiligen Handhelds 101A, 101B aufgenommen und können optional kontinuierlich und in Echtzeit tonhöhenkorrigiert werden und gemischt mit dem lokal geeigneten Backing-Track (z. B. dem Backing-Track 107A an der aktuellen Gastvorrichtung 101A und dem Gastmix 106 an der aktuellen Gastgebervorrichtung 101B) hörbar wiedergegeben werden, um dem Benutzer eine Wiedergabe mit verbesserter Tonqualität seiner eigenen Gesangsdarbietung bereitzustellen. Die Tonhöhenkorrektur basiert typischerweise auf partiturcodierten Notensätzen oder Hinweisen (z. B. den Tonhöhen- und Harmoniehinweisen 105A, 105B, die an der aktuellen Gastvorrichtung 101A bzw. an der aktuellen Gastgebervorrichtung 101B visuell angezeigt werden), die kontinuierliche Tonhöhenkorrekturalgorithmen bereitstellen, die an der jeweiligen Vorrichtung mit darbietungssynchronisierten Folgen von Zielnoten in einer aktuellen Tonart oder Tonleiter ausgeführt werden. Zusätzlich zu darbietungssynchronisierten Melodiezielen liefern partiturcodierte Harmonienotenfolgen (oder -sätze) Tonhöhenverschiebungsalgorithmen mit zusätzlichen Zielen (die typischerweise als Versatze bezüglich eines Lead-Melodienoten-Tracks codiert sind und typischerweise nur für ausgewählte Teile davon mit einer Partitur versehen sind) eine Tonhöhenverschiebung zu Harmonieversionen des eigenen aufgenommen Gesangs des Benutzers. In manchen Fällen können Tonhöhenkorrektureinstellungen für einen speziellen Künstler wie etwa den Künstler, der den mit dem speziellen Backing-Track assoziierten Gesang darbot, charakteristisch sein.User chants 103A and 103B are on respective handhelds 101A , 101B and can optionally be continuously and in real-time corrected for pitch and mixed with the locally suitable backing track (e.g. the backing track 107A on the current guest device 101A and the guest mix 106 on the current host device 101B ) are reproduced audibly in order to provide the user with a reproduction with improved sound quality of his own vocal performance. Pitch correction is typically based on score-coded musical notations or notes (e.g. the notes on pitch and harmony 105A , 105B working on the current guest device 101A or on the current host device 101B are displayed visually), which provide continuous pitch correction algorithms that are executed on the respective device with presentation-synchronized sequences of target notes in a current key or scale. In addition to performance-synchronized melody targets, score-coded harmony note sequences (or sets) pitch shift algorithms with additional targets (which are typically coded as offsets to a lead melody note track and are typically only provided with a score for selected parts thereof) include a pitch shift to harmony versions of one's own Singing of the user. In some cases, pitch correction settings can be made for a specific artist such as the Artist who performed the vocals associated with the special backing track.

Allgemein können ein Liedtext, eine Melodie und Harmonie-Track-Notensätze und in Beziehung stehende Timing- und Steuerinformationen in einem geeigneten Container oder Objekt (z. B. in einem Musical-Instrument-Digital-Interface- bzw. MIDI- oder Java-Script-Object-Notation- bzw. json-artigen Format) zur gemeinsamen Lieferung mit dem (den) Backing-Track(s) zusammengefasst werden. Unter Verwendung derartiger Informationen können die Vorrichtungen 101A und 101B (sowie assoziierte audiovisuelle Anzeigen und/oder ein Set-Top-Box-Geräte, nicht spezifisch gezeigt) einen Liedtext und sogar visuelle Hinweise bezüglich der Zielnoten, Harmonie und gegenwärtig detektierte Gesangstonhöhe entsprechend einer hörbaren Darbietung des (der) Backing-Tracks anzeigen, um eine karaokeartige Gesangsdarbietung durch einen Benutzer zu ermöglichen. Falls somit ein aufstrebender Sänger „When I Was Your Man“, wie durch Bruno Mars populär gemacht, auswählt, können your_man.json und your_man.m4a vom Inhaltsserver heruntergeladen werden (falls nicht schon verfügbar oder basierend auf einem vorherigen Herunterladen gecacht) und im Gegenzug zum Bereitstellen von Hintergrundmusik, synchronisiertem Liedtext und, in manchen Situationen oder Ausführungsformen, partiturcodierten Noten-Tracks für eine kontinuierliche Echtzeit-Tonhöhenkorrektur verwendet werden, während der Benutzer singt. Zumindest für gewisse Ausführungsformen oder Genres können optional Harmonienoten-Tracks für Harmonieverschiebungen zu aufgenommenem Gesang partiturcodiert werden. Typischerweise wird eine aufgenommene tonhöhenkorrigierte (möglicherweise harmonisierte) Gesangsdarbietung zusammen mit darbietungssynchronisiertem Video lokal auf der Handheld-Vorrichtung oder Set-Top-Box als eine oder mehrere audiovisuelle Dateien gespeichert und wird anschließend zur Kommunikation (z. B. als der Gastmix 106 oder der audiovisuelle Gruppendarbietungsmix 111 oder konstituierende Codierungen davon) zum Inhaltsserver 110 als eine MPEG-4-Containerdatei komprimiert und codiert. MPEG-4 ist ein geeigneter Standard für die codierte Repräsentation und Übertragung von digitalem Multimedia-Inhalt für das Internet, Mobilnetze und fortgeschrittene Aussendungsanwendungen. Andere geeignete Codecs, Komprimierungstechniken, Codierungsformat und/oder Container können, falls gewünscht, eingesetzt werden.Generally, lyrics, melody, and harmony track notations and related timing and control information can be stored in a suitable container or object (e.g., in a musical instrument digital interface, or MIDI or Java script) -Object-Notation- or json-like format) for delivery together with the backing track (s). Using such information, the devices 101A and 101B (as well as associated audiovisual displays and / or a set-top box device, not specifically shown) to display lyrics and even visual cues regarding the target notes, harmony and currently detected vocal pitch according to an audible performance of the backing track (s) to enable karaoke-like vocal performance by a user. Thus, if an aspiring singer chooses "When I Was Your Man" as popularized by Bruno Mars, your_man.json and your_man.m4a can be downloaded from the content server (if not already available or cached based on a previous download) and in return to provide background music, synchronized lyrics, and, in some situations or embodiments, score-encoded note tracks for continuous real-time pitch correction while the user is singing. At least for certain embodiments or genres, optional harmony note tracks for harmony shifts to recorded vocals can be coded. Typically, a recorded pitch-corrected (possibly harmonized) vocal performance along with performance-synchronized video is stored locally on the handheld device or set-top box as one or more audiovisual files and is then used for communication (e.g., as the guest mix 106 or the audiovisual group performance mix 111 or constituent codes thereof) to the content server 110 compressed and encoded as an MPEG-4 container file. MPEG-4 is a suitable standard for the encoded representation and transmission of digital multimedia content for the Internet, mobile networks and advanced broadcasting applications. Other suitable codecs, compression techniques, encoding format and / or containers can be used if desired.

Wie Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, verstehen werden, können Darbietungen mehrerer Sänger (einschließlich darbietungssynchronisiertem Video) angesammelt und kombiniert werden, sodass sie eine duettartige Darbietung, Glee-Club- oder Gesangs-Jam-Session bilden. Bei manchen Ausführungsformen der vorliegenden Erfindung können Sozialnetzwerk-Gebilde zumindest teilweise die GastgeberSteuerung der Paarung von geografisch verteilten Sängern und/oder die Bildung von geografisch verteilten virtuellen Glee-Clubs ersetzen oder melden. Bezüglich 4 können individuelle Sänger zum Beispiel als aktuelle Gastgeber- und Gastbenutzer auf eine Art und Weise darbieten, die (mit Gesangsaudio und darbietungssynchronisiertem Video) aufgenommen und schließlich als ein Livestream 122 zu einer Zuhörerschaft gestreamt wird. Ein derartiger aufgenommener audiovisueller Inhalt kann im Gegenzug zu Sozialmedien-Kontakten des Sängers, Mitgliedern der Zuhörerschaft usw. über einen offenen Anruf verteilt werden, der durch den Inhaltsserver vermittelt wird. Auf diese Weise können die Sänger selbst, Mitglieder der Zuhörerschaft (und/oder Inhaltsserver oder die Dienstplattform in ihrem Auftrag) andere einladen, bei der koordinierten audiovisuellen Darbietung oder als Mitglieder einer Zuhörerschaft oder Gastwarteschlange teilzunehmen.As those skilled in the art having the benefit of the present disclosure will understand, performances of multiple singers (including performance-synchronized video) can be accumulated and combined to form a duet-style performance, glee club, or vocal jam session. In some embodiments of the present invention, social network entities may at least partially replace or report host control over the pairing of geographically distributed singers and / or the formation of geographically distributed virtual glee clubs. In terms of 4th can, for example, present individual singers as current host and guest users in a way that is recorded (with vocal audio and performance-synchronized video) and ultimately as a livestream 122 is streamed to an audience. Such recorded audiovisual content can be distributed in return for social media contacts of the singer, members of the audience, etc. via an open call which is mediated by the content server. In this way, the singers themselves, members of the audience (and / or content server or the service platform on their behalf) can invite others to participate in the coordinated audiovisual performance or as members of an audience or guest queue.

5 ist ein Flussdiagramm, das Informationstransfers veranschaulicht, die zu einer zusammengesetzten audiovisuellen Darbietung 211 beitragen oder diese beinhalten, die segmentiert ist, um eine musikalische Struktur für eine Videoeffektabbildung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) bereitzustellen. Das Videoeffektschema 210 spezifiziert für jeweilige segmentierte Elemente der musikalischen Struktur spezielle visuelle Layouts und stimmungsbezeichnende visuelle Effekte wie etwa partikelbasierte Effekte, Übergänge zwischen Videoquellen, Animationen von Einzelbildbewegung, Vektorgrafiken/Bilder von Mustern/Texturen und/oder Farbe/Sättigung/Kontrast. Allgemein wird die Intensität von angewendeten Videoeffekten basierend auf einem Intensitätsmaß von der aufgenommenen audiovisuellen Darbietung (typischerweise Gesangsintensität) bestimmt, obwohl Energiedichte von einem oder mehreren Audio-Tracks, einschließlich eines Backing-Tracks, in manchen Fällen oder Ausführungsformen eingeschlossen werden kann. 5 Fig. 3 is a flow diagram illustrating information transfers leading to a composite audiovisual performance 211 contribute or include that is segmented to provide a musical structure for video effects imaging according to some embodiments of the present invention (s). The video effects scheme 210 specifies special visual layouts and mood-designing visual effects such as particle-based effects, transitions between video sources, animations of single image movement, vector graphics / images of patterns / textures and / or color / saturation / contrast for the respective segmented elements of the musical structure. Generally, the intensity of applied video effects is determined based on an intensity measure from the recorded audiovisual performance (typically vocal intensity), although energy density may be included from one or more audio tracks, including a backing track, in some cases or embodiments.

Bei der veranschaulichten Konfiguration von Signalverarbeitungspipelines, die an einer Benutzervorrichtung wie etwa dem Handheld 101, 101A oder 101B implementiert werden kann, singt ein Benutzer/Sänger zusammen mit einem Backing-Track karaokeartig. Von einem Mikrofoneingang 201 aufgenommener Gesang wird zum Mix (253) mit dem Backing-Track, der an einem oder mehreren akustischen Wandlern 202 hörbar wiedergegeben wird, kontinuierlich tonhöhenkorrigiert (252) und in Echtzeit harmonisiert (255).In the illustrated configuration of signal processing pipelines operating on a user device such as the handheld 101 , 101A or 101B can be implemented, a user / singer sings karaoke-like together with a backing track. From a microphone input 201 recorded vocals become a mix ( 253 ) with the backing track connected to one or more acoustic transducers 202 is audibly reproduced, continuously corrected for pitch ( 252 ) and harmonized in real time ( 255 ).

Sowohl Tonhöhenkorrektur als auch hinzugefügte Harmonien werden gewählt, sodass sie Tonhöhen-Tracks 207 einer Musikpartitur entsprechen, die in der veranschaulichten Konfiguration drahtlos zu der (den) Vorrichtung(en) (z. B. vom Inhaltsserver 110 zum Handheld 101 oder Set-Top-Box-Gerät, siehe 1), auf der (denen) die Gesangsaufnahme und Tonhöhenkorrektur durchzuführen ist, zusammen mit dem Liedtext 208 und einer Audiocodierung des Backing-Tracks 209 kommuniziert (261) wird.Both pitch correction and added harmonies are chosen so that they track pitches 207 correspond to a musical score, those in the illustrated configuration wireless to the device (s) (e.g. from the content server 110 to the handheld 101 or set-top box device, see 1 ) on which the vocal recording and pitch correction is to be performed, along with the lyrics 208 and audio coding of the backing track 209 communicates ( 261 ) becomes.

In dem Rechenfluss von 5 kann tonhöhenkorrigierter und -verschobener Gesang zum Mix (253) mit einem hörbar wiedergegebenen Backing-Track kombiniert (254) oder aggregiert und/oder zum Inhaltsserver 110 oder einer entfernten Vorrichtung (z. B. Handheld 120 oder 520, Fernseher und/oder Set-Top-Box-Gerät oder ein anderes medienfähiges Rechensystem 511) kommuniziert (262) werden. Bei manchen Ausführungsformen kann die Tonhöhenkorrektur oder -verschiebung von Gesang und/oder die Segmentierung von audiovisuellen Darbietungen am Inhaltsserver 110 durchgeführt werden.In the computing flow of 5 can pitch-corrected and shifted vocals to the mix ( 253 ) combined with an audible backing track ( 254 ) or aggregated and / or to the content server 110 or a remote device (e.g. handheld 120 or 520 , Television and / or set-top box device or another media-compatible computing system 511 ) communicates ( 262 ) will. In some embodiments, the pitch correction or shifting of vocals and / or the segmentation of audiovisual performances on the content server 110 be performed.

Wie zuvor werden Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, erkennen, dass Instanzen der Segmentierung-und-VFX-Engine-Funktionalität, wie etwa zuvor beschrieben (siehe 1, Segmentierung-und-VFX-Engine 112), bei anderen Ausführungsformen an einem Handheld 101, einem audiovisuellen Gerät und/oder Set-Top-Box-Gerät oder einer anderen Benutzervorrichtung eingesetzt werden können. Dementsprechend werden Beschreibungen der Segmentierung-und-VFX-Engine 112 bezüglich der 3A, 3B und 3C so verstanden, dass sie analog Implementierungen einer ähnlichen Funktionalität 112D bezüglich der Signalverarbeitung-Pipelines von 5 beschreiben.As before, those skilled in the art having the benefit of the present disclosure will recognize instances of the segmentation and VFX engine functionality as described previously (see 1 , Segmentation-and-VFX engine 112 ), in other embodiments on a handheld 101 , an audiovisual device and / or set-top box device or another user device can be used. Accordingly, descriptions of the segmentation-and-VFX engine 112 regarding the 3A , 3B and 3C understood to be analog implementations of similar functionality 112D regarding the signal processing pipelines of 5 describe.

6 ist ein Funktionsblockdiagramm von Hardware- und Softwarekomponenten, die an einer illustrativen mobiltelefonartigen tragbaren Rechenvorrichtung ausführbar sind, die die Verarbeitung einer aufgenommenen audiovisuellen Darbietung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) ermöglichen. Bei manchen Ausführungsformen (siehe 1) kann die Aufnahme von Gesangsaudio und darbietungssynchronisiertem Video unter Verwendung von Einrichtungen einer fernseherartigen Anzeige und/oder eine Set-Top-Box-Geräts durchgeführt werden. Bei anderen Ausführungsformen kann die Handheld-Vorrichtung (z. B. die Handheld-Vorrichtung 101) jedoch selbst die Aufnahme von sowohl Gesangsaudio als auch darbietungssynchronisiertem Video unterstützen. 6 FIG. 4 is a functional block diagram of hardware and software components executable on an illustrative cellular phone type portable computing device that enable processing of a recorded audiovisual performance in accordance with some embodiments of the present invention (s). In some embodiments (see 1 ), the recording of vocal audio and performance-synchronized video can be performed using facilities of a television-like display and / or a set-top box device. In other embodiments, the handheld device (e.g., the handheld device 101 ), however, even support the recording of both vocal audio and performance-synchronized video.

Somit veranschaulicht 6 grundlegende Signalverarbeitungsflüsse gemäß gewissen Implementierungen, die sich für die mobiltelefonartige Handheld-Vorrichtung 101 zum Aufnehmen von Gesangsaudio und darbietungssynchronisiertem Video eignen, um tonhöhenkorrigierten und optional harmonisierten Gesang zur hörbaren Wiedergabe (lokal und/oder an einer entfernten Zielvorrichtung) zu erzeugen und mit einem Inhaltsserver oder einer Dienstplattform 110 zu kommunizieren, der bzw. die die Segmentierung-und-Visuelle-Effekte-Engine 112 beinhaltet, wodurch aufgenommene audiovisuelle Darbietungen segmentiert werden, um die musikalische Struktur offenzulegen, und basierend auf der offengelegten musikalischen Struktur spezielle visuelle Effekte von einem Videoeffektschema angewendet werden. Wie zuvor wird die Gesangsintensität gemessen und genutzt (bei manchen Ausführungsformen), um die Intensität von stimmungsbezeichnenden visuellen Effekten zu variieren oder zu modulieren.Thus illustrated 6 basic signal processing flows according to certain implementations that apply to the cellular phone type handheld device 101 Suitable for recording vocal audio and performance-synchronized video, to produce pitch-corrected and optionally harmonized vocal for audible playback (locally and / or on a remote target device) and with a content server or service platform 110 to communicate the the segmentation-and-visual-effects engine 112 includes segmenting recorded audiovisual performances to reveal the musical structure and applying special visual effects from a video effects scheme based on the disclosed musical structure. As before, vocal intensity is measured and used (in some embodiments) to vary or modulate the intensity of mood-designing visual effects.

Beispielhafte visuelle Effekte zur Kohäsion von Bildmaterialien mit mehreren PerformernExemplary visual effects for the cohesion of image material with several performers

7 veranschaulicht Prozessschritte und Ergebnisse der Verarbeitung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en), um Farbkorrektureffekte und stimmungsbezeichnende Videoeffekte (siehe 701B, 702B) an Video für jeweilige Performer (701A und 702A) einer Gruppendarbietung anzuwenden, die separat unter Verwendung von Kameras jeweiliger Aufnahmevorrichtungen aufgenommen wird. Die 8A und 8B veranschaulichen Bildmaterialien für eine Gruppendarbietung mit (802) und ohne (801) Verwendung einer visuellen Unschärfetechnik, die gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) angewendet wird. 7 illustrates process steps and results of processing in accordance with some embodiments of the present invention (s) to add color correction effects and mood-designing video effects (see 701B, 702B) to video for respective performers ( 701A and 702A) to apply a group performance that is recorded separately using cameras of respective recording devices. The 8A and 8B Figure 13 illustrate group performance images with (802) and without (801) using a visual blurring technique used in accordance with some embodiments of the present invention (s).

Eine beispielhafte Mobilvorrichtung und ein beispielhaftes NetzwerkAn exemplary mobile device and network

9 veranschaulicht Merkmale einer Mobilvorrichtung, die als eine Plattform zur Ausführung von Softwareimplementierungen, einschließlich audiovisueller Aufnahme, gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) dienen kann. Insbesondere veranschaulicht 9 Merkmale einer Mobilvorrichtung, die als eine Plattform zur Ausführung von Softwareimplementierungen gemäß manchen Ausführungsformen der vorliegenden Erfindung dienen kann. Genauer gesagt ist 9 ein Blockdiagramm einer Mobilvorrichtung 900, die allgemein mit kommerziell verfügbaren Versionen einer digitalen Vorrichtung eines iPhone™-Mobiltelefons konsistent ist. Obwohl Ausführungsformen der vorliegenden Erfindung mit Sicherheit nicht auf iPhone-Einsätze oder -Anwendungen (oder selbst auf iPhone-artige Vorrichtungen) beschränkt ist, stellt die iPhone-Vorrichtungsplattform zusammen mit ihrem reichen Zubehör an Sensoren, Multimedia-Einrichtungen, Anwendungsprogrammiererschnittstellen und Drahtlosanwendungsliefermodell eine äußerst fähige Plattform, auf der gewisse Implementierungen einzusetzen sind. Basierend auf der Beschreibung hierin werden Durchschnittsfachleute einen breiten Bereich von zusätzlichen Mobilvorrichtungsplattformen erkennen, der sich (jetzt oder in der Zukunft) für eine gegebene Implementierung oder einen gegebenen Einsatz der hierin beschriebenen erfindungsmäßigen Techniken eignen können. 9 illustrates features of a mobile device that can serve as a platform for performing software implementations, including audio-visual recording, in accordance with some embodiments of the present invention (s). Illustrated in particular 9 Features of a mobile device that can serve as a platform for executing software implementations in accordance with some embodiments of the present invention. More specifically is 9 a block diagram of a mobile device 900 that is generally consistent with commercially available versions of a digital device of an iPhone ™ mobile phone. Although embodiments of the present invention are certainly not limited to iPhone uses or applications (or even iPhone-like devices), the iPhone device platform, along with its rich accessories of sensors, multimedia devices, application programmer interfaces, and wireless application delivery model, provides an extremely capable one Platform on which certain implementations are to be used. Based on the description herein, those of ordinary skill in the art will recognize a wide range of additional mobile device platforms that (now or in the future) may be suitable for a given implementation or use of the inventive techniques described herein.

Kurz zusammengefasst beinhaltet die Mobilvorrichtung 900 eine Anzeige 902, die für einen haptischen und/oder taktilen Kontakt mit einem Benutzer empfindlich ist. Die berührungsempfindliche Anzeige 902 kann Mehrfachberührungsmerkmale unterstützen, die mehrere gleichzeitige Berührungspunkte verarbeitet, einschließlich der Verarbeitung von Daten bezüglich des Drucks, des Grads und/oder der Position jedes Berührungspunktes. Eine derartige Verarbeitung ermöglicht Gesten und Interaktionen mit mehreren Fingern und andere Interaktionen. Natürlich können andere berührungsempfindliche Anzeigetechnologien auch verwendet werden, z. B. eine Anzeige, bei der ein Kontakt unter Verwendung eines Stylus oder einer anderen Zeigevorrichtung vorgenommen wird.In brief, the mobile device includes 900 an ad 902 that is sensitive to haptic and / or tactile contact with a user. The touch-sensitive display 902 can support multi-touch features that process multiple simultaneous touch points, including processing data regarding the pressure, degree, and / or position of each touch point. Such processing enables multi-finger gestures and interactions and other interactions. Of course, other touch-sensitive display technologies can also be used, e.g. B. A display where contact is made using a stylus or other pointing device.

Typischerweise präsentiert die Mobilvorrichtung 900 eine grafische Benutzeroberfläche auf der berührungsempfindlichen Anzeige 902, wodurch dem Benutzer Zugang zu verschiedenen Systemobjekten und zur Übermittlung von Informationen bereitgestellt werden. Bei manchen Implementierungen kann die grafische Benutzeroberfläche ein oder mehrere Anzeigeobjekte 904, 906 beinhalten. In dem gezeigten Beispiel sind die Anzeigeobjekte 904, 906 grafische Repräsentationen von Systemobjekten. Beispiele für Systemobjekte beinhalten Vorrichtungsfunktionen, Anwendungen, Fenster, Dateien, Warnungen, Ereignisse oder andere identifizierbare Systemobjekte. Bei manchen Ausführungsformen der vorliegenden Erfindung liefern Anwendungen bei ihrer Ausführung zumindest manche der hierin beschriebenen digitalen akustischen Funktionalität.Typically, the mobile device presents 900 a graphical user interface on the touch-sensitive display 902 , which provides the user with access to various system objects and for the transmission of information. In some implementations, the graphical user interface can have one or more display objects 904 , 906 include. In the example shown, the display objects are 904 , 906 graphic representations of system objects. Examples of system objects include device functions, applications, windows, files, warnings, events, or other identifiable system objects. In some embodiments of the present invention, applications when executed provide at least some of the digital acoustic functionality described herein.

Typischerweise unterstützt die Mobilvorrichtung 900 Netzwerkkonnektivität einschließlich zum Beispiel sowohl Mobilfunk- als auch Drahtlos-Internetworking-Funktionalität, um dem Benutzer zu ermöglichen, mit der Mobilvorrichtung 900 und ihren assoziierten netzwerkgestützten Funktionen zu reisen. In manchen Fällen kann die Mobilvorrichtung 900 mit anderen Vorrichtungen in der Nähe (z. B. über WiFi, Bluetooth usw.) interagieren. Die Mobilvorrichtung 900 kann zum Beispiel dazu ausgelegt sein, mit Peers oder einer Basisstation für eine oder mehrere Vorrichtungen zu interagieren. Somit kann die Mobilvorrichtung 900 einen Netzwerkzugang für andere Drahtlosvorrichtungen gewähren oder verweigern.Typically, the mobile device supports 900 Network connectivity including, for example, both cellular and wireless internetworking functionality to enable the user with the mobile device 900 and their associated network-based functions. In some cases, the mobile device 900 interact with other nearby devices (e.g. via WiFi, Bluetooth, etc.). The mobile device 900 For example, may be configured to interact with peers or a base station for one or more devices. Thus, the mobile device 900 Allow or deny network access for other wireless devices.

Die Mobilvorrichtung 900 beinhaltet eine Vielfalt von Eingabe/Ausgabe(E/A)-Vorrichtungen, Sensoren und Wandler. Ein Lautsprecher 960 und ein Mikrofon 962 sind zum Beispiel typischerweise enthalten, um Audio, wie etwa die Aufnahme von Gesangsdarbietungen und die hörbare Wiedergabe von Backing-Tracks und gemischter tonhöhenkorrigierter Gesangsdarbietungen, wie hierin anderweitig beschrieben, zu ermöglichen. Bei manchen Ausführungsformen der vorliegenden Erfindung können der Lautsprecher 960 und das Mikrofon 962 geeignete Wandler für hierin beschriebenen Techniken bereitstellen. Ein externer Lautsprecheranschluss 964 kann enthalten sein, um Freisprech-Sprachfunktionalitäten, wie etwa Freisprechvorrichtungsfunktionen, zu ermöglichen. Eine Audiobuchse 966 kann auch zur Verwendung von Kopfhörern und/oder eines Mikrofons enthalten sein. Bei manchen Ausführungsformen kann ein externer Lautsprecher und/oder ein externes Mikrofon als ein Wandler für die hierin beschriebenen Techniken verwendet werden.The mobile device 900 includes a variety of input / output (I / O) devices, sensors, and transducers. A loudspeaker 960 and a microphone 962 For example, are typically included to enable audio such as recording vocal performances and audible playback of backing tracks and mixed pitch corrected vocal performances, as described elsewhere herein. In some embodiments of the present invention, the speaker 960 and the microphone 962 provide suitable transducers for the techniques described herein. An external speaker connector 964 may be included to enable hands-free speech functionalities, such as hands-free device functions. An audio jack 966 may also be included for use with headphones and / or a microphone. In some embodiments, an external speaker and / or an external microphone can be used as a transducer for the techniques described herein.

Andere Sensoren können auch verwendet oder bereitgestellt werden. Ein Näherungssensor 968 kann enthalten sein, um die Detektion der Benutzerpositionierung der Mobilvorrichtung 900 zu ermöglichen. Bei manchen Implementierungen kann ein Umgebungslichtsensor 970 genutzt werden, um die Anpassung der Helligkeit der berührungsempfindlichen Anzeige 902 zu ermöglichen. Ein Beschleunigungsmesser 972 kann genutzt werden, um die Bewegung der Mobilvorrichtung 900 zu detektieren, wie durch den Richtungspfeil 974 angegeben. Dementsprechend können Anzeigeobjekte und/oder Medien gemäß einer detektierten Orientierung, z. B. Hochformat oder Querformat, präsentiert werden. Bei manchen Implementierungen kann die Mobilvorrichtung 900 eine Schaltung und Sensoren zur Unterstützung einer Standortbestimmungseinheit enthalten, wie etwa jene, die durch das globale Positionierungssystem (GPS) oder andere Positionierungssysteme (z. B. Systeme, die WiFi-Zugangspunkte, Fernsehsignale, zellulare Netze, URLs (Uniform Resource Locators) verwenden) bereitgestellt werden, um die hierin beschriebene Geocodierung zu ermöglichen. Die Mobilvorrichtung 900 beinhaltet auch eine Kameralinse und einen Bildgebungssensor 980. Bei manchen Implementierungen befinden sich Instanzen einer Kameralinse und eines Sensors 980 auf Vorder- und Rückflächen der Mobilvorrichtung 900. Die Kameras ermöglichen eine Aufnahme von Standbildern und/oder Video zur Assoziation mit aufgenommenem tonhöhenkorrigiertem Gesang.Other sensors can also be used or provided. A proximity sensor 968 may be included to detect the user positioning of the mobile device 900 to enable. In some implementations, an ambient light sensor can be used 970 be used to adjust the brightness of the touch-sensitive display 902 to enable. An accelerometer 972 can be used to control the movement of the mobile device 900 to detect as indicated by the directional arrow 974 specified. Accordingly, display objects and / or media according to a detected orientation, e.g. B. portrait or landscape. In some implementations, the mobile device can 900 include circuitry and sensors to support a location device, such as those used by the global positioning system (GPS) or other positioning systems (e.g., systems that use WiFi access points, television signals, cellular networks, URLs (Uniform Resource Locators)) may be provided to enable the geocoding described herein. The mobile device 900 also includes a camera lens and an imaging sensor 980 . Some implementations have instances of a camera lens and a sensor 980 on the front and back surfaces of the mobile device 900 . The cameras enable the recording of still images and / or video for association with recorded pitch-corrected vocals.

Die Mobilvorrichtung 900 kann auch ein oder mehrere Drahtloskommunikationsuntersysteme enthalten, wie etwa eine 802.11b/g/n/ac-Kommunikationsvorrichtung und/oder eine Bluetooth™-Kommunikationsvorrichtung 988. Andere Kommunikationsprotokolle können auch unterstützt werden, einschließlich anderer 802.x-Kommunikationsprotokolle (z. B. WiMax, WiFi, 3G), Viertgeneration-Protokolle und -Modulationen (4G-LTE) und darüber hinaus (z. B. 5G), CDMA (Code Division Multiple Access - Codemultiplex-Mehrfachzugriff), GSM (Global System for Mobile Communications - globales System für Mobilkommunikationen), EDGE (Enhanced Data GSM Environment - verbesserte Daten-GSM-Umgebung) usw. Eine Anschlussvorrichtung 990, z. B. ein USB-Anschluss (Universal Serial Bus), oder ein Andockanschluss oder eine andere verdrahtete Anschlussverbindung, kann enthalten sein und zum Erstellen einer verdrahteten Verbindung mit anderen Rechenvorrichtungen, wie etwa anderen Kommunikationsvorrichtungen 900, Netzwerkzugangsvorrichtungen, einem Personal-Computer, einem Drucker oder anderen Verarbeitungsvorrichtungen, die zum Empfangen und/oder Übertragen von Daten fähig sind, verwendet werden. Die Anschlussvorrichtung 990 kann auch der Mobilvorrichtung 900 ermöglichen, mit einer Gastgebervorrichtung unter Verwendung eines oder mehrerer Protokolle, wie etwa zum Beispiel TCP/IP, HTTP, UDP und ein beliebiges anderes bekanntes Protokoll, synchronisiert zu werden.The mobile device 900 may also include one or more wireless communication subsystems, such as an 802.11b / g / n / ac communication device and / or a Bluetooth ™ communication device 988 . Other communication protocols can also be supported, including other 802.x communication protocols (e.g. WiMax, WiFi, 3G), fourth generation protocols and - Modulations (4G-LTE) and beyond (e.g. 5G), CDMA (Code Division Multiple Access - code division multiple access), GSM (Global System for Mobile Communications - global system for mobile communications), EDGE (Enhanced Data GSM Environment - improved data GSM environment) etc. A connection device 990 , e.g. A universal serial bus (USB) port, or a docking port or other wired port connection may be included and for establishing a wired connection with other computing devices, such as other communication devices 900 , Network access devices, a personal computer, a printer or other processing devices that are capable of receiving and / or transmitting data. The connection device 990 can also the mobile device 900 enable synchronization with a host device using one or more protocols such as TCP / IP, HTTP, UDP and any other known protocol.

10 ist ein Netzwerkdiagramm, das eine Zusammenarbeit von beispielhaften Vorrichtungen gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) veranschaulicht. Insbesondere veranschaulicht 10 jeweilige Instanzen von Handheld-Vorrichtungen oder tragbaren Rechenvorrichtungen wie etwa der Mobilvorrichtung 1001, die bei der audiovisuellen Aufnahme eingesetzt wird und mit Gesangsaudio- und Videoaufnahmecode, Benutzeroberflächencode, Tonhöhenkorrekturcode, einer Audiowiedergabepipeline und Playback-Code gemäß den funktionellen Beschreibungen hierin programmiert ist. Eine erste Vorrichtungsinstanz ist zum Beispiel derart abgebildet, dass sie bei der Aufnahme von Gesangsaudio und darbietungssynchronisiertem Video eingesetzt wird, während die Vorrichtungsinstanz 1020A in einem Präsentations- oder Playback-Modus für eine gemischte audiovisuelle Darbietung mit dynamischer visueller Prominenz für darbietungssynchronisiertes Video arbeitet. Eine zusätzliche Fernseheranzeige und/oder ein Set-Top-Box-Gerät 1020B ist gleichermaßen so abgebildet, dass sie/es in einem Präsentations- oder Playback-Modus arbeitet, obwohl, wie hierin anderweitig beschrieben, ein derartiges Gerät auch als Teil einer Aufnahmeeinrichtung für Gesangsaudio und darbietungssynchronisiertes Video arbeiten kann. Jede der vorgenannten Vorrichtungen kommuniziert über drahtlosen Datentransport und/oder ein zwischenliegendes Netzwerk 1004 mit einem Server 1012 oder einer Dienstplattform, die die Speicherung und/oder hierin erläuterte Funktionalität bezüglich des Inhaltsservers 110 (siehe 1, 4, 5 und 6) hostet. Aufgenommene tonhöhenkorrigierte Gesangsdarbietungen mit gemischtem darbietungssynchronisiertem Video, die gemischt sind, um eine gemischte AV-Darbietungswiedergabe mit angewendeten visuellen Effekten zu präsentieren, wie hierin beschrieben, können (optional) am Laptop-Computer 1011 gestreamt und audiovisuell wiedergegeben werden. 10th FIG. 10 is a network diagram illustrating collaboration of exemplary devices according to some embodiments of the present invention (s). Illustrated in particular 10th respective instances of handheld devices or portable computing devices such as the mobile device 1001 used in audiovisual recording and programmed with vocal audio and video recording code, user interface code, pitch correction code, an audio playback pipeline and playback code according to the functional descriptions herein. For example, a first device instance is mapped such that it is used when recording vocal audio and performance-synchronized video while the device instance 1020A works in a presentation or playback mode for mixed audiovisual performance with dynamic visual prominence for performance-synchronized video. An additional television display and / or a set-top box device 1020B is likewise depicted to operate in a presentation or playback mode, although, as described elsewhere herein, such a device may also operate as part of a vocal audio and performance sync video recorder. Each of the aforementioned devices communicates via wireless data transport and / or an intermediate network 1004 with a server 1012 or a service platform that provides storage and / or functionality described herein regarding the content server 110 (please refer 1 , 4th , 5 and 6 ) hosts. Recorded pitch-corrected vocal performances with mixed presentation-synchronized video, which are mixed to present a mixed AV presentation reproduction with applied visual effects, as described herein, can (optionally) on the laptop computer 1011 streamed and audiovisually played.

ANDERE AUSFÜHRUNGSFORMENOTHER EMBODIMENTS

Obwohl die Erfindung(en) unter Bezugnahme auf verschiedene Ausführungsformen beschrieben ist (sind), versteht sich, dass diese Ausführungsformen veranschaulichend sind und dass der Schutzumfang der Erfindung(en) nicht darauf beschränkt ist. Viele Variationen, Modifikationen, Zusätze und Verbesserungen sind möglich. Obwohl beispielsweise spezielle Videoeffekte, Übergänge und audiovisuelle Mischtechniken veranschaulicht und beschrieben sind, werden Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, eine Anzahl von Variationen und Anpassungen erkennen, die sich für eine gegebene Entwicklung, Implementierung, ein gegebenes Musikgenre oder eine Benutzerdemographie eignen. Gleichermaßen, obwohl tonhöhenkorrigierte Gesangsdarbietungen beschrieben wurden, die gemäß einer karaokeartigen Oberfläche aufgenommen werden, sind andere Variationen und Anpassungen ersichtlich. Ferner, obwohl gewisse veranschaulichende Signalverarbeitungstechniken im Zusammenhang gewisser veranschaulichender Anwendungen und Vorrichtungs-/Systemkonfigurationen beschrieben wurden, werden Durchschnittsfachleute erkennen, dass es einfach ist, die beschriebenen Techniken zu modifizieren, um anderen geeigneten Signalverarbeitungstechniken und Effekte entgegenzukommen.Although the invention (s) have been described with reference to various embodiments, it should be understood that these embodiments are illustrative and that the scope of the invention (s) is not limited thereto. Many variations, modifications, additions and improvements are possible. For example, although specific video effects, transitions, and audio-visual mixing techniques are illustrated and described, those skilled in the art having the benefit of the present disclosure will recognize a number of variations and adaptations suitable for a given development, implementation, music genre, or user demography. Similarly, although pitch corrected vocal performances have been described that are recorded on a karaoke-like surface, other variations and adaptations are apparent. Furthermore, although certain illustrative signal processing techniques have been described in the context of certain illustrative applications and device / system configurations, those of ordinary skill in the art will recognize that it is easy to modify the described techniques to accommodate other suitable signal processing techniques and effects.

Ausführungsformen gemäß der vorliegenden Erfindung können die Form eines Computerprogrammprodukts annehmen und/oder als dieses bereitgestellt werden, das in einem maschinenlesbaren Medium als Anweisungsfolgen und andere Funktionssoftwaregebilde codiert sind, die im Gegenzug in einem Rechensystem, wie etwa einem iPhone-Handheld, einer mobilen oder tragbaren Rechenvorrichtung oder einer Inhaltsserverplattform ausgeführt werden können, um hierin beschriebene Verfahren durchzuführen. Allgemein kann ein maschinenlesbares Medium greifbare Artikel, die Informationen in einer durch eine Maschine (z. B. einen Computer, Recheneinrichtungen einer Mobilvorrichtung oder tragbaren Rechenvorrichtung usw.) lesbaren Form (z. B. als Anwendungen, Quell- oder Objektcode, funktionell deskriptive Informationen usw.) sowie greifbaren Speicher, der für die Übertragung der Informationen geeignet ist, beinhalten. Ein maschinenlesbares Medium kann unter anderem ein magnetisches Speichermedium (z. B. Platten und/oder Bandspeicher); ein optisches Speichermedium (z. B. CD-ROM, DVD usw.); ein magnetooptisches Speichermedium; Nurlesespeicher (ROM); Direktzugriffsspeicher (RAM); löschbaren programmierbaren Speicher (z. B. EPROM und EEPROM); Flash-Speicher; oder andere Arten von Medien, die sich zur Speicherung von elektronischen Anweisungen, Operationsfolgen, funktionellen deskriptiven Informationscodierungen usw. eignen, beinhalten.Embodiments in accordance with the present invention may take the form of and / or be provided as a computer program product encoded in a machine-readable medium as instruction strings and other functional software images that are in return in a computing system such as an iPhone handheld, mobile, or portable Computing device or a content server platform can be executed to perform methods described herein. In general, a machine-readable medium may include tangible articles that provide information in a form that is readable by a machine (e.g., a computer, computing devices of a mobile device or portable computing device, etc.) (e.g., as applications, source or object code, functionally descriptive information etc.) as well as tangible memory that is suitable for the transmission of the information. A machine-readable medium can include a magnetic storage medium (e.g. disks and / or tape storage); an optical storage medium (e.g. CD-ROM, DVD, etc.); a magneto-optical storage medium; Read only memory (ROM); Random access memory (RAM); erasable programmable memory (e.g. EPROM and EEPROM); Flash memory; or other types of media suitable for storing electronic instructions, sequences of operations, functional descriptive information encodings, etc.

Allgemein kann eine Vielzahl von Instanzen für Komponenten, Operationen oder Strukturen bereitgestellt sein, die hierin als eine einzelne Instanz beschrieben sind. Grenzen zwischen verschiedenen Komponenten, Operationen und Datenspeichern sind willkürlich und spezielle Operationen sind im Zusammenhang von spezifischen veranschaulichenden Konfigurationen veranschaulicht. Andere Zuweisungen von Funktionalität werden in Betracht gezogen und können innerhalb des Schutzumfangs der Erfindung(en) fallen. Allgemein können Strukturen und Funktionalität, die als separate Komponenten in den beispielhaften Konfigurationen dargestellt sind, als eine kombinierte Struktur oder Komponente implementiert werden. Gleichermaßen können Strukturen und Funktionalität, die als eine einzelne Komponente dargestellt sind, als separate Komponenten implementiert werden. Diese und andere Variationen, Modifikationen, Zusätze und Verbesserungen können innerhalb des Schutzumfangs der Erfindung(en) fallen.Generally, a variety of instances for components, operations, or structures may be provided, which are described herein as a single instance. Limits between various components, operations, and data stores are arbitrary, and specific operations are illustrated in the context of specific illustrative configurations. Other assignments of functionality are contemplated and may fall within the scope of the invention (s). In general, structures and functionality that are represented as separate components in the exemplary configurations can be implemented as a combined structure or component. Similarly, structures and functionality depicted as a single component can be implemented as separate components. These and other variations, modifications, additions and improvements may fall within the scope of the invention (s).

Claims

A method comprising: Accessing a machine-readable coding of a first audiovisual performance that is recorded as vocal audio with performance-synchronized video and has an associated musical structure coding that includes at least music segment boundaries that are coded for a time comparison with the first audiovisual performance coding; Applying a first visual effects scheme to at least a portion of the first audiovisual performance encoding, the applied visual effects scheme encoding different visual effects for different musical structural elements of the first audiovisual performance encoding and providing transitions for visual effects in time alignment with at least some of the encoded musical section boundaries.

Procedure according to Claim 1 , further comprising: segmenting at least one audio track of the first audiovisual performance encoding to provide the associated musical structure encoding.

Procedure according to Claim 1 , wherein the associated musical structure coding includes group part or section music metadata.

Procedure according to Claim 1 , with the different visual effects differing in either grade or type or both in grade and type.

Procedure according to Claim 1 , further comprising: selecting the first visual effects scheme from a plurality of visual effects schemes.

Procedure according to Claim 5 , whereby the selection is based on a calculated mood for at least the recorded vocal audio.

Procedure according to Claim 5 , wherein the selection is based on a user interface selection by the vocal audio operator before or simultaneously with the recording of the vocal audio.

Procedure according to Claim 5 further comprising: selecting a second visual effect scheme from the plurality of mood-designating visual effect schemes, the second visual effect scheme different from the first visual effect scheme; and applying the second visual effects scheme to at least a portion of the first audiovisual performance encoding.

Procedure according to Claim 5 further comprising: streaming the first audiovisual show to an audience on one or more remote client devices.

Procedure according to Claim 9 , wherein the streamed first audiovisual performance is mixed with a coding of a backing track, in contrast to which the vocal audio was recorded.

Procedure according to Claim 9 , wherein the streamed first audiovisual presentation is streamed with the first visual effects scheme applied.

Procedure according to Claim 8 further comprising: providing an identification of the visual effects scheme applied to video effects rendering on one or more of the remote client devices.

Procedure according to Claim 5 , further comprising: transferring the first audiovisual presentation along with at least one identifier for the one or more visuals applied Effect schemes to, from, or through a content server or service platform.

Procedure according to Claim 5 wherein the selection is based on a user interface selection during or before the audiovisual playback of the first audiovisual performance.

Procedure according to Claim 14 further comprising: after the audiovisual rendering of the first audiovisual performance, selecting a second visual effects scheme from the plurality of mood-designating visual effects schemes, the second visual effects scheme being different from the first visual effects scheme; and applying the second visual effects scheme to at least a portion of the first audiovisual performance encoding.

Procedure according to Claim 5 , wherein mood values are parameterized as a two-dimensional quantity for a special mood-designing visual effect scheme, a first dimension of the mood parameterization encoding an emotion and a second dimension of the mood parameterization encoding intensity.

Procedure according to Claim 16 , further comprising: determining an intensity dimension of mood parameterization based on one or more of the following: (i) a time-varying audio signal strength or a measure of the vocal energy density that is computed from the vocal audio, and (ii) beats, tempo , Signal strength or energy density of a backing audio track.

Procedure according to Claim 1 , further comprising: segmenting the first audiovisual performance encoding to identify the different musical structural elements.

Procedure according to Claim 18 , wherein the segmentation is based at least in part on a mathematical determination of vocal intensity with at least some segmentation limits, which are limited in order to be temporally compared with beats or tempo, which are mathematically extracted from a corresponding audio backing track.

Procedure according to Claim 18 , wherein the segmentation is based at least in part on a similarity analysis, which is carried out arithmetically on a chronologically synchronized song text track in order to classify specific parts of the first audiovisual presentation coding as a verse or refrain.

Procedure according to Claim 1 , further comprising: segmenting an audio backing track associated with the first audiovisual performance encoding to identify the different musical structural elements.

Procedure according to Claim 1 wherein the different visual effects encoded by the applied visual effects scheme includes, for a given element thereof, one or more of the following: a particle-based effect or a lens reflection; Transitions between or layouts of different source videos; Animations or movement of a frame within a source video; Vector graphics or images of patterns or textures; and color, saturation or contrast.

Procedure according to Claim 1 wherein the different visual effects encoded by the applied visual effects scheme include, for a given element thereof, one or more of the following: visually expanding or embellishing a video image of a face, head, or body of a vocal performer; and background subtraction.

Procedure according to Claim 1 , the associated musical structure encoding musical sections of different types; and wherein the applied visual effects scheme defines different visual effects for different of the encoded music sections.

Procedure according to Claim 1 , the associated musical structure encoding events or transitions; and wherein the applied visual effects scheme defines different visual effects for different ones of the encoded events or transitions.

Procedure according to Claim 1 , wherein the machine-readable encoding further encodes at least a portion of a second audiovisual performance that is recorded as second vocal audio with performance-synchronized video, the first and second audiovisual performance forming a group performance.

Procedure according to Claim 26 , with the associated musical structure encoding group parts, and with the visual effects scheme applied for a special presentation-synchronized video can be selected according to the coded musical structure.

Procedure according to Claim 26 , with the first and second audiovisual performances presented as a duet.

Procedure according to Claim 26 , wherein the applied visual effect scheme encodes a color matching of performance-synchronized video for respective performers in the group performance for at least some musical structural elements.

Procedure according to Claim 26 , wherein the applied visual effects scheme encodes for at least some musical structural elements visual blurring or mixing at an interface between performance-synchronized video for respective performers in the group performance.

Procedure according to Claim 26 , with the first and second audiovisual performances recorded against a common backing track.

Procedure according to one of the Claims 1 - 27th , further comprising: recording the first audiovisual performance on a network-connected vocal recording device that is communicatively coupled to a content server or service platform from which the musical structure coding is provided.

Procedure according to Claim 32 wherein the recording of the audiovisual performance on the network-connected vocal recording device is carried out according to a karaoke-like operative mechanism in which a song text is visually presented in accordance with the audible reproduction of a backing track.

Procedure according to one of the Claims 1 - 27th , which is carried out at least partially on a content server or a service platform with which geographically distributed, network-connected vocal recording devices are communicatively coupled.

Procedure according to one of the Claims 1 - 27th , which is performed at least partially on a network-connected vocal recording device that is communicatively coupled to a content server or a service platform.

Procedure according to one of the Claims 1 - 27th , which is implemented at least in part as a computer program product coding of instructions that can be executed on a content server or a service platform to which a plurality of geographically distributed, network-connected vocal recording devices are communicatively coupled.

System that includes: a geographically distributed set of networked devices designed to record audiovisual performances, including vocal audio, with performance synchronized video; and a service platform that is designed to (i) receive encodings of the recorded audiovisual performances and, according to associated musical structural encodings, which at least include musical segment boundaries which are encoded for a time comparison with the audiovisual performance encodings, (ii) special visual effect schemes on at least apply some of the audiovisual performance encoding, wherein the visual effect schemes applied encode different visual effects for different musical structural elements of the audiovisual performance encoding and provide transitions for visual effects in time alignment with at least some of the encoded musical section boundaries.

System according to Claim 37 wherein the service platform is configured in response to user or performer selections to change the visual effects schemes applied and deliver resulting recorded audiovisual performances to respective ones of the geographically distributed, network-connected audiovisual playback devices thereon.

System according to Claim 38 , where the applied visual effect schemes are selected from several visual effect schemes.

A system comprising: at least one guest-and-host pairing of networked devices configured to record at least vocal audio; and wherein the host device is configured to (i) receive a coding of a respective coding of at least vocal audio from the guest device and, correspondingly with an associated musical structure coding, which includes at least music segment boundaries which are coded for a time comparison with an audiovisual performance coding, (ii) Apply selected visual effects schemes to the audiovisual performance encoding, the applied visual effects schemes using different visual effects for different musical structural elements of the encode audiovisual performance encoding and provide transitions for visual effects in time alignment with at least some of the encoded musical section boundaries.

System according to Claim 40 wherein the host and guest devices are coupled as local and remote peers over a communication network with non-negligible peer-to-peer latency for broadcasts of audiovisual content, the host device is communicatively coupled as the local peer for media encoding of a mixed audio presentation that forms vocal audio recorded on the guest device, and the guest device is communicatively coupled as the remote peer to provide the media encoding recorded by a first one of the performers and mixed with a backing audio track.

System according to Claim 40 , wherein the associated musical structure coding is computationally determined on the host device based on a segmentation of at least one audio track received by the guest device.

System according to Claim 40 , wherein the host device is configured to reproduce the audiovisual performance encoding as a mixed audiovisual performance including vocal audio and performance-synchronized video from the first and second of the performers, and to transmit the audiovisual performance encoding as an apparent live broadcast with the selected visual effects scheme applied.