DE112018004717T5 - Audiovisual effects system for expanding a recorded performance based on its content - Google Patents
Audiovisual effects system for expanding a recorded performance based on its content Download PDFInfo
- Publication number
- DE112018004717T5 DE112018004717T5 DE112018004717.2T DE112018004717T DE112018004717T5 DE 112018004717 T5 DE112018004717 T5 DE 112018004717T5 DE 112018004717 T DE112018004717 T DE 112018004717T DE 112018004717 T5 DE112018004717 T5 DE 112018004717T5
- Authority
- DE
- Germany
- Prior art keywords
- audiovisual
- performance
- visual effects
- procedure according
- vocal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
- H04N2007/145—Handheld terminals
Abstract
Visuelle Effektschemas werden an audiovisuellen Darbietungen angewendet, wobei unterschiedliche visuelle Effekte entsprechend unterschiedlichen Elementen einer musikalischen Struktur angewendet werden. Segmentierungstechniken, die an einem oder mehreren Audio-Tracks (z. B. Gesangs- oder Backing-Tracks) angewendet werden, werden zum Berechnen von manchen der Komponenten der musikalischen Struktur verwendet. In manchen Fällen sind angewendete visuelle Effektschemas stimmungsbezeichnend und können durch einen Performer als eine Komponente seines visuellen Ausdrucks ausgewählt oder aus einer audiovisuellen Darbietung unter Verwendung von Maschinenlerntechniken bestimmt werden.Visual effect schemes are applied to audiovisual performances, with different visual effects applied according to different elements of a musical structure. Segmentation techniques applied to one or more audio tracks (e.g., vocal or backing tracks) are used to compute some of the components of the musical structure. In some cases, visual effects schemes applied are mood-indicative and can be selected by a performer as a component of his visual expression or determined from an audiovisual performance using machine learning techniques.
Description
TECHNISCHES GEBIETTECHNICAL AREA
Die Erfindung betrifft allgemein das Aufnehmen und/oder Bearbeiten von Gesangsaudiodarbietungen und insbesondere Techniken, die sich zur Verwendung beim Anwenden ausgewählter visueller Effekte an darbietungssynchronisiertem Video eignen, auf eine Art und Weise, die mit der musikalischen Struktur der Darbietung konsistent ist oder dieser zugrunde liegt.The invention relates generally to the recording and / or editing of vocal audio performances and, more particularly, to techniques suitable for use in applying selected visual effects to performance-synchronized video in a manner consistent with or underlying the musical structure of the performance.
STAND DER TECHNIKSTATE OF THE ART
Der installierte Bestand von Mobiltelefonen und anderen tragbaren Rechenvorrichtungen wächst jeden Tag in der Anzahl und der Rechenleistung erheblich an. Allgegenwärtig und tief verwurzelt in den Lebensstilen von Menschen auf der ganzen Welt, überwinden sie fast jede kulturelle und ökonomische Barriere. Rechnerisch bieten die heutigen Mobiltelefone Geschwindigkeits- und Speicherfähigkeiten, die mit Desktop-Computern von vor weniger als zehn Jahren vergleichbar sind, was sie überraschenderweise für Echtzeit-Klangsynthese und andere musikalische Anwendungen geeignet macht. Teilweise unterstützen moderne Mobiltelefone, wie etwa iPhone®-Handheld digitale Vorrichtungen, verfügbar von Apple Inc., aus diesem Grund Audio- und Video-Playback recht gut.The installed inventory of mobile phones and other portable computing devices increases significantly in number and computing power every day. Omnipresent and deeply rooted in the lifestyles of people all over the world, they overcome almost every cultural and economic barrier. Mathematically, today's mobile phones offer speed and storage capabilities comparable to desktop computers less than ten years ago, which surprisingly makes them suitable for real-time sound synthesis and other musical applications. In part, modern cell phones, such as iPhone® handheld digital devices available from Apple Inc., therefore support audio and video playback quite well.
Wie traditionelle akustische Instrumente können Mobiltelefone persönliche Klangerzeugungs- und -aufnahmevorrichtungen sein. Im Vergleich zu den meisten traditionellen Instrumenten sind sie jedoch etwas in der akustischen Bandbreite und Leistung beschränkt. Nichtsdestotrotz besitzen Mobiltelefone trotz dieser Nachteile die Vorteile von Allgegenwärtigkeit, ihrer großen Anzahl und Ultramobilität, was es (zumindest in der Theorie) ermöglicht, Künstler für eine Darbietung fast überall und jederzeit zusammenzubringen. Das Gebiet der Mobilmusik wurde in mehreren Entwicklungsforschungsarbeiten erforscht. In der Tat hat die jüngste Erfahrung mit Anwendungen wie etwa Smule Ocarina™, Smule Magic Piano und Smule Sing! Karaoke™ (alle verfügbar von Smule, Inc.) gezeigt, dass fortgeschrittene digitale akustische Techniken auf Weisen geliefert werden können, die eine fesselnde Benutzererfahrung liefern.Like traditional acoustic instruments, cell phones can be personal sound generating and recording devices. Compared to most traditional instruments, however, they are somewhat limited in acoustic bandwidth and performance. Nevertheless, despite these disadvantages, mobile phones have the advantages of omnipresence, their large number and ultra-mobility, which (at least in theory) makes it possible to bring artists together for a performance almost anywhere and at any time. The field of mobile music has been researched in several development research projects. Indeed, recent experience has included applications such as Smule Ocarina ™, Smule Magic Piano and Smule Sing! Karaoke ™ (all available from Smule, Inc.) demonstrated that advanced digital acoustic techniques can be delivered in ways that provide an engaging user experience.
Während Forscher der digitalen Akustik versuchen, ihre Neuerungen in kommerzielle Anwendungen umzuwandeln, die bei den modernen handgehaltenen Vorrichtungen wie etwa dem iPhone®-Handheld und anderen Plattformen einsetzbar sind, die innerhalb der Beschränkungen in der realen Welt, die durch den Prozessor, den Speicher und andere beschränkende Rechenressourcen davon auferlegt werden, und/oder innerhalb für Drahtlosnetze typischer Kommunikationsbandbreiten- und Übertragungslatenzbeschränkungen arbeiten, liegen erhebliche praktische Herausforderungen vor. Verbesserte Techniken und Funktionsfähigkeiten sind gewünscht, insbesondere bezüglich Video.While researchers in digital acoustics are trying to transform their innovations into commercial applications that can be used with modern handheld devices such as the iPhone® handheld and other platforms that are within the real world constraints imposed by the processor, memory, and other restrictive computational resources are imposed, and / or operate within wireless bandwidth and transmission latency limitations typical of wireless networks, pose significant practical challenges. Improved techniques and capabilities are desired, especially with regard to video.
OFFENBARUNG DER ERFINDUNG(EN)DISCLOSURE OF THE INVENTION (DE)
Es wurde entdeckt, dass trotz vieler praktischer Beschränkungen, die durch Mobilvorrichtungsplattformen und Anwendungsausführungsumgebungen auferlegt werden, audiovisuelle Darbietungen, einschließlich Gesangsmusik, aufgenommen oder manipuliert und (in manchen Fällen) mit denen anderer Benutzer koordiniert werden können, auf Weisen, die fesselnde Benutzererfahrungen erzeugen. In manchen Fällen werden die Gesangsdarbietungen individueller Benutzer (zusammen mit darbietungssynchronisiertem Video) auf Mobilvorrichtungen oder unter Verwendung eines Set-Top-Box-artigen Geräts im Zusammenhang mit einer karaokeartigen Präsentation eines Liedtexts entsprechend hörbaren Wiedergaben eines Backing-Tracks aufgenommen. In manchen Fällen können Sängern Tonhöhenhinweise in Verbindung mit der karaokeartigen Präsentation eines Liedtexts präsentiert werden und optional kann eine kontinuierliche automatische Tonhöhenkorrektur (oder Tonhöhenverschiebung zu Harmonie) bereitgestellt werden.It has been discovered that, despite many practical restrictions imposed by mobile device platforms and application execution environments, audiovisual performances, including vocal music, are recorded or manipulated and (in some cases) can be coordinated with other users in ways that create engaging user experiences. In some cases, singing performances by individual users (along with performance-synchronized video) are recorded on mobile devices or using a set-top box-like device in connection with a karaoke-like presentation of lyrics to audible renditions of a backing track. In some cases, pitch notes can be presented to singers in connection with the karaoke-like presentation of lyrics, and optionally, continuous automatic pitch correction (or pitch shifting to harmony) can be provided.
Gesangsaudio eines Benutzers zusammen mit darbietungssynchronisiertem Video wird in manchen Fällen oder Ausführungsformen mit audiovisuellen Beiträgen anderer Benutzer aufgenommen und koordiniert, um zusammengesetzte duettartige oder Glee-Club-artige oder fensterbasierte musikvideoartige audiovisuelle Darbietungen zu bilden. In manchen Fällen werden die Gesangsdarbietungen individueller Benutzer (zusammen mit darbietungssynchronisiertem Video) auf Mobilvorrichtungen, einer fernseherartigen Anzeige und/oder einem Set-Top-Box-Gerät im Zusammenhang von karaokeartigen Präsentationen eines Liedtexts entsprechend hörbaren Wiedergaben eines Backing-Tracks aufgenommen. Beiträge mehrerer Sänger können auf eine Art und Weise koordiniert und gemischt werden, die zu einer beliebigen gegebenen Zeit entlang einer gegebenen Darbietungszeitleiste ein darbietungssynchronisiertes Video eines oder mehrerer der Mitwirkenden zur Präsentation auswählt. Auswahlen liefern eine Folge von visuellen Layouts entsprechend anderer codierter Aspekte einer Darbietungspartitur wie etwa Tonhöhenspuren, Backing-Audio, Liedtext, Abschnitte und/oder Gesangsparts.A user's vocal audio along with performance-synchronized video is in some cases or embodiments recorded and coordinated with other users' audiovisual contributions to form composite duet-like or glee-club-like or window-based music video-like audiovisual performances. In some cases, the singing performances of individual users (along with performance-synchronized video) are recorded on mobile devices, a television-like display and / or a set-top box device in the context of karaoke-like presentations of a song text corresponding to audible reproductions of a backing track. Multiple singer contributions can be coordinated and mixed in a manner that, at any given time along a given performance timeline, selects a performance-synchronized video of one or more of the contributors for presentation. Selections provide a sequence of visual layouts corresponding to other encoded aspects of a performance score, such as pitch tracks, backing audio, lyrics, sections, and / or vocal parts.
Visuelle Effektschemas werden an audiovisuellen Darbietungen angewendet, wobei unterschiedliche visuelle Effekte entsprechend unterschiedlichen Elementen der musikalischen Struktur angewendet werden. In manchen Fällen werden Segmentierungstechniken, die an einem oder mehreren Audio-Tracks (z. B. Gesangs-Tracks oder Backing-Tracks) angewendet werden, zum Bestimmen von Elementen der musikalischen Struktur verwendet. In manchen Fällen sind angewendete visuelle Effektschemas stimmungsbezeichnend und können durch einen Performer als eine Komponente seines visuellen Ausdrucks ausgewählt werden oder können aus einer audiovisuellen Darbietung unter Verwendung von Maschinenlerntechniken bestimmt werden.Visual effect schemes are applied to audiovisual performances, with different visual effects applied according to different elements of the musical structure will. In some cases, segmentation techniques applied to one or more audio tracks (e.g. vocal tracks or backing tracks) are used to determine elements of the musical structure. In some cases, visual effects schemes applied are mood-indicative and can be selected by a performer as a component of their visual expression or can be determined from an audiovisual presentation using machine learning techniques.
Bei manchen Ausführungsformen der vorliegenden Erfindung beinhaltet ein Verfahren Zugreifen auf eine maschinenlesbare Codierung einer ersten audiovisuellen Darbietung und Anwenden eines ersten visuellen Effektschemas an zumindest einem Teil der ersten audiovisuellen Darbietungscodierung. Die erste audiovisuelle Darbietung wird als Gesangsaudio mit darbietungssynchronisiertem Video aufgenommen und weist eine assoziierte musikalische Strukturcodierung auf, die zumindest Musikabschnittsabgrenzungen beinhaltet, die zum zeitlichen Abgleich mit der ersten audiovisuellen Darbietungscodierung codiert sind. Das angewendete visuelle Effektschema codiert unterschiedliche visuelle Effekte für unterschiedliche musikalische Strukturelemente der ersten audiovisuellen Darbietungscodierung und liefert Übergänge für visuelle Effekte in zeitlichem Abgleich mit zumindest manchen der codierten Musikabschnittsabgrenzungen.In some embodiments of the present invention, a method includes accessing machine readable encoding of a first audiovisual presentation and applying a first visual effects scheme to at least a portion of the first audiovisual presentation encoding. The first audiovisual performance is recorded as a vocal audio with performance-synchronized video and has an associated musical structure coding, which at least contains music segment delimitations that are coded for temporal comparison with the first audiovisual performance coding. The applied visual effects scheme encodes different visual effects for different musical structural elements of the first audiovisual performance coding and provides transitions for visual effects in chronological comparison with at least some of the encoded music section boundaries.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Segmentieren zumindest eines Audio-Tracks der ersten audiovisuellen Darbietungscodierung, um die assoziierte musikalische Strukturcodierung bereitzustellen. In manchen Fällen oder Ausführungsformen beinhaltet die assoziierte musikalische Strukturcodierung Gruppenpart- oder Musikabschnittsmetadaten. In manchen Fällen oder Ausführungsformen unterscheiden sich die unterschiedlichen visuellen Effekte entweder im Grad oder Typ oder sowohl im Grad als auch Typ.In some embodiments, the method further includes segmenting at least one audio track of the first audiovisual performance encoding to provide the associated musical structure encoding. In some cases or embodiments, the associated musical structure encoding includes group part or musical section metadata. In some cases or embodiments, the different visual effects differ either in grade or type, or both in grade and type.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen des ersten visuellen Effektschemas aus mehreren stimmungsbezeichnenden visuellen Effektschemas. In manchen Fällen oder Ausführungsformen basiert das Auswählen auf einer rechnerisch bestimmten Stimmung für zumindest das aufgenommene Gesangsaudio. In manchen Fällen oder Ausführungsformen basiert das Auswählen auf einer Benutzeroberflächenauswahl durch den Performer des Gesangsaudios vor oder gleichzeitig mit der Aufnahme des Gesangsaudios. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner (i) Auswählen (nach der audiovisuellen Wiedergabe der ersten audiovisuellen Darbietung) eines zweiten visuellen Effektschemas aus den mehreren stimmungsbezeichnenden visuellen Effektschemas, wobei sich das zweite visuelle Effektschema von dem ersten visuellen Effektschema unterscheidet, und (ii) Anwenden des zweiten visuellen Effektschemas an zumindest einem Teil der ersten audiovisuellen Darbietungscodierung. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Auswählen eines zweiten visuellen Effektschemas aus den mehreren stimmungsbezeichnenden visuellen Effektschemas, wobei sich das zweite visuelle Effektschema von dem ersten visuelle Effektschema unterscheidet; und Anwenden des zweiten visuellen Effektschemas an zumindest einem Teil der ersten audiovisuellen Darbietungscodierung.In some embodiments, the method further includes selecting the first visual effects scheme from a plurality of mood-designing visual effects schemes. In some cases or embodiments, the selection is based on a computed mood for at least the recorded vocal audio. In some cases or embodiments, the selection is based on user interface selection by the performer of the vocal audio prior to or concurrently with the recording of the vocal audio. In some embodiments, the method further includes (i) selecting (after the audiovisual rendering of the first audiovisual performance) a second visual effects scheme from the plurality of mood-designating visual effects schemes, the second visual effects scheme being different from the first visual effects scheme, and (ii) applying of the second visual effect scheme on at least part of the first audiovisual performance coding. In some embodiments, the method further includes selecting a second visual effects scheme from the plurality of mood-designating visual effects schemes, the second visual effects scheme being different from the first visual effects scheme; and applying the second visual effects scheme to at least a portion of the first audiovisual performance encoding.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Streamen der ersten audiovisuellen Darbietung zu einer Zuhörerschaft an einer oder mehreren entfernten Client-Vorrichtungen. In manchen Fällen oder Ausführungsformen wird die gestreamte erste audiovisuelle Darbietung mit einer Codierung eines Backing-Tracks gemischt, demgegenüber das Gesangsaudio aufgenommen wurde. In manchen Fällen oder Ausführungsformen wird die gestreamte erste audiovisuelle Darbietung mit dem ersten visuellen Effektschema angewendet gestreamt. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Liefern einer Identifikation des angewendeten visuellen Effektschemas zur Videoeffektwiedergabe an einer oder mehreren der entfernten Client-Vorrichtungen.In some embodiments, the method further includes streaming the first audiovisual performance to an audience on one or more remote client devices. In some cases or embodiments, the streamed first audiovisual performance is mixed with encoding of a backing track against which the vocal audio was recorded. In some cases or embodiments, the streamed first audiovisual presentation is streamed with the first visual effects scheme applied. In some embodiments, the method further includes providing identification of the applied visual effects scheme for video effects rendering on one or more of the remote client devices.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Transferieren (zu, von oder über einen Inhaltsserver oder eine Dienstplattform) der ersten audiovisuellen Darbietung zusammen mit zumindest einer Kennung für das eine oder die mehreren angewendeten visuellen Effektschemas. In manchen Fällen oder Ausführungsformen basiert das Auswählen auf einer Benutzeroberflächenauswahl während oder vor der audiovisuellen Wiedergabe der ersten audiovisuellen Darbietung.In some embodiments, the method further includes transferring (to, from or via a content server or service platform) the first audiovisual presentation along with at least one identifier for the one or more visual effects schemes applied. In some cases or embodiments, the selection is based on user interface selection during or before the audiovisual playback of the first audiovisual performance.
In manchen Fällen oder Ausführungsformen werden für ein spezielles stimmungsbezeichnendes visuelles Effektschema Stimmungswerte als eine zweidimensionale Größe parametrisiert, wobei eine erste Dimension der Stimmungsparametrisierung eine Emotion codiert und wobei eine zweite Dimension der Stimmungsparametrisierung eine Intensität codiert. Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Bestimmen einer Intensitätsdimension der Stimmungsparametrisierung basierend auf einem oder mehreren von Folgenden: (i) einer zeitlich variierenden Audiosignalstärke oder einem Maß der Gesangsenergiedichte, die bzw. das rechnerisch aus dem Gesangsaudio bestimmt wird, und (ii) Beats, Tempo, Signalstärke oder Energiedichte eines Backing-Audio-Tracks.In some cases or embodiments, for a particular mood-designing visual effects scheme, mood values are parameterized as a two-dimensional quantity, a first dimension of the mood parameterization encoding an emotion and a second dimension of the mood parameterization encoding an intensity. In some embodiments, the method further includes determining an intensity dimension of mood parameterization based on one or more of the following: (i) a time-varying audio signal strength or a measure of the vocal energy density that is computed from the vocal audio, and (ii) beats, Tempo, signal strength or energy density of a backing audio track.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Segmentieren der ersten audiovisuellen Darbietungscodierung, um die unterschiedlichen musikalischen Strukturelemente zu identifizieren. In manchen Fällen oder Ausführungsformen basiert das Segmentieren zumindest teilweise auf einer rechnerischen Bestimmung einer Gesangsintensität, wobei zumindest manche Segmentierungsgrenzen beschränkt sind, um zeitlich mit Beats oder einem Tempo abgeglichen zu werden, die rechnerisch aus einem entsprechenden Audio-Backing-Track extrahiert werden. In manchen Fällen oder Ausführungsformen basiert das Segmentieren zumindest teilweise auf einer Ähnlichkeitsanalyse, die rechnerisch an einem zeitlich abgeglichenen Liedtext-Track durchgeführt wird, um spezielle Teile der ersten audiovisuellen Darbietungscodierung als Vers oder Refrain zu klassifizieren.In some embodiments, the method further includes segmenting the first audiovisual performance encoding to identify the different musical structural elements. In some cases or embodiments, segmentation is based at least in part on a mathematical determination of a vocal intensity, at least some segmentation limits being limited in order to be compared in time with beats or a tempo that are mathematically extracted from a corresponding audio backing track. In some cases or embodiments, segmentation is based, at least in part, on a similarity analysis that is computationally performed on a timed song text track to classify specific portions of the first audiovisual performance encoding as a verse or refrain.
In manchen Fällen oder Ausführungsformen beinhalten die durch das angewendete visuelle Effektschema codierten unterschiedlichen visuellen Effekte für ein gegebenes Element davon eines oder mehrere von Folgenden: (i) einen partikelbasierten Effekt oder eine Linsenreflexion, (ii) Übergänge zwischen verschiedenen Quellvideos, (iii) Animationen oder Bewegung eines Einzelbildes innerhalb eines Quellvideos, (iv) Vektorgrafiken oder Bilder von Mustern oder Texturen; und (v) Farbe, Sättigung oder Kontrast. In manchen Fällen oder Ausführungsformen codiert die assoziierte musikalische Struktur Musikabschnitte unterschiedlicher Typen und das angewendete visuelle Effektschema definiert unterschiedliche visuelle Effekte für unterschiedliche der codierten Musikabschnitte. In manchen Fällen oder Ausführungsformen codiert die assoziierte musikalische Struktur Ereignisse oder Übergänge und das angewendete visuelle Effektschema definiert unterschiedliche visuelle Effekte für unterschiedliche decodierte Ereignisse oder Übergänge.In some cases or embodiments, the different visual effects encoded by the applied visual effects scheme for a given element thereof include one or more of the following: (i) a particle-based effect or lens reflection, (ii) transitions between different source videos, (iii) animations or Movement of a single image within a source video, (iv) vector graphics or images of patterns or textures; and (v) color, saturation or contrast. In some cases or embodiments, the associated musical structure encodes sections of music of different types and the visual effects scheme applied defines different visual effects for different of the encoded sections of music. In some cases or embodiments, the associated musical structure encodes events or transitions, and the visual effects scheme applied defines different visual effects for different decoded events or transitions.
In manchen Fällen oder Ausführungsformen codiert die maschinenlesbare Codierung ferner zumindest einen Teil einer zweiten audiovisuellen Darbietung, die als ein zweites Gesangsaudio mit darbietungssynchronisiertem Video aufgenommen wird, wobei die erste und zweite audiovisuelle Darbietung eine Gruppendarbietung bilden. In manchen Fällen oder Ausführungsformen codiert die assoziierte musikalische Struktur Gruppenparts und das angewendete visuelle Effektschema ist für ein spezielles darbietungssynchronisiertes Video entsprechend der codierten musikalischen Struktur zeitlich auswählbar.In some cases or embodiments, the machine-readable encoding further encodes at least a portion of a second audiovisual performance that is recorded as a second vocal audio with performance-synchronized video, the first and second audiovisual performance forming a group performance. In some cases or embodiments, the associated musical structure encodes group parts and the visual effects scheme applied is selectable in time for a special performance-synchronized video according to the encoded musical structure.
In manchen Fällen oder Ausführungsformen werden die erste und zweite audiovisuelle Darbietung als ein Duett präsentiert. In manchen Fällen oder Ausführungsformen codiert das angewendete visuelle Effektschema für zumindest manche musikalischen Strukturelemente eine Farbabstimmung des darbietungssynchronisierten Videos für jeweilige Performer in der Gruppendarbietung. In manchen Fällen oder Ausführungsformen codiert das angewendete visuelle Effektschema für zumindest manche musikalischen Strukturelemente eine visuelle Unschärfe oder Vermischung an einer Übergangsstelle zwischen darbietungssynchronisiertem Video für jeweilige Performer in der Gruppendarbietung. In manchen Fällen oder Ausführungsformen werden die erste und zweite audiovisuelle Darbietung gegenüber einem gemeinsamen Backing-Track aufgenommen.In some cases or embodiments, the first and second audiovisual performances are presented as a duet. In some cases or embodiments, the visual effects scheme applied encodes color matching of the performance-synchronized video for respective performers in the group performance for at least some musical structural elements. In some cases or embodiments, the visual effects scheme applied encodes visual blurring or blending at least for some musical structural elements at a transition point between performance-synchronized video for respective performers in the group performance. In some cases or embodiments, the first and second audiovisual performances are recorded against a common backing track.
Bei manchen Ausführungsformen beinhaltet das Verfahren ferner Aufnehmen der ersten audiovisuellen Darbietung bei einer netzwerkverbundenen Gesangsaufnahmevorrichtung, die kommunikativ mit einem Inhaltsserver oder einer Dienstplattform gekoppelt ist, von dem bzw. der die musikalische Strukturcodierung geliefert wird. In manchen Fällen oder Ausführungsformen wird die Aufnahme der visuellen Darbietung bei der netzwerkverbundenen Gesangsaufnahmevorrichtung gemäß einem karaokeartigen operativen Mechanismus durchgeführt, bei dem ein Liedtext entsprechend einer hörbaren Wiedergabe eines Backing-Tracks visuell präsentiert wird.In some embodiments, the method further includes recording the first audiovisual performance on a network-connected vocal recording device that is communicatively coupled to a content server or service platform from which the musical structure coding is provided. In some cases or embodiments, the recording of the visual performance in the network-connected vocal recording device is performed according to a karaoke-like operating mechanism in which a song text is visually presented according to an audible reproduction of a backing track.
Bei manchen Ausführungsformen wird das Verfahren zumindest teilweise auf einem Inhaltsserver oder einer Dienstplattform durchgeführt, mit dem bzw. der geografisch verteilte, netzwerkverbundene Gesangsaufnahmevorrichtungen kommunikativ gekoppelt sind. Bei manchen Ausführungsformen wird das Verfahren zumindest teilweise auf einer netzwerkverbundenen Gesangsaufnahmevorrichtung durchgeführt, die kommunikativ mit einem Inhaltsserver oder einer Dienstplattform gekoppelt ist. Bei manchen Ausführungsformen ist das Verfahren zumindest teilweise als eine Computerprogrammproduktcodierung von Anweisungen umgesetzt, die auf einem Inhaltsserver oder einer Dienstplattform ausführbar sind, mit dem bzw. der mehrere geografisch verteilte, netzwerkverbundene Gesangsaufnahmevorrichtungen kommunikativ gekoppelt sind.In some embodiments, the method is performed at least in part on a content server or a service platform to which geographically distributed, network-connected vocal recording devices are communicatively coupled. In some embodiments, the method is performed, at least in part, on a network-connected vocal recording device that is communicatively coupled to a content server or service platform. In some embodiments, the method is implemented, at least in part, as a computer program product encoding of instructions executable on a content server or service platform to which a plurality of geographically distributed, network-connected vocal recorders are communicatively coupled.
Bei manchen Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) beinhaltet ein System einen geografisch verteilten Satz von netzwerkverbundenen Vorrichtungen, die dazu ausgelegt sind, audiovisuelle Darbietungen einschließlich Gesangsaudio mit darbietungssynchronisiertem Video aufzunehmen, und eine Dienstplattform. Die Dienstplattform ist dazu ausgelegt, (i) Codierungen der aufgenommenen audiovisuellen Darbietungen zu empfangen und, entsprechend assoziierter musikalischer Strukturcodierungen, die zumindest Musikabschnittsabgrenzungen beinhalten, die für einen zeitlichen Abgleich mit den audiovisuellen Darbietungscodierungen codiert sind, (ii) spezielle visuelle Effektschemas an zumindest einem Teil der audiovisuellen Darbietungscodierungen anzuwenden. Die angewendeten visuellen Effektschemas codieren unterschiedliche visuelle Effekte für unterschiedliche musikalische Strukturelemente der audiovisuellen Darbietungscodierungen und liefern Übergänge für visuelle Effekte in zeitlichem Abgleich mit zumindest manchen der codierten Musikabschnittsabgrenzungen.In some embodiments in accordance with the present invention (s), a system includes a geographically distributed set of network-connected devices configured to record audiovisual performances, including vocal audio, with performance synchronized video, and a service platform. The service platform is designed to (i) receive encodings of the recorded audiovisual performances and, in accordance with associated musical structural encodings, which at least include musical segment boundaries which are encoded for a time comparison with the audiovisual presentation encodings, (ii) special visual effect schemes on at least one part the audiovisual Perform encoding. The visual effect schemes used encode different visual effects for different musical structural elements of the audiovisual performance encoding and provide transitions for visual effects in a temporal comparison with at least some of the encoded music section boundaries.
In manchen Fällen oder Ausführungsformen ist die Dienstplattform dazu ausgelegt, (als Reaktion auf Benutzer- oder Performerauswahlen) die angewendeten visuellen Effektschemas zu ändern und resultierende aufgenommene audiovisuelle Darbietungen zu jeweiligen der geografisch verteilten, netzwerkverbundenen Vorrichtungen für eine audiovisuelle Wiedergabe darauf zu liefern. In manchen Fällen oder Ausführungsformen werden die angewendeten visuellen Effektschemas aus mehreren stimmungsbezeichnenden visuellen Effektschemas ausgewählt.In some cases or embodiments, the service platform is designed (in response to user or performer selections) to change the visual effects schemes applied and deliver resulting recorded audiovisual performances to respective ones of the geographically distributed, network-connected devices for audiovisual reproduction thereon. In some cases or embodiments, the visual effect schemes applied are selected from a plurality of mood-designing visual effect schemes.
Bei manchen Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) beinhaltet ein System zumindest eine Gast-und-Gastgeber-Paarung von netzwerkverbundenen Vorrichtungen, die dazu ausgelegt sind, zumindest Gesangsaudio aufzunehmen. Die Gastgebervorrichtung ist dazu ausgelegt, (i) eine Codierung einer jeweiligen Codierung von zumindest Gesangsaudio von der Gastvorrichtung zu empfangen und, entsprechend einer assoziierten musikalischen Strukturcodierung, die zumindest Musikabschnittsabgrenzungen beinhaltet, die für einen zeitlichen Abgleich mit einer audiovisuellen Darbietungscodierung codiert sind, (ii) ausgewählte visuelle Effektschemas an der audiovisuellen Darbietungscodierung anzuwenden. Die angewendeten visuellen Effektschemas codieren unterschiedliche visuelle Effekte für unterschiedliche musikalische Strukturelemente der audiovisuellen Darbietungscodierung und liefern Übergänge für visuelle Effekte in zeitlichem Abgleich mit zumindest manchen der codierten Musikab schni ttsab grenzungen.In some embodiments according to the present invention (s), a system includes at least one guest-and-host pairing of network-connected devices that are configured to record at least vocal audio. The host device is designed to (i) receive a coding of a respective coding of at least vocal audio from the guest device and, in accordance with an associated musical structure coding, which includes at least music segment boundaries which are coded for a time comparison with an audiovisual performance coding, (ii) apply selected visual effect schemes to the audiovisual performance coding. The visual effect schemes used encode different visual effects for different musical structural elements of the audiovisual performance coding and provide transitions for visual effects in chronological comparison with at least some of the encoded musical section delimitations.
In manchen Fällen oder Ausführungsformen sind die Gastgeber- und Gastvorrichtung als lokale und entfernte Peers über ein Kommunikationsnetzwerk mit nicht vernachlässigbarer Peer-zu-Peer-Latenz für Übertragungen von audiovisuellem Inhalt gekoppelt, wobei die Gastgebervorrichtung kommunikativ als der lokale Peer gekoppelt ist, um eine Mediencodierung einer gemischten Audiodarbietung, die an der Gastvorrichtung aufgenommenes Gesangsaudio bildet, zu empfangen, und die Gastvorrichtung kommunikativ als der entfernte Peer gekoppelt ist, um die Mediencodierung zu liefern, die von einem ersten der Performer aufgenommen und mit einem Backing-Audio-Track gemischt wird. In manchen Fällen oder Ausführungsformen wird die assoziierte musikalische Strukturcodierung rechnerisch an der Gastgebervorrichtung basierend auf einer Segmentierung von zumindest einem Audio-Track, der von der Gastvorrichtung empfangen wird, bestimmt. In manchen Fällen oder Ausführungsformen ist die Gastgebervorrichtung dazu ausgelegt, die audiovisuelle Darbietungscodierung als eine gemischte audiovisuelle Darbietung einschließlich Gesangsaudio und darbietungssynchronisiertem Video von dem ersten und einem zweiten der Performer wiederzugeben und die audiovisuelle Darbietungscodierung als eine scheinbare Live-Aussendung mit dem ausgewählten visuellen Effektschema angewendet zu übertragen.In some cases or embodiments, the host and guest devices are coupled as local and remote peers over a communication network with non-negligible peer-to-peer latency for broadcasts of audiovisual content, with the host device communicatively coupled as the local peer for media encoding a mixed audio performance that forms vocal audio recorded on the guest device, and the guest device is communicatively coupled as the remote peer to provide the media encoding that is recorded by a first one of the performers and mixed with a backing audio track. In some cases or embodiments, the associated musical structure coding is computed at the host device based on segmentation of at least one audio track received from the guest device. In some cases or embodiments, the host device is configured to render the audiovisual performance encoding as a mixed audiovisual performance including vocal audio and performance-synchronized video from the first and second of the performers, and to apply the audiovisual performance encoding as an apparent live broadcast with the selected visual effects scheme transfer.
Diese und andere Ausführungsformen gemäß der (den) vorliegenden Erfindung(en) werden unter Bezugnahme auf die Beschreibung und die angehängten folgenden Ansprüche verstanden.These and other embodiments according to the present invention (s) will be understood with reference to the description and the appended claims that follow.
FigurenlisteFigure list
Die vorliegende Erfindung wird beispielhaft und ohne Beschränkung unter Bezugnahme auf die begleitenden Figuren veranschaulicht, in denen gleiche Bezugsziffern allgemein gleiche Elemente oder Merkmale angeben.
-
1 bildet Informationsflüsse zwischen illustrativen mobiltelefonartigen tragbaren Rechenvorrichtungen, fernseherartigen Anzeigen, Set-Top-Box-artigen Medienanwendungsplattformen und einem beispielhaften Inhaltsserver gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) ab, bei denen ein visuelles Effektschema an einer audiovisuellen Darbietung angewendet wird. -
2A ,2B und2C sind aufeinanderfolgende Momentaufnahmen von gesangsdarbietungssynchronisiertem Video entlang einer Zeitleiste koordinierter visueller Darbietungen, wobei, gemäß manchen Ausführungsformen der vorliegenden Erfindung, an einem Video für einen, den anderen oder beide von zwei beitragenden Performern Gesangseffekte basierend auf einer Stimmung und basierend auf einem rechnerisch definierten Audiomerkmal wie etwa Gesangsintensität, die über den aufgenommenen Gesang berechnet wird, angewendet werden. -
3A ,3B und3C veranschaulichen eine beispielhafte Implementierung einer Segmentierung-und-Videoeffekt(VFX)-Engine gemäß manchen Ausführungsformen der vorliegenden Erfindung(en).3A bildet Informationsflüsse ab, die eine beispielhafte musikalische Strukturcodierung beinhalten, während3B eine alternative Ansicht abbildet, die den Schwerpunkt auf eine beispielhafte VFX-Wiedergabepipeline legt. Schließlich bildet3C eine beispielhafte Abbildung von Gesangsparts und Segmenten zu visuellen Layouts, Übergängen, nachbearbeiteten Videoeffekten und partikelbasierten Effekten grafisch ab. -
4 bildet Informationsflüsse zwischen illustrativen mobiltelefonartigen tragbaren Rechenvorrichtungen in einer Gastgeber-und-Gast-Konfiguration gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) ab, bei denen ein visuelles Effektschema an einer duettartigen audiovisuellen Livestream-Gruppendarbietung angewendet wird. -
5 ist ein Flussdiagramm, das Informationstransfers veranschaulicht, die bei einer zusammengesetzten audiovisuellen Darbietung beitragen oder diese beinhalten, die segmentiert ist, um eine musikalische Struktur für eine Abbildung visueller Effekte gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) bereitzustellen. -
6 ist ein Funktionsblockdiagramm von Hardware- und Softwarekomponenten, die an einer illustrativen mobiltelefonartigen tragbaren Rechenvorrichtung ausführbar sind, um die Bearbeitung einer aufgenommenen audiovisuellen Darbietung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) zu ermöglichen. -
7 veranschaulicht Prozessschritte und Ergebnisse der Bearbeitung gemäß manchen Ausführungsformen der vorliegenden Erfindung(en), um Farbkorrektur und stimmungsbezeichnende Videoeffekte an Video für jeweilige Performer einer Gruppendarbietung, die getrennt unter Verwendung von Kameras jeweiliger Aufnahmevorrichtungen aufgenommen werden, anzuwenden. -
8A und8B veranschaulichen Bildmaterial für eine Gruppendarbietung mit und ohne Verwendung einer visuellen Unschärfetechnik, die gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) angewendet wird. -
9 veranschaulicht Merkmale einer Mobilvorrichtung, die als eine Plattform zur Ausführung von Softwareimplementierungen einschließlich audiovisueller Aufnahme gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) dienen kann. -
10 ist ein Netzwerkdiagramm, das eine Zusammenarbeit beispielhafter Vorrichtungen gemäß manchen Ausführungsformen der vorliegenden Erfindung(en) veranschaulicht.
-
1 depicts information flows between illustrative mobile phone type portable computing devices, television type displays, set-top box type media application platforms, and an example content server in accordance with some embodiments of the present invention (s) that apply a visual effects scheme to an audiovisual performance. -
2A ,2 B and2C -
3A ,3B and3C 13 illustrate an exemplary implementation of a Segmentation and Video Effect (VFX) engine in accordance with some embodiments of the present invention (s).3A maps information flows that include exemplary musical structure coding, while3B depicts an alternative view that focuses on an exemplary VFX rendering pipeline. Finally forms3C an exemplary illustration of vocal parts and segments to visual layouts, transitions, post-processed video effects and particle-based effects. -
4th depicts flows of information between illustrative cellular phone type portable computing devices in a host-and-guest configuration, in accordance with some embodiments of the present invention (s), where a visual effects scheme is applied to a duet type audiovisual live stream group performance. -
5 FIG. 10 is a flowchart illustrating information transfers that contribute to or include a composite audiovisual performance that is segmented to provide a musical structure for visual effects mapping in accordance with some embodiments of the present invention (s). -
6 FIG. 10 is a functional block diagram of hardware and software components executable on an illustrative cellular phone type portable computing device to enable editing of a recorded audiovisual performance in accordance with some embodiments of the present invention (s). -
7 illustrates process steps and results of processing in accordance with some embodiments of the present invention (s) to apply color correction and mood-designing video effects to video for respective performers of a group performance, which are recorded separately using cameras of respective recording devices. -
8A and8B Figure 13 illustrates visuals for a group performance with and without the use of a visual blurring technique used in accordance with some embodiments of the present invention (s). -
9 illustrates features of a mobile device that can serve as a platform for executing software implementations, including audiovisual recording, in accordance with some embodiments of the present invention (s). -
10th 10 is a network diagram illustrating collaboration of exemplary devices according to some embodiments of the present invention (s).
Fachleute werden erkennen, dass Elemente oder Merkmale in den Figuren zur Vereinfachung und Verdeutlichung veranschaulicht werden und nicht notwendigerweise maßstabsgetreu gezeichnet wurden. Beispielsweise können die Abmessungen oder die Hervorhebung von manchen der veranschaulichten Elemente oder Merkmale relativ zu anderen Elementen oder Merkmalen übertrieben sein, um das Verständnis von Ausführungsformen der vorliegenden Erfindung zu verbessern.Those skilled in the art will recognize that elements or features are illustrated in the figures for simplicity and clarification and have not necessarily been drawn to scale. For example, the dimensions or highlighting of some of the illustrated elements or features may be exaggerated relative to other elements or features to improve understanding of embodiments of the present invention.
AUSFÜHRUNGSWEISEN DER ERFINDUNG(EN)MODES FOR CARRYING OUT THE INVENTION (DE)
Es sind Techniken entwickelt worden, um die Aufnahme, Tonhöhenkorrektur, Harmonisierung, Codierung und/oder Wiedergabe von audiovisuellen Darbietungen auf tragbaren Rechenvorrichtungen und Entertainment-Geräten im Wohnzimmer zu ermöglichen. Gesangsaudio zusammen mit darbietungssynchronisiertem Video kann aufgenommen und mit audiovisuellen Beiträgen anderer Benutzer koordiniert werden, um duettartige oder Glee-Club-artige oder fensterbasierte musikvideoartige audiovisuelle Darbietungen zu bilden. In manchen Fällen werden die Gesangsdarbietungen individueller Benutzer (zusammen mit darbietungssynchronisiertem Video) auf Mobilvorrichtungen, einer fernseherartigen Anzeige und/oder einem Set-Top-Box-Gerät im Zusammenhang von karaokeartigen Präsentationen eines Liedtexts entsprechend hörbaren Wiedergaben eines Backing-Tracks aufgenommen. In manchen Fällen können Sängern Tonhöhenhinweise in Verbindung mit der karaokeartigen Präsentation eines Liedtexts präsentiert werden und optional kann eine kontinuierliche automatische Tonhöhenkorrektur (oder Tonhöhenverschiebung zu Harmonie) bereitgestellt werden.Techniques have been developed to enable the recording, pitch correction, harmonization, coding and / or reproduction of audiovisual performances on portable computing devices and entertainment devices in the living room. Vocal audio along with performance-synced video can be recorded and coordinated with other users' audiovisual contributions to form duet-like or glee-club-like or window-based music video-like audiovisual performances. In some cases, the singing performances of individual users (along with performance-synchronized video) are recorded on mobile devices, a television-like display and / or a set-top box device in the context of karaoke-like presentations of a song text corresponding to audible reproductions of a backing track. In some cases, pitch notes can be presented to singers in connection with the karaoke-like presentation of lyrics, and optionally, continuous automatic pitch correction (or pitch shifting to harmony) can be provided.
Häufig werden Beiträge mehrerer Sänger auf eine Art und Weise koordiniert und gemischt, die für Präsentation auswählt und zu gegebenen Zeiten entlang einer gegebenen Darbietungszeitleiste stimmungsbezeichnende visuelle Effekte an darbietungssynchronisiertem Video eines oder mehrerer der Mitwirkenden anwendet. In manchen Fällen oder Ausführungsformen können Techniken der vorliegenden Erfindung(en) selbst an einem audiovisuellen Inhalt eines einzelnen Performers angewendet werden. Allgemein werden Auswahlen gemäß einer Segmentierung eines gewissen Audio-Tracks durchgeführt, um die musikalische Struktur der audiovisuellen Darbietung zu bestimmen. Basierend auf der musikalischen Struktur werden partikelbasierte Effekte, Übergänge zwischen Videoquellen, Animationen oder Bewegung von Einzelbildern, Vektorgrafiken oder Bilder von Mustern/Texturen, Farbe/Sättigung/Kontrast und/oder andere visuelle Effekte, die in einem visuellen Effektschema codiert sind, an jeweiligen Teilen der audiovisuellen Darbietung angewendet. Auf diese Weise werden visuelle Effekte entsprechend codierten Aspekten einer Darbietung oder Merkmalen wie etwa Gesangs-Tracks, Backing-Audio, Liedtext, Abschnitten und/oder Gesangsparts angewendet. Die speziellen angewendeten visuellen Effekte variieren während des Verlaufs einer gegebenen audiovisuellen Darbietung basierend auf einer Segmentierung, die an einer Gesangsintensität, die rechnerisch für eine oder mehrere Gesangs-Tracks bestimmt wird, durchgeführt wird und/oder darauf basiert.Often, multiple singers' contributions are coordinated and mixed in a manner that selects for presentation and at times applies mood-designing visual effects to a performance-synchronized video of one or more of the contributors along a given performance timeline. In some cases or embodiments, techniques of the present invention (s) may be applied even to a single performer's audiovisual content. Generally, selections are made according to segmentation of a certain audio track to determine the musical structure of the audiovisual performance. Based on the musical structure, particle-based effects, transitions between video sources, animations or movement of single images, vector graphics or images of patterns / textures, color / saturation / contrast and / or other visual effects, which are coded in a visual effect scheme, are applied to the respective parts audiovisual performance. In this way, visual effects are applied according to coded aspects of a performance or features such as vocal tracks, backing audio, lyrics, sections and / or vocal parts. The particular visual effects applied vary during the course of a given audiovisual performance based on a segmentation based on a vocal intensity that is computational for one or more vocal tracks is determined, carried out and / or based on it.
Allgemein sind, für ein gegebenes Lied, Aspekte der musikalischen Struktur des Liedes für die speziellen visuellen Effekte auswählbar, die von einem stimmungsbezeichnenden visuellen Effektschema angewendet werden, und Intensitätsmaße (typischerweise Gesangsintensität, aber in manchen Fällen Leistungsdichte von Nichtgesangsaudio) werden verwendet, um die Größenordnung oder Prominenz der angewendeten visuellen Effekte zu modulieren oder anderweitig zu steuern. In manchen Fällen, Situationen oder Ausführungsformen wird zum Beispiel Liedform, wie etwa {Vers, Refrain, Vers, Refrain, Überbrückung...} verwendet, um die Abbildung zu beschränken. In manchen Fällen, wie etwa in einem Duett, liefert eine Gesangspartsequenzierung (z. B. du singst eine Zeile, ich singe eine Zeile, du singst zwei Wörter, ich singe drei, wir singen zusammen...) strukturelle Informationen, die zum Erzeugen einer Folge von visuellen Layouts verwendet werden. In manchen Fällen, Situationen oder Ausführungsformen kann eine sich bildende Intensität eines Liedes (z. B. wie durch akustische Leistung, Tempo oder ein anderes Maß gemessen) für die speziellen visuellen Effekte, die von einem speziellen Gesangseffekteschema angewendet werden, auswählbar sein.In general, for a given song, aspects of the song's musical structure are selectable for the particular visual effects used by a mood-designing visual effects scheme, and intensity measures (typically vocal intensity, but in some cases, power density of non-vocal audio) are used to order the magnitude or modulate or otherwise control prominence of the visual effects applied. In some cases, situations, or embodiments, for example, song form such as {verse, refrain, verse, refrain, bridging ...} is used to limit the illustration. In some cases, such as in a duet, singing parts sequencing (e.g. you sing one line, I sing one line, you sing two words, I sing three, we sing together ...) provides structural information that is used to generate a series of visual layouts. In some cases, situations, or embodiments, a song's intensity of formation (e.g., as measured by acoustic performance, pace, or other measure) may be selectable for the particular visual effects applied by a particular vocal effects scheme.
Optional und in manchen Fällen oder Ausführungsformen kann Gesangsaudio in Echtzeit an der Gesangsaufnahmevorrichtung (z. B. an einer tragbaren Rechenvorrichtung wie etwa einem Mobiltelefon, Personal Digital Assistant, Laptop-Computer, Notebook-Computer, Pad-artigen Computer oder Netbook) gemäß Tonhöhenkorrektureinstellungen tonhöhenkorrigiert werden. In manchen Fällen codieren Tonhöhenkorrektureinstellungen eine spezielle Tonart oder Tonleiter für die Gesangsdarbietung oder für Teile davon. In manchen Fällen beinhalten Tonhöhenkorrektureinstellungen eine partiturcodierte Melodie und/oder Harmoniefolge, die mit oder zur Verbindung mit dem Liedtext und Backing-Tracks geliefert werden. Harmonienoten oder Akkorde können als explizite Ziele oder relativ zu der partiturcodierten Melodie oder sogar tatsächlichen Tonhöhen, die durch einen Sänger gesungen werden, falls gewünscht, codiert werden. Maschinenverwendbare MIDI-artige Codierungen (MIDI: Musical Instrument Digital Interface) können für Liedtext, Backing-Tracks, Notenziele, Gesangsparts (z. B. Gesangspart 1, Gesangspart 2, ... zusammen), Musikabschnittsinformationen (z. B. Intro/Outro, Vers, Pre-Chorus, Refrain, Überbrückung, Übergang und/oder andere Abschnittscodierungen) usw. eingesetzt werden. In manchen Fällen oder Ausführungsformen können herkömmliche MIDI-artige Codierungen erweitert werden, sodass sie auch einen partiturabgeglichenen Verlauf von anzuwendenden visuellen Effekten codiert.Optionally, and in some cases or embodiments, vocal audio can be pitch corrected in real time on the vocal recording device (e.g., a portable computing device such as a cellular phone, personal digital assistant, laptop computer, notebook computer, pad-type computer, or netbook) according to pitch correction settings will. In some cases, pitch correction settings encode a specific key or scale for the vocal performance or for parts thereof. In some cases, pitch correction settings include a score-encoded melody and / or harmony sequence that are provided with or for connection to the lyrics and backing tracks. Harmony notes or chords can be encoded as explicit targets or relative to the score-encoded melody or even actual pitches sung by a singer if desired. Machine-usable MIDI-like encodings (MIDI: Musical Instrument Digital Interface) can be used for lyrics, backing tracks, note targets, vocal parts (e.g.
Basierend auf der fesselnden und transformativen Art des tonhöhencodierten Gesangs, darbietungssynchronisiertem Video und partiturcodierten Harmoniemixes können Benutzer/Sänger eine ansonsten natürliche Schüchternheit oder Angst überwinden, die mit dem Teilen ihrer Gesangsdarbietungen assoziiert ist. Stattdessen werden selbst geografisch verteilte Sänger ermuntert, mit Freunden oder Familie zu teilen oder zusammenzuarbeiten und Gesangsdarbietungen als Teil von sozialen Musiknetzwerken beizutragen. Bei manchen Implementierungen werden diese Interaktionen durch Sozialnetzwerk- und/oder E-Mail-vermitteltes Teilen von Darbietungen und Einladungen, bei einer Gruppendarbietung teilzunehmen, ermöglicht. Durch das Verwenden von hochgeladenem Gesang, der an Clients wie etwa den vorgenannten tragbaren Rechenvorrichtungen aufgenommen wird, kann ein Inhaltsserver (oder Dienst) derartige koordinierte Darbietungen durch Manipulieren und Mischen des hochgeladenen audiovisuellen Inhalts mehrerer beitragender Sänger vermitteln. In Abhängigkeit von den Zielen und der Implementierung eines speziellen Systems können Uploads zusätzlich zu Videoinhalt tonhöhenkorrigierte Gesangsdarbietungen (mit oder ohne Harmonien), trockenen (d. h. nicht korrigierten) Gesang und/oder Kontroll-Tracks von Benutzertonart und/oder Tonhöhenkorrekturauswahlen usw. beinhalten.Based on the captivating and transformative nature of pitch-coded vocals, performance-synced video, and score-coded harmony mixes, users / singers can overcome an otherwise natural shyness or fear associated with sharing their vocal performances. Instead, even geographically dispersed singers are encouraged to share or collaborate with friends or family, and to contribute vocal performances as part of social music networks. In some implementations, these interactions are enabled through social networking and / or email mediated sharing of performances and invitations to attend a group performance. By using uploaded vocals recorded on clients such as the aforementioned portable computing devices, a content server (or service) can deliver such coordinated performances by manipulating and mixing the uploaded audiovisual content of multiple contributing singers. Depending on the goals and implementation of a special system, uploads may include pitch-corrected vocal performances (with or without harmonies), dry (i.e. uncorrected) vocals and / or user-type control tracks and / or pitch correction selections, in addition to video content, in addition to video content.
Soziale Musik kann auf eine beliebige einer Vielfalt von Weisen vermittelt werden. Bei manchen Implementierungen wird beispielsweise eine Gesangsdarbietung eines ersten Benutzers, die gegenüber einem Backing-Track an einer tragbaren Rechenvorrichtung aufgenommen wird und typischerweise gemäß partiturcodierten Melodie- und/oder Harmoniehinweisen tonhöhenkorrigiert ist, als eine Seed-Darbietung zu anderen potenziellen Gesangsperformern geliefert. Darbietungssynchronisiertes Video wird ebenfalls aufgenommen und kann mit dem tonhöhenkorrigierten aufgenommenen Gesang geliefert werden. Der gelieferte Gesang wird typischerweise mit Backing-Instrumentalstücken/Gesang gemischt und bildet den Backing-Track zur Aufnahme von Gesang eines zweiten (und potenziell nachfolgenden) Benutzers. Häufig sind die nachfolgenden Gesangsmitwirkenden geografisch getrennt und können (zumindest a priori) untereinander unbekannt sein, jedoch tendiert die Intimität des Gesangs zusammen mit der kollaborativen Erfahrung selbst dazu, diese Trennung zu minimieren. Während nachfolgende Gesangsdarbietungen und Video aufgenommen werden (z. B. an jeweiligen tragbaren Rechenvorrichtungen) und als Teil der sozialen Musikerfahrung angesammelt werden, kann sich der Backing-Track, gegenüber dem jeweiliger Gesang aufgenommen wird, so entwickeln, dass er zuvor aufgenommenen Gesang anderer Mitwirkender enthält.Social music can be conveyed in any of a variety of ways. For example, in some implementations, a first user's vocal performance recorded against a backing track on a portable computing device and typically pitch corrected according to score-encoded melody and / or harmony cues is provided as a seed performance to other potential vocal performers. Performance-synchronized video is also recorded and can be delivered with the pitch-corrected recorded vocals. The delivered vocals are typically mixed with backing instrumentals / vocals and form the backing track for recording vocals from a second (and potentially subsequent) user. Often the subsequent singers are geographically separated and may (at least a priori) be unknown to each other, but the intimacy of the singing, together with the collaborative experience itself, tends to minimize this separation. While subsequent vocal performances and video are recorded (e.g. on respective portable computing devices) and accumulated as part of the social music experience, the backing track versus which each vocal is recorded may develop to include previously recorded vocals by other performers contains.
In manchen Fällen wird Gesang (und typischerweise synchronisiertes Video) als Teil einer Live-Darbietung oder improvisierten Darbietung mit Gesangsinteraktionen (z. B. ein Duett oder Dialog) zwischen kollaborierenden Mitwirkenden aufgenommen. Es wird sich vorgestellt, dass nicht vernachlässigbare Netzwerkkommunikationslatenzen zwischen zumindest manchen der kollaborierenden Mitwirkenden bestehen werden, besonders wenn diese Mitwirkenden geografisch getrennt sind. Infolgedessen besteht eine technische Herausforderung darin, Latenzen und den aufgenommenen audiovisuellen Inhalt auf eine derartige Weise zu verwalten, dass eine kombinierte audiovisuelle Darbietung nichtsdestotrotz auf eine Art und Weise ausgestrahlt (z. B. ausgesendet) werden kann, die Empfängern, Zuhörern und/oder Zuschauern als eine interaktive Live-Kollaboration präsentiert wird. In some cases, vocals (and typically dubbed video) are recorded as part of a live performance or improvised performance with vocal interactions (e.g., a duet or dialogue) between collaborators. It is envisioned that non-negligible network communication latencies will exist between at least some of the collaborating contributors, especially if these contributors are geographically separate. As a result, a technical challenge is to manage latencies and the recorded audiovisual content in such a way that a combined audiovisual performance can nonetheless be broadcast (e.g., broadcast) in a manner that is useful to recipients, listeners, and / or viewers is presented as an interactive live collaboration.
Bei einer Technik zum Erreichen einer Reproduktion einer interaktiven Live-Darbietungskollaboration wird beispielsweise eine tatsächliche und nicht vernachlässigbare Netzwerkkommunikationslatenz (im Endeffekt) in eine Richtung zwischen einem Gast- und Gastgeberperformer maskiert und in die andere Richtung toleriert. Eine aufgenommene audiovisuelle Darbietung eines Gastperformers in einer „Live-Show“-Internetaussendung eines Gastgeberperformers könnte zum Beispiel ein Gast+Gastgeber-Duett beinhalten, das in scheinbarer Echtzeit-Synchronität gesungen wird. In manchen Fällen könnte der Gast ein Performer sein, der eine spezielle Musikdarbietung populär gemacht hat. In manchen Fällen könnte der Gast ein Amateursänger sein, dem die Möglichkeit gegeben wurde, „live“ (obwohl entfernt) mit dem populären Künstler oder der populären Gruppe „im Studio“ als der (oder mit dem) Gastgeber der Show zu singen. Ungeachtet einer nicht vernachlässigbaren Netzwerkkommunikationslatenz von Gast zu Gastgeber, die bei der Übermittlung des audiovisuellen Beitragsstroms des Gastes eingeschlossen ist (vielleicht 200-500 ms oder mehr), führt der Gastgeber eine Darbietung in scheinbarer Synchronität (obwohl im absoluten Sinne zeitlich verlagert davon) mit dem Gast durch und der scheinbar synchron durchgeführte Gesang wird aufgenommen und mit dem Beitrag des Gastes zur Aussendung oder Ausstrahlung aufgenommen und gemischt.For example, in one technique for achieving a reproduction of an interactive live performance collaboration, an actual and non-negligible network communication latency (in effect) is masked in one direction between a guest and host performer and tolerated in the other direction. For example, a recorded audiovisual performance by a guest performer on a host show's “live show” internet broadcast could include a guest + host duet that is sung in apparent real-time synchrony. In some cases, the guest could be a performer who popularized a particular music performance. In some cases, the guest could be an amateur singer who was given the opportunity to sing "live" (though remotely) with the popular artist or group "in the studio" as the host (or host) of the show. Notwithstanding a non-negligible guest-to-host network communication latency involved in delivering the guest's audiovisual stream of contributions (perhaps 200-500 ms or more), the host performs in apparent synchronicity (although in an absolute sense, temporally shifted from it) with the Guest through and the apparently synchronized singing is recorded and recorded and mixed with the guest's contribution to the broadcast or broadcast.
Das Ergebnis ist eine interaktive scheinbare Live-Darbietung (zumindest von der Perspektive des Gastgebers und der Empfänger, Zuhörer und/oder Zuschauer der ausgestrahlten oder ausgesendeten Darbietung aus). Obwohl die nicht vernachlässigbare Netzwerkkommunikationslatenz vom Gast zum Gastgeber maskiert wird, versteht es sich, dass die Latenz vorhanden ist und in die Gastgeber-zu-Gast-Richtung toleriert wird. Die Gastgeber-zu-Gast-Latenz, obwohl sie für den Gast ersichtlich (und vielleicht recht erkennbar) ist, muss in der scheinbaren Live-Aussendung oder anderen Ausstrahlung nicht ersichtlich sein. Es wurde entdeckt, dass eine verzögerte hörbare Wiedergabe von Gastgebergesang (oder allgemeiner der aufgenommenen audiovisuellen Darbietung des Gastgebers) nicht die Darbietung des Gastes psychoakustisch stören muss.The result is an interactive, seemingly live performance (at least from the perspective of the host and the recipients, listeners and / or viewers of the broadcast or broadcast performance). Although the non-negligible network communication latency is masked from the guest to the host, it is understood that the latency is present and is tolerated in the host-to-guest direction. The host-to-guest latency, although visible to the guest (and perhaps quite recognizable), need not be apparent in the apparent live broadcast or other broadcast. It has been discovered that delayed audible playback of host singing (or more generally, the host's recorded audiovisual performance) need not psychoacoustically disrupt the guest's performance.
Darbietungssynchronisiertes Video kann aufgenommen und in einer kombinierten audiovisuellen Darbietung eingeschlossen werden, die die scheinbare Live-Aussendung bildet, wobei Bildmaterial zumindest teilweise auf zeitlich variierenden, rechnerisch definierten Audiomerkmalen basieren kann, die aus aufgenommenen Gesangsaudio extrahiert (oder darüber berechnet) werden. In manchen Fällen oder Ausführungsformen sind diese rechnerisch definierten Audiomerkmale über den Verlauf eines koordinierten audiovisuellen Mixes für ein spezielles synchronisiertes Video eines oder mehrerer der mitwirkenden Sänger (oder deren Prominenz) auswählbar.Performance-synchronized video can be recorded and included in a combined audiovisual performance that forms the apparent live broadcast, with imagery based at least in part on time-varying, computationally-defined audio features extracted from (or calculated from) recorded vocal audio. In some cases or embodiments, these arithmetically defined audio features can be selected over the course of a coordinated audio-visual mix for a special synchronized video of one or more of the participating singers (or their celebrities).
In manchen Fällen werden mitreißende visuelle Animationen und/oder Einrichtungen für Zuhörerkommentar und -einstufung, sowie Duett-, Glee-Club- oder Chorgruppenbildungs- oder Ansammlungslogik in Verbindung mit einer hörbaren Wiedergabe einer Gesangsdarbietungen (die z. B. an einer ähnlich konfigurierten Mobilvorrichtung aufgenommen und tonhöhenkorrigiert wurde), gemischt mit Backing-Instrumentalstücken und/oder Gesang bereitgestellt. Synthetisierte Harmonien und/oder zusätzlicher Gesang (z. B. Gesang, der von einem anderen Sänger an noch anderen Standorten aufgenommen und optional tonhöhenkorrigiert wird, um mit anderem Gesang zu harmonisieren) können auch im Mix enthalten sein. Die Geocodierung von aufgenommenen Gesangsdarbietungen (oder individuellen Beiträgen zu einer kombinierten Darbietung) und/oder Zuhörer-Feedback können Animationen oder Anzeigeartefakte auf Weisen ermöglichen, die eine Darbietung oder Bestätigung suggerieren, die von einem speziellen geografischen Ort auf einer benutzermanipulierbaren Erdkugel ausgehen. Auf diese Weise können Implementierungen der beschriebenen Funktionalität ansonsten mondäne Mobilvorrichtungen in soziale Instrumente transformieren, die einen Sinn von globaler Konnektivität, Kollaboration und Gemeinschaft fördern.In some cases, engaging visual animations and / or facilities for listener commenting and grading, as well as duet, glee club, or chorus grouping or gathering logic are combined with audible playback of a vocal performance (e.g., recorded on a similarly configured mobile device and pitch corrected) mixed with backing instrumentals and / or vocals. Synthesized harmonies and / or additional vocals (e.g. vocals recorded by another singer at other locations and optionally corrected for pitch to harmonize with other vocals) can also be included in the mix. The geocoding of recorded vocal performances (or individual contributions to a combined performance) and / or listener feedback can enable animations or display artifacts in ways that suggest a performance or confirmation that emanate from a specific geographic location on a user-manipulable globe. In this way, implementations of the functionality described can transform otherwise sophisticated mobile devices into social instruments that promote a sense of global connectivity, collaboration, and community.
Karaokeartige GesangsdarbietungsaufnahmeKaraoke-like vocal performance recording
Obwohl Ausführungsformen der vorliegenden Erfindung(en) nicht darauf beschränkt sind, liefert eine tonhöhenkorrigierte, karaokeartige Gesangsaufnahme unter Verwendung eines mobiltelefonartigen und/oder fernseherartigen audiovisuellen Geräts einen nützlichen deskriptiven Zusammenhang. Gleichermaßen, obwohl Ausführungsformen der vorliegenden Erfindung(en) nicht auf einen Inhalt mit mehreren Performern beschränkt sind, liefert ein koordinierter audiovisueller Inhalt mit mehreren Performern, einschließlich eines Inhalts mit mehreren Gesängen, der asynchron aufgenommen oder aufbereitet wird oder mit hierin beschriebenen Latenzverwaltungstechniken aufgenommen und Live gestreamt wird, einen nützlichen deskriptiven Zusammenhang.Although embodiments of the present invention (s) are not limited to this, pitch corrected, karaoke-like vocal recording using a cellular phone and / or television type audiovisual device provides a useful descriptive context. Likewise, although embodiments of the present invention (s) are not limited to multi-performer content coordinated, multi-performer audio-visual content, including multi-chant content that is recorded or edited asynchronously or recorded and streamed live using latency management techniques described herein, a useful descriptive context.
Bei manchen Ausführungsformen, wie etwa in
Wie für karaokeartige Anwendungen (wie etwa die von Smule, Inc. verfügbare Sing! Karaoke™-App) typisch ist, kann ein Backing-Track von Instrumentalstücken und/oder Gesang hörbar für einen Benutzer/Sänger wiedergegeben werden, um demgegenüber zu singen. In derartigen Fällen kann ein Liedtext (
Zur Einfachheit halber kann angenommen werden, dass ein drahtloses Lokalnetzwerk
Erneut unter Bezugnahme auf das Beispiel von
Tonhöhenkorrektur, wenn bereitgestellt, basiert typischerweise auf partiturcodierten Notensätzen oder Hinweisen (z. B. Tonhöhen- und Harmoniehinweisen
Zusätzlich dazu können ein Liedtext, eine Melodie und Harmonie-Track-Notensätze und in Beziehung stehende Timing- und Steuerinformationen als eine Partitur zusammengefasst werden, die in einem geeigneten Container oder Objekt (z. B. in einem Musical-Instrument-Digital-Interface- bzw. MIDI- oder Java-Script-Object-Notation- bzw. json-artigen Format) zur Lieferung zusammen mit dem (den) Backing-Track(s) codiert sind. Unter Verwendung derartiger Informationen können das Handheld
Optional können zumindest für gewisse Ausführungsformen oder Genres Harmonienoten-Tracks für Harmonieverschiebungen bei aufgenommenem Gesang partiturcodiert werden. Typischerweise wird eine aufgenommene tonhöhenkorrigierte (möglicherweise harmonisierte) Gesangsdarbietung zusammen mit darbietungssynchronisiertem Video lokal auf der Handheld-Vorrichtung oder Set-Top-Box als eine oder mehrere audiovisuelle Dateien gespeichert und wird anschließend zum Hochladen (
In Abhängigkeit von der Implementierung können Codierungen von trockenem Gesang und/oder tonhöhenkorrigiertem Gesang zum Inhaltsserver
Wie ferner hierin ausführlich beschrieben, können Darbietungen mehrerer Sänger (einschließlich darbietungssynchronisiertem Video) angesammelt und kombiniert werden, sodass sie als eine duettartige Darbietung, Glee-Club-, fensterbasierte Musikvideokomposition oder Gesangs-Jam-Session dargestellt wird. Bei manchen Ausführungsformen kann ein darbietungssynchronisierter Videobeitrag (zum Beispiel in der Veranschaulichung von
Die VFX-Schema-Auswahl kann durch einen Benutzer am Handheld
Bei manchen Ausführungsformen können Formeln und/oder Filter eines gegebenen VFX-Schemas z. B. basierend auf rechnerischen Merkmalen, wie etwa durchschnittlicher Gesangsenergie, die aus Audiodarbietungen oder basierend auf Tempo, Beat oder Audioenergie von Backing-Tracks extrahiert werden, parametrisiert werden. In manchen Fällen oder Ausführungsformen können Liedtext- oder Musikauswahlmetadaten zur VFX-Schemaauswahl eingesetzt werden. Allgemein versteht sich im Zusammenhang mit der Beschreibung und den folgenden Ansprüchen, dass visuelle Effektschemas in manchen Fällen oder Ausführungsformen iterativ ausgewählt und an einer gegebenen Darbietung oder Teildarbietung angewendet werden können, z. B. während ein Benutzer oder ein beitragender Sänger oder ein Nachbearbeitungs-Videoeditor versucht, eine spezielle Stimmung, egal ob „traurig“, „nachdenklich“, „schwungvoll“ oder „romantisch“, zu erzeugen.In some embodiments, formulas and / or filters of a given VFX scheme may e.g. B. be parameterized based on computational features, such as average vocal energy, which are extracted from audio performances or based on tempo, beat or audio energy of backing tracks. In some cases or embodiments, lyrics or music selection metadata can be used for VFX scheme selection. In general, in connection with the description and the following claims, it is understood that visual effects schemes in some cases or embodiments can be iteratively selected and applied to a given performance or sub-performance, e.g. B. while a user or contributing singer or post-processing video editor tries to create a special mood, whether "sad", "thoughtful", "peppy" or "romantic".
Zur Vereinfachung der anfänglichen Veranschaulichung bildet
Die
Wie Fachleute verstehen werden, die den Vorteil der vorliegenden Offenbarung besitzen, führt die Darbietungszeitleiste
Die
Merkmalsextraktion und Segmentierung
- • Gesang: Segmentierung „Singen“ gegenüber „Nichtsingen“, augenblickliche Lautstärke, relative Lautstärke jedes Segments.
- • Backing-Tracks: Tempo, augenblickliche Lautstärke, Beat-Detektion.
- • MIDI-Dateien: Tonhöhe, Harmonie, Liedtext, „Part“-Anordnungsmarkierungen (wann jeder Sänger singen sollte).
- • Singing: segmentation "singing" versus "not singing", instantaneous volume, relative volume of each segment.
- • Backing tracks: tempo, instantaneous volume, beat detection.
- • MIDI files: pitch, harmony, lyrics, “part” arrangement marks (when each singer should sing).
Bei einer beispielhaften Implementierung wird ein Gesangs-Track als mit Singen- und Schweigen-Segmente konsistent behandelt. Die Merkmalsextraktion versucht, Teil eines Sologesangs-Tracks als Schweigen- und Singen-Segmente zu klassifizieren. Für Duettgesangs-Tracks mit Part 1 und 2 versucht die Merkmalsextraktion, sie als Schweigen-, Part-1-Singen-, Part-2-Singen- und Miteinander-Singen-Segmente zu klassifizieren. Als Nächstes wird eine Segmenttypisierung durchgeführt. Bei manchen Implementierungen werden zum Beispiel eine globale durchschnittliche Gesangsintensität und durchschnittliche Gesangsintensitäten pro Segment berechtigt, um die „musikalische Intensität“ jedes Segments bezüglich einer speziellen Darbietung eines Sängers eines Liedes zu bestimmen. Anders gesagt, versuchen Segmentierungsalgorithmen, zu bestimmen, ob ein gegebener Abschnitt ein „lauterer“ Abschnitt oder ein „ruhiger“ Abschnitt ist. Die Startzeit und Endzeit jeder Liedtextzeile werden bei manchen Implementierungen auch aus den Liedtextmetadaten abgerufen, um die Segmenttypisierung zu ermöglichen. Gültige Segmenttypen und Klassifizierungskriterien beinhalten:
- • Intro: Segment(e) vor dem Start der ersten Liedtextzeile.
- • Vers: Intensität des Segments ist geringer als die durchschnittliche Gesangsintensität des Sängers.
- • Überbrückung: Wie Vers, aber in der zweiten Hälfte eines Liedes vorhanden.
- • Pre-Chorus: Ein Segment vor dem Refrainsegment.
- • Inter: Stille Segmente, aber keine Intro- oder Outro-Segmente.
- • Outro: Segment(e) nach dem Ende der letzten Liedtextzeile.
- • Intro: segment (s) before the start of the first line of lyrics.
- • Verse: Intensity of the segment is lower than the average singing intensity of the singer.
- • Bridging: Like verse, but present in the second half of a song.
- • Pre-chorus: one segment before the chorus segment.
- • Inter: Silent segments, but no intro or outro segments.
- • Outro: segment (s) after the end of the last line of lyrics.
Merkmalsextraktion und Segmentierung
- • Höhepunkt: Ein Segment ist auch als ein Höhepunktsegment markiert, falls es die höchste Gesangsintensität aufweist.
- • Halten: Falls eine Note eine Tonhöhenlänge länger als eine vorbestimmte Schwelle aufweist.
- • Crescendo: Eine Folge von Noten mit zunehmender Tonhöhe.
- • High point: A segment is also marked as a high point segment if it has the highest singing intensity.
- • Hold: If a note has a pitch length longer than a predetermined threshold.
- • Crescendo: A sequence of notes with increasing pitch.
Allgemein können diese und andere Annotationen und Segmentierungen mit Stilen, Formeln und Filtern verwendet werden, um darbietungsangesteuerte visuelle Effekte bereitzustellen.In general, these and other annotations and segmentations with styles, formulas, and filters can be used to provide display-driven visual effects.
Der VFX-Planer
Schließlich bildet
In der Veranschaulichung von
Ein Inhalt, der gemischt wird, um den audiovisuellen Gruppendarbietungsmix
Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, werden verstehen, dass Instanzen der Segmentierung-und-VFX-Engine-Funktionalität, wie zuvor beschrieben (siehe
Bei Ausführungsformen gemäß der Gast-Gastgeber-Livestream-Konfiguration von
Trotz einer nicht vernachlässigbaren zeitlichen Verzögerung (typischerweise 100-250 ms, aber möglicherweise mehr) empfängt die aktuelle Gastgebervorrichtung
Es versteht sich, dass die zeitliche Verzögerung in dem Peer-zu-Peer-Kommunikationskanal zwischen der aktuellen Gastvorrichtung
Benutzergesänge
Allgemein können ein Liedtext, eine Melodie und Harmonie-Track-Notensätze und in Beziehung stehende Timing- und Steuerinformationen in einem geeigneten Container oder Objekt (z. B. in einem Musical-Instrument-Digital-Interface- bzw. MIDI- oder Java-Script-Object-Notation- bzw. json-artigen Format) zur gemeinsamen Lieferung mit dem (den) Backing-Track(s) zusammengefasst werden. Unter Verwendung derartiger Informationen können die Vorrichtungen
Wie Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, verstehen werden, können Darbietungen mehrerer Sänger (einschließlich darbietungssynchronisiertem Video) angesammelt und kombiniert werden, sodass sie eine duettartige Darbietung, Glee-Club- oder Gesangs-Jam-Session bilden. Bei manchen Ausführungsformen der vorliegenden Erfindung können Sozialnetzwerk-Gebilde zumindest teilweise die GastgeberSteuerung der Paarung von geografisch verteilten Sängern und/oder die Bildung von geografisch verteilten virtuellen Glee-Clubs ersetzen oder melden. Bezüglich
Bei der veranschaulichten Konfiguration von Signalverarbeitungspipelines, die an einer Benutzervorrichtung wie etwa dem Handheld
Sowohl Tonhöhenkorrektur als auch hinzugefügte Harmonien werden gewählt, sodass sie Tonhöhen-Tracks
In dem Rechenfluss von
Wie zuvor werden Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, erkennen, dass Instanzen der Segmentierung-und-VFX-Engine-Funktionalität, wie etwa zuvor beschrieben (siehe
Somit veranschaulicht
Beispielhafte visuelle Effekte zur Kohäsion von Bildmaterialien mit mehreren PerformernExemplary visual effects for the cohesion of image material with several performers
Eine beispielhafte Mobilvorrichtung und ein beispielhaftes NetzwerkAn exemplary mobile device and network
Kurz zusammengefasst beinhaltet die Mobilvorrichtung
Typischerweise präsentiert die Mobilvorrichtung
Typischerweise unterstützt die Mobilvorrichtung
Die Mobilvorrichtung
Andere Sensoren können auch verwendet oder bereitgestellt werden. Ein Näherungssensor
Die Mobilvorrichtung
ANDERE AUSFÜHRUNGSFORMENOTHER EMBODIMENTS
Obwohl die Erfindung(en) unter Bezugnahme auf verschiedene Ausführungsformen beschrieben ist (sind), versteht sich, dass diese Ausführungsformen veranschaulichend sind und dass der Schutzumfang der Erfindung(en) nicht darauf beschränkt ist. Viele Variationen, Modifikationen, Zusätze und Verbesserungen sind möglich. Obwohl beispielsweise spezielle Videoeffekte, Übergänge und audiovisuelle Mischtechniken veranschaulicht und beschrieben sind, werden Fachleute, die den Vorteil der vorliegenden Offenbarung besitzen, eine Anzahl von Variationen und Anpassungen erkennen, die sich für eine gegebene Entwicklung, Implementierung, ein gegebenes Musikgenre oder eine Benutzerdemographie eignen. Gleichermaßen, obwohl tonhöhenkorrigierte Gesangsdarbietungen beschrieben wurden, die gemäß einer karaokeartigen Oberfläche aufgenommen werden, sind andere Variationen und Anpassungen ersichtlich. Ferner, obwohl gewisse veranschaulichende Signalverarbeitungstechniken im Zusammenhang gewisser veranschaulichender Anwendungen und Vorrichtungs-/Systemkonfigurationen beschrieben wurden, werden Durchschnittsfachleute erkennen, dass es einfach ist, die beschriebenen Techniken zu modifizieren, um anderen geeigneten Signalverarbeitungstechniken und Effekte entgegenzukommen.Although the invention (s) have been described with reference to various embodiments, it should be understood that these embodiments are illustrative and that the scope of the invention (s) is not limited thereto. Many variations, modifications, additions and improvements are possible. For example, although specific video effects, transitions, and audio-visual mixing techniques are illustrated and described, those skilled in the art having the benefit of the present disclosure will recognize a number of variations and adaptations suitable for a given development, implementation, music genre, or user demography. Similarly, although pitch corrected vocal performances have been described that are recorded on a karaoke-like surface, other variations and adaptations are apparent. Furthermore, although certain illustrative signal processing techniques have been described in the context of certain illustrative applications and device / system configurations, those of ordinary skill in the art will recognize that it is easy to modify the described techniques to accommodate other suitable signal processing techniques and effects.
Ausführungsformen gemäß der vorliegenden Erfindung können die Form eines Computerprogrammprodukts annehmen und/oder als dieses bereitgestellt werden, das in einem maschinenlesbaren Medium als Anweisungsfolgen und andere Funktionssoftwaregebilde codiert sind, die im Gegenzug in einem Rechensystem, wie etwa einem iPhone-Handheld, einer mobilen oder tragbaren Rechenvorrichtung oder einer Inhaltsserverplattform ausgeführt werden können, um hierin beschriebene Verfahren durchzuführen. Allgemein kann ein maschinenlesbares Medium greifbare Artikel, die Informationen in einer durch eine Maschine (z. B. einen Computer, Recheneinrichtungen einer Mobilvorrichtung oder tragbaren Rechenvorrichtung usw.) lesbaren Form (z. B. als Anwendungen, Quell- oder Objektcode, funktionell deskriptive Informationen usw.) sowie greifbaren Speicher, der für die Übertragung der Informationen geeignet ist, beinhalten. Ein maschinenlesbares Medium kann unter anderem ein magnetisches Speichermedium (z. B. Platten und/oder Bandspeicher); ein optisches Speichermedium (z. B. CD-ROM, DVD usw.); ein magnetooptisches Speichermedium; Nurlesespeicher (ROM); Direktzugriffsspeicher (RAM); löschbaren programmierbaren Speicher (z. B. EPROM und EEPROM); Flash-Speicher; oder andere Arten von Medien, die sich zur Speicherung von elektronischen Anweisungen, Operationsfolgen, funktionellen deskriptiven Informationscodierungen usw. eignen, beinhalten.Embodiments in accordance with the present invention may take the form of and / or be provided as a computer program product encoded in a machine-readable medium as instruction strings and other functional software images that are in return in a computing system such as an iPhone handheld, mobile, or portable Computing device or a content server platform can be executed to perform methods described herein. In general, a machine-readable medium may include tangible articles that provide information in a form that is readable by a machine (e.g., a computer, computing devices of a mobile device or portable computing device, etc.) (e.g., as applications, source or object code, functionally descriptive information etc.) as well as tangible memory that is suitable for the transmission of the information. A machine-readable medium can include a magnetic storage medium (e.g. disks and / or tape storage); an optical storage medium (e.g. CD-ROM, DVD, etc.); a magneto-optical storage medium; Read only memory (ROM); Random access memory (RAM); erasable programmable memory (e.g. EPROM and EEPROM); Flash memory; or other types of media suitable for storing electronic instructions, sequences of operations, functional descriptive information encodings, etc.
Allgemein kann eine Vielzahl von Instanzen für Komponenten, Operationen oder Strukturen bereitgestellt sein, die hierin als eine einzelne Instanz beschrieben sind. Grenzen zwischen verschiedenen Komponenten, Operationen und Datenspeichern sind willkürlich und spezielle Operationen sind im Zusammenhang von spezifischen veranschaulichenden Konfigurationen veranschaulicht. Andere Zuweisungen von Funktionalität werden in Betracht gezogen und können innerhalb des Schutzumfangs der Erfindung(en) fallen. Allgemein können Strukturen und Funktionalität, die als separate Komponenten in den beispielhaften Konfigurationen dargestellt sind, als eine kombinierte Struktur oder Komponente implementiert werden. Gleichermaßen können Strukturen und Funktionalität, die als eine einzelne Komponente dargestellt sind, als separate Komponenten implementiert werden. Diese und andere Variationen, Modifikationen, Zusätze und Verbesserungen können innerhalb des Schutzumfangs der Erfindung(en) fallen.Generally, a variety of instances for components, operations, or structures may be provided, which are described herein as a single instance. Limits between various components, operations, and data stores are arbitrary, and specific operations are illustrated in the context of specific illustrative configurations. Other assignments of functionality are contemplated and may fall within the scope of the invention (s). In general, structures and functionality that are represented as separate components in the exemplary configurations can be implemented as a combined structure or component. Similarly, structures and functionality depicted as a single component can be implemented as separate components. These and other variations, modifications, additions and improvements may fall within the scope of the invention (s).
Claims (43)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762548122P | 2017-08-21 | 2017-08-21 | |
US62/548,122 | 2017-08-21 | ||
PCT/US2018/047325 WO2019040492A1 (en) | 2017-08-21 | 2018-08-21 | Audio-visual effects system for augmentation of captured performance based on content thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112018004717T5 true DE112018004717T5 (en) | 2020-06-10 |
Family
ID=65439230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112018004717.2T Pending DE112018004717T5 (en) | 2017-08-21 | 2018-08-21 | Audiovisual effects system for expanding a recorded performance based on its content |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111345044B (en) |
DE (1) | DE112018004717T5 (en) |
WO (1) | WO2019040492A1 (en) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006047754A (en) * | 2004-08-05 | 2006-02-16 | Namco Ltd | Karaoke information distribution system, program, information storage medium, and karaoke information distributing method |
US8370747B2 (en) * | 2006-07-31 | 2013-02-05 | Sony Mobile Communications Ab | Method and system for adapting a visual user interface of a mobile radio terminal in coordination with music |
JP2010060627A (en) * | 2008-09-01 | 2010-03-18 | Bmb Corp | Karaoke system |
US20110126103A1 (en) * | 2009-11-24 | 2011-05-26 | Tunewiki Ltd. | Method and system for a "karaoke collage" |
US9147385B2 (en) * | 2009-12-15 | 2015-09-29 | Smule, Inc. | Continuous score-coded pitch correction |
US9866731B2 (en) * | 2011-04-12 | 2018-01-09 | Smule, Inc. | Coordinating and mixing audiovisual content captured from geographically distributed performers |
KR101377208B1 (en) * | 2012-08-17 | 2014-03-21 | 주식회사 디자인피버 | Karaoke system using synthesized image |
KR20150033757A (en) * | 2013-09-23 | 2015-04-02 | 조경환 | A Karaoke TV system by the using of an application of a mobile device |
CN104580838A (en) * | 2015-01-27 | 2015-04-29 | 苏州乐聚一堂电子科技有限公司 | Singing visual special effects system and singing visual special effects processing method |
-
2018
- 2018-08-21 CN CN201880054029.4A patent/CN111345044B/en active Active
- 2018-08-21 DE DE112018004717.2T patent/DE112018004717T5/en active Pending
- 2018-08-21 WO PCT/US2018/047325 patent/WO2019040492A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN111345044B (en) | 2023-03-21 |
WO2019040492A1 (en) | 2019-02-28 |
CN111345044A (en) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11862198B2 (en) | Synthesizing a presentation from multiple media clips | |
US11488569B2 (en) | Audio-visual effects system for augmentation of captured performance based on content thereof | |
DE112018001871T5 (en) | Audiovisual collaboration process with latency management for large-scale transmission | |
US11310538B2 (en) | Audiovisual collaboration system and method with latency management for wide-area broadcast and social media-type user interface mechanics | |
KR20180027423A (en) | A technique for automatically generating a coordinated audio visual work based on content captured from geographically dispersed players | |
US11900967B2 (en) | Template-based excerpting and rendering of multimedia performance | |
US8782176B2 (en) | Synchronized video system | |
US20220051448A1 (en) | Augmented reality filters for captured audiovisual performances | |
US11848032B2 (en) | User-generated templates for segmented multimedia performance | |
US20220122573A1 (en) | Augmented Reality Filters for Captured Audiovisual Performances | |
US20230095431A1 (en) | Template-based excerpting and rendering of multimedia performance | |
DE112018004717T5 (en) | Audiovisual effects system for expanding a recorded performance based on its content |