DE102014118075A1 - Audio und Video synchronisierendes Wahrnehmungsmodell - Google Patents

Audio und Video synchronisierendes Wahrnehmungsmodell Download PDF

Info

Publication number
DE102014118075A1
DE102014118075A1 DE102014118075.5A DE102014118075A DE102014118075A1 DE 102014118075 A1 DE102014118075 A1 DE 102014118075A1 DE 102014118075 A DE102014118075 A DE 102014118075A DE 102014118075 A1 DE102014118075 A1 DE 102014118075A1
Authority
DE
Germany
Prior art keywords
perceptual
audio
audio data
transition points
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102014118075.5A
Other languages
English (en)
Other versions
DE102014118075B4 (de
Inventor
c/o Adobe Systems Incorporated Merrill Peter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adobe Systems Inc filed Critical Adobe Systems Inc
Publication of DE102014118075A1 publication Critical patent/DE102014118075A1/de
Application granted granted Critical
Publication of DE102014118075B4 publication Critical patent/DE102014118075B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Ein Audio und Video synchronisierendes Wahrnehmungsmodell wird beschrieben, welches darauf basiert, wie eine Person Audio und/oder Video wahrnimmt (z. B. wie das Gehirn Ton- und/oder visuellen Content bearbeitet). Der relative emotionale Einfluss, welcher mit unterschiedlichen Audioabschnitten assoziiert ist, kann eingesetzt werden, um Übergangspunkte zu bestimmen, um eine automatische Synchronisation von Audiodaten mit Videodaten zu erleichtern, um eine Produktion zu erzeugen, welche einen besonderen emotionalen Gesamteffekt auf den Zuhörer/Betrachter erzielt. Verschiedene Bearbeitungstechniken des Wahrnehmungsmodells können Wahrnehmungsmerkmale bzw. -charakteristika innerhalb der Audioabschnitte verwenden, um einen Übergangspunkt für eine automatische Synchronisation mit Videodaten zu bestimmen.

Description

  • HINTERGRUND
  • Benutzer suchen zunehmend nach Wegen, um Audio und Video zu integrieren. Beispielsweise kann ein Benutzer Audio, wie beispielsweise eine Musik, einem Videosegment zuordnen. Um Audio und Video zu integrieren, können traditionelle Techniken Toncharakteristika bzw. -merkmale des Audio analysieren, ohne zu berücksichtigen, ob ein Hören des Audio einen emotionalen Einfluss auf einen Zuhörer erzeugt, insbesondere wenn es mit dem Videosegment kombiniert wird. Darüber hinaus kann ein Synchronisieren von Audio und Video unter Verwendung von traditionellen Techniken zeitaufwändig und berechnungsintensiv sein und kann von einer Eingabe von einem Benutzer bzw. Verwender abhängen.
  • ZUSAMMENFASSUNG
  • Diese Zusammenfassung führt eine Auswahl von Konzepten in einer vereinfachten Form ein, welche darüber hinaus unten in der detaillierten Beschreibung beschrieben werden. Derart ist für diese Zusammenfassung nicht beabsichtigt, wesentliche Merkmale des beanspruchten Gegenstands zu identifizieren, noch ist es beabsichtigt, dass sie als ein Hilfsmittel beim Bestimmen des Bereichs bzw. Geltungsbereichs des beanspruchten Gegenstands verwendet wird.
  • Es wird ein Audio und Video synchronisierendes Wahrnehmungsmodell beschrieben, welches darauf basiert, wie eine Person Audio und/oder Video wahrnimmt (z. B. wie das Gehirn Ton- und/oder visuellen Content bzw. Inhalt bearbeitet). In einer Implementierung sind bzw. werden Wahrnehmungsmerkmale bzw. -charakteristika eines Abschnitts von Audiodaten identifiziert, welche für einen emotionalen Einfluss (z. B. einen nostalgischen oder dramatischen Effekt) auf einen Zuhörer des Abschnitts der Audiodaten anzeigend bzw. hinweisend sind. Eine Beurteilung des relativen emotionalen Einflusses zwischen unterschiedlichen Abschnitten von Audiodaten kann basierend auf jeweiligen Merkmalen bzw. Charakteristika hergestellt bzw. durchgeführt werden. Der relative emotionale Einfluss, welcher mit unterschiedlichen Audioabschnitten assoziiert ist, kann verwendet bzw. eingesetzt werden, um Übergangspunkte zu bestimmen, um eine automatische Synchronisation von Audiodaten mit Videodaten zu erleichtern, um eine Produktion zu erzeugen, welche einen besonderen emotionalen Gesamteffekt auf den Zuhörer/Betrachter erzielt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die detaillierte Beschreibung wird unter Bezugnahme auf die beigeschlossenen Figuren beschrieben. In den Figuren identifiziert (identifizieren) die am weitesten links stehende(n) Stelle(n) eines Bezugszeichens die Figur, in welcher das Bezugszeichen erstmals auftritt. Die Verwendung derselben Bezugszeichen in unterschiedlichen Fällen in der Beschreibung und den Figuren kann ähnliche oder identische Merkmale bzw. Gegenstände bezeichnen. Entitäten, welche in den Figuren dargestellt sind, können für eine oder mehrere Entität(en) anzeigend sein und es kann somit austauschbar auf einzelne oder mehrfache Formen der Entitäten in der Diskussion Bezug genommen werden.
  • 1 ist eine Illustration einer Umgebung in einer beispielhaften Implementierung, welche betreibbar bzw. einsetzbar ist, um hierin beschriebene Techniken zu verwenden.
  • 2 stellt eine Repräsentation eines Szenarios in einer beispielhaften Implementierung dar, in welcher das Wahrnehmungsmodell ein Audiobearbeiten durchführt, um automatisch Audiodaten und Videodaten zu synchronisieren.
  • 3 stellt ein beispielhaftes Wahrnehmungsmodell dar, um hierin beschriebene Techniken zu verwenden bzw. einzusetzen.
  • 4 ist ein Flussdiagramm, welches eine Prozedur darstellt, in welcher das Wahrnehmungsmodell Übergangspunkte in Audiodaten bestimmt, bei welchen Änderungen in Videodaten für eine Produktion zu synchronisieren sind.
  • 5 ist ein Flussdiagramm, welches eine Prozedur darstellt, in welcher das Wahrnehmungsmodell einen Übergangspunkt in den Audiodaten auswählt, welcher, wenn mit einer Änderung in Videodaten synchronisiert, eine bestimmte bzw. bezeichnete emotionale Antwort in einem Zuhörer erzeugt.
  • 6 ist ein Flussdiagramm, welches eine Prozedur darstellt, in welcher das Wahrnehmungsmodell unterschiedliche Abschnitte eines Audiosignals basierend auf Werten reiht bzw. ordnet, welche für Wahrnehmungsmerkmale entsprechend den unterschiedlichen Abschnitten anzeigend sind.
  • 7 illustriert ein beispielhaftes System, beinhaltend eine beispielhafte Vorrichtung, welche für ein(e) oder mehrere Computersystem(e) und/oder Vorrichtung(en) repräsentativ ist, welche die verschiedenen hierin beschriebenen Techniken implementieren können.
  • DETAILLIERTE BESCHREIBUNG
  • Überblick
  • Traditionelle Modelle, welche Musik analysieren, um grundlegende Attribute bzw. Merkmale der Musik abzuleiten, versagen bei einer Berücksichtigung, wie ein Zuhörer die Musik aufnimmt. Somit sind traditionelle Modelle nicht gut geeignet, Punkte in einer Audioaufnahme zu finden, welche eine besondere emotionale Antwort erzielen.
  • Ein Audio und Video synchronisierendes Wahrnehmungsmodell wird beschrieben, welches darauf basiert, wie eine Person Audio und/oder Video wahrnimmt bzw. aufnimmt (z. B. wie das Gehirn Ton- und/oder visuellen Content bzw. Inhalt be- bzw. verarbeitet). In einer Implementierung werden Wahrnehmungsmerkmale eines Abschnitts von Audiodaten identifiziert, welche für einen emotionalen Einfluss (z. B. einen nostalgischen Effekt) auf einen Zuhörer des Abschnitts der Audiodaten anzeigend bzw. hinweisend sind. Die Wahrnehmungsmerkmale bzw. -charakteristika können beispielsweise ein Maß einer menschlichen Empfindlichkeit reflektieren bzw. wiedergeben, wenn der Abschnitt der Audiodaten gehört wird. Eine Beurteilung des relativen emotionalen Einflusses zwischen unterschiedlichen Abschnitten von Audiodaten kann basierend auf jeweiligen Merkmalen bzw. Charakteristika durchgeführt werden. Der relative emotionale Einfluss, welcher mit unterschiedlichen Audioabschnitten assoziiert ist, kann eingesetzt bzw. verwendet werden, um Übergangspunkte zu bestimmen, um eine automatische Synchronisation von Audiodaten mit Videodaten zu erleichtern, um eine Produktion zu erzeugen, welche einen besonderen gesamten emotionalen und/oder dramatischen Effekt bzw. Einfluss auf den Zuhörer/Betrachter erzielt bzw. ausübt.
  • Wahrnehmungsmerkmale eines Abschnitts von Audiodaten können in einer Vielzahl von Weisen identifiziert werden. Beispielsweise können die Wahrnehmungsmerkmale durch ein Analysieren von Audiodaten, ein Erzeugen bzw. Generieren eines Spektrogramms, welches graphisch die Audiodaten oder die Wahrnehmungsmerkmale repräsentiert bzw. darstellt, und/oder ein Modifizieren des Spektrogramms identifiziert werden. In Antwort auf ein Identifizieren der Wahrnehmungsmerkmale werden in einer Implementierung Werte, welche für die Wahrnehmungsmerkmale anzeigend bzw. hinweisend sind, unterschiedlichen Abschnitten der Audiodaten zugeordnet.
  • Übergangspunkte in den Audiodaten können detektiert werden, welche Wahrnehmungsmerkmalen eines Abschnitts von Audiodaten entsprechen, welche für einen emotionalen Einfluss hinweisend sind. Beispielsweise können die Übergangspunkte durch ein Filtern, ein Normalisieren, ein Anwenden einer Schwelle bzw. eines Schwellwerts, ein Vergleichen und/oder ein Kombinieren der Werte detektiert werden, welche für die Wahrnehmungsmerkmale hinweisend sind, welche unterschiedlichen Abschnitten der Audiodaten zugeordnet sind bzw. werden. Die Übergangspunkte können verwendet werden, um Audio- mit Videodaten in verschiedenen Weisen zu synchronisieren.
  • Beispielsweise können Änderungen in einer Darstellung bzw. Präsentation der Videodaten mit den Übergangspunkten in dem Audioteil synchronisiert werden. Videodaten können repräsentativ für ein Bild, eine Bild-Diavorführung, ein Videoclip, ein Videosegment und/oder ein Live Video sein. In einer Diavorführung können beispielsweise Änderungen zwischen unterschiedlichen Bildern mit den detektierten Übergangspunkten synchronisiert werden. In einem Beispiel eines Videosegments sind bzw. werden Änderungen zwischen Videorahmen oder -szenen mit den Übergangspunkten in dem Audioteil synchronisiert. In einer Implementierung kann ein Synchronisieren der Änderung in den Videodaten mit den detektierten Übergangspunkten auf einem Abstimmen einer Geschwindigkeit bzw. eines Tempos zwischen Übergangspunkten in den Audiodaten basieren. Durch ein Synchronisieren von Änderungen in einer Präsentation der Videodaten mit den Übergangspunkten in dem Audioteil wird bzw. werden die Dramatik, Emotion, Aufregung bzw. Erregung und/oder Stimmung bzw. Gemüt des Audioteils mit einer potentiell entsprechenden Dramatik, Emotion, Aufregung und/oder Stimmung in der Präsentation der Videodaten abgestimmt.
  • In der folgenden Diskussion wird eine beispielhafte Umgebung zuerst beschrieben, welche die hierin beschriebenen Techniken verwenden bzw. einsetzen kann. Beispielhafte Prozeduren werden dann beschrieben, welche in der beispielhaften Umgebung als auch anderen Umgebungen durchgeführt werden können. Demgemäß ist die Leistung bzw. Durchführung der beispielhaften Prozeduren nicht auf die beispielhafte Umgebung beschränkt und die beispielhafte Umgebung ist nicht auf die Leistung bzw. Durchführung der beispielhaften Prozeduren beschränkt.
  • Beispielhafte Umgebung
  • 1 ist eine Illustration einer Umgebung 100 in einer beispielhaften Implementierung, welche betreibbar ist, um hierin beschriebene Techniken zu verwenden bzw. einzusetzen. Die illustrierte Umgebung 100 beinhaltet eine Computer- bzw. Rechenvorrichtung 102 und ein Wahrnehmungsmodell 104, welche in einer Vielzahl von Wegen bzw. Weisen konfiguriert sein können.
  • Die Computervorrichtung 102 kann beispielsweise als ein Desktop Computer, ein Laptop Computer, eine mobile Vorrichtung (unter der Annahme einer in der Hand gehaltenen Konfiguration, wie beispielsweise ein Tablet oder Mobiltelefon), usw. konfiguriert sein. Somit kann die Computervorrichtung 102 von Vorrichtungen mit vollständigen bzw. großen Ressourcen mit beträchtlichen Speicher bzw. Prozessorressourcen (z. B. Personal Computer, Spielkonsolen) bis zu einer Vorrichtung mit geringen Ressourcen mit beschränkten Speicher- und/oder Bearbeitungsressourcen (z. B. mobilen Vorrichtungen) reichen. Zusätzlich kann, obwohl eine einzelne Computervorrichtung 102 gezeigt ist, die Computervorrichtung 102 für eine Vielzahl von unterschiedlichen Vorrichtungen repräsentativ sein, wie beispielsweise mehrfache Server, welche durch ein Unternehmen verwendet werden, um Vorgänge ”über die Cloud” durchzuführen, wie dies darüber hinaus unter Bezugnahme auf 7 beschrieben wird.
  • Das Wahrnehmungsmodell 104 ist illustriert, dass es ein Signalbearbeitungsmodul 106 und ein Synchronisiermodul 108 beinhaltet. In einer Implementierung ist das Wahrnehmungsmodell 104 betreibbar, um Techniken für ein Identifizieren von Wahrnehmungsmerkmalen bzw. -charakteristika eines Abschnitts von Audiodaten zu identifizieren, welche für einen emotionalen Einfluss (z. B. eine Fähigkeit, ein besonderes Gefühl oder eine besondere Stimmung zu veranlassen) auf einen Zuhörer des Abschnitts der Audiodaten hinweisend bzw. anzeigend sind. Zusätzlich oder alternativ ist das Wahrnehmungsmodell 104 betreibbar, um Techniken für ein Synchronisieren eines Abschnitts von Audiodaten mit Änderungen in Videodaten basierend auf bestimmten Wahrnehmungsmerkmalen für den Abschnitt der Audiodaten einzusetzen bzw. zu verwenden. Beispielsweise kann das Wahrnehmungsmodell 104 konfiguriert sein, um Übergangspunkte in den Audiodaten zu bestimmen, welche auf den Wahrnehmungsmerkmalen basieren, und automatisch eine Produktion zu konfigurieren, um die Änderungen in den Videodaten mit den Übergangspunkten zu synchronisieren. Beispielsweise und nicht als Beschränkung kann ein Gefühl von Glück bzw. Freude aktiviert bzw. hervorgerufen werden, wenn ein Betrachter ein Videosegment betrachtet, welches die Übergangspunkte mit den Videodaten unter Verwendung der hierin beschriebenen Techniken synchronisiert aufweist.
  • In wenigstens einigen Implementierungen kann das Wahrnehmungsmodell 104 von einem Lernmodell generiert bzw. erzeugt oder alternativ durch dieses aktualisiert werden. Beispielsweise kann das Wahrnehmungsmodell 104 Information empfangen bzw. erhalten, welche beschreibt, wie ein menschliches Gehirn Ton be- bzw. verarbeitet, oder kann Information empfangen, welche eine menschliche Empfindlichkeit oder menschliche Emotion beschreibt, welche mit besonderen bzw. bestimmten Tönen assoziiert ist. Unter Verwendung der empfangenen Information kann das wahrnehmende bzw. Wahrnehmungsmodell 104 konfiguriert sein bzw. werden, um einen Abschnitt der Audiodaten zu finden, welcher eine gewünschte Emotion erzeugt. Beispielsweise kann das Wahrnehmungsmodell 104 einen oder mehrere Abschnitt(e) der Audiodaten finden, welche(r) eine positive oder negative Emotion erzeugt (erzeugen). In einem spezifischen Beispiel identifiziert in Antwort auf ein Empfangen bzw. Erhalten einer Eingabe, um eine besondere Emotion zu finden, das Wahrnehmungsmodell 104 wenigstens einen Abschnitt des Audioteils (z. B. Übergangspunkt), welcher die besondere Emotion erzeugt.
  • In einer oder mehreren Implementierung(en) generiert das Wahrnehmungsmodell 104 eine Repräsentation bzw. Darstellung von empfangenen Audiodaten derart, dass die Techniken, welche durch das Wahrnehmungsmodell 104 durchgeführt werden, auf die Darstellung der Audiodaten angewandt werden.
  • Das Signalbearbeitungsmodul 106 kann konfiguriert sein bzw. werden, um Audiodaten zu bearbeiten, welche mit einem entsprechenden Audiosignal assoziiert bzw. diesem zugeordnet sind, um Wahrnehmungsmerkmale für unterschiedliche Abschnitte der Audiodaten (z. B. Punkte oder Zeitperioden innerhalb der Audiodaten) zu erzeugen bzw. zu generieren. Die Wahrnehmungsmerkmale repräsentieren ein Niveau einer Wahrnehmungsbedeutung bzw. -signifikanz für jeden unterschiedlichen Abschnitt der Audiodaten und können in einem spezifischen Beispiel einen Einflusswert, einen Wert eines rhythmischen Impulses, einen Rhythmuswert, einen melodischen Wert oder eine Kombination davon beinhalten. Der Einflusswert kann beispielsweise repräsentieren, was eine Person in einer Musik hört (z. B. wie das innere Ohr Ton be- bzw. verarbeitet und/oder die Aufmerksamkeit des Gehirns auf ein individuelles Audioauftreten). Beispielsweise kann der Einflusswert hinweisend bzw. anzeigend für rasche Änderungen in lauten und sanften bzw. leisen Lautstärken, ruhige Abschnitte, welche lauten Abschnitten vorangehen oder diesen folgen, oder eine Kombination davon. In einem spezifischen Beispiel repräsentiert der Einflusswert ein Maß einer emotionellen bzw. gefühlsmäßigen Intensität auf einen menschlichen Zuhörer.
  • Der Wert eines rhythmischen bzw. Rhythmusimpulses kann beispielsweise Töne repräsentieren, welche relativ gleichmäßig über das Frequenzspektrum von Abschnitten der Audiodaten verteilt sind. Beispielsweise kann der Wert eines rhythmischen Impulses anzeigend bzw. hinweisend für eine Lautstärke bzw. Lautheit sein, welche relativ gleichmäßig über das Frequenzspektrum eines Abschnitts der Audiodaten relativ zu einem anderen Abschnitt der Audiodaten verteilt ist.
  • Beispielsweise kann der Rhythmuswert hinweisend sein für einen Rhythmus oder eine Harmonie für den Abschnitt der Audiodaten, welcher zu dem Rhythmus beiträgt, welcher durch einen Zuhörer wahrgenommen bzw. aufgenommen wird. Demgegenüber kann der melodische bzw. Melodiewert beispielsweise eine Melodie (z. B. eine dominierende Frequenz mit Obertönen über der dominierenden Frequenz) entsprechend dem Abschnitt von Audiodaten oder ein Ausmaß bzw. einen -Grad einer Änderung in einem harmonischen Merkmal in der Zeit repräsentieren.
  • Das Signalbearbeitungsmodul 106 kann konfiguriert sein, um die Audiodaten zu bearbeiten, um die Wahrnehmungsmerkmale unter Verwendung einer Vielzahl von unterschiedlichen Vorgängen zu erzeugen bzw. zu generieren. Beispiele dieser Vorgänge können ein Konvertieren bzw. Umwandeln eines Audiosignals in ein Spektrogramm, ein Darstellen bzw. Kartieren des Spektrogramms in einen Wahrnehmungsfrequenzraum, ein Normalisieren eines dynamischen Bereichs des Spektrogramms und/oder ein Be- bzw. Verarbeiten von Werten beinhalten, welche aus dem Normalisieren resultieren (z. B. ein Anwenden einer frequenzspezifischen Dämpfungs- bzw. Abschwächungsfunktion oder eines Schwellwerts an dem normalisierten Spektrogramm). Eine Erzeugung der Wahrnehmungsmerkmale wird weiters unter Bezugnahme auf 26 beschrieben.
  • Das Synchronisiermodul 108 kann konfiguriert sein, um Audiodaten mit einer Änderung in Videodaten zu synchronisieren, um eine Produktion zu erzeugen, welche einen besonderen gesamten emotionalen, dramatischen und/oder einen eine Aufmerksamkeit induzierenden Effekt auf einen Zuhörer oder Betrachter erzielt. In einem spezifischen Beispiel kann das Synchronisiermodul 108 konfiguriert sein, um die Wahrnehmungsmerkmale zu bearbeiten, um einen Übergangspunkt innerhalb der Audiodaten zu bestimmen, zu generieren bzw. zu erzeugen oder auszuwählen, welcher eine bezeichnete bzw. bestimmte emotionale Antwort in einem Zuhörer erzeugt. In einem spezifischen Beispiel sind bzw. werden ein Einflusswert, ein Wert eines rhythmischen Impulses, ein Rhythmuswert und/oder ein Melodiewert für unterschiedliche Abschnitte der Audiodaten gefiltert, um einen oder mehrere Übergangspunkt(e) in den Audiodaten zu bestimmen.
  • In wenigstens einigen Implementierungen kann das Synchronisiermodul 108 automatisch eine Produktion konfigurieren, um Änderungen in Videodaten mit einem oder mehreren Übergangspunkt(en) zu synchronisieren, welche bestimmt werden. Daher konfiguriert in dieser Implementierung das Synchronisiermodul 108 die Produktion, um Änderungen in den Videodaten mit dem einen oder den mehreren Übergangspunkt(en) ohne eine Benutzereingabe zu synchronisieren. Alternativ kann in anderen Implementierungen ein Benutzer eine Eingabe über ein Benutzerinterface zur Verfügung stellen, um Änderungen in den Videodaten mit dem einen oder den mehreren Übergangspunkt(en) zu synchronisieren.
  • In einer Implementierung kann das Synchronisiermodul 108 konfiguriert sein, um Änderungen in Videodaten mit den detektierten Übergangspunkten basierend auf einem Abstimmen einer Geschwindigkeit bzw. eines Tempos zwischen zwei Änderungen in den Videodaten mit einer Geschwindigkeit zwischen Übergangspunkten in den Audiodaten zu synchronisieren. In dieser Implementierung synchronisiert das Synchronisiermodul 108 Änderungen in Videodaten mit den detektierten Übergangspunkten basierend auf dem Tempo bzw. der Geschwindigkeit zwischen den zwei Änderungen in den Videodaten, welche im Wesentlichen ähnlich bzw. gleich der Geschwindigkeit zwischen den Übergangspunkten in den Audiodaten sind.
  • In einer anderen Implementierung kann das Synchronisiermodul 108 konfiguriert sein, um Änderungen in Videodaten mit den detektierten Übergangspunkten basierend auf einem Abstimmen einer Glätte bzw. Gleichmäßigkeit oder Abruptheit zwischen zwei Änderungen in den Videodaten (z. B. Änderungen zwischen Videorahmen oder -szenen) mit einer Glätte oder Abruptheit zwischen Übergangspunkten in den Audiodaten zu synchronisieren. In dieser Implementierung synchronisiert das Synchronisiermodul 108 Änderungen in Videodaten mit den detektierten Übergangspunkten basierend auf der Glätte bzw. Sanftheit oder der Abruptheit zwischen den zwei Änderungen in den Videodaten, welche im Wesentlichen ähnlich zu der Glätte oder Abruptheit zwischen den Übergangspunkten in den Audiodaten sind.
  • Obwohl das Wahrnehmungsmodell 104 illustriert ist, dass es auf der Computervorrichtung 102 implementiert ist, sollte leicht erkennbar bzw. augenscheinlich sein, dass andere Implementierungen auch in Betracht gezogen werden, in welchen das Wahrnehmungsmodell 104 auf einer getrennten Vorrichtung, wie beispielsweise einem entfernten Server, einem lokalen Server oder einer anderen entfernten Computervorrichtung implementiert ist. Darüber hinaus wird, obwohl illustriert ist, dass es durch eine Computervorrichtung 102 in einer Desktop Konfiguration zur Verfügung gestellt wird, eine Vielzahl von anderen Konfigurationen auch in Betracht gezogen, wie beispielsweise entfernt über ein Netzwerk 110 als ein Teil einer Web-Plattform, wie dies weiter unter Bezugnahme auf 6 beschrieben wird.
  • Unabhängig davon, wo es implementiert ist, ist das Wahrnehmungsmodell 104 repräsentativ für eine Funktionalität, welche konfiguriert ist, um Audiodaten zu bearbeiten, um Abschnitte der Audiodaten zu identifizieren, welche einen besonderen emotionalen Effekt auf einen Zuhörer ergeben bzw. bereitstellen.
  • 2 stellt allgemein bei 200 eine Darstellung eines Szenarios in einer beispielhaften Implementierung dar, in welcher das Wahrnehmungsmodell 104 von 1 ein Audiobearbeiten durchführt, um automatisch Audiodaten und Videodaten zu synchronisieren. Wie dies in 2 dargestellt ist, kann ein Audiobearbeiten auftreten, in welchem ein Audiosignal 202 gemäß dem Wahrnehmungsmodell 104 be- bzw. verarbeitet wird, um einen oder mehrere Übergangspunkt(e) 204 für das Audiosignal zu bestimmen. In einer Implementierung kann bzw. können der eine oder die mehreren Übergangspunkt(e) 204 für eine automatische Synchronisation 206 eingesetzt bzw. verwendet werden, in welcher Audiodaten, welche mit dem einen oder den mehreren Übergangspunkt(en) 204 assoziiert sind, mit Videodaten synchronisiert werden. Hier sind bzw. werden die Audiodaten und Videodaten basierend auf Übergangspunkten kombiniert, welche durch das Bearbeiten festgestellt bzw. ermittelt werden, um eine synchronisierte Produktion 208 zu erzeugen. Zusätzlich oder alternativ können, nachdem das Wahrnehmungsmodell 104 ein Audiobearbeiten durchführt und den Übergangspunkt 204 bestimmt, Werte, welche mit dem einen oder den mehreren Übergangspunkt(en) 204 assoziiert sind, in einem Speicher (z. B. entweder lokal oder entfernt) für eine spätere Verwendung gespeichert werden.
  • Insbesondere kann das Audiosignal 202 beispielsweise assoziierte bzw. zugeordnete Audiodaten beinhalten, um durch das Wahrnehmungsmodell 104 bearbeitet zu werden. Das Audiosignal 202 kann repräsentativ für jeglichen Typ von Ton (mit oder ohne Sprache), wie beispielsweise Musik (mit oder ohne Rhythmus) sein. In einer spezifischen Implementierung beinhaltet das Audiosignal 202 Audiodaten geringer Auflösung und das Wahrnehmungsmodell 104 bearbeitet die Audiodaten geringer Auflösung.
  • Ein oder mehrere Übergangspunkt(e) 204 kann bzw. können während der automatischen Synchronisation 206 verwendet werden. Beispielsweise kann das Wahrnehmungsmodell 104 mehrfache ”potentielle” Übergangspunkte identifizieren und einige oder alle der Übergangspunkte für eine Synchronisation auswählen, um eine bestimmte emotionale Antwort in dem Zuhörer (relativ zu anderen, nicht-ausgewählten Übergangspunkten in einem Satz von potentiellen Übergangspunkten) zu erzielen. In diesem Beispiel kann das Wahrnehmungsmodell 104 konfiguriert sein, um einen Trefferwert und/oder ein Gewicht bzw. eine Gewichtung jedem Übergangspunkt in dem Satz von Übergangspunkten zuzuordnen. In einigen Fällen wird bzw. werden der Trefferwert und/oder die Gewichtung nach einem Bearbeiten jedes Übergangspunkts in dem Satz von Übergangspunkten (z. B. durch ein Einstellen oder Modifizieren des bestimmten Übergangspunkts) zugeordnet. Zusätzliche Details betreffend ein Bearbeiten von Übergangspunkten werden unter Bezugnahme auf 3 unten beschrieben.
  • Die automatische Synchronisation 206 kann konfiguriert sein, um die synchronisierte Produktion 208 durch ein Einsetzen, Ausrichten, Verbinden, Beschneiden, Neuanordnen, Modifizieren und/oder anderweitiges Durchführen von Vorgängen an Abschnitten der Audio- und Videodaten zu erzeugen, welches geeignet ist, um die Audiodaten mit einer oder mehreren Änderung(en) in den Videodaten gemäß den Übergangspunkten 204 zu synchronisieren, welche ausgewählt werden. Dies kann beispielsweise durch das Wahrnehmungsmodell 104 ermöglicht werden. Demgemäß ist bzw. wird die synchronisierte Produktion 208 konfiguriert, um Audiodaten zu beinhalten, welche mit Videoänderungen an dem (den) Übergangspunkt(en) 204 synchronisiert sind, wodurch eine bestimmte emotionale Antwort in einem Zuhörer oder Betrachter der Produktion erzeugt wird.
  • 3 stellt ein beispielhaftes Wahrnehmungsmodell 300 dar, um hierin beschriebene Techniken einzusetzen. Beispielsweise beinhaltet, wie dies illustriert ist, das Wahrnehmungsmodell 104 das Signalbearbeitungsmodul 106, das Synchronisiermodul 108, ein Wahrnehmungsmerkmale-Generatormodul 302, ein Übergangspunkt-Generatormodul 304, ein Übergangspunkt-Bearbeitungsmodul 306, ein Übergangspunkt-Auswahlmodul 308 und ein Produktions-Synchronisiermodul 310.
  • Wie dies illustriert ist, beinhaltet das Signalbearbeitungsmodul 106 ein Wahrnehmungsmerkmale-Generatormodul 302. Das Signalbearbeitungsmodul 106, welches vorher erwähnt wurde, kann konfiguriert sein, um Audiodaten zu bearbeiten, welche mit einem entsprechenden Audiosignal assoziiert sind, um Wahrnehmungsmerkmale für unterschiedliche Abschnitte von Audiodaten zu generieren. Die Wahrnehmungsmerkmale repräsentieren ein Niveau einer Wahrnehmungssignifikanz für die unterschiedlichen Abschnitte der Audiodaten.
  • Das Wahrnehmungsmerkmale-Generatormodul 302 generiert bzw. erzeugt Wahrnehmungsmerkmale bzw. -charakteristika für unterschiedliche Abschnitte von Audiodaten. Die Wahrnehmungsmerkmale können einen oder mehrere Wert(e) beinhalten, welche(r) für einen Einfluss einer Produktion auf einen Benutzer bzw. Verwender hinweisend bzw. anzeigend ist bzw. sind, wie beispielsweise einen Einflusswert, einen Wert eines rhythmischen Impulses, einen Rhythmuswert und/oder einen melodischen bzw. Melodiewert, welche mit Audiodaten assoziiert sind. Eine Vielzahl von unterschiedlichen Vorgängen kann verwendet bzw. eingesetzt werden, um die Wahrnehmungsmerkmale zu generieren. Beispiele dieser Vorgänge können beinhalten, sind jedoch nicht beschränkt auf ein Konvertieren bzw. Umwandeln eines Audiosignals in ein Spektrogramm, ein Kartieren bzw. Darstellen bzw. Aufzeichnen des Spektrogramms in einem Wahrnehmungsfrequenzraum (z. B. Wahrnehmungsfrequenzskala), ein Normalisieren eines dynamischen Bereichs des Spektrogramms und/oder ein Be- bzw. Verarbeiten von Werten, welche aus dem Normalisieren resultieren. In einem Beispiel ist der Wahrnehmungsmerkmale-Generator 302 konfiguriert, um einen Einflusswert, einen Wert eines rhythmischen Impulses, einen Rhythmuswert und/oder einen melodischen Wert zu generieren.
  • Ein Einflusswert kann durch ein Multiplizieren einer absoluten Lautstärke bzw. Lautheit und einer Änderung in einer Lautstärke mit der Zeit generiert werden. Hier kann die Lautstärke durch ein Anwenden einer Aufzeichnungsfunktion an dem Spektrogramm in dem Wahrnehmungsfrequenzraum bestimmt werden. In einigen Beispielen kann die Lautstärke, welche verwendet wird, um den Einflusswert zu generieren, von 0 bis 1 normalisiert sein bzw. werden.
  • Ein Wert eines rhythmischen Impulses kann durch ein Analysieren einer Lautstärke generiert werden, welche über ein Audiofrequenzspektrum verteilt ist. Beispielsweise kann eine Lautstärke durch ein Anwenden einer Aufzeichnungsfunktion an dem Spektrogramm in dem Wahrnehmungsfrequenzraum bestimmt werden. Ein Analysieren der Lautstärke kann ein Bestimmen beinhalten, wie gleichmäßig die Lautstärke über das Audiofrequenzspektrum verteilt ist. Zusätzlich oder alternativ kann ein Wert eines rhythmischen Impulses durch ein Anwenden von konventionellen Filtertechniken an dem Spektrogramm generiert werden. In diesem Beispiel kann das Filter bei einer Abtastauflösung zwischen etwa 25–50 Millisekunden angewandt werden. In einer Implementierung kann der rhythmische Impuls durch ein Filtern eines melodischen bzw. Melodieinhalts generiert werden.
  • Der Wahrnehmungsmerkmale-Generator 302 kann den Rhythmuswert durch ein Anwenden eines Schwellwerts an Werten des normalisierten Spektrogramms bestimmen oder generieren. In einem anderen Beispiel kann der Wahrnehmungsmerkmale-Generator 302 den melodischen Wert durch ein Anwenden einer frequenzspezifischen Dämpfungsfunktion an dem normalisierten Spektrogramm bestimmen oder generieren. Zusätzlich oder alternativ kann der Wahrnehmungsmerkmale-Generator 302 den melodischen Wert durch ein Anwenden einer Bearbeitungstechnik bestimmen oder generieren, welche ein Ausmaß bzw. einen Grad einer Änderung in harmonischen Merkmalen der Audiodaten über eine besondere Zeitperiode analysiert. Der Wahrnehmungsmerkmale-Generator 302 kann darüber hinaus konfiguriert sein, um andere Arten von Wahrnehmungsmerkmalen, welche für einen Einfluss einer Produktion auf einen Benutzer hinweisend ist, zusätzlich dazu oder anstelle davon abzuleiten, dass er konfiguriert ist, um einen Einfluss, einen rhythmischen Impuls, einen Rhythmus und/oder melodische bzw. Melodiewerte zu generieren.
  • In einer oder mehreren Implementierung(en) werden die Wahrnehmungsmerkmale lokal in einem Speicher bei der Computervorrichtung 102 gespeichert. Zusätzlich oder alternativ können die Wahrnehmungsmerkmale in einem Speicher entfernt von der Computervorrichtung 102, wie beispielsweise in einer entfernten Datenbank oder einem entfernten Server gespeichert und/oder auf diese davon zugegriffen werden.
  • Die Wahrnehmungsmerkmale können durch ein Konvertieren bzw. Umwandeln des Audiosignals in ein Spektrogramm unter Verwendung von verschiedenen Techniken generiert werden. Beispielsweise kann das Konvertieren ein Generieren bzw. Erzeugen des Spektrogramms durch Anwenden einer Schnellen bzw. Fast Fourier-Transformierten (FFT) auf das Audiosignal (oder entsprechende Audiodaten) beinhalten. Darüber hinaus kann die FFT bei einer Zeitauflösung angewandt werden, welche mit einem Codierformat des Audiosignals oder der Audiodaten übereinstimmt. Beispielsweise kann das Codierformat MP3, Advanced Audio Coding (AAC), WAV und/oder WMA beinhalten, um lediglich einige Beispiele zu nennen.
  • Zusätzlich oder alternativ können die Wahrnehmungsmerkmale durch ein Aufzeichnen eines Spektrogramms des Audiosignals in einem Wahrnehmungsfrequenzraum generiert werden, welches ein Aufzeichnen des Spektrogramms in einen Equivalent Rectangular Bandwidth (ERB) Raum beinhalten kann. Dieser Zugang kann ein Normalisieren eines dynamischen Bereichs eines Spektrogramms des Audiosignals, wie beispielsweise durch ein Normalisieren des Spektrogramms zwischen Werten von null und eins oder ein Verwenden eines anderen bezeichneten bzw. bestimmten Normalisierungswertbereichs involvieren. In einer oder mehreren Implementierung(en) kann das Normalisieren in Antwort auf ein Auslöseevent bzw. ein auslösendes Ereignis, wie beispielsweise ein Aufzeichnen eines Spektrogramms eines Audiosignals in einen Wahrnehmungsfrequenzraum, eine Konversion des Audiosignals in ein Spektrogramm oder einen anderen Auslöser durchgeführt werden.
  • Indem mit beispielhaften Vorgängen für ein Generieren der Wahrnehmungsmerkmale fortgesetzt wird, kann der Wahrnehmungsmerkmale-Generator 302 konfiguriert sein, um zu erkennen, dass ein Spektrogramm des Audiosignals eine ERB Achse und eine Zeitachse beinhaltet. In Antwort auf die Erkenntnis kann der Wahrnehmungsmerkmale-Generator 302 arbeiten, um eine Differenz für jeden der Werte entlang der ERB Achse an einem oder mehreren Punkt(en) entlang der Zeitachse zu berechnen. Mit anderen Worten kann der Wahrnehmungsmerkmale-Generator 302 eine erste Ableitung entlang der Zeitachse unter Verwendung von Standardtechniken in dem Fachgebiet berechnen. In einer oder mehreren Implementierung(en) kann jeder der Differenzwerte zu jeder Zeit durch ein Anwenden einer frequenzspezifischen Dämpfungsfunktion entlang der ERB Achse summiert werden. Das Resultat, welches aus diesem Summieren abgeleitet wird, ist der melodische Wert, welcher als ein Wert verwendet bzw. eingesetzt werden kann, welcher für Wahrnehmungsmerkmale in hierin beschriebenen Techniken hinweisend bzw. anzeigend ist. Ein anderer Wert, welcher für die Wahrnehmungsmerkmale hinweisend ist, wird durch ein Anwenden eines Schwellwerts an dem Resultat eines Summierens von jedem der oben erwähnten Differenzwerte bestimmt. Alternativ kann der Rhythmuswert durch ein Anwenden eines Schwellwerts an jedem Wert entlang der ERB Achse vor einem Summieren von jedem der Differenzwerte bestimmt werden. In jedem Fall wird der Wert, welcher aus einem Anwenden des Schwellwerts abgeleitet wird, als der Rhythmuswert hierin bezeichnet. Der Schwellwert, welcher angewandt wird, kann ein Bereich von Werten oder ein Wert oberhalb oder unterhalb eines spezifischen Werts sein. Beispielsweise kann der Schwellwert einen Wert zwischen 0,1 und 0,4 spezifizieren.
  • Wie dies darüber hinaus illustriert ist, beinhaltet das Synchronisiermodul 108 das Übergangspunkt-Generatormodul 304, das Übergangspunkt-Bearbeitungsmodul 306, das Übergangspunkt-Auswahlmodul 308 und das Produktions-Synchronisiermodul 310. Das Synchronisiermodul 108 ist konfiguriert, um Audiodaten mit einer Änderung in Videodaten zu synchronisieren, um eine Produktion zu erzeugen, welche einen besonderen gesamten emotionalen Effekt bei einem Zuhörer oder Betrachter erzielt.
  • Das Übergangspunkt-Generatormodul 304 ist konfiguriert, um Übergangspunkte innerhalb von Audiodaten zu bestimmen. Die Übergangspunkte können unter Verwendung einer Vielzahl von unterschiedlichen Vorgängen bzw. Bearbeitungen identifiziert oder bestimmt werden. In einem Beispiel wird ein Identifizieren der Übergangspunkte durch ein Filtern von einem oder mehreren der Wahrnehmungsmerkmale ermöglicht, welche durch das Wahrnehmungsmerkmale-Generatormodul 302 erzeugt bzw. generiert werden. Beispielsweise kann bzw. können ein oder mehrere Übergangspunkt(e) durch ein Anwenden eines Kammfilters an einem oder mehreren Wert(en) des rhythmischen Impulses oder durch ein Verwenden von anderen Filtern in einer vergleichbaren Weise identifiziert werden, um Wahrnehmungsmerkmale zu detektieren, welche mit unterschiedlichen Abschnitten von Audiodaten assoziiert bzw. diesen zugeordnet sind. In einem spezifischen Beispiel kann ein Kammfilter an einem Array bzw. Feld von Werten des rhythmischen Impulses angewandt werden.
  • Zusätzlich oder alternativ können Übergangspunkte durch ein Integrieren von zwei oder mehreren Wahrnehmungsmerkmalen über die Zeit bestimmt werden, welche einen Schwellwert überschreiten. Beispielsweise sind bzw. werden in Antwort auf ein Bestimmen, dass Werte (z. B. Werte des rhythmischen Impulses oder Einflusswerte), welche für die zwei oder mehreren Wahrnehmungsmerkmale hinweisend sind, einen minimalen Schwellwert überschreiten, die zwei oder mehreren Wahrnehmungsmerkmale kombiniert. Die Werte der kombinierten Wahrnehmungsmerkmale für unterschiedliche Abschnitte des Audioteils können dann miteinander verglichen werden, um Übergangspunkte auszuwählen, welche bestimmte bzw. bezeichnete Kriterien erfüllen.
  • Das Übergangspunkt-Bearbeitungsmodul 306 bearbeitet einen oder mehrere bestimmte(n) Übergangspunkt(e). Ein Be- bzw. Verarbeiten des einen oder der mehreren Übergangspunkts (-punkte) kann eine Kombination von Vorgängen bzw. Bearbeitungen beinhalten, beinhaltend eines oder mehrere eines Normalisierens von Übergangspunkten auf eine Standardabweichung der Übergangspunkte über einen bestimmten Zeitrahmen, eines Betonens des (der) Übergangspunkts (-punkte), eines Anwendens von Gewichtungen an dem (den) Obergangspunkt(en), eines Vergleichens von Treffern bzw. Trefferwerten, welche mit zwei oder mehreren Übergangspunkten assoziiert sind, und/oder eines Bestimmens einer Geschwindigkeit zwischen zwei oder mehreren Übergangspunkten. Durch ein Bearbeiten des einen oder der mehreren Übergangspunkts (-punkte) können rasche Änderungen in der Lautstärke und/oder einem Abstand zwischen lauten und weichen bzw. leisen Abschnitten des Audioteils berücksichtigt werden, wodurch erlaubt wird, dass der bearbeitete Übergangspunkt einen größeren wahrgenommenen emotionalen Einfluss auf einen Zuhörer relativ zu einem nicht-bearbeiteten Übergangspunkt reflektiert bzw. wiedergibt.
  • Darüber hinaus kann das Übergangspunkt-Bearbeitungsmodul 306 konfiguriert sein, um Übergangspunkte auf eine Standardabweichung der Übergangspunkte über einen besonderen Zeitrahmen zu normalisieren. Im Allgemeinen wird ein Zeitrahmen in der Größenordnung von einigen Sekunden oder Bruchteilen einer Sekunde eingesetzt bzw. verwendet (z. B. ein Intervall in dem Bereich von 0 bis 5 Sekunden), obwohl größere Zeitrahmen (z. B. mehr als 5 Sekunden) auch ausgewählt werden können. Beispielsweise können die Übergangspunkte auf eine Standardabweichung über alle Übergangspunkte in einer Zeitperiode von 1,5 Sekunden oder einem anderen Zeitrahmen normalisiert werden. Durch ein Normalisieren der Übergangspunkte, wie dies beschrieben ist, werden rasche Änderungen in der Lautstärke in einer Weise übertrieben, welche emuliert bzw. nachahmt, wie das Gehirn möglicherweise Ton verarbeitet.
  • Zusätzlich oder alternativ kann das Übergangspunkt-Bearbeitungsmodul 306 den einen oder die mehreren Übergangspunkt(e) hervorheben, um die bezeichnete emotionale Antwort in dem Zuhörer zu verstärken. Dies kann beispielsweise durch ein Einstellen eines Peak- bzw. Spitzenenergiewerts entsprechend wenigstens einem Übergangspunkt erzielt werden. Der Spitzenenergiewert kann ein numerischer Wert sein, welcher eine Fähigkeit für einen Übergangspunkt repräsentiert, eine bezeichnete emotionale Antwort in einem Zuhörer zu erzeugen. Ein Einstellen des Spitzenenergiewerts kann beispielsweise ein Erhöhen oder Verringern einer Lautstärke bzw. Lautheit für die assoziierte bzw. zugeordnete Produktion beinhalten.
  • Gewichte bzw. Gewichtungen können an den Übergangspunkten basierend auf einem oder mehreren Kriterium (Kriterien) angewandt werden. In einigen Beispielen können Gewichtungen an einem oder mehreren Übergangspunkt(en) basierend auf einer Lautstärke oder Stille, welche mit dem Übergangspunkt assoziiert ist, einer Änderung in einer Lautstärke oder Stille des Übergangspunkts relativ zu einer Lautstärke oder Stille eines anderen Übergangspunkts, und/oder einem Grad einer Einstellung auf den Spitzenenergiewert entsprechend dem Übergangspunkt angewandt werden. Zusätzlich oder alternativ kann eine Gewichtung an einem Übergangspunkt angewandt werden, um anzuzeigen, wie nahe bzw. unmittelbar der Übergangspunkt mit einer gewünschten Geschwindigkeit zwischen Übergangspunkten übereinstimmt. Beispielsweise kann eine Gewichtung an einem Übergangspunkt angewandt werden, um seine Zuordnung zu bzw. mit einer besonderen Emotion anzuzeigen.
  • Ein Bearbeiten durch das Übergangspunkt-Bearbeitungsmodul 306 kann auch ein Vergleichen von Trefferwerten bzw. Bewertungen beinhalten, welche mit zwei oder mehreren Übergangspunkten assoziiert bzw. diesen zugeordnet sind. Bewertungen können einem Übergangspunkt basierend auf einer Vielzahl von Faktoren zugeordnet werden, welche beispielsweise eine Stärke einer Lautstärke des Übergangspunkts oder eine Änderung in der Lautstärke des Übergangspunkts relativ zu einem anderen Übergangspunkt beinhalten (z. B. einem Übergangspunkt, welcher vorausgeht oder nachfolgt). Demgemäß kann eine Bewertung, welche einem Übergangspunkt zugeordnet wird, in einigen Beispielen die ”Härte” des Übergangspunkts reflektieren. Beispielsweise kann ein harter Übergang hinweisend bzw. anzeigend für eine plötzliche Änderung in einer Lautstärke oder Lautheit von einem Übergangspunkt zu einem anderen sein, während ein weicher bzw. sanfter Übergang hinweisend für eine geringe Änderung in einer Lautstärke oder Lautheit von einem Übergangspunkt zu einem anderen sein kann.
  • Zusätzlich oder alternativ kann eine Bewertung einem Übergangspunkt basierend auf einem zeitlichen Faktor zugeordnet werden. Beispielsweise kann ein zugeordneter Wert bzw. eine zugeordnete Bewertung auf einem Grad bzw. Ausmaß einer Änderung in einer. Lautstärke oder Lautheit über eine bestimmte Zeitperiode vor und/oder nach einem Übergangspunkt basieren. In diesem Beispiel kann von der zugeordneten Bewertung gedacht bzw. angenommen werden, dass sie eine ”Pop” Bewertung aufgrund der Bewertung ist, welche eine Wahrscheinlichkeit reflektiert, dass der Übergangspunkt eine Aufmerksamkeit des Zuhörers erlangt. Beispielsweise kann eine höhere ”Pop” Bewertung einem Übergangspunkt zugeordnet werden, welcher einen raschen Anstieg einer Lautheit über eine besondere Zeitperiode aufweist, während eine niedrigere ”Pop” Bewertung einem Übergangspunkt zugeordnet werden kann, welcher einen langsameren Anstieg bzw. ein langsameres Einsetzen einer Lautheit über eine bestimmte Zeitperiode aufweist. In einer oder mehreren Implementierung(en) kann eine zugeordnete Bewertung zwischen 0 und 1 normalisiert werden. Durch ein Vergleichen der Bewertungen miteinander, welche mit den zwei oder mehreren Übergangspunkten assoziiert sind, kann ein besonderer Übergangspunkt für ein Synchronisieren mit einer Änderung in Videodaten ausgewählt werden (oder es können mehrfache Übergangspunkte ausgewählt werden), wie dies oben und unten diskutiert wird.
  • Optional kann ein Bearbeiten durch das Übergangspunkt-Bearbeitungsmodul 306 auch ein Löschen bzw. Entfernen von einem oder mehreren Übergangspunkt(en) aus einem Satz von bestimmten Übergangspunkten beinhalten, um eine gewünschte Geschwindigkeit zwischen zwei Übergangspunkten zu erzeugen. Beispielsweise können Übergangspunkte, welche zu nahe zueinander oder zu unvereinbar miteinander sind (z. B. eine rasche Änderung in einer Lautstärke relativ zu einem benachbarten Übergangspunkt zeigen), nicht angenehm für einen Zuhörer sein. In diesem Beispiel kann ein Übergangspunkt gelöscht werden, um zwischen Übergangspunkten ”die Geschwindigkeit herabzusetzen”, um dramatischere oder angenehmere Übergangspunkte für eine Synchronisation zu erzeugen. Ein Löschen eines Übergangspunkts kann insbesondere hilfreich in Beispielen sein, wenn eine leise Auswahl in einem Audioteil zwei Übergangspunkte so nahe zueinander aufweist, dass ein Aufnehmen bzw. Beinhalten von beiden irritierend bzw. unverträglich erscheinen würde. Um einen Übergangspunkt für eine Löschung bzw. Entfernung auszuwählen, werden die Wahrnehmungsmerkmale, welche verwendet werden, um den besonderen bzw. bestimmten Übergangspunkt zu bestimmen, mit einem Schwellwert verglichen (z. B. wenn der melodische Wert, welcher mit dem Übergangspunkt assoziiert ist, unter einem Schwellwert liegt, dann wird der Übergangspunkt aus dem Satz von bestimmten Übergangspunkten gelöscht). Somit kann eine gewünschte Geschwindigkeit zwischen Übergangspunkten durch ein selektives Löschen von einem oder mehreren Übergangspunkt(en) erzeugt werden. In einigen Beispielen kann eine gewünschte Geschwindigkeit zwischen Übergangspunkten im Wesentlichen gleich der am häufigsten vorhandenen Frequenz in einem Audiosignal sein.
  • In Antwort auf ein Detektieren oder Bearbeiten der Übergangspunkte kann das Wahrnehmungsmodell 104 konfiguriert sein, um zu veranlassen, dass Daten, welche für die Übergangspunkte hinweisend sind, für eine Verwendung in einer Vielzahl von Weisen gesichert bzw. gespeichert werden. In einem spezifischen Beispiel werden Daten, welche für die Übergangspunkte hinweisend sind, basierend wenigstens teilweise auf einem Vergleichen einer Bewertung oder einer Gewichtung mit anderen Datenpunkten gesichert. Wie dies erwähnt ist, können die Daten, welche für die Übergangspunkte hinweisend sind, lokal und/oder entfernt gesichert werden. Zusätzlich können die Übergangspunkte (mit oder ohne einem Sichern) verwendet werden, um eine synchronisierte Produktion 208 durch eine automatische Synchronisation 206 zu generieren.
  • Insbesondere kann das Übergangspunkt-Auswahlmodul 308 konfiguriert sein, um einen oder mehrere der Übergangspunkte als einen Punkt auszuwählen, bei welchem eine Änderung in Videodaten, wenn sie mit den Audiodaten an dem Übergangspunkt synchronisiert werden, eine bestimmte bzw. bezeichnete emotionale Antwort in einem Zuhörer erzeugt (z. B. einen maximalen emotionalen und/oder nostalgischen Effekt bei einem Zuhörer ergibt). Beispielsweise kann der Übergangspunkt durch ein Vergleichen einer Gewichtung oder Bewertung ausgewählt werden, welche unterschiedlichen Übergangspunkten zugeordnet wird. In einer oder mehreren Implementierung(en) kann ein Übergangspunkt bearbeitet werden, nachdem er ausgewählt wurde, wie dies hierin beschrieben ist.
  • In einer oder mehreren Implementierung(en) können Übergangspunkte vorher bestimmt und als Daten in einem Speicher (z. B. lokal oder entfernt) gespeichert werden. Hier können die vorher bestimmten Übergangspunkte durch das Wahrnehmungsmodell 104 aus einem lokalen Speicher, einer entfernten Datenbank, einem entfernten Server oder einer entfernten Speichervorrichtung abgerufen werden. In einem spezifischen Beispiel kann ein Benutzerinterface (lokal oder entfernt) eine Anforderung für eine automatische Synchronisation an das Wahrnehmungsmodell 104 senden und in Antwort auf ein Empfangen bzw. Erhalten der Anforderung ruft das Wahrnehmungsmodell 104 die vorher bestimmten Übergangspunkte ab und bewirkt an diesen, dass sie mit einer Änderung in Videodaten synchronisiert werden.
  • Das Übergangspunkt-Auswahlmodul 308 kann darüber hinaus konfiguriert sein, um den einen oder die mehreren Übergangspunkt(e) basierend auf einer Geschwindigkeit zwischen zwei oder mehr Änderungen in den Videodaten auszuwählen, welche im Wesentlichen ähnlich einer Geschwindigkeit zwischen zwei oder mehreren Übergangspunkten sind. In diesem Zugang wird die gewünschte Geschwindigkeit zwischen den zwei Übergangspunkten auf eine Geschwindigkeit zwischen Rahmen oder Szenen in den Videodaten abgestimmt.
  • Das Produktions-Synchronisiermodul 310 kann konfiguriert sein, um eine Produktion zu erzeugen, welche Audiodaten mit einer Änderung in Videodaten synchronisiert. Beispielsweise kann das Produktions-Synchronisiermodul 310 automatisch eine Produktion konfigurieren, um Änderungen in den Videodaten mit dem einen oder den mehreren Übergangspunkt(en) zu synchronisieren, welche(r) bestimmt und/oder betont wird bzw. werden. Beispielsweise kann die ”Pop” Bewertung, welche dem einem oder den mehreren Übergangspunkt(en) zugeordnet wird, das Produktions-Synchronisiermodul 310 befähigen, automatisch eine Produktion zu konfigurieren, um Änderungen in den Videodaten zu synchronisieren.
  • Verschiedene Vorgänge, wie beispielsweise ein Analysieren, Bestimmen, Empfangen bzw. Erhalten, Speichern, Generieren, Aufzeichnen, usw., welche durch verschiedene Module durchgeführt werden, werden hierin diskutiert. Es sollte geschätzt bzw. erkannt werden, dass die verschiedenen Module in verschiedenen Kombinationen mit einer Funktionalität konfiguriert sein bzw. werden können, um zu bewirken, dass diese und andere Vorgänge durchgeführt werden. Eine Funktionalität, welche mit einem besonderen Modul assoziiert ist, kann darüber hinaus unter verschiedenen Modulen aufgeteilt werden, und/oder die Funktionalität, welche durch mehrfache Module repräsentiert ist, kann gemeinsam in ein einziges logisches Modul kombiniert werden. Darüber hinaus kann ein besonderes Modul konfiguriert sein bzw. werden, um eine Leistung bzw. Durchführung eines Vorgangs direkt durch das besondere bzw. bestimmte Modul zu bewirken. Zusätzlich oder alternativ kann das besondere Modul besondere Vorgänge durch ein Aufrufen oder anderweitiges Zugreifen von bzw. auf andere(n) Komponenten oder Module(n) bewirken, um die besonderen bzw. bestimmten Vorgänge durchzuführen (oder die Vorgänge im Zusammenhang mit diesem bestimmten Modul durchzuführen).
  • Beispielhafte Prozeduren
  • Die folgende Diskussion beschreibt Wahrnehmungsmodell- bzw. -modelliertechniken, welche unter Verwendung der vorher beschriebenen Systeme und Vorrichtungen implementiert werden können. Aspekte von jeder der Prozeduren können in Hardware, Firmware oder Software oder einer Kombination davon implementiert werden. Die Prozeduren sind als ein Satz von Blöcken gezeigt, welche Vorgänge spezifizieren, welche durch eine oder mehrere Vorrichtung(en) durchgeführt werden, und sind nicht notwendigerweise auf die Reihenfolgen beschränkt bzw. begrenzt, welche für ein Durchführen der Vorgänge durch die jeweiligen Blöcke gezeigt sind. Darüber hinaus kann bzw. können jeder beliebige Block oder beliebige Blöcke der Prozedur in unterschiedlichen Implementierungen miteinander kombiniert oder vollständig weggelassen werden. Darüber hinaus können Blöcke, welche mit unterschiedlichen repräsentativen Prozeduren und entsprechenden Figuren hierin assoziiert sind, gemeinsam angewandt bzw. eingesetzt werden. Somit können die individuellen Vorgänge, welche über die verschiedenen unterschiedlichen Prozeduren spezifiziert sind, in jeglichen geeigneten Kombinationen verwendet werden und sind nicht auf die bestimmten bzw. besonderen Kombinationen beschränkt, welche durch die beispielhaften Figuren repräsentiert werden. In Abschnitten der folgenden Diskussion kann auf die Beispiele von 13 Bezug genommen werden.
  • 4 ist ein Flussdiagramm, welches eine Prozedur 400 darstellt, in welcher das Wahrnehmungsmodell Übergangspunkte in Audiodaten bestimmt, bei welchen Änderungen in Videodaten für eine Produktion zu synchronisieren sind.
  • Audiodaten werden analysiert, um Wahrnehmungsmerkmale bzw. -charakteristika zu detektieren, welche für einen emotionalen Einfluss auf einen Zuhörer anzeigend bzw. hinweisend sind (Block 402). Beispielsweise kann das Wahrnehmungsmodell 104 Audiodaten be- bzw. verarbeiten, welche mit dem Audiosignal 202 assoziiert sind, indem jegliche der hierin beschriebenen Techniken verwendet werden. Das Bearbeiten kann Vorgänge durch das Signalbearbeitungsmodul 106 des Wahrnehmungsmoduls 104 beinhalten, um ein Audiosignal in ein Spektrogramm umzuwandeln, das Spektrogramm in einen Wahrnehmungsfrequenzraum aufzuzeichnen, einen dynamischen Bereich des Spektrogramms zu normalisieren, einen Schwellwert an dem normalisierten Spektrogramm anzuwenden und/oder eine frequenzspezifische Dämpfungsfunktion an dem normalisierten Spektrogramm anzuwenden. Das Wahrnehmungsmodell 104 verwendet die bearbeiteten Audiodaten, um die Wahrnehmungsmerkmale zu detektieren, welche für den emotionalen Einfluss auf den Zuhörer an unterschiedlichen Punkten oder Abschnitten innerhalb des Audiosignals 202 hinweisend sind. Darüber hinaus können die detektierten Wahrnehmungsmerkmale, welche für den emotionalen Einfluss auf den Zuhörer hinweisend sind, einen Einfluss, einen rhythmischen Impuls, einen Rhythmus und/oder melodische Werte ebenso wie andere Werte beinhalten, welche für Wahrnehmungsmerkmale hinweisend sind.
  • Basierend wenigstens teilweise auf den Wahrnehmungsmerkmalen, welche detektiert werden, wird bzw. werden ein oder mehrere Übergangspunkt(e) in den Audiodaten detektiert, bei welchem(n) mit Änderungen in Videodaten für eine Herstellung bzw. Produktion mit den Audiodaten zu synchronisieren ist (Block 404). Beispielsweise kann das Wahrnehmungsmodell 104 einen Übergangspunkt in den Audiodaten durch ein Filtern von einem oder mehreren der Wahrnehmungsmerkmale bestimmen. In einer oder mehreren Implementierung(en) können die bestimmten Übergangspunkte darüber hinaus bearbeitet werden, wie dies hierin beschrieben ist (z. B. ein Vergleichen einer Gewichtung von Übergangspunkten miteinander oder ein Bestimmen einer Geschwindigkeit zwischen Übergangspunkten).
  • Die Produktion ist bzw. wird automatisch konfiguriert, um die Änderungen in den Videodaten mit dem einen oder den mehreren Übergangspunkt(en) zu synchronisieren, welche(r) bestimmt wird bzw. werden (Block 406). Beispielsweise kann das Synchronisiermodul 108 die Produktion konfigurieren, um die Änderungen in den Videodaten mit dem einen oder den mehreren bestimmten Übergangspunkt(en) in verschiedenen Weisen zu synchronisieren, wobei Beispiele hiervon in diesem Dokument beschrieben sind bzw. werden. In wenigstens einigen Implementierungen wird bzw. werden der eine oder die mehreren Übergangspunkt(e) modifiziert, um den emotionalen Einfluss auf den Zuhörer durch ein Einstellen eines Spitzenenergiewerts entsprechend wenigstens einem Übergangspunkt zu betonen. Ein Einstellen des Spitzenenergiewerts kann beispielsweise ein Erhöhen oder Verringern einer Lautheit an dem besonderen bzw. bestimmten Übergangspunkt beinhalten.
  • 5 ist ein Flussdiagramm, welches eine Prozedur 500 darstellt, in welcher das Wahrnehmungsmodell einen Übergangspunkt in den Audiodaten auswählt, welche, wenn sie mit einer Änderung in den Videodaten synchronisiert werden, eine bezeichnete emotionale Antwort in einem Zuhörer erzeugen.
  • Ein Wert oder mehrere Werte, welch(r) für Wahrnehmungsmerkmale hinweisend ist bzw. sind, wird bzw. werden unterschiedlichen Abschnitten von Audiodaten basierend wenigstens teilweise auf einem Spektrogramm zugeordnet, welches generiert wird, um die Wahrnehmungsmerkmale zu repräsentieren (Block 502). Beispielsweise kann das Wahrnehmungsmodell 104 einen Rhythmusimpulswert und/oder einen Einflusswert unterschiedlichen Abschnitten von Audiodaten basierend auf Vorgängen zuordnen, welche durch das Signalbearbeitungsmodul 106 durchgeführt werden, von welchen Beispiele oben unter Bezugnahme auf 14 diskutiert wurden.
  • Ein Übergangspunkt wird in den Audiodaten als ein Punkt ausgewählt, bei welchem eine Änderung in Videodaten, wenn sie mit den Audiodaten an dem Übergangspunkt synchronisiert werden, eine bezeichnete emotionale Antwort in einem Zuhörer erzeugt (Block 504). Beispielsweise kann das Wahrnehmungsmodell 104 die zugeordneten Werte, welche für die Wahrnehmungsmerkmale hinweisend sind (z. B. einen Rhythmusimpulswert und/oder einen Einflusswert), miteinander vergleichen, um den Übergangspunkt aus einem Satz von bestimmten Übergangspunkten auszuwählen. Ein ”Erzeugen der bestimmten bzw. bezeichneten emotionalen Antwort in dem Zuhörer kann ein Auswählen eines Übergangspunkts beinhalten, welcher mit einer bestimmten Emotion assoziiert ist (z. B. erregt, glücklich, ruhig, etc.). Beispielsweise kann ein Übergangspunkt basierend auf einer zugeordneten Gewichtung ausgewählt werden, welche für ihre Assoziation mit der besonderen Emotion hinweisend ist.
  • 6 ist ein Flussdiagramm, welches eine Prozedur 600 darstellt, in welcher das Wahrnehmungsmodell unterschiedliche Abschnitte eines Audiosignals basierend auf Werten reiht bzw. ordnet, welche für Wahrnehmungsmerkmale entsprechend den unterschiedlichen Abschnitten hinweisend sind.
  • Werte, welche für Wahrnehmungsmerkmale entsprechend unterschiedlichen Abschnitten eines Audiosignals hinweisend sind, werden festgestellt bzw. ermittelt (Block 602). Beispielsweise kann das Wahrnehmungsmodell 104 ein Audiosignal 202 bearbeiten und Werte generieren, welche für die Wahrnehmungsmerkmale hinweisend sind, wie dies hierin unter Bezugnahme auf 23 und andernorts diskutiert wurde.
  • Die unterschiedlichen Abschnitte des Audiosignals werden gemäß einem wahrgenommenen emotionalen Einfluss auf einen Zuhörer basierend wenigstens teilweise auf den ermittelten Werten gereiht (Block 604). Beispielsweise kann das Wahrnehmungsmodell 104 die unterschiedlichen Abschnitte des Audiosignals gemäß den festgestellten bzw. ermittelten Werten reihen, welche für ein Induzieren des wahrgenommenen emotionalen Einflusses auf den Zuhörer hinweisend sind. Beispielsweise kann das Wahrnehmungsmodell 104 eine Bewertung zu zwei oder mehr der ermittelten Werte zuordnen und dann die Bewertungen bzw. Trefferwerte vergleichen, um die ermittelten Werte zu reihen. Jegliche geeignete Bewertungstechnik kann verwendet werden, um die in diesem Dokument beschriebenen Techniken zu implementieren.
  • Ein oder mehrere Übergangspunkt(e) wird bzw. werden in dem Audiosignal bestimmt, mit welchem(n) eine Änderung in Videodaten basierend auf der Reihung der unterschiedlichen Abschnitte des Audiosignals zu synchronisieren ist (Block 606). Beispielsweise kann das Synchronisiermodul 108 die Reihung verwenden, um automatisch den einen oder die mehreren Übergangspunkt(e) in dem Audiosignal zu bestimmen, mit bzw. bei welchem(n) die Änderung in den Videodaten zu synchronisieren ist. Eine synchronisierte Produktion kann dann in der Weise, welche vorher beschrieben wurde, für eine Ausgabe an einen Betrachter erzeugt werden.
  • Beispielhaftes System und beispielhafte Vorrichtung
  • 7 illustriert ein beispielhaftes System 700, welches allgemein eine beispielhafte Computer- bzw. Rechenvorrichtung 702 beinhaltet, welche für ein(e) oder mehrere Computersystem(e) und/oder Vorrichtung(en) repräsentativ ist, welche die verschiedenen, hierin beschriebenen Techniken implementieren kann bzw. können. Dies wird durch eine Aufnahme des Wahrnehmungsmodells 104 illustriert, welches konfiguriert sein kann, um Audiodaten zu bearbeiten. Die Computervorrichtung 702 kann beispielsweise ein Server eines Serviceproviders, eine Vorrichtung, welche mit einem Client assoziiert ist (z. B. eine Client-Vorrichtung), ein On-Chip-System und/oder jegliche andere geeignete Computervorrichtung oder jegliches andere Computersystem sein.
  • Die beispielhafte Computervorrichtung 702, wie sie illustriert ist, beinhaltet ein Bearbeitungs- bzw. Prozesssystem 704, ein oder mehrere computerlesbare(s) Medium (Medien) 706, und ein oder mehrere I/O Interface(s) 708, welche miteinander kommunikativ gekoppelt sind. Obwohl dies nicht gezeigt ist, kann die Computervorrichtung 702 darüber hinaus einen Systembus oder ein anderes Daten- und Befehls-Übertragungssystem beinhalten, welches die verschiedenen Komponenten miteinander koppelt. Ein Systembus kann eine beliebige oder eine Kombination von unterschiedlichen Busstrukturen beinhalten, wie beispielsweise einen Speicherbus oder einen Speichercontroller, einen Peripheriebus, einen Universal Serial Bus und/oder einen Prozessor oder einen Local Bus, welcher irgendeine einer Vielzahl von Busarchitekturen verwendet. Eine Vielzahl von anderen Beispielen wird auch in Betracht gezogen, wie beispielsweise Regel- bzw. Steuer- und Datenleitungen.
  • Das Bearbeitungssystem 704 ist repräsentativ für eine Funktionalität, um einen Vorgang oder mehrere Vorgänge unter Verwendung von Hardware durchzuführen. Dementsprechend ist das Bearbeitungssystem 704 illustriert, dass es ein Hardware-Element 710 beinhaltet, welches als Prozessoren, funktionelle Blöcke, usw. konfiguriert sein kann. Dies kann eine Implementierung in Hardware als eine anwendungsspezifische integrierte Schaltung oder eine andere Logikvorrichtung beinhalten, welche unter Verwendung von einem oder mehreren Halbleiter(n) gebildet wird. Die Hardware-Elemente 710 sind nicht durch die Materialien beschränkt, aus welchen sie gebildet werden, oder die darin verwendeten bzw. eingesetzten Prozess- bzw. Bearbeitungsmechanismen. Beispielsweise können Prozessoren aus (einem) Halbleiter(n) und/oder Transistoren bestehen (z. B. elektronische integrierte Schaltungen (ICs)). In einem derartigen Kontext können durch einen Prozessor ausführbare Instruktionen bzw. Anweisungen elektronisch ausführbare Instruktionen sein.
  • Die computerlesbaren Speichermedien 706 sind illustriert, dass sie einen Speicher/Arbeitsspeicher 712 beinhalten. Der Speicher/Arbeitsspeicher 712 repräsentiert eine Speicher/Arbeitsspeicher-Kapazität, welche mit einem oder mehreren computerlesbaren Medium (Medien) assoziiert ist. Die Speicher/Arbeitsspeicher-Komponente 712 kann flüchtige Medien (wie beispielsweise einen Direktzugriffsspeicher (RAM)) und/oder nicht-flüchtige Medien (wie beispielsweise Nur-Lesespeicher (ROM), Flash Speicher, optische Platten, magnetische Platten, usw.) beinhalten. Die Speicher/Arbeitsspeicher-Komponente 712 kann fixierte Medien (z. B. RAM, ROM, eine festgelegte Festplatte, usw.) als auch entfernbare Medien (z. B. Flash Speicher, eine entfernbare Festplatte, eine optische Platte, usw.) beinhalten. Die computerlesbaren Medien 706 können in einer Vielzahl von anderen Wegen konfiguriert sein, wie dies weiter unten beschrieben wird.
  • Das (Die) Eingabe/Ausgabe-Interface(s) 708 ist bzw. sind repräsentativ für eine Funktionalität, um einem Benutzer zu erlauben, Befehle und Information zu der Computervorrichtung 702 einzugeben, und auch zu erlauben, dass dem Benutzer und/oder anderen Komponenten oder Vorrichtungen unter Verwendung von verschiedenen Eingabe/Ausgabe-Vorrichtungen Information präsentiert wird.
  • Beispiele von Eingabevorrichtungen beinhalten eine Tastatur, eine Cursor-Steuervorrichtung (z. B. eine Maus), ein Mikrofon, einen Scanner, eine Berührungsfunktionalität (z. B. kapazitive oder andere Sensoren, welche konfiguriert sind, um eine physikalische Berührung zu detektieren), eine Kamera (z. B. welche sichtbare oder nicht-sichtbare Wellenlängen, wie beispielsweise Infrarotfrequenzen verwenden bzw. einsetzen kann, um eine Bewegung als Gesten zu erkennen, welche nicht eine Berührung involvieren bzw. bedingen), usw. Beispiele von Ausgabevorrichtungen beinhalten eine Anzeigevorrichtung (z. B. einen Monitor oder Projektor), Lautsprecher, einen Printer, eine Netzwerkkarte, eine Berührungs-Antwort-Vorrichtung, usw. Somit kann die Computervorrichtung 702 in einer Vielzahl von Wegen konfiguriert sein, wie dies weiter unten beschrieben wird, um eine Benutzerinteraktion zu unterstützen.
  • Verschiedene Techniken können hierin in dem allgemeinen Kontext von Software, Hardware-Elementen oder Programmmodulen beschrieben sein bzw. werden. Im Allgemeinen beinhalten derartige Module Routinen, Programme, Objekte bzw. Gegenstände, Elemente, Komponenten, Datenstrukturen, usw., welche bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Die Ausdrücke ”Modul”, ”Funktionalität” und ”Komponente”, wie sie hierin verwendet werden, repräsentieren allgemein Software, Firmware, Hardware oder eine Kombination davon. Die Merkmale der hierin beschriebenen Techniken sind von einer Plattform unabhängig, wobei dies bedeutet, dass die Techniken auf einer Vielzahl von kommerziellen Computerplattformen implementiert sein bzw. werden können, welche eine Vielzahl von Prozessoren aufweisen.
  • Ein Computerprogrammprodukt kann als ein Signal und/oder als ein Datenstrom und/oder als ein computerlesbares Medium, insbesondere als ein computerlesbares Speichermedium ausgeführt werden bzw. verkörpert sein. Eine Ausführungsform der beschriebenen Module und Techniken kann auf einer gewissen Form von computerlesbaren Medien gespeichert oder über diese übertragen werden. Die computerlesbaren Medien können eine Vielzahl von Medien beinhalten, auf welche durch die Computervorrichtung 702 zugegriffen werden kann. Beispielhaft und nicht als Beschränkung können computerlesbare Medien ”computerlesbare Speichermedien” und ”computerlesbare Signalmedien” beinhalten.
  • ”Computerlesbare Speichermedien” beziehen sich auf Medien und/oder Vorrichtungen, welche eine dauernde bzw. dauerhafte und/oder nicht-vorübergehende Speicherung von Information im Gegensatz zu einer bloßen Signalübertragung, Trägerwellen oder Signalen per se ermöglichen. Somit beziehen sich computerlesbare Speichermedien auf nicht ein Signal tragende Medien. Die computerlesbaren Speichermedien beinhalten Hardware, wie beispielsweise flüchtige und nicht-flüchtige, entfernbare und nicht-entfernbare Medien und/oder Speichervorrichtungen, welche in einem Verfahren oder einer Technologie implementiert sind, welche für eine Speicherung von Information geeignet sind, wie beispielsweise computerlesbare Instruktionen, Datenstrukturen, Programmmodule, logische Elemente/Schaltungen oder andere Daten. Beispiele von computerlesbaren Speichermedien können beinhalten, sind jedoch nicht beschränkt auf RAM, ROM, EEPROM, Flash Speicher oder eine andere Speichertechnologie, CD-ROM, Digital Versatile Disks (DVD) oder eine andere optische Speicherung, Festplatten, Magnetkassetten, Magnetbänder, Magnetplattenspeicherung oder andere magnetische Speichervorrichtungen, oder eine andere Speichervorrichtung, greifbare bzw. konkrete Medien oder Gegenstände bzw. Artikel einer Herstellung, welche geeignet sind, um die gewünschte Information zu speichern, und auf welche durch einen Computer zugegriffen werden kann.
  • ”Computerlesbare Signalmedien” beziehen sich auf ein ein Signal tragendes Medium, welches konfiguriert ist, um Instruktionen zu der Hardware der Computervorrichtung 702, beispielsweise über ein Netzwerk zu übertragen. Signalmedien können typischerweise computerlesbare Instruktionen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie beispielsweise Trägerwellen, Datensignalen, oder einem anderen Transportmechanismus verkörpern. Signalmedien können auch jegliche Informationsliefermedien beinhalten. Der Ausdruck ”moduliertes Datensignal” bedeutet ein Signal, welches eines oder mehrere seiner Merkmale in einer derartigen Weise eingestellt bzw. festgelegt oder geändert aufweist, um Information in dem Signal zu codieren. Beispielhaft und nicht als Beschränkung beinhalten Kommunikationsmedien verdrahtete Medien, wie beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, und drahtlose Medien, wie beispielsweise akustische, RF bzw. HF, Infrarot und andere drahtlose Medien.
  • Wie dies vorher beschrieben wurde, sind Hardware-Elemente 710 und computerlesbare Medien 706 repräsentativ für Module, eine programmierbare Vorrichtungslogik und/oder eine festgelegte Vorrichtungslogik, welche in einer Hardwareform implementiert ist, welche in wenigstens einigen Implementierungen verwendet bzw. eingesetzt werden kann, um wenigstens einige Aspekte der hierin beschriebenen Techniken zu implementieren, um beispielsweise eine oder mehrere Anweisung(en) durchzuführen. Hardware kann Komponenten einer integrierten Schaltung oder ein On-Chip System, eine anwendungsspezifische integrierte Schaltung (ASIC), ein feld-programmierbares Gate Array (FPGA), eine komplexe programmierbare logische Vorrichtung (CPLD) und andere Implementierungen in Silizium oder anderer Hardware beinhalten. In diesem Zusammenhang bzw. Kontext kann Hardware als eine Bearbeitungsvorrichtung arbeiten, welche Programmaufgaben durchführt, welche durch Instruktionen bzw. Anweisungen und/oder eine Logik definiert sind, welche durch die Hardware verkörpert wird bzw. werden, als auch eine Hardware, welche verwendet wird, um Instruktionen für eine Ausführung zu speichern, z. B. die vorher beschriebenen computerlesbaren Speichermedien.
  • Kombinationen des Vorangehenden können auch verwendet werden, um verschiedene hierin beschriebene Techniken zu implementieren. Demgemäß kann bzw. können Software, Hardware oder ausführbare Module als eine oder mehrere Anweisung(en) und/oder eine Logik implementiert sein bzw. werden, welche auf einer gewissen Form von computerlesbaren Speichermedien und/oder durch ein oder mehrere Hardware-Element(e) 710 verkörpert ist bzw. sind. Die Computervorrichtung 702 kann konfiguriert sein, um gewisse bzw. besondere Instruktionen und/oder Funktionen entsprechend den Software- und/oder Hardware-Modulen zu implementieren. Demgemäß kann eine Implementierung eines Moduls, welches durch die Computervorrichtung 702 ausführbar ist, als Software wenigstens teilweise in Hardware, z. B. durch eine Verwendung von computerlesbaren Speichermedien und/oder Hardware-Elementen 710 des Prozesssystems 704 erzielt werden. Die Instruktionen und/oder Funktionen können durch einen oder mehrere Artikel einer Herstellung (beispielsweise ein(e) oder mehrere Computervorrichtung(en) 702 und/oder Prozesssystem(e) 704) ausführbar/betätigbar sein, um Techniken, Module und Beispiele zu implementieren, welche hierin beschrieben sind.
  • Die hierin beschriebenen Techniken können durch verschiedene Konfigurationen der Computervorrichtung 702 unterstützt werden und sind nicht auf die spezifischen Beispiele der hierin beschriebenen Techniken beschränkt bzw. begrenzt. Diese Funktionalität kann auch insgesamt oder teilweise durch eine Verwendung eines verteilten Systems, wie beispielsweise über eine ”Cloud” 714 über eine Plattform 716 implementiert sein bzw. werden, wie dies unten beschrieben wird.
  • Die Cloud 714 beinhaltet und/oder ist repräsentativ für eine Plattform 716 für Ressourcen 718. Die Plattform 716 abstrahiert eine zugrunde liegende Funktionalität von Hardware (z. B. Servern) und Software-Ressourcen der Cloud 714. Die Ressourcen 718 können Applikationen bzw. Anwendungen und/oder Daten beinhalten, welche verwendet werden können, während ein Rechen- bzw. Computerbearbeiten auf Servern ausgeführt wird, welche entfernt von der Computervorrichtung 702 sind. Die Ressourcen 718 können auch Services bzw. Dienstleistungen beinhalten, welche über das Internet und/oder durch ein Abonnentennetzwerk, wie beispielsweise ein Mobiltelefon- oder Wi-Fi-Netzwerk zur Verfügung gestellt werden.
  • Die Plattform 716 kann Ressourcen und Funktionen abstrahieren, um die Computervorrichtung 702 mit anderen Computervorrichtungen zu verbinden bzw. zu koppeln. Die Plattform 716 kann auch dazu dienen, um ein Skalieren von Ressourcen zu abstrahieren bzw. durchzuführen, um ein entsprechendes Niveau einer Skalierung bzw. Größe für eine angetroffene Nachfrage nach den Ressourcen 718 zur Verfügung zu stellen, welche über die Plattform 716 implementiert werden. Demgemäß kann in einer Ausführungsform einer verbundenen bzw. angeschlossenen Vorrichtung bzw. Device eine Implementierung einer Funktionalität, welche hierin beschrieben ist, über das System 700 verteilt sein bzw. werden. Beispielsweise kann die Funktionalität teilweise auf der Computervorrichtung 702 als auch über die Plattform 716 implementiert werden, welche die Funktionalität der Cloud 714 abstrahiert bzw. nutzt.
  • Ein Audio und Video synchronisierendes Wahrnehmungsmodell wird beschrieben, welches darauf basiert, wie eine Person Audio und/oder Video wahrnimmt (z. B. wie das Gehirn Ton- und/oder visuellen Content bearbeitet). Der relative emotionale Einfluss, welcher mit unterschiedlichen Audioabschnitten assoziiert ist, kann eingesetzt werden, um Übergangspunkte zu bestimmen, um eine automatische Synchronisation von Audiodaten mit Videodaten zu erleichtern, um eine Produktion zu erzeugen, welche einen besonderen emotionalen Gesamteffekt auf den Zuhörer/Betrachter erzielt. Verschiedene Bearbeitungstechniken des Wahrnehmungsmodells können Wahrnehmungsmerkmale bzw. -charakteristika innerhalb der Audioabschnitte verwenden, um einen Übergangspunkt für eine automatische Synchronisation mit Videodaten zu bestimmen.
  • Schlussfolgerung
  • Obwohl die Erfindung in einer für strukturelle Merkmale und/oder methodologische Vorgänge spezifischen Sprache beschrieben wurde, ist zu verstehen bzw. davon auszugehen, dass der Gegenstand, welcher in den beigeschlossenen Ansprüchen definiert ist, nicht notwendigerweise auf die spezifischen Merkmale oder Vorgänge beschränkt bzw. begrenzt ist, welche beschrieben sind. Eher sind bzw. werden die spezifischen Merkmale und Vorgänge als beispielhafte Formen eines Implementierens des beanspruchten Gegenstands geoffenbart.

Claims (11)

  1. Verfahren, umfassend: ein Analysieren von Audiodaten, um Wahrnehmungsmerkmale zu detektieren, welche für einen emotionalen Einfluss auf einen Zuhörer anzeigend sind; ein Bestimmen basierend wenigstens teilweise auf den Wahrnehmungsmerkmalen, welche detektiert werden, von einem oder mehreren Übergangspunkt(en) in den Audiodaten, bei welchen Änderungen in Videodaten für eine Produktion mit den Audiodaten zu synchronisieren sind; und ein automatisches Konfigurieren der Produktion, um die Änderungen in den Videodaten mit dem einen oder den mehreren Übergangspunkt(en) zu synchronisieren, welche bestimmt werden.
  2. Verfahren nach Anspruch 1, wobei die Wahrnehmungsmerkmale bzw. -charakteristika wenigstens einen Rhythmuswert beinhalten, welcher für einen Rhythmusinhalt der Audiodaten anzeigend ist.
  3. Verfahren nach einem der vorangehenden Ansprüche, wobei ein Detektieren der Wahrnehmungsmerkmale umfasst: (i) ein Generieren eines Spektrogramms der Audiodaten unter Verwendung einer Schnellen Fourier-Transformierten (FFT); (ii) ein Abbilden des Spektrogramms auf einen Wahrnehmungsfrequenzraum; und (iii) in Antwort auf das Abbilden ein Normalisieren eines dynamischen Bereichs des Spektrogramms; wobei ein Wert für ein erstes Wahrnehmungsmerkmal vorzugsweise durch ein Anwenden eines Schwellwerts auf das normalisierte Spektrogramm detektiert wird; und/oder wobei ein Wert für ein zweites Wahrnehmungsmerkmal vorzugsweise durch ein Anwenden einer frequenzspezifischen Dämpfungs- bzw. Abschwächungsfunktion auf das normalisierte Spektrogramm detektiert wird.
  4. Verfahren nach einem der vorangehenden Ansprüche, wobei ein Bestimmen des einen oder der mehreren Übergangspunkts (-punkte) ein Integrieren von zwei oder mehreren Wahrnehmungsmerkmalen umfasst, welche einen Schwellwert überschreiten.
  5. Verfahren nach einem der vorangehenden Ansprüche, darüber hinaus umfassend vor einem automatischen Konfigurieren der Produktion, um die Änderungen in den Videodaten mit dem einen oder den mehreren Übergangspunkt(en) zu synchronisieren, ein Bearbeiten des einen oder der mehreren Übergangspunkts (-punkte), um den emotionalen Einfluss auf den Zuhörer zu betonen; wobei ein Bearbeiten des einen oder der mehreren Übergangspunkts (-punkte) vorzugsweise eines oder mehreres enthält von: (i) einem Normalisieren des einen oder der mehreren Übergangspunkts (-punkte) auf eine Standardabweichung des einen oder der mehreren Übergangspunkts (-punkte) über einen besonderen Zeitrahmen; (ii) einem Einstellen eines Spitzenenergiewerts gemäß dem einen oder den mehreren Übergangspunkt(en); (iii) einem Anwenden von Gewichtungen an dem einen oder den mehreren Übergangspunkt(en); (iv) ein Vergleichen von Treffern bzw. Werten, welche mit zwei oder mehreren Übergangspunkten assoziiert werden; und/oder (v) ein Bestimmen eines Tempos zwischen zwei oder mehreren Übergangspunkten.
  6. Computerprogrammprodukt, umfassend computerlesbare Instruktionen, welche, wenn auf ein geeignetes System geladen und auf diesem ausgeführt, die Schritte eines Verfahrens gemäß einem der vorangehenden Ansprüche ausführen.
  7. Computerprogrammprodukt, umfassend Instruktionen, welche in Antwort auf eine Ausführung durch eine Computervorrichtung veranlassen, dass die Computervorrichtung Vorgänge durchführt, umfassend: ein Ermitteln von Werten, welche für Wahrnehmungsmerkmale bzw. -charakteristika gemäß unterschiedlichen Abschnitten eines Audiosignals anzeigend sind; ein Reihen der unterschiedlichen Abschnitte des Audiosignals gemäß einem wahrgenommenen emotionalen Einfluss auf einen Zuhörer basierend wenigstens teilweise auf den ermittelten Werten; und ein Bestimmen basierend auf der Reihung der unterschiedlichen Abschnitte des Audiosignals von einem oder mehreren Übergangspunkt(en) in dem Audiosignal, bei welchem(n) eine Änderung in Videodaten zu synchronisieren ist.
  8. Computerprogrammprodukt nach Anspruch 7, wobei die Instruktionen veranlassen, dass die Computervorrichtung weitere Vorgänge durchführt, umfassend ein Einstellen eines Energiewerts von wenigstens einem Übergangspunkt in dem Audiosignal, um den wahrgenommenen emotionalen Einfluss auf den Zuhörer während eines Playback des entsprechenden Übergangspunkts zu ändern, und/oder wobei die Instruktionen veranlassen, dass die Computervorrichtung weitere Vorgänge durchführt, umfassend ein Bewerten der ermittelten Werte und Vergleichen der Werte bzw. Treffer miteinander, so dass die Reihung auf dem Bewerten und dem Vergleichen basiert.
  9. System, umfassend: ein oder mehrere Modul(e), welche(s) wenigstens teilweise in Hardware implementiert ist bzw. sind, wobei das eine oder die mehreren Modul(e) konfiguriert ist bzw. sind, um: einen oder mehrere Wert(e) zuzuordnen, welche(r) für Wahrnehmungsmerkmale anzeigend ist bzw. sind, zu unterschiedlichen Abschnitten von Audiodaten basierend wenigstens teilweise auf einem Spektrogramm, welches generiert wird, um die Wahrnehmungsmerkmale zu repräsentieren; und basierend auf einem Vergleich der zugeordneten Werte, welche für die Wahrnehmungsmerkmale miteinander anzeigend sind, einen Übergangspunkt in den Audiodaten als einen Punkt auszuwählen, bei welchem eine Änderung in Videodaten, wenn sie mit den Audiodaten an dem Übergangspunkt synchronisiert sind bzw. werden, eine bestimmte emotionale Antwort in einem Zuhörer erzeugt.
  10. System nach Anspruch 9, wobei der eine oder die mehreren Wert(e), welche(r) für die Wahrnehmungsmerkmale anzeigend ist bzw. sind, einen Einflusswert beinhaltet (beinhalten), welcher ein Maß für eine emotionale Intensität auf einen menschlichen Zuhörer repräsentiert; und/oder wobei das Spektrogramm, welches generiert wird, um die Wahrnehmungsmerkmale zu repräsentieren, durch ein Anwenden einer schnellen Fourier-Transformierten an den Audiodaten bei einer Zeitauflösung generiert wird, welche mit einem Codierformat des Audioteils übereinstimmt; und/oder wobei der eine oder die mehreren Wert(e), welche(r) für die Wahrnehmungsmerkmale anzeigend ist bzw. sind, einen rhythmischen Impulswert beinhaltet (beinhalten), welcher Töne repräsentiert, welche relativ gleichmäßig bei einem jeweiligen Abschnitt der Audiodaten verteilt sind, wie dies durch das Spektrogramm angezeigt wird, welches erzeugt wird, um die Wahrnehmungsmerkmale zu repräsentieren; und/oder wobei das eine oder die mehreren Modul(e) darüber hinaus konfiguriert ist bzw. sind, um den Übergangspunkt der Audiodaten mit Videodaten basierend wenigstens teilweise auf dem einen oder den mehreren zugeordneten Wert(en) zu synchronisieren, welche(r) für die Wahrnehmungsmerkmale anzeigend ist bzw. sind; und/oder wobei ein Vergleichen des (der) zugeordneten einen oder mehreren Werts (Werte) miteinander ein Vergleichen einer Spitzenenergie für jeden jeweiligen Wert beinhaltet, wie dies durch das Spektrogramm angezeigt wird.
  11. System nach Anspruch 9 oder 10, wobei das eine oder die mehreren Modul(e) darüber hinaus konfiguriert ist bzw. sind, um die Audiodaten entsprechend dem ausgewählten Übergangspunkt zu betonen, um die bestimmte bzw. bezeichnete emotionale Antwort in dem Zuhörer zu verstärken; und/oder wobei das eine oder die mehreren Modul(e) darüber hinaus konfiguriert ist bzw. sind, um zwei oder mehrere Werte, welche für die Wahrnehmungsmerkmale anzeigend sind, vor einem Vergleichen des (der) zugeordneten einen oder mehreren Werts (Werte) miteinander zu kombinieren; und/oder wobei das Spektrogramm, welches generiert wird, um die Wahrnehmungsmerkmale zu repräsentieren, generiert wird durch: (i) ein Abbilden des Spektrogramms in einen Wahrnehmungsfrequenzraum; (ii) ein Normalisieren eines dynamischen Bereichs des Spektrogramms; und (iii) ein Anwenden einer frequenzspezifischen Dämpfungs- bzw. Abschwächungsfunktion auf das normalisierte Spektrogramm.
DE102014118075.5A 2014-01-08 2014-12-08 Audio und Video synchronisierendes Wahrnehmungsmodell Active DE102014118075B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/150,226 2014-01-08
US14/150,226 US9972357B2 (en) 2014-01-08 2014-01-08 Audio and video synchronizing perceptual model

Publications (2)

Publication Number Publication Date
DE102014118075A1 true DE102014118075A1 (de) 2015-07-09
DE102014118075B4 DE102014118075B4 (de) 2021-04-22

Family

ID=52597336

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014118075.5A Active DE102014118075B4 (de) 2014-01-08 2014-12-08 Audio und Video synchronisierendes Wahrnehmungsmodell

Country Status (4)

Country Link
US (3) US9972357B2 (de)
CN (1) CN104768049B (de)
DE (1) DE102014118075B4 (de)
GB (1) GB2523635B (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972357B2 (en) 2014-01-08 2018-05-15 Adobe Systems Incorporated Audio and video synchronizing perceptual model
TWI603303B (zh) * 2016-07-28 2017-10-21 南臺科技大學 運用懷舊體驗之認知偵測及情緒抒發系統
US10178365B1 (en) 2017-08-25 2019-01-08 Vid Inc. System and method for combining audio tracks with video files
EP3785109A1 (de) * 2018-04-27 2021-03-03 Thinklabs Medical LLC Verarbeitung von audioinformationen für aufzeichnung, wiedergabe, visuelle darstellung und analyse
CN108986843B (zh) * 2018-08-10 2020-12-11 杭州网易云音乐科技有限公司 音频数据处理方法及装置、介质和计算设备
CN111405357A (zh) * 2019-01-02 2020-07-10 阿里巴巴集团控股有限公司 音视频编辑方法、装置及存储介质
GB2580937B (en) * 2019-01-31 2022-07-13 Sony Interactive Entertainment Europe Ltd Method and system for generating audio-visual content from video game footage
CN112398952A (zh) * 2020-12-09 2021-02-23 英华达(上海)科技有限公司 电子资源推送方法、系统、设备及存储介质
CN112735472B (zh) * 2020-12-25 2024-04-09 航天科工深圳(集团)有限公司 音视频旋律动作自生成方法及装置
CN113099283B (zh) * 2021-03-30 2023-02-14 深圳市冠标科技发展有限公司 监控画面和声音同步的方法及相关设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994022128A1 (en) * 1993-03-23 1994-09-29 Alex Blok Sound-to-light graphics system
US7260306B2 (en) * 1996-06-04 2007-08-21 Hitachi Kokusai Electric, Inc. Editing method for recorded information
US6173074B1 (en) * 1997-09-30 2001-01-09 Lucent Technologies, Inc. Acoustic signature recognition and identification
AUPP624698A0 (en) 1998-09-29 1998-10-22 Canon Kabushiki Kaisha Method and apparatus for multimedia editing
US8006186B2 (en) 2000-12-22 2011-08-23 Muvee Technologies Pte. Ltd. System and method for media production
US7027124B2 (en) 2002-02-28 2006-04-11 Fuji Xerox Co., Ltd. Method for automatically producing music videos
US7212248B2 (en) * 2002-09-09 2007-05-01 The Directv Group, Inc. Method and apparatus for lipsync measurement and correction
ATE447755T1 (de) * 2003-02-06 2009-11-15 Dolby Lab Licensing Corp Kontinuierliche audiodatensicherung
DE10322722B4 (de) * 2003-05-20 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Synchronisieren eines Audiossignals mit einem Film
US20060020880A1 (en) 2004-07-22 2006-01-26 Yi-Kai Chen System and method for synchronization of music and images
US20080138029A1 (en) 2004-07-23 2008-06-12 Changsheng Xu System and Method For Replay Generation For Broadcast Video
CN101180870B (zh) 2004-12-13 2010-09-08 穆维科技有限公司 自动编辑媒体记录的方法
CN100341330C (zh) * 2005-02-25 2007-10-03 吉林大学 音视频混合信号同步压缩中的音频嵌入视频及其提取方法
JP4346613B2 (ja) * 2006-01-11 2009-10-21 株式会社東芝 映像要約装置及び映像要約方法
JP5082327B2 (ja) * 2006-08-09 2012-11-28 ソニー株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US7623755B2 (en) * 2006-08-17 2009-11-24 Adobe Systems Incorporated Techniques for positioning audio and video clips
US7948981B1 (en) * 2006-10-23 2011-05-24 Adobe Systems Incorpoated Methods and apparatus for representing audio data
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
EP2203850A1 (de) * 2007-08-31 2010-07-07 International Business Machines Corporation Methode zur synchronisierung von datenströmen
GB201109731D0 (en) 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
US20130330062A1 (en) 2012-06-08 2013-12-12 Mymusaic Inc. Automatic creation of movie with images synchronized to music
US9972357B2 (en) 2014-01-08 2018-05-15 Adobe Systems Incorporated Audio and video synchronizing perceptual model

Also Published As

Publication number Publication date
US10290322B2 (en) 2019-05-14
CN104768049B (zh) 2020-11-10
CN104768049A (zh) 2015-07-08
US20190228806A1 (en) 2019-07-25
US10559323B2 (en) 2020-02-11
GB2523635A (en) 2015-09-02
GB201500227D0 (en) 2015-02-25
GB2523635B (en) 2018-04-18
US20150195426A1 (en) 2015-07-09
DE102014118075B4 (de) 2021-04-22
US20180261252A1 (en) 2018-09-13
US9972357B2 (en) 2018-05-15

Similar Documents

Publication Publication Date Title
DE102014118075B4 (de) Audio und Video synchronisierendes Wahrnehmungsmodell
WO2019233358A1 (zh) 一种基于深度学习的音质特性处理方法及系统
JP7136932B2 (ja) ディープラーニングに基づく音域バランシング方法、装置及びシステム
DE112015004185T5 (de) Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
US11074925B2 (en) Generating synthetic acoustic impulse responses from an acoustic impulse response
DE102016010422A1 (de) Verwendung der Wirkung von digitalem Audio, um digitale Medienpräsentationen zu erzeugen
EP4250291A1 (de) Audiodetektionsverfahren und -vorrichtung, computervorrichtung und lesbares speichermedium
Thorogood et al. Impress: A Machine Learning Approach to Soundscape Affect Classification for a Music Performance Environment.
CN110099652A (zh) 听觉训练装置、听觉训练方法及程序
DE102018118349A1 (de) Verfahren und vorrichtung zum auswählen einer audioausgabeschaltung basierend auf prioritätsattributen
EP4297396A1 (de) Verfahren und vorrichtung zur durchführung von musikabgleich von video sowie computervorrichtung und speichermedium
US8660845B1 (en) Automatic separation of audio data
DE112019003350T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahrenund programm
CN108241597A (zh) 一种演示文稿的制作方法和装置
CN112423019A (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
DE102013210380A1 (de) Verfahren und Vorrichtung zur Suche von Musiktiteln
US11887615B2 (en) Method and device for transparent processing of music
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP5941350B2 (ja) 聴覚印象量推定装置及びそのプログラム
CN111078903B (zh) 多媒体信息的处理方法、装置及计算机可读介质
JP2021015137A (ja) 情報処理装置、プログラム及び情報処理方法
Shu et al. RNN based noise annoyance measurement for urban noise evaluation
KR102113542B1 (ko) 심층신경망을 이용하여 음향 신호를 정규화하는 방법
DE102022111853A1 (de) Erzeugen einer optischen darstellung eines tonauschnitts

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R081 Change of applicant/patentee

Owner name: ADOBE INC., SAN JOSE, US

Free format text: FORMER OWNER: ADOBE SYSTEMS INCORPORATED, SAN JOSE, CALIF., US

R082 Change of representative

Representative=s name: MUELLER-BORE & PARTNER PATENTANWAELTE PARTG MB, DE

R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final