HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION
1. Gebiet der Erfindung1. Field of the invention
Die
vorliegende Erfindung bezieht sich auf das Gebiet der Unterhaltungssysteme
und insbesondere auf ein Verfahren und eine Einrichtung zum Bearbeiten
einer Videoaufzeichnung mit einer Audio-Auswahl.The
The present invention relates to the field of entertainment systems
and more particularly to a method and apparatus for editing
a video recording with an audio selection.
2. Hintergrundinformationen2. Background information
Zahlreiche
Fortschritte wurden in den letzten Jahren auf dem Gebiet der Konsumgüterelektronik im
allgemeinen und der Unterhaltungssysteme im besonderen gemacht.
Tatsächlich
haben viele Haushalte in den Vereinigten Staaten nunmehr einen Fernseher
und ein Video-Aufzeichnungs/Wiedergabe-Gerät, beispielsweise einen Videokassettenrekorder,
eine Digital Versatile Disk (a. k. a. Digital Video Disk oder DVD),
einen Laserplattenspieler und dergleichen. Darüber hinaus haben zunehmend
mehr Haushalte heutzutage Videokameras, die üblicherweise auch als ”Camcorder” bezeichnet
werden, mit welchen sie ihre eigenen Filme herstellen, beispielsweise
in Audio und Video einen Kindergeburtstag, ein Fußballspiel,
Ferien und dergleichen dokumentieren. In gleicher Weise werden,
obwohl die ”Stand”-Bilder noch
nicht vollständig
ersetzt worden sind, viele Hochzeiten heutzutage auf Videobänder sowie
in einem Fotoalbum aufgezeichnet.numerous
Progress has been made in the field of consumer electronics in recent years
general and entertainment systems in particular.
Indeed
Many households in the United States now have a television
and a video recording / reproducing apparatus such as a video cassette recorder,
a Digital Versatile Disk (not limited to Digital Video Disk or DVD),
a laser disk player and the like. In addition, increasingly have
More households today video cameras, which is commonly referred to as a "camcorder"
for example, with which they make their own films
in audio and video a children's birthday, a football game,
Holidays and the like document. In the same way,
although the "still" pictures are still
not completely
Many weddings nowadays have been replaced on videotapes as well
recorded in a photo album.
Fortgeschrittenere
Modelle dieser bekannten Videokameras weisen Merkmale auf, welche
es einem Benutzer gestatten, die Aufzeichnung zu editieren und zu
bearbeiten. Beispielsweise gestatten es einige Videokameras einem
Benutzer, die Aufzeichnung dahingehend zu bearbeiten, daß ein Titel
oder ein Vor- oder Abspann, beispielsweise zum Beginn der Aufzeich nung
hinzugefügt
wird. Einige Videokameras gestatten es einem Benutzer, ”einzublenden/auszublenden”, beispielsweise
langsam aus einem ”verschwommenen” Bild zu
einem klaren Bild zu fokussieren oder von einem vollständig schwarzen Bild
zu einem klaren Bild und umgekehrt. In ähnlicher Weise enthalten einige
der fortgeschritteneren Video-Aufzeichnungs/Wiedergabe-Geräte Merkmale, welche
es einem Benutzer gestatten, eine Aufzeichnung zu editieren, um
einen Titel oder einen Vorspann oder Abspann zu einer Videoaufzeichnung hinzuzufügen.More advanced
Models of these known video cameras have features which
Allow a user to edit and record the recording
to edit. For example, some video cameras allow one
User to edit the record to a title
or a creditor or creditor, for example, at the beginning of the Aufzeich statement
added
becomes. Some video cameras allow a user to "show / hide", for example
slowly out of a "blurry" image too
to focus on a clear picture or of a completely black picture
to a clear picture and vice versa. Similarly, some contain
the more advanced video recording / playback devices features which
Allow a user to edit a recording
add a title or credo or credits to a video recording.
Keine
der vorgenannten A/V-Geräte
gestattet es jedoch einem Benutzer, eine Videoaufzeichnung so zu
bearbeiten, daß ein
Audioinhalt, beispielsweise ein Musik-Soundtrack, ein Gedicht, Sonett
oder ein anderes anreicherndes Audiosignal, hinzugefügt wird,
ohne den ursprünglichen
Audioinhalt der Videoaufzeichnung zu ersetzen. Wenn es beispielsweise
jemand wünschte,
Hintergrundmusik zu seiner Videoaufzeichnung des Ozeans unter Verwendung
der Heim-A/V-Ausrüstung,
die im Stand der Technik typisch war, hinzuzufügen, so mußte er die Audiospur der Videoaufzeichnung
neu aufzeichnen, wodurch der Klang des Ozeans durch die ”Hintergrund”-Musik
ersetzt wurde, welche dann zu dem primären Audioinhalt der Videoaufzeichnung
wurde. Fachleute erkennen, daß ein
Audio”mischer”, beispielsweise
ein Gerät,
welches zwei Signale empfängt
und sie zu einem zusammengesetzten Signal kombiniert, der bei professionellen
Bearbeitungsausrüstungen üblich ist,
dieses Dilemma gut lösen
könnte
und es einem Bearbeiter ermöglichen
könnte,
die Videoaufzeichnung mit Audiosignalen anzureichern. Jedoch sind
Audiomischer, die für
professionelle Bearbeitungssysteme typisch sind, teuer und schwierig zu
installieren und zu benutzen. Das heißt, im Stand der Technik typische
Audiomischer erfordern, daß der
Benutzer einen Audioinhalt auswählt,
mit welchem die Videoaufzeichnung angereichert werden soll, wobei
der Benutzer gefordert ist, die Audio-Auswahl mit dem primären Audioinhalt
zu synchronisie ren und die verschiedenen Pegel (z. B. Lautstärke) des
Audiosignals einzustellen.None
the aforementioned A / V devices
however, allows a user to record a video
edit that one
Audio content, such as a music soundtrack, a poem, sonnet
or another enriching audio signal, is added,
without the original one
Replace audio content of video recording. For example
someone wished
Background music to his video recording of the ocean using
home A / V equipment,
which was typical in the art to add, so he had the audio track of the video recording
re-record, reducing the sound of the ocean through the "background" music
which then becomes the primary audio content of the video record
has been. Professionals recognize that
Audio "mixer", for example
a machine,
which receives two signals
and combined them into a composite signal that is professional
Machining equipment is common,
solve this dilemma well
could
and make it possible for an editor
could,
to enrich the video recording with audio signals. However, they are
Audio mixer for
professional machining systems are typical, expensive and difficult to handle
install and use. That is, typical in the art
Audio mixers require that
User chooses an audio content,
with which the video recording is to be enriched, where
the user is required to select the audio with the primary audio content
to synchronize and the different levels (eg volume) of the
To adjust the audio signal.
Bestimmte
Technologien und Diagnostiken erzeugen Audio-Signale auf Basis von Video-Attributen
eines bewegten Bildes. Beispielsweise ist aus der Druckschrift US 5,548,346 ein Verfahren
zur Analyse eines empfangenen Video-Signals und eines empfangenen
Audio-Signals bekannt, wobei Video-Merkmalsinformationen zur Bestimmung
einer geeigneten Anpassung der Lautstärke verwendet werden. Ferner
ist aus der Druckschrift EP
1 020 843 A1 ein Verfahren zur automatischen Komposition
von Hintergrundmusik für
ein bewegtes Bild auf Basis eines ermittelten Merkmals bekannt,
das Video-Informationen des bewegten Bildes beschreibt. Darüber hinaus ist
beispielsweise aus der JP 6-186958 ein
Verfahren zur Anpassung von Bilddaten bekannt, indem Attribute der
Bildddaten in Klangattribute konvertiert werden und Musik unter
Verwendung der Klangattribute komponiert wird.Certain technologies and diagnostics generate audio signals based on video attributes of a moving image. For example, from the document US 5,548,346 a method for analyzing a received video signal and a received audio signal, wherein video feature information is used to determine a suitable adjustment of the volume. Furthermore, from the document EP 1 020 843 A1 discloses a method of automatically composing background music for a moving picture based on a detected feature describing video information of the moving picture. In addition, for example, from the JP 6-186958 A method of adjusting image data by converting attributes of the image data into sound attributes and composing music using the sound attributes.
Somit
würde selbst
dann, wenn die Kosten eines solchen professionellen Mischers nicht
unerschwinglich teuer wären,
ein typischer Heimunterhaltungssystembenutzer es dennoch äußerst schwierig finden,
einen professionellen Audiomischer zu benutzen, um seine Heimfilme
zu bearbeiten. Obwohl es wünschenswert
wäre, in
der Lage zu sein, eine Hintergrundmusik oder andere Audioeffekte
zu Heimfilmen hinzuzufügen,
hat demzufolge die Konsumgüterelektronikindustrie
bisher dieses Erfordernis nicht befriedigt.Consequently
would be self
then, if the cost of such a professional mixer is not
would be prohibitively expensive,
a typical home entertainment system user will still find it extremely difficult
to use a professional audio mixer for his home movies
to edit. Although it is desirable
would be, in
able to be a background music or other audio effects
to add home movies,
therefore has the consumer electronics industry
so far this requirement is not satisfied.
Es
ist somit ein Bedürfnis
vorhanden nach einem Verfahren und einer Einrichtung zum Bearbeiten einer
Videoaufzeichnung mit einer Audio-Auswahl, das bzw. die nicht durch
die vorgenannten Defizite und Beschränkungen, die dem Stand der
Technik anhaften, belastet ist.Thus, there is a need for a method and apparatus for editing a video recording with an audio selection that is not burdened by the aforementioned deficiencies and limitations inherent in the prior art.
ZUSAMMENFASSENDE DARSTELLUNG DER ERFINDUNGSUMMARY OF THE INVENTION
Gemäß den Lehren
der vorliegenden Erfindung werden ein Verfahren mit den Merkmalen
des Anspruchs 1 und eine Einrichtung mit den Merkmalen des Anspruchs
6 zum Bearbeiten einer Videoaufzeichnung mit einer Audio-Auswahl
zur Verfügung gestellt,
wobei nach Anspruch 15 die Einrichtung einen Bestandteil eines Videobearbeitungssystems
bildet oder nach Anspruch 21 die Einrichtung als elektronisches
Gerät ausgebildet
ist.According to the teachings
The present invention provides a method having the features
of claim 1 and a device having the features of the claim
6 for editing a video recording with an audio selection
made available,
wherein according to claim 15, the device is part of a video processing system
forms or according to claim 21, the device as electronic
Device trained
is.
KURZBESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS
Die
vorliegende Erfindung wird anhand von Ausführungsbeispielen, aber nicht
im Sinne einer Einschränkung,
beschrieben, die in den beigefügten Zeichnungen
veranschau licht sind, in welche gleiche Bezugszeichen ähnliche
Elemente bezeichnen und in welchen:The
The present invention will be described by way of example but not by way of example
in the sense of a restriction,
described in the attached drawings
are illustrated, in which like reference numerals similar
Denote elements and in which:
1 eine
Blockdarstellung ist, die ein Unterhaltungssystem veranschaulicht,
das die Lehren der vorliegenden Erfindung enthält; 1 Figure 12 is a block diagram illustrating an entertainment system incorporating the teachings of the present invention;
2 eine
Blockdarstellung eines A/V-Bearbeitungssystems gemäß einem
Ausführungsbeispiel der
vorliegenden Erfindung ist; 2 Fig. 10 is a block diagram of an A / V processing system according to an embodiment of the present invention;
3 ein
Ablaufdiagramm eines Ausführungsbeispiels
eines Verfahrens zum automatischen Anreichern einer Videoaufzeichnung
mit einer Audio-Auswahl gemäß den Lehren
der vorliegenden Erfindung veranschaulicht; 3 Fig. 3 illustrates a flow diagram of one embodiment of a method for automatically enriching a video recording with an audio selection in accordance with the teachings of the present invention;
4 eine
Veranschaulichung eines Beispiels eines Videokanals des empfangenen
A/V-Signals ist, das Quantisierungsfelder zeigt, die verwendet werden,
um die visuellen Attribute des A/V-Signals zu charakterisieren,
gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung; 4 Figure 4 is an illustration of an example of a video channel of the received A / V signal showing quantization fields used to characterize the visual attributes of the A / V signal, according to an embodiment of the present invention;
5 ein
Ablaufdiagramm eines Beispiels eines Verfahrens zum automatischen
Charakterisieren des primären
Audioinhalts einer Videoaufzeichnung gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung veranschaulicht; 5 Fig. 10 illustrates a flowchart of an example of a method for automatically characterizing the primary audio content of a video record according to one embodiment of the present invention;
6 eine
Darstellung eines Beispiels einer Audio-Auswahl-Datenbank gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung ist; 6 Fig. 10 is an illustration of an example of an audio selection database according to an embodiment of the present invention;
7 eine
Blockdarstellung eines Beispielcomputersystems ist, das zur Verwendung
als A/V-Bearbeitungssystem gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung geeignet ist; und 7 Fig. 10 is a block diagram of an example computer system suitable for use as an A / V editing system according to one embodiment of the present invention; and
8 eine
Blockdarstellung ist, die eine Beispielsoftwarearchitektur zum Implementieren
eines A/V-Bearbeitungssystems gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung veranschaulicht. 8th 10 is a block diagram illustrating a sample software architecture for implementing an A / V editing system according to one embodiment of the present invention.
DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION
In
der folgenden Beschreibung werden aus Gründen der Erläuterung
spezielle Anzahlen, Materialien und Konfiguratio nen angegeben, um
ein besseres Verständnis
der vorliegenden Erfindung zu erreichen. Für einen Fachmann ist es jedoch
klar, daß die vorliegende
Erfindung auch ohne die speziellen Details ausgeführt werden
kann. An anderen Stellen werden bekannte Merkmale zur Erleichterung
der Erläuterung
fortgelassen oder vereinfacht. Darüber hinaus werden aus Gründen eines
leichteren Verständnisses
bestimmte Verfahrensschritte als separate Schritte abgegrenzt, wobei
jedoch diese separat abgegrenzten Schritte nicht so ausgelegt werden
sollten, daß ihre
Leistungsfähigkeit
notwendigerweise von der Reihenfolge abhängt.In
The following description will be made for explanatory purposes
specified numbers, materials and configurations to
a better understanding
to achieve the present invention. However, it is for a specialist
clear that the present
Invention can be performed without the special details
can. Elsewhere, familiar features become easier
the explanation
omitted or simplified. In addition, for the sake of a
easier understanding
certain process steps delimited as separate steps, wherein
however, these separately delineated steps will not be construed that way
should that theirs
capacity
necessarily depends on the order.
Wenden
wir uns 1 zu, in der eine Blockdarstellung
gezeigt ist, die ein Beispiel eines Unterhaltungssystems veranschaulicht,
das die Lehren der vorliegenden Erfindung verkörpert. Gemäß dem veranschaulichten Ausführungsbeispiel
der 1 ist ein Unterhaltungssystem 100 gezeigt,
das ein Audio/Video (A/V)-Bearbeitungssystem oder -Editiersystem 128 enthält, das
die Lehren der vorliegenden Erfindung verkörpert. Wie detaillierter unten
beschrieben wird, empfängt
gemäß einem
Ausführungsbeispiel der
vorliegenden Erfindung das A/V-Bearbeitungssystem 128 ein
Signal aus einem Video-Aufzeichnungs/Wiedergabe-Gerät, das einen
Videoinhalt in einem Videostrom und optional einen Audioinhalt in einem
Audiostrom des empfangenen Signals (das im folgenden allgemein als
A/V-Signal bezeichnet wird) enthält,
wobei das A/V-Bearbeitungssystem 128 den Videoinhalt des
empfangenen A/V-Signals
analysiert, wobei es visuelle Attribute identifiziert, welche den
Videoinhalt charakterisieren, und wobei das A/V-Bearbeitungssystem 128 zumindest
zum Teil auf der Grundlage der identifizierten visuellen Attribute eine
geeignete Audio-Auswahl aus einer Mehrzahl verfügbarer Audio-Auswahlen identifiziert,
mit welcher das empfangene A/V-Signal
angereichert werden soll. Dementsprechend ist es einem Fachmann klar,
daß das
Unterhaltungssystem 100, das das innovative A/V-Bearbeitungssystem 128 enthält, für einen
Benutzer eines solchen Unterhaltungssystems das Mittel zum au tomatischen
Editieren oder Bearbeiten und Anreichern von Heimfilmen und anderen Videoaufzeichnungen
mit automatisch ausgewählten Auto-Auswahlen
zur Verfügung
stellt.Let us turn 1 in which a block diagram illustrating an example of an entertainment system embodying the teachings of the present invention is shown. According to the illustrated embodiment of the 1 is an entertainment system 100 shown an audio / video (A / V) editing system or editing system 128 which embodies the teachings of the present invention. As will be described in more detail below, according to an embodiment of the present invention, the A / V processing system receives 128 a signal from a video recording / reproducing apparatus containing a video content in a video stream and optionally an audio content in an audio stream of the received signal (which is generally referred to as an A / V signal hereinafter), the A / V processing system 128 analyzes the video content of the received A / V signal, identifying visual attributes that characterize the video content, and the A / V editing system 128 identifying at least in part, on the basis of the identified visual attributes, a suitable audio selection from a plurality of available audio selections with which the received A / V signal is to be enriched. Accordingly, it is clear to a person skilled in the art that the entertainment system 100 that's the innovative A / V editing system 128 includes for a user of such an entertainment system the means for automatically editing or editing and enriching home movies and other video recordings with automatically selected ones Auto selections provides.
Wie
es bei dem veranschaulichten Ausführungsbeispiel gemäß 1 gezeigt
ist, kann das A/V-Bearbeitungssystem 128 gut mit einer
großen Vielzahl
von A/V-Komponenten benutzt werden. Gemäß 1 ist ein
Unterhaltungssystem 100 gezeigt, das Signallenkmultiplexer 108 und 112,
eine Mehrzahl von Video-Aufzeichnungs/Wiedergabe-Geräten, beispielsweise
einen Videokassettenrekorder (VCR) 116, eine Digital Versatile
Disk (a. k. a. Digital Video Disk oder DVD) 118, eine Laserplatte 120,
eine Videokamera 122 und dergleichen, einen Fernsehmonitor 126 und
eine Mehrzahl von Audiokomponenten, die kumulativ als Audiosystem 132 bezeichnet
sind, die jeweils miteinander kommunizierend in dem System 100 gekoppelt
sind, wie es in 1 gezeigt ist, enthält. Mit
Ausnahme des A/V-Bearbeitungssystems 128, in dem die Lehren
der vorliegenden Erfindung verkörpert
sind, soll jedes der Elemente des Systems 100 eine große Vielzahl üblicherweise
erhältlicher A/V-Komponenten
repräsentieren
und braucht insoweit, wie seine jeweiligen Funktionen und Merkmale im
Stand der Technik gut bekannt sind, hier nicht näher beschrieben zu werden.As in the illustrated embodiment according to 1 can be shown, the A / V processing system 128 to be used well with a large variety of A / V components. According to 1 is an entertainment system 100 shown, the signal call multiplexer 108 and 112 , a plurality of video recording / playback devices, such as a video cassette recorder (VCR) 116 , a Digital Versatile Disk (aka Digital Video Disk or DVD) 118 , a laser plate 120 , a video camera 122 and the like, a television monitor 126 and a plurality of audio components cumulatively used as an audio system 132 each communicating with each other in the system 100 are coupled, as is in 1 is shown contains. Except for the A / V editing system 128 In which the teachings of the present invention are embodied, it is intended that each of the elements of the system 100 a large variety of commonly available A / V components, and as far as their respective functions and features are well known in the art, represent and need not be described further here.
Wie
es bei dem Unterhaltungssystem 100 gemäß 1 veranschaulicht
ist, kann das A/V-Signal aus irgendeiner einer Reihe von Quellen
herrühren.
Bei dem veranschaulichten Beispiel gemäß 1 ist das
Unterhaltungssystem 100 in der Lage, ein A/V-Signal aus
drahtlosen Quellen und/oder drahtgebundenen Quellen zu empfangen.
Das heißt, das
A/V-Bearbeitungssystem 128 kann
das A/V-Signal über
irgendeine einer Reihe von Rundfunkquellen empfangen, beispielsweise über Antenne 102 empfangene
Fernsehrundfunksendungen 103 oder über Satellitenschüsselantenne 104 empfangene
Satellitenrundfunksendungen 105. In ähnlicher Weise empfängt das
Unterhaltungssystem 100 außerdem A/V-Signale aus drahtgebundenen
Quellen, wie beispielsweise Internet-Ressourcen, In tranet-Ressourcen
und Kabelfernsehsendungen über
Leitung 106. So soll gemäß dem veranschaulichten Ausführungsbeispiel
der 1 die Leitung 106 irgendeines einer Vielzahl
von drahtgebundenen Transportmedien repräsentieren, die beispielsweise
eine einfache alte Telefon(POTS)-Leitung, eine Leitung eines Integrated
Services Digital Network (ISDN), eine Kabelleitung, eine Ethernet-Leitung,
eine T1/E1-Leitung, etc. einschließen, die ein A/V-Signal aus
einer entsprechenden Vielzahl von drahtgebundenen Dienstanbietern
zur Verfügung
stellt. In ähnlicher
Weise kann das A/V-Bearbeitungssystem 128 das A/V-Signal
aus irgendeinem der oben beschriebenen Mehrzahl von Video-Aufzeichnungs/Wiedergabe-Geräten (116–122)
empfangen. Bei einem alternativen Ausführungsbeispiel könnten der
Fernsehmonitor 126 und das A/V-Bearbeitungssystem 128 ein
Rundfunk-A/V-Signal direkt aus den einzelnen Antennen/Drahtleitungsquellen
oder aus dem Multiplexer 108 über die Leitung 110 empfangen.
Folglich ist es Fachleuten klar, daß das System 100 nur
ein Beispiel ist, das die mannigfaltige Natur der Signalquellen,
die für
das A/V-Bearbeitungssystem 128 verfügbar sind, veranschaulichen
soll, und daß Systeme
mit mehr oder weniger Fähigkeiten
alternativ verwendet werden können,
ohne vom Geist und Umfang der vorliegenden Erfindung abzuweichen.As for the entertainment system 100 according to 1 is illustrated, the A / V signal may originate from any of a number of sources. In the illustrated example according to FIG 1 is the entertainment system 100 able to receive an A / V signal from wireless sources and / or wired sources. That is, the A / V editing system 128 can receive the A / V signal via any of a number of broadcast sources, for example via antenna 102 received television broadcasts 103 or via satellite dish antenna 104 received satellite broadcasts 105 , Similarly, the entertainment system receives 100 also A / V signals from wired sources, such as Internet resources, intranet resources and cable television broadcasts over line 106 , Thus, according to the illustrated embodiment of the 1 The administration 106 represent any of a variety of wired transport media including, for example, a plain old telephone (POTS) line, an Integrated Services Digital Network (ISDN) line, a cable line, an Ethernet line, a T1 / E1 line, etc. which provides an A / V signal from a corresponding plurality of wired service providers. Similarly, the A / V processing system 128 the A / V signal from any of the above-described plurality of video recording / playback devices ( 116 - 122 ) received. In an alternative embodiment, the television monitor 126 and the A / V editing system 128 a broadcast A / V signal directly from the individual antennas / wireline sources or from the multiplexer 108 over the line 110 receive. Consequently, it is clear to those skilled in the art that the system 100 just one example is that of the varied nature of the signal sources used for the A / V editing system 128 are available, and that systems with more or less capabilities can alternatively be used without departing from the spirit and scope of the present invention.
Bei
einem Ausführungsbeispiel
kann das A/V-Bearbeitungssystem 128 ein Computersystem sein,
in dem die Lehren der vorliegenden Erfindung verwirklicht sind,
wie unten unter Bezugnahme auf 7 näher erörtert werden
wird. Bei einem anderen Ausführungsbeispiel
kann das A/V-Bearbeitungssystem 128 eine ”Set-Top”-Box sein,
die mit der erforderlichen Bearbeitungsleistung ausgestattet ist
und in der die Lehren der vorliegenden Erfindung verkörpert sind.
Alternativ kann das A/V-Bearbeitungssystem 128 gut in den
einzelnen Elementen in dem System 100 (beispielsweise Fernsehsystem
oder Videokassettenrekorder) enthalten sein. So soll gemäß dem veranschaulichten
Ausführungsbeispiel
der 1 das System 100 ein beliebiges einer
Anzahl von Unterhaltungssystemen repräsentieren, die in vielen Haushalten
zu finden sind, und die in der Lage sind, ein A/V-Signal aus irgendeiner
einer Reihe von alternativen Quellen zu empfangen.In one embodiment, the A / V processing system 128 a computer system embodying the teachings of the present invention as described below with reference to FIG 7 will be discussed in more detail. In another embodiment, the A / V processing system 128 a "set-top" box equipped with the required processing power and embodying the teachings of the present invention. Alternatively, the A / V processing system 128 good in the individual elements in the system 100 (For example, television system or video cassette recorder). Thus, according to the illustrated embodiment of the 1 the system 100 represent any of a number of entertainment systems found in many homes and capable of receiving an A / V signal from any of a number of alternative sources.
Nachdem
eine Einführung
in das Konzept des innovativen A/V-Bearbeitungssystems 128 oben im
Kontext des Unterhaltungssystems 100 gegeben wurde, stellt 2 eine
Blockdarstellung zur Verfügung,
welche eine Beispielarchitektur das A/V-Bearbeitungssystems 200 veranschaulicht,
das zur Verwendung in dem Unterhaltungssystem 100 geeignet ist
und die Lehren der vorliegenden Erfindung verkörpert. Bei dem veranschaulichten
Ausführungsbeispiel
gemäß 2 ist
das A/V-Bearbeitungssystem 200 so gezeigt, daß es ein
Videoanalysemodul 202, ein Audioanalysemodul 208,
eine Steuereinrichtung 206, eine Anzeigeeinrichtung 216,
eine Benutzereingabeeinrichtung 218 und Audiodateien 212 aufweist, die
jeweils kommunikativ in der gezeigten Weise miteinander gekoppelt
sind. Obwohl gezeigt ist, daß sich die
Audiodateien 212 bei dem veranschaulichten Ausführungsbeispiel
gemäß 2 außerhalb
der Steuereinrichtung 206 befinden, werden Fachleute erkennen,
daß solche
Audiodateien gut in einer (nicht gezeigten) Massenspeichereinrichtung
innerhalb der Steuereinrichtung 206 gespeichert sein können. Darüber hinaus
ist es Fachleuten klar, daß bei
alternativen Ausführungsbeispielen
die Audiodateien 212 ebensogut an einem fernen Ort angeordnet
sein können,
auf den über
das Internet und die Leitung 106 zugegriffen werden kann,
oder daß die
Audiodateien 212 ebensogut in einem Audiosystem (z. B.
dem Audiosystem 132) angeordnet sein können, wobei die Leitung 214 die
Verbindung zwischen dem A/V-Bearbeitungssystem 200 und
dem Audiosystem repräsentiert.
In ähnlicher
Weise könnte
bei einem alternativen Ausführungsbeispiel
die Anzeigeeinrichtung 216 beseitigt werden, indem der
Fernsehmonitor 126 als Videoanzeige für das A/V-Bearbeitungssystem 200 verwendet
wird.Having an introduction to the concept of innovative A / V editing system 128 above in the context of the entertainment system 100 was given 2 a block diagram illustrating an example architecture of the A / V editing system 200 illustrates this for use in the entertainment system 100 is suitable and embodies the teachings of the present invention. In the illustrated embodiment according to 2 is the A / V editing system 200 shown to be a video analysis module 202 , an audio analysis module 208 , a control device 206 , a display device 216 , a user input device 218 and audio files 212 each communicatively coupled in the manner shown. Although it is shown that the audio files 212 according to the illustrated embodiment 2 outside the control device 206 Those skilled in the art will recognize that such audio files reside well in a mass storage device (not shown) within the controller 206 can be stored. In addition, it will be apparent to those skilled in the art that in alternative embodiments, the audio files 212 may as well be located in a distant place, over the Internet and the line 106 can be accessed, or that the audio files 212 just as well in an audio system (eg the audio system 132 ), wherein the conduit 214 the connection between the A / V Bear beitungssystem 200 and the audio system. Similarly, in an alternative embodiment, the display could 216 be eliminated by the television monitor 126 as a video display for the A / V editing system 200 is used.
Nachdem
die Architekturbeschreibung des Beispiel-A/V-Bearbeitungssystems
in 2 zur Verfügung
gestellt worden ist, soll ein Beispielverfahren zum automatischen
Anreichern einer Videoaufzeichnung mit einer Audio-Auswahl gemäß den Lehren
der vorliegenden Erfindung unter Bezugnahme auf das in 3 gezeigte
Ablaufdiagramm entwickelt werden. Insbesondere soll aus Gründen der
Erläuterung
und nicht in einem einschränkenden
Sinne die Betriebsweise des A/V-Bearbeitungssystems 200 unter
Bezugnahme auf 3 und fortgesetzte Bezugnahme auf 2 entwickelt
werden. Wie es in 3 veranschaulicht ist, beginnt
das Beispielverfahren zum automatischen Anreichern einer Videoaufzeichnung
mit einer Audio-Auswahl mit dem anfänglichen Schritt des Bestimmens,
ob die Anreicherungsfunktion freigegeben ist, Schritt 302.
Dies soll heißen,
daß bei
einem Ausführungsbeispiel
ein Benutzer des A/V-Bearbeitungssystems 200 das Audioanreicherungsmerkmal über eine
Benutzereingabeeinrichtung 218 sperren könnte. Wenn
im Schritt 302 festgestellt wird, daß das Audioanreicherungsmerkmal
des A/V-Bearbeitungssystems 200 gesperrt worden ist, fährt die Bearbeitungssitzung
ohne automatische Audioanreicherung fort, Schritt 304.After the architectural description of the example A / V editing system in FIG 2 is an example method for automatically enriching a video recording with an audio selection according to the teachings of the present invention with reference to the in 3 shown flowchart are developed. In particular, for purposes of explanation and not limitation, the operation of the A / V processing system is intended to be 200 with reference to 3 and continued reference to 2 be developed. As it is in 3 1, the example method for automatically enriching a video recording with an audio selection begins with the initial step of determining whether the enrichment function is enabled, step 302 , That is, in one embodiment, a user of the A / V processing system 200 the audio enrichment feature via a user input device 218 could lock. When in step 302 It is noted that the audio enrichment feature of the A / V editing system 200 has been locked, the editing session continues without automatic audio enrichment, step 304 ,
Wenn
jedoch das Audioanreicherungsmerkmal des A/V-Bearbeitungssystems 200 freigegeben ist,
lädt das
A/V-Bearbeitungssystem 200 eine vorgegebene Menge der Videoaufzeichnung über ein A/V-Signal
zur Analyse, Schritt 306. Bei einem Ausführungsbeispiel
lädt das
A/V-Bearbeitungssystem 200 die gesamte Videoaufzeichnung
in (nicht gezeigte) Puffer innerhalb des Videoanalysemoduls 206 und
des Audioanalysemoduls 208 zur Analyse und Audioanreicherung.
Bei einem alternativen Ausführungsbeispiel
lädt das
A/V-Bearbeitungssystem 200 eine Untermenge der gesamten
Videoaufzeichnung zur Analyse und Anreicherung. Insbesondere lädt gemäß dem letztgenannten
Ausführungsbeispiel
das A/V-Bearbeitungssystem 200 Zwei- bis Drei-Minuten-Segmente,
d. h. Abtastwerte der Videoaufzeichnung in die Puffer zur Analyse
und Anreicherung, wobei die Länge
der Probe einer Durchschnittslänge
einer Audiodatei in den Audiodateien 214 entspricht. Bei
einem anderen Ausführungsbeispiel
lädt das A/V-Bearbeitungssystem 200 einzelne
Szenen der Videoaufzeichnung in Puffer. Bei einem Ausfüh rungsbeispiel
führt das
A/V-Bearbeitungssystem 200 eine anfängliche Analyse der Videoaufzeichnung durch,
um jede einer Mehrzahl von Szenen zu identifizieren, die die Videoaufzeichnung
umfaßt,
und lädt inkrementell
einzelne Szenen in den Analysepuffer zur Audioanreicherung, was
vollständiger
unten beschrieben werden soll.However, if the audio enrichment feature of the A / V editing system 200 is released loads the A / V editing system 200 a predetermined amount of video recording via an A / V signal for analysis, step 306 , In one embodiment, the A / V processing system loads 200 the entire video record into buffers (not shown) within the video analysis module 206 and the audio analysis module 208 for analysis and audio enrichment. In an alternative embodiment, the A / V processing system loads 200 a subset of the entire video recording for analysis and enrichment. In particular, according to the latter embodiment, the A / V processing system loads 200 Two- to three-minute segments, ie samples of the video recording in the buffers for analysis and enrichment, where the length of the sample is an average length of an audio file in the audio files 214 equivalent. In another embodiment, the A / V processing system loads 200 individual scenes of video recording in buffer. In one embodiment, the A / V processing system performs 200 perform an initial analysis of the video record to identify each of a plurality of scenes comprising the video record and incrementally load individual scenes into the audio enrichment analysis buffer, which will be described more fully below.
Nachdem
im Schritt 306 die vorgegebene Menge der Videoaufzeichnung über ein
A/V-Signal zur Analyse geladen worden ist, wird das empfangene A/V-Signal
gleichzeitig durch das Videoanalysemodul 202 und das Audioanalysemodul 208 in
den Schritten 308 bzw. 310 analysiert. Das heißt, gemäß dem veranschaulichten
Ausführungsbeispiel
der 3 wird das A/V-Signal
gleichzeitig sowohl dem Videoanalysemodul 202, welches
den Videoinhalt des A/V-Signals analysiert, als auch dem Audioanalysemodul 208,
welches den Audioinhalt des A/V-Signals
analysiert, zur Verfügung
gestellt. Insbesondere analysiert das Videoanalysemodul 202 den
in dem Videostrom des empfangenen A/V-Signals eingebetteten Videoinhalt
und charakterisiert den Videoinhalt anhand irgendeines einer Reihe
von visuellen Attributen, Schritt 308. Bei einem Ausführungsbeispiel ”splittet” das Videoanalysemodul 202 den
empfangenen Videostrom in eine Reihe von Quantisierungsbereichen
oder Quadranten und analysiert den Videoinhalt innerhalb jedes der
Quantisierungsgebiete des Videostroms. Ein Beispiel eines in solche
Quantisierungsgebiete unterteilten Videostroms ist in der Veranschaulichung
von 4 gezeigt.After in step 306 the predetermined amount of video recording has been loaded via an A / V signal for analysis, the received A / V signal is simultaneously passed through the video analysis module 202 and the audio analysis module 208 in the steps 308 respectively. 310 analyzed. That is, according to the illustrated embodiment of the 3 At the same time, the A / V signal is sent to both the video analysis module 202 which analyzes the video content of the A / V signal as well as the audio analysis module 208 which analyzes the audio content of the A / V signal. In particular, the video analysis module analyzes 202 the video content embedded in the video stream of the received A / V signal and characterizes the video content using any one of a number of visual attributes, step 308 , In one embodiment, the video analysis module "splits" 202 the received video stream into a series of quantization areas or quadrants and analyzes the video content within each of the quantization areas of the video stream. An example of a video stream divided into such quantization areas is shown in FIG 4 shown.
Springen
wir zu 4, in der eine Darstellung eines Videostroms mit
seinen zugehörigen Quantisierungsgebieten
gezeigt ist. Insbesondere ist ein Videostrom 400 gezeigt,
der eine Reihe von ”Rahmen” (z. B.
eine vorgegebene Menge des Videostroms) des Videostroms aufweist,
die als 402a, 402b bis 402n bezeichnet
sind. Wie es in 4 veranschaulicht ist, sind
die Quantisierungsgebiete des Rahmens 402b als Quantisierungsgebiet
1 (Q1) 404a bis Quantisierungsgebiet
9 (Q9) 404n gezeigt. So analysiert
gemäß einem
Ausführungsbei spiel
der vorliegenden Erfindung das Videoanalysemodul 202 den
Videoinhalt innerhalb jedes der Quantisierungsgebiete jedes Rahmens
des Videostroms, um den Videoinhalt anhand seiner visuellen Attribute
zu charakterisieren.Let's jump 4 in which a representation of a video stream with its associated quantization areas is shown. In particular, a video stream 400 which has a number of "frames" (e.g., a predetermined amount of video stream) of the video stream, called the 402 . 402b to 402n are designated. As it is in 4 is illustrated are the quantization areas of the frame 402b as quantization area 1 (Q 1 ) 404a to quantization area 9 (Q 9 ) 404n shown. Thus, according to an embodiment of the present invention, the video analysis module is analyzed 202 the video content within each of the quantization regions of each frame of the video stream to characterize the video content based on its visual attributes.
Bei
einem Ausführungsbeispiel
analysiert das Videoanalysemodul 202 beispielsweise jedes der
Quantisierungsgebiete 404a bis 404n des Videostroms 400 hinsichtlich
der Farbattribute, beispielsweise, ob der Videoinhalt des empfangenen
A/V-Signals eine ”kühle” Farbe
(blaue und weiße
Töne),
eine ”heiße” Farbe
(rote, gelbe) oder eine ”warme” oder ”erdige” Farbe
(Braun-, Orangetöne),
etc. aufweist, und gibt eine Skala von 0 (”kühl” (weiß)) bis 10 (”heiß” (rot))
mit geeigneten Abstufungen dazwischen aus. Bei einem anderen Ausführungsbeispiel
analysiert das Videoanalysemodul 202 jedes der Quantisierungsgebiete 404a bis 404n des
Videostroms 400 in bezug auf visuelle Beleuchtungsattribute,
beispielsweise, ob der Videoinhalt ”hell” oder ”dunkel” ist. Bei einem anderen Ausführungsbeispiel
analysiert das Videoanalysemodul 202 jedes der Quantisierungsgebiete 404a bis 404n des
Videostroms 400 nach visuellen Inhalts- und Bewegungsattributen,
beispielsweise ob das Video eine Stadtansicht oder eine Landschaft
enthält,
ob das Video Leute enthält,
oder ob diese aktiv oder sitzend sind. Bei noch einem anderen Ausführungsbeispiel
analysiert das Videoanalysemodul 202 Quantisierungsgebiete 404a bis 404n des
Videostroms 400 für
jedes der oben erwähnten visuellen
Attribute.In one embodiment, the video analysis module analyzes 202 for example, each of the quantization areas 404a to 404n of the video stream 400 in terms of color attributes, for example, whether the video content of the received A / V signal is a "cool" color (blue and white tones), a "hot" color (red, yellow) or a "warm" or "earthy" color (brown -, orange tones), etc., and outputs a scale from 0 ("cool" (white)) to 10 ("hot" (red)) with appropriate gradations therebetween. In another embodiment, the video analysis module analyzes 202 each of the quantization areas 404a to 404n of the video stream 400 with regard to visual lighting attributes, for example, whether the video content is "light" or "dark". at In another embodiment, the video analysis module analyzes 202 each of the quantization areas 404a to 404n of the video stream 400 for visual content and motion attributes, such as whether the video contains a cityscape or a landscape, whether the video contains people, or whether they are active or sedentary. In yet another embodiment, the video analysis module analyzes 202 Quantisierungsgebiete 404a to 404n of the video stream 400 for each of the above-mentioned visual attributes.
Kehren
wir zu dem veranschaulichten Beispielverfahren zurück, das
in 2 gezeigt ist; zusätzlich zu der Videoanalyse
des Schritts 308 analysiert das Audioanalysemodul 208 den
in dem Audiostrom des empfangenen A/V-Signals emp fangenen Audioinhalt
(im folgenden als primärer
Audioinhalt bezeichnet), sofern ein solcher vorhanden ist, und identifiziert
Audioattributinformationen, welche den in dem Audiostrom enthaltenen
primären
Audioinhalt charakterisieren, Schritt 310. Bei dem veranschaulichten
Ausführungsbeispiel
besteht der Zweck des Identifizierens von Audioattributinformationen
im Schritt 310 darin, den Pegel, beispielsweise die Lautstärke der
angereicherten Audio-Auswahl, einzustellen, um dadurch zu sichern,
daß der
primäre
Audioinhalt, sofern ein solcher vorhanden ist, nicht durch den Relativpegel
der angereicherten Audio-Auswahl ”erstickt” oder ”übertönt” wird. Ein Beispielverfahren zum
Analysieren des primären
Audioinhalts des empfangenen A/V-Signals (z. B. Schritt 310)
ist in 5 gezeigt.Returning to the illustrated example method, which is shown in FIG 2 is shown; in addition to the video analysis of the step 308 analyzes the audio analysis module 208 the audio content received in the audio stream of the received A / V signal (hereinafter referred to as primary audio content), if any, and identifying audio attribute information characterizing the primary audio content contained in the audio stream, step 310 , In the illustrated embodiment, the purpose of identifying audio attribute information is step 310 in adjusting the level, such as the volume of the enriched audio selection, thereby ensuring that the primary audio content, if any, is not "stifled" or "drowned out" by the relative level of the enriched audio selection. An example method of analyzing the primary audio content of the received A / V signal (e.g., step 310 ) is in 5 shown.
Es
wird auf 5 Bezug genommen, in der ein
Beispielverfahren zum Analysieren des primären Audioinhalts des empfangenen
A/V-Signals gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung gezeigt ist. Bei dem veranschaulichten
Ausführungsbeispiel
gemäß 5 beginnt
die Audioanalyse damit, daß das
Audioanalysemodul 208 feststellt, ob das empfangene A/V-Signal
einen einen Audioinhalt (d. h. primären Audioinhalt) enthaltenden
Audiostrom enthält,
Schritt 502. Wenn das Audioanalysemodul 208 feststellt,
daß der
Audiostrom keinen Audioinhalt transportiert, wird eine Anzeige,
daß die schließlich von
dem A/V-Bearbeitungssystem 200 ausgewählte Audio-Auswahl den einzigen
Audioinhalt für
die Aufzeichnung zur Verfügung
stellt, wobei das Audioanalysemodul 208 eine Pegelanzeige
an die Steuereinrichtung 206 über die Leitung 214 zur Verfügung stellt,
Schritt 504. In einem solchen Fall setzt die Pegelanzeige
die Lautstärke
der Audio-Auswahl, die von dem A/V-Bearbeitungssystem ausgewählt wird,
auf einen ”hohen” Pegel,
da sie den einzigen Audioinhalt für dieses Segment der Videoaufzeichnung
zur Verfügung
stellt. Wenn jedoch das Audioanalysemodul 208 feststellt,
daß das
empfangene A/V-Signal einen Audioinhalt enthält, Schritt 502, bestimmt
das Audioanalysemodul 208 als näch stes, ob der primäre Audioinhalt
Sprache enthält,
Schritt 506. Bei einem Ausführungsbeispiel benutzt das
Audioanalysemodul 208 irgendeine einer Reihe von verfügbaren Spracherkennungseinrichtungen,
mit welcher es diese Aufgabe ausführt.It will open 5 Referring to FIG. 1, an example method for analyzing the primary audio content of the received A / V signal in accordance with one embodiment of the present invention is shown. In the illustrated embodiment according to 5 The audio analysis begins with the audio analysis module 208 determines whether the received A / V signal contains an audio stream containing an audio content (ie, primary audio content), step 502 , If the audio analysis module 208 determines that the audio stream is not carrying any audio content, an indication that the audio is finally coming from the A / V editing system 200 selected audio selection provides the only audio content for the recording, the audio analysis module 208 a level indicator to the controller 206 over the line 214 provides, step 504 , In such a case, the level meter sets the volume of the audio selection selected by the A / V editing system to a "high" level as it provides the only audio content for that segment of video recording. However, if the audio analysis module 208 determines that the received A / V signal contains audio content, step 502 , determines the audio analysis module 208 Next, if the primary audio content contains speech, step 506 , In one embodiment, the audio analysis module uses 208 any one of a number of available speech recognition devices with which it accomplishes this task.
Wenn
im Schritt 506 das Audioanalysemodul 208 feststellt,
daß der
primäre
Audioinhalt aus Sprache besteht, gibt das Audioanalysemodul 208 eine Pegelanzeige
an die Steuereinrichtung 206 über die Leitung 214 aus,
die sichert, daß die
Sprache nicht übertönt wird,
Schritt 508. Wenn andererseits im Schritt 506 das
Audioanalysemodul 208 feststellt, daß der primäre Audioinhalt keine Sprache
ist, wird im Schritt 510 eine Feststellung darüber getroffen,
ob der primäre
Audioinhalt aus Musik besteht. Bei einem Ausführungsbeispiel analysiert das
Audioanalysemodul 208 die relativen Pegel und die Breite
des Frequenzspektrums, das den primären Audioinhalt charakterisiert,
wenn es diese Bestimmung ausführt. Beispielsweise
eine Spektralanalyse, bei der der primäre Audioinhalt ein breites
Frequenzspektrum mit großen
Gradienten innerhalb des Spektrums, die sich über der Zeit ändern, überspannt,
liefert eine Anzeige, daß der
primäre
Audioinhalt aus Musik besteht. Bei einem alternativen Ausführungsbeispiel könnte das
Audioanalysemodul 208 mit einer Reihe von Musik-Auswahlen
vorprogrammiert sein, mit welchen der empfangene primäre Audioinhalt
verglichen wird.When in step 506 the audio analysis module 208 determines that the primary audio content is speech is the audio analysis module 208 a level indicator to the controller 206 over the line 214 ensuring that the language is not drowned out, step 508 , If, on the other hand, in step 506 the audio analysis module 208 determines that the primary audio content is not a language is in step 510 make a determination as to whether the primary audio content is music. In one embodiment, the audio analysis module analyzes 208 the relative levels and the width of the frequency spectrum that characterizes the primary audio content as it performs this determination. For example, a spectral analysis in which the primary audio content spans a wide frequency spectrum with large gradients within the spectrum that change over time provides an indication that the primary audio content is music. In an alternative embodiment, the audio analysis module 208 be preprogrammed with a number of music selections to which the received primary audio content is compared.
Unabhängig vom
Verfahren der Analyse bestimmt dann, wenn das Audioanalysemodul 208 feststellt,
daß der
primäre
Audioinhalt keine Musik ist, Schritt 510, und bereits festgestellt
hat, daß der
primäre
Audioinhalt keine Sprache ist, das Audioanalysemodul 208,
daß die
schließlich
von dem A/V-Bearbeitungssystem 200 auszuwählende Audio-Auswahl ein
Hintergrundaudio sein soll, und gibt demzufolge eine Pegelanzeige
an die Steuereinrichtung 206 über die Leitung 214 aus,
um zu sichern, daß der
primäre Audioinhalt
nicht durch die Hintergrundaudioauswahl ”überdeckt” wird, Schritt 508.
Wenn jedoch das Audioanalysemodul 208 im Schritt 510 feststellt, daß der primäre Audioinhalt
aus Musik besteht, stellt das Audioanalysemodul 208 dieses
Audioattributinformation an die Steuereinrichtung 206 über die
Leitung 214 zur Verfügung.
Nachfolgend fordert die Steuereinrichtung 206 den Benutzer
des A/V-Bearbeitungssystems 200 über die Anzeigeeinrichtung 216 zu
der Option des Überschreibens
des primären
Audioinhalts (z. B. der Musik) auf. Nur aus Gründen der Kontinuität und der
einfacheren Erläuterung
wird die Funktion, bei der die Steuereinrichtung 206 dem
Benutzer des A/V-Bearbeitungssystem 200 diese Option zur Verfügung stellt,
bei dem veranschaulichten Ausführungsbeispiel
gemäß 5 als
Schritt 512 präsentiert,
obwohl es Fachleuten klar ist, daß dieser Schritt genausogut
später
in dem Verfahren 300 gemäß 3 abgeschlossen
werden kann.Regardless of the method of analysis then determines if the audio analysis module 208 determines that the primary audio content is not music, step 510 , and has already determined that the primary audio content is not speech, the audio analysis module 208 that finally from the A / V editing system 200 is to be selected background audio, and thus outputs a level indication to the controller 206 over the line 214 to ensure that the primary audio content is not "covered" by the background audio selection step 508 , However, if the audio analysis module 208 in step 510 determines that the primary audio content is music, provides the audio analysis module 208 this audio attribute information to the controller 206 over the line 214 to disposal. Subsequently, the controller requests 206 the user of the A / V editing system 200 via the display device 216 to the option of overwriting the primary audio content (such as music). Just for the sake of continuity and simpler explanation, the function in which the control device 206 the user of the A / V editing system 200 provides this option in accordance with the illustrated embodiment 5 as a step 512 Although it is clear to those skilled in the art, this step just as later in the process 300 according to 3 can be completed.
Wenn
der Benutzer das Überschreiben
des primären
Audioinhalts des empfangenen A/V-Signals auswählt, wird die von dem A/V-Bearbeitungssystem ausgewählte Audio-Auswahl
zum primären
Audioinhalt des zusammengesetzten, von dem A/V-Bearbeitungssystem 200 erzeugten
Signals und wird dementsprechend auf einen geeigneten Pegel eingestellt, Schritt 504.
Wenn jedoch im Schritt 512 der Benutzer des A/V-Bearbeitungssystems 200 kein Überschreiben
des primären
Audioinhalts, der aus Musik besteht, auswählt, fährt die Bearbeitungssitzung
ohne Audioanreicherung dieses vorgegebenen Teils des empfangenen
A/V-Signals fort, Schritt 514.When the user selects to overwrite the primary audio content of the received A / V signal, the audio selection selected by the A / V editing system becomes the primary audio content of the composite A / V editing system 200 generated signal and is accordingly set to an appropriate level, step 504 , However, if in step 512 the user of the A / V editing system 200 If no overwriting of the primary audio content consisting of music is selected, the editing session continues without audio enrichment of this predetermined portion of the received A / V signal, step 514 ,
Folglich
wird gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung der Inhalt des Audiostroms bloß zum Zwecke
des Einstellens eines Pegels analysiert, bei welchem das empfangene
A/V-Signal angereichert werden soll. Das heißt, bei dem veranschaulichten
Ausführungsbeispiel
besteht die Funktion des Audioanalysemoduls 208 darin,
die Audioattribute des primären
Audioinhalts zu identifizieren, um zu sichern, daß der Aufzeichnungspegel (beispielsweise
die Lautstärke)
des angereicherten Audiosignals, der von der Steuereinrichtung 206 eingestellt
wird, nicht den primären
Audioinhalt ”erstickt”. Fachleute
werden jedoch erkennen, daß bei anderen
Ausführungsbeispielen
die Analyse des Audioinhalts ebensogut zusätzlichen Funktionen dienen könnte, ohne
vom Geist oder Umfang der Erfindung abzuweichen.Thus, according to an embodiment of the present invention, the content of the audio stream is analyzed merely for the purpose of setting a level at which the received A / V signal is to be accumulated. That is, in the illustrated embodiment, the function of the audio analysis module is to function 208 in identifying the audio attributes of the primary audio content to ensure that the recording level (e.g., volume) of the enhanced audio signal received from the controller 206 is not stifling the primary audio content. Those skilled in the art will recognize, however, that in other embodiments, the analysis of the audio content could just as well serve additional functions without departing from the spirit or scope of the invention.
Fahren
wir bei dem Beispielverfahren gemäß 3 fort;
nachdem die visuellen Attributinformationen aus dem Videoanalysemodul 202 im
Schritt 308 empfangen worden sind, identifiziert die Steuereinrichtung 206 zumindest
zum Teil auf der Grundlage der empfangenen visuellen Attributinformationen eine
geeignete Audio-Auswahl aus einer Mehrzahl von Audio-Auswahlen,
die in Audiodateien 212 enthalten sind, Schritt 312.
Bei einem Ausführungsbeispiel
vertraut die Steuereinrichtung 206 auf eine Datenbank,
welche geeignete Audio-Auswahlen auf der Grundlage beliebiger einer
Reihe von entsprechenden visuellen Attributen referenziert. Ein
Beispiel einer Datenbank, die zur Verwendung durch die Steuereinrichtung 206 geeignet
ist, ist in 6 gezeigt.Let's continue with the example procedure 3 continue; after the visual attribute information from the video analysis module 202 in step 308 have been received, the controller identifies 206 based at least in part on the received visual attribute information, a suitable audio selection from a plurality of audio selections contained in audio files 212 are included, step 312 , In one embodiment, the controller trusts 206 to a database that references appropriate audio selections based on any of a number of corresponding visual attributes. An example of a database for use by the controller 206 is suitable is in 6 shown.
Gemäß dem veranschaulichten
Ausführungsbeispiel
der 6, ist eine Datenbank 600 gezeigt, die
eine Reihe von Audio-Auswahlen zeigt, die quer-verbunden mit einer
Reihe von visuellen Attributen sind. Wie es bei dem veranschaulichten
Ausführungsbeispiel
von 6 gezeigt ist, nimmt die Datenbank 600 auf
Audio-Auswahlen mit Hilfe entsprechender visueller Attribute in
einer zweidimensionalen Datenbank Bezug. Bei dem veranschaulichten Ausführungsbeispiel
ist die y-Achse durch das Identifizieren des Genre 602 der
Audio-Auswahlen
charakterisiert. Fachleuten ist es klar, daß Genre-Informationen 602 nur
eine Art einer Reihe von alternativen Mitteln sind, anhand welcher
die Informationen in der Datenbank 600 organisiert sein
können.
So gibt es eine Reihe geeigneter alternativer Lösungen zum Organisieren der
Informationen der Datenbank 600, ohne vom Geist oder Umfang
der vorliegenden Erfindung abzuweichen.According to the illustrated embodiment of the 6 , is a database 600 which shows a series of audio selections that are transversely connected to a number of visual attributes. As in the illustrated embodiment of FIG 6 shown, the database takes 600 referring to audio selections using corresponding visual attributes in a two-dimensional database. In the illustrated embodiment, the y-axis is identified by identifying the genre 602 characterized the audio selections. Professionals, it is clear that genre information 602 just one kind of a set of alternative means are based on which the information in the database 600 can be organized. So there are a number of suitable alternative solutions for organizing the information of the database 600 without departing from the spirit or scope of the present invention.
Die
x-Achse der Datenbank 600 ist durch Audio-Auswahlen 604 charakterisiert,
die zu entsprechenden visuellen Attributen quer-verbunden sind, wie
beispielsweise Farbattributen 606, Beleuchtungsattributen 608 und
Inhalts/Bewegungsat tributen 610. Gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung kann das A/V-Bearbeitungssystem 200 zuvor
mit einer Reihe von Audio-Auswahlen geladen werden, wobei die in
der Datenbank 600 gespeicherten Audio-Auswahlen mit den
verschiedenen Attributinformationen querverbunden sind. Bei einem
weiteren Ausführungsbeispiel
stellt das A/V-Bearbeitungssystem 200 eine Bedienerschnittstelle
zur Verfügung, über welche
Audio-Auswahlen den Audio-Dateien 212 hinzugefügt oder
aus ihnen gelöscht
werden können,
wobei die Steuereinrichtung 206 automatisch in der geeigneten
Weise die Datenbank 600 mit den Hinzufügungen/Löschungen aktualisiert. Darüber hinaus
ist es Fachleuten klar, daß die
Darstellung der Datenbank 600 als zweidimensionale Datenbank
nur der Vereinfachung der Erläuterung
dient. Das heißt,
Datenbanken einer größeren oder
geringeren Komplexität
können
die Datenbank 600 vorteilhaft ersetzen mit einer entsprechenden
Wirkung auf die Menge und Komplexität der darin enthaltenen Informationen.The x-axis of the database 600 is through audio selections 604 which are cross-connected to corresponding visual attributes, such as color attributes 606 , Lighting attributes 608 and content / movement tributes 610 , According to an embodiment of the present invention, the A / V processing system 200 previously loaded with a number of audio selections, those in the database 600 stored audio selections are cross-linked with the various attribute information. In another embodiment, the A / V processing system provides 200 An operator interface is available over which audio selects the audio files 212 can be added or deleted from them, the control device 206 automatically in the appropriate way the database 600 updated with the additions / deletions. In addition, it is clear to professionals that the representation of the database 600 serves as a two-dimensional database only to simplify the explanation. That is, databases of greater or lesser complexity can use the database 600 advantageously replace with a corresponding effect on the amount and complexity of the information contained therein.
Kehren
wir wieder zu dem veranschaulichten Ausführungsbeispiel gemäß 3 zurück; nachdem eine
Audio-Auswahl automatisch ausgewählt
worden ist, mit welcher die Videoaufzeichnung angereichert werden
soll, fordert wenigstens zum Teil auf der Grundlage der identifizierten
visuellen Attribute der Videoaufzeichnung im Schritt 312 die
Steuereinrichtung 206 den Benutzer des A/V-Bearbeitungssystem 200 mit
der Option des Akzeptierens der Audio-Auswahl der Steuereinrichtung
oder der Zurückweisung dieser
Auswahl zugunsten einer anderen Auswahl im Schritt 314 auf.
Wenn im Schritt 314 der Benutzer die Audio-Auswahl der
Steuereinrichtung 206 akzeptiert, synchronisiert die Steuereinrichtung 206 die
Audio-Auswahl mit
der Videoaufzeichnung, mischt die Audio-Auswahl mit dem primären Audioinhalt,
sofern ein solcher vorhanden ist, bei Pegeln, die automatisch von
dem Audioanalysemodul 208 geeignet bestimmt werden, und
gibt ein zusammengesetztes Signal aus, das das mit der automatisch
identifizierten Audio-Auswahl angereicherte empfangene A/V-Signal
ist. Bei ei nem Ausführungsbeispiel
koordiniert die Steuereinrichtung 206 das ”Tempo” (z. B.
die Geschwindigkeit) der Audio-Auswahl mit der in dem Videoinhalt
identifizierten Bewegungsrate oder mit dem Tempo des primären Audioinhalts,
während
sie die automatisch identifizierte Audio-Auswahl mit dem primären Audioinhalt
mischt.Let us return to the illustrated embodiment 3 back; after automatically selecting an audio selection to which the video recording is to be enriched, at least in part, request based on the identified visual attributes of the video recording in the step 312 the controller 206 the user of the A / V editing system 200 with the option of accepting the audio selection of the controller or rejecting that selection in favor of another selection in the step 314 on. When in step 314 the user selects the audio of the controller 206 accepts, synchronizes the controller 206 the audio selection with the video recording, mixes the audio selection with the primary audio content, if any, at levels that are automatically from the audio analysis module 208 suitably determined, and outputs a composite signal which is the received A / V signal enriched with the automatically identified audio selection. In one embodiment, the controller coordinates 206 the "tempo" (eg, speed) of the audio selection with the motion rate identified in the video content or with the Tempo of the primary audio content while mixing the automatically identified audio selection with the primary audio content.
Wenn
jedoch der Benutzer die Audio-Auswahl der Steuereinrichtung 206 im
Schritt 314 zurückweist,
wird dem Benutzer eine Schnittstelle zur Verfügung gestellt, über welche
der Benutzer auf die Datenbank 600 der verfügbaren Audio-Auswahlen zugreifen
kann, wobei der Benutzer eine Audio-Auswahl auswählt, mit welcher die Videoaufzeichnung angereichert
werden soll, Schritt 316. Im Schritt 318 bestimmt
die Steuereinrichtung 206, ob das Ende der Videoaufzeichnung
erreicht ist. Sofern dies der Fall ist, endet das Verfahren. Wenn
andererseits die Steuereinrichtung 206 feststellt, daß das Ende
der Videoaufzeichnung noch nicht erreicht ist, wird das Verfahren
mit dem Schritt 306 fortgesetzt, und die nächste vorgegebene
Menge des Videosignals zum Bearbeiten wird in das A/V-Bearbeitungssystem 200 geeignet
geladen.However, if the user selects the audio selection of the controller 206 in step 314 the user is provided with an interface through which the user accesses the database 600 the available audio selections, with the user selecting an audio selection to enrich the video recording step 316 , In step 318 determines the controller 206 whether the end of the video recording is reached. If so, the procedure ends. On the other hand, if the control device 206 determines that the end of the video recording has not yet been reached, the method in step 306 continued, and the next predetermined amount of the video signal for editing is in the A / V editing system 200 properly charged.
Folglich
analysiert gemäß den Lehren
der vorliegenden Erfindung das A/V-Bearbeitungssystem 200 den
Videoinhalt des empfangenen A/V-Signals und charakterisiert den
Videoinhalt in Form einer Anzahl visueller Attribute. Zusätzlich analysiert
das A/V-Bearbeitungssystem 200 den Audioinhalt des empfangenen
A/V-Signals, beispielsweise den primären Audioinhalt, um automatisch
einen Pegel zu identifizieren, bei welchem die Audio-Auswahl mit dem
primären
Audioinhalt zu ”mischen” ist. Nachdem die
visuellen Attributinformationen entwickelt worden sind, wählt das
A/V-Bearbeitungssystem 200 eine Audio-Auswahl aus einer
Mehrzahl verfügbarer
Audio-Auswahlen wenigstens zum Teil auf der Grundlage der identifizierten
visuellen Attributinformationen aus. Nachdem eine Audio-Auswahl
identifiziert worden ist, mit welcher der primäre Audioinhalt angereichert
werden soll, ”mischt” bei Empfang
einer Benutzerbestätigung
das A/V-Bearbeitungssystem 200 die Audio-Auswahl mit dem
primären
Audioinhalt bei einem Pegel, der automatisch in Übereinstimmung mit den festgestellten
Audioattributinformationen des Audiostroms bestimmt wird. Gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung ist die Audio-Auswahl eine Musikkomposition,
beispielsweise ein Lied. Bei einem alternativen Ausführungsbeispiel ist
die Audio-Auswahl ein Poem, ein Sonett oder eine andere lyrische
Komposition, die automatisch von dem A/V-Bearbeitungssystem 200 ausgewählt wird, um
die von den visuellen Attributen des empfangenen A/V-Signals angezeigte
Stimmung anzureichern.Thus, in accordance with the teachings of the present invention, the A / V processing system analyzes 200 the video content of the received A / V signal and characterizes the video content in the form of a number of visual attributes. Additionally, the A / V processing system analyzes 200 the audio content of the received A / V signal, such as the primary audio content, to automatically identify a level at which the audio selection is to be "mixed" with the primary audio content. After the visual attribute information has been developed, the A / V editing system chooses 200 an audio selection from a plurality of available audio selections based at least in part on the identified visual attribute information. After identifying an audio selection to enrich the primary audio content, upon receiving a user acknowledgment, the A / V editing system "shuffles" 200 the audio selection with the primary audio content at a level that is automatically determined in accordance with the detected audio attribute information of the audio stream. According to an embodiment of the present invention, the audio selection is a music composition, such as a song. In an alternative embodiment, the audio selection is a poem, sonnet, or other lyrical composition automatically from the A / V editing system 200 is selected to enrich the mood displayed by the visual attributes of the received A / V signal.
Gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung ist das A/V-Bearbeitungssystem 200 ein
Computersystem, das in geeigneter Weise konfiguriert worden ist,
um einen Videostrom zu analysieren und den Videoinhalt eines empfangenen A/V-Signals
in Form seiner visuellen Attribute zu charakterisieren, und wobei
wenigstens zum Teil auf der Grundlage dieser visuellen Attribute
das Computersystem eine Audio-Auswahl identifiziert, mit welcher das
empfangene A/V-Signal
angereichert werden soll, und es ein zusammengesetztes Signal des
empfangenen A/V-Signals und der automatisch identifizierten Audio-Auswahl
zur Aufzeichnung erzeugt. Wie unten detaillierter beschrieben wird,
soll das A/V-Bearbeitungssystem 200 eine breite Kategorie von
im Stand der Technik bekannten Computersystemen repräsentieren.
Ein Beispiel eines derartigen Systems ist ein Desktop-Computersystem,
das mit einem Hochleistungsmikroprozessor, wie beispielsweise dem
Pentium®-Prozessor,
Pentium®-Pro-Prozessor
oder Pentium II-Prozessor, die von der Intel Corporation aus Santa
Clara, Kalifornien, hergestellt und üblicherweise von dieser erhältlich sind,
ausgerüstet
ist, einschließlich
einer Anzahl von Audio- und Video-Eingabe- und -Ausgabe-Peripherieeinrichtungen/Schnittstellen
zum Empfangen, Digitalisieren, Komprimieren und Dekomprimieren von
Audio- und Videosignalen. Es ist klar, daß die Gehäusegröße und -gestaltung für das A/V-Bearbeitungssystem 200 geändert werden könnten, damit
es besser in ein Unterhaltungssystem, beispielsweise das Unterhaltungssystem 100,
visuell paßt.
Dementsprechend könnte
das A/V-Bearbeitungssystem 200 gut in einer ”Set-Top”-Box ausgeführt sein,
in der die Lehren der vorliegenden Erfindung enthalten sind.According to an embodiment of the present invention, the A / V processing system is 200 a computer system that has been suitably configured to analyze a video stream and to characterize the video content of a received A / V signal in terms of its visual attributes, and based at least in part on these visual attributes, the computer system an audio Identifies selection, with which the received A / V signal is to be enriched, and it generates a composite signal of the received A / V signal and the automatically identified audio selection for recording. As will be described in more detail below, the A / V processing system 200 represent a broad category of computer systems known in the art. An example of such a system is a desktop computer system ® with a high performance microprocessor such as the Pentium processor, Pentium ® -Pro-processor, or Pentium II processor, manufactured by Intel Corporation of Santa Clara, California and usually available from this, including a number of audio and video input and output peripherals / interfaces for receiving, digitizing, compressing and decompressing audio and video signals. It is clear that the housing size and design for the A / V processing system 200 could be changed to make it better in an entertainment system, such as the entertainment system 100 , visually fits. Accordingly, the A / V processing system could 200 well in a "set-top" box containing the teachings of the present invention.
7 stellt
eine Blockdarstellung eines Computersystems (z. B. System 700)
zur Verfügung, in
dem die Lehren der vorliegenden Erfindung enthalten sind. Bei einem
Ausführungsbeispiel
ist das System 700 das A/V-Bearbeitungssystem 128 gemäß 1.
Bei dem veranschaulichten Ausführungsbeispiel
enthält
das System 700 wenigstens einen Prozessor (z. B. Prozessor 702)
und einen Cache-Speicher 704, die miteinander in der gezeigten
Weise gekoppelt sind. Zusätzlich
enthält
das System 700 einen Hochleistungs-Eingabe/Ausgabe(I/O)-Bus 706 und
einen Standard-I/O-Bus 708, wie es gezeigt ist. Eine Host-Brücke 710 koppelt
den Prozessor 702 mit dem Hochleistungs-I/O-Bus 706,
während
die I/O-Busbrücke 712 den
Hochleistungs-I/O-Bus 706 mit dem Standard-I/O-Bus 708 koppelt.
Mit dem Hochleistungs-I/O-Bus 706 sind eine Netzwerk-Kommunikationsschnittstelle 724,
ein Systemspeicher 714, Audio/Video-Schnittstellenplatinen 730,
ein A/V-Editierer 732 und ein Videospeicher 716 gekoppelt.
Die Anzeigeeinrichtung 718 wiederum ist mit dem Videospeicher 716 gekoppelt.
Mit dem Standard-I/O-Bus 708 sind eine Massenspeichereinrichtung 720,
eine Tastatur und Zeigereinrichtung 722 und I/O-Ports 726 gekoppelt.
Bei einem Ausführungsbeispiel
sind die Tastatur und die Zeigereinrichtung mit dem Standard-I/O-Bus 708 über ein
serielles Kommunikationsschnittstellenkabel gekoppelt, während bei
alternativen Ausführungsbeispielen
sie kommunikativ mit einer Infrarot(IR)-Schnittstelle oder einer
Hochfrequenz(HF)-Schnittstelle kommunikativ gekoppelt sein könnten. 7 provides a block diagram of a computer system (eg system 700 ) incorporating the teachings of the present invention. In one embodiment, the system is 700 the A / V editing system 128 according to 1 , In the illustrated embodiment, the system includes 700 at least one processor (eg processor 702 ) and a cache memory 704 which are coupled together in the manner shown. In addition, the system contains 700 a high performance input / output (I / O) bus 706 and a standard I / O bus 708 as shown. A host bridge 710 couples the processor 702 with the high performance I / O bus 706 while the I / O bus bridge 712 the high performance I / O bus 706 with the standard I / O bus 708 coupled. With the high performance I / O bus 706 are a network communication interface 724 , a system memory 714 , Audio / video interface boards 730 , an A / V editor 732 and a video store 716 coupled. The display device 718 turn, is with the video memory 716 coupled. With the standard I / O bus 708 are a mass storage device 720 , a keyboard and pointing device 722 and I / O ports 726 coupled. In one embodiment, the keyboard and pointer are the standard I / O bus 708 coupled via a serial communication interface cable, while in alternative embodiments communicatively communicates with an infrared (IR) interface or ei radio frequency (RF) interface could be communicatively coupled.
Es
wird weiter auf 7 Bezug genommen; die Elemente 702–730 führen ihre
herkömmlichen Funktionen
aus, wie sie im Stand der Technik bekannt sind. Insbesondere wird
die Netzwerk/Kommunikationsschnittstelle 724 verwendet,
um eine Kom munikation zwischen dem System 700 und irgendeinem
eines breiten Bereichs herkömmlicher
Netzwerke, wie beispielsweise Ethernet, Token Ring, das Internet,
etc., zur Verfügung
zu stellen. In ähnlicher Weise
wird die Audio-Video-Schnittstellenplatine 730 verwendet,
um Rundfunkkommunikationen über
irgendeine einer großen
Anzahl herkömmlicher
Kabelleitungen und drahtloser Rundfunkmedien, wie beispielsweise
HF-Sendungen, Satellitensendungen, Kabelsendungen,
etc., zu empfangen. Die Massenspeichereinrichtung 720 wird
verwendet, um einen permanenten Speicher für die Daten und Programmbefehle
zum Implementieren der oben beschriebenen Funktionen zur Verfügung zu
stellen, wohingegen der Systemspeicher 714 verwendet wird,
um einen temporären
Speicher für
die Daten und Programmbefehle, wenn sie von dem Prozessor 702 ausgeführt werden,
zur Verfügung
zu stellen. Die I/O-Ports 726 sind ein oder mehrere serielle
und/oder parallele Kommunikationsports, die verwendet werden, um
eine Kommunikation zwischen zusätzlichen Peripherieeinrichtungen
zur Verfügung
zu stellen, welche mit dem System 700 gekoppelt sein können (z.
B. Stereolautsprecher, etc.). Insgesamt sollen die mit dem System 700 gekoppelten
Elemente eine breite Kategorie von Hardwaresystemen repräsentieren,
die beispielsweise Mehrzweckcomputersysteme auf der Grundlage des
Pentium®-Prozessors,
des Pentium®Pro-Prozessors
oder des Pentium®II-Prozessors, die üblicherweise von der Intel
Corporation aus Santa Clara, Kalifornien, erhältlich sind, einschließen.It will continue on 7 Reference is made; the Elements 702 - 730 perform their conventional functions as known in the art. In particular, the network / communication interface 724 used to communicate between the system 700 and any one of a wide range of conventional networks, such as Ethernet, Token Ring, the Internet, etc. Similarly, the audio-video interface board 730 used to receive broadcast communications over any one of a large number of conventional cable lines and wireless broadcast media, such as RF broadcasts, satellite broadcasts, cable broadcasts, etc. The mass storage device 720 is used to provide persistent storage for the data and program instructions for implementing the functions described above, whereas the system memory 714 is used to store temporary data and program commands when used by the processor 702 be provided. The I / O ports 726 are one or more serial and / or parallel communication ports used to provide communication between additional peripheral devices connected to the system 700 coupled (eg stereo speakers, etc.). Overall, those with the system 700 coupled elements represent a broad category of hardware systems, including, for example, general purpose computer systems based on the Pentium® processor, the Pentium® Pro processor, or the Pentium® II processor, commonly available from Intel Corporation of Santa Clara, California; lock in.
Bei
einem Ausführungsbeispiel
enthält
der A/V-Bearbeiter oder -Editierer 732 ein Videoanalysemodul 202 und
ein Audioanalysemodul 208 des A/V-Bearbeitungssystem 200,
während
die Steuereinrichtung 206, die Anzeigeeinrichtung 216 und
die Benutzerschnittstelleneinrichtung 218 des A/V-Bearbeitungssystems 200 dem
Prozessor 702, der Anzeigeeinrichtung 718 bzw.
der Tastatur- und Zeigereinrichtung 722 des Systems 700 gemäß 7 entsprechen.
Bei einem Ausführungsbeispiel
werden die Audio-Dateien 216 auf einem Massenspeicher 720 gespeichert
oder sind an einer fernen Stelle angeordnet und in kommunikativer
Weise mit dem System 700 über eine Netzwerk/Kommunikationsschnittstelle 724 gekoppelt.
Bei einem Ausführungsbeispiel
empfängt das
System 700 ein A/V-Signal aus der Netzwerk/Kommunikationsschnittstelle 724 und/oder
aus einer Audio/Video-Tuner-Schnittstelle 730, analysiert den
Videoinhalt nach visuellen Attributinformationen und identifiziert
automatisch eine Audio-Auswahl, mit welcher das empfangene A/V-Signal
angereichert werden soll, gemäß den oben
angegebenen Lehren. Bei einem alternativen Ausführungsbeispiel empfängt das
System 700 ein A/V-Signal über eine (nicht gezeigte) Antenne,
die mit einem der I/O-Ports 726 gekoppelt ist und automatisch
eine geeignete Audio-Auswahl identifiziert, mit welcher das empfangene
A/V-Signal angereichert werden soll.In one embodiment, the A / V agent or editor includes 732 a video analysis module 202 and an audio analysis module 208 of the A / V processing system 200 while the controller 206 , the display device 216 and the user interface device 218 of the A / V processing system 200 the processor 702 , the display device 718 or the keyboard and pointing device 722 of the system 700 according to 7 correspond. In one embodiment, the audio files become 216 on a mass storage 720 stored or located in a remote location and in a communicative manner with the system 700 via a network / communication interface 724 coupled. In one embodiment, the system receives 700 an A / V signal from the network / communication interface 724 and / or from an audio / video tuner interface 730 , analyzes the video content for visual attribute information and automatically identifies an audio selection with which to enrich the received A / V signal, in accordance with the teachings given above. In an alternative embodiment, the system receives 700 an A / V signal via an antenna (not shown) connected to one of the I / O ports 726 is coupled and automatically identifies a suitable audio selection, with which the received A / V signal is to be enriched.
Es
ist klar, daß verschiedene
Komponenten des Systems 700 umarrangiert werden können. Beispielsweise
könnte
der Cache 704 auf dem Chip des Prozessors 702 sein.
Alternativ könnten
der Cache 704 und der Prozessor 702 miteinander
als ”Prozessor-Modul” verkapselt
sein, wobei der Prozessor 702 als ”Prozessorkern” bezeichnet
wird. Darüber
hinaus könnten
die Massenspeichereinrichtung 720, die Tastatur- und Zeigereinrichtung 722 und/oder
die Anzeigeeinrichtung 718 und der Videospeicher 716 nicht
in dem System 700 enthalten sein. Außerdem könnten die Peripheriegeräte, die
als mit dem Standard-I/O-Bus 708 gekoppelt gezeigt sind,
bei alternativen Ausführungsbeispielen
mit einem Hochleistungs-I/O-Bus 706 gekoppelt sein; oder
es könnte
bei einigen Implementierungen nur ein einziger Bus vorhanden sein,
wobei die Komponenten des Systems 700 mit dem einzigen
Bus gekoppelt sind. Darüber
hinaus könnten
zusätzliche
Komponenten in das System 700 aufgenommen werden, wie beispielsweise zusätzliche
Prozessoren, Speichereinrichtungen oder Speicher.It is clear that different components of the system 700 can be rearranged. For example, the cache could 704 on the chip of the processor 702 be. Alternatively, the cache could 704 and the processor 702 be encapsulated with each other as a "processor module", the processor 702 is referred to as a "processor core". In addition, the mass storage device could 720 , the keyboard and pointing device 722 and / or the display device 718 and the video memory 716 not in the system 700 be included. Also, the peripherals could work as with the standard I / O bus 708 in alternative embodiments with a high performance I / O bus 706 be coupled; or, in some implementations, there could be only a single bus, with the components of the system 700 coupled with the single bus. In addition, additional components could be added to the system 700 such as additional processors, memory devices or memory.
Bei
einem Ausführungsbeispiel
könnten
die neuartigen Merkmale der vorliegenden Erfindung, die oben erörtert wurden,
statt sie in einem separaten A/V-Bearbeiter 732 einzuschließen, als
Serie von Softwareroutinen, die von dem Sy stem 700 gemäß 7 abgearbeitet
werden, implementiert sein. Diese Software-Routinen lassen eine
Mehrzahl oder eine Serie von Befehlen, die durch einen Prozessor, wie
beispielsweise den Prozessor 702 im System 700,
ausgeführt
werden sollen, ablaufen. Anfänglich werden
die Serien von Befehlen auf einer Speichereinrichtung, wie beispielsweise
der Massenspeichereinrichtung 720, gespeichert. Es ist
klar, daß die
Serien der Befehle auf irgendeiner herkömmlichen Speichereinrichtung
gespeichert werden können,
wie beispielsweise einer Diskette, CD-ROM, einem Magnetband, einer
Digital Versatile Disk (DVD) (auch als Digital Video Disk bezeichnet),
einer Laserplatte, einem ROM, einem Flash-Speicher, etc. Es ist
darüber hinaus
klar, daß die
Serien von Befehlen nicht lokal gespeichert zu werden brauchen und
von einer fernen Speichereinrichtung, wie beispielsweise einem Server
an einem Netzwerk, über
Netzwerk/Kommunikationsschnittstelle 724 empfangen werden
könnten.
Die Befehle werden aus der Speichereinrichtung, wie beispielsweise
der Massenspeichereinrichtung 720, in den Systemspeicher 714 kopiert,
und dann wird auf sie von dem Prozessor 702 zugegriffen,
und sie werden ausgeführt.
Bei einem Ausführungsbeispiel
sind diese Software-Routinen in der Programmiersprache C++ geschrieben.
Es ist jedoch klar, daß diese
Routinen in irgendeiner einer großen Anzahl von Programmiersprachen
implementiert sein könnten.
Bei alternativen Ausführungsbeispielen könnte die
vorliegende Erfindung in diskreter Hardware oder Firmware implementiert
sein. Beispielsweise könnte
ein integrierter Kundenwunschschaltkreis (ASIC) mit den oben beschriebenen
Funktionen der vorliegenden Erfindung programmiert werden.In one embodiment, the novel features of the present invention discussed above could be in a separate A / V handler rather than in a separate A / V handler 732 as a series of software routines used by the system 700 according to 7 be processed, be implemented. These software routines allow a plurality or series of instructions to be executed by a processor, such as the processor 702 in the system 700 to be executed, expire. Initially, the series of instructions are stored on a storage device, such as the mass storage device 720 , saved. It will be understood that the series of instructions may be stored on any conventional memory device, such as a floppy disk, CD-ROM, magnetic tape, Digital Versatile Disk (DVD) (also referred to as Digital Video Disk), laser disk, ROM It is also clear that the series of instructions need not be stored locally and from a remote storage device, such as a server on a network, over the network / communication interface 724 could be received. The instructions are from the storage device, such as the mass storage device 720 , into the system store 714 copied, and then it will be on the processor 702 accessed and they are executed. In one embodiment, these software routines are written in the C ++ programming language. However, it will be understood that these routines could be implemented in any of a large number of programming languages. In alternative embodiments, the present invention could be implemented in discrete hardware or firmware. For example, an integrated customer request circuit (ASIC) could be programmed with the above-described functions of the present invention.
8 ist
eine Blockdarstellung, die die Software-Elemente veranschaulicht,
die eine Beispiel-Software-Architektur gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung bilden. Insbesondere ist gezeigt, daß die Beispiel-Software-Architektur 800 eine
A/V-Bearbeiteranwendung 802, einen A/V-Editierer-Agent 804 mit
zugeordnetem Videoanalysemodul 806 und Audioanalysemodul 808 sowie
ein Betriebssystem 810 mit zugehörigen Treibern und dem BIOS 822 enthält. Wie
es bei dem veranschaulichten Ausführungsbeispiel gemäß 8 gezeigt
ist, bildet die A/V-Bearbeiter-Anwendung 802 Schnittstellen
zu dem A/V-Editierer-Agenten 804 und schafft dem Bediener
eine Schnittstelle für
das A/V-Bearbeitungssystem 128 gemäß 1. 8th Figure 14 is a block diagram illustrating the software elements that constitute an example software architecture according to an embodiment of the present invention. In particular, it is shown that the example software architecture 800 an A / V editor application 802 , an A / V Editor Agent 804 with associated video analysis module 806 and audio analysis module 808 as well as an operating system 810 with associated drivers and the BIOS 822 contains. As in the illustrated embodiment according to 8th shown forms the A / V Editor application 802 Interfaces to the A / V Editor Agent 804 and provides the operator with an interface for the A / V processing system 128 according to 1 ,
Bei
einem Ausführungsbeispiel
ist der A/V-Editierer-Agent 804 so
eingekoppelt und in die Lage versetzt, daß er Informationen aus der
Datenbank 812 und den Audio-Dateien 814 erlangen
kann. Bei einem alternativen Ausführungsbeispiel sind die Audio-Dateien 814 und/oder
die Datenbank 812 integrierte Module des A/V-Editierer-Agenten 804.
Wie es in 8 gezeigt ist, empfängt der
A/V-Editierer-Agent 804 ein Videosignal über einen
Kommunikationsport über
einen geeigneten Treiber innerhalb des Betriebssystems 810.
Bei einem Ausführungsbeispiel
führt das
Videoanalysemodul 806 die Schritte des Analysierens des
Videoinhalts des empfangenen A/V-Signals für irgendwelche einer Reihe
visueller Attribute durch, während
das Audioanalysemodul 808 den Audioinhalt des empfangenen
A/V-Signals (beispielsweise des primären Audioinhalts), sofern ein
solcher vorhanden ist, analysiert, um den relativen Pegel (beispielsweise
die Lautstärke)
zu bestimmen, bei welchem die Audio-Auswahl aufgezeichnet werden
soll, gemäß den oben
beschriebenen Lehren der vorliegenden Erfindung. Wenigstens zum
Teil auf der Grundlage der Eingabe aus dem Videoanalysemodul 806 identifiziert
der auf die Datenbank 812 zugreifende A/V-Editierer 804 eine
Audio-Auswahl, welche im wesentlichen den identifizierten visuellen
Attributen des Videoinhalts des empfangenen Signals entspricht,
und bei einer Benutzerbestätigung
der identifizierten Audio-Auswahl kombiniert der A/V-Editierer 802 das
empfangene A/V-Signal mit der identifizierten Audio-Auswahl bei
einem automatisch von dem Audioanalysemodul 208 ausgewählten Pegel, um
ein zusammengesetztes A/V-Signal, das die angereicherte Audio-Auswahl
enthält,
zur Verfügung
zu stellen, wel ches über
einen geeigneten Treiber des Betriebssystems 810 ausgegeben
wird.In one embodiment, the A / V Editor Agent is 804 so coupled and enabled to get information from the database 812 and the audio files 814 can obtain. In an alternative embodiment, the audio files are 814 and / or the database 812 integrated modules of the A / V Editor Agent 804 , As it is in 8th is shown, the A / V Editor Agent receives 804 a video signal via a communication port via a suitable driver within the operating system 810 , In one embodiment, the video analysis module performs 806 the steps of analyzing the video content of the received A / V signal for any of a number of visual attributes while the audio analysis module 808 the audio content of the received A / V signal (e.g., the primary audio content), if any, is analyzed to determine the relative level (e.g., volume) at which the audio selection should be recorded, in accordance with those described above Teachings of the present invention. At least in part, based on input from the video analysis module 806 identifies the on the database 812 accessing A / V editors 804 an audio selection which substantially corresponds to the identified visual attributes of the video content of the received signal, and upon user confirmation of the identified audio selection, the A / V editor combines 802 the received A / V signal with the identified audio selection automatically at the audio analysis module 208 selected level to provide a composite A / V signal containing the enriched audio selection, wel ches via a suitable driver of the operating system 810 is issued.
Wie
oben erwähnt,
stellt das BIOS 822 eine Schnittstelle zwischen dem Betriebssystem 810 und den
verschiedenen mit dem Hardware-System gekoppelten I/O-Einrichtungen
zur Verfügung.
Das Betriebssystem 810 ist ein Software-Dienst, welcher eine
Schnittstelle zwischen dem BIOS 822 und dem A/V-Editierer-Agenten 804 sowie
zu weiteren Software-Anwendungen, sofern solche vorhanden sind,
zur Verfügung
stellt, die durch ein Computersystem ausgeführt werden, innerhalb welchem
die vorliegende Erfindung ausgeführt
wird (z. B. das System 700).As mentioned above, the BIOS provides 822 an interface between the operating system 810 and the various I / O devices coupled to the hardware system. The operating system 810 is a software service which provides an interface between the BIOS 822 and the A / V Editor Agent 804 and to other software applications, if any, provided by a computer system within which the present invention is practiced (e.g., the system 700 ).
Das
Betriebssystem 810 schafft eine Schnittstelle, wie beispielsweise
eine graphische Bedieneroberfläche
(GUI), zwischen dem Bediener und der Systemsteuereinrichtung. Gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung ist das Betriebssystem 810 das
WindowsTM95-Betriebssystem, das von der
Microsoft Corporation in Redmond, Washington, erhältlich ist.
Es ist jedoch klar, daß die
vorliegende Erfindung in Verbindung mit einem beliebigen anderen
herkömmlichen
Betriebssystem verwendet werden kann, wie beispielsweise anderen Versionen
von Microsoft WindowsTM (beispielsweise WindowsTM 3.0, WindowsTM 3.1,
WindowsTM NT oder WindowsTM CE),
Microsoft DOS, OS/2, erhältlich
von der International Business Machines Corporation aus Armonk,
New York, dem Apple Macintosh Betriebssystem, erhältlich von
der Apple Computer Inc. aus Cupertino, Kalifornien, dem NeXTSTEP®-Betriebssystem,
das von der Apple Computer Inc. erhältlich ist, oder dem UNIX-Betriebssystem,
das von der Santa Cruz Operations aus Santa Cruz, Kalifornien, erhältlich ist.The operating system 810 provides an interface, such as a graphical user interface (GUI), between the operator and the system controller. According to an embodiment of the present invention, the operating system is 810 the Windows ™ 95 operating system, available from Microsoft Corporation of Redmond, Washington. However, it should be understood that the present invention may be used in conjunction with any other conventional operating system, such as other versions of Microsoft Windows ™ (for example, Windows ™ 3.0, Windows ™ 3.1, Windows ™ NT, or Windows ™ CE), Microsoft DOS , OS / 2, available from International Business Machines Corporation of Armonk, New York, the Apple Macintosh operating system available from Apple computer Inc. of Cupertino, California, the NextStep ® operating system, which is available from Apple computer Inc. , or the UNIX operating system, available from Santa Cruz Operations of Santa Cruz, California.
So
analysiert in Übereinstimmung
mit den Lehren der vorliegenden Erfindung ein A/V-Bearbeitungssystem
den Videoinhalt einer Videoaufzeichnung und identifiziert wenigstens
zum Teil auf der Grundlage der visuellen Attribute des Videoinhalts automatisch
eine Audio-Auswahl, mit welcher die Videoaufzeichnung angereichert
werden soll, bei einem von dem A/V-Bearbeitungssystem automatisch ausgewählten Aufzeichnungspegel,
der den primären
Audioinhalt, sofern ein solcher vorhanden ist, der Videoaufzeichnung
nicht erdrückt.So
analyzed in agreement
with the teachings of the present invention, an A / V processing system
the video content of a video recording and at least identifies
partly based on the visual attributes of the video content automatically
an audio selection that enriches the video recording
at a recording level automatically selected by the A / V processing system,
the primary
Audio content, if any, of the video recording
not crushed.
Während das
Verfahren und die Einrichtung der vorliegenden Erfindung anhand
der oben veranschaulichten Ausführungsbeispiele
beschrieben worden sind, ist es Fachleuten klar, daß die Erfindung nicht
auf die so beschriebenen Ausführungsbeispiele eingeschränkt ist.
Die vorliegende Erfindung kann mit Modifikationen und Änderungen
innerhalb des Geists und des Umfangs der anhängigen Ansprüche ausgeführt werden.
Obwohl es beispielsweise als separate Komponente gezeigt ist, könnte das
A/V-Bearbeitungssystem 128 ebensogut in eine der Systemkomponenten
(beispielsweise eine Fernsehmonitor/Videokassetten/Wiedergabe-Einrichtung)
innerhalb des Systems 100 aufgenommen sein. Darüber hinaus könnte das
A/V-Bearbeitungssystem 128 nicht
sämtliche
der in den 2 oder 7 gezeigten
Elemente enthalten oder könnte
alternativ zusätzliche
Elemente enthalten, ohne vom Umfang und Geist der vorliegenden Erfindung
abzuweichen. Demzufolge soll die Beschreibung in einem veranschaulichenden und
nicht in einem die vorliegende Erfindung einschränkenden Sinne verstanden werden.While the method and apparatus of the present invention have been described in terms of the embodiments illustrated above, it will be apparent to those skilled in the art that the invention is not limited to the embodiments thus described. The present invention may involve modifications and changes within the spirit and the scope of the appended claims. For example, although shown as a separate component, the A / V processing system could 128 just as well into one of the system components (for example a television monitor / videocassette / player) within the system 100 be included. In addition, the A / V editing system could 128 not all of those in the 2 or 7 or alternatively could contain additional elements without departing from the scope and spirit of the present invention. Accordingly, the description is to be understood in an illustrative and not in a sense limiting the present invention.
Somit
wurden ein Verfahren und eine Einrichtung zum Editieren oder Bearbeiten
einer Videoaufzeichnung mit Audio-Auswahlen beschrieben.Consequently
have been a method and a means of editing or editing
a video recording with audio selections described.