EP1652405A2 - Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene - Google Patents

Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene

Info

Publication number
EP1652405A2
EP1652405A2 EP04763715A EP04763715A EP1652405A2 EP 1652405 A2 EP1652405 A2 EP 1652405A2 EP 04763715 A EP04763715 A EP 04763715A EP 04763715 A EP04763715 A EP 04763715A EP 1652405 A2 EP1652405 A2 EP 1652405A2
Authority
EP
European Patent Office
Prior art keywords
audio
user interface
channel
assigned
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP04763715A
Other languages
English (en)
French (fr)
Other versions
EP1652405B1 (de
Inventor
Sandra Brix
Frank Melchior
Jan Langhammer
Thomas Röder
Kathrin MÜNNICH
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to EP04763715A priority Critical patent/EP1652405B1/de
Publication of EP1652405A2 publication Critical patent/EP1652405A2/de
Application granted granted Critical
Publication of EP1652405B1 publication Critical patent/EP1652405B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Definitions

  • the present invention is in the field of wave field synthesis and relates in particular to devices and methods for generating, storing or editing an audio representation of an audio scene.
  • WFS Wave-Field Synthesis
  • wave field synthesis Due to the enormous demands of this method on computer performance and transmission rates, wave field synthesis has so far only rarely been used in practice. It is only the advances in the areas of microprocessor technology and audio coding that allow this technology to be used in concrete applications. The first products in the professional sector are expected next year. The first wave field synthesis applications for the consumer sector are also expected to be launched in a few years.
  • Every point that is captured by a wave is the starting point for an elementary wave that propagates in a spherical or circular manner.
  • a large number of loudspeakers that are arranged next to each other can be used to simulate any shape of an incoming wavefront.
  • the audio signals of each loudspeaker have to be fed with a time delay and amplitude scaling in such a way that the emitted sound fields of the individual loudspeakers overlap correctly. If there are several sound sources, the contribution to each loudspeaker is calculated separately for each source and the resulting signals are added. If the sources to be reproduced are in a room with reflecting walls, then reflections must also be reproduced as additional sources via the loudspeaker array the. The effort involved in the calculation therefore depends heavily on the number of sound sources, the reflection properties of the recording room and the number of speakers.
  • the particular advantage of this technique is that a natural spatial sound impression is possible over a large area of the playback room.
  • the direction and distance of sound sources are reproduced very precisely.
  • virtual sound sources can even be positioned between the real speaker array and the listener.
  • wave field synthesis works well for environments whose properties are known, irregularities occur when the nature changes or when the wave field synthesis is carried out on the basis of an environment condition that does not correspond to the actual condition of the environment.
  • the technique of wave field synthesis can also be used advantageously to complement a visual perception with a corresponding spatial audio perception.
  • the focus in production in virtual studios has been to provide an authentic visual impression of the virtual scene.
  • the acoustic impression that goes with the image is usually imprinted on the audio signal by manual work steps in what is known as post-production, or is classified as too complex and time-consuming to implement and is therefore neglected. This usually leads to a contradiction of the individual sensations, which leads to the fact that the designed space, i. H. the designed scene, which is perceived as less authentic.
  • the audio material for a film for example, consists of a large number of audio objects.
  • An audio object is a sound source in the film setting. If, for example, you think of a film scene in which two people face each other and are in a dialogue, and at the same time e.g. For example, if a rider and a train are approaching, a total of four sound sources exist in this scene over a certain period of time, namely the two people, the approaching rider and the approaching train. If it is assumed that the two people who are in dialogue do not speak at the same time, then at least two audio objects are likely to be active at a time, namely the rider and the train, if both people are currently silent.
  • an audio object presents itself in such a way that the audio object describes a sound source in a film setting that is active or “alive” at a certain point in time. This means that an audio object is further characterized by a start time and an end time.
  • the rider and the train are active throughout the setting, and when both approach, the listener will notice this by making the rider and the train noisier and possibly - in an optimal wave field synthesis setting - as well change the positions of these sound sources accordingly
  • the two speakers in dialogue are constantly generating new audio objects, since whenever a speaker stops speaking the current audio object has ended and when the other speaker starts speaking, a new audio object begins which in turn ends when the other S precher stops speaking, and when the first speaker starts speaking again, a new audio object is started again.
  • Existing wave field synthesis rendering devices exist which are able to generate a certain number of loudspeaker signals from a certain number of input channels, with knowledge of the individual positions of the loudspeakers in a wave field synthesis loudspeaker array.
  • the wave field synthesis renderer is to a certain extent the "heart" of a wave field synthesis system that correctly calculates the loudspeaker signals for the many loudspeakers of the loudspeaker array in terms of amplitude and phase, so that the user not only has an optimal optical impression but also an optimal one has an acoustic impression.
  • Playback systems usually have fixed speaker positions, such as in the case of 5.1 the left channel nal ("left”), the middle channel (“center”), the right channel (“right”), the surround left channel (“Surround left”) and the surround right channel (“Surround right”)
  • the ideal sound image the sound engineer is looking for is limited to a small number of seats, the so-called sweet spot, although the use of phantom sources between the 5.1 positions described above results in certain cases to improvements, but not always satisfactory results.
  • the sound of a film usually consists of dialogues, effects, atmospheres and music. Each of these elements is mixed taking into account the limitations of 5.1 and 7.1 systems. Typically, the dialogue is mixed in the center channel (in 7.1 systems also on a half-left and a half-right position). This implies that when the actor moves across the screen, the sound does not follow. Movement sound object effects can only be realized if they move quickly, so that the listener is unable to recognize when the sound passes from one speaker to another.
  • Lateral sources also cannot be positioned due to the large audible gap between the front and surround speakers so that objects cannot move slowly from back to front and vice versa.
  • Surround loudspeakers are also placed in a diffuse array of loudspeakers and thus produce a sound image that represents a kind of envelope for the listener. Therefore, precisely positioned sound sources behind the listeners are avoided in order to avoid the unpleasant sound interference field that is associated with such precisely positioned sources.
  • Wave field synthesis as a completely new way of building up the sound field that is heard by the listener overcomes these essential shortcomings. The consequence for cinema applications is that an accurate sound image can be achieved without restrictions with regard to a two-dimensional positioning of objects. This opens up a wide variety of possibilities in the design and mixing of sound for cinema purposes. Due to the complete sound image reproduction, which is achieved by the technique of wave field synthesis, sound sources can now be positioned freely. Furthermore, sound sources can be placed as focused sources inside the listener room as well as outside the listener room.
  • stable sound source directions and stable sound source positions can be generated using point-shaped radiating sources or plane waves.
  • sound sources can be moved freely inside, outside or through the listening room.
  • the sound design ie the activity of the sound engineer
  • the coding format and the number of speakers ie 5.1 systems or 7.1 systems, determine the reproduction setup.
  • a special sound system requires a special encoding format.
  • the channels are of no concern to a viewer / listener. He does not care which sound system a sound is generated from, whether an original sound description was object-oriented, was channel-oriented, etc. The listener also does not care whether and how an audio setting was mixed. All that counts for the listener is the sound impression, i.e. whether he likes a sound setting for a film or a sound setting without a film or not.
  • the sound engineers are responsible for the sound mixing. Due to the channel-oriented paradigm, sound engineers are "calibrated" to work channel-oriented. For them it is actually the goal to mix the six channels for a cinema with a 5.1-sound system, for example audio signals recorded in a virtual studio and mix the final 5.1 or 7.1 loudspeaker signals, for example, not channel objects, but channel orientation, so in this case an audio object typically has no start time or no end time a signal for a loudspeaker to be active from the first second of the film to the last second of the film, due to the fact that one of the (few) loudspeakers of the typical cinema sound system always produces any sound since it is always there may be a sound source that is broadcast over the special speaker, even if it is just background music.
  • existing wave field synthesis rendering units are used to work oriented so that they have a certain number of input channels, from which, when the audio signals and associated information are input into the input channels, the loudspeaker signals for the individual loudspeakers or loudspeaker groups of a wave field synthesis loudspeaker array are generated.
  • the technique of wave field synthesis leads to the fact that an audio scene is much more "transparent", namely in that in principle an unlimited number of audio objects viewed via a film, ie viewed via an audio scene, can be present
  • Channel-oriented wave field synthesis rendering devices can become problematic if the number of audio objects in an audio scene exceeds the typically always predetermined maximum number of input channels of the audio processing device.
  • the object of the present invention is to create a concept for generating, storing or editing an audio representation of an audio scene, which has a high level of acceptance on the part of the users for whom corresponding tools are intended.
  • This object is achieved by a device for generating, storing or editing an audio representation of an audio scene according to claim 1, a method for generating, storing or editing an audio representation of an audio Dioscene according to claim 15 or a computer program according to claim 16 solved.
  • the present invention is based on the knowledge that for audio objects as they occur in a typical film setting, only an object-oriented description can be processed clearly and efficiently.
  • the object-oriented description of the audio scene with objects that have an audio signal and to which a defined start and a defined end time are assigned correspond to the typical conditions in the real world, in which it is rare for a sound to be heard anyway Time is there. Instead, it is common, for example in a dialogue, that a dialogue partner begins to speak and stops speaking, or that noises typically have a beginning and an end.
  • the object-oriented audio scene description which assigns each sound source its own object in real life, is adapted to the natural conditions and therefore optimal in terms of transparency, clarity, efficiency and intelligibility.
  • an imaging device is used to map the object-oriented description of the audio scene onto a plurality of input channels of an audio processing device, such as, for example, a wave field synthesis rendering unit.
  • the imaging device is designed to assign a first audio object to an input channel, and to assign a second audio object, the start time of which reads after an end time of the first audio object, to the same input channel, and a third audio object, the start time of which after the start time of the first audio object and before the end time of the first audio object is to assign another one of the plurality of input channels.
  • This time allocation which assigns audio objects that occur simultaneously to different input channels of the wave field synthesis rendering unit, and which assigns audio objects that occur sequentially, has been found to be extremely channel-efficient.
  • the user e.g. the sound engineer
  • the user can get a quick overview of the complexity of an audio scene at a certain point in time without having to laboriously search from a variety of input channels to find out which object is currently active or which object is not currently active.
  • the user can easily manipulate the audio objects, as in the object-oriented representation, using his or her usual channel controls.
  • FIG. 1 shows a block diagram of the device according to the invention for generating an audio representation
  • Fig. 2 is a schematic representation of a user interface for the concept shown in Fig. 1;
  • FIG. 3a shows a schematic illustration of the user interface parts from FIG. 2 according to an exemplary embodiment of the present invention
  • FIG. 3b shows a schematic illustration of the user interface from FIG. 2 according to another exemplary embodiment of the present invention
  • FIG. 4 shows a block diagram of a device according to the invention in accordance with a preferred exemplary embodiment
  • FIG. 5 shows a temporal representation of the audio scene with different audio objects
  • FIG. 6 shows a comparison of a 1: 1 conversion between object and channel and an object-channel assignment according to the present invention for the audio scene shown in FIG. 5.
  • the device according to the invention comprises a device 10 for providing an object-oriented description of the audio scene, the object-oriented description of the audio scene comprising a plurality of audio objects, with at least one audio signal, a start time and an end time being assigned to an audio object.
  • the device according to the invention further comprises an audio processing device 12 for generating a plurality of loudspeaker signals LSi 14, which is channel-oriented and which generates the plurality of loudspeaker signals 14 from a plurality of input channels EKi.
  • an imaging device 18 for mapping the object-oriented description of the audio scene onto the plurality of input channels 16 of the channel-oriented audio signal processing device 12 , wherein the imaging device 18 is designed to assign a first audio object to an input channel, such as EKI, and to assign a second audio object whose start time is after an end time of the first audio object to the same input channel, such as the input channel EKI, and to assign a third audio object whose start time is after the start time of the first audio object and before the end time of the first audio object to another input channel of the plurality of input channels, such as the input channel EK2.
  • the imaging device 18 is thus designed so that audio objects that do not overlap in time are assigned to the same input channel. assign, and to assign overlapping audio objects to different parallel input channels.
  • the audio objects are further specified in such a way that they are assigned a virtual position.
  • This virtual position of an object can change during the lifetime of the object, which would correspond to the case in which, for example, a rider approaches a scene center, in such a way that the rider's gallop becomes louder and, in particular, comes closer and closer to the auditorium.
  • an audio object includes not only the audio signal that is assigned to this audio object and a start time and an end time, but also a position of the virtual source that can change over time and possibly further properties of the audio object, such as whether it should have point source properties or whether it should emit a plane wave, which would correspond to a virtual position with an infinite distance to the viewer.
  • Further properties for sound sources, ie for audio objects, are known in the art and can be taken into account depending on the equipment of the channel-oriented audio signal processing device 12 from FIG. 1.
  • the structure of the device hierar ⁇ constructed chically, to the effect that the channel-based audio signal processing apparatus dioumbleen for receiving Au ⁇ is not directly combined with the means for providing, but is combined with the same via the exhaust school.
  • the device shown in FIG. 1 is further provided with a user interface, as shown at 20 in FIG. 2.
  • the user interface 20 is designed to have one user interface channel per input channel and preferably one manipulator for each user interface channel.
  • the user interface 20 is coupled via its user interface input 22 to the imaging device 18 in order to receive the assignment information from the imaging device, since the occupancy of the input channels EKI to EKm is to be displayed by the user interface 20.
  • the user interface 20 On the output side, if the user interface 20 has the manipulator feature for each user interface channel, it is coupled to the device 10 for providing.
  • the user interface 20 is designed to provide manipulated audio objects of the device 10 for provision via its user interface output 24 with respect to the original version, which thus receives a changed audio scene, which is then returned to the imaging device 18 and, accordingly, distributed over the input channels Channel-oriented audio signal processing device 12 is provided.
  • the user interface 20 is designed as a user interface, as shown in FIG. 3a, that is to say as a user interface, which always only shows the current objects.
  • the user interface 20 is configured to be structured as in FIG. 3b, that is to say in such a way that all objects are always represented in an input channel.
  • a time line 30 is shown which comprises objects A, B, C in chronological order, where for object A comprises a start time 31a and an end time 31b.
  • the end time 31b of the first object A coincides with a start time of the second object B, which in turn has an end time 32b, which in turn coincides with a start time of the third object C, which in turn has an end time 33b.
  • the start times 32a and 33b correspond to the end times 31b and 32b and are not shown in FIGS. 3a, 3b for reasons of clarity.
  • a mixer channel symbol 34 is shown on the right in FIG. 3a, which comprises a slider 35 and stylized buttons 36, via the properties of the Audio signal of object B or virtual positions etc. can be changed.
  • the time stamp in FIG. 3a which is represented by 37
  • the stylized channel representation 34 would not display object B, but rather object C.
  • the user interface in FIG. B. an object D would take place simultaneously with the object B, represent another channel, such as the input channel i + 1.
  • 3a provides the sound engineer with a simple overview of the number of parallel audio objects at a time, that is to say the number of active channels that are displayed at all. Inactive input channels are not displayed at all in the embodiment of the user interface 20 of FIG. 2 shown in FIG. 3a.
  • the input channel i to which the channels assigned in chronological order belong, is represented in triplicate, once as object channel A, another time as object channel B and again another time as object channel C.
  • the channel such as input channel i for object B (reference symbol 38 in FIG. B. highlight in color or brightness to give the sound engineer on the one hand a clear overview of which object is currently being fed on the channel i in question, and which objects z. B.
  • the user interface 20 of FIG. 2 and in particular the versions thereof in FIGS. 3a and 3b are thus designed to provide a visual representation as desired for the “assignment” of the input channels of the channel-oriented audio signal processing device that is generated by the imaging device 18 becomes.
  • FIG. 5 shows an audio scene with different audio objects A, B, C, D, E, F and G. It can be seen that objects A, B, C and D overlap in time. In other words, these objects A, B, C and D are all active at a certain point in time 50. In contrast, object E does not overlap with objects A, B. Object E only overlaps with objects D and C, as can be seen at a point in time 52. The object F and the object D are again overlapping, as was the case at a point in time 54. B. can be seen. The same applies to objects F and G, which, for. B. overlap at a time 56 while object G does not overlap with objects A, B, C, D and E.
  • a simple and in many respects disadvantageous channel assignment would be to assign each audio object to an input channel in the example shown in FIG. so that the 1: 1 conversion on the left in the table in Fig. 6 would be obtained.
  • a disadvantage of this concept is that many input channels are required or that if there are many audio objects, which is very quickly the case in a film, the number of input channels of the wave field synthesis rendering unit is the number of virtual sources that can be processed in one limits the real film setting, which is of course not desirable, since technology limits should not impair the creative potential.
  • this 1: 1 implementation is very confusing, in that, although at some point each input channel typically receives an audio object, that when a particular audio scene is viewed, relatively few input channels are typically active, but the user cannot easily determine this , because he must always have an overview of all audio channels.
  • this concept of the 1: 1 assignment of audio objects to input channels of the audio processing device means that in order to limit the number of audio objects as little or not as possible, audio processing devices which have a very high number of input channels must be provided, which leads to an immediate increase in the computing complexity, the required computing power and the required storage capacity of the audio processing device in order to calculate the individual loudspeaker signals, which directly results in a higher price of such a system.
  • the parallel audio objects A, B, C and D are sequentially assigned to the input channels EKI, EK2, EK3 and EK4.
  • the object E no longer has to be assigned to the input channel EK5, as in the left half of FIG. 6, but They can be assigned to a free channel, such as the input channel EKI or, as indicated by the brackets, the input channel EK2.
  • object F which can in principle be assigned to all channels except the input channel EK4.
  • object G which can also be assigned to all channels except the channel to which object F was previously assigned (in the example the input channel EKI).
  • the imaging device 18 is designed to always occupy channels with the lowest possible atomic number and to always occupy adjacent input channels EKi and EKi + 1 so that no holes arise.
  • this "neighborhood feature" is not essential since a user of the audio authoring system according to the present invention is indifferent to whether he is currently using the first or the seventh or any other input channel of the audio processing device as long as he is through the the user interface according to the invention is enabled to manipulate precisely this channel, for example by means of a controller 35 or by buttons 36 of a mixer channel representation 34 of the current channel.
  • the user interface channel i does not necessarily have to discuss the input channel i, but it can also do so a channel assignment takes place in such a way that the user interface channel i corresponds, for example, to the input channel EKm, while the user interface channel i + 1 corresponds to the input channel k, etc.
  • the user interface channel remapping thus avoids channel holes, so that the sound engineer can always immediately and clearly see the current user interface channels displayed side by side.
  • the concept of the user interface according to the invention can of course also be transferred to an existing hardware mixing console which includes actual hardware controls and hardware buttons which a Tomhoff will operate manually in order to achieve an optimal audio mix.
  • An advantage of the present invention is that even such a sound mixer, which is typically very familiar and loved by the sound mixer, can also be used, for example by B. by indicators typically present on the mixing console, such as LEDs, the current channels are always clearly marked for the sound engineer.
  • the present invention is also flexible in that it can deal with cases where the wave field synthesis speaker setup used for production is different from the reproduction setup e.g. B. deviates in a cinema. Therefore, according to the invention, the audio content is encoded in a format that can be processed by different systems.
  • This format is the audio scene, i. H. the object-oriented audio representation and not the loudspeaker signal representation.
  • the preparation process is understood as an adaptation of the content to the reproduction system.
  • not only a few master channels but an entire object-oriented scene description are processed in the wave field synthesis reproduction process.
  • the scenes are prepared for each reproduction. This is typically carried out in real time in order to adapt to the current situation.
  • this adaptation takes into account the number of loudspeakers and their positions, the characteristics of the reproduction system, such as the frequency response, the sound pressure level etc., the room acoustic conditions or other image reproduction conditions.
  • a major difference in the wave field synthesis mix compared to the channel-based approach of current systems consists in the freely available positioning of the sound objects.
  • the position of the sound sources is relatively encoded. This is important for mixed concepts that belong to a visual content, such as cinema films, since positioning of the sound sources with respect to the image is attempted to be approximated by a correct system setup.
  • the wave field synthesis system requires absolute positions for the sound objects, which is given to this audio object in addition to the audio signal of an audio object in addition to the start time and the end time of this audio object.
  • the aim of the re-engineering of the post-production process is to minimize user training and integrate the integration of the new system according to the invention in the be ⁇ standing knowledge of the user.
  • all tracks or objects that are to be prepared at different positions will exist within the master file / distribution format, which in contrast to conventional production facilities that are optimized to reduce the number of tracks during the production process.
  • the wave field synthesis authoring tool according to the present invention is implemented as a workstation which has the possibility of recording the audio signals of the final mix and converting them to the distribution format in another step.
  • the first is that all audio objects or tracks still exist in the final master.
  • the second aspect is that positioning is not done in the mixing console. This means that so-called authoring is one of the last steps in the production chain.
  • the wave field synthesis authoring system that is to say the device according to the invention for generating an audio representation
  • the device according to the invention for generating an audio representation is implemented as an independent workstation, which can be integrated into different production environments by feeding audio outputs from the mixer into the system.
  • the mixer represents the user interface, which is coupled to the device for generating the audio representation of an audio scene.
  • FIG. 4 The system according to the invention according to a preferred embodiment of the present invention is shown in FIG. 4.
  • the same reference numerals as in Fig. 1 or 2 indicate the same elements.
  • the basic system design ba- is based on the goal of modularity and the possibility of integrating existing mixing consoles into the inventive wave field synthesis authoring system as user interfaces.
  • a central controller 120 which communicates with other modules, is formed in the audio processing device 12. This enables the use of alternatives for certain modules as long as they all use the same communication protocol.
  • the system shown in FIG. 4 is considered a black box, one generally sees a number of inputs (from the provision device 10) and a number of outputs (loudspeaker signals 14) as well as the user interface 20.
  • the actual WFS renderer 122 Integrated in this black box next to the The user interface is the actual WFS renderer 122, which performs the actual wave field synthesis calculation of the loudspeaker signals using various input information.
  • a room simulation module 124 is provided, which is designed to carry out certain room simulations that are used to generate room properties of a recording room or to manipulate room properties of a recording room.
  • an audio recording device 126 and a recording playback device are provided.
  • the device 126 is preferably provided with an external input.
  • the entire audio signal is either already object-oriented or still provided and fed in in a channel-oriented manner. Then the audio signals do not come from the scene protocol, which then only performs control tasks.
  • the fed-in audio data is then possibly converted into an object-oriented representation by the device 126 and then fed internally to the imaging device 18, which then carries out the object / channel mapping. All audio connections between the modules can be switched by a matrix module 128 in order to connect corresponding channels to corresponding channels as required by the central controller 120.
  • the user has the option of feeding 64 input channels with signals for virtual sources into the audio processing device 12, so there are 64 input channels EK1-EK in this exemplary embodiment.
  • Existing consoles can thus be used as user interfaces for premixing the virtual source signals.
  • the spatial mixing is then carried out by the wave field synthesis authoring system and in particular by the heart, the WFS renderer 122.
  • the complete scene description is stored in the provision device 10, which is also referred to as a scene protocol.
  • the main communication or the required data traffic is carried out by the central controller 120.
  • Changes in the scene description such as can be achieved, for example, by the user interface 20 and in particular by a hardware mixing console 200 or a software GUI, that is to say a graphical software user interface 202, are made via a user interface controller 204 of the provision device 10 fed as a changed scene record.
  • the imaging device 18 assigns each sound object to a processing channel (input channel) in which the object exists for a specific time.
  • a processing channel input channel
  • a number of objects exist in chronological order on a specific channel, as has been illustrated with reference to FIGS. 3a, 3b and 6.
  • the wave field synthesis renderer has to do the objects don't know yourself. It simply receives signals in the audio channels and a description of the way in which these channels have to be processed.
  • the provision device with the scene protocol that is to say with knowledge of the objects and the assigned channels, can transform the object-related metadata (for example the source position) to channel-related metadata and transmit the same to the WFS renderer 122.
  • the communication between other modules is carried out by special protocols in such a way that the other modules contain only necessary information, as is shown schematically by the function protocols block 129 in FIG. 4.
  • the control module also supports hard disk storage of the scene description. It preferably differentiates between two file formats.
  • a file format is an author format where the audio data is stored as uncompressed PCM data.
  • session-related information such as a grouping of audio objects, that is to say of sources, layer information, etc., is also used to be stored in a special file format based on XML.
  • the other type is the distribution file format.
  • audio data can be stored in a compressed manner, and there is no need to additionally store the session-related data.
  • the audio objects still exist in this format and that the MPEG-4 standard can be used for distribution.
  • the one or more wave field synthesis renderer modules 122 are usually supplied with virtual source signals and a channel-oriented scene description.
  • a wave field synthesis renderer calculates the driver signal for each speaker, i.e. a speaker signal of the speaker signals 14 of Fig. 4.
  • the wave field synthesis renderer will also calculate signals for sobwoofer speakers, which are also required to the wave field synthesis system to support at low frequencies.
  • Room simulation signals from the room simulation module 124 are rendered using a number (usually 8 to 12) of static plane waves. Based on this concept, it is possible to integrate different solutions for room simulation. Without using the room simulation module 124, the wave field synthesis system generates already acceptable sound images with stable perception of the source direction for the listening area.
  • a room simulation model is used which reproduces wall reflections, which are modeled, for example, in such a way that a mirror source model is used to generate the early reflections.
  • These mirror sources can in turn be treated as audio objects of the scene protocol or can actually only be added by the audio processing device itself.
  • the recording / playback tools 126 are a useful addition. Sound objects that are ready for mixing in a conventional manner during premixing, so that only the spatial mixing needs to be performed, can be done from the conventional mixer an audio object Playback device.
  • an audio recording module which records the output channels of the mixer in a time code-controlled manner and stores the audio data on the playback module.
  • the playback module is received a start time code to play a particular audio object in connection with a respective output channel which is supplied to the playback device 126 by the imaging device 18.
  • the recording / playback device can start and stop the playback of individual audio objects independently of one another, depending on the description of the start time and the stop time which is assigned to an audio object.
  • the audio content can be taken from the playback device module and exported to the distribution file format.
  • the distribution file format thus contains a finished scene report of a completely mixed scene.
  • the aim of the user interface concept according to the invention is to implement a hierarchical structure which is adapted to the tasks of the cinema mixing process.
  • an audio object is understood as a source that exists as a representation of the individual audio object for a given time.
  • a start time and a stop / end time are typical for a source, i.e. for an audio object.
  • the source or audio object requires system resources during the time the object or source "lives".
  • Each sound source preferably includes metadata in addition to the start time and the stop time.
  • This metadata is "type” (a plane wave or point source at a given time), "direction”, “volume”, “mute” and “flags” for directional loudness and directional delay. All of these metadata can be used automatically ,
  • the authoring system according to the invention also serves the conventional channel concept in that, for. B. Ob- objects that are "alive” over the entire film or generally over the entire scene also get their own channel. This means that these objects are in principle simple channels in a 1: 1 implementation, as set out in FIG. 6 will represent.
  • At least two objects can be grouped. For each group it is possible to choose which parameters should be grouped and how they should be calculated using the master of the group. Groups of sound sources exist for a given time, which is defined by the start time and the end time of the members.
  • groups are to use them for standard virtual surround setups. These could be used for virtual fading out of a scene or for virtual zooming in on a scene. Alternatively, the grouping can also be used to integrate surround reverberation effects and record them in a WFS mix.
  • Pre Dubs can be simulated in the audio workstation using layers. Layers can also be used to change display attributes during the authoring process, for example to show or hide different parts of the current mixed item.
  • a scene consists of all the components previously discussed for a given period of time. This period could be a film reel or z. B. be the entire film, or else only z. B. a film section of certain duration, such as five minutes.
  • the scene consists of a number of layers, groups and sources that belong to the scene.
  • the complete user interface 20 should include both a graphics software part and a hardware part to allow haptic control.
  • the user interface could also be completely implemented as a software module for cost reasons.
  • a design concept for the graphic system is used, which is based on so-called "spaces". There are a small number of different spaces in the user interface. Each space is a special editing environment that shows the project from a different approach, with all tools for There are no more windows to look at, all the tools needed for an environment are in the space.
  • the adaptive mixing space already described with reference to FIGS. 3a and 3b is used. It can be compared to a conventional mixer that only shows the active channels.
  • audio object information is also presented instead of the pure channel information.
  • these objects are assigned to input channels of the WFS rendering unit by the imaging device 18 of FIG. 1.
  • timeline space which provides an overview of all input channels. Each channel is represented with its corresponding objects. The user has the option of object-to-channel mapping to be used, although automatic channel assignment is preferred for reasons of simplicity.
  • Another space is the positioning and editing space, which shows the scene in a three-dimensional view. This space should enable the user to record or edit movements of the source objects. Movements can be generated using, for example, a joystick or using other input / display devices, as are known for graphic user interfaces.
  • each room is described by a specific parameter set that is stored in a room preset library.
  • different types of parameter sets as well as different graphical user interfaces can be used.
  • the method according to the invention for generating an audio representation can be implemented in hardware or in software.
  • the implementation can take place on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which can cooperate with a programmed computer system in such a way that the method according to the invention is carried out.
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention when the computer program product runs on a computer.
  • the invention is thus also a computer program with a program code for executing the method when the computer program runs on a computer.

Description

Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
Beschreibung
Die vorliegende Erfindung liegt auf dem Gebiet der ellen- feldsynthese und bezieht sich insbesondere auf Vorrichtungen und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene.
Es besteht ein steigender Bedarf an neuen Technologien und innovativen Produkten im Bereich der Unterhaltungselektronik. Dabei ist es eine wichtige Voraussetzung für den Erfolg neuer multimedialer Systeme, optimale Funktionalitäten bzw. Fähigkeiten anzubieten. Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere der Compu- tertechnik. Beispiele hierfür sind die Applikationen, die einen verbesserten realitätsnahen audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt ein wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von natürlichen, aber auch von virtuellen Umgebungen.
Verfahren zur mehrkanaligen Lautsprecherwiedergabe von Audiosignalen sind seit vielen Jahren bekannt und standardisiert. Alle üblichen Techniken besitzen den Nachteil, dass sowohl der Aufstellungsort der Lautsprecher als auch die Position des Hörers dem Übertragungsformat bereits eingeprägt sind. Bei falscher Anordnung der Lautsprecher im Bezug auf den Hörer leidet die Audioqualität deutlich. Ein optimaler Klang ist nur in einem kleinen Bereich des Wiedergaberaums, dem so genannten Sweet Spot, möglich.
Ein besserer natürlicher Raumeindruck sowie eine stärkere Einhüllung bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden. Die Grundlagen dieser Technologie, die so genannte Wellenfeldsynthese (WFS; WFS = Wave-Field Synthesis) , wurden an der TU Delft erforscht und erstmals in den späten 80er-Jahren vorgestellt (Berkhout, A.J.; de Vries, D. ; Vogel, P.: Acoustic control by Wave- field Synthesis. JASA 93, 1993).
Infolge der enormen Anforderungen dieser Methode an Rechnerleistung und Übertragungsraten wurde die Wellenfeldsynthese bis jetzt nur selten in der Praxis angewendet. Erst die Fortschritte in den Bereichen der Mikroprozessortechnik und der Audiocodierung gestatten heute den Einsatz dieser Technologie in konkreten Anwendungen. Erste Produkte im professionellen Bereich werden nächstes Jahr erwartet. In wenigen Jahren sollen auch erste Wellenfeldsynthese- Anwendungen für den Konsumerbereich auf den Markt kommen.
Die Grundidee von WFS basiert auf der Anwendung des Huy- gens' sehen Prinzips der Wellentheorie:
Jeder Punkt, der von einer Welle erfasst wird, ist Ausgangspunkt einer Elementarwelle, die sich kugelförmig bzw. kreisförmig ausbreitet.
Angewandt auf die Akustik kann durch eine große Anzahl von Lautsprechern, die nebeneinander angeordnet sind (einem so genannten Lautsprecherarray) , jede beliebige Form einer einlaufenden Wellenfront nachgebildet werden. Im einfachsten Fall, einer einzelnen wiederzugebenden Punktquelle und einer linearen Anordnung der Lautsprecher, müssen die Au- diosignale eines jeden Lautsprechers mit einer Zeitverzögerung und A plitudenskalierung so gespeist werden, dass sich die abgestrahlten Klangfelder der einzelnen Lautsprecher richtig überlagern. Bei mehreren Schallquellen wird für jede Quelle der Beitrag zu jedem Lautsprecher getrennt be- rechnet und die resultierenden Signale addiert. Befinden sich die wiederzugebenden Quellen in einem Raum mit reflektierenden Wänden, dann müssen auch Reflexionen als zusätzliche Quellen über das Lautsprecherarray wiedergegeben wer- den. Der Aufwand bei der Berechnung hängt daher stark von der Anzahl der Schallquellen, den Reflexionseigenschaften des Aufnahmeraums und der Anzahl der Lautsprecher ab.
Der Vorteil dieser Technik liegt im Besonderen darin, dass ein natürlicher räumlicher Klangeindruck über einen großen Bereich des Wiedergaberaums möglich ist. Im Gegensatz zu den bekannten Techniken werden Richtung und Entfernung von Schallquellen sehr exakt wiedergegeben. In beschränktem Ma- ße können virtuelle Schallquellen sogar zwischen dem realen Lautsprecherarray und dem Hörer positioniert werden.
Obgleich die Wellenfeldsynthese für Umgebungen gut funktioniert, deren Beschaffenheiten bekannt sind, treten doch Un- regelmäßigkeiten auf, wenn sich die Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese auf der Basis einer Umgebungsbeschaffenheit ausgeführt wird, die nicht mit der tatsächlichen Beschaffenheit der Umgebung übereinstimmt.
Die Technik der Wellenfeldsynthese kann jedoch ebenfalls vorteilhaft eingesetzt werden, um eine visuelle Wahrnehmung um eine entsprechende räumliche Audiowahrnehmung zu ergänzen. Bisher stand bei der Produktion in virtuellen Studios die Vermittlung eines authentischen visuellen Ein- drucks der virtuellen Szene im Vordergrund. Der zum Bild passende akustische Eindruck wird in der Regel durch manuelle Arbeitsschritte in der sogenannten Postproduktion nachträglich dem Audiosignal aufgeprägt oder als zu aufwendig und zeitintensiv in der Realisierung eingestuft und da- her vernachlässigt. Dadurch kommt es üblicherweise zu einem Widerspruch der einzelnen Sinnesempfindungen, der dazu führt, daß der entworfene Raum, d. h. die entworfene Szene, als weniger authentisch empfunden wird.
Allgemein gesagt besteht das Audiomaterial beispielsweise zu einem Film aus einer Vielzahl von Audioobjekten. Ein Audioobjekt ist dabei eine Schallquelle im Film-Setting. Wenn beispielsweise an eine Filmszene gedacht wird, bei der sich zwei Personen gegenüber stehen und in einem Dialog befinden, und gleichzeitig sich z. B. ein Reiter und ein Zug nähern, so existieren über eine gewisse Zeit gesehen in dieser Szene insgesamt vier Schallquellen, nämlich die beiden Personen, der sich nähernde Reiter und der heranfahrende Zug. Wenn davon ausgegangen wird, daß die beiden Personen, die in Dialog stehen, nicht gleichzeitig reden, so dürften zu einem Zeitpunkt immer wenigsten zwei Audioobjekte aktiv sein, nämlich der Reiter und der Zug, wenn zu diesem Zeit- punkt beide Personen gerade schweigen. Spricht jedoch zu einem anderen Zeitpunkt eine Person, so sind drei Audioobjekte aktiv, nämlich der Reiter, der Zug und die eine Person. Sollten tatsächlich die beiden Personen gleichzeitig sprechen, so sind zu diesem Zeitpunkt vier Audioobjekte ak- tiv, nämlich der Reiter, der Zug, die erste Person und die zweite Person.
Allgemein gesagt stellt sich ein Audioobjekt derart dar, daß das Audioobjekt eine Schallquelle in einem Film-Setting beschreibt, die zu einem bestimmten Zeitpunkt aktiv bzw. „lebendig" ist. Dies bedeutet, daß ein Audioobjekt weiterhin gekennzeichnet ist durch einen Anfangszeitpunkt und einen Endzeitpunkt. Am vorherigen Beispiel sind der Reiter und der Zug beispielsweise während des gesamten Settings aktiv. Wenn sich beide nähern, wird der Zuhörer dies dadurch wahrnehmen, daß die Geräusche des Reiters und des Zugs lauter werden und sich gegebenenfalls - in einem optimalen Wellenfeldsynthese-Setting - auch die Positionen dieser Schallquellen entsprechend ändern. Dagegen erzeugen die beiden im Dialog befindlichen Sprecher ständig neue Audioobjekte, da immer dann, wenn ein Sprecher aufhört zu sprechen das aktuelle Audioobjekt zu Ende ist und dann, wenn der andere Sprecher anfängt zu sprechen, ein neues Audioobjekt begonnen wird, das wiederum dann zu Ende ist, wenn der andere Sprecher aufhört zu sprechen, wobei dann, wenn der erste Sprecher wieder beginnt zu sprechen, wiederum ein neues Audioobjekt begonnen wird. Es existieren bestehende Wellenfeldsynthese-Rendering- Einrichtungen, die in der Lage sind, aus einer bestimmten Anzahl von Eingangskanälen eine bestimmte Anzahl von Lautsprechersignalen zu erzeugen, und zwar unter Kenntnis der einzelnen Positionen der Lautsprecher in einem Wellenfeldsynthese-Lautsprecherarray.
Der Wellenfeldsynthese-Renderer ist gewissermaßen das „Herz" eines Wellenfeldsynthese-Systems, das die Lautspre- chersignale für die vielen Lautsprecher des Lautsprecherar- rays Amplituden- und Phasen-richtig berechnet, so daß der Benutzer nicht nur einen optimalen optischen Eindruck sondern auch einen optimalen akustischen Eindruck hat.
Seit der Einführung von Mehrkanalaudio in Filmen in den späten 60er Jahren war es immer das Ziel des Toningenieurs, dem Zuhörer den Eindruck zu vermitteln, daß er in der Szene richtig involviert ist. Das Hinzufügen eines Surround- Kanals zu dem Reproduktionssystem war ein weiterer Meilen- stein. Neue digitale Systeme folgten in den 90er Jahren, die dazu führten, daß die Anzahl der Audiokanäle erhöht worden ist. Heutzutage sind 5.1- oder 7.1-Systeme Standardsysteme für eine Filmwiedergabe.
Diese Systeme haben sich in vielen Fällen als gutes Potential zum kreativen Unterstützen der Wahrnehmung von Filmen herausgestellt und schaffen gute Möglichkeiten für Soundef¬ fekte, Atmosphären oder Surround-gemischte Musik. Auf der anderen Seite ist die Wellenfeldsynthese-Technik derart flexibel, daß sie in dieser Hinsicht maximale Freiheit lie¬ fert.
Dennoch hat die Verwendung von 5.1- oder 7.1-Systemen zu mehreren „standardisierten" Arten und Weisen geführt, um die Mischung von Film-Soundtracks handzuhaben.
Wiedergabesysteme haben üblicherweise feste Lautsprecherpositionen, wie beispielsweise im Falle von 5.1 der linke Ka- nal („left"), der mittlere Kanal („center") , der rechte Kanal („right"), der Surround-Links-Kanal („Surround left") und der Surround-Rechts-Kanal („Surround right") . Als Ergebnis dieser festen (wenigen) Positionen ist das ideale Tonbild, das der Toningenieur sucht, auf eine kleine Anzahl von Sitzplätzen, den sogenannten Sweet-Spot, begrenzt. Die Verwendung von Phantomquellen zwischen den oben bezeichneten 5.1-Positionen führt zwar in bestimmten Fällen zu Verbesserungen, jedoch nicht immer zu befriedigenden Ergebnis- sen.
Der Ton eines Films besteht üblicherweise aus Dialogen, Effekten, Atmosphären und Musik. Jedes dieser Elemente wird unter Berücksichtigung der Begrenzungen von 5.1- und 7.1- Systemen gemischt. Typischerweise wird der Dialog in den Center-Kanal (in 7.1-Systemen auch auf eine Halb-Links- und eine Halb-Rechts-Position) gemischt. Dies impliziert, daß dann, wenn sich der Schauspieler über die Leinwand bewegt, der Schall nicht folgt. Bewegungsschallobjekteffekte können nur realisiert werden, wenn sie sich schnell bewegen, so daß der Zuhörer nicht in der Lage ist, zu erkennen, wann der Schall von einem Lautsprecher zum anderen übergeht.
Laterale Quellen können ebenfalls nicht positioniert wer- den, und zwar aufgrund des großen hörbaren Gaps zwischen den vorderen und den Surround-Lautsprechern, so daß sich Objekte nicht langsam von hinten nach vorne und umgekehrt bewegen können.
Ferner werden Surround-Lautsprecher in einem diffusen Array von Lautsprechern plaziert und erzeugen somit ein Schallbild, das eine Art Hülle für den Zuhörer darstellt. Daher werden genau positionierte Schallquellen hinter den Zuhörern vermieden, um das unangenehme Schallinterferenzfeld, das mit solchen genau positionierten Quellen einhergeht, zu vermeiden. Die Wellenfeldsynthese als vollständig neue Art und Weise zum Aufbauen des Schallfeldes, das von dem Zuhörer wahrgenommen wird, überwindet diese wesentlichen Unzulänglichkeiten. Die Konsequenz für Kinoanwendungen besteht darin, daß ein genaues Schallbild ohne Begrenzungen im Hinblick auf eine zweidimensionale Positionierung von Objekten erreicht werden kann. Dies eröffnet eine große Vielzahl von Möglichkeiten im Entwerfen und Mischen von Schall für Kinozwecke. Aufgrund der vollständigen Schallbildreproduktion, die durch die Technik der Wellenfeldsynthese erreicht wird, können nunmehr Schallquellen frei positioniert werden. Ferner können Schallquellen als fokussierte Quellen innerhalb des Zuhörerraums genauso wie außerhalb des Zuhörerraums plaziert werden.
Darüber hinaus können stabile Schallquellenrichtungen und stabile Schallquellenpositionen unter Verwendung von punkt- förmige abstrahlenden Quellen oder ebenen Wellen erzeugt werden. Schließlich können Schallquellen frei innerhalb, außerhalb oder durch den Zuhörerraum hindurch bewegt werden.
Dies führt zu einem enormen Potential kreativer Möglichkeiten und ebenfalls zu der Möglichkeit, Schallquellen genau gemäß dem Bild auf der Leinwand beispielsweise für den gesamten Dialog zu plazieren. Damit wird es tatsächlich möglich, den Zuhörer nicht nur visuell, sondern auch akustisch in den Film einzubetten.
Aufgrund historischer Gegebenheiten ist der Tonentwurf, also die Tätigkeit des Tonmeisters, auf dem Kanal- oder Spuren- bzw. „Track" Paradigma basiert. Dies bedeutet, daß das Codierformat bzw. die Anzahl der Lautsprecher, also 5.1- Systeme oder 7.1-Systeme, das Reproduktions-Setup bestim- men. Insbesondere benötigt ferner ein spezielles Tonsystem ein spezielles Codierformat. Als Konsequenz ist es unmöglich, irgendwelche Änderungen im Hinblick auf das Master- File durchzuführen, ohne die komplette Mischung wieder durchzuführen. Es ist beispielsweise nicht möglich, einen Dialog-Track in dem abschließenden Master-File selektiv zu ändern, also zu ändern ohne alle anderen Töne in dieser Szene ebenfalls zu ändern.
Andererseits sind die Kanäle einem Zuschauer/Zuhörer egal. Ihn kümmert es nicht, aus welchem Schallsystem ein Ton erzeugt wird, ob eine ursprüngliche Schallbeschreibung objektorientiert vorgelegen hat, kanalorientiert vorgelegen hat, etc. Dem Zuhörer ist es ferner egal, ob und wie ein Audiosetting gemischt worden ist. Alles was für den Zuhörer zählt, ist der Toneindruck, also ob ihm ein Ton-Setting zu einem Film bzw. ein Ton-Setting ohne Film gefällt oder nicht .
Andererseits ist es wesentlich, daß neue Konzepte von den Personen angenommen werden, die mit den neuen Konzepten arbeiten sollen. Für die Tonmischung zuständig sind die Tonmeister. Tonmeister sind aufgrund des Kanal-orientierten Paradigmas darauf „geeicht", Kanal-orientiert zu arbeiten. Für sie ist es tatsächlich das Ziel, z. B. für ein Kino mit 5.1-Tonsystem die sechs Kanäle zu mischen. Hierbei verwenden sie z. B. in einem virtuellen Studio aufgezeichnete Audiosignale und mischen die letztendlichen z. B. 5.1- oder 7.1-Lautsprechersignale. Hierbei geht es nicht um Audioobjekte, sondern um Kanalorientierung. So hat in diesem Fall ein Audioobjekt typischerweise keinen Anfangszeitpunkt oder keinen Endzeitpunkt. Statt dessen wird ein Signal für einen Lautsprecher von der ersten Sekunde des Films bis zur letz- ten Sekunde des Films aktiv sein. Dies liegt daran, daß ü- ber einen der (wenigen) Lautsprecher des typischen Kino- Tonsystems immer irgendein Ton erzeugt wird, da es immer eine Schallquelle geben dürfte, die über den speziellen Lautsprecher ausgestrahlt wird, selbst wenn es nur eine Hintergrundmusik ist.
Aus diesem Grund werden bestehende Wellenfeldsynthese- Rendering-Einheiten dahingehend verwendet, daß sie Kanal- orientiert arbeiten, daß sie also eine bestimmte Anzahl von Eingangskanälen haben, aus denen dann, wenn in die Eingangskanäle die Audiosignale samt zugeordneter Informationen eingegeben werden, die Lautsprechersignale für die ein- zelnen Lautsprecher bzw. Lautsprechergruppen eines Wellen- feldsynthese-Lautsprecherarrays erzeugt werden.
Andererseits führt die Technik der Wellenfeldsynthese dazu, daß eine Audioszene wesentlich „transparenter" ist, und zwar dahingehend, daß im Prinzip eine unbegrenzt hohe Anzahl von Audioobjekten über einen Film betrachtet, also ü- ber eine Audioszene betrachtet, vorhanden sein kann. Im Hinblick auf Kanal-orientierte Wellenfeldsynthese- Rendering-Einrichtungen kann dies problematisch werden, wenn die Anzahl der Audioobjekte in einer Audioszene die typischerweise immer vorgegebene maximale Anzahl von Eingangskanälen der Audioverarbeitungseinrichtung übersteigt. Darüber hinaus wird für einen Benutzer, also für einen Tonmeister beispielsweise, der eine Audiodarstellung einer Au- dioszene erzeugt, die Vielzahl von Audioobjekten, die zudem noch zu bestimmten Zeitpunkten existieren und zu anderen Zeitpunkten wieder nicht existieren, die also einen definierten Anfangs- und einen definierten Endzeitpunkt haben, verwirrend sein, was wiederum dazu führen könnte, daß eine psychologische Schwelle zwischen den Tonmeistern und der Wellenfeldsynthese, die Tonmeistern ja gerade ein erhebliches kreatives Potential bringen soll, aufgebaut wird.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene zu schaffen, das eine hohe Akzeptanz auf Seiten der Benutzer, für die entsprechende Werkzeuge gedacht sind, hat.
Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene nach Patentanspruch 1, ein Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Au- dioszene nach Patentanspruch 15 oder ein Computer-Programm nach Patentanspruch 16 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß sich für Audioobjekte, wie sie in einem typischen Film- Setting auftreten, einzig und allein eine Objektorientierte Beschreibung übersichtlich und effizient verarbeitbar ist. Die Objekt-orientierte Beschreibung der Audioszene mit Objekten, die eine Audiosignal haben und denen ein definierter Anfangs- und ein definierter End-Zeitpunkt zugeordnet sind, entsprechen den typischen Gegebenheiten in der realen Welt, in der es ohnehin selten vorkommt, daß ein Geräusch die ganze Zeit da ist. Statt dessen ist es üblich, beispielsweise in einem Dialog, daß ein Dialogpartner be- ginnt zu sprechen und aufhört zu sprechen, oder daß Geräusche typischerweise einen Anfang und ein Ende haben. Insofern ist die Objekt-orientierte Audioszenenbeschreibung, die jeder Schallquelle im realen Leben ein eigenes Objekt zuordnet, den natürlichen Gegebenheiten angepaßt und daher im Hinblick auf Transparenz, Übersichtlichkeit, Effizienz und Verständlichkeit optimal.
Andererseits sind z. B. Tonmeister, die aus einer Audiosze¬ ne eine Audiodarstellung erzeugen wollen, die also ihr kre- atives Potential einfließen lassen wollen, um eine Audiodarstellung einer Audioszene in einem Kino womöglich noch unter Berücksichtigung spezieller Audioeffekte zu „synthetisieren", aufgrund des Kanal-Paradigmas daran gewöhnt, typischerweise mit entweder Hardware- oder Software- realisierten Mischpulten zu arbeiten, die eine konsequente Umsetzung der Kanal-orientierten Arbeitsweise sind. In Hardware- oder Software-realisierten Mischpulten hat jeder Kanal Regler, Knöpfe etc., mit denen das Audiosignal in diesem Kanal manipuliert, also „gemischt" werden kann.
Erfindungsgemäß wird ein Ausgleich zwischen der Objektorientierten Audiodarstellung, die dem Leben gerecht wird, und der Kanal-orientierten Darstellung, die dem Tonmeister gerecht wird, dadurch erreicht, daß eine Abbildungseinrich- tung eingesetzt wird, um die Objekt-orientierte Beschreibung der Audioszene auf eine Mehrzahl von Eingangskanälen einer Audio-Verarbeitungseinrichtung, wie beispielsweise einer Wellenfeldsynthese-Rendering-Einheit, abzubilden. Erfindungsgemäß ist die Abbildungseinrichtung ausgebildet, um ein erstes Audioobjekt einem Eingangskanal zuzuweisen, und um ein zweites Audioobjekt, dessen Startzeitpunkt nach einem Endzeitpunkt des ersten Audioobjekts liest, dem selben Eingangskanal zuzuweisen, und um ein drittes Audioobjekt, dessen Startzeitpunkt nach dem Startzeitpunkt des ersten Audioobjekts und vor dem Endzeitpunkt des ersten Audioobjekts liegt, einem anderen der Mehrzahl von Eingangskanälen zuzuweisen.
Diese zeitliche Zuweisung, die gleichzeitig auftretende Audioobjekte unterschiedlichen Eingangskanälen der Wellen- feldsynthese-Rendering-Einheit zuweist, und die aber sequentiell auftretende Audioobjekte demselben Eingangskanal zuweist, hat sich als äußerst kanaleffizient herausgestellt. Dies bedeutet, daß eine relativ geringe Anzahl von Eingangskanälen der Wellenfeldsynthese-Rendering-Einheit durchschnittlich belegt ist, was zum einen der Übersichtlichkeit dient, und was zum anderen der Recheneffizienz der ohnehin sehr rechenaufwendigen Wellenfeldsynthese- Rendering-Einheit entgegenkommt. Aufgrund der im Mittel relativ kleinen Anzahl von gleichzeitig belegten Kanälen kann der Benutzer, also beispielsweise der Tonmeister, einen schnellen Überblick über die Komplexität einer Audioszene zu einem bestimmten Zeitpunkt bekommen, ohne daß er aus einer Vielzahl von Eingangskanälen mühsam suchen muß, welches Objekt gerade aktiv ist oder welches Objekt gerade nicht aktiv ist. Andererseits kann der Benutzer eine Manipulation der Audioobjekte wie in objektorientierter Darstellung ohne weiteres durch seine ihm gewohnten Kanalregler durchführen.
Dies wird erwartungsgemäß die Akzeptanz des erfindungsgemäßen Konzepts dahingehend steigern, daß den Benutzern mit dem erfindungsgemäßen Konzept eine vertraute Arbeitsumgebung geliefert wird, die dennoch ein ungleich höheres innovatives Potential enthält. Das erfindungsgemäße Konzept, das auf der Abbildung des Objekt-orientierten Audio- Ansatzes in einen Kanal-orientierten Rendering-Ansatz basiert, wird somit allen Anforderungen gerecht. Zum einen ist die objektorientierte Beschreibung einer Audioszene, wie es ausgeführt worden ist, der Natur am besten angepaßt und daher effizient und übersichtlich. Andererseits wird den Gewohnheiten und Bedürfnissen der Benutzer Rechnung getragen, dahingehend, daß sich die Technik nach den Benutzern richtet und nicht umgekehrt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild der erfindungsgemäßen Vorrichtung zum Erzeugen einer Audiodarstellung;
Fig. 2 eine schematische Darstellung einer Benutzerschnittstelle für das in Fig. 1 gezeigte Konzept;
Fig. 3a eine schematische Darstellung der Benutzer- schnittsteile von Fig. 2 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 3b eine schematische Darstellung der Benutzerschnittstelle von Fig. 2 gemäß einem anderen Aus- führungsbeispiel der vorliegenden Erfindung;
Fig. 4 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung gemäß einem bevorzugten Ausführungsbeispiel;
Fig. 5 eine zeitliche Darstellung der Audioszene mit verschiedenen Audioobjekten; und Fig. 6 eine Gegenüberstellung einer 1 : 1-Umsetzung zwischen Objekt und Kanal und einer Objekt-Kanal- Zuweisung gemäß der vorliegenden Erfindung für die in Fig. 5 dargestellte Audioszene.
Fig. 1 zeigt ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen einer Audiodarstellung einer Audioszene. Die erfindungsgemäße Vorrichtung umfaßt eine Einrichtung 10 zum Bereitstellen einer Objekt-orientierten Be- Schreibung der Audioszene, wobei die Objekt-orientierte Beschreibung der Audioszene eine Mehrzahl von Audioobjekten umfaßt, wobei einem Audioobjekt wenigstens ein Audiosignal, ein Anfangszeitpunkt und ein Endzeitpunkt zugeordnet sind. Die erfindungsgemäße Vorrichtung umfaßt ferner eine Audio- Verarbeitungseinrichtung 12 zum Erzeugen einer Mehrzahl von Lautsprechersignalen LSi 14, die Kanal-orientiert ist und die die Mehrzahl von Lautsprechersignalen 14 aus einer Mehrzahl von Eingangskanälen EKi erzeugt. Zwischen der Bereitstellungseinrichtung 10 und der Kanal-orientierten Au- diosignalverarbeitungseinrichtung, die beispielsweise als WFS-Rendering-Einheit ausgebildet ist, befindet sich eine Abbildungseinrichtung 18 zum Abbilden der Objektorientierten Beschreibung der Audioszene auf die Mehrzahl von Eingangskanälen 16 der Kanal-orientierten Audiosignal- Verarbeitungseinrichtung 12, wobei die Abbildungseinrichtung 18 ausgebildet ist, um ein erstes Audioobjekt einem Eingangskanal, wie beispielsweise EKI, zuzuweisen, und um ein zweites Audioobjekt, dessen Startzeitpunkt nach einem Endzeitpunkt des ersten Audioobjekts liegt, demselben Ein- gangskanal, wie beispielsweise dem Eingangskanal EKI, zuzuweisen, und um ein drittes Audioobjekt, dessen Startzeitpunkt nach dem Startzeitpunkt des ersten Audioobjekts und vor dem Endzeitpunkt des ersten Audioobjekts liegt, einem anderen Eingangskanal der Mehrzahl von Eingangskanälen, wie beispielsweise dem Eingangskanal EK2, zuzuweisen. Die Abbildungseinrichtung 18 ist somit ausgebildet, um zeitlich nicht überlappende Audioobjekte demselben Eingangskanal zu- zuweisen, und um zeitlich überlappende Audioobjekte unterschiedlichen parallelen Eingangskanälen zuzuweisen.
Bei einem bevorzugten Ausführungsbeispiel, bei dem die Ka- nal-orientierte Audiosignalverarbeitungseinrichtung 12 eine Wellenfeldsynthese-Rendering-Einheit umfaßt, sind die Audioobjekte ferner dahingehend spezifiziert, daß ihnen eine virtuelle Position zugeordnet ist. Diese virtuelle Position eines Objekts kann sich während der Lebenszeit des Objekts verändern, was dem Fall entsprechen würde, bei dem sich beispielsweise ein Reiter einem Szenenmittelpunkt nähert, derart, daß der Galopp des Reiters immer lauter wird und insbesondere immer näher zum Zuschauerraum kommt. In diesem Fall umfaßt ein Audioobjekt nicht nur das Audiosignal, das diesem Audioobjekt zugeordnet ist, und einen Anfangszeitpunkt und einen Endzeitpunkt, sondern zusätzlich noch eine Position der virtuellen Quelle, die sich über der Zeit ändern kann sowie gegebenenfalls weitere Eigenschaften des Audioobjekts, wie beispielsweise ob es Punktquelleneigen- schatten haben soll oder ob es eine ebene Welle emittieren soll, was einer virtuellen Position mit unendlicher Entfernung zum Zuschauer entsprechen würde. In der Technik sind weitere Eigenschaften für Schallquellen also für Audioobjekte bekannt, die je nach Ausstattung der Kanal- orientierten Audiosignalverarbeitungseinrichtung 12 von Fig. 1 berücksichtigt werden können.
Erfindungsgemäß ist die Struktur der Vorrichtung hierar¬ chisch aufgebaut, dahingehend, daß die Kanal-orientierte Audiosignalverarbeitungseinrichtung zum Empfangen von Au¬ dioobjekten nicht direkt mit der Einrichtung zum Bereitstellen kombiniert ist, sondern mit derselben über die Ab- bildungseinrichtung kombiniert ist. Dies führt dazu, daß lediglich in der Einrichtung zum Bereitstellen die gesamte Audioszene bekannt und gespeichert werden soll, daß jedoch bereits die Abbildungseinrichtung und noch weniger die Kanal-orientierte Audiosignalverarbeitungseinrichtung Kenntnis des gesamten Audio-Settings haben müssen. Statt dessen arbeiten sowohl die Abbildungseinrichtung 18 als auch die Audiosignalverarbeitungseinrichtung 12 unter der Anweisung der Audioszene, die von der Einrichtung 10 zum Bereitstellen geliefert wird.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die in Fig. 1 gezeigte Vorrichtung ferner mit einer Benutzerschnittstelle versehen, wie sie in Fig. 2 bei 20 gezeigt ist. Die Benutzerschnittstelle 20 ist ausgebil- det, um einen Benutzerschnittstellen-Kanal pro Eingangskanal sowie vorzugsweise einen Manipulator für jeden Benutzerschnittstellen-Kanal zu haben. Die Benutzerschnittstelle 20 ist über ihren Benutzerschnittstellen-Eingang 22 mit der Abbildungseinrichtung 18 gekoppelt, um die Zuweisungsinfor- mationen von der Abbildungseinrichtung zu erhalten, da die Belegung der Eingangskanäle EKI bis EKm von der Benutzerschnittstelle 20 angezeigt werden soll. Ausgangsseitig ist die Benutzerschnittstelle 20 dann, wenn sie das Manipulator-Feature für jeden Benutzerschnittstellen-Kanal hat, mit der Einrichtung 10 zum Bereitstellen verkoppelt. Insbesondere ist die Benutzerschnittstelle 20 ausgebildet, um über ihren Benutzerschnittstellenausgang 24 im Hinblick auf die ursprüngliche Version manipulierte Audioobjekte der Einrichtung 10 zum Bereitstellen zu liefern, die somit eine veränderte Audioszene erhält, die dann wieder der Abbildungseinrichtung 18 und - entsprechend verteilt auf die Eingangskanäle - der Kanal-orientierten Audiosignalverar- beitungseinrichtung 12 bereitgestellt wird.
Je nach Implementierung ist die Benutzerschnittstelle 20 als Benutzerschnittstelle ausgebildet, wie es in Fig. 3a dargestellt ist, also als Benutzerschnittstelle, die immer nur die aktuellen Objekte darstellt. Alternativ ist die Benutzerschnittstelle 20 konfiguriert, um wie in Fig. 3b auf- gebaut zu sein, also so, daß immer alle Objekte in einem Eingangskanal dargestellt werden. Sowohl in Fig. 3a als auch in Fig. 3b ist eine Zeitlinie 30 dargestellt, die in chronologischer Reihenfolge die Objekte A, B, C umfaßt, wo- bei das Objekt A einen Startzeitpunkt 31a und einen Endzeitpunkt 31b umfaßt. Zufälligerweise fällt in Fig. 3a der Endzeitpunkt 31b des ersten Objekts A mit einem Startzeitpunkt des zweiten Objekts B zusammen, das wiederum einen Endzeitpunkt 32b hat, der wiederum zufällig mit einem Startzeitpunkt des dritten Objekts C zusammenfällt, das wiederum einen Endzeitpunkt 33b hat. Die Startzeitpunkte 32a und 33b entsprechen den Endzeitpunkten 31b und 32b und sind in den Fig. 3a, 3b aus Übersichtlichkeitsgründen nicht dargestellt.
Bei dem in Fig. 3a gezeigten Modus, bei dem nur aktuelle Objekte als Benutzerschnittstellen-Kanal angezeigt werden, wird rechts in Fig. 3a ein Mischpult-Kanalsymbol 34 darge- stellt, das einen Schieber 35 sowie stilisierte Knöpfe 36 umfaßt, über die Eigenschaften des Audiosignals des Objekts B bzw. auch virtuelle Positionen etc. verändert werden können. Sobald die Zeitmarke in Fig. 3a, die mit 37 dargestellt ist, den Endzeitpunkt 32b des Objekts B erreicht, würde die stilisierte Kanaldarstellung 34 nicht das Objekt B anzeigen, sondern das Objekt C. Die Benutzerschnittstelle in Fig. 3a würde dann, wenn z. B. ein Objekt D gleichzeitig zum Objekt B stattfinden würde, einen weiteren Kanal, wie beispielsweise den Eingangskanal i+1, darstellen. Die in Fig. 3a gezeigte Darstellung liefert dem Tonmeister einen einfachen Überblick über die Anzahl von parallelen Audioobjekten zu einem Zeitpunkt also die Anzahl von aktiven Kanälen, die überhaupt angezeigt werden. Nicht-aktive Eingangskanäle werden bei der in Fig. 3a gezeigten Ausführungsform der Benutzerschnittstelle 20 von Fig. 2 überhaupt nicht angezeigt .
Bei dem in Fig. 3b gezeigten Ausführungsbeispiel, bei dem alle Objekte in einem Eingangskanal nebeneinander angezeigt werden, findet ebenfalls keine Anzeige von nicht-belegten Eingangskanälen statt. Dennoch wird der Eingangskanal i, dem die zeitlich in chronologischer Reihenfolge zugewiesenen Kanäle angehören, dreifach dargestellt, und zwar einmal als Objektkanal A, ein andermal als Objektkanal B und wieder ein andermal als Objektkanal C. Erfindungsgemäß wird es bevorzugt, den Kanal, wie beispielsweise den Eingangskanal i für das Objekt B (Bezugszeichen 38 in Fig. 3b) z. B. farblich oder helligkeitsmäßig hervorzuheben, um dem Tonmeister einerseits einen klaren Überblick darüber zu geben, welches Objekt gerade auf dem betreffenden Kanal i eingespeist wird, und welche Objekte z. B. früher oder später auf diesem Kanal laufen, so daß der Tonmeister bereits vor- ausschauend in die Zukunft über die entsprechenden Software- oder Hardware-Regler das Audiosignal eines Objekts über diesen Kanalregler bzw. Kanalschalter manipulieren kann. Die Benutzerschnittstelle 20 von Fig. 2 und insbesondere die Ausprägungen derselben in Fig. 3a und Fig. 3b sind somit ausgebildet, um eine visuelle Darstellung je nach Wunsch für die „Belegung" der Eingangskanäle der Kanalorientierten Audiosignalverarbeitungseinrichtung zu schaffen, die durch die Abbildungseinrichtung 18 erzeugt wird.
Nachfolgend wird Bezug nehmend auf Fig. 5 ein einfaches Beispiel der Funktionalität der Abbildungseinrichtung 18 von Fig. 1 gegeben. Fig. 5 zeigt eine Audioszene mit verschiedenen Audioobjekten A, B, C, D, E, F und G. So ist zu sehen, daß sich die Objekte A, B, C und D zeitlich überlap- pen. In anderen Worten ausgedrückt sind diese Objekte A, B, C und D zu einem bestimmten Zeitpunkt 50 alle aktiv. Dagegen überlappt das Objekt E nicht mit den Objekten A, B. Das Objekt E überlappt lediglich mit den Objekten D und C, wie es bei einem Zeitpunkt 52 zu sehen ist. Wiederum überlap- pend ist das Objekt F und das Objekt D, wie es zu einem Zeitpunkt 54 z. B. zu sehen ist. Dasselbe gilt für die Objekte F und G, die z. B. zu einem Zeitpunkt 56 überlappen, während das Objekt G nicht mit den Objekten A, B, C, D und E überlappt.
Eine einfache und in vielerlei Hinsicht nachteilige Kanalzuordnung würde darin bestehen, bei dem in Fig. 5 gezeigten Beispiel jedes Audioobjekt einem Eingangskanal zuzuweisen, so daß die 1 : 1-Umsetzung links in der Tabelle in Fig. 6 erhalten werden würde. Nachteilig an diesem Konzept ist, daß viele Eingangskanäle benötigt werden bzw. daß dann, wenn viele Audioobjekte vorhanden sind, was in einem Film sehr schnell der Fall ist, die Anzahl der Eingangskanäle der Wellenfeldsynthese-Rendering-Einheit die Anzahl der verarbeitbaren virtuellen Quellen in einem realen Film-Setting begrenzt, was natürlich nicht erwünscht ist, da Technik- Limits nicht das kreative Potential beeinträchtigen sollen. Andererseits ist diese 1 : 1-Umsetzung sehr unübersichtlich, dahingehend, daß zwar irgendwann typischerweise jeder Eingangskanal ein Audioobjekt erhält, daß jedoch, wenn eine bestimmte Audioszene betrachtet wird, typischerweise relativ wenig Eingangskanäle aktiv sind, daß der Benutzer dies jedoch nicht ohne weiteres feststellen kann, da er immer alle Audiokanäle im Überblick haben muß.
Darüber hinaus führt dieses Konzept der 1 : 1-Zuweisung von Audioobjekten zu Eingangskanälen der Audioverarbeitungsein- richtung dazu, daß im Interesse einer möglichst geringen oder nicht vorhandenen Begrenzung der Anzahl der Audioobjekte Audioverarbeitungseinrichtungen bereitgestellt werden müssen, die eine sehr hohe Anzahl von Eingangskanälen haben, was zu einer unmittelbaren Erhöhung der Rechenkomple- xität, der erforderlichen Rechenleistung und der erforderlichen Speicherkapazität der Audioverarbeitungseinrichtung führt, um die einzelnen Lautsprechersignale zu berechnen, was unmittelbar in einem höheren Preis eines solchen Systems resultiert.
Die erfindungsgemäße Zuweisung Objekt-Kanal des in Fig. 5 gezeigten Beispiels, wie sie durch die Abbildungseinrichtung 18 gemäß der vorliegenden Erfindung erreicht wird, ist in Fig. 6 im rechten Bereich der Tabelle dargestellt. So werden die parallelen Audioobjekte A, B, C und D nacheinander den Eingangskanälen EKI, EK2, EK3 bzw. EK4 zugeordnet. Das Objekt E muß jedoch nicht mehr, wie in der linken Hälfte von Fig. 6 dem Eingangskanal EK5 zugewiesen werden, son- dern kann einem freien Kanal zugewiesen werden, wie beispielsweise dem Eingangskanal EKI oder, wie es durch die Klammer angedeutet ist, dem Eingangskanal EK2. Dasselbe trifft für das Objekt F zu, das im Prinzip allen Kanälen außer dem Eingangskanal EK4 zugewiesen werden kann. Dasselbe trifft für das Objekt G zu, das ebenfalls allen Kanälen außer dem Kanal zugewiesen werden kann, dem vorher das Objekt F zugewiesen wurde (im Beispiel dem Eingangskanal EKI) .
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die Abbildungseinrichtung 18 ausgebildet, um immer Kanäle mit einer möglichst niedrigen Ordnungszahl zu belegen, und um möglichst immer benachbarte Eingangskanäle EKi und EKi+1 zu belegen, damit keine Löcher entstehen. Andererseits ist dieses „Nachbarschafts-Feature" nicht wesentlich, da es einem Benutzer des Audio-Autoren-Systems gemäß der vorliegenden Erfindung gleichgültig ist, ob er gerade den ersten bzw. den siebten oder irgendeinen anderen Eingangskanal der Audioverarbeitungseinrichtung bedient, so lange er durch die erfindungsgemäße Benutzerschnittstelle in die Lage versetzt wird, genau diesen Kanal zu manipulieren, beispielsweise durch einen Regler 35 oder durch Knöpfe 36 einer Mischpult-Kanaldarstellung 34 des gerade aktuellen Kanals. Somit muß der Benutzerschnittstellenkanal i nicht unbedingt dem Eingangskanal i besprechen, sondern es kann auch insofern eine Kanal-Zuweisung erfolgen, derart, daß der Benutzerschnittstellenkanal i z. B. dem Eingangskanal EKm entspricht, während der Benutzerschnittstellenkanal i+1 dem Eingangskanal k entspricht etc.
Damit wird durch die Benutzerschnittstellenkanal- Umabbildung vermieden, daß es Kanallöcher gibt, daß also der Tonmeister immer sofort und übersichtlich die aktuellen Benutzerschnittstellenkanäle nebeneinander dargestellt erblicken kann. Das erfindungsgemäße Konzept der Benutzerschnittstelle kann selbstverständlich auch auf eine bestehende Hardware- Mischkonsole übertragen werden, die tatsächliche Hardware- Regler und Hardware-Knöpfe umfaßt, die ein Tommeister manu- eil bedienen wird, um eine optimale Audio-Mischung zu erreichen. Ein Vorteil der vorliegenden Erfindung besteht darin, daß auch eine solche einem Tonmeister typischerweise sehr vertraute und ans Herz gewachsene Hardware- Mischkonsole ebenfalls verwendet werden kann, indem z. B. durch auf der Mischkonsole typischerweise vorhandene Indikatoren, wie beispielsweise LEDs immer die gerade aktuellen Kanäle für den Tonmeister übersichtlich markiert werden.
Die vorliegende Erfindung ist ferner dahingehend flexibel, daß auch mit Fällen umgegangen werden kann, bei denen das Wellenfeldsynthese-Lautsprecher-Setup, das zur Produktion verwendet wird, von dem Reproduktions-Setup z. B. in einem Kino abweicht. Daher wird erfindungsgemäß der Audioinhalt in einem Format codiert, das durch verschiedene Systeme aufbereitet werden kann. Dieses Format ist die Audioszene, d. h. die objektorientierte Audiodarstellung und nicht die Lautsprechersignal-Darstellung. Insofern wird das Aufbereitungsverfahren als Adaption des Inhalts an das Reproduktionssystem verstanden. Erfindungsgemäß werden nicht nur ein paar wenige Master-Kanäle sondern eine gesamte Objektorientierte Szenenbeschreibung im Wellenfeldsynthese- Reproduktionsprozeß verarbeitet. Die Szenen werden für jede Reproduktion aufbereitet. Dies wird typischerweise in Echtzeit durchgeführt, um eine Adaption an die aktuelle Situa- tion zu erreichen. Typischerweise berücksichtigt diese A- daption die Anzahl von Lautsprechern und ihre Positionen, die Charakteristika des Reproduktionssystems, wie beispielsweise die Frequenzantwort, den Schalldruckpegel etc., die Raumakustikbedingungen oder weitere Bildreproduktions- bedingungen.
Ein Hauptunterschied der Wellenfeldsynthese-Mischung im Vergleich zum Kanal-basierten Ansatz gegenwärtiger Systeme besteht in der frei verfügbaren Positionierung der Schallobjekte. In üblichen Reproduktionssystemen basierend auf Stereophonie-Prinzipien wird die Position der Schallquellen relativ codiert. Dies ist für Mischkonzepte wichtig, die zu einem visuellen Inhalt, wie beispielsweise Kinofilmen gehören, da eine Positionierung der Schallquellen bezüglich des Bildes durch ein korrektes System-Setup anzunähern versucht wird.
Das Wellenfeldsynthesesystem benötigt dagegen Absolutpositionen für die Schallobjekte, welche als Zusatzinformationen zu dem Audiosignal eines Audioobjekts diesem Audioobjekt zusätzlich zu ferner dem Startzeitpunkt und dem Endzeitpunkt dieses Audioobjekts mitgegeben wird.
Im herkömmlichen Kanal-orientierten Ansatz bestand die Grundidee darin, die Anzahl von Spuren in mehreren Pre-Mix- Durchläufen zu reduzieren. Diese Pre-Mix-Durchläufe sind in Kategorien organisiert, wie Dialog, Musik, Ton, Effekte, etc. Während des Mischprozesses werden alle benötigten Audiosignale in die Mischkonsole eingespeist und durch unterschiedliche Toningenieure gleichzeitig gemischt. Jeder Vormix reduziert die Anzahl von Spuren, bis nur eine Spur pro Reproduktionslautsprecher existiert. Diese abschließenden Spuren bilden das abschließende Master-File (Final Master) .
Alle relevanten Mischaufgaben, beispielsweise Equalization, Dynamics, Positioning, etc. werden am Mischpult oder unter Verwendung einer speziellen Zusatzausrüstung durchgeführt.
Das Ziel des Re-Engineerings des Postproduktionsprozesses besteht darin, das Benutzer-Training zu minimieren und die Integration des neuen erfindungsgemäßen Systems in das be¬ stehende Wissen der Benutzer zu integrieren. Bei der Wel- lenfeldsynthese-Anwendung der vorliegenden Erfindung werden alle Spuren oder Objekte, die an unterschiedlichen Positionen aufzubereiten sind, innerhalb des Master- Files/Verteilungsformats existieren, was im Gegensatz zu herkömmlichen Produktionsfazilities steht, die dahingehend optimiert sind, daß sie die Anzahl von Spuren während des Produktionsprozesses reduzieren. Andererseits ist es aus praktischen Gründen notwendig, dem Re-Recording-Ingenieur die Möglichkeit zu geben, die existierenden Mischkonsolen für Wellenfeldsynthese-Produktionen zu verwenden.
Erfindungsgemäß werden somit gegenwärtige Mischkonsolen für die herkömmlichen Misch-Aufgaben verwendet, wobei die Aus- gäbe dieser Mischkonsolen dann in das erfindungsgemäße System zum Erzeugen einer Audiodarstellung einer Audioszene eingebracht wird, wo das räumliche Mischen durchgeführt wird. Dies bedeutet, daß das Wellenfeldsynthese-Autoren- Werkzeug gemäß der vorliegenden Erfindung als Workstation implementiert wird, die die Möglichkeit hat, die Audiosignale der abschließenden Mischung aufzuzeichnen und dieselben in einem anderen Schritt in das Verteilungsformat zu konvertieren. Hierzu werden erfindungsgemäß zwei Aspekte berücksichtigt. Der erste ist, daß alle Audioobjekte oder Spuren immer noch in dem Final Master existieren. Der zweite Aspekt ist, daß die Positionierung nicht in der Mischkonsole durchgeführt wird. Dies bedeutet, daß das sogenannten Authoring, also die Tonmeister-Nachbearbeitung einer der letzten Schritte in der Produktionskette ist. Erfin- dungsgemäß wird das Wellenfeldsynthese-Autorensystem gemäß der vorliegenden Erfindung, also die erfindungsgemäße Vorrichtung zum Erzeugen einer Audiodarstellung als eigenständige Workstation implementiert, die in unterschiedliche Produktionsumgebungen integriert werden kann, indem Audio- ausgaben von dem Mischpult in das System eingespeist werden. Insofern stellt das Mischpult die Benutzerschnittstelle dar, die mit der Vorrichtung zum Erzeugen der Audiodarstellung einer Audioszene verkoppelt ist.
Das erfindungsgemäße System gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist in Fig. 4 dargestellt. Gleiche Bezugszeichen wie in Fig. 1 oder 2 zeigen gleiche Elemente an. Der grundsätzliche Systementwurf ba- siert auf dem Ziel der Modularität und der Möglichkeit, e- xistierende Mischkonsolen in das erfindungsgemäße Wellen- feldsynthese-Autorensysten als Benutzerschnittstellen zu integrieren.
Aus diesem Grund ist in der Audioverarbeitungseinrichtung 12 eine zentrale Steuerung 120 ausgebildet, die mit anderen Modulen kommuniziert. Dies ermöglicht die Verwendung von Alternativen für bestimmte Module so lange alle dasselbe Kommunikationsprotokoll verwenden. Wenn das in Fig. 4 gezeigte System als Black-Box betrachtet wird, sieht man allgemein eine Anzahl von Eingaben (aus der Bereitstellungseinrichtung 10) und eine Anzahl von Ausgaben (Lautsprechersignale 14) sowie die Benutzerschnittstelle 20. Integriert in dieser Black-Box neben der Benutzerschnittstelle befindet sich der eigentliche WFS-Renderer 122, der die eigentliche Wellenfeldsynthese-Berechnung der Lautsprechersignale unter Verwendung diverser Input-Informationen durchführt. Ferner ist ein Raumsimulationsmodul 124 vorgesehen, das ausgebildet ist, um bestimmte Raumsimulationen durchzuführen, die dazu verwendet werden, um Raumeigenschaften eines Aufnahmeraums zu erzeugen oder Raumeigenschaften eines Aufnahmeraums zu manipulieren.
Ferner sind eine Audioaufnahmeeinrichtung 126 sowie eine Aufnahmewiedergabeeinrichtung (ebenfalls 126) vorgesehen. Die Einrichtung 126 ist vorzugsweise mit einem externen In- put versehen. In diesem Fall wird das gesamte Audiosignal entweder bereits objektorientiert oder noch kanalorientiert bereitgestellt und eingespeist. Dann kommen die Audiosignale nicht vom Szeneprotokoll, das dann lediglich Steuerungsaufgaben wahrnimmt. Die eingespeisten Audiodaten werden dann von der Einrichtung 126 aus ggf. in eine objektorientierte Darstellung umgesetzt und dann intern der Abbil- dungseinrichtung 18 zugeführt, die dann das Objekt/Kanal- Mapping durchführt. Alle Audioverbindungen zwischen den Modulen sind durch ein Matrixmodul 128 schaltbar, um je nach Anforderung durch die zentrale Steuerung 120 entsprechende Kanäle mit entsprechenden Kanälen zu verbinden. Bei einem bevorzugten Ausfüh- rungsbeispiel hat der Benutzer die Möglichkeit, 64 Eingangskanäle mit Signalen für virtuelle Quellen in die Audioverarbeitungseinrichtung 12 einzuspeisen, es existieren somit bei diesem Ausführungsbeispiel 64 Eingangskanäle EK1- EK . Damit können existierende Konsolen als Benutzer- schnittsteilen zum Vormischen der virtuellen Quellensignale verwendet werden. Das räumliche Mischen wird dann durch das Wellenfeldsynthese-Autorensystem und insbesondere durch das Herzstück, den WFS-Renderer 122, durchgeführt.
Die komplette Szenenbeschreibung wird in der Bereitstellungseinrichtung 10, die auch als Szenenprotokoll bezeichnet wird, gespeichert. Die Hauptkommunikation bzw. der benötigte Datenverkehr wird dagegen von der zentralen Steuerung 120 durchgeführt. Änderungen in der Szenenbeschrei- bung, wie sie beispielsweise durch die Benutzerschnittstelle 20 und insbesondere durch eine Hardware-Mischkonsole 200 oder eine Software-GUI, also eine graphische Software- Benutzerschnittstelle 202 erreicht werden können, werden über eine Benutzerschnittstellen-Steuerung 204 der Bereit- Stellungseinrichtung 10 als geändertes Szenenprotokoll zugeführt. Durch Bereitstellung eines geänderten Szenenprotokolls ist die gesamte logische Struktur einer Szene eindeutig dargestellt.
Für die Realisierung der Objekt-orientierten Lösungsansatzes wird durch die Abbildungseinrichtung 18 jedes Schallobjekt einem Aufbereitungskanal (Eingangskanal) zugeordnet, in dem das Objekt für eine bestimmte Zeit existiert. Üblicherweise existiert eine Anzahl von Objekten in chronologi- scher Reihenfolge auf einem bestimmten Kanal, wie es anhand der Fig. 3a, 3b und 6 dargestellt worden ist. Obwohl das erfindungsgemäße Autorensystem diese Objektorientierung unterstützt, muß der Wellenfeldsynthese-Renderer die Objekte selbst nicht kennen. Er empfängt einfach Signale in den Audiokanälen und eine Beschreibung der Art und Weise, auf die diese Kanäle aufbereitet werden müssen. Die Bereitstellungseinrichtung mit dem Szenenprotokoll, also mit der Kenntnis der Objekte und der zugeordneten Kanäle kann eine Transformation der Objekt-bezogenen Metadaten (beispielsweise der Quellenposition) zu Kanal-bezogenen Metadaten durchführen und dieselben zu dem WFS-Renderer 122 übertragen. Die Kommunikation zwischen anderen Modulen wird durch spezielle Protokolle auf eine Art und Weise durchgeführt, daß die anderen Module nur nötige Informationen enthalten, wie es schematisch durch den Block Funktionsprotokolle 129 in Fig. 4 dargestellt ist.
Das erfindungsgemäße Steuermodul unterstützt ferner die Festplatten-Speicherung der Szenenbeschreibung. Sie unterscheidet vorzugsweise zwischen zwei Dateiformaten. Ein Dateiformat ist ein Autorenformat, wo die Audiodaten als unkomprimierte PCM-Daten gespeichert werden. Ferner werden Sitzungs-bezogene Informationen, wie beispielsweise eine Gruppierung von Audioobjekten, also von Quellen, Layer- Informationen etc. ebenfalls verwendet, um in einem speziellen Dateiformat, das auf XML basiert, gespeichert zu werden.
Der andere Typ ist das Distributionsdateiformat. In diesem Format können Audiodaten auf komprimierte Art und Weise gespeichert werden, und es besteht hierbei kein Bedarf, die Sitzungs-bezogenen Daten zusätzlich zu speichern. Es sei darauf hingewiesen, daß die Audioobjekte noch in diesem Format existieren, und daß der MPEG-4-Standard zur Distribution verwendet werden kann. Erfindungsgemäß wird es bevorzugt, die Wellenfeldsynthese-Aufbereitung immer in Echtzeit zu tun. Dies ermöglicht es, daß keine vor-gerenderten Audioinformationen, also bereits fertige Lautsprechersigna¬ le in irgendeinem Dateiformat gespeichert werden muß. Dies ist insofern von großem Vorteil, da die Lautsprechersignale ganz erhebliche Datenmengen in Anspruch nehmen können, was nicht zuletzt auf die Vielzahl von verwendeten Lautsprechern in einer Wellenfeldsyntheseumgebung zurückzuführen ist .
Das eine oder die mehreren Wellenfeldsynthese-Renderer- Module 122 werden üblicherweise mit virtuellen Quellensignalen und einer Kanal-orientierten Szenenbeschreibung versorgt. Ein Wellenfeldsynthese-Renderer berechnet gemäß der Wellenfeldsynthese-Theorie das Treibersignal für jeden Lautsprecher, also ein Lautsprechersignal der Lautsprechersignale 14 von Fig. 4. Der Wellenfeldsynthese-Renderer wird ferner Signale für Sobwoofer-Lautsprecher berechnen, die ebenfalls benötigt werden, um das Wellenfeldsynthese-System bei niederen Frequenzen zu unterstützen. Raumsimulations- Signale von dem Raumsimulationsmodul 124 werden unter Verwendung einer Anzahl (üblicherweise 8 bis 12) statischer ebener Wellen gerendert. Basierend auf diesem Konzept ist es möglich, unterschiedliche Lösungsansätze für die Raumsimulation zu integrieren. Ohne Verwendung des Raumsimulati- onsmoduls 124 erzeugt das Wellenfeldsynthesesystem bereits annehmbare Tonbilder mit stabiler Wahrnehmung der Quellenrichtung für den Hörbereich. Es existieren jedoch bestimmte Mängel hinsichtlich der Wahrnehmung der Tiefe der Quellen, da üblicherweise keine frühen Raumreflexionen oder Nach- hallerscheinungen den Quellensignalen zugefügt werden. Erfindungsgemäß wird es bevorzugt, daß ein Raumsimulationsmodell eingesetzt wird, das Wandreflexionen reproduziert, die beispielsweise dahingehend modelliert werden, daß ein Spiegelquellenmodell zur Erzeugung der frühen Reflexionen ein- gesetzt wird. Diese Spiegelquellen können wiederum als Audioobjekte des Szenenprotokolls behandelt werden oder tatsächlich erst von der Audioverarbeitungseinrichtung selbst hinzugefügt werden. Die Aufnahme/Wiedergabe-Tools 126 stellen eine nützliche Ergänzung dar. Schallobjekte, die zur Mischung auf herkömmliche Art und Weise während des Vormi- schens fertiggestellt sind, dahingehend, daß also nur noch die räumliche Mischung durchgeführt werden muß, können von dem herkömmlichen Mischpult zu einem Audioobjekt- Wiedergabegerät gespeist werden. Ferner wird es bevorzugt, auch ein Audioaufzeichnungsmodul zu haben, das die Ausgangskanäle des Mischpults auf eine Zeitcode-gesteuerte Art und Weise aufzeichnet und die Audiodaten am Wiedergabe- Modul speichert. Das Wiedergabemodul wird einen Startzeitcode empfangen, um ein bestimmtes Audioobjekt abzuspielen, und zwar in Verbindung mit einem jeweiligen Ausgangskanal, der dem Wiedergabegerät 126 von der Abbildungseinrichtung 18 zugeführt wird. Das Aufnahme/Wiedergabegerät kann das Abspielen von einzelnen Audioobjekten unabhängig voneinander starten und stoppen, je nach Beschreibung des Startzeitpunkts und des Stoppzeitpunkts, der einem Audioobjekt zugeordnet ist. Sobald die Mischprozedur beendet ist, kann der Audioinhalt von dem Wiedergabegerätmodul genommen wer- den und in das Distributionsdateiformat exportiert werden. Das Distributionsdateiformat enthält somit ein fertiges Szenenprotokoll einer fertig abgemischten Szene. Das Ziel des erfindungsgemäßen Benutzerschnittstellenkonzepts besteht darin, eine hierarchische Struktur zu implementieren, die an die Aufgaben des Kino-Mischprozesses angepaßt ist. Hierbei wird ein Audioobjekt als Quelle aufgefaßt, die als Darstellung des einzelnen Audioobjekts für eine gegebene Zeit existiert. Eine Startzeit und eine Stopp/Ende-Zeit sind typisch für eine Quelle, also für ein Audioobjekt. Die Quelle bzw. das Audioobjekt benötigt Ressourcen des Systems während der Zeit, zu der das Objekt bzw. die Quelle „lebt".
Vorzugsweise umfaßt jede Tonquelle neben der Startzeit und der Stoppzeit auch Metadaten. Diese Metadaten sind „Typ" (zu einem bestimmten Zeitpunkt eine ebene Welle oder eine Punktquelle), „Richtung", „Lautstärke", „Stummschaltung" und „Flags" für eine richtungsabhängige Lautheit und ein richtungsabhängiges Delay. Alle diese Metadaten können automatisiert verwendet werden.
Ferner wird es bevorzugt, daß trotz des Objekt-orientierten Lösungsansatzes das erfindungsgemäße Autorensystem auch dem herkömmlichen Kanalkonzept dahingehend dient, daß z. B. Ob- jekte, die über dem gesamten Film bzw. allgemein über der gesamten Szene „lebendig" sind, auch einen eigenen Kanal bekommen. Dies bedeutet, daß diese Objekte im Prinzip einfache Kanäle in 1 : 1-Umsetzung, wie sie anhand von Fig. 6 dargelegt wird, darstellen.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung können wenigstens zwei Objekte gruppiert werden. Für jede Gruppe ist es möglich, auszuwählen, welche Parame- ter gruppiert sein sollen, und auf welche Weise dieselben unter Verwendung des Masters der Gruppe berechnet werden sollen. Gruppen von Schallquellen existieren für eine gegebene Zeit, welche durch die Startzeit und die Endzeit der Mitglieder definiert ist.
Ein Beispiel für den Nutzen von Gruppen besteht darin, dieselben für virtuelle Standard-Surround-Setups zu verwenden. Diese könnten verwendet werden für das virtuelle Ausblenden aus einer Szene oder das virtuelle Hineinzoomen in eine Szene. Alternativ kann die Gruppierung auch verwendet werden, um Surround-Nachhalleffekte zu integrieren und in ein WFS-Mix aufzuzeichnen.
Ferner wird es bevorzugt, eine weitere logische Entität zu bilden, nämlich die Layer oder Schicht. Um eine Mischung oder eine Szene zu strukturieren, werden bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung Gruppen und Quellen in unterschiedlichen Schichten angeordnet. Unter Verwendung von Schichten können in der Audio- Workstation Pre Dubs simuliert werden. Schichten können auch verwendet werden, um Anzeigeattribute während des Autorenprozesses zu ändern, beispielsweise um unterschiedliche Teile des aktuellen Mischgegenstands anzuzeigen oder zu verstecken.
Eine Szene besteht aus allen vorher erörterten Komponenten für eine gegebene Zeitdauer. Diese Zeitdauer könnte eine Filmspule oder auch z. B. der gesamte Film sein, oder aber nur z. B. ein Filmabschnitt bestimmter Dauer, wie beispielsweise fünf Minuten. Die Szene besteht wiederum aus einer Anzahl von Layern, Gruppen und Quellen, die zu der Szene gehören.
Vorzugsweise sollte die komplette Benutzerschnittstelle 20 sowohl einen Graphiksoftwareteil als auch einen Hardwareteil umfassen, um eine haptische Steuerung zu erlauben. Obgleich dies bevorzugt wird, könnte die Benutzerschnittstel- le jedoch auch aus Kostengründen vollständig als Softwaremodul implementiert sein.
Ein Entwurfskonzept für das graphische System wird verwendet, das auf sogenannten „Spaces" basiert. In der Benutzer- schnittsteile existiert eine kleine Anzahl von unterschiedlichen Spaces. Jeder Space ist eine spezielle Editierumgebung, die das Projekt aus einem unterschiedlichen Ansatz zeigt, wobei alle Werkzeuge zur Verfügung stehen, die für einen Space benötigt werden. Daher müssen nicht länger ver- schiedene Fenster beachtet werden. Alle für eine Umgebung benötigten Werkzeuge befinden sich in dem entsprechenden Space .
Um dem Toningenieur einen Überblick über alle Audiosignale zu einem gegebenen Zeitpunkt zu geben, wird der bereits anhand der Fig. 3a und 3b beschriebene adaptive Misch-Space verwendet. Derselbe kann mit einem herkömmlichen Mischpult verglichen werden, das nur die aktiven Kanäle anzeigt. Beim adaptiven Mixing Space werden statt der reinen Kanalinfor- mationen auch Audioobjektinformationen präsentiert. Diese Objekte sind, wie es dargestellt worden ist, durch die Abbildungseinrichtung 18 von Fig. 1 Eingangskanälen der WFS- Rendering-Einheit zugeordnet. Neben dem adaptiven Misch- Space existiert auch der sogenannte Timeline-Space, der ei- nen Überblick über alle Eingangskanäle liefert. Jeder Kanal wird mit seinen entsprechenden Objekten dargestellt. Der Benutzer hat die Möglichkeit, die Objekt-zu-Kanal-Zuordnung zu verwenden, obgleich aus Einfachheitsgründen eine automatische Kanalzuordnung bevorzugt wird.
Ein weiterer Space ist der Positionier-und-Editier-Space, der die Szene in einer dreidimensionalen Ansicht zeigt. Dieser Space soll den Benutzer in die Lage versetzen, Bewegungen der Quellenobjekte aufzuzeichnen bzw. zu editieren. Bewegungen können unter Verwendung beispielsweise eines Joysticks oder unter Verwendung anderer Einga- be/Anzeigegeräte erzeugt werden, wie sie für graphische Benutzerschnittstellen bekannt sind.
Schließlich existiert ein Room-Space, der das Raumsimulationsmodul 124 von Fig. 4 unterstützt, um auch eine Raumedi- tiermöglichkeit zu liefern. Jeder Raum wird durch einen bestimmten Parametersatz beschrieben, der in einer Raum- Voreinstellungs-Bibliothek gespeichert wird. Abhängig von dem Raummodell können verschiedene Arten von Parametersätzen sowie verschiedene graphische Benutzerschnittstellen eingesetzt werden.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen einer Audiodarstellung in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmieren Computersystem zusammenwirken können, daß das erfindungsgemäße Verfahren ausgeführt wird. Die Erfindung besteht somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer- Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt ist die Erfindung somit auch ein Computer- Programm mit einem Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm auf einem Computer abläuft.

Claims

Patentansprüche
1. Vorrichtung zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene, mit folgenden Merkmalen: einer Audioverarbeitungseinrichtung (12) zum Erzeugen einer Mehrzahl von Lautsprechersignalen aus einer Mehrzahl von Eingangskanälen (EKI, EK2, ..., EKm) (16); einer Einrichtung (10) zum Bereitstellen einer Objekt- orientierten Beschreibung der Audioszene, wobei die Objekt-orientierte Beschreibung der Audioszene eine Mehrzahl von Audioobjekten umfaßt, wobei einem Audioobjekt ein Audiosignal, ein Anfangszeitpunkt und ein Endzeitpunkt zugeordnet sind; und einer Abbildungseinrichtung (18) zum Abbilden der Ob- jekt-orientierten Beschreibung der Audioszene auf die Mehrzahl von Eingangskanälen der Audioverarbeitungseinrichtung, wobei die Abbildungseinrichtung ausgebil- det ist, um ein erstes Audioobjekt einem Eingangskanal zuzuweisen, und um ein zweites Audioobjekt, dessen Startzeitpunkt nach einem Endzeitpunkt des ersten Audioobjekts liegt, demselben Eingangskanal zuzuweisen, und um ein drittes Audioobjekt, dessen Startzeitpunkt nach dem Startzeitpunkt des ersten Audioobjekts und vor dem Endzeitpunkt des ersten Audioobjekts liegt, einem anderen der Mehrzahl von Eingangskanälen zuzuweisen.
2. Vorrichtung nach Anspruch 1, bei der die Audioverarbeitungseinrichtung (12) eine Wellenfeldsyntheseein- richtung (122) umfaßt, die ausgebildet ist, um unter Kenntnis von Positionen einer Mehrzahl von Lautspre- ehern die Mehrzahl von Lautsprechersignalen für die Lautsprecher zu berechnen.
Vorrichtung nach Anspruch 1 oder 2, bei dem einem Audioobjekt ferner eine virtuelle Position zugeordnet ist, und bei der die Audioverarbeitungseinrichtung (12) ausgebildet ist, um beim Erzeugen der Mehrzahl von Lautsprechersignalen die virtuellen Positionen der Audioobjekte zu berücksichtigen.
4. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Audioverarbeitungseinrichtung (12) ausschließlich über die Abbildungseinrichtung (18) mit der Einrichtung (10) zum Bereitstellen gekoppelt ist, um zu verarbeitende Audioobjektdaten zu empfangen.
5. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der eine Anzahl von Eingangskanälen der Audioverarbeitungseinrichtung vorbestimmt ist und kleiner ist als eine erlaubte Anzahl von Audioobjekten in der Audioszene, wobei zumindest zwei Audioobjekte vorhanden sind, die sich zeitlich nicht überlappen.
6. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner eine Benutzerschnittstelle (20) aufweist, wobei die Benutzerschnittstelle eine Anzahl von separaten Benutzerschnittstellenkanälen aufweist, wobei ein Benutzerschnittstellenkanal einem Eingangskanal der Audioverarbeitungseinrichtung zugeordnet ist, und wobei die Benutzerschnittstelle (20) mit der Abbildungseinrichtung (80) gekoppelt ist, um zu einem Zeitpunkt das Audioobjekt zu identifizieren, das dem Benutzerschnittstellenkanal gerade zugewiesen ist.
7. Vorrichtung nach Anspruch 6, bei der die Benutzerschnittstelle (20) ausgebildet ist, um Benutzerschnittstellenkanäle zu identifizieren, die Eingangs- kanälen der Audioverarbeitungseinrichtung zugeordnet sind, denen gerade ein Audioobjekt zugewiesen ist.
8. Vorrichtung nach Anspruch 7, bei der die Benutzer- schnittsteile als Hardware-Mischkonsole ausgebildet ist, die für jeden Benutzerschnittstellenkanal eine Hardware-Manipulationseinrichtung aufweist, und bei der jeder Hardware-Manipulationseinrichtung ein Indikator zugeordnet ist, um einen gerade aktiven Benut- Zerschnittstellenkanal zu identifizieren.
9. Vorrichtung nach Anspruch 7, bei der die Benutzerschnittstelle ein graphische Benutzerschnittstelle aufweist, die ausgebildet ist, um auf einem elektri- sehen Anzeigegerät nur die Benutzerschnittstellenkanäle anzuzeigen, denen ein Eingangskanal der Audioverarbeitungseinrichtung zugeordnet ist, dem gerade ein Audioobjekt zugewiesen ist.
10. Vorrichtung gemäß einem der Ansprüche 6 bis 9, bei der die Benutzerschnittstelle (20) ferner eine Manipulationseinrichtung für einen Benutzerschnittstellenkanal aufweist, die ausgebildet ist, um ein Audioobjekt, das dem Eingangskanal der Audioverarbeitungseinrichtung (12) zugewiesen ist, der dem Benutzerschnittstellenkanal entspricht, zu manipulieren, wobei die Benutzerschnittstelle mit der Einrichtung (10) zum Bereitstellen gekoppelt ist, um ein Audioobjekt durch eine manipulierte Version desselben zu ersetzen, und wobei die Abbildungseinrichtung (18) ausgebildet ist, um statt des Audioobjekts die manipulierte Version desselben einem Eingangskanal der Audioverarbeitungseinrichtung (12) zuzuweisen.
11. Vorrichtung nach Anspruch 10, bei der die Manipulationseinrichtung ausgebildet ist, um Position, Typ oder Audiosignal eines Audioobjekts zu verändern.
12. Vorrichtung nach einem der Ansprüche 6 bis 9, bei der die Benutzerschnittstelle ausgebildet ist, um für einen Benutzerschnittstellenkanal eine zeitliche Belegung darzustellen, wobei die zeitliche Belegung eine zeitliche Sequenz der einem Benutzerschnittstellenkanal zugewiesenen Audioobjekte darstellt, und wobei die Benutzerschnittstelle ferner ausgebildet ist, um in der zeitlichen Belegung einen aktuellen Zeitpunkt (37) zu markieren.
13. Vorrichtung nach Anspruch 12, bei der die Benutzerschnittstelle (20) ausgebildet ist, um die zeitliche Belegung als Zeitstrahl darzustellen, der die zugewiesenen Audioobjekte proportional zu ihrer Länge sowie einen mit fortschreitender Zeit sich bewegenden Indikator (37) aufweist.
14. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (10) zum Bereitstellen ausgebildet ist, um eine Gruppierung von Audioobjekten zuzulassen, derart, daß die Audioobjekte, die gruppiert sind, durch eine Gruppeninformation im Hinblick auf ihre Gruppenzugehörigkeit markiert sind, und wobei die Abbildungseinrichtung (18) ausgebildet ist, um die Gruppeninformationen zu bewahren, so daß sich eine Manipulation einer Gruppeneigenschaft auf alle Mitglieder der Gruppe auswirkt, unabhängig davon, wel- ehern Eingangskanal der Audioverarbeitungseinrichtung die Audioobjekte der Gruppe zugeordnet sind.
15. Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene, mit folgenden Schritten: Erzeugen (12) einer Mehrzahl von Lautsprechersignalen aus einer Mehrzahl von Eingangskanälen (EKI, EK2, ..., EKm) (16); Bereitstellen (10) einer Objekt-orientierten Beschreibung der Audioszene, wobei die Objekt-orientierte Beschreibung der Audioszene eine Mehrzahl von Audioobjekten umfaßt, wobei einem Audioobjekt ein Audiosignal, ein Anfangszeitpunkt und ein Endzeitpunkt zuge- ordnet sind; und
Abbilden (18) der Objekt-orientierten Beschreibung der Audioszene auf die Mehrzahl von Eingangskanälen der Audioverarbeitungseinrichtung, indem ein erstes Audio- objekt einem Eingangskanal zugewiesen wird, und indem ein zweites Audioobjekt, dessen Startzeitpunkt nach einem Endzeitpunkt des ersten Audioobjekts liegt, demselben Eingangskanal zugewiesen wird, und indem ein drittes Audioobjekt, dessen Startzeitpunkt nach dem Startzeitpunkt des ersten Audioobjekts und vor dem Endzeitpunkt des ersten Audioobjekts liegt, einem anderen der Mehrzahl von Eingangskanälen zugewiesen wird.
16. Computer-Programm mit einem Programmcode zum Durchführen des Verfahrens nach Anspruch 15, wenn das Programm auf einem Computer abläuft.
EP04763715A 2003-08-04 2004-08-02 Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene Active EP1652405B1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP04763715A EP1652405B1 (de) 2003-08-04 2004-08-02 Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP03017785 2003-08-04
DE10344638A DE10344638A1 (de) 2003-08-04 2003-09-25 Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
PCT/EP2004/008646 WO2005017877A2 (de) 2003-08-04 2004-08-02 Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene
EP04763715A EP1652405B1 (de) 2003-08-04 2004-08-02 Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene

Publications (2)

Publication Number Publication Date
EP1652405A2 true EP1652405A2 (de) 2006-05-03
EP1652405B1 EP1652405B1 (de) 2008-03-26

Family

ID=34178382

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04763715A Active EP1652405B1 (de) 2003-08-04 2004-08-02 Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene

Country Status (7)

Country Link
US (1) US7680288B2 (de)
EP (1) EP1652405B1 (de)
JP (1) JP4263217B2 (de)
CN (1) CN100508650C (de)
AT (1) ATE390824T1 (de)
DE (1) DE10344638A1 (de)
WO (1) WO2005017877A2 (de)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050058307A1 (en) * 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
DE102005008343A1 (de) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Liefern von Daten in einem Multi-Renderer-System
DE102005008342A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Speichern von Audiodateien
DE102005008333A1 (de) * 2005-02-23 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Steuern einer Wellenfeldsynthese-Rendering-Einrichtung
DE102005027978A1 (de) * 2005-06-16 2006-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Lautsprechersignals aufgrund einer zufällig auftretenden Audioquelle
WO2007033150A1 (en) 2005-09-13 2007-03-22 Srs Labs, Inc. Systems and methods for audio processing
EP2005787B1 (de) * 2006-04-03 2012-01-25 Srs Labs, Inc. Tonsignalverarbeitung
BRPI0716854B1 (pt) * 2006-09-18 2020-09-15 Koninklijke Philips N.V. Codificador para codificar objetos de áudio, decodificador para decodificar objetos de áudio, centro distribuidor de teleconferência, e método para decodificar sinais de áudio
CN101617360B (zh) 2006-09-29 2012-08-22 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
US9361295B1 (en) 2006-11-16 2016-06-07 Christopher C. Andrews Apparatus, method and graphical user interface for providing a sound link for combining, publishing and accessing websites and audio files on the internet
US10296561B2 (en) 2006-11-16 2019-05-21 James Andrews Apparatus, method and graphical user interface for providing a sound link for combining, publishing and accessing websites and audio files on the internet
KR101724326B1 (ko) * 2008-04-23 2017-04-07 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
KR102149019B1 (ko) * 2008-04-23 2020-08-28 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
JP5603339B2 (ja) * 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
TWI383383B (zh) * 2008-11-07 2013-01-21 Hon Hai Prec Ind Co Ltd 音頻處理系統
EP2205007B1 (de) * 2008-12-30 2019-01-09 Dolby International AB Verfahren und Vorrichtung zur Kodierung dreidimensionaler Hörbereiche und zur optimalen Rekonstruktion
KR101842411B1 (ko) * 2009-08-14 2018-03-26 디티에스 엘엘씨 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
US9305550B2 (en) * 2009-12-07 2016-04-05 J. Carl Cooper Dialogue detector and correction
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
US20120253493A1 (en) 2011-04-04 2012-10-04 Andrews Christopher C Automatic audio recording and publishing system
AU2012279349B2 (en) 2011-07-01 2016-02-18 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
US9078091B2 (en) * 2012-05-02 2015-07-07 Nokia Technologies Oy Method and apparatus for generating media based on media elements from multiple locations
EP2848009B1 (de) * 2012-05-07 2020-12-02 Dolby International AB Verfahren und vorrichtung für layout- und formatunabhängige 3d-audiowiedergabe
US9264840B2 (en) * 2012-05-24 2016-02-16 International Business Machines Corporation Multi-dimensional audio transformations and crossfading
CN105264600B (zh) 2013-04-05 2019-06-07 Dts有限责任公司 分层音频编码和传输
CN110085239B (zh) 2013-05-24 2023-08-04 杜比国际公司 对音频场景进行解码的方法、解码器及计算机可读介质
CN109712630B (zh) * 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
RU2630754C2 (ru) 2013-05-24 2017-09-12 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
CN106961647B (zh) 2013-06-10 2018-12-14 株式会社索思未来 音频再生装置以及方法
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
CN105493182B (zh) * 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
WO2015150384A1 (en) * 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
EP3151240B1 (de) * 2014-05-30 2022-12-21 Sony Group Corporation Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren
WO2016126715A1 (en) 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Adaptive audio construction
US11096004B2 (en) * 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
GB201719854D0 (en) * 2017-11-29 2018-01-10 Univ London Queen Mary Sound effect synthesis
GB201800920D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01279700A (ja) * 1988-04-30 1989-11-09 Teremateiiku Kokusai Kenkyusho:Kk 音響信号処理装置
JPH04225700A (ja) * 1990-12-27 1992-08-14 Matsushita Electric Ind Co Ltd オーディオ再生装置
JPH06246064A (ja) * 1993-02-23 1994-09-06 Victor Co Of Japan Ltd テレビゲーム機用付加装置
JP3492404B2 (ja) * 1993-12-24 2004-02-03 ローランド株式会社 音響効果装置
US7085387B1 (en) * 1996-11-20 2006-08-01 Metcalf Randall B Sound system and method for capturing and reproducing sounds originating from a plurality of sound sources
JP4060379B2 (ja) * 1997-11-29 2008-03-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 可変レートでサンプルされたデジタルオーディオ情報を一連の一様な大きさのブロックにインターフェースする方法及び装置並びに書込インターフェース動作により作製される単体媒体
US6054989A (en) * 1998-09-14 2000-04-25 Microsoft Corporation Methods, apparatus and data structures for providing a user interface, which exploits spatial memory in three-dimensions, to objects and which provides spatialized audio
GB2349762B (en) * 1999-03-05 2003-06-11 Canon Kk Image processing apparatus
US7149313B1 (en) * 1999-05-17 2006-12-12 Bose Corporation Audio signal processing
EP1209949A1 (de) * 2000-11-22 2002-05-29 Technische Universiteit Delft Schallwiedergabesystem mit Wellenfeldsynthese unter Verwendung einer Platte mit verteilten Moden
GB0127778D0 (en) * 2001-11-20 2002-01-09 Hewlett Packard Co Audio user interface with dynamic audio labels
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005017877A2 *

Also Published As

Publication number Publication date
US20050105442A1 (en) 2005-05-19
WO2005017877A3 (de) 2005-04-07
WO2005017877A2 (de) 2005-02-24
DE10344638A1 (de) 2005-03-10
CN1849845A (zh) 2006-10-18
EP1652405B1 (de) 2008-03-26
JP2007501553A (ja) 2007-01-25
ATE390824T1 (de) 2008-04-15
JP4263217B2 (ja) 2009-05-13
US7680288B2 (en) 2010-03-16
CN100508650C (zh) 2009-07-01

Similar Documents

Publication Publication Date Title
EP1652405B1 (de) Vorrichtung und verfahren zum erzeugen, speichern oder bearbeiten einer audiodarstellung einer audioszene
DE10328335B4 (de) Wellenfeldsyntesevorrichtung und Verfahren zum Treiben eines Arrays von Lautsprechern
EP1844628B1 (de) Vorrichtung und verfahren zum ansteuern einer wellenfeldsynthese-renderer-einrichtung mit audioobjekten
EP1844627B1 (de) Vorrichtung und verfahren zum simulieren eines wellenfeldsynthese-systemes
EP1671516B1 (de) Vorrichtung und verfahren zum erzeugen eines tieftonkanals
DE10254404B4 (de) Audiowiedergabesystem und Verfahren zum Wiedergeben eines Audiosignals
EP1723825B1 (de) Vorrichtung und verfahren zum steuern einer wellenfeldsynthese-rendering-einrichtung
DE19950319A1 (de) Verfahren zum Synthetisieren eines dreidimensionalen Schallfeldes
DE102006017791A1 (de) Wiedergabegerät und Wiedergabeverfahren
DE102005008343A1 (de) Vorrichtung und Verfahren zum Liefern von Daten in einem Multi-Renderer-System
DE10321980B4 (de) Vorrichtung und Verfahren zum Berechnen eines diskreten Werts einer Komponente in einem Lautsprechersignal
DE102006010212A1 (de) Vorrichtung und Verfahren zur Simulation von WFS-Systemen und Kompensation von klangbeeinflussenden WFS-Eigenschaften
WO2019158750A1 (de) Vorrichtung und verfahren für objektbasiertes, räumliches audio-mastering
DE2850490A1 (de) Einrichtung zur mehrdimensionalen signalverteilung
DE10254470A1 (de) Vorrichtung und Verfahren zum Bestimmen einer Impulsantwort und Vorrichtung und Verfahren zum Vorführen eines Audiostücks
EP1789970B1 (de) Vorrichtung und verfahren zum speichern von audiodateien
DE2503778C3 (de) Tonübertragungssystem mit mindestens vier Kanälen und mit einer Tonaufnahmeeinrichtung
DE102010009170A1 (de) Verfahren zum Verarbeiten und/oder Mischen von Tonspuren
DE2503778B2 (de) Tonuebertragungssystem mit mindestens vier kanaelen und mit einer tonaufnahmeeinrichtung
CH704501B1 (de) Verfahren zur Wiedergabe von auf einem Datenträger gespeicherten Audiodaten und entsprechende Vorrichtung.
WO2001033907A2 (de) Mehrkanaliges tonbearbeitungssystem

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20050527

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWAN

RIN1 Information on inventor provided before grant (corrected)

Inventor name: MUENNICH, KATHRIN

Inventor name: ROEDER, THOMAS

Inventor name: LANGHAMMER, JAN

Inventor name: MELCHIOR, FRANK

Inventor name: BRIX, SANDRA

RIN1 Information on inventor provided before grant (corrected)

Inventor name: REICHELT, KATHRIN

Inventor name: ROEDER, THOMAS

Inventor name: LANGHAMMER, JAN

Inventor name: MELCHIOR, FRANK

Inventor name: BRIX, SANDRA

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 502004006676

Country of ref document: DE

Date of ref document: 20080508

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

ET Fr: translation filed
REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080626

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080901

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080707

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20081230

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080831

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080626

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080831

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080802

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080802

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080927

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080627

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 13

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 14

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230524

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20230823

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20230824

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230821

Year of fee payment: 20

Ref country code: DE

Payment date: 20230822

Year of fee payment: 20