EP4047595B1 - Verfahren zur erstellung einer gruppe von phasenkohärenten samples für ein virtuelles instrument - Google Patents
Verfahren zur erstellung einer gruppe von phasenkohärenten samples für ein virtuelles instrument Download PDFInfo
- Publication number
- EP4047595B1 EP4047595B1 EP22153060.3A EP22153060A EP4047595B1 EP 4047595 B1 EP4047595 B1 EP 4047595B1 EP 22153060 A EP22153060 A EP 22153060A EP 4047595 B1 EP4047595 B1 EP 4047595B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- phase
- time
- samples
- reference sample
- phase relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
- G10H1/12—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
- G10H1/125—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms using a digital filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/02—Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
- G10H7/04—Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories in which amplitudes are read at varying rates, e.g. according to pitch
- G10H7/045—Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories in which amplitudes are read at varying rates, e.g. according to pitch using an auxiliary register or set of registers, e.g. a shift-register, in which the amplitudes are transferred before being read
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/541—Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
- G10H2250/615—Waveform editing, i.e. setting or modifying parameters for waveform synthesis
Definitions
- the present invention relates to phase-coherent samples, their use in a virtual instrument, the virtual instrument, and the method for generating the samples.
- Playing multiple samples in a virtual instrument is, for example, possible from the US 9, 805, 702 B1 known.
- the JP 2001100756 A discloses the one-time calculation of an average static phase offset over a temporal portion of the audio tracks on the basis of which a single-channel signal is shifted relative to a single-channel reference signal and thereby the reference signal is made on average more phase-coherent to the single-channel signal.
- the task is to avoid these disadvantages and yet provide a solution for continuous transitions between samples at different dynamic levels of a real instrument, without having to accept comb filter artifacts or the psychoacoustic impression of two instruments playing in unison, while preserving natural phase fluctuations and time-dynamic changes in the overtone spectrum.
- the method presented here offers a solution to the problems mentioned above without resorting to resynthesis techniques: By simply Since the playback speed of the original signals is modulated, natural phase and overtone spectrum fluctuations are retained. The procedure is therefore minimally invasive. Multi-channel and spatial signals can be easily converted into a phase-coherent form, while also preserving relative phase relationships, for example between different simultaneous microphone positions in multi-microphone recordings.
- the method can also be implemented on a standard sequential computer architecture as a real-time processor with moderate computing effort, which enables it to be used, for example, as a plug-in in digital audio processing software or as an on-board effect in a sampler engine.
- the course of the phase relationship value has in particular at least one change per 100 ms, in particular per 10 ms, and/or the Change of speed and/or time base per 100 ms, in particular per 10 ms, changed at least once.
- time base refers in particular to the temporal allocation of the individual sample values of the sample and/or audio source.
- An input audio source is understood to mean in particular an audio source that is processed by the method and/or is used as a reference for the processing of at least one other audio source by the method.
- the problem is also solved by a method for simultaneously playing at least one sample each of two toner events of at least 500 ms length of the same pitch of a real instrument, wherein the samples are each played back in a phase-coherent manner, in particular for at least 500 ms and at least partially simultaneously.
- a virtual instrument in particular in a VST, AU or AAX plug-in, having at least one group of phase-coherent samples and/or configured to generate such, wherein the group comprises at least two samples each of a toner event of in particular at least 500 ms in length of the same pitch of a real musical instrument.
- the virtual instrument is designed to play at least two of the phase-coherent samples of the same pitch at least partially simultaneously and in a phase-coherent manner, whereby the samples have a length of at least 500 ms in particular, in which they do not repeat.
- At least one sample of the group has a speed change that varies over its time course and/or at least one sample of the group is a processed sampling that has an RMS over its temporal length, in particular without settling and decay times, over the deviations normalized to the mean period in the interval from the mean period of the interval and/or from the period of a reference sample from the group of Samples of less than 75% of the RMS of the unprocessed sample from which the processed sampling was derived, also determined over the same period of time, and/or of the sample corrected by means of a static time offset from which the processed sampling was derived.
- the varying speed change in particular has at least one change per 100 ms, in particular per 10 ms.
- the virtual instrument is in particular stored in the form of software and/or a computer program on a data carrier and/or in the form of a computer that is set up as a virtual instrument and/or has such a computer program.
- the object is also achieved by a system, in particular a hardware and software system, having at least one CPU and a memory, configured to carry out a method according to the invention.
- a signal processor with at least two inputs for audio signals and at least two outputs for audio signals and configured to sample the signals present at the audio inputs and to carry out the method according to the invention with the samples generated and to output the phase-coherent samples at the outputs.
- the task is also solved by a group of phase-coherent samples of different dynamics of a pitch of a real musical instrument, whereby the samples have a length of at least 500 ms in which they are phase-coherent and do not repeat.
- At least one sample of the group has a speed change that varies over its time course and/or at least one sample of the group is a processed sampling that has a speed change that varies over its time length, in particular without attack and decay times, has a RMS determined over the deviations normalized to the mean period in the interval from the mean period of the interval and/or from the period of a reference sample from the group of samples of less than 75% of the RMS also determined over the same period of time of the unprocessed sample from which the processed sampling was derived and/or of the sample corrected by means of a static time offset from which the processed sampling was derived.
- the varying speed change in particular has at least one change per 100 ms, in particular per 10 ms.
- a group of samples comprising samples of different dynamics of a pitch of a real musical instrument, wherein the samples each have a length of at least 500 ms, and wherein the group has information on the phase curve of at least one, in particular all samples, over the length of at least 500 ms of the samples, in particular as a track, in particular a MIDI track, in particular an additional track containing the information on the phase curve, in particular one for each sample.
- a group can be used to easily achieve phase-coherent playback by reducing the differences in the phase curve of the samples during simultaneous playback by modulating the playback speed(s) of the sample(s) when at least two of the samples are played back, at least partially simultaneously.
- the course of the phase difference can be easily obtained from the information on the phase curve.
- phase-coherent audio sources in particular audio signals or samples, of at least two different dynamics of a pitch of a real musical instrument also solves the problem, wherein the audio sources have a length of at least 500 ms, in which they are phase-coherent and do not repeat, for the phase-coherent and at least partially simultaneous reproduction of the audio sources of a pitch with at least two different dynamics.
- a group of audio sources in particular audio signals or samples, of at least two different dynamics of a pitch of a real musical instrument also solves the problem, wherein the audio sources have a length of at least 500 ms, in which they have information on the phase progression, for the phase-coherent and at least partially simultaneous reproduction of the audio sources of a pitch with at least two different dynamics.
- This is done in particular by determining a course of a phase relationship value, in particular determining a course of the phase deviation, over the duration of the audio source for each of the dependent audio sources and using the course determined in each case to adapt the speed and/or time base of the respective dependent audio source.
- the phase relationship value changes in particular over the duration of the sample.
- the special feature of the method according to the invention lies in particular in the realization of a dynamic adaptation by means of which a permanent phase coherence can be achieved even when the phase relationships between the input signals change over time and in which it is also possible to make numerous recordings of the same sound event phase-coherent.
- the comparison of the phase curve can generally be carried out using a cross-correlator, for example.
- the passages of the signal, in particular the fundamental frequency, through a predetermined level, in particular the zero crossings can be determined and the position of the zero crossings can be used as information about the temporal position of the edges.
- the adjustment is carried out in such a way that the offset of the edges, especially zero crossings, is reduced.
- the course of a phase comparison value is determined, which in particular indicates the deviation of the position of the edges.
- the course of a phase comparison value is in particular smoothed. This is done in particular by a low-pass filter, the corner frequency of which is set in particular such that no artifacts, in particular no glitches, arise when used to modulate the samples and play the samples at the same time.
- a look ahead can be used to determine the course of the phase comparison value, which is set in particular after the low-pass filter has been set and/or is set in such a way, in particular increased, that/until no comb filter artifacts occur.
- the look ahead is preferably in the range of 1 to 50 ms, in particular over 5 ms and/or under 20 ms.
- phase relationship value also known as a control function
- a control function which is preferably used to modulate the playback speed and/or to change the speed and/or time base.
- an average value for modulating the playback speed and/or changing the speed and/or time base which takes into account the phase response of the reference sample and the dependent sample being changed before, at and after the time at which each change is made.
- the smoothing level is set using a controller via the cut-off frequency of a low-pass filter applied to the control signal.
- a high cut-off frequency results in a low smoothing level and vice versa.
- the increasing smoothing level avoids artifacts ("glitches") caused by measurement errors or signal quality, but the correspondingly increased response time also reduces the efficiency of the process and consequently phase-shift-related comb filter effects. can become audible.
- By setting the look ahead parameter appropriately an effective reaction of the circuit to sudden changes in the phase difference curve can be achieved even with high levels of smoothing.
- the circuit reacts prematurely and can therefore under certain circumstances create comb filter effects.
- the parameter is set to a real value between zero and one, whereby with the latter setting the entire buffer time (usually around 60ms) is used for look ahead (i.e. the control signal is applied earlier by the buffer time or the signals to be controlled are delayed by the buffer time), whereas with the former (value of 0) no look ahead takes place at all.
- the two parameters are preferably set by the user on a signal-specific basis by ear so that a suitable compromise between a short reaction time and freedom from artifacts is achieved with regard to the desired result.
- a sound engineer is generally familiar with such an approach, since a large number of effects devices common in the industry are operated in a similar way. For example, in a dynamic compressor, the reaction time ("attack” and "release”) and the look-ahead time are adjusted by ear in such a way that a satisfactory compromise between dynamic reduction and freedom from artifacts is achieved.
- the value of the course of the phase relationship value at a point in time of the reference sample at least partially takes into account the phase course of the reference sample and/or the phase course of another of the audio sources, before, at and/or after the point in time of the reference sample.
- the time in the reference sample and in the other audio source is in particular identical, in particular counted from their start and/or predetermined times.
- Such consideration is carried out in particular by a look-ahead and/or a low-pass filter and/or averaging.
- consideration is given over the entire course, with the exception of the start and end, in particular over 1 to 100 ms at the start and end of the other audio source and/or the reference sample.
- An audio source can contain several tracks, for example one or more stereo channels.
- Each audio source is in particular the recording of a real sound event, for example by means of a microphone or a plurality of microphones, in particular at a common position.
- Static phase shifts due to different run times at different microphone positions, in particular different audio sources, of a common sound event do not represent a disadvantage. They are in particular retained by the method and not eliminated.
- An audio source is in particular the recording of a sound event, in particular at a position, generated by striking or stroking a string or playing a note on a wind instrument.
- the dependent audio sources modified in this way form a group of coherent audio sources alone and/or together with the reference sample.
- One of the audio sources can be used as a reference sample, or an audio signal, in particular with a constant frequency and in particular without a phase jump, in particular a sinusoidal signal.
- the latter enables time-shifted, phase-coherent playback without having to carry out a phase correction adapted to the time offset, but eliminates the actually desired temporal fluctuations in the frequency of the samples or the phase-coherent audio sources played back.
- a group or a plurality of audio sources are provided in particular, which can be converted into coherent ones using the method according to the invention. These are stored in particular on a data carrier and/or are in particular part of the system and/or virtual instrument.
- a first time period, in particular the duration of the transient process, with a length in particular in the range from 0 to 500 ms, in particular in the range from 100 to 400 ms, of the dependent audio sources is not changed in speed and/or time base and a second time period, in particular with a length of more than 500 ms and/or immediately following the first time segment, the or each of the dependent audio sources changes in speed and/or time base.
- the first and/or second time period is in particular a recording of a real sound event that is not repeated and/or does not repeat.
- the group of coherent audio sources is in particular designed such that they are coherent when started simultaneously, in particular at least over a duration of at least 500 ms, in which in particular there is no repetition and/or at least after a/the first time period.
- the group of coherent audio sources is in particular designed such that it comprises or is accompanied by information indicating the temporal sequence in which the partially simultaneous playback is to be started so that the playback is coherent in the area of simultaneous playback.
- the group of coherent audio sources can also be created depending on settings and/or the time offset of the at least partially simultaneous playback depending on these as needed, in particular before (in particular immediately before and/or a maximum of one hour) and/or during playback. This allows more freedom with regard to the time offset of the playback or its start.
- the method for playing, the use, the system or the virtual instrument are in particular designed such that the volume of the samples played at least partially simultaneously can be changed relative to one another, in particular varying over the duration of the playback.
- appropriate setting options are provided in particular.
- the temporal phase difference curve to the corresponding microphone signal of a dynamic stage to be adjusted is preferably determined by a phase correlator (not necessarily a cross correlator).
- phase comparison value curve After a phase comparison value curve has been generated, it is preferably processed by suitable unfolding, clipping, filtering and/or Dynamic processors process and/or smooth, for example by means of a low-pass filter with a corner or cut-off frequency in the range of 50 to 200 Hz, in particular from 60 to 150 Hz.
- An unwrapping method detects the jump points and uses this as a basis to reconstruct the continuous phase difference curve. This can be done, for example, as described in "One-Dimensional Phase Unwrapping Problem" by Dr. Munther Gdeisat and Dr. Francis Lilley, e.g. at https://www.ljmu.ac.uk/-/media/files/ljmu/about-us/faculties-and-schools/fet/geri/onedimensionalphaseunwrapping_finalpdf.pdf.
- the sequence of the detected zero crossings can be used, since if the edges are determined correctly, a reversal of the phase difference function is immediately apparent from the presence of two consecutive pulses from one of the signals without an intermediate pulse from the other signal.
- a known unwrapping method can be combined with this method. This makes the unfolding process more precise and less susceptible to interference, which in turn can in many cases enable less invasive smoothing and thus a slightly shorter response time.
- a clipper can be used to cut off signal peaks beyond a given frequency interval.
- the lower interval limit of the clipper is preferably identical to the inverse of the buffer time with which the playback of the samples is delayed, the upper limit is preferably fixed, for example set to a value in the range of 10 ⁇ (-7) to 10 ⁇ (-9) Hz.
- phase relationship value is fed into delay elements as a time parameter, to whose input busses a dependent sample is applied.
- modulated audio sources that are phase-coherent with the source signal can now be tapped at the outputs of the delay elements.
- the course of a phase relationship value can be determined for one channel/track only, for several channels/tracks separately, or using a metric that takes several channels/tracks into account.
- the metric can be an average value, for example.
- Changing the time base can, for example, be done separately and/or differently for each channel/track of a dependent sample and/or jointly and/or equally for all channels/tracks of a dependent sample.
- all audio sources and/or all dependent audio sources have the same number of tracks and/or channels.
- the method can also be used if the number of tracks and/or channels is different.
- the audio sources are in particular analog or digital recordings of analog acoustic events.
- all audio sources and/or all dependent audio sources have the same duration.
- the reference sample has at least the duration of the second longest, in particular the longest, dependent audio sources.
- reference samples may be recorded by a microphone positioned closer than all of the microphones of the dependent audio sources, in particular very close to the sound source, in particular a maximum of 1 meter from the sound source. This reference sample is then preferably not part of the group of coherent audio sources.
- the audio sources are preferably recordings of a sound event that is stationary to the microphone(s) used. This means that the musical instrument and microphones used to create the audio sources are preferably stationary.
- phase relationship determination module for determining the course of the phase deviation. so that the short-term phase fluctuations and deviations characteristic of monophonic musical instrument samples can be quickly compensated.
- the determination time for the time interval between two edges is preferably essentially given by this, since when an edge arrives, one must wait for the corresponding edge of the second signal.
- the total reaction time is therefore given in a very good approximation by the absolute temporal phase difference of the given signals plus a value based on the smoothing, in particular their corner or limit frequency, which is preferably in the range of 1 to 20 ms.
- the reaction time is therefore preferably less than 100 ms, in particular less than 50 ms.
- a suitable smoothing and/or filtering of the course of the phase deviation before use to change the dependent samples is advantageous, for example by means of a low-pass filter with a corner or cut-off frequency in the range of 50 to 200 Hz, in particular from 60 to 150 Hz.
- the first harmonic of the fundamental tone can be used temporarily or permanently as a reference instead of the fundamental tone.
- phase cancellations which in turn are caused by the fact that the first harmonic basically contains no information whatsoever regarding the direction of the corresponding edges in the fundamental, this can lead to new artifacts, in particular now artificially induced fundamental tone failures when the resulting phase-adjusted samples are played synchronously.
- this can again be easily remedied by a static polarity reversal of the processed reference signal.
- Polarity reversal (often referred to as "phase rotation" and not entirely correctly) is also a standard Process that is implemented in commercially available mixing consoles and digital audio processing environments.
- the processed reference signal can be shifted by half a period.
- the course of a phase relationship value can be determined in various ways, for example analog, digital, in real time or later in time.
- the fundamental tone of the reference sample and/or the audio sources is preferably first isolated using a steep-edged bandpass filter.
- the sinusoidal fundamental tone curves are preferably processed by a comparator, resulting in a square wave signal that can then be differentiated.
- a comparator resulting in a square wave signal that can then be differentiated.
- both positively and negatively signed edges can also be taken into account to determine the phase phase offset. This leads to a doubling of the resolution of the phase difference determination and can therefore lead to shorter response times, for example within half a period of the signal.
- the time interval between zero crossings of the reference sample and a dependent audio source is determined and/or used.
- the staircase function preferably generated from this shows the phase difference curve between the two samples after unwrapping.
- the course of a phase comparison value is advantageously filtered and/or smoothed.
- the result is then preferably used as the course of a phase relationship value.
- the course of a phase relationship value is passed as a control function to the time parameter of a delay element.
- the change is non-linear processing, in order to avoid aliasing artifacts it is preferably carried out by oversampling the sampling rate of the reference sample by at least four times, in particular at least eight times.
- the reference sample is provided with additional artificially generated values, in particular amplitude and phase values.
- This method is used in particular and frequently in commercially available digital emulations of analog signal shapers (such as distortion or overdrive effects) or dynamic processors (such as compressors).
- each of the adapted audio sources is advantageously band-limited to the original sampling rate or Nyquist frequency, in particular by means of a bandpass filter, and/or sampled with the sampling rate of the digital medium used.
- the middle C of a flute was recorded one after the other in the dynamic levels piano, mezzoforte and forte with three stereo microphone pairs in the three positions near, medium and far at the same time. There are therefore six channels in total.
- the left channel of the "near" microphone pair of the mezzoforte dynamic level is selected as the reference sample.
- the two remaining dependent samples of the piano and forte dynamic levels are now to be adapted to the phase curve of the mezzoforte level.
- the corresponding channel of the samples of the forte and piano dynamic levels is now compared with the reference sample.
- the left channel of the "near” microphone position is therefore correlated with the left channel "near” of the reference sample in order to generate the curve of a phase relationship value for each of the dependent samples.
- Each of the phase relationship values generated by the correlator for each of the dependent samples now controls the time parameter of a delay element, which changes the speed of the respective dependent sample, namely all six microphone channels. This is how the phase-coherent dependent samples are generated.
- Figure 1 shows schematically and non-limitingly the determination of a course of a phase relationship value (u).
- the Reference sampling (q) and the dependent sample (s) are first fed to a steep-edged bandpass filter to isolate the fundamental tone.
- the sinusoidal fundamental tone curves are processed by a comparator, resulting in a square wave, which is then differentiated. All of this does not happen once, but multiple times, in particular continuously and/or at least every 100 ms, in particular at least every 10 ms, over any length of time. This creates a sequence of Dirac pulses which are located exactly at the zero crossings of the samples and are signed positively or negatively depending on the direction of the zero crossing.
- the subsequent comparator with negative feedback serves to eliminate the negatively signed pulses, which correspond to falling edges.
- the integrator in the upper part acts as a ramp generator and is restarted by the pulses each time.
- the signal at its output therefore indicates the time elapsed since the last incoming edge.
- This is then applied to the input of a sample and hold element (s&h), which is controlled by the pulses from the lower part of the circuit.
- the output therefore always contains (over the duration of the process) the time difference, the phase relationship value (u), between the edges of the two input signals of the overall circuit.
- Figure 2 shows schematically and non-limitingly a structure that simultaneously adjusts all microphone signals (so to s N-1 ) of a single dynamic stage, the phase curve of which is to be adjusted to the reference signal (q).
- the signal is then low-pass filtered and clipped.
- the clipper which cuts off signal peaks beyond a specified frequency interval, serves the purpose of filtering out peak artifacts.
- the lower interval limit of the clipper is identical to the inverse buffer time (T buf ), the upper limit in this example is fixed at 10 ⁇ 8ms.
- phase relationship value also known as the control function (u) (over the duration of the procedure) results.
- the adjustable buffer time (T buf ) is a basic delay, in particular a constant one, in particular in the range of 5 to 50 ms, for all microphone signals (q and s up to s N-1 ), which is required to enable negative delay times and is added to the control function for the dependent microphone signals.
- phase-coherent signals ( q , s 0 to s N-1 ).
- Figure 3 shows schematically and non-restrictively an alternative latency-free implementation.
- the in the first implementation of the Figure 2 The buffer time required leads to a corresponding latency of the entire circuit.
- this can be circumvented by using playback modules (metonymically referred to here as "tape") with modulatable playback speed, such as those available in many sampler environments, instead of delay elements.
- tap playback modules
- modulatable playback speed such as those available in many sampler environments, instead of delay elements.
- the RMS norm is chosen, where RMS is normalized by the number of period runs for the purpose of dimensional invariance.
- the window size was an RMS (root mean square) window according to the Figures 4 to 11 on the horizontal axis in ms.
- the order of the rows corresponds to the order of the figures.
- the ratio between the measured phase coherence before and after processing by the procedure or the relative change in the phase coherence can be used as a measure of the quality of the phase alignment procedure.
- a multi-microphoned sound source was recorded at three different stereo microphone positions and at another single-channel reference microphone position. This resulted in three stereo and one mono tracks.
- the left channel of a stereo microphone pair (signal 1) was selected as the input audio signal to be processed and the signal from the reference microphone as the reference audio signal (signal 0) and the phase coherence in the sense of the discussed metric between the reference (signal 0) and input audio signal (signal 1) or processed input audio signal (signal 1') was determined.
- the input audio signal (signal 1) was processed using a constant time shift after the JP 2001100756 A carried out (signal 1").
- a cello (CE) and a violin (VL) were used as sound sources.
- Different dynamic levels (f and ff) at different pitches were tested.
- the sound engineer set the parameters "smoothing level" and "look-ahead” described above by ear with regard to a subjectively optimal ratio between audible phase coherence (i.e., absence of comb filter effects) on the one hand and freedom from artifacts on the other hand, without considering a metric.
- the Figures 4 to 11 show the progression of the RMS values (RMS values on the vertical axis) with a window of 500 period runs of the measurements on which the table above is based, in the order of the rows in the table.
- the time in ms is plotted on the horizontal axis. It can be seen here that an improvement can be achieved over large parts of the signal duration.
- Signal A is signal 1
- signal B is signal 1"
- signal C is signal 1'.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Electrophonic Musical Instruments (AREA)
- Stereophonic System (AREA)
Description
- Die vorliegende Erfindung betrifft phasenkohärente Samples, deren Nutzung in einem virtuellen Instrument, das virtuelle Instrument, und das Verfahren zur Erzeugung der Samples.
- Das Abspielen mehrerer Samples in einem virtuellen Instrument ist beispielsweise aus der
bekannt.US 9, 805, 702 B1 - Aus der
US 2012/0243711 A1 ist ein Mixer mit mehreren Eingängen bekannt, auf die unterschiedliche aber statische Verzögerungen angewandt werden, um Laufzeitunterschiede zwischen Tonerzeuger zu den unterschiedlichen Mikrophonen zu kompensieren. Die Verzögerungen werden dabei automatisch bestimmt. Dazu wird ein einzelner Testton erzeugt, anhand dessen die Laufzeitunterschiede einmalig bestimmt und festgelegt werden. - Zudem ist es aus der
US 2017/0372711 A1 ein (Re-)Syntheseverfahren, das also nicht mit Samples arbeitet. Dazu weist es einen Wellenformspeicher auf, in dem komprimiert Wellenformen gespeichert sind. Mehrere Tonerzeugungskanäle lesen jeweils eine Wellenform aus dem Speicher aus. Sofern ein von der gespeicherten Wellenform abweichender Pitch eingestellt ist, wird die Auslesegeschwindigkeit entsprechend angepasst bzw. werden durch lineare Interpolation entsprechende Zwischenwerte erzeugt. Dazu verwendet es für das Cross-fade zwischen mehreren Tonerzeugungskanäle einen Phasenzähler um die Dynamik des Cross-fades zu steuern. - Die
offenbart die einmalige Berechnung eines mittleren statischen Phasenversatzes über einen zeitlichen Teilabschnitt der Audiospuren auf Basis dessen ein einkanaliges Signal relativ zu einem einkanaligen Referenzsignal verschoben und dadurch das Referenzsignal zum einkanaligen Signal im Mittel phasenkohärenter ausgestaltet wird.JP 2001100756 A - Aus der
WO 2018/055892 A1 ist es zudem bekannt, ein Schlaginstrumentton zu synthetisieren. Dabei wird auf gespeicherte Wellenformen für unterschiedliche Schläge zurückgegriffen, die kombiniert werden. Dabei werden die Wellenformen jeweils in verschiedene Komponenten zerlegt gespeichert und zwar in einen Anteil, der Pitchhüllkurvendaten und Amplitudenhüllkurvendaten und Phasenstartwerte einer oder mehrerer Sinusanteile enthält und einen Restanteil. Die Daten der Sinusanteile der zu kombinierenden Töne werden bei einer Erstellung der für die Erzeugung zu verwendenden gewichtet gemischten Pitchhüllkurvendaten, Amplitudenhüllkurvendaten und Phasenstartwerte so verrechnet, dass eine negative Überlagerung ausgeschlossen ist. Sodann werden auf den gewichtet gemischten Pitchhüllkurvendaten, Amplitudenhüllkurvendaten und Phasenstartwerten basierend die Sinusanteile erzeugt und mit den gemischten Restanteilen vermischt. So kann eine auslöschende Überlagerung der Sinusanteile verhindert werden. Eine auslöschende Überlagerung nur der Restanteile wird vom Hörer weniger negative empfunden. - Aus der
DE 4008872 A1 ist ein Verfahren zur Speicherung und Synthese bekannt, bei dem Klänge aus einzelnen Klangmerkmalen zusammengesetzt werden, die in Form von Abtastwerten digital abgespeichert sind und die gesteuert ausgelesen werden, einer Abtastratenwandlung unterworfen werden, sodass alle Klangmerkmale mit einer einheitlichen Systemabtastrate zur Verfügung stehen, und dann zusammengesetzt werden. Dadurch lässt sich die Tonhöhe beim Abspielen variieren. Man nutzt dabei die Tatsache aus, dass bei den vielen Klangmustern, die in dem Speicher abgelegt sind, gewisse Gemeinsamkeiten vorherrschen, die beispielsweise das charakteristische Klangbild eines Instruments bestimmen, um Speicherplatz einzusparen. Das Mischen der Klangmerkmale erfolgt dann so, dass sie zum Beginn des Abspielens eine vordefinierte Phasenbeziehung aufweisen. Aus dem Stand der Technik ist ferner dieUS4779505A bekannt. - Bei virtuellen Musikinstrumenten auf Samplebasis besteht bei kontinuierlichen Übergängen zwischen Samples auf unterschiedlichen Dynamikstufen eines realen Instruments das Problem, dass es aufgrund von Phaseninkohärenz zwischen den Samples zu Kammfilterartefakten kommen oder psychoakustisch gar der Eindruck von zwei unisono spielenden Instrumenten entstehen kann. Derartige Pathologien wirken sich stets negativ auf den in der Regel angestrebten realistischen Klangeindruck aus. Zu Beseitigung der Artefakte ist eine dynamische Angleichung der Phasen der betroffenen Signale erforderlich, was technologisch jedoch eine erhebliche Herausforderung darstellt, wenn es sich um räumliche und/oder mehrkanalig aufgezeichnete Signale handelt.
- Auf dem Markt für virtuelle Musikinstrumente sind zudem Lösungen zur Vermeidung oben geschilderter Probleme bekannt, die lediglich für anechoisch ("trocken") und einkanalig aufgezeichnete Signale geeignet sind. Auch ist es bekannt, für räumliche und mehrkanalige Signalen die Phasenkohärenz auf Kosten des originären Signalverlaufs herzustellen, indem die Signale modelliert und vollständig resynthetisiert werden. Dabei gehen natürliche Phasenschwankungen sowie zeitdynamische Veränderungen des Obertonspektrums verloren, was sich erheblich zu Lasten eines natürlichen, organischen und realistischen Klangeindrucks auswirkt.
- Aufgabe ist es, diese Nachteile zu vermeiden und dennoch eine Lösung für kontinuierliche Übergänge zwischen Samples auf unterschiedlichen Dynamikstufen eines realen Instruments zu ermöglichen, ohne Kammfilterartefakten oder den psychoakustischen Eindruck von zwei unisono spielenden Instrumenten in Kauf zu nehmen und dabei natürliche Phasenschwankungen sowie zeitdynamische Veränderungen des Obertonspektrums zu erhalten.
- Das hier vorgestellte Verfahren bietet eine Lösung für die genannten Probleme ohne Rückgriff auf Resynthesetechniken: Indem lediglich die Abspielgeschwindigkeit der Originalsignale moduliert wird, bleiben natürliche Phasen- sowie Obertonspektrumsschwankungen erhalten. Das Vorgehen ist demnach minimalinvasiv. Mehrkanalige und räumliche Signale können problemlos in eine phasenkohärente Form gebracht werden, wobei zusätzlich relative Phasenbeziehungen, etwa zwischen verschiedenen simultanen Mikrofonpositionen bei multimikrofonierten Aufnahmen, erhalten bleiben. Darüber hinaus kann das Verfahren auch auf einer gebrauchsüblichen sequenziellen Rechnerarchitektur als Echtzeitprozessor mit moderatem Rechenaufwand implementiert werden, was beispielsweise einen Einsatz als Plugin in einer digitalen Audioverarbeitungssoftware oder als Bordeffekt in einer Sampler-Engine ermöglicht.
- Gelöst wird die Aufgabe insbesondere durch ein Verfahren zur Erstellung einer Gruppe phasenkohärenter Audioquellen, insbesondere Audiosignale oder Samples, umfassend:
- Bereitstellen mindestens jeweils einer Eingangsaudioquelle zweier Tonerereignisse, der gleichen Tonhöhe eines realen Musikinstruments,
- Auswählen eines Audiosignals, insbesondere eine der Eingangsaudioquellen, als Referenzsample,
- Vergleich des Phasenverlaufs des Referenzsamples mit dem Phasenverlauf mindestens einer (weiteren) der Eingangsaudioquellen über insbesondere mindestens 500ms Audioquellendauer des Referenzsamples zur Erzeugung eines Verlaufes eines über die Zeit variierenden Phasenbeziehungswertes,
- Verändern der Geschwindigkeit und/oder Zeitbasis der mindestens einen (weiteren) Eingangsaudioquelle über eine Dauer der weiteren Eingangsaudioquelle von insbesondere mindestens 500ms auf Basis des Verlaufs des Phasenbeziehungswertes, wobei die Geschwindigkeit und/oder Zeitbasis über die Dauer von insbesondere mindestens 500ms variierend abhängig vom Verlauf des Phasenbeziehungswertes verändert wird.
- Dabei weist der Verlaufs des Phasenbeziehungswertes insbesondere mindestens eine Änderung pro 100ms, insbesondere pro 10ms, auf und/oder wird die Änderung der Geschwindigkeit und/oder Zeitbasis pro 100 ms, insbesondere pro 10ms, mindestens einmal geändert.
- Unter Zeitbasis ist insbesondere die zeitliche Zuordnung der einzelnen Samplewerte des Samples und/oder Audioquelle zu verstehen.
- Unter einer Eingangsaudioquelle wird insbesondere eine Audioquelle verstanden, die durch das Verfahren bearbeitet wird und/oder als Referenz für die Bearbeitung mindestens einer anderen Audioquellen durch das Verfahren verwendet wird.
- Gelöst wird die Aufgabe auch durch ein Verfahren zum zeitgleichen Abspielen mindestens jeweils eines Samples zweier Tonerereignisse von mindestens 500ms Länge der gleichen Tonhöhe eines realen Instruments, wobei die Samples jeweils insbesondere über mindestens 500ms und zumindest teilweise zeitgleich phasenkohärent abgespielt werden.
- Ebenfalls gelöst wird die Aufgabe durch ein virtuelles Instrument, insbesondere in VST-, AU- oder AAX-Plugin aufweisend mindestens eine Gruppe phasenkohärenter Samples und/oder eingerichtet zur Erzeugung solcher, wobei die Gruppe mindestens zwei Samples jeweils eines Tonerereignisse von insbesondere mindestens 500ms Länge der gleichen Tonhöhe eines realen Musikinstruments umfassend.
- Dabei ist das virtuelle Instrument eingerichtet, mindestens zwei der phasenkohärenter Samples gleicher Tonhöhe zumindest teilweise gleichzeitig und phasenkohärent abzuspielen, wobei die Samples eine Länge insbesondere von mindestes 500ms aufweisen, in denen sie sich nicht wiederholen.
- Dabei weist bevorzugt mindestens ein Sample der Gruppe eine über dessen Zeitverlauf variierende Geschwindigkeitsänderung auf und/oder ist mindestens ein Sample der Gruppe ein bearbeitetes Sampling, das ein RMS über seine zeitliche Länge, insbesondere ohne Ein- und Ausschwingzeiten, über die auf die mittlere Periode im Intervall normalisierten Abweichungen von der mittleren Periode des Intervalls und/oder von der Periode eines Referenzsamples aus der Gruppe von Samples von weniger als 75% des ebenso über den gleichen Zeitraum bestimmten RMS des unbearbeiteten Samples, aus dem das bearbeite Sampling hervorgegangen ist und/oder des mittels eines statischen Zeitversatzes korrigierten Samples, aus dem das bearbeite Sampling hervorgegangen ist, aufweist.
- Dies trifft insbesondere für eine Mehrzahl der Samplings der Gruppe und/oder alle Samplings der Gruppe und/oder alle Samplings der Gruppe abgesehen vom Referenzsampling zu.
- Die variierende Geschwindigkeitsänderung weist insbesondere mindestens eine Änderung pro 100ms, insbesondere pro 10 ms, auf.
- Das virtuelle Instrument ist dabei insbesondere in Form einer Software und/oder Computerprogramm auf einem Datenträger gespeichert und/oder in Form eines Computers, der als virtuelles Instrument eingerichtet ist und/oder ein solches als Computerprogramm aufweist, ausgebildet.
- Ebenfalls gelöst wird die Aufgabe durch ein System, insbesondere ein Hard- und Softwaresystem, aufweisend mindestens eine CPU und einen Speicher, eingerichtet zur Ausführung eines erfindungsgemäßen Verfahrens.
- Gelöst wird die Aufgabe auch durch einen Signalprozessor mit mindestens zwei Eingängen für Audiosignale und mindestens zwei Ausgänge für Audiosignale und eingerichtet, die an den Audioeingängen anliegenden zu samplen und mit den erzeugten Samples das erfindungsgemäße Verfahren durchzuführen und die phasenkohärenten Samples an den Ausgängen auszugeben.
- Gelöst wird die Aufgabe auch durch eine Gruppe von phasenkohärenter Samples unterschiedlicher Dynamiken einer Tonhöhe eines realen Musikinstruments, wobei die Samples eine Länge von insbesondere mindestes 500ms aufweisen, in denen sie phasenkohärent sind und sich nicht wiederholen.
- Dabei weist bevorzugt mindestens ein Sample der Gruppe eine über dessen Zeitverlauf variierende Geschwindigkeitsänderung auf und/oder ist mindestens ein Sample der Gruppe ein bearbeitetes Sampling, das ein über seine zeitliche Länge, insbesondere ohne Ein- und Ausschwingzeiten, bestimmtes RMS über die auf die mittlere Periode im Intervall normalisierten Abweichungen von der mittleren Periode des Intervalls und/oder von der Periode eines Referenzsamples aus der Gruppe von Samples von weniger als 75% des ebenso über den gleichen Zeitraum bestimmten RMS des unbearbeiteten Samples, aus dem das bearbeite Sampling hervorgegangen ist und/oder des mittels eines statischen Zeitversatzes korrigierten Samples, aus dem das bearbeite Sampling hervorgegangen ist, aufweist.
- Dies trifft insbesondere für eine Mehrzahl der Samplings der Gruppe und/oder all Samplings der Gruppe und/oder alle Samplings der Gruppe abgesehen vom Referenzsampling zu.
- Die variierende Geschwindigkeitsänderung weist insbesondere mindestens eine Änderung pro 100ms, insbesondere pro 10ms, auf.
- Gelöst wird die Aufgabe auch durch eine Gruppe von Samples umfassend Samples unterschiedlicher Dynamiken einer Tonhöhe eines realen Musikinstruments, wobei die Samples jeweils eine Länge von mindestes 500ms aufweisen, und wobei die Gruppe Informationen zum Phasenverlauf mindestens eines, insbesondere aller Samples, über die Länge von mindestes 500ms der Samples aufweist, insbesondere als Spur, insbesondere Midi-Spur, insbesondere jeweils einer zusätzlichen Spur die Information zum Phasenverlauf beinhaltend, insbesondere einer je Sample. Eine solche Gruppe kann verwendet werden, um auf einfache Weise ein phasenkohärentes Abspielen zu erreichen, indem beim Abspiel mindestens zweier der Samples, zumindest teilweise zeitgleich, die Unterschiede des Phasenverlaufs der Samples während der zeitgleichen Wiedergabe, durch Modulation der Abspielgeschwindigkeit(en) der/des Samples verringert werden. Dabei kann der Verlauf des Phasenunterschiedes auf einfache Weise aus der Information zum Phasenverlauf gewonnen werden. Dies bietet unter anderem den Vorteil, dass der zeitliche Versatz relativ frei wählbar ist und/oder Glättungs- und/oder Vorausschauparameter durch den Benutzer einstellbar ausgestaltet sein können.
- Auch die Verwendung einer Gruppe phasenkohärenter Audioquellen, insbesondere Audiosignalen oder Samples, mindestens zweier unterschiedlicher Dynamiken einer Tonhöhe eines realen Musikinstruments löst die Aufgabe, wobei die Audioquellen eine Länge von mindestes 500ms aufweisen, in denen sie phasenkohärent sind und sich nicht wiederholen, zur phasenkohärenten und zumindest teilweise gleichzeitigen Wiedergabe der Audioquellen einer Tonhöhe mit mindestens zwei unterschiedlichen Dynamiken. Auch die Verwendung einer Gruppe von Audioquellen, insbesondere Audiosignalen oder Samples, mindestens zweier unterschiedlicher Dynamiken einer Tonhöhe eines realen Musikinstruments löst die Aufgabe, wobei die Audioquellen eine Länge von mindestes 500ms aufweisen, in denen sie Informationen zum Phasenverlauf aufweisen, zur phasenkohärenten und zumindest teilweise gleichzeitigen Wiedergabe der Audioquellen einer Tonhöhe mit mindestens zwei unterschiedlichen Dynamiken. Dies erfolgt insbesondere durch Ermitteln eines Verlauf eines Phasenbeziehungswerts, insbesondere Ermitteln eines Verlaufs der Phasenabweichung, über die Dauer der Audioquelle für jedes der abhängigen Audioquellen und Verwenden des jeweils ermittelten Verlaufs zur Anpassung der Geschwindigkeit und/oder Zeitbasis der jeweiligen abhängigen Audioquelle. Der Phasenbeziehungswert verändert sich insbesondere über die Dauer des Samples.
- Das besondere des erfindungsgemäßen Verfahrens liegt insbesondere darin, eine dynamische Anpassung zu realisieren, durch die auch bei sich im Zeitverlauf ändernden Phasenbeziehungen zwischen den Eingangssignalen eine dauernde Phasenkohärenz erreichbar ist und bei der es zudem möglich ist zahlreiche Aufnahmen des gleichen Tonereignisses phasenkohärent zu gestalten.
- Der Vergleich des Phasenverlaufs kann allgemein beispielsweise mittels eines Kreuzkorrelators erfolgen. Bevorzugt wird es aber, Flanken der Audiosignale zu bestimmen und basierend auf der zeitlichen Lage der Flanken in den Samples einen Vergleich des Phasenverlaufs durchzuführen. Dazu können beispielsweise dir Durchgänge des Signals, insbesondere der Grundfrequenz, durch einen vorgegebenen Pegel, insbesondere die Nulldurchgänge bestimmt werden und die Lage der Nulldurchgänge als Information über die zeitliche Lage der Flanken verwendet werden. Insbesondere erfolgt die Anpassung so, dass der Versatz der Flanken, insbesondere Nulldurchgänge, reduziert wird.
- Aus der Lage der Flanken zweier Eingangsaudioquelle, insbesondere des Referenzsamples und einer abhängigen/weiteren Audioquelle wird insbesondere der Verlauf eines Phasenvergleichswerts ermittelt, der insbesondere die Abweichung der Lage der Flanken angibt.
- Der Verlauf eines Phasenvergleichswerts wird insbesondere geglättet. Dies erfolgt insbesondere durch einen Tiefpassfilter, dessen Eckfrequenz insbesondere so eingestellt wird, dass bei Anwendung zur Modulation der Samples und zeitgleichen Abspielen der Samples keine Artefakte, insbesondere keine Glitches, entstehen. Um die durch den Tiefpassfilter entstehende Zeitverzögerung zumindest teilweise auszugleichen, kann bei der Bestimmung des Verlaufs des Phasenvergleichswertes eine Vorausschau (look ahead) verwendet werden, der insbesondere nach Einstellung des Tiefpassfilters eingestellt wird und/oder so eingestellt wird, insbesondere so lange erhöht wird, dass/bis keine Kammfilterartefakte auftreten. Die Vorausschau liegt bevorzugt im Bereich von 1 bis 50 ms, insbesondere über 5 ms und/oder unter 20 ms. Dadurch entsteht insbesondere der Verlauf eines Phasenbeziehungswerts, auch Steuerfunktion, der bevorzugt zur Modulation der Abspielgeschwindigkeit und/oder zum Verändern der Geschwindigkeit und/oder Zeitbasis verwendet wird. Somit wird es bevorzugt, zur Modulation der Abspielgeschwindigkeit und/oder zum Verändern der Geschwindigkeit und/oder Zeitbasis einen Mittelwert zu verwenden, der den Phasenverlauf des Referenzsamples und des abhängigen Samples, das verändert wird, vor, an und nach dem Zeitpunkt, an dem jeweils verändert wird, berücksichtigt.
- Der Glättungsgrad wird insbesondere mittels eines Reglers über die Eckfrequenz eines auf das Steuerungssignal angewandten Tiefpassfilters eingestellt. Eine hohe Eckfrequenz hat einen niedrigen Glättungsgrad zu Folge und vice versa. Allgemein gilt hier, dass mit einem zunehmenden Glättungsgrad messfehler- oder signalqualitätsbedingte Artefakte ("glitches") vermieden werden, jedoch auch durch die entsprechend erhöhte Reaktionszeit der Wirkungsgrad des Verfahrens gemindert wird und demzufolge phasenverschiebungsbedingte Kammfiltereffekte hörbar werden können. Durch auf geeignete Einstellung des Vorausschau-Parameters ("look ahead") kann auch bei hohen Glättungsgraden eine wirksame Reaktion des Schaltkreises auf sprunghafte Änderungen des Phasendifferenzverlaufs erzielt werden. Allerdings sollte hierbei beachtet werden, dass bei hohen Vorausschauzeiten und geringer Glättung der Schaltkreis verfrüht reagiert und somit unter Umständen selbst Kammfiltereffekte erzeugen kann. Der Parameter wird insbesondere auf einen reellen Wert zwischen null und eins eingestellt, wobei bei letzterer Einstellung die gesamte Pufferzeit (üblicher Weise bei ca. 60ms) zur Vorausschau genutzt wird (d.h., dass Steuerungssignal wird um die Pufferzeit verfrüht angewandt bzw. die zu steuernden Signale um die Pufferzeit verzögert), bei ersterem (Wert von 0) hingegen überhaupt keine Vorausschau stattfindet. Die beiden Parameter werden bevorzugt durch den Benutzer signalspezifisch nach Gehör so eingestellt, dass sich in Hinblick auf das gewünschte Ergebnis ein geeigneter Kompromiss zwischen geringer Reaktionszeit und Artefaktfreiheit ergibt. Mit einer solchen Vorgehensweise ist ein Toningenieur gemeinhin vertraut, da eine Vielzahl branchenüblicher Effektgeräte auf eine ähnliche Weise bedient wird. Etwa werden bei einem Dynamikkompressor Reaktionszeit ("attack" und "release") sowie Vorausschauzeit nach Gehör auf eine solche Weise einstellt, dass sich ein zufriedenstellender Kompromiss zwischen Dynamikreduktion und Artefaktfreiheit ergibt.
- Bevorzugt berücksichtigt der Wert des Verlaufs des Phasenbeziehungswertes an einem Zeitpunkt des Referenzsamples zumindest teilweise den Phasenverlauf des Referenzsamples und/oder den Phasenverlauf der einer weiteren der Audioquellen, vor, an und/oder nach dem Zeitpunkt des Referenzsamples. Dabei wird die Zeit im Referenzsample und in der weiteren Audioquelle insbesondere identisch, insbesondere jeweils von deren Beginn und/oder vorbestimmten Zeiten gezählt. Eine solche Berücksichtigung erfolgt insbesondere durch eine Vorausschau und/oder einen Tiefpass und/oder eine Mittelwertbildung. Insbesondere erfolgt die Berücksichtigung über den gesamten Verlauf, mit Ausnahme des Begins und Endes, insbesondere über jeweils 1 bis 100 ms zu Beginn und zum Ende der weiteren Audioquelle und/oder des Referenzsamples.
- Eine Audioquelle kann dabei mehrere Spuren enthalten, beispielsweise einen oder mehrere Stereokanäle. Jede Audioquelle ist insbesondere die Aufnahme eines realen Tonereignisses, beispielsweise mittels eines Mikrofons oder einer Mehrzahl von Mikrofonen, insbesondere an einer gemeinsamen Position. Statische Phasenverschiebungen auf Grund unterschiedlicher Laufzeiten zu unterschiedliche Mikrofonposition, insbesondere unterschiedlicher Audioquellen, eines gemeinsamen Tonereignisses stellen keinen Nachteil dar. Sie werden durch das Verfahren insbesondere erhalten und nicht beseitigt.
- Eine Audioquelle ist dabei insbesondere die Aufnahme eines Tonereignisses, insbesondere an einer Position, erzeugt durch das Anschlagen oder Anstreichen einer Saite oder das Spielen eines Tons auf einem Blasinstrument.
- Die so veränderten abhängigen Audioquellen bilden alleine und/oder zusammen mit dem Referenzsample eine Gruppe kohärenter Audioquellen. Als Referenzsample kann eine der Audioquellen genutzt oder ein Audiosignal, insbesondere mit konstanter Frequenz und insbesondere ohne Phasensprung, insbesondere ein Sinussignal, genutzt werden. Letzteres ermöglicht das zeitversetzte phasenkohärente Abspielen ohne eine an den Zeitversatz angepasste Phasenkorrektur vorzunehmen, beseitigt aber die eigentlich gewünschten zeitlichen Schwankungen der der Frequenz der Samples oder der phasenkohärent wiedergegebenen Audioquellen.
- Zur Erzeugung kohärenter Audioquellen wird insbesondere eine Gruppe oder Mehrzahl von Audioquellen vorgehalten, die nach dem erfindungsgemäßen Verfahren in kohärente umgewandelt werden können. Diese liegen insbesondere auf einem Datenträger gespeichert vor und/oder sind insbesondere Teil des Systems und/oder virtuellen Instrument.
- Vorteilhafterweise wird ein erster Zeitabschnitt, insbesondere die Dauer des Einschwingvorgangs, mit einer Länge insbesondere im Bereich von 0 bis 500 ms, insbesondere im Bereich von 100 bis 400 ms, der abhängigen Audioquellen in der Geschwindigkeit und/oder Zeitbasis nicht verändert und ein zweiter Zeitabschnitt, insbesondere mit einer Länge von mehr als 500 ms und/oder unmittelbar folgend auf den ersten Zeitabschnitt, der oder jeder der abhängigen Audioquellen in der Geschwindigkeit und/oder Zeitbasis verändert.
- Der erste und/oder zweite Zeitabschnitt ist dabei insbesondere eine Aufnahme eines realen Tonereignisses, die nicht wiederholt wird/ist und/oder sich nicht wiederholt.
- Die Gruppe von kohärenten Audioquellen ist insbesondere so ausgebildet, dass sie bei zeitgleichem Start kohärent sind, insbesondere zumindest über eine Dauer von mindestens 500ms, in der insbesondere keine Wiederholung vorliegt und/oder zumindest nach einem/dem ersten Zeitabschnitt.
- Die Gruppe von kohärenten Audioquellen ist insbesondere so ausgebildet, dass sie eine Information aufweist oder von einer solchen begleitet ist, die angibt, in welcher zeitlichen Abfolge die teilweise zeitgleiche Wiedergabe zu starten ist, damit die Wiedergabe im Bereich der zeitgleichen Wiedergabe kohärent ist.
- Anstelle und/oder zusätzlich zum Vorhalten einer Gruppe kohärenter Audioquellen kann die Gruppe kohärenter Audioquellen auch abhängig von Einstellungen und/oder dem zeitlichen Versatz der zumindest teilweise zeitgleichen Wiedergabe abhängig von diesen/m bei Bedarf, insbesondere vor (insbesondere unmittelbar vor und/oder maximal eine Stunde) und/oder während der Wiedergabe, erzeugt werden. Dies ermöglicht mehr Freiheiten in Bezug auf den zeitlichen Versatz der Wiedergabe bzw. deren Start.
- Das Verfahren zum Abspielen, die Verwendung, das System oder das virtuelle Instrument sind insbesondere so ausgebildet, dass sie Lautstärke der zumindest teilweise zeitgleich wiedergegebenen Samples relativ zueinander veränderbar ist, insbesondere über die Dauer der Wiedergabe variierend. Dazu sind insbesondere entsprechende Einstellmöglichkeiten vorgesehen.
- Der zeitliche Phasendifferenzverlauf zum entsprechenden Mikrofonsignal einer anzugleichenden Dynamikstufe wird bevorzugt durch einen Phasenkorrelator (nicht notwendigerweise ein Kreuzkorrelator) ermittelt.
- Nachdem ein Verlauf eines Phasenvergleichswerts erzeugt wurde, wird dieser bevorzugt durch geeignete Entklappung, Clipper, Filter und/oder Dynamikprozessoren verarbeitet und/oder geglättet, beispielsweise mittels Tiefpasses mit Eck- oder Grenzfrequenz im Bereich von 50 bis 200 HZ, insbesondere von bis 60 bis 150Hz.
- Ein Entklappungsverfahren erkennt die Sprungstellen und rekonstruiert auf dieser Grundlage den stetigen Phasendifferenzverlauf. Dies kann beispielsweise erfolgen, wie in "One-Dimensional Phase Unwrapping Problem" Dr. Munther Gdeisat and Dr. Francis Lilley z.B. unter https://www.ljmu.ac.uk/-/media/files/ljmu/about-us/faculties-and-schools/fet/geri/onedimensionalphaseunwrapping_finalpdf.pdf beschrieben. Es kann aber alternativ oder zusätzlich die Abfolge der erkannten Nulldurchgänge verwendet werden, da in bei fehlerfreier Bestimmung der Flanken ein Umklappen der Phasendifferenzfunktion unmittelbar aus dem Vorliegen von zwei aufeinander folgenden Impulsen aus einem der Signale ohne einen zwischenzeitlichen Impuls des anderen Signals ersichtlich wird. Um nun wiederum durch Flankenmessfehler bedingte Artefakte und Sprünge zu vermeiden, kann ein bekanntes Entklappungsverfahren mit dieser Methode kombiniert werden. Der Entklappungsvorgang wird dadurch präziser und weniger anfällig für Störungen, was wiederum in vielen Fällen eine weniger invasive Glättung und somit eine etwas kürzere Reaktionszeit ermöglichen kann.
- Ein Clipper kann dazu dienen, Signalspitzen jenseits eines vorgegebenen Frequenz-Intervalls abzuschneiden. Die untere Intervallgrenze des Clippers ist bevorzugt identisch mit dem Inversen der Pufferzeit, mit der das Abspielen der Samples Grundverzögert wird, die obere bevorzugt fest eingestellt, beispielsweise auf einen Wert im Bereich von 10^(-7) bis 10^(-9) Hz eingestellt.
- Dadurch wird bevorzugt der Verlauf eines Phasenbeziehungswerts, auch Steuerfunktion, erzeugt.
- Der Verlauf eines Phasenbeziehungswerts wird insbesondere als Zeitparameter in Verzögerungsglieder eingespeist, an deren Eingangsbusse jeweils ein abhängiges Samples angelegt wird. An den Ausgängen der Verzögerungsglieder können nun die zum Quellsignal phasenkohärenten, modulierten Audioquellen abgegriffen werden.
- Bei mehrkanaligen und/oder mehrspurigen Samples kann der Verlauf eines Phasenbeziehungswerts beispielsweise nur für einen Kanal/eine Spur, für mehrere Kanäle/Spuren getrennt oder mittels einer mehrere Kanäle/Spuren berücksichtigender Metrik ermittelt werden. Die Metrik kann beispielsweise ein Mittelwert sein.
- Das Verändern der Zeitbasis, kann beispielsweise für jeden Kanal/jede Spur eines abhängigen Samples getrennt und/oder unterschiedlich und/oder für alle Kanäle/alle Spuren eines abhängigen Samples gemeinsam und/oder gleich erfolgen.
- Mit Vorteil weisen alle Audioquellen und/oder alle abhängigen Audioquellen die gleiche Spur- und/oder Kanalanzahl auf. Das Verfahren lässt sich aber auch anwenden, wenn die Spur- und/oder Kanalanzahl unterschiedlich ist.
- Mit Vorteil weisen alle Audioquellen und/oder alle abhängigen Audioquellen die gleiche Samplingrate auf. Bei den Audioquellen handelt es sich insbesondere um analog oder digitale Aufnahmen analoger akustischer Ereignisse.
- Mit Vorteil weisen alle Audioquellen und/oder alle abhängige Audioquellen die gleiche Dauer auf. Insbesondere weist das Referenzsample mindestens die Dauer der zweitlängsten, insbesondere der längsten, abhängigen Audioquellen auf.
- Bei stark räumlichen Signalen kann es dazu kommen, dass beispielsweise aufgrund von diffusschallbedingten Verzerrungen die Phasenbeziehungen zwischen den Signalen nicht korrekt durch den Korrelator erkannt werden. So kann es bevorzugt sein, dass Referenzsamples durch ein näher als alle/die Mikrofone der abhängigen Audioquellen, insbesondere sehr nahe an der Schallquelle, insbesondere maximal 1 Meter von der Schallquelle entfernt, positioniertes Mikrofon aufzunehmen. Dieses Referenzsamples ist dann bevorzugt nicht Teil der Gruppe kohärenter Audioquellen.
- Bevorzugt sind die Audioquellen Aufnahmen eines zu dem/den verwendeten Mikrofon(en) ortsfesten Tonereignis. Das bedeutet, das bevorzugt Musikinstrument und Mikrofone zur Erstellung der Audioquellen ortsfest sind.
- Vorteilhaft ist es zum einen, ein echtzeitmäßig reagierendes Phasenbeziehungsbestimmungsmodul zur Ermittlung des Verlaufs der Phasenabweichung zu verwenden, damit die für monophone Musikinstrumentensamples charakteristischen kurzeitig auftretenden Phasenschwankungen und -abweichungen rasch ausgeglichen werden können.
- Die Bestimmungsdauer für das zeitliche Intervall zwischen zwei Flanken ist bevorzugt im Wesentlichen durch dieses gegeben ist, da bei Ankunft einer Flanke ja sozusagen auf die korrespondierende Flanke des zweiten Signals gewartet werden muss. Die Gesamtreaktionszeit ist also in sehr guter Näherung gegeben durch die absolute zeitliche Phasendifferenz der gegebenen Signale plus einen Wert, der auf der Glättung, insbesondere deren Eck- oder Grenzfrequenz basierend, der bevorzugt im Bereich von 1 bis 20 ms liegt. Somit liegt die Reaktionszeit bevorzugt unter 100ms, insbesondere unter 50ms.
- Zum anderen ist zur Vermeidung von messungs- oder signalbedingten Artefakten (etwa bewirkt durch ausfallende Fundamentaltöne (häufig in den tiefen Lagen tieftöniger (Tenor- und Bass-)Instrumente, wie etwa einem Cello oder Kontrabass) eine geeignete Glättung und/oder Siebung des Verlaufs der Phasenabweichung vor Nutzung zur Veränderung der abhängigen Samples vorteilhaft, beispielsweise mittels Tiefpass mit Eck- oder Grenzfrequenz im Bereich von 50 bis 200 HZ, insbesondere von bis 60 bis 150Hz.
- Alternativ oder zusätzlich kann zur Vermeidung von messungs- oder signalbedingten Artefakten, insbesondere bei (kurzzeitig) ausfallendem/n Fundamentaltöne(n), vorrübergehend oder dauerhaft anstelle des Grundtons die erste Harmonische des Grundtons als Referenz verwendet wird. Nun kann dies jedoch aufgrund von Phasenauslöschungen, die wiederum durch dem Umstand bedingt sind, dass die erste Harmonische prinzipiell keinerlei Informationen bezüglich der Richtung der korrespondierenden Flanken in der Fundamentalen enthält, zu neuerlichen Artefakten, insbesondere nunmehr künstlich hervorgerufenen Fundamentaltonausfällen bei synchronem Abspielen der resultierenden phasen-angeglichenen Samples kommen. Dies kann jedoch wiederum auf einfache Weise durch eine statische Polaritätsumkehr des prozessierten Referenzsignals behoben werden. Bei der Polaritätsumkehr (oftmals sachlich nicht gänzlich korrekt als "Phasendrehung" bezeichnet) handelt es sich ebenfalls um einen standardmäßigen Vorgang, welcher in marküblichen Mischpulten und digitalen Audioverarbeitungsumgebungen implementiert ist. Alternativ kann auch das prozessierte Referenzsignal um eine halbe Periode verschoben werden.
- Die Ermittlung des Verlaufs eines Phasenbeziehungswerts kann auf verschiedene Arten, beispielsweise analog, digital, in Echtzeit oder zeitlich nachgelagert, erfolgen. Bevorzugt wird zur Ermittlung des Verlaufs eines Phasenbeziehungswerts zunächst mit einem steilflankigen Bandpassfilter der Grundton des Referenzsamples und/oder der Audioquellen isoliert.
- Um den Phasenversatz zwischen Referenzsample und abhängigen Audioquellen zu ermitteln, werden bevorzugt die sinusförmigen Grundtonverläufe durch einen Komparator prozessiert, woraus eine Rechtecksignal resultiert, welche sodann differenziert werden kann. Hierbei entsteht jeweils eine Folge von Diracimpulsen, welche sich gerade an den Nulldurchgängen der Samples befinden und je nach Richtung des Nulldurchgangs positiv bzw. negativ signiert sind. Es können aber auch sowohl positiv, als auch negativ signierte Flanken zur Ermittlung des Pha-Phasenversatz berücksichtigt werden. Dies führt zu einer Verdoppelung der Auflösung der Phasendifferenzermittlung und kann somit zu kürzeren Reaktionszeiten, beispielsweise innerhalb einer halben Periode des Signals, führen.
- Bevorzugt wird der zeitliche Abstand zwischen Nulldurchgänge des Referenzsamples und je eine abhängige Audioquelle bestimmt und/oder verwendet. Die daraus bevorzugt erzeugte Treppenfunktion zeigt nach Entklappung ("unwrapping") den Phasendifferenzverlauf zwischen den beiden Samples an.
- Zwecks Kompensation von Messfehlern und Signalaussetzern, sowie zur Vermeidung von Artefakten, die durch zu große Sprünge bedingt sind, wird der Verlauf eines Phasenvergleichswerts vorteilhafterweise gesiebt und/oder geglättet. Das Ergebnis wird schließlich bevorzugt als Verlauf eines Phasenbeziehungswerts verwendet.
- Bevorzugt wird der Verlauf eines Phasenbeziehungswerts als Steuerfunktion an den Zeitparameter eines Verzögerungsglieds geleitet.
- Da es sich bei der Veränderung um eine nichtlineare Verarbeitung handelt, erfolgt diese zwecks Vermeidung von Aliasing-Artefakten bevorzugt unter mindestens vierfacher, insbesondere mindestens achtfacher Überabtastung der Samplingrate des Referenzsamples. Dazu wird das Referenzsample insbesondere mit künstlich erzeugten weiteren Werten, insbesondere Amplituden- und Phasenwerten, versehen. Zum Einsatz kommt dieses Verfahren insbesondere und häufig bei marktüblichen digitalen Emulationen von analogen Signalformern (etwa Distortion- oder Overdrive-Effekten) oder Dynamikprozessoren (etwa Kompressoren). Mit Vorteil wird nach der erfindungsgemäßen Anpassung jede der angepassten Audioquellen, insbesondere mittels Bandpassfilter, wieder auf die ursprüngliche Samplingrate oder Nyquistfrequenz bandbegrenzt und/oder mit der Samplingrate des verwendeten digitalen Mediums abgetastet.
- Zur Veranschaulichung einer erfindungsgemäßen Lösung sei folgendes Beispiel aufgeführt: Das eingestrichene c einer Flöte sei nacheinander in den Dynamikstufen piano, mezzoforte und forte mit jeweils gleichzeitig drei Stereomikrofonpaaren in den drei Positionen nah, mittel und fern aufgenommen worden. Es liegen also insgesamt sechs Kanäle vor. Als Referenzsample wird der linke Kanal des Mikrofonpaars "nah" der Dynamikstufe mezzoforte ausgewählt. Die beiden übrigen abhängigen Samples der Dynamikstufen piano und forte sollen nun an den Phasenverlauf der Mezzoforte-Stufe angepasst werden. Der jeweils entsprechende Kanal der Samples der Dynamikstufen forte bzw. piano wird nun mit dem Referenzsample verglichen. Es wird also der linke Kanal der Mikrofonposition "nah", mit dem linken Kanal "nah" des Referenzsamples korreliert, um jeweils den Verlaufs eines Phasenbeziehungswerts für jedes der abhängigen Samples zu erzeugen. Jeder der durch den Korrelator für jedes der abhängigen Sample erzeugte Verlauf eines Phasenbeziehungswerts steuert nun den Zeitparameter eines Verzögerungsgliedes, durch die das jeweilige abhängige Sample und zwar jeweils alle sechs Mikrofonkanäle in der Geschwindigkeit verändert werden. So werden die phasenkohärenten abhängigen Sample erzeugt.
-
Figur 1 zeigt schematisch und nicht beschränkend die Ermittlung eines Verlaufs eines Phasenbeziehungswerts (u). In der Figur links werden das Referenzsampling (q) und das abhängige Sample (s) zunächst einem steilflankigen Bandpassfilter zur Isolation des Grundtons zugeführt. Um den Phasenversatz zwischen Referenzsample und abhängigen Sample zu ermitteln, werden die sinusförmigen Grundtonverläufe durch einen Komparator prozessiert, woraus eine Rechteckwelle resultiert, welche sodann differenziert wird. All dies geschieht nicht einmalig, sondern mehrfach, insbesondere kontinuierlich und/oder mindestens all 100ms, insbesondere mindestens alle 10 ms, über eine beliebig lange Zeitdauer. Hierbei entsteht jeweils eine Folge von Diracimpulsen, welche sich gerade an den Nulldurchgängen der Samples befinden und je nach Richtung des Nulldurchgangs positiv bzw. negativ signiert sind. Der anschließende Komparator mit Gegenkopplung dient der Eliminierung der negativ signierten Impulse, welche fallenden Flanken entsprechen. Der Integrator im oberen Teil fungiert als Rampengenerator und wird durch die Impulse jeweils neu gestartet. Das an dessen Ausgang anliegende Signal gibt also die seit der letzten eingegangenen Flanke vergangene Zeit an. Dieses wird schließlich an den Eingang eines Abtast- und Haltegliedes (s&h) gelegt, welches durch die Impulse aus dem unteren Schaltungsteil gesteuert wird. Am Ausgang liegt demnach schließlich stets (über die Dauer der Verfahrensführung) die zeitliche Differenz, den Phasenbeziehungswert (u), zwischen den Flanken der beiden Eingangssignale der Gesamtschaltung an. -
Figur 2 zeigt schematisch und nicht beschränkend einen Aufbau, der simultan alle Mikrofonsignale (so bis sN-1) einer einzigen Dynamikstufe, deren Phasenverlauf an das Referenzsignal (q) anzugleichen ist, angleicht. Der Verlauf des Phasenbeziehungswertes (u), dessen Ermittlung wie inFigur 1 dargestellt geschieht, wobei eins der Mikrofonsignale (so bis sN-1) als Signal (s) verwendet wird, wird zunächst entklappt. - Anschließend wird das Signal tiefpassgefiltert und geclippt. Der Clipper, welcher Signalspitzen jenseits eines vorgegebenen Frequenzintervalls abschneidet, dient dem Zweck der Heraussiebung von Spitzenartefakten. Die untere Intervallgrenze des Clippers ist identisch mit der Inversen Pufferzeit (Tbuf), die obere in diesem Beispiel fest auf 10^8ms eingestellt.
- Nach dieser kontinuierlichen Verarbeitung ergibt sich der Verlauf eines Phasenbeziehungswerts, auch Steuerfunktion (u) (über die Dauer der Verfahrensführung).
- Die einstellbare Pufferzeit (Tbuf) ist eine, insbesondere konstante, Grundverzögerung, insbesondere im Bereich von 5 bis 50 ms, für alle Mikrofonsignale (q und so bis sN-1), die zur Ermöglichung negativer Verzögerungszeiten benötigt wird und für die abhängigen Mikrofonsignale mit der Steuerfunktion addiert wird.
- Die Summe aus Pufferzeit (Tbuf) und Verlauf des Phasenbeziehungswertes (u) wird sodann einer Vielzahl Verzögerungsglieder (dly) zugeführt, denen auch jeweils ein abhängiges Mikrofonsignale (so bis sN-1) zugeführt wird. Die Verzögerungsglieder verzögern die Ausgangssignale stets gegenüber den Eingangssignalen, wobei die Verzögerung nicht konstant ist. An den Ausgängen der Verzögerungsglieder (dly) liegen dadurch phasenkohärente Signale (
q ,s 0 biss N-1) an. -
Figur 3 zeigt schematisch und nicht beschränkend eine alternative latenzfreie Implementierung. Die in der ersten Implementierung derFigur 2 benötigte Pufferzeit führt zu einer ihr entsprechenden Latenzzeit der Gesamtschaltung. Für Anwendungen mit strikten Echtzeitanforderungen kann dies umgangen werden, indem anstelle von Verzögerungsgliedern Abspielmodule (hier metonymisch als "tape" bezeichnet) mit modulierbarer Abspielgeschwindigkeit, wie sie etwa in vielen Samplerumgebungen zur Verfügung stehen, verwendet werden. - Zur Beurteilung der durch die Erfindung möglichen Verbesserung wird im Nachfolgenden die folgende Metrik verwendet:
Gegeben seien nunmehr zwei Signale 0, 1 (Eingangsaudiosignale bzw. jeweils ein Abschnitt mit der gleichen Länge) mit identischer Periodendurchlaufszahl (Anzahl der Nulldurchgänge) sowie identischer mittlerer Periodendauer T (denn es handelt sich um Signale der gleichen Tonhöhe). Mit t(0) und t(1) gleich der Vektoren der Zeiten der Nulldurchgänge der Signale 0 und 1 ist mit einer geeigneten Norm (∥·∥) ein Maß für die Phaseninkohärenz der Signale 0, 1 . - Hier wird nun die RMS Norm gewählt, wobei RMS zwecks Dimensionsinvarianz durch die Anzahl der Periodendurchläufe normalisiert sind.
- Entsprechend der in der Signalverarbeitung üblichen Vorgehensweise ist es in ratsam, mit einer gefensterten RMS-Norm zu arbeiten, was mathematisch als eine Kombination von RMS und PEAK gedeutet werden kann. Als Fenstergröße wurde ein RMS (root mean square)-Fenster entsprechend der in den
Figuren 4 bis 11 auf der horizontalen Achse in ms dargestellten Zeitdauern gewählt. Die Reihenfolge der Zeilen entspricht der Reihenfolge der Figuren. - Als Maß für die Güte des Phasenangleichungsverfahrens bietet sich nun das Verhältnis zwischen gemessener Phasenkohärenz vor und nach der Verarbeitung durch das Verfahren oder die relative Veränderung der Phasenkohärenz an.
- Es wurden nun verschiedene Schallereignisse analysiert. Dazu wurde jeweils eine multimikrofonierte Schallquelle an drei unterschiedlichen Stereomikrofonpositionen sowie an einer weiteren einkanaligen Referenzmikrofonposition aufgezeichnet. Dadurch wurden drei Stereo und eine Monospur erhalten. Exemplarisch wurde der linke Kanal eines Stereomikrofonpaars (Signal 1) als zu bearbeitendes Eingangsaudiosignal und das Signal des Referenzmikrofons als Referenzaudiosignal (Signal 0) ausgewählt und die Phasenkohärenz im Sinne der besprochenen Metrik zwischen Referenz- (Signal 0) und Eingangsaudiosignal (Signal 1) bzw. bearbeitetem Eingangsaudiosignal (Signal 1') bestimmt. Zudem wurde zum Vergleich mit dem Stand der Technik eine Bearbeitung des Eingangsaudiosignals (Signal 1) mittels konstanter Zeitverschiebung nach der
vorgenommen (Signal 1").JP 2001100756 A d(0,1) d(0,1') d(0,1') /d(0,1) (d(0,1)- d(0,1') /d(0,1) d(0,1") d(0,1") /d(0,1) (d(0,1)- d(0,1") /d(0,1) CE | ff | 45 (a1) 0,2173 0,0608 28% 72% 0,4 184% -84% VL | f | 55 (g2) 0,4215 0,0545 13% 87% 0,235 56% 44% VL | f | 60 (c3) 0,3983 0,1926 48% 52% 0,264 66% 34% VL | f | 69 (a3) 0,2737 0,0712 26% 74% 0,2879 105% -5% VL | f | 72 (c4) 0,2524 0,1387 55% 45% 0,3141 124% -24% VL | f | 77 (f4 0,2953 0,1952 66% 34% 0,2721 92% 8% VL | f | 78 (f#4) 0,2993 0,143 48% 52% 0,2502 84% 16% VL | f | 84 (c5) 0,2465 0,1183 48% 52% 0,3471 141% -41% - Dabei wurde in Cello (CE) und eine Violine (VL) als Schalquelle verwendet. Es wurden verschiedene Dynamikstufen (f und ff) bei verschiedenen Tonhöhen (Angabe in Midi-Tonhöhenstufe und in Klammer musikalischer Notation) getestet.
- Zu erkennen ist, dass bei statischer Korrektur teilweise eine Verbesserung und teilweise eine Verschlechterung erreicht wird, die stark schwankt. Mit dem erfindungsgemäßen Verfahren wird immer eine Verbesserung erreicht, die die Verbesserung gegenüber dem Stand der Technik mindestens um 18%-Punkte übersteigt.
- Der Toningenieur hat für die Verarbeitung die oben beschriebenen Parameter "Glättungsgrad" und "Vorausschau" wie oben erläutert nach Gehör in Hinblick auf ein subjektiv optimales Verhältnis zwischen hörbarer Phasenkohärenz (d.h., Abwesenheit von Kammfiltereffekten) einerseits und Artefaktfreiheit andererseits eingestellt, ohne dabei eine Metrik zu beachten.
- Die
Figuren 4 bis 11 geben die Verläufe der RMS Werte (RMS Werte auf der vertikalen Achse) mit einem Fenster von jeweils 500 Periodendurchläufen der Messungen, die der vorstehenden Tabelle zu Grunde liegen, der Reihenfolge der Zeilen der Tabelle nach wieder. Auf der horizontalen Achse ist die Zeit in ms abgetragen. Zu erkennen ist hier, dass über weite Teile der Signaldauer eine Verbesserung erreicht werden kann. Dabei ist das Signal A das Signal 1, das Signal B das Signal 1" und das Signal C das Signal 1'.
Claims (6)
- Verfahren zur Erstellung einer Gruppe phasenkohärenter Audioquellen (
q ,s 0 biss N-1), insbesondere Audiosignale oder Samples, umfassend:a) Bereitstellen mindestens jeweils einer Eingangsaudioquelle (q, so bis sN-1), insbesondere Audiosignale oder Samples, eines ersten und eines zweiten Tonerereignisse der gleichen Tonhöhe eines einzigen realen Musikinstruments,b) Auswählen einer Audioquelle, insbesondere einer der Eingangsaudioquellen des ersten Tonereignisses, als Referenzsample (q),c) Vergleich des Phasenverlaufs des Referenzsamples (q) mit dem Phasenverlauf mindestens einer weiteren der Eingangsaudioquellen (sO bis sN-1) des zweiten Tonereignisses über eine erste Audioquellendauer des Referenzsamples zur Erzeugung einer Phasenbeziehungsinformation (u),d) Verändern der Geschwindigkeit und/oder Zeitbasis der mindestens einen weiteren Eingangsaudioquelle (sO bis sN-1) über eine zweite Dauer der mindestens einen weiteren Eingangsaudioquelle auf Basis der Phasenbeziehungsinformation (u), dadurch gekennzeichnet, dass die Phasenbeziehungsinformation ein Verlauf eines über die Zeit variierenden Phasenbeziehungswertes ist und dass die Geschwindigkeit und/oder Zeitbasis über die zweite Dauer variierend abhängig vom Verlauf des Phasenbeziehungswertes verändert wird. - Verfahren nach Anspruch 1, wobei die erste Dauer der zweiten Dauer entspricht und/oder die erste Dauer länger ist als die zweite Dauer.
- Verfahren nach einem der vorstehenden Ansprüche, wobei der Wert des Verlaufs des Phasenbeziehungswertes an einem Zeitpunkt des Referenzsamples zumindest teilweise den Phasenverlauf des Referenzsamples und/oder den Phasenverlauf der einer weiteren der Audioquellen, vor, an und/oder nach dem gleichen Zeitpunkt im Referenzsample berücksichtigt, wobei die Zeitpunkte insbesondere relativ zum Start des jeweiligen Tonereignisses gemessen sind.
- Verfahren nach einem der vorstehenden Ansprüche, wobei das Verfahren für mehrere zweite Tonereignisse, insbesondere gleichzeitig, mit einem gemeinsamen ersten Tonereignis und einem gemeinsamen Referenzsample durchgeführt wird und für jedes zweite Tonereignis eine Phasenbeziehungsinformation erzeugt wird und jede Phasenbeziehungsinformation zur Veränderung der Geschwindigkeit mindestens einer insbesondere mehrerer, Eingangsaudioquelle des jeweiligen zweiten Tonereignisses verwendet wird.
- Verfahren nach einem der vorstehenden Ansprüche, wobei die Schritte c) und d) mittels mindestens einem, insbesondere mittels mindestens genau einem, gegengekoppeltem Regelkreis ausgeführt werden, wobei insbesondere eine Messschleife pro zweitem Tonereignis zur Ermittlung der Phasenbeziehungsinformation verwendet wird und/oder eine Steuerungsschleife pro weitere Eingangsaudioquelle zur Veränderung der Geschwindigkeit verwendet wird.
- Verfahren zum zeitgleichen Abspielen mindestens jeweils einer Audioquelle, insbesondere Audiosignal oder Sample, zweier Tonerereignisse, insbesondere von mindestens 500ms Länge, der gleichen Tonhöhe des gleichen realen Instruments, wobei die Audioquellen jeweils, insbesondere über mindestens 500ms, zumindest teilweise gleichzeitig, insbesondere über mindestens 500ms, phasenkohärent abgespielt werden und nach Anspruch 1 erzeugt werden und/oder erzeugt sind.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP21158720 | 2021-02-23 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| EP4047595A1 EP4047595A1 (de) | 2022-08-24 |
| EP4047595C0 EP4047595C0 (de) | 2024-08-14 |
| EP4047595B1 true EP4047595B1 (de) | 2024-08-14 |
Family
ID=74732617
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP22153060.3A Active EP4047595B1 (de) | 2021-02-23 | 2022-01-24 | Verfahren zur erstellung einer gruppe von phasenkohärenten samples für ein virtuelles instrument |
Country Status (1)
| Country | Link |
|---|---|
| EP (1) | EP4047595B1 (de) |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4779505A (en) * | 1983-09-07 | 1988-10-25 | Nippon Gakki Seizo Kabushiki Kaisha | Electronic musical instrument of full-wave readout system |
| DE4008872C2 (de) | 1990-03-20 | 1993-10-28 | Wersi Gmbh & Co | Verfahren zum Erzeugen von Klängen und elektronisches Musikinstrument |
| JP3601373B2 (ja) | 1999-09-29 | 2004-12-15 | ヤマハ株式会社 | 波形編集方法 |
| JP6102063B2 (ja) | 2011-03-25 | 2017-03-29 | ヤマハ株式会社 | ミキシング装置 |
| JP6090204B2 (ja) | 2014-02-21 | 2017-03-08 | ヤマハ株式会社 | 音響信号発生装置 |
| US9805702B1 (en) | 2016-05-16 | 2017-10-31 | Apple Inc. | Separate isolated and resonance samples for a virtual instrument |
| WO2018055892A1 (ja) | 2016-09-21 | 2018-03-29 | ローランド株式会社 | 電子打楽器の音源 |
-
2022
- 2022-01-24 EP EP22153060.3A patent/EP4047595B1/de active Active
Also Published As
| Publication number | Publication date |
|---|---|
| EP4047595C0 (de) | 2024-08-14 |
| EP4047595A1 (de) | 2022-08-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE68913139T2 (de) | Störunterdrückung. | |
| DE2818204C2 (de) | Signalverarbeitungsanlage zur Ableitung eines störverringerten Ausgangssignals | |
| DE69816221T2 (de) | Sprachschnellheitsveränderungsverfahren und vorrichtung | |
| DE4227826C2 (de) | Digitales Verarbeitungsgerät für akustische Signale | |
| DE60103086T2 (de) | Verbesserung von quellcodierungssystemen durch adaptive transposition | |
| DE69433073T2 (de) | Vorrichtung zür Veränderung akustischer Eigenschaften | |
| DE60024501T2 (de) | Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution | |
| EP1853089B1 (de) | Verfahren zum Unterdrücken von Rückkopplungen und zur Spektralerweiterung bei Hörvorrichtungen | |
| EP2005421B1 (de) | Vorrichtung und verfahren zum erzeugen eines umgebungssignals | |
| DE602005005186T2 (de) | Verfahren und system zur schallquellen-trennung | |
| DE4326746A1 (de) | Lautstärkeregelgerät | |
| DE69629934T2 (de) | Umgekehrte transform-schmalband/breitband tonsynthese | |
| DE3936693A1 (de) | Vorrichtung zum erzeugen digitaler audiosignale | |
| DE102010007842A1 (de) | Geräuschunterdrückungsvorrichtung, Geräuschunterdrückungsverfahren und Aufzeichnungsmedium | |
| DE3630692C2 (de) | ||
| DE2720984B2 (de) | ||
| DE69934069T2 (de) | Schalleffekt Addiergerät | |
| DE19720651A1 (de) | Hörgerät mit verschiedenen Baugruppen zur Aufnahme, Weiterverarbeitung sowie Anpassung eines Schallsignals an das Hörvermögen eines Schwerhörigen | |
| DE3806915A1 (de) | Reverb- (nachhall-) generator | |
| DE10009082A1 (de) | Gerät zur Wiedergabe einer Wellenform | |
| EP4047595B1 (de) | Verfahren zur erstellung einer gruppe von phasenkohärenten samples für ein virtuelles instrument | |
| DE3709556C2 (de) | ||
| DE2719276A1 (de) | Elektronisches nachhallgeraet | |
| DE102012204193B4 (de) | Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals | |
| DE102007011436B4 (de) | Vorrichtung und Verfahren zum Formen eines digitalen Audiosignals |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED |
|
| AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
| 17P | Request for examination filed |
Effective date: 20230109 |
|
| RBV | Designated contracting states (corrected) |
Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
| RIC1 | Information provided on ipc code assigned before grant |
Ipc: G10H 1/12 20060101ALI20240201BHEP Ipc: G10H 7/04 20060101ALI20240201BHEP Ipc: G10H 7/00 20060101AFI20240201BHEP |
|
| GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: GRANT OF PATENT IS INTENDED |
|
| INTG | Intention to grant announced |
Effective date: 20240319 |
|
| GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
| GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE PATENT HAS BEEN GRANTED |
|
| AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
| REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
| REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
| REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 502022001422 Country of ref document: DE |
|
| REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: GERMAN |
|
| U01 | Request for unitary effect filed |
Effective date: 20240823 |
|
| U07 | Unitary effect registered |
Designated state(s): AT BE BG DE DK EE FI FR IT LT LU LV MT NL PT RO SE SI Effective date: 20240903 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20241114 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20241115 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20241214 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: HR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: RS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20241114 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: RS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20241114 Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 Ref country code: NO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20241114 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20241214 Ref country code: HR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20241115 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 |
|
| U20 | Renewal fee for the european patent with unitary effect paid |
Year of fee payment: 4 Effective date: 20250127 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SM Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 |
|
| PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
| 26N | No opposition filed |
Effective date: 20250515 |
|
| REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20240814 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20250131 |
|
| U20 | Renewal fee for the european patent with unitary effect paid |
Year of fee payment: 5 Effective date: 20251201 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20250124 |
