EP1979899A1 - Verfahren und anordnungen zur audiosignalkodierung - Google Patents

Verfahren und anordnungen zur audiosignalkodierung

Info

Publication number
EP1979899A1
EP1979899A1 EP06706507A EP06706507A EP1979899A1 EP 1979899 A1 EP1979899 A1 EP 1979899A1 EP 06706507 A EP06706507 A EP 06706507A EP 06706507 A EP06706507 A EP 06706507A EP 1979899 A1 EP1979899 A1 EP 1979899A1
Authority
EP
European Patent Office
Prior art keywords
exc
excitation signal
audio
excitation
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP06706507A
Other languages
English (en)
French (fr)
Other versions
EP1979899B1 (de
Inventor
Bernd Geiser
Peter Jax
Stefan Schandl
Hervé TADDEI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens Enterprise Communications GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Enterprise Communications GmbH and Co KG filed Critical Siemens Enterprise Communications GmbH and Co KG
Publication of EP1979899A1 publication Critical patent/EP1979899A1/de
Application granted granted Critical
Publication of EP1979899B1 publication Critical patent/EP1979899B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Definitions

  • the invention relates to a method and arrangements for audio signal coding.
  • the invention relates to a method and an excitation signal generator for forming an excitation signal for exciting an audio synthesis filter and an audio signal encoder and an audio signal decoder.
  • the aim is usually to reduce the amount of data to be transmitted and thus the transmission rate as much as possible without the subjective hearing impression or, in the case of voice transmissions, the ability to interfere too much.
  • Efficient compression of audio signals is also an important consideration in the context of storage or archival of audio signals.
  • Coding methods in which an audio signal to be transmitted is adjusted on a time-frame basis to an audio signal synthesized by an audio synthesis filter by optimization of filter parameters prove to be particularly efficient.
  • a Such a procedure is often referred to as analysis-by-synthesis.
  • the audio synthesis filter is excited by a preferably also to be optimized excitation signal.
  • Filtering is often referred to as formant synthesis.
  • LPC coefficients LPC: Linear Predictive Coding
  • parameters specifying a spectral and / or temporal envelope of the audio signal can be used as filter parameters.
  • the optimized filter parameters as well as the parameters specifying the excitation signal are then transferred to the receiver on a timely basis in order to form a synthetic audio signal there by means of a receiver-side provided audio synthesis filter, which is as similar as possible to the original audio signal with regard to the subjective auditory impression.
  • Such an audio coding method is known from ITU-T Recommendation G.729.
  • a real-time audio signal with a bandwidth of 4 kHz can be reduced to a transmission rate of 8 kbit / s.
  • the excitation signal is generated by means of a so-called adaptive codebook in cooperation with a so-called fixed codebook.
  • the fixed codebook a plurality of predetermined excitation signal sequences are permanently stored, which are retrievable on the basis of a codebook index.
  • already generated excitation signal sequences are stored in the adaptive codebook.
  • a respective sequence of the excitation signal is generated by mixing a sequence from the adaptive codebook with a sequence from the fixed codebook.
  • both the fixed and the adaptive codebook are searched for excitation signal sequences for each time frame, which allow the best possible approximation of the synthetic audio signal to the audio signal to be transmitted.
  • parameters specifying the excitation signal become Transfer information to the optimally found sequences from the fixed and the adaptive codebook to the receiver. At the receiver these parameters are used to reconstruct an excitation signal by means of a fixed and an adaptive codebook of the receiver.
  • Such a bandwidth extension of the synthesized audio signal can be achieved that from a narrow-band excitation signal, for. B. with a bandwidth of 4 kHz, a suitable higher bandwidth excitation signal, for example 8 kHz bandwidth, is constructed to broadband the audio synthesis filter.
  • a suitable higher bandwidth excitation signal for example 8 kHz bandwidth
  • the broadband excitation signal can be generated by squaring the narrow-band excitation signal in the time domain or by generating an enhancement band by shifting or mirroring the frequency spectrum of the narrow-band excitation signal.
  • the above procedures distorts the spectrum of the excitation signal anharmonically and / or causes a considerable, audible phase error in the spectrum.
  • the excitation signal is formed as a consequence of excitation samples.
  • Already formed excitation sample values are stored here on a timely basis in an adaptive code book.
  • a noise generator is provided by which random sampling values are generated continuously. From the adaptive codebook, a sequence of the stored excitation sample values is selected on the basis of a supplied audio basic frequency parameter, by which a time interval of the sequence to be selected is specified for the current time reference. The excitation signal is formed by mixing the selected sequence with a random sequence comprising current random samples of the noise generator.
  • a fixed codebook for filling the adaptive codebook can be dispensed with. Accordingly, it is not necessary to provide or transmit codebook indices for selecting predetermined sample sequences stored in a fixed codebook. Since such codebook indexes for a fixed codebook occupy a considerable proportion of the audio data to be transmitted in known methods, the transmission rate can generally be considerably reduced by the invention. The saved transmission bandwidth can be used accordingly for other purposes or to increase the transmission quality.
  • a noise component contained in audio signals or speech signals can generally be better modeled than by means of a fixed code book containing only fixed predetermined sample sequences.
  • a harmonic fine structure of the audio or speech signals can be well reproduced from the adaptive codebook by the selection of a sample sequence dependent on the audio basic frequency parameter.
  • bandwidth extensions can be realized with little effort.
  • a coding residual error in a bandwidth extension is transmitted to an extension band.
  • the invention can be advantageously used both in the encoding and in the decoding of an audio signal.
  • a Audio signal encoder can be excited by an excitation signal generator according to the invention an audio synthesis filter whose output audio signal is compared with a respective current frame of the audio signal to be transmitted.
  • the comparison of the current frame will be. preferably for different selections of sequences stored in the adaptive codebook from previous excitation samples.
  • the timing of the sample sequence within the adaptive codebook where the comparison indicates optimal match may be expressed by a corresponding audio ground frequency parameter, which may then be transmitted to a receiver.
  • a search of another, fixed codebook and an additional transmission of codebook indices are not required.
  • an audio stimulus signal generator may be controlled by each audio fundamental frequency parameter received to generate an excitation signal harmonically corresponding to the audio fundamental frequency parameter without relying on additional codebook indexes to be transmitted.
  • the excitation signal thus generated can be used to excite an audio synthesis filter in order to produce a synthetic audio signal which is very similar to the original audio signal in terms of the audio impression.
  • the audio synthesis filters in the audio signal encoder and / or audio signal decoder can be used, for example, as an LPC filter, Wiener FIR filter, as a filter for shaping a temporal or spectral len envelopes of the audio signal or as a combination of these filters are realized.
  • the method according to the invention can preferably be carried out by a signal processor.
  • the excitation samples and / or the random samples can be processed on a time frame basis, the length of the selected sequence and / or the length of the random sequence corresponding to a predetermined length of a time frame.
  • the audio basic frequency parameter specifies a time interval which is not an integer multiple of a predetermined sampling interval of a narrow-band excitation signal to be generated separately, between the excitation samples and / or between the random samples insert intermediate samples depending on the audio basic frequency parameter.
  • the insertion is preferably such that a sampling interval of the resulting samples is less than the sampling interval of the narrow-band excitation signal.
  • the selected sequence may be selected according to a first intensity parameter and / or the random sequence according to a first intensity parameter second intensity parameters are amplified.
  • the first and second intensity parameters, as well as the audio basic frequency parameters, can preferably be derived and transmitted on a timely basis from the audio signal to be transmitted.
  • the excitation signal can be formed with a smaller sampling interval than a narrow-band excitation signal to be separately generated, as a result of which the excitation signal has additional frequency components of an extension band compared with the narrow-band excitation signal.
  • the audio basic frequency parameter and the first and / or second intensity parameter can be derived from audio synthesis parameters which are actually intended to generate the narrow-band excitation signal.
  • the audio basic frequency parameter as well as the first and / or the second intensity parameter can be derived from a narrowband component of an audio signal to be transmitted.
  • the audio base frequency parameter as well as the first and / or second intensity parameters may thus be derived from narrowband audio parameters but applied to the extension band. This is advantageous in that, in addition to the audio synthesis parameters provided for generating the narrow-band excitation signal, no additional audio synthesis parameters are required for the band width extension of the excitation signal.
  • the intended for generating the narrow-band excitation signal Audiosynthese- parameters can be provided by existing, narrow-band audio codecs, such as in accordance with G.729 recommendation in the rule.
  • the audio basic frequency parameter is often determined more accurately than corresponds to the sampling interval of the narrowband excitation signal. Frequently, an accuracy of, for example, half or third scanning distance is provided.
  • the audio basic frequency parameter provided for the narrow-band excitation signal can generally be used directly or substantially unchanged for generating the bandwidth-expanded excitation signal.
  • the first and / or the second intensity parameter may each be derived from the corresponding narrowband intensity parameters by applying a predetermined function, e.g. emphasize a noise component versus a harmonic component in the extension band of an audio signal.
  • a portion of the excitation signal attributable to the denial band may be combined with the separately generated narrow-band excitation signal to produce a broadband excitation signal, e.g. in the frequency range of 0 to 8 kHz, to excite the audio synthesis filter.
  • FIG. 1 shows an audio signal sampled with different sampling rates
  • FIGS. 2a and 2b show various embodiments of an excitation signal generator according to the invention
  • Figure 3 is an illustration of a selection operation of a sample sequence from an adaptive codebook
  • FIG. 1 illustrates an audio signal sampled at different exemplary sample rates. Individual sample values are represented here as points which have different amplitudes illustrated by vertical lines. The different sampling rates are illustrated by different sampling intervals between the samples. Both subfigures have a common time axis T.
  • the upper part of the figure illustrates the audio signal sampled at a sample rate of, for example, 8 kHz.
  • the sampling rate of 8 kHz corresponds to a sampling interval DT1 of 1/8000 s.
  • audio signals can essentially be represented up to a frequency of 4 kHz according to a fundamental sampling theorem. This frequency range is referred to below as narrowband.
  • the lower part of the figure shows the audio signal sampled at a sampling rate of 16 kHz.
  • the sampling distance DT2 in the lower part of the figure is half of the sampling interval DT1, ie here 1/16000 s.
  • an audio signal can be represented substantially up to a frequency of 8kHz.
  • the above frequency range is also referred to as broadband in the following. It goes without saying that the terms narrow-band and broad-band are not limited to the frequency ranges which are only given by way of example, but are generalizable to arbitrary frequency ranges insofar as the term wideband is to specify a larger frequency range than the term narrow-band.
  • FIGS. 2 a and 2 b show a schematic representation of various embodiments of an exciter signal generator according to the invention.
  • the illustrated excitation signal generators comprise as function components in each case a noise generator NOISE, an adaptive codebook ACB and a mixer MIX.
  • the random number generator NOISE is used to generate random sampling values at a given sampling interval over time. For both in
  • the respective noise generator NOISE generates random sample values with a narrow-band sampling rate, ie, for example, 8 kHz.
  • Random sampling values are hereby understood to be sampled values which are generated by the noise generator in a temporally continuous, random or quasi-random manner and, in particular, are not predetermined or are selected from predetermined values.
  • the random samples are generated independently of an audio signal to be encoded or decoded by the respective excitation signal generator.
  • specific access parameter is required as with a fixed code book in accordance with the state of the art for operation of the • noise generator NOISE no feeding or transmitting.
  • a noise signal formed by the random samples has a substantially white or flat frequency spectrum.
  • the excitation signal generator shown in FIG. 2a can generally be used for audio and / or speech coding.
  • Both the noise generator NOISE and the adaptive codebook ACB provide samples on a timely basis, i. as a sequence of time-frame of predetermined length containing samples.
  • the noise generator NOISE continuously generates random sequences EXC_N, i. Generates time frame with random samples
  • the adaptive codebook ACB continuously sequences, i. Time frame EXC_P of stored excitation
  • the random sequences EXC_N and the sequences EXC_P output by the adaptive codebook ACB are forwarded to the mixing device MIX, which is also supplied with time parameters for intensity control G_N for level control of the random sequences EXC_N and intensity parameters G_P for level control of the sequences EXC_P coming from the adaptive codebook ACB.
  • the random samples of a respective random sequence EXC_N having a respective intensity parameter G_N and the samples of a respective sequence EXC_P output by the adaptive code book ACB are time-frame multiplied, ie amplified, by a respective intensity parameter G_P.
  • the multiplications are indicated in FIG. 2a by circles provided with multiplication signs.
  • the G_N and G_P amplified sample sequences are added by the mixer MIX on a timely basis and the resulting sum signal is output as excitation signal EXC in the form of a sequence of excitation samples.
  • the addition is illustrated in FIG. 2a by a circle provided with a plus sign.
  • the formed excitation signal EXC is outputted and stored in parallel in temporal succession in the adaptive codebook ACB.
  • the excitation signal EXC is therefore to some extent fed back from the output of the mixer MIX to the adaptive codebook ACB.
  • the adaptive codebook ACB acts in a similar way as a shift register in which currently formed sequences of the excitation signal EXC are stored, successively shifting backwards previously formed sequences of the excitation signal while maintaining the chronological order.
  • the output of the sequences EXC_P of stored excitation samples is controlled by the adaptive codebook ACB timely supplied basic audio frequency parameters PITCH.
  • the sequences EXP to be output by the adaptive codebook ACB are selected from the stored excitation sample values. The selection takes place by means of a selector SEL of the adaptive codebook ACB.
  • Such an audio basic frequency parameter PITCH is often referred to in the art as "pitch lag".
  • the audio basic frequency parameters PITCH are each given in units of a narrow-band sampling interval, here for example 1/8000 s at a narrow-band sampling rate of 8 kHz.
  • the audio basic frequency parameter PITCH in each case a period specified period of a fundamental frequency of the audio signal to be transmitted or synthesized.
  • the fundamental frequency periods of an audio signal are often measured or provided at a higher resolution than corresponds to a sampling interval used in each case. Such, apart from fractions of sample intervals, precise audio basic frequency parameters can thus also assume non-integer values in units of the sampling interval.
  • Such a non-integer audio basic frequency parameter PITCH contains information about higher frequency components than actually corresponds to the sampling interval. While such higher frequency components are filtered out in known audio encoders, eg according to the G.729 recommendation, the information about the higher frequency components in audio signal generators according to the invention can be used in a simple way to improve the quality of the audio synthesis.
  • FIG. 3 illustrates the selection of a sample sequence EXC_P from the adaptive codebook ACB on the basis of the audio basic frequency parameter PITCH supplied to the selection device SEL.
  • FIG. 3 shows a section of the excitation sampling values stored consecutively in the adaptive codebook ACB.
  • the stored excitation samples are indicated by dots provided with vertical lines, the length of a respective line illustrating a respective amplitude of an excitation sample.
  • the time course is indicated by a time axis T.
  • a current time reference TO is indicated in FIG. 3 by a vertical line which indicates the point in the adaptive codebook at which a respective currently formed time frame of the excitation signal is newly stored in the adaptive codebook ACB.
  • the storage takes place here temporally or logically adjacent to an immediately prior stored time frame of the excitation signal.
  • a time frame in FIG. 3 comprises only four sample values. A generalization of the relationships illustrated by FIG. 3 to time frames of any given length is evident.
  • sequence EXC_P of stored excitation samples for output is selected, the beginning of which has a time interval corresponding to the audio basic frequency parameter PITCH from the current time reference TO and whose length corresponds to the predetermined length of a time frame.
  • the time interval is calculated here from the current time reference TO off in time backwards. It has since been pointed out that the beginning of the selected sequence EXC_P need not fall on a time frame boundary, but may possibly fall within given limits to any stored excitation sample.
  • FIG. 3 it is assumed by way of example that a time interval of six sampling intervals is specified by the audio basic frequency parameter PITCH transmitted with the current time frame.
  • a time frame from the sixth last stored excitation sample value to the third last stored excitation sample value, calculated from the current time reference TO is output.
  • the output time frame EXC_P is indicated in FIG. 3 by a dashed rectangle.
  • the adaptive codebook ACB When the excitation signal generator according to the invention is switched on, the adaptive codebook ACB is initially empty, in order then to be filled successively with formed excitation sample values of the output excitation signal EXC. Since the adaptive codebook ACB is initially empty, the excitation signal EXC initially fed only by the noise generator NOISE as the only signal source. This means that the adaptive Kode- • Book ACB first with non-periodic random samples will be filled. In this scenario, the question arises as to how ACB can obtain periodic signal components by means of the adaptive codebook, since only a non-periodic noise generator NOISE is available as the original signal source. In fact, according to previous ideas, it was considered necessary, in addition to an adaptive codebook, also to provide a fixed codebook in order to fill the adaptive codebook ACB with deterministic signal sequences stored in the fixed codebook.
  • an excitation signal with a harmonic fine structure can be generated from the adaptive codebook ACB by continuously suitable selection of sample sequences EXC_P.
  • EXC_P sample sequences
  • the current time frame is stored with a specified by the audio basic frequency parameter PITCH distance to the previously issued sequence EXC_P.
  • a periodic signal portion whose period is determined by the audio basic frequency parameter PITCH is successively formed in the adaptive codebook ACB.
  • the periodic share of Total excitation signal EXC is controlled by the intensity parameters G_N and G__P.
  • the noise generator NOISE instead of a fixed codebook, transmission of codebook indices for a fixed codebook can be dispensed with. In this way, the transmission rate or bandwidth for the transmission of audio signals can be significantly reduced.
  • the use of the NOISE noise generator makes it possible to achieve a better hearing impression, in particular when playing non-harmonic or noisy audio components.
  • excitation signal generator for generating a bandwidth-extended excitation signal EXC is explained below with reference to FIG.
  • the output excitation signal EXC is generated with a bandwidth expanded by a bandwidth expansion factor N.
  • the reference numbers also used in FIG. 2a retain their meaning in FIG. 2b.
  • the adaptive code book ACB and the mixer MIX use the 16 kHz wide-band sampling rate.
  • an interpolator INT_N is connected between these and the noise generator NOISE.
  • the interpolator INT N receives the noise generator NOISE For each of the values of the bandwidth expansion factor N, NI intermediate samples, each having an amplitude of 0, between each two random samples are analogously set inserted. In this way, a narrow-band white noise spectrum of the noise generator NOISE is converted to a broadband white spectrum.
  • the audio basic frequency parameter PITCH is supplied in units of the narrow-band sampling interval. It is further assumed that the audio basic frequency parameter PITCH in these units is provided exactly to at least a fractional part I / N, that is to say exactly here to 1/2.
  • a bandwidth-extended excitation signal EXC can be generated in a simple manner, whose harmonic fine structure is better modeled in the extension band by using the fractional portion of the audio basic frequency parameter PITCH. that can.
  • the harmonic fine structure of the excitation signal in the narrow band frequency range can be continued harmoniously and consistently into the grant band.
  • FIG. 4 schematically shows an audio signal decoder according to the invention for receiving an audio signal to be transmitted.
  • the audio signal decoder comprises an audio synthesis filter ASYN which is characterized by a broadband excitation signal S_EXC, e.g. is excited in the frequency range from 0 to 8 kHz and generates a synthetic audio signal SAS by filtering.
  • the audio synthesis filter ASYN is supplied with spectral parameters F_ENV, which specify a spectral envelope of the audio signal to be transmitted, as well as with time-domain parameters T_ENV, which specify a temporal envelope of the audio signal.
  • the audio synthesis filter ASYN forms the spectral and temporal envelope of the audio signal SAS to be synthesized on the basis of the supplied parameters F_ENV and T_ENV.
  • the parameters F_ENV and T_ENV are timed by the transmitter of the audio signal to be transmitted and transmitted to the receiver or audio signal decoder.
  • the generation of the broadband excitation signal S_EXC is divided into different layers, namely a layer for the narrowband frequency range, here from 0 to 4 kHz, and a layer for the extension band, here from 4 to 8 kHz.
  • the audio signal decoder has for generating a narrow-band excitation signal N_EXC, here in the frequency range from 0 to 4 kHz, a narrow-band excitation signal generator NBC and for generating a frequency-expanded excitation signal E_EXC, here in the frequency range of 4 to 8 kHz, an excitation signal generator EBC according to Figure 2b for the expansion band ,
  • the narrow-band excitation signal generator NBC like the excitation signal generator according to the invention shown in FIG. rather, equipped with adaptive and fixed codebook excitation signal generator, eg according to G.729 recommendation, be designed.
  • the narrow-band excitation signal generator NBC is supplied with the audio basic frequency parameter PITCH as well as the intensity parameters G_N and G_P at a time frame. Instead of the intensity parameters G_N and G_P, a sum parameter G_S + G_N and a ratio parameter G_S / G_N or its reciprocal can also be supplied.
  • the narrow-band excitation signal generator NBC Based on the supplied parameters PITCH, G_S and G_N, the narrow-band excitation signal generator NBC generates the narrow-band excitation signal N_EXC.
  • the exciter signal generator EBC embodied according to FIG. 2b is supplied with the parameters PITCH, G_S and G_N used by the narrowband excitation signal generator NBC. If necessary, the intensity parameters G_S and G_N are converted by a predetermined function before they are used in the mixer MIX of the excitation signal generator EBC for level control.
  • Excitation signal generator EBC to select a stored excitation signal sequence. Based on the supplied parameters PITCH, G_S and G_N, the excitation signal generator EBC generates, as already explained in connection with FIG. transmission signal EXC, which initially has a bandwidth of 0 to 8 kHz. Since the excitation signal generator EBC should only be responsible for the expansion band in the illustrated audio signal decoder, the excitation signal EXC is supplied to a high-pass filter HP. This essentially only allows frequencies of the extension band of 4 to 8 kHz to pass and outputs a frequency-expanded excitation signal E_EXC.
  • the frequency-expanded excitation signal E__EXC is combined with the narrow-band excitation signal N_EXC, as indicated by a plus sign in FIG. 4, in order to form the broadband excitation signal S_EXC.
  • the latter is finally fed to the audio synthesis filter ASYN.
  • the audio parameters PITCH, G_S and G_N are required to generate the bandwidth-expanded excitation signal E_EXC and thus to generate the broadband excitation signal S_EXC, which are transmitted anyway for generating the narrow-band excitation signal or are provided by a narrowband excitation signal generator.
  • the audio parameters PITCH, G_S and G_N are required to generate the bandwidth-expanded excitation signal E_EXC and thus to generate the broadband excitation signal S_EXC, which are transmitted anyway for generating the narrow-band excitation signal or are provided by a narrowband excitation signal generator.
  • G_N and G_P can thus advantageously be derived from the narrowband frequency range of the audio signal to be transmitted or from parameters of a narrowband codec, in order then to be applied to an extension band to be added.
  • the audio signal decoder shown in FIG. 4 can be extended to an audio signal encoder according to the analysis-by-synthesis principle.
  • the synthesized audio signal SAS is compared by a comparison device with the audio signal to be encoded and adjusted by varying the audio synthesis parameters PITCH, G_S, G_N, F_ENV and T_ENV.
  • a combination of audio signal decoder and audio signal encoder is often referred to as a codec.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Es wird ein Anregungssignal (EXC) als Folge von Anregungs-Abtastwerten zum Anregen eines Audiosynthesefilters (ASYN) gebildet. Bereits gebildete Anregungs-Abtastwerte werden hierbei zeitlich fortlaufend in einem adaptiven Kodebuch (ACB) gespeichert. Erfindungsgemäß ist ein Rauschgenerator (NOISE) vorgesehen, durch den fortlaufend Zufalls-Abtastwerte generiert werden. Aus dem adaptiven Kodebuch (ACB) wird eine Sequenz (EXC_P) der gespeicherten Anregungs-Abtastwerte an Hand eines zugeführten Audiogrundfrequenzparameters (PITCH) ausgewählt, durch den ein Zeitabstand der auszuwählenden Sequenz (EXC_P) zum aktuellen Zeitbezug vorgegeben wird. Das Anregungssignal (EXC) wird durch Mischen der ausgewählten Sequenz (EXC_P) mit einer aktuelle Zufalls-Abtastwerte des Rauschgenerators umfassenden Zufalls-Sequenz (EXC_N) gebildet.

Description

Beschreibung
Verfahren und Anordnungen zur Audiosignalkodierung
Die Erfindung betrifft ein Verfahren und Anordnungen zur Audiosignalkodierung. Insbesondere betrifft die Erfindung ein Verfahren und einen Anregungssignalgenerator zum Bilden eines Anregungssignals zum Anregen eines Audiosynthesefilters sowie einen Audiosignalenkodierer und einen Audiosignaldekodierer. i
In vielen zeitgemäßen Kommunikationssystemen und insbesondere in mobilen Kommunikationssystemen stehen für Echtzeit-Audioübertragungen, wie z.B. Sprach- oder Musikübertragungen, nur begrenzte Übeftragungsbandbreiten zur Verfügung. Um über eine Übertragungsstrecke mit begrenzter Bandbreite, wie z.B. über ein Funknetz, möglichst viele Audio- oder Sprachkanäle in Echtzeit zu übertragen, ist deshalb häufig vorgesehen, die zu übertragenden Audiosignale durch echtzeit- oder quasiecht- zeitfähige Audio-Kodierungsverfahren zu komprimieren.
Bei derartigen Audio-Kodierungsverfahren wird in der Regel angestrebt, die zu übertragende Datenmenge und damit die Ü- bertragungsrate möglichst zu reduzieren ohne den subjektiven Höreindruck bzw. bei Sprachübertragungen die Verständlich- keit, zu sehr zu beinträchtigen.
Eine effiziente Komprimierung von Audiosignalen ist auch im Zusammenhang mit einer Speicherung oder Archivierung von Audiosignalen ein wesentlicher Gesichtspunkt.
Als besonders effizient erweisen sich Kodierungsverfahren, bei denen ein zu übertragendes Audiosignal zeitrahmenweise an ein durch ein Audiosynthesefilter synthetisiertes Audiosignal durch Optimierung von Filterparametern angeglichen wird. Eine derartige Verfahrensweise wird häufig auch als Analysis-by- Synthesis bezeichnet. Das Audiosynthesefilter wird dabei durch ein vorzugsweise ebenfalls zu optimierendes Anregungssignal angeregt. Die Filterung wird häufig auch als Formant- Synthese bezeichnet. Als Filterparameter können z.B. sog. LPC-Koeffizienten (LPC: Linear Predictive Coding) und/oder Parameter, die eine spektrale und/oder zeitliche Einhüllende des Audiosignals spezifizieren, verwendet werden. Die optimierten Filterparameter sowie das Anregungssignal spezifizie- rende Parameter werden dann zeitrahmenweise zum Empfänger ü- bertragen, um dort mittels eines empfängerseitig vorgesehenen Audiosynthesefilters ein synthetisches Audiosignal zu formen, das dem ursprünglichen Audiosignal hinsichtlich des subjektiven Höreindrucks möglichst ähnlich ist.
Ein derartiges Audio-Kodierungsverfahren ist aus der ITU-T Empfehlung G.729 bekannt. Mittels des dort beschriebenen Audio-Kodierungsverfahren kann ein Echtzeit-Audiosignal mit einer Bandbreite von 4 kHz auf eine Übertragungsrate von 8 kbit/s reduziert werden. Gemäß der G.729-Empfehlung wird das Anregungssignal mittels eines sog. adaptiven Kodebuchs im Zusammenwirken mit einem sog. fixen Kodebuch erzeugt. Im fixen Kodebuch ist eine Vielzahl von vorbestimmten Anregungssignalsequenzen fest gespeichert, die anhand eines Kodebuchindexes abrufbar sind. Dagegen werden im adaptiven Kodebuch bereits erzeugte Anregungssignalsequenzen gespeichert. Eine jeweilige Sequenz des Anregungssignals wird durch Mischen einer Sequenz aus dem adaptiven Kodebuch mit einer Sequenz aus dem fixen Kodebuch erzeugt. Zur Optimierung des Anregungssignals werden für jeden Zeitrahmen sowohl das fixe als auch das adaptive Kodebuch nach Anregungssignalsequenzen durchsucht, die eine möglichst gute Angleichung des synthetischen Audiosignals an das zu übertragende Audiosignal erlauben. Als das Anregungssignal spezifizierende Parameter werden schließlich Zugriffs- Informationen auf die als optimal gefundenen Sequenzen aus dem fixen und dem adaptiven Kodebuch zum Empfänger übertragen . Beim Empfänger werden diese Parameter dazu genutzt , um mittels eines fixen und eines adaptiven Kodebuchs des Empfän- gers ein Anregungssignal zu rekonstruieren .
Das gemäß der G . 729-Empfehlung für j eden Zeitrahmen in Echtzeit auszuführende Durchsuchen zweier Kodebücher bedingt j edoch einen erheblichen Rechenaufwand, der aufwändige Prozes- soren erfordert .
Darüber hinaus wird derzeit angestrebt, ein zu übertragendes Audiosignal zur Verbesserung des Höreindrucks mit höherer Bandbreite zu synthetisieren . Bei der gegenwärtig diskutier- ten Erweiterung G . 729EV der G . 792-Empfehlung wird versucht, die Audio-Bandbreite von 4 kHz auf 8 kHz zu erweitern.
Eine derartige Bandbreitenerweiterung des synthetisierten Audiosignals kann dadurch erzielt werden, dass aus einem schmalbandigen Anregungssignal, z . B . mit einer Bandbreite von 4 kHz, ein geeignetes Anregungssignal höherer Bandbreite, beispielsweise 8 kHz Bandbreite, konstruiert wird, um den Audiosynthesefilter breitbandig anzuregen . In diesem Zusammenhang werden gegenwärtig verschiedene Verfahrensweisen zum Bilden eines solchen breitbandigen Anregungssignals diskutiert . Danach kann das breitbandige Anregungssignal durch Quadrieren des schmalbandigen Anregungssignals im Zeitbereich oder durch Erzeugen eines Erweiterungsbandes durch Verschieben oder Spiegeln des Frequenzspektrums des schmalbandigen Anregungssignals erzeugt werden . Durch die genannten Verfahrensweisen wird j edoch das Spektrum des Anregungssignals anharmonisch verzerrt und/oder es wird ein erheblicher, hörbarer Phasenfehler im Spektrum verursacht . Es ist Aufgabe der vorliegenden Erfindung ein Verfahren zum Bilden eines Anregungssignals für ein Audiosynthesefilter anzugeben, das bei Audiosignalübertragungen eine weitere Verringerung der Übertragungsrate und/oder eine Verbesserung des Höreindrucks sowie eine Verringerung des zur Audiokodierung erforderlichen Rechenaufwandes erlaubt. Es ist weiterhin Aufgabe der Erfindung einen Anregungssignalgenerator zur Durchführung des Verfahrens sowie einen Audiosignalenkodierer und einen Audiosignaldekodierer anzugeben.
Gelöst wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Patenanspruchs 1, einen Anregungssignalgenerator mit den Merkmalen des Patentanspruchs 8, einen Audiosignalenkodierer mit den Merkmalen des Patentanspruchs 10 sowie einen Audiosignaldekodierer mit den Merkmalen des Patentanspruchs 11.
Vorteilhafte Ausführungsformen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen angegeben.
Beim erfindungsgemäßen Verfahren zum Bilden eines Anregungssignals zum Anregen eines Audiosynthesefilters wird das Anregungssignal als Folge von Anregungs-Abtastwerten gebildet. Bereits gebildete Anregungs-Abtastwerte werden hierbei zeit- lieh fortlaufend in einem adaptiven Kodebuch gespeichert.
Weiterhin ist ein Rauschgenerator vorgesehen, durch den fortlaufend Zufalls-Abtastwerte generiert werden. Aus dem adaptiven Kodebuch wird eine Sequenz der gespeicherten Anregungs- Abtastwerte an Hand eines zugeführten Audiogrundfrequenzpara- meters ausgewählt, durch den ein Zeitabstand der auszuwählenden Sequenz zum aktuellen Zeitbezug vorgegeben wird. Das Anregungssignal wird durch Mischen der ausgewählten Sequenz mit einer aktuelle Zufalls-Abtastwerte des Rauschgenerators umfassenden Zufalls-Sequenz gebildet. Durch die Verwendung des Rauschgenerators als Quelle von Zu- falls-Abtastwerten kann auf ein fixes Kodebuch zum Befüllen des adaptiven Kodebuchs verzichtet werden. Dementsprechend ist es nicht erforderlich, Kodebuch-Indizes zum Auswählen von vorgegebenen in einem fixen Kodebuch gespeicherten Abtastwertsequenzen bereitzustellen oder zu übertragen. Da derartige Kodebuch-Indizes für ein fixes Kodebuch bei bekannten Verfahren einen erheblichen Anteil an den zu übertragenden Au- diodaten einnehmen, kann durch die Erfindung die Übertragungsrate in der Regel erheblich verringert werden. Die eingesparte Übertragungsbandbreite kann entsprechend für andere Zwecke oder zur Erhöhung der Übertragungsqualität genutzt werden.
Durch den Rauschgenerator, der vorzugsweise ein im Wesentlichen weißes, spektral flaches Rauschen erzeugt, kann ein in Audiosignalen oder Sprachsignalen enthaltener Rauschanteil in der Regel besser modelliert werden, als mittels eines fixen Kodebuchs, das nur fest vorgegebene Abtastwertsequenzen enthält. Eine harmonische Feinstruktur der Audio- oder Sprachsignale kann dagegen durch die vom Audiogrundfrequenzparameter abhängige Auswahl einer Abtastwertsequenz aus dem adaptiven Kodebuch gut nachgebildet werden.
Da ein Rauschgenerator naturgemäß gut auf unterschiedliche Frequenzbereiche skalierbar ist, lassen sich Bandbreitenerweiterungen mit geringem Aufwand realisieren. Zudem lässt sich durch die Erfindung vermeiden, dass ein Kodierungsrest- fehler bei einer Bandbreitenerweiterung in ein Erweiterungsband übertragen wird.
Die Erfindung ist sowohl beim Enkodieren als auch bei Dekodieren eines Audiosignals vorteilhaft einsetzbar. Bei einem Audiosignalenkodierer kann durch einen erfindungsgemäßen Anregungssignalgenerator ein Audiosynthesefilter angeregt werden, dessen Ausgangs-Audiosignal mit einem jeweils aktuellen Rahmen des zu übertragenden Audiosignals verglichen wird. Der Vergleich des aktuellen Rahmens wird. vorzugsweise für unterschiedliche Auswahlen von im adaptiven Kodebuch gespeicherten Sequenzen von früheren Anregungs-Abtastwerten durchgeführt. Die zeitliche Position derjenigen Abtastwertsequenz innerhalb des adaptiven Kodebuchs, bei der der Vergleich eine optimale Übereinstimmung anzeigt, kann durch einen entsprechenden Audiogrundfrequenzparameter ausgedrückt werden, der dann zu einem Empfänger übertragen werden kann. Eine Durchsuchung eines weiteren, fixen Kodebuchs sowie eine zusätzliche Übertragung von Kodebuchindizes sind nicht erforderlich.
Bei einem Audiosignaldekodierer kann durch einen jeweils empfangenen Audiogrundfrequenzparameter ein erfindungsgemäßer Anregungssignalgenerator so gesteuert werden, dass er ein dem Audiogrundfrequenzparameter harmonisch entsprechendes Anre- , gungssignal erzeugt, ohne auf zusätzlich zu übertragende Kodebuchindizes angewiesen zu sein. Durch das so erzeugte Anregungssignal kann ein Audiosynthesefilter angeregt werden, um ein synthetisches Audiosignal zu erzeugen, dass dem ursprünglichen Audiosignal hinsichtlich des Höreindrucks sehr ähnelt.
Damit verringern sich sowohl der erforderliche Rechenaufwand beim Audiosignalenkodierer als auch die erforderliche Übertragungsrate. Entsprechend kann bei gleich bleibender Übertragungsrate in der Regel eine höhere Übertragungsqualität und damit ein verbesserter Höreindruck erzielt werden.
Die Audiosynthesefilter beim Audiosignalenkodierer und/oder Audiosignaldekodierer können z.B. als LPC-Filter, Wiener FIR- Filter, als Filter zur Formung eine zeitlichen oder spektra- len Einhüllenden des Audiosignals oder als eine Kombination dieser Filter realisiert werden.
Das erfindungsgemäße Verfahren kann vorzugsweise durch einen Signalprozessor ausgeführt werden.
Nach einer vorteilhaften Ausführungsform der Erfindung können die Anregungs-Abtastwerte und/oder die Zufalls-Abtastwerte zeitrahmenweise verarbeitet werden, wobei die Länge der aus- gewählten Sequenz und/oder die Länge der Zufalls-Sequenz einer vorgegebenen Länge eines Zeitrahmens entsprechen.
Gemäß einer vorteilhaften Weiterbildung der Erfindung kann für den Fall, dass der Audiogrundfrequenzparameter einen Zeitabstand vorgibt, der kein ganzzahliges Vielfaches eines vorgegebenen Abtastabstandes eines separat zu generierenden, schmalbandigen Anregungssignals ist, vorgesehen sein, zwischen die Anregungs-Abtastwerte und/oder zwischen die Zufalls-Abtastwerte abhängig vom Audiogrundfrequenzparameter Zwischen-Abtastwerte einzufügen. Die Einfügung erfolgt vorzugsweise so, dass ein Abtastabstand der resultierenden Abtastwerte geringer ist als der Abtastabstand des schmalbandigen Anregungssignals. Auf diese Weise kann ein Anregungssignal erzeugt werden, das gegenüber einem schmalbandigen Anre- gungssignal, z.B. im Frequenzbereich von 0-4 kHz, zusätzliche Frequenzkomponenten eines Erweiterungsbandes, z.B. von 4-8 kHz, aufweist. Das so erzeugte Anregungssignal weist anders als durch bekannte Bandbreiten-Erweiterungsverfahren erzeugte Anregungssignale keine wesentlichen anharmonischen Verzerrun- gen auf.
Gemäß einer weiteren Ausführungsform der Erfindung können beim Mischen die ausgewählte Sequenz gemäß einem ersten Intensitätsparameter und/oder die Zufalls-Sequenz gemäß einem zweiten Intensitätsparameter verstärkt werden. Der erste und der zweite Intensitätsparameter, wie auch der Audiogrundfrequenzparameter, können vorzugsweise zeitrahmenweise, aus dem zu übertragenden Audiosignal abgeleitet und übertragen wer- den.
Weiterhin kann das Anregungssignal mit einem gegenüber einem separat zu generierenden, schmalbandigen Anregungssignal geringeren Abtastabstand gebildet werden, wodurch das Anre- gungssignal gegenüber dem schmalbandigen Anregungssignal zusätzliche Frequenzkomponenten eines Erweiterungsbandes aufweist. In diesem Fall kann der Audiogrundfrequenzparameter sowie der erste und/oder zweite Intensitätsparameter aus Audiosynthese-Parametern abgeleitet werden, die eigentlich zur Generierung des schmalbandigen Anregungssignals vorgesehen sind. Analog dazu können der Audiogrundfrequenzparameter sowie der erste und/oder der zweite Intensitätsparameter aus einem Schmalbandanteil eines zu übertragenden Audiosignals abgeleitet werden.
Der Audiogrundfrequenzparameter sowie der erste und/oder der zweite Intensitätsparameter können mithin aus Schmalband- Audioparametern abgeleitet, aber auf das Erweiterungsband angewandt werden. Dies ist insofern vorteilhaft, da zur Band- breitenerweiterung des Anregungssignals außer den zur Generierung des schmalbandigen Anregungssignals vorgesehenen Audiosyntheseparametern keine zusätzlichen Audiosynthese- Parameter erforderlich sind. Die zur Generierung des schmalbandigen Anregungssignals vorgesehenen Audiosynthese- Parameter können in der Regel von bestehenden, schmalbandigen Audiocodecs, wie z.B. gemäß G.729-Empfehlung bereitgestellt werden. Bei bekannten Schmalband-Übertragungsverfahren, wie z.B. gemäß G.729-Empfehlung, wird der Audiogrundfrequenzparameter häufig genauer ermittelt, als dem Abtastabstand des schmal- bandigen Anregungssignals entspricht. Häufig ist eine Genau- igkeit von z.B. einem halben oder drittel Abtastabstand vorgesehen. Somit kann der für das schmalbandige Anregungssignal vorgesehene Audiogrundfrequenzparameter in der Regel direkt bzw. im Wesentlichen unverändert zur Erzeugung des bandbreitenerweiterten Anregungssignals verwendet werden.
Der erste und/oder der zweite Intensitätsparameter kann jeweils durch Anwendung einer vorgegebenen Funktion aus den entsprechenden schmalbandigen Intensitätsparametern abgeleitet werden, um z.B. einen Rauschanteil gegenüber einem harmo- nischen Anteil im Erweiterungsband eines Audiosignals zu betonen.
Vorzugsweise kann ein auf das Erweigerungsband entfallender Anteil des Anregungssignals mit dem separat generierten, schmalbandigen Anregungssignal kombiniert werden, um ein breitbandiges Anregungssignal, z.B. im Frequenzbereich von 0 bis 8 kHz, zur Anregung des Audiosynthesefilters zu erzeugen.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert.
Dabei zeigen jeweils in schematischer Darstellung:
Figur 1 ein mit unterschiedlichen Abtastraten abge- tastetes Audiosignal,
Figuren 2a und 2b verschiedene Ausführungsformen eines erfindungsgemäßen Anregungssignalgenerators , Figur 3 die Veranschaulichung eines Auswahlvorgangs einer Abtastwert-Sequenz aus einem adaptiven Kodebuch, und
Figur 4 einen Audiosignaldekodierer .
Figur 1 veranschaulicht ein mit unterschiedlichen, beispielhaften Abtastraten abgetastetes Audiosignal. Einzelne Abtast- werte sind hierbei als Punkte dargestellt, die verschiedene, durch senkrechte Linien veranschaulichte Amplituden aufweisen. Die verschiedenen Abtastraten werden durch unterschiedliche zeitliche Abtastabstände zwischen den Abtastwerten verdeutlicht. Beide Teilfiguren weisen eine gemeinsame Zeitachse T auf.
Die obere Teilfigur veranschaulicht das mit einer Abtastrate von beispielhaft 8 kHz abgetastete Audiosignal. Die Abtastrate von 8 kHz entspricht einem Abtastabstand DTl von 1/8000 s. Durch die mit einer Abtastrate von 8 kHz abgetasteten Abtastwerte können nach einem fundamentalen Abtasttheorem Audiosignale im Wesentlichen bis zu einer Frequenz von 4 kHz dargestellt werden. Dieser Frequenzbereich wird im Folgenden als schmalbandig bezeichnet.
Die untere Teilfigur veranschaulicht das mit einer Abtastrate von 16 kHz abgetastete Audiosignal. Entsprechend der gegenüber der oberen Teilfigur verdoppelten Abtastrate beträgt der Abtastabstand DT2 in der unteren Teilfigur die Hälfte des Ab- tastabstandes DTl, d.h. hier 1/16000 s. Durch die mit einer Abtastrate von 16 kHz abgetasteten Abtastwerte kann ein Audiosignal im Wesentlichen bis zu einer Frequenz von 8 kHz dargestellt werden. Der vorstehende Frequenzbereich wird im Folgenden auch als breitbandig bezeichnet. Es versteht sich, dass die Begriffe schmalbandig und breitbandig nicht auf die nur beispielhaft genannten Frequenzbereiche beschränkt sind, sondern auf beliebige Frequenzbereiche insoweit verallgemeinerbar sind, als der Begriff breitbandig einen größeren Fre- quenzbereich spezifizieren soll, als der Begriff schmalbandig.
Die Figuren 2a und 2b zeigen in schematischer Darstellung verschiedene Ausführungsformen eines erfindungsgemäßen Anre- gungssignalgenerators . Die dargestellten Anregungssignalgeneratoren umfassen als Funktionskomponenten jeweils einen Rauschgenerator NOISE, ein adaptives Kodebuch ACB sowie eine Mischeinrichtung MIX. Der Zufallsgenerator NOISE dient zum zeitlich fortlaufenden Generieren von Zufalls-Abtastwerten mit einem jeweils vorgegebenen Abtastabstand. Für beide in
Figur 2a und 2b dargestellten Ausführungsformen sei beispielhaft angenommen, dass der jeweilige Rauschgenerator NOISE Zu- falls-Abtastwerte mit einer schmalbandigen Abtastrate, also z.B. 8 kHz generiert. Unter Zufalls-Abtastwerten seien hier- bei Abtastwerte verstanden, die vom Rauschgenerator zeitlich fortlaufend, zufällig oder quasizufällig erzeugt werden und insbesondere nicht vorgegeben sind oder aus vorgegebenen Werten ausgewählt werden. Insbesondere werden die Zufalls- Abtastwerte unabhängig von einem mittels des jeweiligen Anre- gungssignalgenerators zu enkodierenden oder zu dekodierenden Audiosignals erzeugt. Mithin ist zum Betrieb des Rauschgenerators NOISE kein Zuführen oder Übermitteln spezifischer Zugriffsparameter erforderlich wie bei einem fixen Kodebuch gemäß dem Stand der Technik. In einem solchen fixen Kodebuch sind fest vorgegebene, deterministische Abtastsequenzen gespeichert, zu deren zeitrahmenweisem Abruf fortlaufend Kodebuch-Indizes zuzuführen sind, was in der Regel einen erheblichen Anteil an der Übertragungsbandbreite- beansprucht . Vorzugsweise weist ein durch die Zufalls-Abtastwerte gebildetes Rauschsignal ein im Wesentlichen weißes bzw. flaches Frequenzspektrum auf.
Im Folgenden wird zunächst die in Figur 2a dargestellte Ausführungsform des Anregungssignalgenerators betrachtet. Der dort dargestellte Anregungssignalgenerator kann allgemein zur Audio- und/oder Sprachkodierung eingesetzt werden. Sowohl der Rauschgenerator NOISE, als auch das adaptive Kodebuch ACB ge- ben Abtastwerte zeitrahmenweise, d.h. als Abfolge von Abtastwerte enthaltenden Zeitrahmen vorgegebener Länge aus. Ein Zeitrahmen von z.B. von 5 ms Länge enthält bei einer Abtastrate von z.B. 8 kHz entsprechend 40 Abtastwerte. Bei einer Abtastrate von 16 kHz enthält einer derartiger Zeitrahmen entsprechend 80 Abtastwerte.
Während der Rauschgenerator NOISE fortlaufend Zufalls- Sequenzen EXC_N, d.h. Zeitrahmen mit Zufalls-Abtastwerten erzeugt, gibt das adaptive Kodebuch ACB fortlaufend Sequenzen d.h. Zeitrahmen EXC_P von gespeicherten Anregungs-
Abtastwerten aus. Die Zufalls-Sequenzen EXC_N und die vom a- daptiven Kodebuch ACB ausgegebenen Sequenzen EXC_P werden der Mischeinrichtung MIX zugeleitet, der auch Intensitätsparameter G_N zur Pegelsteuerung der Zufalls-Sequenzen EXC_N sowie Intensitätsparameter G_P zur Pegelsteuerung der vom adaptiven Kodebuch ACB kommenden Sequenzen EXC_P zeitrahmenweise zugeleitet werden. In der Mischeinrichtung MIX werden die Zufalls-Abtastwerte einer jeweiligen Zufalls-Sequenz EXC_N mit einem jeweiligen Intensitätsparameter G_N und die Abtastwerte einer jeweiligen vom adaptiven Kodebuch ACB ausgegebenen Sequenz EXC_P mit einem jeweiligen Intensitätsparameter G_P zeitrahmenweise multipliziert, d.h. verstärkt. Die Multiplikationen sind in Figur 2a durch mit Multiplikationszeichen versehene Kreise angedeutet. Die gemäß den Intensitätsparame- tern G_N und G_P verstärkten Abtastwertsequenzen werden durch die Mischeinrichtung MIX zeitrahmenweise addiert und das resultierende Summensignal als Anregungssignal EXC in Form einer Folge von Anregungs-Abtastwerten ausgegeben. Die Addition ist in Figur 2a durch einen mit einem Pluszeichen versehenen Kreis veranschaulicht. Das gebildete Anregungssignal EXC wird ausgegeben und parallel dazu zeitlich fortlaufend im adaptiven Kodebuch ACB gespeichert. Das Anregungssignal EXC wird also gewissermaßen vom Ausgang der Mischeinrichtung MIX zum adaptiven Kodebuch ACB rückgekoppelt.
Hinsichtlich des Anregungssignals EXC wirkt das adaptive Kodebuch ACB ähnlich wie ein Schieberegister, in das aktuell gebildete Sequenzen des Anregungssignals EXC eingespeichert werden und dabei früher gebildete Sequenzen des Anregungssignals unter Wahrung der zeitlichen Reihenfolge sukzessive nach hinten verschieben.
Die Ausgabe der Sequenzen EXC_P von gespeicherten Anregungs- Abtastwerten wird durch dem adaptiven Kodebuch ACB zeitrahmenweise zugeführte Audiogrundfrequenzparameter PITCH gesteuert. An Hand der Audiogrundfrequenzparameter PITCH werden die vom adaptiven Kodebuch ACB auszugebenden Sequenzen EXP aus den gespeicherten Anregungs-Abtastwerten ausgewählt. Die Aus- wähl erfolgt mittels einer Auswahleinrichtung SEL des adaptiven Kodebuchs ACB. Ein derartiger Audiogrundfrequenzparameter PITCH wird in der Fachwelt häufig auch als „pitch lag" bezeichnet .
Es sei im Folgenden angenommen, dass die Audiogrundfrequenzparameter PITCH jeweils in Einheiten eines schmalbandigen Abtastabstandes, hier z.B. 1/8000 s bei einer schmalbandigen Abtastrate von 8 kHz, vorgegeben sind. Durch die Audiogrundfrequenzparameter PITCH wird jeweils zeitrahmenweise eine Pe- riode einer Grundfrequenz des zu übertragenden oder zu synthetisierenden Audiosignals spezifiziert. Bei zeitgemäßen Audiokodierverfahren, z.B. gemäß der G.729-Empfehlung, werden die Grundfrequenz-Perioden eines Audiosignals häufig mit hö- herer Auflösung gemessen oder bereitgestellt, als einem jeweils verwendeten Abtastabstand entspricht. Ein solcher, bis auf Bruchteile, von Abtastabständen genauer Audiogrundfrequenzparameter kann also in Einheiten des Abtastabstandes auch nicht-ganzzahlige Werte annehmen. Eine solcher nicht- ganzzahliger Audiogrundfrequenzparameter PITCH enthält Informationen über höhere Frequenzanteile, als dem Abtastabstand eigentlich entspricht. Während solche höheren Frequenzanteile bei bekannten Audiokodierern, z.B. gemäß der G.729-Empfehlung herausgefiltert werden, kann die Information über die höheren Frequenzanteile bei erfindungsgemäßen Audiosignalgeneratoren auf einfache Weise zur Verbesserung der Audiosynthesequalität genutzt werden.
Figur 3 veranschaulicht die Auswahl einer Abtastwertsequenz EXC_P aus dem adaptiven Kodebuch ACB anhand des der Auswahleinrichtung SEL zugeführten Audiogrundfrequenzparameters PITCH. Figur 3 zeigt einen Ausschnitt der im adaptiven Kodebuch ACB zeitlich fortlaufend gespeicherten Anregungs- Abtastwerte. Die gespeicherten Anregungs-Abtastwerte sind durch mit senkrechten Linien versehene Punkte angedeutet, wobei die Länge einer jeweiligen Linie eine jeweilige Amplitude eines Anregungs-Abtastwerts veranschaulicht. Der zeitliche Verlauf wird durch eine Zeitachse T angezeigt.
Ein aktueller Zeitbezug TO wird in Figur 3 durch eine senkrechte Linie angedeutet, die diejenige Stelle im adaptiven Kodebuch angibt, an der ein jeweiliger aktuell gebildeter Zeitrahmen des Anregungssignals im adaptiven Kodebuch ACB neu eingespeichert wird. Die Speicherung erfolgt hierbei zeitlich oder logisch angrenzend an einen unmittelbar vorher abgespeicherten Zeitrahmen des Anregungssignals. Aus Übersichtlichkeitsgründen umfasst ein Zeitrahmen in Figur 3 nur vier Abtastwerte. Eine Verallgemeinerung der durch Figur 3 veran- schaulichten Zusammenhänge auf Zeitrahmen mit beliebiger vorgegebener Länge ist evident.
Aus dem adaptiven Kodebuch ACB wird diejenige Sequenz EXC_P von gespeicherten Anregungs-Abtastwerten zur Ausgabe ausge- wählt, deren Beginn einen dem Audiogrundfrequenzparameter PITCH entsprechenden Zeitabstand vom aktuellen Zeitbezug TO aufweist und deren Länge der vorgegebenen Länge eines Zeitrahmens entspricht. Der Zeitabstand wird hierbei vom aktuellen Zeitbezug TO aus zeitlich rückwärts gerechnet. Es seit darauf hingewiesen, dass der Beginn der ausgewählten Sequenz EXC_P nicht auf eine Zeitrahmengrenze fallen muss, sondern ggf. innerhalb vorgegebener Grenzen auf einen beliebigen gespeicherten Anregungs-Abtastwert fallen kann.
In Figur 3 ist beispielhaft angenommen, dass durch den mit dem aktuellen Zeitrahmen übermittelten Audiogrundfrequenzparameter PITCH ein Zeitabstand von sechs Abtastabständen spezifiziert wird. Somit wird als ausgewählte Sequenz EXC_P ein Zeitrahmen vom sechstletzten gespeicherten Anregungs- Abtastwert bis zum drittletzten gespeicherten Anregungs- Abtastwert, gerechnet vom aktuellen Zeitbezug TO, ausgegeben. Der ausgegebene Zeitrahmen EXC_P ist in Figur 3 durch ein strichliertes Rechteck angedeutet.
Beim Einschalten des erfindungsgemäßen Anregungssignalgenerators ist das adaptive Kodebuch ACB zunächst leer, um dann sukzessive mit gebildeten Anregungs-Abtastwerten des ausgegebenen Anregungssignals EXC gefüllt zu werden. Da das adaptive Kodebuch ACB zu Beginn leer ist, wird das Anregungssignal EXC zunächst nur durch den Rauschgenerator NOISE als einziger Signalquelle gespeist. Dies bedeutet, dass das adaptive Kode- buch ACB zunächst mit nicht-periodischen Zufalls-Abtastwerten befüllt wird. In diesem Szenario stellt sich die Frage, wie sich mittels des adaptiven Kodebuchs ACB periodische Signalkomponenten gewinnen lassen, da als originäre Signalquelle lediglich ein nicht-periodischer Rauschgenerator NOISE zur Verfügung steht. Tatsächlich wurde nach bisherigen Vorstellungen für nötig erachtet, neben einem adaptiven Kodebuch, auch ein fixes Kodebuch vorzusehen, um das adaptive Kodebuch ACB mit determinierten, im fixen Kodebuch gespeicherten Signalsequenzen, zu befüllen.
Gemäß einer Untersuchung der Erfinder ist ein derartiges fi- xes Kodebuch jedoch nicht erforderlich. Tatsächlich kann auch ohne fixes Kodebuch ein Anregungssignal mir harmonischer Feinstruktur durch fortlaufende geeignete Auswahl von Abtastwertsequenzen EXC_P aus dem adaptiven Kodebuch ACB erzeugt werden. Zur Verdeutlichung des zugrunde liegenden Wirkungs- prinzips sei ein Fall betrachtet, bei dem der Audiogrundfrequenzparameter PITCH über mehrere Zeitrahmen hinweg konstant bleibt. In einem solchen Fall wird aus dem adaptiven Kodebuch ACB mehrmals hintereinander ein Zeitrahmen mit der gleichen Zeitlage relativ zu TO aus dem adaptiven Kodebuch ACB ausge- lesen, mit einer Zufalls-Sequenz EXC_N des Rauschgenerators NOISE gemischt und als aktueller Zeitrahmen des Anregungssignals EXC wieder im aktuellen Kodebuch ACB gespeichert. Der aktuelle Zeitrahmen wird dabei mit einem durch den Audiogrundfrequenzparameter PITCH spezifizierten Abstand zur vor- her ausgegebenen Sequenz EXC_P gespeichert. Auf diese Weise bildet sich im adaptiven Kodebuch ACB sukzessive ein periodischer Signalanteil, dessen Periode durch den Audiogrundfrequenzparameter PITCH bestimmt wird. Der periodische Anteil am Gesamtanregungssignal EXC wird dabei durch die Intensitätsparameter G_N und G__P gesteuert.
Aufgrund der Verwendung des Rauschgenerators NOISE an Stelle eines fixen Kodebuchs kann eine Übertragung von Kodebuch- Indizes für ein fixes Kodebuch entfallen. Auf diese Weise kann die Übertragungsrate bzw. Bandbreite für die Übertragung von Audiosignalen erheblich reduziert werden. Zudem lässt sich durch die Verwendung des Rauschgenerators NOISE ein bes- serer Höreindruck, insbesondere bei einer Wiedergabe nicht harmonischer oder rauschartiger Audioanteile erzielen.
Anhand von Figur 2b wird im Folgenden eine Ausführungsform des erfindungsgemäßen Anregungssignalgenerators zum Erzeugen eines bandbreitenerweiterten Anregungssignals EXC erläutert. Das ausgegebene Anregungssignal EXC wird mit einer um einen Bandbreitenerweiterungsfaktor N erweiterten Bandbreite erzeugt. Die auch in Figur 2a verwendeten Bezugszeichen behalten in Figur 2b ihre Bedeutung.
Es sei beispielhaft angenommen, dass der Bandbreitenerweiterungsfaktor N einen Wert von 2 aufweist, und dass bei einer schmalbandigen Abtastrate von 8 kHz die Abtastrate des auszugebenden Anregungssignals EXC entsprechend N x 8 kHz = 16 kHz beträgt.
Während der Rauschgenerator NOISE Zufalls-Abtastwerte mit der schmalbandigen Abtastrate von 8 kHz ausgibt, verwenden das adaptive Kodebuch ACB und die Mischeinrichtung MIX die breit- bandige Abtastrate von 16 kHz. Zur Anpassung der schmalbandigen Abtastrate des Rauschgenerators NOISE an die breitbandige Abtastrate der Mischeinrichtung MIX ist zwischen diese und dem Rauschgenerator NOISE ein Interpolator INT_N geschaltet. Der Interpolator INT N empfängt die vom Rauschgenerator NOISE mit schmalbandiger Abtastrate ausgegebenen Zufalls- Abtastwerte und setzt zwischen jeweils zwei dieser Zufalls- Abtastwerte einen Zwischen-Abtastwert mit der Amplitude 0. Für andere Werte des Bandbreitenerweiterungsfaktors N werden analog dazu N-I Zwischen-Abtastwerte, jeweils mit Amplitude 0, zwischen jeweils zwei Zufalls-Abtastwerten eingefügt. Auf diese Weise wird ein schmalbandiges weißes Rauschspektrum des Rauschgenerators NOISE auf ein breitbandiges weißes Spektrum umgesetzt.
Es sei angenommen, dass der Audiogrundfrequenzparameter PITCH in Einheiten des schmalbandigen Abtastabstandes zugeführt wird. Es sei weiterhin angenommen, dass der Audiogrundfrequenzparameter PITCH in diesen Einheiten bis mindestens auf einen Bruchteil l/N genau, das heißt hier bis auf 1/2 genau bereitgestellt wird. Der nicht-ganzzahlige Audiogrundfrequenzparameter PITCH enthält Informationen über Frequenzanteile außerhalb des schmalbandigen Frequenzbereiches. Ein derartiger, nicht ganzzahliger Audiogrundfrequenzparameter PITCH wird häufig auch durch pitch = p + p_frac/N dargestellt, wobei p und p_frac ganzzahlige Parameter mit p_frac = 0,...,N - 1 sind. Da das adaptive Kodebuch ACB einen gegenüber dem schmalbandigen Abtastabstand halbierten, bzw. durch N geteilten, Abtastabstand verwendet, wird der Audiogrundfre- quenzparameter PITCH zunächst mit N multipliziert. Das resultierende Produkt PITCH x N = p x N + p_frac wird dann zur Auswahl der gespeicherten Abtastwertsequenz EXC_P - wie schon im Zusammenhang mit Figur 3 erläutert - verwendet.
Durch den in Figur 2b dargestellten Anregungssignalgenerator kann auf einfache Weise ein bandbreitenerweitertes Anregungssignal EXC erzeugt werden, dessen harmonische Feinstruktur im Erweiterungsband durch Nutzung des gebrochen-zahligen Anteils des Audiogrundfrequenzparameters PITCH besser modelliert wer- den kann. Insbesondere kann die harmonische Feinstruktur des Anregungssignals im schmalbandigen Frequenzbereich harmonisch und konsistent in das Erweigerungsband fortgesetzt werden.
In Figur 4 ist ein erfindungsgemäßer Audiosignaldekodierer zum Empfangen eines zu übertragenden Audiosignals schematisch dargestellt. Der Audiosignaldekodierer umfasst ein Audiosynthesefilter ASYN, das durch ein breitbandiges Anregungssignal S_EXC, z.B. im Frequenzbereich von 0 bis 8 kHz angeregt wird und durch Filterung ein synthetisches Audiosignal SAS generiert. Dem Audiosynthesefilter ASYN werden spektrale Parameter F_ENV, die eine spektrale Einhüllende des zu übertragenden Audiosignals spezifizieren, sowie Zeitverlauf-Parameter T_ENV, die eine zeitliche Einhüllende des Audiosignals spezi- fizieren, zugeführt. Das Audiosynthesefilter ASYN formt anhand der zugeführten Parameter F_ENV und T_ENV die spektrale und zeitliche Einhüllende des zu synthetisierenden Audiosignals SAS. Die Parameter F_ENV und T_ENV werden vom Sender des zu übertragenden Audiosignals zeitrahmenweise ermittelt und zum Empfänger bzw. Audiosignaldekodierer übertragen.
Die Erzeugung des breitbandigen Anregungssignals S_EXC ist in unterschiedliche Schichten, nämlich eine Schicht für den schmalbandigen Frequenzbereich, hier von 0 bis 4 kHz, und ei- ne Schicht für das Erweiterungsband, hier von 4 bis 8 kHz, aufgeteilt. Der Audiosignaldekodierer weist zur Erzeugung eines schmalbandigen Anregungssignals N_EXC, hier im Frequenzbereich von 0 bis 4 kHz, einen schmalbandigen Anregungssignalsgenerator NBC und zur Erzeugung eines frequenzerweiterten Anregungssignals E_EXC, hier im Frequenzbereich von 4 bis 8 kHz, einen Anregungssignalgenerator EBC gemäß Figur 2b für das Erweiterungsband auf. Der schmalbandige Anregungssignalgenerator NBC kann wie der in Figur 2a dargestellte, erfindungsgemäße Anregungssignalgenerator oder wie ein herkömmli- eher, mit adaptivem und fixem Kodebuch ausgestatteter Anregungssignalgenerator, z.B. gemäß G.729-Empfehlung, ausgestaltet sein.
Dem schmalbandigen Anregungssignalgenerator NBC werden zeit- rahmenweise jeweils der Audiogrundfrequenzparameter PITCH sowie die Intensitätsparameter G_N und G_P zugeführt. An Stelle der Intensitätsparameter G_N und G_P können auch ein Summenparameter G_S+G_N und ein Verhältnisparameter G_S/G_N bzw. dessen Kehrwert zugeführt werden.
Der Audiogrundfrequenzparameter PITCH ist wie im Zusammenhang mit Figur 2b bereits erläutert nicht-ganzzahlig und gegeben durch pitch=p+p_frac/N. Der Bandbreitenerweiterungsfaktor N hat entsprechend dem Bandbreitenverhältnis zwischen dem breitbandigen Frequenzbereich von 0 bis 8 kHz und dem schmalbandigen Frequenzbereich von 0 bis 4 kHz beispielhaft einen Wert von N=2. Anhand der zugeführten Parameter PITCH, G_S und G_N erzeugt der schmalbandige Anregungssignalgenerator NBC das schmalbandige Anregungssignal N_EXC.
Dem gemäß Figur 2b ausgestalteten Anregungssignalgenerator EBC werden die vom schmalbandigen Anregungssignalgenerator NBC verwendeten Parameter PITCH, G_S und G_N zugeleitet. Die Intensitätsparameter G_S und G_N werden ggf. durch eine vorgegebene Funktion umgesetzt, bevor sie in der Mischeinrichtung MIX des Anregungssignalgenerators EBC zur Pegelsteuerung verwendet werden. Die zugeleiteten Audiogrundfrequenzparameter PITCH werden, wie in Figur 2b veranschaulicht, mit N, hier N=2, multipliziert, um aus dem adaptiven Kodebuch des
Anregungssignalgenerators EBC eine gespeicherte Anregungssignalsequenz auszuwählen. Anhand der zugeführten Parameter PITCH, G_S und G_N erzeugt der Anregungssignalgenerator EBC, wie bereits in Zusammenhang mit Figur 2b erläutert, das Anre- gungssignal EXC, das zunächst noch eine Bandbreite von 0 bis 8 kHz aufweist. Da der Anregungssignalgenerator EBC beim dargestellten Audiosignaldekodierer nur für das Erweiterungsband zuständig sein soll, wird das Anregungssignal EXC einem Hoch- passfilter HP zugeführt. Dieser lässt im Wesentlichen nur Frequenzen des Erweiterungsbandes von 4 bis 8 kHz passieren und gibt ein frequenzerweitertes Anregungssignal E_EXC aus. Das frequenzerweiterte Anregungssignal E__EXC wird mit dem schmalbandigen Anregungssignal N_EXC, wie in Figur 4 durch ein Pluszeichen angedeutet, kombiniert, um das breitbandige Anregungssignal S_EXC zu bilden. Letzteres wird schließlich dem Audiosynthesefilter ASYN zugeführt.
Beim erfindungsgemäßen Audiosignaldekodierer werden zur Er- zeugung des bandbreitenerweiterten Anregungssignals E_EXC und damit zur Erzeugung des breitbandigen Anregungssignals S_EXC nur die Audioparameter PITCH, G_S und G_N benötigt, die zur Erzeugung des schmalbandigen Anregungssignals ohnehin übertragen werden oder von einem schmalbandigen Anregungssignal- generator bereitgestellt werden. Die Audioparameter PITCH,
G_N und G_P können also vorteilhafterweise aus dem schmalbandigen Frequenzbereich des zu übertragenden Audiosignals oder aus Parametern eines schmalbandigen Codecs abgeleitet werden, um dann auf ein hinzuzufügendes Erweiterungsband angewandt zu werden. Zur Erzeugung des breitbandigen Anregungssignals
S_EXC sind gegenüber einer Erzeugung des schmalbandigen Anregungssignals N_EXC keine zusätzlichen Audioparameter zu übertragen. Durch den Verzicht auf ein fixes Kodebuch in den Anregungssignalgeneratoren EBC und/oder NBC kann darüber hinaus eine zusätzliche Übertragung von Kodebuch-Indizes entfallen. Zusatzinformationen über eine Audiostruktur im Erweiterungsband können durch die Parameter F_ENV und T_ENV übertragen werden. Der in Figur 4 dargestellte Audiosignaldekodierer kann zu einem Audiosignalenkodierer nach dem Analysis-by-Synthesis- Principle erweitert werden. Hierbei wird das synthetisierte Audiosignal SAS durch eine Vergleichseinrichtung mit dem zu enkodierenden Audiosignal verglichen und durch Variation der Audiosyntheseparameter PITCH, G_S, G_N, F_ENV und T_ENV angeglichen. Eine Kombination aus Audiosignaldekodierer und Audiosignalenkodierer wird häufig auch als Codec bezeichnet.

Claims

Patentansprüche
1) Verfahren zum Bilden eines Anregungssignals (EXC) als Folge von Anregungs-Abtastwerten zum Anregen eines Audiosyn- thesefilters (ASYN) , wobei a) bereits gebildete der Anregungs-Abtastwerte zeitlich fortlaufend in einem adaptiven Kodebuch (ACB) gespeichert werden, b) durch einen Rauschgenerator (NOISE) fortlaufend Zufalls- Abtastwerte generiert werden, c) aus dem adaptiven Kodebuch (ACB) eine Sequenz (EXC_P) der gespeicherten Anregungs-Abtastwerte anhand eines zugeführten Audiogrundfrequenzparameters (PITCH) ausgewählt wird, durch den ein Zeitabstand der auszuwählenden Sequenz (EXC_P) zum aktuellen Zeitbezug vorgegeben wird, und d) das Anregungssignal (EXC) durch Mischen der ausgewählten Sequenz (EXC_P) mit einer aktuelle Zufalls-Abtastwerte des Rauschgenerators (NOISE) umfassenden Zufalls-Sequenz (EXC_N) gebildet wird.
2) Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Anregungs-Abtastwerte und/oder die Zufalls- Abtastwerte zeitrahmenweise verarbeitet werden, und dass die Länge der ausgewählten Sequenz (EXC_P) und/oder die Länge der Zufalls-Sequenz (EXC_N) einer vorgegebenen Länge eines Zeitrahmens entsprechen.
3) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass falls der Audiogrundfrequenzparameter (PITCH) einen Zeitabstand vorgibt, der kein ganzzahliges Vielfaches eines vorgegebenen Abtastabstandes eines separat zu generie- renden, schmalbandigen Anregungssignals ist, zwischen die Anregungs-Abtastwerte und/oder zwischen die Zufalls-Abtastwerte abhängig vom Audiogrundfrequenzparameter (PITCH) Zwischen-Abtastwerte derart eingefügt werden, dass ein Abtastabstand der Abtastwerte geringer ist als der Abtastabstand des schmalbandigen Anregungssignals, wodurch das Anregungssignal (EXC) gegenüber dem schmalbandigen Anregungssignal zusätzliche Frequenzkomponenten eines Erweiterungsbandes aufweist.
4) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass beim Mischen die ausgewählte Sequenz (EXC_P) gemäß einem ersten Intensitätsparameter (G_P) und/oder die Zu- falls-Sequenz (EXC_N) gemäß einem zweiten Intensitätsparameter (G_N) verstärkt werden.
5) Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Anregungssignal (EXC) mit einem gegenüber einem separat zu generierenden, schmalbandigen Anregungssignal geringeren Abtastabstand gebildet wird, wodurch das Anregungssignal (EXC) gegenüber dem schmalbandigen Anregungssignal zusätzliche Frequenzkomponenten eines Erweiterungs- bandes aufweist, und dass der Audiogrundfrequenzparameter (PITCH) sowie der erste Intensitätsparameter (G_P) und/oder der zweite Intensitätsparameter (G_N) aus zur Generierung des schmalbandigen Anregungssignals vorgesehenen Audiosynthese- Parametern abgeleitet werden.
6) Verfahren nach Anspruch 3 oder 5, dadurch gekennzeichnet, dass ein auf das Erweiterungsband entfallender Anteil des Anregungssignals (EXC) mit dem separat generierten, schmalbandigen Anregungssignal kombiniert wird, um ein breitbandiges Anregungssignal zur Anregung des Audiosynthesefilters (ASYN) zu erzeugen.
7) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Anregungssignal (EXC) durch ein LPC-Filter (LPC: Linear Predicitve Coding) und/oder durch Formung einer spektralen und/oder zeitlichen Einhüllenden gefiltert wird.
8) Anregungssignalgenerator zum Bilden eines Anregungssignals
(EXC) als Folge von Anregungs-Abtastwerten zum Anregen ei- nes Audiosynthesefilters (ASYN) , aufweisend a) ein adaptives Kodebuch (ACB) zum zeitlich fortlaufenden Speichern von bereits gebildeten Anregungs-Abtastwerten, b) einen Rauschgenerator (NOISE) zum fortlaufenden Generieren von Zufalls-Abtastwerten, c) einer Auswahleinrichtung (SEL) zum Zuführen eines Audiogrundfrequenzparameters (PITCH) sowie zum Auswählen einer Sequenz (EXC_P) der gespeicherten Anregungs- Abtastwerte anhand des einen Zeitabstand der auszuwählenden Sequenz (EXC_P) zum aktuellen Zeitbezug vorgeben- den Audiogrundfrequenzparameters (PITCH) , sowie d) eine mit dem Rauschgenerator (NOISE) und dem adaptiven Kodebuch (ACB) gekoppelte Mischeinrichtung (MIX) zum Mischen der ausgewählten Sequenz (EXC_P) mit einer aktuelle Zufalls-Abtastwerte des Rauschgenerators (NOISE) um- fassenden Zufalls-Sequenz (EXC_N) und zum Ausgeben des dadurch gebildeten Anregungssignals (EXC) .
9) Anregungssignalgenerator nach Anspruch 8, dadurch gekennzeichnet, dass der Rauschgenerator (NOISE) mit der Mischeinrichtung (MIX) über einen Interpolator (INT_N) zum Einfügen von Zwischen-Abtastwerten zwischen die Zufalls-Abtastwerte gekoppelt ist.
10) Audiosignalenkodierer mit einem Anregungssignalgenerator nach Anspruch 8 oder 9 zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7, einem durch den Anregungssignalgenerator anzuregenden Audiosynthesefilter so- wie einer Vergleichseinrichtung zum Angleichen eines synthetischen, vom angeregten Audiosynthesefilter erzeugten Audiosignais an ein zu übertragendes Audiosignal.
11) Audiosignaldekodierer mit einem Anregungssignalgenerator nach Anspruch 8 oder 9 zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7 und einem durch den Anregungssignalgenerator anzuregenden Audiosynthesefilter zum Erzeugen eines synthetischen Audiosignals.
EP06706507.8A 2006-01-31 2006-01-31 Verfahren und anordnungen zur audiosignalkodierung Active EP1979899B1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2006/000811 WO2007087823A1 (de) 2006-01-31 2006-01-31 Verfahren und anordnungen zur audiosignalkodierung

Publications (2)

Publication Number Publication Date
EP1979899A1 true EP1979899A1 (de) 2008-10-15
EP1979899B1 EP1979899B1 (de) 2015-03-11

Family

ID=36367705

Family Applications (1)

Application Number Title Priority Date Filing Date
EP06706507.8A Active EP1979899B1 (de) 2006-01-31 2006-01-31 Verfahren und anordnungen zur audiosignalkodierung

Country Status (4)

Country Link
US (1) US8135584B2 (de)
EP (1) EP1979899B1 (de)
CN (1) CN101336449B (de)
WO (1) WO2007087823A1 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135584B2 (en) * 2006-01-31 2012-03-13 Siemens Enterprise Communications Gmbh & Co. Kg Method and arrangements for coding audio signals
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
US20120045001A1 (en) * 2008-08-13 2012-02-23 Shaohua Li Method of Generating a Codebook
EP2502230B1 (de) * 2009-11-19 2014-05-21 Telefonaktiebolaget L M Ericsson (PUBL) Anregungssignale zur verbesserten bandbreitenausdehnung
FR2955187A1 (fr) * 2010-01-08 2011-07-15 Centre Nat Rech Scient Procede de decomposition d'un signal periodique anharmonique et programme d'ordinateur correspondant
CN104575507B (zh) * 2013-10-23 2018-06-01 中国移动通信集团公司 语音通信方法及装置
EP2963648A1 (de) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audioprozessor und Verfahren zur Verarbeitung eines Audiosignals mit vertikaler Phasenkorrektur
US10200872B2 (en) * 2014-10-08 2019-02-05 Qualcomm Incorporated DC subcarrier handling in narrowband devices
DE102016119750B4 (de) * 2015-10-26 2022-01-13 Infineon Technologies Ag Vorrichtungen und Verfahren zur Mehrkanalabtastung
CN109003621B (zh) * 2018-09-06 2021-06-04 广州酷狗计算机科技有限公司 一种音频处理方法、装置及存储介质
CN113643682B (zh) * 2021-10-13 2022-07-15 展讯通信(上海)有限公司 降噪方法、芯片、芯片模组及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
CN1169117C (zh) * 1996-11-07 2004-09-29 松下电器产业株式会社 声源矢量生成装置以及声音编码装置和声音解码装置
KR20000064913A (ko) * 1997-02-10 2000-11-06 요트.게.아. 롤페즈 저ㄴ송 시스템, 수신기, 및 재구성된 음성 신호 유도 방법
JP4792613B2 (ja) 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
US8135584B2 (en) * 2006-01-31 2012-03-13 Siemens Enterprise Communications Gmbh & Co. Kg Method and arrangements for coding audio signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2007087823A1 *

Also Published As

Publication number Publication date
CN101336449B (zh) 2011-10-19
CN101336449A (zh) 2008-12-31
EP1979899B1 (de) 2015-03-11
WO2007087823A1 (de) 2007-08-09
US8135584B2 (en) 2012-03-13
US20090012782A1 (en) 2009-01-08

Similar Documents

Publication Publication Date Title
EP1979899B1 (de) Verfahren und anordnungen zur audiosignalkodierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE102008015702B4 (de) Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE19604273C2 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE3710664C2 (de)
DE3639753C2 (de)
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE602005003358T2 (de) Audiokodierung
WO2006114368A1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
DE69828709T2 (de) Erhöhung der Dichte von kodierten Sprachsignalen
DE60124079T2 (de) Sprachverarbeitung
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE60102975T2 (de) Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen
DE4343366C2 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
DE10252070B4 (de) Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
DE60125491T2 (de) Tiefpaßfilterung des Anregungssignals für die Sprachkodierung
WO2009103609A1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen
WO2006072526A1 (de) Verfahren zur bandbreitenerweiterung
EP1834322B1 (de) Verfahren zum codieren eines analogen signals
EP1579426A1 (de) Verfahren zur übertragung von audiosignalen nach dem verfahren der priorisierenden pixelübertragung
EP2380169B1 (de) Verfahren und mittel zur skalierbaren verbesserung der qualität eines signalcodierverfahrens
WO1994010682A1 (de) Verfahren zur sprachcodierung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20080609

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE FR GB IT SE

DAX Request for extension of the european patent (deleted)
RBV Designated contracting states (corrected)

Designated state(s): DE FR GB IT SE

17Q First examination report despatched

Effective date: 20120525

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIFY GMBH & CO. KG

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20141006

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB IT SE

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502006014233

Country of ref document: DE

Effective date: 20150416

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150311

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502006014233

Country of ref document: DE

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 11

26N No opposition filed

Effective date: 20151214

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20160122

Year of fee payment: 11

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502006014233

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

Ref country code: DE

Ref legal event code: R082

Ref document number: 502006014233

Country of ref document: DE

Representative=s name: FRITZSCHE PATENTANWAELTE, DE

Ref country code: DE

Ref legal event code: R081

Ref document number: 502006014233

Country of ref document: DE

Owner name: UNIFY GMBH & CO. KG, DE

Free format text: FORMER OWNER: UNIFY GMBH & CO. KG, 81379 MUENCHEN, DE

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 12

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 13

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170131

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502006014233

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20240119

Year of fee payment: 19

Ref country code: GB

Payment date: 20240124

Year of fee payment: 19

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20240124

Year of fee payment: 19