EP1825461B1 - Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen - Google Patents
Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen Download PDFInfo
- Publication number
- EP1825461B1 EP1825461B1 EP06840370A EP06840370A EP1825461B1 EP 1825461 B1 EP1825461 B1 EP 1825461B1 EP 06840370 A EP06840370 A EP 06840370A EP 06840370 A EP06840370 A EP 06840370A EP 1825461 B1 EP1825461 B1 EP 1825461B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- bandwidth
- extension
- envelope
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Not-in-force
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000003595 spectral effect Effects 0.000 claims abstract description 73
- 230000002123 temporal effect Effects 0.000 claims abstract description 71
- 230000005284 excitation Effects 0.000 claims description 33
- 238000012937 correction Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims 4
- 238000007493 shaping process Methods 0.000 description 28
- 230000005540 biological transmission Effects 0.000 description 14
- 230000003321 amplification Effects 0.000 description 10
- 238000003199 nucleic acid amplification method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Definitions
- the invention relates to a method and a device for artificially expanding the bandwidth of speech signals.
- Speech signals cover a wide frequency range, which ranges from the basic speech frequency, which is dependent on the speaker in the range between 80 to 160 Hz, to the frequencies beyond 10 kHz.
- the basic speech frequency which is dependent on the speaker in the range between 80 to 160 Hz
- the frequencies beyond 10 kHz for voice communication over certain transmission media, such as telephones, only a limited portion is transmitted for bandwidth efficiency, ensuring a sentence intelligibility of about 98%.
- a speech signal can essentially be subdivided into three frequency ranges.
- Each of these frequency ranges characterizes specific speech characteristics as well as subjective sensations.
- lower frequencies below about 300 Hz arise substantially during voiced speech sections, such as vowels.
- This frequency range in this case contains tonal components, i. H. in particular the basic voice frequency and, depending on the pitch, possibly some harmonics.
- these depth frequencies are essential.
- the speech base frequency can be perceived by a human listener due to the psychoacoustic property of the virtual pitch sensation even in the absence of the depth frequencies from the harmonic structure in higher frequency ranges.
- average frequencies in the range of about 300 Hz to about 3.4 kHz are basically for voice activities present in the voice signal.
- Their time-variant spectral coloring by several formants as well as the temporal and spectral fine structure characterize the respective spoken sound or phoneme.
- the middle frequencies carry the bulk of the information relevant to the intelligibility of the language.
- the speech quality is a subjective quantity with a plurality of components, of which the intelligibility of the speech signal is the most important for such a speech communication system.
- parameters of the broadband model are determined from short segments of a narrowband speech signal using pattern recognition methods, which are then used to estimate the missing signal components of the speech.
- a broadband counterpart with frequency components in the range from 50 Hz to 7 kHz is generated from the narrow-band speech signal and an improvement of the subjectively perceived speech quality is effected.
- codecs include both an encoder and a decoder.
- Any digital telephone whether built for a fixed or mobile network, includes such a codec that converts analog to digital signals and digital to analog.
- Such a codec can be implemented in hardware or in software.
- components of an extension band for example in the frequency range of 6.4 to 7 kHz, are encoded and decoded using the LPC encoding technique already mentioned.
- an LPC analysis of the extension band of the input signal is performed in an encoder and the LPC coefficients and the amplification factors of subframes of a residual signal are encoded.
- the remainder of the expansion band is generated and the transmitted gain factors and the LPC synthesis filters are used to generate an output signal.
- the procedure described above can be applied either directly to the broadband input signal or else to a subband signal of the extension band that has been downsampled in the limit range or in the critical range.
- the extended aacPlus encoding standard uses SBR (Spectral Band Replication) technology.
- the broadband audio signal is split into frequency subbands by means of a 64-channel QMF filter bank.
- a sophisticated and technically advanced parametric coding is applied to the sub-bands of the signal components, requiring and using a large number of detectors and estimators to control the bitstream contents.
- the method according to the invention makes it possible to achieve an improvement in speech intelligibility and speech quality in the transmission of speech signals, whereby speech signals are also understood as audio signals.
- the inventive method is also very robust against interference during transmission.
- the signal components required for the bandwidth extension are determined by filtering, in particular bandpass filtering, from the wideband input speech signal, whereby a simple and low-cost selection of the required signal components can be performed.
- Determining the temporal envelopes in step c) is preferably carried out independently of the determination of the spectral envelopes in step d). As a result, the determination of the envelope takes place in a precise manner, whereby a mutual influence can be avoided.
- step e prior to encoding the temporal envelope and the spectral envelope in step e), quantization of the temporal envelope and the spectral envelope is performed.
- the signal powers of spectral subbands of the signal components intended for bandwidth expansion are determined in step d) for determining the spectral envelopes. The determination of the characterization of the temporal and the spectral envelope can thereby be carried out very accurately.
- signal segments of the bandwidth extension are preferably used generated signal components, these signal segments in particular transformed, in particular FF (Fast Fourier) transformed, are.
- the signal powers of temporal signal segments of the signal components intended for bandwidth expansion are advantageously determined in step c) for determining the temporal envelopes. In a labor-saving manner, the determination of the required parameters can thereby be carried out.
- step f) the encoded information for reconstructing the temporal envelope and the spectral envelope are decoded.
- An excitation signal is advantageously generated in a decoder from a signal transmitted to the decoder, the transmitted signal having such a signal power in the frequency range which corresponds to that of the extension signal of the wideband input speech signal, which enables generation of an excitation signal.
- a modulated narrowband signal having a band range with frequencies below the frequencies of the band range of the extension band of the wideband input speech signal for generating the excitation signal is preferably transmitted to the decoder.
- the excitation signal preferably has harmonics of the fundamental frequency of the signal transmitted to the decoder.
- a first correction factor is advantageously determined. Furthermore, a reconstructing shaping of the temporal envelope, in particular by a multiplication of the first correction factor with the excitation signal, is carried out from the first correction factor and the excitation signal. In addition, the reconstructed shaping of the temporal envelopes is filtered in an advantageous manner and impulse responses are generated during filtering. From the impulse responses and the reconstructed shaping the temporal envelope, a reconstructive shaping of the spectral envelope is performed. Furthermore, the signal components of the expansion band of the wideband input speech signal are reconstructed from the reconstructed shaping of the spectral envelope. The reconstruction of the temporal and the spectral envelopes can be carried out very reliably and very accurately.
- a narrow-band signal having a band range with frequencies below the frequencies of the extension band of the broadband input signal is transmitted to the decoder.
- the bandwidth-expanded output speech signal is advantageously determined from the narrow-band signal transmitted to the decoder and the reconstructed shaping of the spectral envelope, in particular from a summation of these two signals, and is provided as the output signal of the decoder.
- an output signal can be generated and provided which ensures high speech intelligibility and speech quality.
- the steps a) to e) are preferably carried out in an encoder, which is preferably arranged in a transmitter.
- the encoded information generated in step e) is advantageously transmitted as a digital signal to the decoder.
- At least step f) is preferably performed in a receiver with the decoder located in the receiver.
- all steps a) to f) of the method according to the invention are carried out in a receiver.
- steps a) to e) in the receiver are replaced by an estimation method (to be implemented differently).
- the steps a) to e) can also be carried out separately in a transmitter.
- the wideband input speech signal advantageously comprises a bandwidth between about 50 Hz and about 7 kHz.
- the extension band of the wideband input speech signal preferably comprises the frequency range of about 3.4 kHz to about 7 kHz.
- the narrowband signal comprises a signal range of the wideband input speech signal of about 50 Hz to about 3.4 kHz.
- the inventive device enables improved speech quality and improved speech intelligibility of speech signals during transmission in communication devices, such as mobile devices or ISDN devices.
- the means in a) to d) are advantageously designed as encoders.
- the encoder can be in a transmitter or in a receiver, wherein the decoder is arranged in a receiver.
- Advantageous embodiments of the method according to the invention can, insofar as it is transferable, also be regarded as advantageous embodiments of the device according to the invention.
- speech signals also includes audio signals.
- the same or functionally identical elements are provided with the same reference numerals.
- FIG. 2 shows a schematic block diagram representation of an encoder 1 of a device according to the invention for artificially expanding the bandwidth of speech signals.
- the coder 1 can be implemented as an algorithm both in hardware and in software.
- the encoder 1 comprises a block 11 which is used for bandpass filtering of a broadband input speech signal s wb i k is trained.
- the encoder 1 comprises a block 12 and a block 13, which are connected to the block 11.
- Block 12 is designed to determine the temporal envelope of the signal components intended for bandwidth expansion, which are determined from an extension band of the wideband input speech signal.
- the block 13 is configured to determine the spectral envelope of the bandwidth expansion signal components determined from the extension band of the wideband input speech signal.
- the block 12 and the block 13 are connected to a block 14, wherein the block 14 for quantizing the temporal envelope and the spectral envelope, which are generated by the blocks 12 and 13, is formed.
- FIG. 1 Furthermore, a block 2 is shown, which is designed as a band-pass filter, and to which the wideband input speech signal s wb i k is created.
- the block 2 is further connected to a further block 3, wherein the block 3 is formed as a further encoder.
- the encoder 1 and the blocks 2 and 3 are arranged in a first telephone set.
- the wideband input speech signal in the embodiment has a bandwidth of about 50 Hz to about 7 kHz.
- this wideband input speech signal s wb i k applied to the bandpass filter or the block 11 of the encoder 1.
- the signal components required for bandwidth expansion from the expansion band which in the exemplary embodiment comprises a bandwidth of about 3.4 kHz to about 7 kHz, are determined.
- the signal components required for the bandwidth expansion are characterized by the signal s eb ( k ) and are transmitted as an output signal of the block 11 to the two blocks 12 and 13.
- the temporal envelope is determined from this signal s eb ( k ).
- the spectral envelope of the signal components which are characterized by the signal s eb ( k ) is determined in block 13.
- the signal s eb ( k ) characterizing the signal components required for the bandwidth extension is first segmented and these windowed signal segments are transformed.
- the segmentation of the signal s eb ( k ) takes place in frames with a length of each k samples. All subsequent steps and subalgorithms are performed frame by frame.
- Each speech frame eg with 10 ms or 20 ms or 30 ms duration
- the windowed signal segments are then transformed.
- a transformation into the frequency domain is carried out by means of an FFT (Fast Fourier Transform).
- N f denotes the FFT length or frame size
- p denotes the frame index
- M f denotes the overlap of the frames of the windowed signal segments.
- w f ( ⁇ ) denotes the window function.
- ⁇ denotes the index of the corresponding subband
- EB ⁇ characterizes that set which contains all FFT interval ranges i with non-zero coefficients in the ⁇ th frequency space window w ⁇ ( i ).
- the signal powers P f ( ⁇ , ⁇ ) of the subbands according to formula 2) characterize the information of the spectral envelopes which are transmitted to a decoder.
- the determination of the time envelopes in the time period is performed in a manner similar to the determination of the spectral envelopes and is based on short-term windowed ones Segments of the bandpass filtered wideband input speech signal s wb i k , Thus, signal segments of the signal s eb ( k ) are also taken into account in the determination of the time envelopes.
- N t denotes the frame length
- ⁇ denotes the frame index
- M t again denotes the overlap of the frames of the signal segments. It should be noted that in general the frame length N t and the overlap of the frames M t used to extract the temporal envelope are respectively smaller and much smaller than the corresponding quantities N f and M f which are used for the determination for the Spectral envelopes are used.
- An alternative for extracting the temporal envelope parameters from the signal s eb ( k ) is to perform a Hilbert transform (90 ° phase shift filter) of the signal s eb ( k ).
- a summation of the short-segment signal powers of the filtered parts and the original parts of the signal s eb ( k ) gives the short term envelope, which is down-sampled to determine the signal powers P t ( v ).
- the signal powers P t (v) of the signal segments then characterize the information of the temporal envelope.
- the output of the block 14 is a digital signal BWE which characterizes a bit stream containing encoded form information of the temporal envelope and the spectral envelope.
- This digital signal BWE is transmitted to a decoder, which will be explained in more detail below. It should be noted that in the case of a redundancy between the extracted parameters of the signal strengths according to formulas 2) and 3), a common coding, such as may be made possible, for example, by vector quantization, can be carried out.
- the broadband input speech signal s wb i k also transferred to the block 2.
- the signal components of a narrowband range of the wideband input speech signal s wb i k filtered.
- the narrowband range is in the embodiment between 50 Hz and 3.4 kHz.
- the output signal of the block 2 is a narrowband signal s nb ( k ) and is transmitted to the block 3, which is formed in the embodiment as a further encoder.
- the narrow-band signal s nb ( k ) is encoded and transmitted as a digital signal BWN as a bit stream to the decoder explained below.
- FIG. 2 shows a schematic block diagram representation of such a decoder 5 of a device according to the invention for artificially expanding the bandwidth of speech signals.
- the digital signal BWN is first transmitted to a further decoder 4 which decodes the information contained in the digital signal BWN and in turn generates the narrowband signal s nb ( k ) from it.
- the decoder 4 generates a further signal s si ( k ) containing side information. These side information may be, for example, gain factors or filter coefficients.
- This signal s si ( k ) is transmitted to a block 51 of the decoder 5.
- the block 51 is formed in the embodiment for generating an excitation signal in the frequency range of the extension band, for which purpose the information of the signal s si ( k ) are taken into account.
- the decoder 5 which is arranged in the embodiment in a receiver, a block 52, which is designed for decoding the signal BWE transmitted over a transmission path between the encoder 1 and the decoder 2. It should be noted that also the digital signal BWN is transmitted via this transmission path between the encoder 1 and the decoder 5. As from the illustration in FIG. 2 As can be seen, both block 51 and block 52 are connected to decoder areas 53-55. The functional principle of the decoder 5 or the sub-steps of the method according to the invention carried out in the decoder 5 are explained in more detail below.
- the information contained in the encoded digital signal BWE is decoded in block 52 and the signal powers calculated according to formulas 2) and 3) and which characterize the temporal envelope and the spectral envelope are reconstructed.
- the excitation signal s exc ( k ) generated in block 51 is the input signal for the reconstructing shaping of the temporal envelope and the spectral envelope.
- This excitation signal s exc ( k ) can essentially be an arbitrary signal, with the essential prerequisite for this signal being that there is sufficient signal power in the frequency range of the extension band of the wideband input spectral signal s wb i k having.
- the excitation signal s exc (k) is a modulated version of the narrowband signal s nb (k) or any noise are used.
- this excitation signal is s exc ( k ) for the fine structuring of the spectral envelope and the temporal envelope in the signal components of the extension band of a wideband output speech signal s wb ° k responsible.
- this excitation signal s exc ( k ) in such Is generated such that it has the harmonics of the fundamental frequency of the narrowband signal s nb ( k ).
- ⁇ k is a proportional or real-valued shift of the fundamental frequency
- b of the LTB-gain of an adaptive code book in a CELP narrowband decoder then, for example, excitation with a harmonic frequencies (at an integer multiple of the instantaneous fundamental frequency by a LTP synthesis filter of a bandpass filter frequency range of the extension band) from an arbitrary signal n eb ( k ).
- the LTP amplification factor can be reduced or limited by the function f (b) in order to be able to prevent overstimulation of the generated signal components of the expansion band. It should be noted that a multiplicity of further alternatives can be carried out in order to be able to carry out synthetic broadband excitation by means of parameters of a narrow-band codec.
- Another way to generate an excitation signal is to modulate the narrowband signal s nb ( k ) with a sine function at a fixed frequency or by directly using an arbitrary signal n eb ( k ), as already defined above was, is performed. It should be emphasized that the method used for generating the excitation signal s exc ( k ) is completely independent of the generation of the digital signal BWE and the format of this digital signal BWE and the decoding of this digital signal BWE. Therefore, can In this regard, an independent setting be performed.
- the digital signal BWE is decoded in the block 52 and the parameters of the signal power characterizing the temporal envelope and the spectral envelope, which are calculated in accordance with the formulas 2) and 3), are output in accordance with the signals s p t (v ) and s p f ( ⁇ , ⁇ ) .
- a reconstructive shaping of the temporal envelope is performed in the embodiment first. This is done in the decoder area 53.
- the excitation signal s exc ( k ) and the signal s p t (v) are transmitted to this decoder region 53.
- the excitation signal s exc ( k ) is transmitted both to a block 531 and to a multiplier 532.
- the signal s p t (v) is also transmitted to the block 531.
- a scalar correction factor g 1 (k) is generated from these signals transmitted to block 531.
- This scalar correction factor g 1 (k) is transferred from the block 531 to the multiplier 532.
- the excitation signal s exc ( k ) is then multiplied by this scalar correction factor g 1 (k) and an output signal s exc ' k which characterizes the reconstructed shaping of the temporal envelopes.
- This output signal s exc ' k has the approximately correct temporal envelope, but is still inaccurate or imprecise with respect to the correct frequency, which in a subsequent step, the performing a reconstructed shaping of the spectral envelope is required to adapt this imprecise frequency to the required frequency.
- the output signal s exc ' k to a second decoder region 54 of the decoder 5, to which the signal s p t ( ⁇ , ⁇ ) is transmitted.
- the second decoder area 54 has a block 541 and a Block 542, wherein the block 541 for filtering the output signal s exc ' k is designed. From the output signal s exc ' k and the signal s p t ( ⁇ , ⁇ ) , an impulse response h (k) is generated, which is transmitted from block 541 to block 542. In this block 542 then becomes the output signal s exc ' k and the impulse response h (k) performs the reconstructive shaping of the spectral envelope. This reconstructed spectral envelope is then given by the output signal s exc " k of the block 542.
- a reconstructing shaping of the temporal envelope in a third decoder region 55 of the decoder 5 is carried out again.
- This reconstructing shaping of the temporal envelope takes place analogously as it is carried out in the first decoder region 53.
- a second scalar correction factor g 2 (k) is generated by the block 551, a second scalar correction factor g 2 (k), which is transmitted to a multiplier 552.
- the signal s eb ( k ) characterizing the signal components required for the bandwidth extension is then provided.
- This signal s eb ( k ) is transmitted to a summer 56, to which also the narrowband signal s nb ( k ) is transmitted.
- the summation of the narrowband signal s nb ( k ) and the signal s eb ( k ) produces the bandwidth-extended output signal s wb ° k generated and provided as an output signal of the decoder 5.
- FIG. 2 As shown in the embodiment shown only by way of example and for the invention already a single reconstructive shaping of the temporal envelope, as is performed in the first decoder region 53, and a single reconstructive shaping of the spectral envelope, as performed in the second decoder region 54 is sufficient. It should also be noted that it can also be provided that the reconstructive shaping of the spectral envelope in the second decoder area 54 is performed before the reconstruction of the temporal envelope in the first decoder area 53. This means that the second decoder region 54 is arranged before the first decoder region 53 in such an embodiment.
- alternating execution of a reconstructing shaping of the temporal envelope and a reconstructing shaping of the spectral envelope is continued again and, for example, in the in FIG. 2 a further decoder region is arranged following the third decoder region 55, in which a reconstructing shaping of the spectral envelope is again carried out.
- the invention is advantageously used in the exemplary embodiment for a wideband input speech signal having a frequency range of about 50 Hz to 7 kHz.
- the invention is provided in the exemplary embodiment for the artificial extension of the bandwidth of speech signals, wherein the extension band is predetermined by the frequency range of about 3.4 kHz to about 7 kHz.
- the invention is used for an extension band, which is located in a low-frequency frequency range.
- the extension band may comprise a frequency range of about 50 Hz or even lower frequencies, up to a frequency range of about 3.4 kHz.
- the method according to the invention for the artificial extension of the bandwidth of speech signals can also be used such that the extension band comprises a frequency range which is at least partially above a frequency of about 7 kHz and for example up to 8 kHz, in particular 10 kHz , or even higher.
- a reconstructive shaping of the temporal envelope in the first decoder area 53 according to FIG. 2 is generated by a multiplication of the scalar first correction factor g 1 (k) and the excitation signal s exc ( k ).
- the first scalar correction factor or gain g 1 (k) should have strict low-pass frequency characteristics.
- the excitation signal s exc ( k ) is segmented and analyzed in a manner already described above for the segmentation and the analysis of the extraction of the temporal envelope or the generation of the signal s p t (v) is performed from the signal s eb ( k ) in the encoder 1 by means of the block 12.
- the ratio between the decoded signal power as calculated by Formula 3) and the analyzed signal strength result P t exc ⁇ results in a desired gain ⁇ (v) for the ⁇ th signal segment.
- the amplification factor or first correction factor g 1 (k) is calculated by interpolation and low-pass filtering.
- the low-pass filtering is of crucial importance to the influence of this Amplification factor or this first correction factor g 1 (k) to limit the spectral envelope.
- the reconstructive shaping of the spectral envelope of the required signal components of the expansion band is achieved by filtering the output signal s exc ' k . which characterizes the reconstructed shaping of the temporal envelopes.
- the filter operation can be implemented in the period or in the frequency domain.
- the corresponding frequency characteristic H (z) can be smoothed.
- the output signal becomes s exc ' k of the first decoder section 53 is analyzed to obtain the signal powers of the P f exc ⁇ ⁇ ⁇ to be able to find.
- the frequency characteristic H (p, i) of the shape filters of the spectral envelope can be calculated by interpolation of the amplification factor ⁇ ( ⁇ , ⁇ ) and with a smoothing taking into account the frequency. If the spectral envelope shaping filter is to be used in the period, for example by a linear phase FIR filter, the filter coefficients can be calculated by an inverse FF transformation of the frequency characteristic H ( ⁇ , i) and a subsequent windowing.
- the reconstructive shaping of the temporal envelope affects the reconstructive shaping of the spectral envelope and vice versa. Therefore, it is advantageous that, as explained in the embodiment and in FIG. 2 shown, performing an alternating performance of reconstructing a temporal envelope and a spectral envelope in an iterative process. Thereby, a significantly improved coincidence of the temporal and spectral envelopes of the signal components of the enhancement band which are reconstructed in the decoder and the corresponding temporal and spectral envelopes produced in the coder can be achieved.
- a one-and-a-half iteration (reconstruction of the temporal envelopes, reconstruction of the spectral envelopes and re-reconstruction of the temporal envelopes) is performed.
- Bandwidth expansion facilitates the generation of an excitation signal having harmonics at the correct frequency, for example at an integer multiple of the fundamental frequency of the current sound. It should be noted that the invention can also be applied to downsampled subband components of the broadband input signal. This is advantageous when a low computational effort is required.
- the encoder 1 and the blocks 2 and 3 are arranged in a transmitter, wherein logically, the process steps carried out in the blocks 2 and 3 and the encoder 1 are then also carried out in the transmitter.
- the block 4 as well as the decoder 5 may advantageously be arranged in a receiver, whereby it is also clear that the preliminary steps carried out in the decoder 5 and in the block 4 are executed in the receiver.
- the invention can also be implemented in such a way that the method steps carried out in the coder 1 are carried out in the decoder 5 and are thus carried out exclusively in the receiver. It can be provided that the signal powers, which are calculated according to the formulas 2) and 3), in the decoder 5 estimated.
- the block 52 is designed to estimate these parameters of the signal powers.
- This embodiment allows the concealment of potential transmission errors of the side information transmitted in the digital signal BWE. By temporarily estimating lost parameters of an envelope, for example by data loss, annoying switching of the signal bandwidth can be prevented.
- the inventive method and the device according to the invention is very robust against interference of the excitation signal, for example, such a disturbance of a received narrow-band signal can be caused by transmission errors.
- the invention allows the frequency shaping to be performed by linear phase FIR filters rather than LPC synthesis filters. This can also be achieved that typical artifacts ("filter ringing") can be reduced.
- the invention allows a very flexible and modular design, which also allows the individual blocks in the receiver or in the decoder 5 can be easily replaced or adjusted.
- no change of the transmitter or the encoder 1 or the format of the transmission signal with which the coded information is transmitted to the decoder 5 or the receiver is required for such a change or adjustment.
- different decoders can be operated with the method according to the invention, whereby a restoration of the broadband input signal with different precision depending on the available computing power can be performed.
- the received parameters characterizing the spectral and temporal envelopes can be used not only for bandwidth extension but also for supporting subsequent signal processing blocks such as post-filtering or additional coding stages such as transform coders. can be used.
- the resulting narrowband speech signal s nb ( k ), as available to the bandwidth expansion algorithm, may be present, for example, after a reduction of the sampling frequency by a factor of 2 at a sampling rate of 8 kHz.
- the invention and the underlying principle of bandwidth expansion it is possible to generate broadband excitation of information of the G.729A + standard.
- the data rate of the side information transmitted in the digital signal BWE can be about 2 kbit / s.
- a relatively low-complexity calculation system or a relatively low complex computational effort is required, which is less than 3 WMOPS.
- the method and device of the invention is very robust to baseband disturbances of the G.729A + standard.
- the invention may also be used advantageously for use in voice-over-IP.
- the inventive method and device according to the invention is compatible with TDAC envelopes.
- the invention also has a very modular and flexible structure and a modular and flexible design.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Machine Translation (AREA)
Description
- Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen.
- Sprachsignale überstreichen einen breiten Frequenzbereich, der in etwa von der Sprachgrundfrequenz, die abhängig vom Sprecher im Bereich zwischen 80 bis 160 Hz liegt, bis zu den Frequenzen jenseits von 10 kHz reicht. Bei der Sprachkommunikation über bestimmte Übertragungsmedien, wie zum Beispiel Telefone, wird allerdings aus Gründen der Bandbreiteneffizienz nur ein eingeschränkter Ausschnitt übertragen, wobei eine Satzverständlichkeit von etwa 98 % gewährleistet wird.
- Entsprechend der minimalen für das Telefonsystem spezifizierten Bandbreite von 300 Hz bis 3,4 kHz, kann ein Sprachsignal im Wesentlichen in drei Frequenzbereiche unterteilt werden. Jeder dieser Frequenzbereiche charakterisiert dabei spezifische Spracheigenschaften sowie subjektive Empfindungen. So entstehen tiefere Frequenzen unterhalb von etwa 300 Hz im Wesentlichen während stimmhafter Sprachabschnitte, wie dies beispielsweise Vokale sind. Dieser Frequenzbereich enthält in diesem Fall tonale Komponenten, d. h. insbesondere die Sprachgrundfrequenz sowie abhängig von der Stimmlage eventuell einige Harmonische.
- Für das subjektive Empfinden von Volumen und Dynamik eines Sprachsignals sind diese Tiefenfrequenzen wesentlich. Die Sprachgrundfrequenz lässt sich demgegenüber von einem menschlichen Hörer aufgrund der psychoakustischen Eigenschaft der virtuellen Tonhöhenempfindung auch bei Fehlen der Tiefenfrequenzen aus der harmonischen Struktur in höheren Frequenzbereichen wahrnehmen. So sind mittlere Frequenzen im Bereich von etwa 300 Hz bis etwa 3,4 kHz bei Sprachaktivitäten grundsätzlich im Sprachsignal vorhanden. Ihre zeitvariante spektrale Färbung durch mehrere Formanten sowie die zeitliche und spektrale Feinstruktur charakterisieren den jeweils gesprochenen Laut bzw. Phonem. Auf eine derartige Weise transportieren die mittleren Frequenzen den Hauptteil der für die Verständlichkeit der Sprache relevanten Informationen.
- Andererseits entstehen während stimmloser Laute, wie dies besonders stark bei scharfen Lauten wie beispielsweise "s" oder "f", der Fall ist, hohe Frequenzanteile oberhalb von etwa 3,4 kHz. Auch so genannte Plosivlaute wie "k" oder "t" weisen ein breites Spektrum mit starken hochfrequenten Anteilen auf. Deshalb hat das Signal in diesem oberen Frequenzbereich mehr einen rauschartigen denn einen tonalen Charakter. Die Struktur der auch in diesem Bereich vorhandenen Formanten ist verhältnismäßig zeitinvariant, unterscheidet sich jedoch für verschiedene Sprecher. Die hohen Frequenzanteile sind von wesentlicher Bedeutung für die Klarheit, die Präsenz und die Natürlichkeit eines Sprachsignals, da ohne diese hohen Frequenzanteile die Sprache dumpf wirkt. Darüber hinaus wird durch derartige hohe Frequenzanteile eine bessere Unterscheidung von Frikativen und Konsonanten ermöglicht, wobei diese hohen Frequenzanteile dadurch auch eine erhöhte Verständlichkeit der Sprache gewährleisten.
- Bei einer Übertragung eines Sprachsignals über ein Sprachkommunikationssystem, welches einen Übertragungskanal mit eingeschränkter Bandbreite aufweist, ist es grundsätzlich erwünscht und stets das Ziel, das zu übertragende Sprachsignal mit einer bestmöglichen Qualität von einem Sender zu einem Empfänger übertragen zu können. Die Sprachqualität ist dabei jedoch eine subjektive Größe mit einer Mehrzahl an Komponenten, von denen die Verständlichkeit des Sprachsignals für ein derartiges Sprachkommunikationssystems die bedeutendste darstellt.
- Bei modernen digitalen Übertragungssystemen kann bereits eine relativ hohe Sprachverständlichkeit erreicht werden. Dabei ist es bekannt, dass durch eine Erweiterung der Telefonbandbreite um hohe Frequenzen (größer als 3,4 kHz) als auch um tiefe Frequenzen (kleiner als 300 Hz) eine Verbesserung der subjektiven Beurteilung des Sprachsignals ermöglicht wird. Im Sinne einer subjektiven Qualitätsverbesserung ist somit eine gegenüber der üblichen Telefonbandbreite vergrößerte Bandbreite bei Systemen zur Sprachkommunikation anzustreben. Ein möglicher Ansatz dabei besteht darin, die Übertragung zu modifizieren und mittels Codierverfahren eine breitere übertragene Bandbreite zu bewirken oder alternativ eine künstliche Bandbreitenerweiterung durchzuführen. Durch eine derartige Erweiterung der Bandbreite wird empfangsseitig die Frequenzbandbreite auf den Bereich von 50 Hz bis 7 kHz aufgeweitet. Mittels geeigneten Signalverarbeitungsalgorithmen werden aus kurzen Segmenten eines schmalbandigen Sprachsignals mit Methoden der Mustererkennung Parameter des breitbandigen Modells ermittelt, die anschließend zu einer Schätzung der fehlenden Signalkomponenten der Sprache herangezogen werden. Bei dem Verfahren werden aus dem schmalbandigen Sprachsignal ein breitbandiges Pendant mit Frequenzkomponenten im Bereich 50 Hz bis 7 kHz erzeugt und eine Verbesserung der subjektiv empfundenen Sprachqualität bewirkt.
- In aktuellen Sprachsignal- und Audiosignalcodierungsalgorithmen werden vermehrt Techniken der künstlichen Bandbreitenerweiterung verwendet. Beispielsweise werden im Breitbandbereich (akustische Bandbreite 50 Hz bis 7 kHz) Sprachcodierungsstandards wie der AMR-WB (Adaptive Multirate Wideband)-Codier-Decodieralgorithmus verwendet. Bei diesem AMR-WB-Standard werden obere Frequenzunterbänder (Frequenzbereich etwa 6,4 bis 7 kHz) aus niederfrequenten Komponenten extrapoliert. In derartigen Codierungs-Decodierungsverfahren wird die Bandbreitenerweiterung im Allgemeinen durch eine vergleichsweise kleine Anzahl an Nebeninformationen erzeugt. Diese Nebeninformationen können beispielsweise Filterkoeffizienten oder Verstärkungsfaktoren sein, wobei die Filterkoeffizienten beispielsweise durch ein LPC (Linear Prediction Filter)-Verfahren erzeugt werden können. Diese Nebeninformationen werden in einem codierten Bitstrom zu einem Empfänger übertragen. Weitere Standards, welche auf der Erweiterung der Bandweitentechnik basieren, sind gegenwärtig in den Standards AMR-WB+ und dem erweiterten aacPlus-Sprach-/Audiocodierungs-Decodierungsverfahren zu sehen. Verfahren, welche zum Codieren und Decodieren von Informationen ausgebildet sind, werden als Codecs bezeichnet und umfassen sowohl einen Codierer als auch einen Decodierer. Jedes digitale Telefon, unabhängig davon, ob es für ein Festnetz oder ein Mobilfunknetz gebaut ist, enthält einen derartigen Codec, der analoge in digitale Signale umwandelt und digitale in analoge. Ein derartiger Codec kann in Hardware oder in Software realisiert sein.
- Ein Beispiel für eine künstliche Erweiterung der Bandbreite eines Sprachsignals, bei der Nebeninformationen in einem codierten Bitstrom zu einem Empfänger übertragen werden, ist in der Schrift Valin J. et al.: "Bandwidth extension of narrowband speech for low bit-rate wideband coding", PROCEEDINGS, IEEE WORKSHOP ON SPEECH CODING, SEPTEMBER 17-20, 2000, PISCATAWAY (USA), IEEE, 17. September 2000, Seiten 130-132, XP010520065 offenbart.
- In gegenwärtigen Realisierungen von Sprach-/Audiosignalcodierungsalgorithmen, in denen die Technik der Bandbreitenerweiterung verwendet wird, werden Komponenten eines Erweiterungsbandes, beispielsweise im Frequenzbereich von 6,4 bis 7 kHz, mittels der bereits erwähnten LPC-Codierungstechnik codiert und decodiert. Dabei wird in einem Codierer eine LPC-Analyse des Erweiterungsbandes des Eingangssignals durchgeführt und die LPC-Koeffizienten sowie die Verstärkungsfaktoren von Unterrahmen eines Restsignals codiert. In einem Decodierer wird das Restsignal des Erweiterungsbandes erzeugt und die übertragenen Verstärkungsfaktoren und die LPC-Synthesefilter zum Generieren eines Ausgangssignals herangezogen. Die oben beschriebene Vorgehensweise kann entweder direkt auf das breitbandige Eingangssignal oder aber auch bei einem im Grenzbereich bzw. im kritischen Bereich downgesampleten Unterbandsignal des Erweiterungsbandes angewendet werden.
- In dem erweiterten aacPlus-Codierungsstandard wird die SBR (Spectral Band Replication)-Technik verwendet. Dabei wird das breitbandige Audiosignal mittels einer 64-Kanal-QMF-Filterbank in Frequenzunterbänder aufgespalten. Für die hochfrequenten Filterbankkanäle wird eine ausgeklügelte und technisch hochentwickelte parametrische Codierung auf die Unterbänder der Signalkomponenten angewandt, wobei dazu eine große Anzahl an Detektoren und Schätzern benötigt und eingesetzt werden, um die Bitstrominhalte zu kontrollieren. Obwohl bei den bekannten Standards und Codierungs-Decodierungsverfahren bereits eine Verbesserung insbesondere der Sprachqualität von Sprachsignalen erreicht werden kann, ist dennoch eine weitere Verbesserung dieser Sprachqualität anzustreben. Darüber hinaus sind die oben erläuterten Standards und Codierungs-Decodierungsverfahren sehr aufwändig und weisen eine sehr komplexe Struktur auf.
- Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen zu schaffen, mit dem bzw. mit der eine verbesserte Sprachqualität und eine verbesserte Sprachverständlichkeit erreicht werden kann. Dies soll darüber hinaus in relativ einfacher und aufwandsarmer Weise realisiert werden können.
- Diese Aufgabe wird durch ein Verfahren, welches die Merkmale nach Patentanspruch 1 aufweist, und eine Vorrichtung, welche die Merkmale nach Patentanspruch 23 aufweist, gelöst.
- Bei einem erfindungsgemäßen Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen werden nachfolgende Schritte durchgeführt:
- a) Bereitstellen eines breitbandigen Eingangssprachsignals;
- b) Bestimmen der zur Bandbreitenerweiterung erforderlichen Signalkomponenten des breitbandigen Eingangssprachsignals aus einem Erweiterungsband des breitbandigen Eingangssprachsignals;
- c) Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten;
- d) Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten;
- e) Codieren der Informationen der zeitlichen Einhüllenden und der spektralen Einhüllenden und Bereitstellen der codierten Informationen zum Durchführen der Erweiterung der Bandbreite; und
- f) Decodieren der codierten Informationen und Generieren der zeitlichen Einhüllenden und der spektralen Einhüllenden aus den codierten Informationen zum Erzeugen eines bandbreitenerweiterten Ausgangssprachsignals.
- Durch das erfindungsgemäße Verfahren kann eine Verbesserung der Sprachverständlichkeit und der Sprachqualität bei der Übertragung von Sprachsignalen erreicht werden, wobei unter Sprachsignale auch Audiosignale verstanden werden. Darüber hinaus ist das erfindungsgemäße Verfahren auch sehr robust gegenüber Störungen bei der Übertragung.
- In vorteilhafter Weise werden die zur Bandbreitenerweiterung erforderlichen Signalkomponenten durch eine Filterung, insbesondere eine Bandpass-Filterung, aus dem breitbandigen Eingangssprachsignal bestimmt, wodurch eine einfache und aufwandsarme Selektion der erforderlichen Signalkomponenten durchgeführt werden kann.
- Das Bestimmen der zeitlichen Einhüllenden in Schritt c) wird bevorzugt unabhängig von dem Bestimmen der spektralen Einhüllenden in Schritt d) durchgeführt. Dadurch erfolgt das Bestimmen der Einhüllenden in präziser Weise, wodurch eine gegenseitige Beeinflussung vermieden werden kann.
- In bevorzugter Weise wird vor dem Codieren der zeitlichen Einhüllenden und der spektralen Einhüllenden in Schritt e) eine Quantisierung der zeitlichen Einhüllenden und der spektralen Einhüllenden durchgeführt. In vorteilhafter Weise werden in Schritt d) zum Bestimmen der spektralen Einhüllenden die Signalleistungen von spektralen Unterbändern der zur Bandbreitenerweiterung bestimmten Signalkomponenten bestimmt. Die Bestimmung der für die Charakterisierung der zeitlichen und der spektralen Einhüllenden kann dadurch sehr exakt durchgeführt werden.
- Zum Bestimmen der Signalleistungen der spektralen Unterbänder werden in bevorzugter Weise Signalsegmente der zur Bandbreitenerweiterung bestimmten Signalkomponenten erzeugt, wobei diese Signalsegmente insbesondere transformiert, insbesondere FF (Fast Fourier)-transformiert, werden. Des Weiteren werden in vorteilhafter Weise in Schritt c) zum Bestimmen der zeitlichen Einhüllenden die Signalleistungen von zeitlichen Signalsegmenten der zur Bandbreitenerweiterung bestimmten Signalkomponenten bestimmt. In aufwandsarmer Weise kann dadurch das Bestimmen der erforderlichen Parameter durchgeführt werden.
- In vorteilhafter Weise werden in Schritt f) die codierten Informationen zum rekonstruierenden Formen der zeitlichen Einhüllenden und der spektralen Einhüllenden decodiert.
- Ein Anregungssignal wird in vorteilhafter Weise in einem Decodierer aus einem an den Decodierer übertragenen Signal erzeugt, wobei das übertragene Signal eine derartige Signalleistung in dem Frequenzbereich, welcher demjenigen des Erweiterungssignals des breitbandigen Eingangssprachsignals entspricht, aufweist, welche eine Erzeugung eines Anregungssignals ermöglicht. An den Decodierer wird bevorzugt ein moduliertes schmalbandiges Signal mit einem Bandbereich mit Frequenzen unterhalb der Frequenzen des Bandbereichs des Erweiterungsbandes des breitbandigen Eingangssprachsignals zum Erzeugen des Anregungssignals übertragen. Das Anregungssignal weist bevorzugt Harmonische der Grundfrequenz des an den Decodierer übertragenen Signals auf.
- Aus den decodierten Informationen der zeitlichen Einhüllenden und dem Anregungssignal wird in vorteilhafter Weise ein erster Korrekturfaktor bestimmt. Des Weiteren wird aus dem ersten Korrekturfaktor und dem Anregungssignal eine rekonstruierende Formung der zeitlichen Einhüllenden, insbesondere durch eine Multiplikation des ersten Korrekturfaktors mit dem Anregungssignal, durchgeführt. Darüber hinaus wird in vorteilhafter Weise die rekonstruierte Formung der zeitlichen Einhüllenden gefiltert und beim Filtern werden Impulsantworten erzeugt. Aus den Impulsantworten und der rekonstruierten Formung der zeitlichen Einhüllenden wird eine rekonstruierende Formung der spektralen Einhüllenden durchgeführt. Des Weiteren werden aus der rekonstruierten Formung der spektralen Einhüllenden die Signalkomponenten des Erweiterungsbandes des breitbandigen Eingangssprachsignals rekonstruiert. Die Rekonstruierung der zeitlichen und der spektralen Einhüllenden kann dadurch sehr zuverlässig und sehr genau durchgeführt werden.
- An den Decodierer wird in einer vorteilhaften Ausführung ein schmalbandiges Signal mit einem Bandbereich mit Frequenzen unterhalb den Frequenzen des Erweiterungsbandes des breitbandigen Eingangssignals übertragen.
- Das bandbreitenerweiterte Ausgangssprachsignal wird in vorteilhafter Weise aus dem an den Decodierer übertragenen schmalbandigen Signal und der rekonstruierten Formung der spektralen Einhüllenden, insbesondere aus einer Summation dieser beiden Signale, bestimmt und wird als Ausgangssignal des Decodierers bereitgestellt. Dadurch kann ein Ausgangssignal erzeugt und bereitgestellt werden, welches eine hohe Sprachverständlichkeit und Sprachqualität gewährleistet.
- Die Schritte a) bis e) werden in bevorzugter Weise in einem Codierer durchgeführt, welcher bevorzugt in einem Sender angeordnet sein ist. Die in Schritt e) erzeugten codierten Informationen werden in vorteilhafter Weise als digitales Signal an den Decodierer übertragen. Zumindest der Schritt f) wird in bevorzugter Weise in einem Empfänger durchgeführt, wobei der Decodierer in dem Empfänger angeordnet ist. Es kann jedoch auch vorgesehen sein, dass alle Schritte a) bis f) des erfindungsgemäßen Verfahrens in einem Empfänger durchgeführt werden. In diesem Fall werden die Schritte a) bis e) im Empfänger durch ein (anders zu realisierendes) Schätzverfahren ersetzt. Die Schritte a) bis e) können auch separat in einem Sender durchgeführt werden.
- Das breitbandige Eingangssprachsignal umfasst in vorteilhafter Weise eine Bandbreite zwischen etwa 50Hz und etwa 7 kHz. Das Erweiterungsband des breitbandigen Eingangssprachsignals umfasst bevorzugt den Frequenzbereich von etwa 3,4 kHz bis etwa 7 kHz. Ferner umfasst das schmalbandige Signal einen Signalbereich des breitbandigen Eingangssprachsignals von etwa 50 Hz bis etwa 3,4 kHz.
- Eine erfindungsgemäße Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen, an welche ein breitbandiges Eingangssprachsignal anlegbar ist, umfasst zumindest folgende Komponenten:
- a) Mittel zum Bestimmen der zur Bandbreitenerweiterung erforderlichen Signalkomponenten des breitbandigen Eingangssprachsignals aus einem Erweiterungsband des breitbandigen Eingangssprachsignals;
- b) Mittel zum Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten;
- c) Mittel zum Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten;
- d) einen Codierer zum Codieren der zeitlichen Einhüllenden und der spektralen Einhüllenden und Bereitstellen der codierten Informationen zum Durchführen der Erweiterung der Bandbreite; und
- e) einen Decodierer zum Decodieren der codierten Informationen und Generieren der zeitlichen Einhüllenden und der spektralen Einhüllenden aus den codierten Informationen zum Erzeugen eines bandbreitenerweiterten Ausgangssprachsignals.
- Die erfindungsgemäße Vorrichtung ermöglicht eine verbesserte Sprachqualität und eine verbesserte Sprachverständlichkeit von Sprachsignalen bei der Übertragung in Kommunikationsgeräten, wie beispielweise Mobilfunkendgeräten oder ISDN-Geräten.
- Die Mittel in a) bis d) sind in vorteilhafter Weise als Codierer ausgebildet. Der Codierer kann in einem Sender oder in einem Empfänger angeordnet sein, wobei der Decodierer in einem Empfänger angeordnet ist.
- Vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens können, soweit übertragbar, auch als vorteilhafte Ausgestaltungen der erfindungsgemäßen Vorrichtung angesehen werden.
- Nachfolgend wird ein Ausführungsbeispiel der Erfindung anhand schematischer Zeichnungen näher erläutert. Es zeigen:
- FIG 1
- einen Codierer einer erfindungsgemäßen Vorrichtung; und
- FIG 2
- einen Decodierer einer erfindungsgemäßen Vorrichtung.
- Bei der nachfolgend näher erläuterten Erfindung werden mit dem Begriff Sprachsignale auch Audiosignale umfasst. In den
FIG 1 und FIG 2 werden gleiche oder funktionsgleiche Elemente mit gleichen Bezugszeichen versehen. - In
FIG 1 ist eine schematische Blockschaltbilddarstellung eines Codierers 1 einer erfindungsgemäßen Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen gezeigt. Der Codierer 1 kann sowohl in Hardware als auch in Software als Algorithmus realisiert sein. Der Codierer 1 umfasst im Ausführungsbeispiel einen Block 11, welcher zur Bandpassfilterung eines breitbandigen Eingangssprachsignals - Darüber hinaus ist aus der Darstellung in
FIG 1 zu erkennen, dass der Block 12 und der Block 13 mit einem Block 14 verbunden sind, wobei der Block 14 zur Quantisierung der zeitlichen Einhüllenden sowie der spektralen Einhüllenden, welche durch die Blöcke 12 bzw. 13 generiert werden, ausgebildet ist. -
- Im Ausführungsbeispiel ist der Codierer 1 sowie die Blöcke 2 und 3 in einem ersten Telefongerät angeordnet. Das breitbandige Eingangssprachsignal weist im Ausführungsbeispiel eine Bandbreite von etwa 50 Hz bis etwa 7 kHz auf. Gemäß der Erfindung wird, wie aus der Darstellung in
FIG 1 zu erkennen ist, dieses breitbandige Eingangssprachsignal - Nachfolgend wird diese Bestimmung der zeitlichen Einhüllenden sowie der spektralen Einhüllenden näher erläutert. Dabei wird zunächst das die zur Bandbreitenerweiterung erforderlichen Signalkomponenten charakterisierende Signal seb (k) segmentiert und diese gefensterten Signalsegmente transformiert. Die Segmentierung des Signals seb (k) erfolgt in Rahmen mit einer Länge von jeweils k-Abtastwerten. Sämtliche nachfolgende Schritte und Teilalgorithmen werden durchweg rahmenbezogen durchgeführt. Jeder Sprachrahmen (z. B. mit 10 ms oder 20 ms oder 30 ms Dauer) kann in vorteilhafter Weise in mehrere Unterrahmen (Dauer beispielsweise 2,5 oder 5 ms) unterteilt werden.
-
- In dieser Formel 1) bezeichnet Nf die FFT-Länge bzw. die Rahmengröße, p bezeichnet den Rahmenindex und Mf bezeichnet die Überlappung der Rahmen der gefensterten Signalsegmente. Des Weiteren bezeichnet wf (κ) die Fensterfunktion. Nachfolgend wird dann im Frequenzraum die Signalleistung in Unterbändern des Frequenzbereichs des Erweiterungsbandes berechnet. Diese Berechnung der Signalstärke bzw. der Signalleistung erfolgt gemäß nachfolgender Formel 2) :
- In dieser Formel 2) bezeichnet λ den Index des entsprechenden Unterbandes, wobei EBλ diejenige Menge charakterisiert, welche alle FFT-Intervallbereiche i mit Nicht-Nullkoeffizienten im λ-ten Frequenzraumfenster w λ(i) enthält. Die Signalleistungen Pf (µ,λ) der Unterbänder gemäß Formel 2) charakterisieren die Informationen der spektralen Einhüllenden, welche an einen Decodierer übertragen werden.
- Die Bestimmung der zeitlichen Einhüllenden im Zeitraum wird in ähnlicher Weise wie die Bestimmung der spektralen Einhüllenden durchgeführt und basiert auf kurzzeitigen gefensterten Segmenten des bandpassgefilterten breitbandigen Eingangssprachsignals
- In dieser Formel 3) bezeichnen Nt die Rahmenlänge, ν bezeichnet den Rahmenindex und Mt wiederum die Überlappung der Rahmen der Signalsegmente. Es ist anzumerken, dass im Allgemeinen die Rahmenlänge Nt und die Überlappung der Rahmen Mt, welche zum Extrahieren der zeitlichen Einhüllenden verwendet werden, kleiner bzw. viel kleiner als die entsprechenden Größen Nf und Mf sind, welche für die Bestimmung für die spektrale Einhüllenden herangezogen werden.
- Eine Alternative für das Extrahieren der Parameter der zeitlichen Einhüllenden aus dem Signal seb (k) ist darin zu sehen, dass eine Hilbert-Transformation (90° Phasenverschiebungsfilter) des Signals seb (k) durchgeführt wird. Eine Summation der Kurzsegment-Signalleistungen der gefilterten Teile und der ursprünglichen Teile des Signals seb (k) ergibt die kurzzeitige zeitliche Einhüllenden, welche downgesampled wird, um die Signalleistungen Pt (v) zu bestimmen. Die Signalleistungen Pt (v) der Signalsegmente charakterisieren dann die Informationen der zeitlichen Einhüllenden.
- Die die zeitliche Einhüllende und die spektrale Einhüllende kennzeichnenden Signale s p t (v) bzw. s p f (µ,λ), welche die extrahierten Parameter der Signalleistungen gemäß Formel 2) und 3) charakterisieren, werden im Block 14 quantisiert und codiert. Das Ausgangssignal des Blocks 14 ist ein digitales Signal BWE, welches einen Bitstrom charakterisiert, welcher in codierter Form Informationen der zeitlichen Einhüllenden und der spektralen Einhüllenden enthält.
- Dieses digitale Signal BWE wird an einen Decodierer übertragen, welcher im Nachfolgenden noch näher erläutert wird. Anzumerken ist, dass bei einer Redundanz zwischen den extrahierten Parametern der Signalstärken gemäß den Formeln 2) und 3) eine gemeinsame bzw. verbindende Codierung, wie sie beispielsweise durch eine Vektorquantisierung ermöglicht werden kann, durchgeführt werden kann.
- Wie des Weiteren aus der Darstellung in
FIG 1 zu erkennen ist, wird das breitbandige Eingangssprachsignal - In
FIG 2 ist eine schematische Blockschaltbilddarstellung eines derartigen Decodierers 5 einer erfindungsgemäßen Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen gezeigt. Wie in derFIG 2 zu erkennen ist, wird das digitale Signal BWN zunächst an einen weiteren Decodierer 4 übertragen, welcher die in dem digitalen Signal BWN enthaltenen Informationen decodiert und daraus wiederum das schmalbandige Signal snb (k) erzeugt. Des Weiteren generiert der Decodierer 4 ein weiteres Signal ssi (k), welches Nebeninformationen enthält. Diese Nebeninformationen können beispielsweise Verstärkungsfaktoren oder Filterkoeffizienten sein. Dieses Signal ssi (k) wird an einen Block 51 des Decodierers 5 übertragen. Der Block 51 ist im Ausführungsbeispiel zum Generieren eines Anregungssignals im Frequenzbereich des Erweiterungsbandes ausgebildet, wobei dazu die Informationen des Signals ssi (k) berücksichtigt werden. - Darüber hinaus weist der Decodierer 5, welcher im Ausführungsbeispiel in einem Empfänger angeordnet ist, einen Block 52 auf, welcher zum Decodieren des über eine Übertragungsstrecke zwischen dem Codierer 1 und dem Decodierer 2 übertragenen Signals BWE ausgebildet ist. Es sei angemerkt, dass auch das digitale Signal BWN über diese Übertragungsstrecke zwischen dem Codierer 1 und dem Decodierer 5 übertragen wird. Wie aus der Darstellung in
FIG 2 zu erkennen ist, ist sowohl der Block 51 als auch der Block 52 mit Decodiererbereichen 53 bis 55 verbunden. Das Funktionsprinzip des Decodierers 5 bzw. die in dem Decodierer 5 durchgeführten Teilschritte des erfindungsgemäßen Verfahrens werden nachfolgend näher erläutert. - Wie bereits oben angesprochen, werden die in dem codierten digitalen Signal BWE enthaltenen Informationen in dem Block 52 decodiert und die Signalleistungen, welche gemäß den Formeln 2) und 3) berechnet werden und welche die zeitliche Einhüllende und die spektrale Einhüllende charakterisieren, rekonstruiert. Wie aus der Darstellung in
FIG 2 zu entnehmen ist, ist das im Block 51 erzeugte Anregungssignal sexc (k) das Eingangssignal zur rekonstruierenden Formung der zeitlichen Einhüllenden und der spektralen Einhüllenden. Dieses Anregungssignal sexc (k) kann dabei im Wesentlichen ein beliebiges Signal sein, wobei als wesentliche Voraussetzung für dieses Signal gelten muss, dass es eine ausreichende Signalleistung im Frequenzbereich des Erweiterungsbandes des breitbandigen Eingangsspektralsignals - Im Falle von hierarchischen Sprachcodierungen besteht eine Möglichkeit dies zu erreichen darin, Parameter des weiteren Decodierers 4 zu verwenden. Ist beispielsweise Δ k eine anteilige oder realwertige Verschiebung der Grundfrequenz und b der LTB-Verstärkungsfaktor eines adaptiven Codebuchs in einem CELP-Schmalbanddecodierer, dann ist beispielsweise eine Anregung mit harmonischen Frequenzen bei einem ganzzahligen Vielfachen der momentanen Grundfrequenz durch eine LTP-Synthesefilterung eines Bandpassfilters (Frequenzbereich des Erweiterungsbandes) aus einem willkürlichen Signal neb (k), möglich.
-
- Der LTP-Verstärkungsfaktor kann dabei durch die Funktion f(b) reduziert oder limitiert werden, um eine Überstimmhaftigkeit der erzeugten Signalkomponeneten des Erweiterungsbandes verhindern zu können. Es sei angemerkt, dass eine Mehrzahl weiterer Alternativen durchgeführt werden können, um eine synthetische Breitbandanregung mittels Parametern eines schmalbandigen Codecs durchführen zu können.
- Eine weitere Möglichkeit, um ein Anregungssignal erzeugen zu können besteht darin, dass eine Modulation des schmalbandigen Signals snb (k) mit einer Sinusfunktion mit einer festen Frequenz oder durch eine direkte Verwendung eines willkürlichen Signals neb (k), wie dies bereits oben definiert wurde, durchgeführt wird. Es sei betont, dass das Verfahren, welches für die Erzeugung des Anregungssignals sexc (k) verwendet wird, völlig unabhängig von der Generierung des digitalen Signals BWE sowie dem Format dieses digitalen Signals BWE und sowie der Decodierung dieses digitalen Signals BWE ist. Daher kann diesbezüglich eine unabhängige Einstellung durchgeführt werden.
- Im Nachfolgenden wird die rekonstruierende Formung der zeitlichen Einhüllenden näher erläutert. Das digitale Signal BWE wird, wie bereits angesprochen, in dem Block 52 decodiert und die die zeitliche Einhüllenden und die spektrale Einhüllenden charakterisierenden Parameter der Signalleistung, welche gemäß den Formeln 2) und 3) berechnet werden, werden entsprechend der Signale s pt (v) und s p f (µ,λ) bereitgestellt. Wie dazu aus der Darstellung in
FIG 2 zu erkennen ist, wird im Ausführungsbeispiel zunächst eine rekonstruierende Formung der zeitlichen Einhüllenden durchgeführt. Dies wird im Decodiererbereich 53 durchgeführt. Dazu wird das Anregungssignal sexc (k) sowie das Signal s p t (v) an diesen Decodiererbereich 53 übertragen. Wie inFIG 2 gezeigt, wird das Anregungssignal sexc (k) sowohl an einen Block 531 als auch an einen Multiplizierer 532 übertragen. An den Block 531 wird auch das Signal s p t (v) übertragen. Aus diesen an den Block 531 übertragenen Signalen wird ein skalarer Korrekturfaktor g1(k) erzeugt. Dieser skalare Korrekturfaktor g1(k) wird von dem Block 531 an den Multiplizierer 532 übertragen. In dem Multiplizierer 532 wird dann das Anregungssignal sexc (k) mit diesem skalaren Korrekturfaktor g1(k) multipliziert und ein Ausgangssignal - Wie dabei in
FIG 2 zu erkennen ist, wird das Ausgangssignal - Im gezeigten Ausführungsbeispiel gemäß
FIG 2 wird nachfolgend auf die Erzeugung des Ausgangssignals - Es sei angemerkt, dass die in
FIG 2 gezeigte Ausführung lediglich beispielhaft ist und für die Erfindung bereits eine einzige rekonstruierende Formung der zeitlichen Einhüllenden, wie dies im ersten Decodiererbereich 53 durchgeführt wird, und eine einzige rekonstruierende Formung der spektralen Einhüllenden, wie dies im zweiten Decodiererbereich 54 durchgeführt wird, ausreichend ist. Ebenso sei angemerkt, dass auch vorgesehen sein kann, dass die rekonstruierende Formung der spektralen Einhüllenden in dem zweiten Decodiererbereich 54 vor dem rekonstruierenden Formen der zeitlichen Einhüllenden in dem ersten Decodiererbereich 53 durchgeführt wird. Dies bedeutet, dass der zweite Decodiererbereich 54 bei einer derartigen Ausführung vor dem ersten Decodiererbereich 53 angeordnet ist. Ebenso kann jedoch auch vorgesehen sein, dass das alternierende Durchführen einer rekonstruierenden Formung der zeitlichen Einhüllenden und einer rekonstruierenden Formung der spektralen Einhüllenden nochmals fortgesetzt wird und beispielsweise in der inFIG 2 gezeigten Ausführung anschließend an den dritten Decodiererbereich 55 ein weiterer Decodiererbereich angeordnet ist, in dem wiederum eine rekonstruierende Formung der spektralen Einhüllenden durchgeführt wird. - Wie bereits oben angegeben, wird die Erfindung im Ausführungsbeispiel in vorteilhafter Weise für ein breitbandiges Eingangssprachsignal mit einem Frequenzbereich von etwa 50 Hz bis 7 kHz verwendet. Ebenso ist die Erfindung im Ausführungsbeispiel zur künstlichen Erweiterung der Bandbreite von Sprachsignalen vorgesehen, wobei dabei das Erweiterungsband durch den Frequenzbereich von etwa 3,4 kHz bis etwa 7 kHz vorgegeben ist. Es kann jedoch auch vorgesehen sein, dass die Erfindung für ein Erweiterungsband herangezogen wird, welches in einem niederfrequenten Frequenzbereich angesiedelt ist. Beispielsweise kann das Erweiterungsband dabei einen Frequenzbereich von etwa 50 Hz oder aber auch niedrigere Frequenzen, bis zu einem Frequenzbereich von etwa 3,4 kHz umfassen. Es sei explizit betont, dass das erfindungsgemäße Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen auch derart eingesetzt werden kann, dass das Erweiterungsband einen Frequenzbereich umfasst, der zumindest teilweise oberhalb einer Frequenz von etwa 7 kHz liegt und beispielsweise bis zu 8 kHz, insbesondere 10 kHz, oder noch höher reicht.
- Wie bereits erläutert, wird eine rekonstruierende Formung der zeitlichen Einhüllenden in dem ersten Decodiererbereich 53 gemäß
FIG 2 durch eine Multiplikation des skalaren ersten Korrekturfaktors g1(k) und dem Anregungssignal sexc (k) generiert. Dabei ist zu beachten, dass eine Multiplikation im Zeitraum korrespondierend zu einer Faltungsoperation im Frequenzraum ist, wodurch sich nachfolgende Formel 5) ergeben: - Solange die spektrale Einhüllenden im Prinzip durch den ersten Decodiererbereich 53 nicht verändert wird, sollte der erste skalare Korrekturfaktor bzw. Verstärkungsfaktor g1(k) strikte Tiefpassfrequenzcharakteristiken aufweisen.
- Zur Berechnung dieser Verstärkungsfaktoren bzw. dieses ersten Korrekturfaktors g1(k) wird das Anregungssignal sexc (k) in einer Weise segmentiert und analysiert, welche bereits oben für die Segmentierung und die Analyse der Extrahierung der zeitlichen Einhüllenden bzw. der Erzeugung des Signals s pt (v) aus dem Signal seb (k) in dem Codierer 1 mittels dem Block 12 durchgeführt wird. Das Verhältnis zwischen der decodierten Signalleistung, wie sie durch die Formel 3) berechnet wird, und dem analysierten Ergebnis der Signalstärke
- Aus diesem Verstärkungsfaktor γ(v) wird der Verstärkungsfaktor bzw. erste Korrekturfaktor g1(k) durch eine Interpolation und eine Tiefpassfilterung berechnet. Die Tiefpassfilterung ist dabei von entscheidender Bedeutung, um den Einfluss dieses Verstärkungsfaktors bzw. dieses ersten Korrekturfaktors g1(k) auf die spektrale Einhüllende zu begrenzen.
- Die rekonstruierende Formung der spektralen Einhüllenden der erforderlichen Signalkomponenten des Erweiterungsbandes wird durch eine Filterung des Ausgangssignals
- Die Frequenzcharakteristik H(p,i) der Formfilter der spektralen Einhüllenden kann durch eine Interpolation des Verstärkungsfaktors Φ(µ,λ) und mit einer Glättung unter Berücksichtigung der Frequenz berechnet werden. Falls der Formungsfilter der spektralen Einhüllenden im Zeitraum verwendet werden soll, beispielsweise durch einen linearen Phasen-FIR-Filter, können die Filterkoeffizienten durch eine inverse FF-Transformation der Frequenzcharakteristik H(µ,i) und einer nachfolgenden Fensterung berechnet werden.
- Wie durch die obigen Ausführungen erläutert und gezeigt wurde, beeinflusst die rekonstruierende Formung der zeitlichen Einhüllenden die rekonstruierende Formung der spektralen Einhüllenden und umgekehrt. Deshalb ist es vorteilhaft, dass, wie im Ausführungsbeispiel erläutert und in
FIG 2 dargestellt, eine alternierende Durchführung einer rekonstruierenden Formung einer zeitlichen Einhüllenden und einer spektralen Einhüllenden in einem iterativen Prozess durchgeführt wird. Dadurch kann eine wesentlich verbesserte Übereinstimmung der zeitlichen und der spektralen Einhüllenden der Signalkomponenten des Erweiterungsbandes, welche in dem Decodierer rekonstruiert werden und den entsprechenden im Codierer erzeugten zeitlichen und spektralen Einhüllenden erreicht werden. - Im beschriebenen Ausführungsbeispiel gemäß
FIG 2 wird eine eineinhalbfache Iteration (Rekonstruierung der zeitlichen Einhüllenden, Rekonstruierung der spektralen Einhüllenden und nochmalige Rekonstruierung der zeitlichen Einhüllenden) durchgeführt. Eine Bandbreitenerweiterung, wie sie durch die Erfindung ermöglicht wird, erleichtert die Generierung eines Anregungssignals mit Harmonischen bei der richtigen Frequenz, beispielsweise bei einem ganzzahligen Vielfachen der Grundfrequenz des momentanen Lauts. Anzumerken ist, dass die Erfindung auch bei downgesampleten Unterbandsignalkomponenten des breitbandigen Eingangssignals angewendet werden kann. Dies ist dann vorteilhaft, wenn ein geringer Rechenaufwand gefordert ist. - In vorteilhafter Weise werden der Codierer 1 sowie die Blöcke 2 und 3 in einem Sender angeordnet, wobei logischerweise auch die in den Blöcken 2 und 3 sowie dem Codierer 1 durchgeführten Verfahrensschritte dann auch in dem Sender durchgeführt werden. Der Block 4 sowie der Decodierer 5 können in vorteilhafter Weise in einem Empfänger angeordnet sein, wodurch auch dadurch klar ist, dass die in dem Decodierer 5 und in dem Block 4 durchgeführten Vorschritte in dem Empfänger abgearbeitet werden. Anzumerken ist, dass die Erfindung auch derart realisiert werden kann, dass die in dem Codierer 1 durchgeführten Verfahrensschritte im Decodierer 5 durchgeführt werden und somit ausschließlich im Empfänger durchgeführt werden. Dabei kann vorgesehen sein, dass die Signalleistungen, welche gemäß den Formeln 2) und 3) berechnet werden, im Decodierer 5 geschätzt werden. Insbesondere ist dabei der Block 52 zum Schätzen dieser Parameter der Signalleistungen ausgebildet. Diese Ausführung ermöglicht das Verbergen von potenziellen Übertragungsfehlern der in dem digitalen Signal BWE übertragenen Nebeninformationen. Durch eine vorübergehende Schätzung von verloren gegangenen Parametern einer Einhüllenden, beispielsweise durch einen Datenverlust, kann ein lästiges Umschalten der Signalbandbreite verhindert werden.
- Im Unterschied zu den bekannten Verfahren zum künstlichen Erweitern der Bandbreite von Sprachsignalen wird bei der Erfindung kein Übertragen von bereits verwendeten Verstärkungsfaktoren und Filterkoeffizienten als Nebeninformationen durchgeführt, sondern lediglich die erwünschten zeitlichen und spektralen Einhüllenden als Nebeninformationen an einen Decodierer übertragen. Verstärkungsfaktoren und Filterkoeffizienten werden erst dann im Decodierer, welcher in einem Empfänger angeordnet ist, berechnet. Dadurch kann erreicht werden, dass in aufwandsarmer Weise die künstliche Erweiterung der Bandbreite im Empfänger analysiert und gegebenenfalls korrigiert werden kann. Darüber hinaus ist das erfindungsgemäße Verfahren sowie die erfindungsgemäße Vorrichtung sehr robust gegen Störungen des Anregungssignals, wobei beispielsweise eine derartige Störung eines empfangenen schmalbandigen Signals durch Übertragungsfehler hervorgerufen werden kann.
- Durch ein separates Durchführen der Analyse, des Übertragens und der rekonstruierenden Formgebung der zeitlichen und spektralen Einhüllenden wird erreicht, dass sowohl im Zeitraum als auch im Frequenzraum eine sehr gute Auflösung bzw. Aufspaltung im Zeitraum und im Frequenzraum erreicht werden kann. Dies führt zu einer sehr guten Reproduzierbarkeit sowohl von stationären Lauten und Klängen als auch von vorübergehenden bzw. kurzzeitigen Signalen. Für Sprachsignale profitiert insbesondere die Reproduktion von Stoppkonsonanten und Plosiven von der wesentlich verbesserten Zeitauflösung.
- Im Gegensatz zu herkömmlichen Bandbreitenerweiterungen kann durch die Erfindung die Frequenzformung durch Linearphasen-FIR-Filter anstatt von LPC-Synthesefiltern durchgeführt werden. Dadurch kann auch erreicht werden, dass typische Artefakte ("filter ringing") reduziert werden können. Darüber hinaus ermöglicht die Erfindung eine sehr flexible und modulare Aufbauweise, welche es darüber hinaus ermöglicht, dass die einzelnen Blöcke im Empfänger bzw. im Decodierer 5 in einfacher Weise ausgetauscht oder eingestellt werden können. In vorteilhafter Weise ist für eine derartige Änderung oder Einstellung keine Änderung des Senders bzw. des Codierers 1 oder des Formats des Übertragungssignals, mit dem die codierten Informationen an den Decodierer 5 bzw. den Empfänger übertragen werden, erforderlich. Darüber hinaus können mit dem erfindungsgemäßen Verfahren unterschiedliche Decodierer betrieben werden, wodurch eine Wiederherstellung des breitbandigen Eingangssignals mit unterschiedlicher Präzision in Abhängigkeit von der verfügbaren Rechenleistung durchgeführt werden kann.
- Anzumerken ist auch, dass die empfangenen Parameter, welche die spektrale und die zeitliche Einhüllenden charakterisieren, nicht nur für eine Erweiterung der Bandbreite herangezogen werden können, sondern darüber hinaus auch zur Unterstützung von nachfolgenden Signalverarbeitungsblöcken, wie beispielsweise eine Nachfilterung, oder zusätzlichen Codierungsstufen wie Transformierungscodierer, verwendet werden können.
- Das resultierende schmalbandige Sprachsignal snb (k), wie es dem Algorithmus zur Bandbreitenerweiterung zur Verfügung steht, kann beispielsweise nach einer Reduktion der Abtastfrequenz um einen Faktor 2 mit einer Abtastrate von 8 kHz vorliegen.
- Mit der Erfindung und dem zugrunde gelegten Prinzip der Bandbreitenerweiterung ist es möglich, eine breitbandige Anregung von Informationen des G.729A+-Standards zu generieren. Die Datenrate der in dem digitalen Signal BWE übertragenen Nebeninformationen kann etwa 2 kbit/s betragen. Darüber hinaus wird bei der Erfindung ein relativ niedrig komplexes Berechnungssystem bzw. ein relativ niedriger komplexer Rechenaufwand benötigt, welcher weniger als 3 WMOPS beträgt. Darüber hinaus ist das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung sehr robust gegen Basisbandstörungen des G.729A+-Standards. Die Erfindung kann auch in vorteilhafter Weise für den Einsatz bei Voice-over-IP verwendet werden. Darüber hinaus ist das erfindungsgemäße Verfahren sowie die erfindungsgemäße Vorrichtung kompatibel zu TDAC-Einhüllenden. Nicht zuletzt weist die Erfindung auch einen sehr modularen und flexiblen Aufbau und eine modulare und flexible Konzeptionierung auf.
Claims (24)
- Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen, gekennzeichnet durch folgende Schritte:b) Bestimmen der zur Bandbreitenerweiterung erforderlichen Signalkomponenten (seb (k)) des breitbandigen Eingangssprachsignalsc) Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten (seb (k));d) Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten (seb (k)) ;e) Codieren der Informationen der zeitlichen Einhüllenden und der spektralen Einhüllenden und Bereitstellen der codierten Informationen zum Durchführen der Erweiterung der Bandbreite;
- Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
das Bestimmen der zeitlichen Einhüllenden in Schritt c) unabhängig von dem Bestimmen der spektralen Einhüllenden in Schritt d) durchgeführt wird. - Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
vor dem Codieren der zeitlichen Einhüllenden und der spektralen Einhüllenden in Schritt e) eine Quantisierung der zeitlichen Einhüllenden und der spektralen Einhüllenden durchgeführt wird. - Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
in Schritt d) zum Bestimmen der spektralen Einhüllenden die Signalleistungen (Pf (µ,λ)) von spektralen Unterbändern der zur Bandbreitenerweiterung bestimmten Signalkomponenten (seb (k)) bestimmt werden. - Verfahren nach Anspruch 5,
dadurch gekennzeichnet, dass
zum Bestimmen der Signalleistungen (Pf (µ,λ)) der spektralen Unterbänder Signalsegmente der zur Bandbreitenerweiterung bestimmten Signalkomponenten (seb (k)) erzeugt werden, wobei diese Signalsegmente insbesondere transformiert, insbesondere FF-transformiert, werden. - Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
in Schritt c) zum Bestimmen der zeitlichen Einhüllenden die Signalstärken (Pt (v)) von zeitlichen Signalsegmenten der zur Bandbreitenerweiterung bestimmten Signalkomponenten (seb (k)) bestimmt werden. - Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
in Schritt f) die codierten Informationen zum rekonstruierenden Formen der zeitlichen Einhüllenden und der spektralen Einhüllenden decodiert werden. - Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
ein Anregungssignal (sexc (k)) in einem Decodierer (5) aus einem an den Decodierer (5) übertragenen Signal (ssi (k)) erzeugt wird, wobei das übertragene Signal (ssi (k)) eine derartige Signalstärke in dem Frequenzbereich, welcher demjenigen des Erweiterungsbandes des breitbandigen Eingangssprachsignals - Verfahren nach Anspruch 9 oder 10,
dadurch gekennzeichnet, dass
das Anregungssignal (sexc (k)) Harmonische der Grundfrequenz des an den Decodierer (5) übertragenen Signals (ssi (k)) aufweist. - Verfahren nach Anspruch 8 und 11,
dadurch gekennzeichnet, dass
aus den decodierten Informationen der zeitlichen Einhüllenden und dem Anregungssignal (sexc (k)) ein erster Korrekturfaktor (g 1(k)) bestimmt wird. - Verfahren nach Anspruch 12,
dadurch gekennzeichnet, dass
aus dem ersten Korrekturfaktor (g 1(k)) und dem Anregungssignal (sexc (k)) eine rekonstruierende Formung der zeitlichen Einhüllenden, insbesondere durch eine Multiplikation des ersten Korrekturfaktors (g 1(k)) mit dem Anregungssignal (sexc (k)), durchgeführt wird. - Verfahren nach Anspruch 13,
dadurch gekennzeichnet, dass
die rekonstruierte Formung der zeitlichen Einhüllenden gefiltert wird und bei dem Filtern Impulsantworten (h(k)) erzeugt werden. - Verfahren nach Anspruch 14,
dadurch gekennzeichnet, dass
aus den Impulsantworten (h(k)) und der rekonstruierten Formung der zeitlichen Einhüllenden eine rekonstruierende Formung der spektralen Einhüllenden durchgeführt wird. - Verfahren nach Anspruch 16 und 17,
dadurch gekennzeichnet, dass
das bandbreitenerweiterte Ausgangssprachsignal - Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
die Schritte a) bis e) in einem Codierer (1) durchgeführt werden und die in Schritt d) erzeugten codierten Informationen als digitales Signal (BWE) zum Decodieren übertragen werden. - Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen, an welche ein breitbandiges Eingangssprachsignala) Mittel zum Bestimmen der zur Bandbreitenerweiterung erforderlichen Signalkomponenten (seb (k)) des breitbandigen Eingangssprachsignalsb) Mittel zum Bestimmen der zeitlichen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten (seb (k)) ;c) Mittel zum Bestimmen der spektralen Einhüllenden der zur Bandbreitenerweiterung bestimmten Signalkomponenten (seb (k)) ;d) einem Codierer (1) zum Codieren der zeitlichen Einhüllenden und der spektralen Einhüllenden und Bereitstellen der codierten Informationen zum Durchführen der Erweiterung der Bandbreite; und
- Vorrichtung nach Anspruch 23,
dadurch gekennzeichnet, dass
die Mittel in a) bis d) als Codierer (1) ausgebildet sind.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PL06840370T PL1825461T3 (pl) | 2005-07-13 | 2006-06-30 | Sposób i urządzenie do sztucznego rozszerzania szerokości pasma sygnałów mowy |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102005032724A DE102005032724B4 (de) | 2005-07-13 | 2005-07-13 | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
PCT/EP2006/063742 WO2007073949A1 (de) | 2005-07-13 | 2006-06-30 | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1825461A1 EP1825461A1 (de) | 2007-08-29 |
EP1825461B1 true EP1825461B1 (de) | 2008-09-03 |
Family
ID=36994160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP06840370A Not-in-force EP1825461B1 (de) | 2005-07-13 | 2006-06-30 | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen |
Country Status (12)
Country | Link |
---|---|
US (1) | US8265940B2 (de) |
EP (1) | EP1825461B1 (de) |
JP (1) | JP4740260B2 (de) |
KR (1) | KR100915733B1 (de) |
CN (2) | CN100568345C (de) |
AT (1) | ATE407424T1 (de) |
CA (1) | CA2580622C (de) |
DE (2) | DE102005032724B4 (de) |
DK (1) | DK1825461T3 (de) |
ES (1) | ES2309969T3 (de) |
PL (1) | PL1825461T3 (de) |
WO (1) | WO2007073949A1 (de) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BRPI0818927A2 (pt) * | 2007-11-02 | 2015-06-16 | Huawei Tech Co Ltd | Método e aparelho para a decodificação de áudio |
CA2708861C (en) * | 2007-12-18 | 2016-06-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
EP2077550B8 (de) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audiokodierer und -dekodierer |
KR101261677B1 (ko) * | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
US8532983B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
US8532998B2 (en) | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
US8407046B2 (en) * | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8515747B2 (en) * | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
WO2010031003A1 (en) | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
CN101751926B (zh) | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码系统 |
JP5423684B2 (ja) * | 2008-12-19 | 2014-02-19 | 富士通株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
JP4921611B2 (ja) * | 2009-04-03 | 2012-04-25 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
WO2011035813A1 (en) * | 2009-09-25 | 2011-03-31 | Nokia Corporation | Audio coding |
KR101613684B1 (ko) * | 2009-12-09 | 2016-04-19 | 삼성전자주식회사 | 음향 신호 보강 처리 장치 및 방법 |
JP5652658B2 (ja) * | 2010-04-13 | 2015-01-14 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
MX2012001696A (es) * | 2010-06-09 | 2012-02-22 | Panasonic Corp | Metodo de extension de ancho de banda, aparato de extension de ancho de banda, programa, circuito integrado, y aparato de descodificacion de audio. |
WO2012004058A1 (en) * | 2010-07-09 | 2012-01-12 | Bang & Olufsen A/S | A method and apparatus for providing audio from one or more speakers |
US8560330B2 (en) * | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US8868432B2 (en) * | 2010-10-15 | 2014-10-21 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
CN102610231B (zh) * | 2011-01-24 | 2013-10-09 | 华为技术有限公司 | 一种带宽扩展方法及装置 |
US9117455B2 (en) * | 2011-07-29 | 2015-08-25 | Dts Llc | Adaptive voice intelligibility processor |
JP6200034B2 (ja) * | 2012-04-27 | 2017-09-20 | 株式会社Nttドコモ | 音声復号装置 |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
US9258428B2 (en) | 2012-12-18 | 2016-02-09 | Cisco Technology, Inc. | Audio bandwidth extension for conferencing |
CA2961336C (en) * | 2013-01-29 | 2021-09-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates |
KR101775084B1 (ko) * | 2013-01-29 | 2017-09-05 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 주파수 향상 오디오 신호를 생성하는 디코더, 디코딩 방법, 인코딩된 신호를 생성하는 인코더, 및 컴팩트 선택 사이드 정보를 이용한 인코딩 방법 |
EP2784775B1 (de) * | 2013-03-27 | 2016-09-14 | Binauric SE | Verfahren und Vorrichtung zur Sprachsignalkodierung/-dekodierung |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
US9666202B2 (en) | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
EP3199956B1 (de) * | 2016-01-28 | 2020-09-09 | General Electric Technology GmbH | Vorrichtung zur bestimmung der frequenz eines elektrischen signals und zugehöriges verfahren |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3946821B2 (ja) * | 1996-12-13 | 2007-07-18 | 東北リコー株式会社 | 排版装置 |
DE19706516C1 (de) * | 1997-02-19 | 1998-01-15 | Fraunhofer Ges Forschung | Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US20020031129A1 (en) * | 2000-09-13 | 2002-03-14 | Dawn Finn | Method of managing voice buffers in dynamic bandwidth circuit emulation services |
DE10102173A1 (de) * | 2001-01-18 | 2002-07-25 | Siemens Ag | Verfahren und Anordnung zum Umsetzen von parametrisch codier-ten Sprachsignalen verschiedener Bandbreite in Sprachsignale |
JP2003044098A (ja) * | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
ES2255588T3 (es) * | 2002-09-12 | 2006-07-01 | Siemens Aktiengesellschaft | Terminal de comunicacion con ampliacion de la anchura de banda y compensacion del eco. |
DE10252070B4 (de) * | 2002-11-08 | 2010-07-15 | Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale | Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür |
US20040138876A1 (en) * | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
-
2005
- 2005-07-13 DE DE102005032724A patent/DE102005032724B4/de not_active Expired - Fee Related
-
2006
- 2006-06-30 US US11/662,592 patent/US8265940B2/en not_active Expired - Fee Related
- 2006-06-30 EP EP06840370A patent/EP1825461B1/de not_active Not-in-force
- 2006-06-30 CN CNB2006800007998A patent/CN100568345C/zh not_active Expired - Fee Related
- 2006-06-30 DE DE502006001491T patent/DE502006001491D1/de active Active
- 2006-06-30 PL PL06840370T patent/PL1825461T3/pl unknown
- 2006-06-30 CA CA2580622A patent/CA2580622C/en not_active Expired - Fee Related
- 2006-06-30 KR KR1020077005783A patent/KR100915733B1/ko not_active IP Right Cessation
- 2006-06-30 JP JP2007551692A patent/JP4740260B2/ja not_active Expired - Fee Related
- 2006-06-30 ES ES06840370T patent/ES2309969T3/es active Active
- 2006-06-30 WO PCT/EP2006/063742 patent/WO2007073949A1/de active IP Right Grant
- 2006-06-30 DK DK06840370T patent/DK1825461T3/da active
- 2006-06-30 AT AT06840370T patent/ATE407424T1/de not_active IP Right Cessation
- 2006-06-30 CN CN200910208032XA patent/CN101676993B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE102005032724B4 (de) | 2009-10-08 |
ES2309969T3 (es) | 2008-12-16 |
CN101676993B (zh) | 2012-05-30 |
KR20070090143A (ko) | 2007-09-05 |
JP4740260B2 (ja) | 2011-08-03 |
PL1825461T3 (pl) | 2009-02-27 |
EP1825461A1 (de) | 2007-08-29 |
US8265940B2 (en) | 2012-09-11 |
CA2580622A1 (en) | 2007-01-13 |
ATE407424T1 (de) | 2008-09-15 |
US20080126081A1 (en) | 2008-05-29 |
DK1825461T3 (da) | 2009-01-26 |
CA2580622C (en) | 2011-05-10 |
WO2007073949A1 (de) | 2007-07-05 |
CN101676993A (zh) | 2010-03-24 |
KR100915733B1 (ko) | 2009-09-04 |
DE102005032724A1 (de) | 2007-02-01 |
CN100568345C (zh) | 2009-12-09 |
JP2008513848A (ja) | 2008-05-01 |
CN101061535A (zh) | 2007-10-24 |
DE502006001491D1 (de) | 2008-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1825461B1 (de) | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen | |
DE10041512B4 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
DE69816810T2 (de) | Systeme und verfahren zur audio-kodierung | |
DE60024501T2 (de) | Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE60202881T2 (de) | Wiederherstellung von hochfrequenzkomponenten | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE60218385T2 (de) | Nachfilterung von kodierter Sprache im Frequenzbereich | |
DE60216214T2 (de) | Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals | |
DE69509555T2 (de) | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation | |
DE60101148T2 (de) | Vorrichtung und verfahren zur sprachsignalmodifizierung | |
DE60317722T2 (de) | Verfahren zur Reduzierung von Aliasing-Störungen, die durch die Anpassung der spektralen Hüllkurve in Realwertfilterbanken verursacht werden | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE69608947T2 (de) | Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals | |
DE69604526T2 (de) | Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter | |
DE60122203T2 (de) | Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation | |
DE69123500T2 (de) | 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal | |
DE60128121T2 (de) | Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale | |
EP1386307B2 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
EP2867894B1 (de) | Vorrichtung, verfahren und computerprogramm für frei wählbare frequenzverschiebungen in der subband-domäne | |
DE69820362T2 (de) | Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen | |
EP2784775B1 (de) | Verfahren und Vorrichtung zur Sprachsignalkodierung/-dekodierung | |
DE69713712T2 (de) | Sprachkodierer mit Sinusanalyse und Grundfrequenzsteuerung | |
DE60124079T2 (de) | Sprachverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20070222 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL BA HR MK YU |
|
DAX | Request for extension of the european patent (deleted) | ||
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP Ref country code: CH Ref legal event code: NV Representative=s name: SIEMENS SCHWEIZ AG |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: GERMAN |
|
REF | Corresponds to: |
Ref document number: 502006001491 Country of ref document: DE Date of ref document: 20081016 Kind code of ref document: P |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2309969 Country of ref document: ES Kind code of ref document: T3 |
|
REG | Reference to a national code |
Ref country code: SE Ref legal event code: TRGR |
|
REG | Reference to a national code |
Ref country code: DK Ref legal event code: T3 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 |
|
REG | Reference to a national code |
Ref country code: PL Ref legal event code: T3 |
|
NLV1 | Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act | ||
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PCAR Free format text: SIEMENS SCHWEIZ AG;INTELLECTUAL PROPERTY FREILAGERSTRASSE 40;8047 ZUERICH (CH) |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BG Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20081203 Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20090203 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20090103 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 |
|
26N | No opposition filed |
Effective date: 20090604 |
|
BERE | Be: lapsed |
Owner name: SIEMENS A.G. Effective date: 20090630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20090630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20090630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20090630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20081204 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20090630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: HU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20090304 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080903 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20120626 Year of fee payment: 7 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130630 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: SE Payment date: 20140605 Year of fee payment: 9 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DK Payment date: 20140618 Year of fee payment: 9 Ref country code: PL Payment date: 20140523 Year of fee payment: 9 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: CH Payment date: 20140904 Year of fee payment: 9 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20140617 Year of fee payment: 9 Ref country code: ES Payment date: 20140725 Year of fee payment: 9 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20150608 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20150821 Year of fee payment: 10 |
|
REG | Reference to a national code |
Ref country code: DK Ref legal event code: EBP Effective date: 20150630 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
REG | Reference to a national code |
Ref country code: SE Ref legal event code: EUG |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20160229 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20150630 Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20150630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20150630 Ref country code: SE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20150701 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FD2A Effective date: 20160801 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DK Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20150630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20150630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20150701 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 502006001491 Country of ref document: DE |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20160630 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170103 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20160630 |