EP1386307B1 - Method and device for determining a quality measure for an audio signal - Google Patents
Method and device for determining a quality measure for an audio signal Download PDFInfo
- Publication number
- EP1386307B1 EP1386307B1 EP02703438A EP02703438A EP1386307B1 EP 1386307 B1 EP1386307 B1 EP 1386307B1 EP 02703438 A EP02703438 A EP 02703438A EP 02703438 A EP02703438 A EP 02703438A EP 1386307 B1 EP1386307 B1 EP 1386307B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- audio signal
- quality
- determining
- interruptions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000001629 suppression Effects 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 description 30
- 238000001303 quality assessment method Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 210000002364 input neuron Anatomy 0.000 description 3
- 210000004205 output neuron Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Definitions
- the invention relates to a method for determining a quality measure of an audio signal. Furthermore, the invention relates to a device for carrying out this method and a noise suppression module and an interrupt detection and interpolation module for use in such a device.
- the To judge service quality of a telecommunication network is quality to determine a signal transmitted via the telecommunication network.
- quality to determine a signal transmitted via the telecommunication network For audio signals, In particular with speech signals, various intrusive methods are known for this purpose. In such methods, as the name suggests, in the system under test intervened by occupying a transmission channel and transmitting therein a reference signal becomes. The quality assessment is then carried out by comparing the known Reference signal with the received signal, for example, subjectively by a or a plurality of test persons. However, this is expensive and therefore expensive.
- EP 0 980 064 is another intrusive method for machine-aided quality assessment an audio signal, wherein for assessing the transmission quality a spectral similarity value of the known source signal and the received signal is determined. This similarity value is based on a calculation of the covariance the spectra of the source signal and the received signal and a division of the covariance by the standard deviations of the two spectra.
- intrusive methods generally have the disadvantage that, as already mentioned in the zu testing system must be intervened. To determine the signal quality must namely occupies at least one transmission channel and transmits therein a reference signal become. This transmission channel can not during this time for a data transmission be used. In addition, it is in a broadcasting system such as a broadcasting service in principle possible, the signal source for transmission occupied by test signals, but since this occupies all channels and the test signal to This procedure is extremely impractical. Intrusive Methods are also inappropriate for simultaneously maintaining the quality of a variety of transmission channels to monitor.
- EP-A-644 526 discloses a non-intrusive process for Noise reduction, which is used to calculate the desired Signal information uses an estimate of the noise energy.
- the object of the invention is to provide a method of the type mentioned above, which avoids the disadvantages of the prior art and in particular offers a possibility to assess the signal quality of a transmitted over a telecommunications network Signals without knowledge of the originally transmitted signal.
- a reference signal is first determined from the audio signal. through Comparing the determined reference signal with the audio signal becomes a quality value determined, which is used to determine the quality measure.
- the inventive method thus allows an assessment of the quality of an audio signal at any terminal of the telecommunication network. Ie. it allows so that the quality assessment of many transmission channels simultaneously, even a simultaneous assessment of all channels would be possible.
- the quality assessment takes place solely on the basis of the characteristics of the received signal, d. H. without knowledge of the source signal or the signal source.
- the invention thus not only enables monitoring of the transmission quality of the Telecommunications network, but also, for example, a quality-based cost allocation, a quality-based routing in the network, a test of the coverage ratio
- a QOS Quality of Service
- a transmitted over a telecommunications network audio signal has next to the desired Signal information also typically unwanted components such as different noise components which are not in the original source signal were present.
- the reference signal is determined by the in the received signal received existing Störsignalanmaschine and then from the received signal are removed. By removing the noise from the audio signal are first determined a noisy audio signal, which is preferred as Reference signal is used to assess the transmission quality.
- the audio signal could, for example, be passed through appropriate filters.
- a neural network is used for this purpose.
- the audio signal is not used directly as an input signal.
- DWT discrete wavelet transform
- This transformation provides a plurality of DWT coefficients of the audio signal corresponding to the neural Network are supplied as input signal.
- the neural network delivers at Output a plurality of corrected DWT coefficients, from which with the inverse DWT the reference signal is obtained. This corresponds to the noisy version of the Audio signal.
- the coefficients of the neural network must be set in this way be that this to the DWT coefficients of a noisy input signal provides the DWT coefficients of the corresponding noisy input signal.
- the neural network In order to the neural network provides the desired coefficients, it must first with a Set trained by corresponding noisy or noisy signal pairs become.
- any other information in addition to the quality value provided by the Comparison of the received audio signal determined with the reference signal determined therefrom will be considered, any other information. This can both Information contained in the audio signal, as well as information about the transmission channel or the telecommunications network itself.
- the quality of the received audio signal for example, by the at Transmission codecs (coder - decoder) influenced. It is difficult to do such Detect signal degradation, for example, at too small codec bit rates a part of the original signal information is lost. However, they are too small Codec bit rates result in a change in the fundamental frequency (pitch) of the audio signal, why examined with advantage the course and the dynamics of the fundamental frequency in the audio signal becomes. Since such changes are easiest based on audio signal sections With vocals, it is first preferable to use signal components in the audio signal detected with vowels and then examined for pitch variations.
- the received audio signal can namely not only have unwanted signal components, it can also partially on the way desired information has been lost. So can the received audio signal for example, have more or less long signal interruptions.
- the received audio signal may include various types of audio signals. So For example, it can contain voice, music, noise or silence signals.
- the quality assessment can be based on all or part of it Signal components take place. In a preferred variant of the invention, the assessment the signal quality, however, limited to the speech signal components.
- the speech signal components are first extracted from the audio signal and only these speech signal components for determining the quality measure, i. H. to Determination of the reference signal used. To determine the quality value is in In this case, the determined reference signal, of course, not with the received audio signal, but compared only with the voice signal component extracted therefrom.
- the inventive device for machine-aided determination of a quality measure an audio signal comprises first means for determining a reference signal the audio signal, second means for determining a quality value by means of comparisons the determined reference signal with the audio signal and third means for determining the quality measure taking into account the quality value.
- the first means for determining a reference signal from the audio signal can be several Include modules. So is preferably a noise suppression module and / or a Interrupt detection and interpolation module provided.
- noise signal components can be received in the Suppress audio signal. It contains the means to carry out the already described Wavelet transforms and the neural network to determine the new DWT coefficients.
- the interrupt detection and interpolation module has those Means, on the one hand for detecting signal interruptions in the audio signal and on the other hand, for the polynomial interpolation of short and model-based interpolation be required by medium-length signal interruptions. The determined so Reference signal thus corresponds to a noisy version of the received audio signal and typically has only larger signal interruptions.
- the information about the signal interruptions of the audio signal is not only used to determine a better reference signal, they can also be used to determine of a better quality.
- the third means of determination of the quality measure are therefore preferably designed such that information can be taken into account via signal interruptions in the audio signal.
- the device therefore advantageously has fourth means for determining information on codec-related Signal distortions on.
- codec-related Signal distortions include, for example, a vocal detection module, with which signal components with vowels can be detected in the audio signal. These vowel signal components will be passed on to an evaluation module, which is based on this Signal components
- Information about codec-related signal distortions determines which also be used to assess the signal quality.
- the third funds are corresponding designed such that this information about the codec-related signal distortions can be taken into account when determining the quality measure.
- the device has, in particular, fifth means for extracting the device Speech signal components from the audio signal. Accordingly, to determine the Reference signal not the audio signal itself, but only the voice signal component noisy and checked for interruptions. Likewise, of course, not the audio signal, but only the voice signal component compared with this reference signal. In order to the determination of the quality measure is based only on the information in Voice signal component, wherein the information from the remaining signal components is not taken into account become.
- FIG. 1 shows a block diagram of the method according to the invention.
- a Audio signal 1 determines a quality measure 2, which, for example, also for evaluation the used (not shown) telecommunications network can be used.
- the audio signal 1 is here understood to mean the signal which is a receiver after transmission via the telecommunication network.
- This audio signal 1 Namely, typically does not match the one sent by the transmitter (not shown) Signal match, because on the way from the transmitter to the receiver, the transmission signal varied way changed. For example, it goes through different modules such as speech coders and decoders, multiplexers and demultiplexers or even speech enhancers and echo cancellers. But even the transmission channel itself can be a big Have an influence on the signal, which occurs, for example, in the form of interference, fading, Transmission off or interruptions, echo generation, etc. express.
- the audio signal 1 thus contains not only desired signal components, d. H. the original one Transmission signal, but also unwanted interference signal components. It can also be that Signal portions of the transmission signal are missing, d. H. lost during the transmission are.
- the evaluation of signal quality is not based on the entire audio signal 1, but only on the basis of the contained therein Speech portion.
- the audio signal 1 is first recorded with an audio discriminator 3 Voice signal parts 4 examined out. Found speech signal components 4 become further Processing, whereas other signal components such as music 5.1, breaks 5.2 or severe signal interference 5.3 sorted out and otherwise processed or can be discarded.
- the audio signal 1 piecewise, d. H. to pieces a each about 100 ms to 500 ms, passed to the audio discriminator 3. This decomposes these pieces further in single buffer of about 20 ms in length, processes these buffers and then assigns them each one of the signal groups to be distinguished speech signal, music, pause or strong interference to.
- the audio discriminator 3 uses, for example, to judge the signal chips an LPC (linear predictive coding) transformation, which uses the coefficients of a the adaptive filter corresponding to the human language tract.
- LPC linear predictive coding
- the Assignment of the signal pieces to the different signal groups is based on the Shape of the transmission characteristics of this filter.
- this voice signal component becomes 4 now a reference signal 6, d. H. the best possible estimate of the sender originally transmitted transmission signal determined.
- This reference signal estimation takes place in several stages.
- a noise suppression module 7 are initially undesirable Signal components such as stationary noise or impulse noise from the speech signal component 4 removed or suppressed. This is done with the help of a neural network, which previously by means of a variety of noisy signals as input and each train the corresponding noise-free version of the input signal as a target signal has been. The thus obtained, noisy speech signal 11 is sent to the second stage forwarded.
- the interruption detection and interpolation module 8 interruptions detected in the audio signal 1 or in the voice signal portion 4 and if possible interpolated, d. H. the missing samples are replaced by appropriately estimated values.
- the detection of signal interruptions by means of an investigation discontinuities of the signal fundamental frequency (pitch-tracing).
- the interpolation is performed depending on the length of the detected interruption.
- model-based interpolations such as a maximum a posteriori, an autoregressive or a frequency-time interpolation applied.
- For longer Signal interruptions is an interpolation or other signal reconstruction in usually no longer possible in a meaningful way.
- the comparison module 9 After determining the reference signal 6 with the noise suppression module 7 and the interruption detection and interpolation module 8 it is using the comparison module 9 compared with the voice signal component 4.
- This comparison can be an algorithm used, for example, in intrusive procedures for comparison the known source signal is used with the received signal. Suitable are, for example, psychoacoustic models, the signals perceptive, d. H. perceptible to compare.
- the result of this comparison is an intrusive quality value 10.
- This intrusive quality value 10 the input signals, so the Voice signal component 4 and the reference signal 6, in signal pieces of about 20 to 30 ms Length decomposes and calculates a partial quality value for each signal piece. After about 20 to 30 signal pieces, which corresponds approximately to a signal duration of 0.5 seconds, becomes the intrusive Quality value 10 is determined as the arithmetic mean of these partial quality values. Of the intrusive quality value 10 forms the output signal of the comparison module 9.
- the transmitted signal on its way from the transmitter to the receiver has an influence on the audio signal 1.
- These influences exist, for example in that both the fundamental frequency and the higher harmonic frequencies vary the signal. The smaller the bit rate of the speech codecs used, the greater the frequency shifts and thus the signal distortions.
- the evaluation module 14 divides the vocal signal 13 into signal pieces of about 30 ms and calculates a respective DFT (discrete Fourier transformation) with a frequency resolution of about 2 Hz at a sampling frequency of about 8 kHz. Leave it then determine the fundamental frequency and the higher harmonic frequencies and look for variations. Another feature for evaluating the codec-related Distortion forms the dynamics of the signal spectrum, with a smaller dynamics a poorer signal quality means.
- the reference values for the dynamic assessment are obtained for the individual vowels from example signals. From the information on the influence of codecs on frequency shifts and spectrum dynamics of the audio signal 1 and the denoised voice signal 11 becomes a codec quality value 15 derived.
- intrusive quality value 10 and codec quality value 15 also have an interruption quality value 17 taken into account.
- This value includes information about the length and the number of interruptions detected by the interruption detection and interpolation module 8, in a preferred embodiment of the invention, only the information be taken into account over the long breaks.
- quality information 18 on the received audio signal 1 or the denoised speech signal 11, which is determined with other modules or examinations will be included in the calculations of quality standard 2.
- the individual quality values are now scaled such that they are in the range of numbers between 0 and 1, where a quality value of 1 is undiminished quality and Values below 1 indicate a correspondingly reduced quality.
- the quality measure 2 is finally calculated as a linear combination of the individual quality values, whereby the individual weighting coefficients are determined experimentally and determined that their sum is 1.
- figure 2 shows the noise suppression module 7.
- the speech signal component 4 of the audio signal 1 is first subjected to a known DWT 19 (discrete wavelet transformation).
- DWT's are similar to DFT's used for signal analysis.
- An essential Difference, however, unlike the ones used in a DFT, is indefinite and thus temporally unlocated sine or cosine waveforms, the use of so-called wavelets, d. H. temporally limited and thus temporally localized Waveforms with mean 0.
- the speech signal component 4 is divided into signal pieces of about 20 ms to 30 ms, which each of the DWT 19 are subjected.
- the result of DWT 19 is a set of DWT coefficients 20.1, which is fed as input vector to a neural network 20 become. Its coefficients have previously been trained to become a given Set of DWT coefficients 20.1 of a noisy signal a new set of DWT coefficients 20.2 provide the noisy version of this signal.
- This new set of DWT coefficient 20.2 will now be sent to IDWT 21, i. H. subjected to the DWT 19 inverse DWT.
- This IDWT 21 delivers in this way a mostly unencumbered version of the Speech signal portions 4, just the desired, denoised speech signal 11th
- the training configuration of the neural network 20 is shown in FIG. It is with Training pairs of noisy and noisy versions of sample signals.
- One unencumbered example signal 22.1 is subjected to the DWT 19 and it becomes a first Theorem 20.3 obtained from DWT coefficients.
- Even the noisy sample signal 22.2 is subjected to the same DWT 19 and generates a second set 20.4 of DWT coefficients, which is fed into the neural network 20.
- the output vector of the neural Network 20, the new DWT coefficients 20.5 is placed in a comparator 23 with the first one Theorem 20.3 compared with DWT coefficients. Because of the differences between These two sets of DWT coefficients are corrected 24 of the coefficients of the neural network 20.
- example signals 22.1, 22.2 uses which human sounds from different Represent languages. It is also beneficial for women as well as women To use male and female voices.
- the mentioned size of the individually to be processed Signal pieces from 20 ms to 30 ms duration are selected so that the processing of the Voice signal portion 4 are performed regardless of the language and the speaker can. Also pauses and very quiet signal sections are trained, so even these are recognized correctly.
- a multi-layer perceptron was used with an input layer 25, a hidden layer 26 and a Starting layer 27 used.
- the perceptron was trained with a backpropagation algorithm.
- the input layer 25 has a plurality of input neurons 25.1, the hidden layer 26 a plurality of hidden neurons 26.1 and the Output layer 27 on a plurality of output neurons 27.1. Every input neuron 25.1 becomes one of the DWT coefficients 20.1 of the preceding DWT 19 fed.
- the respective values are determined by the set coefficients of the respective neurons and the value combinations are calculated in each neuron supplies each output neuron 27.1 one of the new DWT coefficients 20.2.
- the audio discriminator 3 decomposes the signal pieces into individual buffers of Length 20 ms. At a sampling rate of 8 kHz, this corresponds to 160 samples.
- this Case may be, for example, a neural network 20 with 160 input and output neurons each 25.1, 27.1 and about 50 to 60 hidden neurons 26.1 are used.
- a time-frequency interpolation is used for the signal reconstruction.
- Length 8 ms
- the goal of interpolation is to address this gap.
- Figure 5 shows such a signal 28 of about 200 samples in length.
- Figure 5 shows the signal 28 in the temporal domain easier to recognize.
- On the abscissa axis 32 are the number of samples and on the ordinate axis 33 the magnitudes applied.
- the interpolation is done in the frequency-time domain.
- the interruption 29 is easy to recognize as a gap of almost 10 samples.
- the pitch period 30 of the signal 28 is determined.
- the interpolation will be information from the samples before and after the gap within this pitch period 30 is taken into account.
- the signal areas 31.1, 31.2 show those Ranges of the signal 28 each have a pitch period before or after the interruption 29.
- This Signal ranges 31.1, 31.2 are not identical to the original signal piece at break 29, but still show a high degree of similarity. For small Gaps up to about 10 samples are believed to still provide enough signal information is present in order to be able to carry out a correct interpolation. For longer gaps Additional information from samples of the environment can be used.
- the invention allows the signal quality of a Judge received audio signal without knowing the original transmission signal. From the signal quality can of course on the quality of the transmission channels used and thus closed on the service quality of the entire telecommunications network become.
- the fast response times of the inventive method which are on the order of about 100 ms to 500 ms, thus allowing different Applications such as general comparisons of service quality of various Networks or subnets, quality-based cost allocation or quality-based Routing in a network or across multiple networks by means of appropriate Control of network nodes (gateways, routers etc.).
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Testing Electric Properties And Detecting Electric Faults (AREA)
- Noise Elimination (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren zur Bestimmung eines Qualitätsmasses eines Audiosignals. Weiter betrifft die Erfindung eine Vorrichtung zur Durchführung dieses Verfahrens sowie ein Rauschunterdrückungsmodul und ein Unterbruchdetektions- und interpolationsmodul zur Verwendung in einer derartigen Vorrichtung. The invention relates to a method for determining a quality measure of an audio signal. Furthermore, the invention relates to a device for carrying out this method and a noise suppression module and an interrupt detection and interpolation module for use in such a device.
Die Beurteilung der Qualität eines Telekommunikationsnetzes ist ein wichtiges Instrument zur Erreichung bzw. Erhaltung einer gewünschten Service-Qualität. Eine Möglichkeit, die Service-Qualität eines Telekommunikationsnetzes zu beurteilen besteht darin, die Qualität eines über das Telekommunikationsnetz übertragenen Signals zu bestimmen. Bei Audiosignalen, insbesondere bei Sprachsignalen sind hierfür verschiedene intrusive Verfahren bekannt. Bei derartigen Verfahren wird, wie der Name schon sagt, in das zu testende System eingegriffen, indem ein Übertragungskanal belegt und darin ein Referenzsignal übermittelt wird. Die Qualitätsbeurteilung erfolgt anschliessend durch einen Vergleich des bekannten Referenzsignals mit dem empfangenen Signal beispielsweise subjektiv durch eine oder eine Mehrzahl von Testpersonen. Dies ist jedoch aufwändig und damit teuer.Assessing the quality of a telecommunications network is an important tool to achieve or maintain a desired service quality. One way, the To judge service quality of a telecommunication network is quality to determine a signal transmitted via the telecommunication network. For audio signals, In particular with speech signals, various intrusive methods are known for this purpose. In such methods, as the name suggests, in the system under test intervened by occupying a transmission channel and transmitting therein a reference signal becomes. The quality assessment is then carried out by comparing the known Reference signal with the received signal, for example, subjectively by a or a plurality of test persons. However, this is expensive and therefore expensive.
In der EP 0 980 064 ist ein weiteres intrusives Verfahren zur maschinengestützten Qualitätsbeurteilung eines Audiosignals beschrieben, wobei zur Beurteilung der Übertragungsqualität ein spektraler Ähnlichkeitswert des bekannten Quellsignals und des Empfangssignals bestimmt wird. Dieser Ähnlichkeitswert beruht auf einer Berechnung der Kovarianz der Spektren des Quellsignals und des Empfangssignal und einer Division der Kovarianz durch die Standardabweichungen der beiden genannten Spektren.In EP 0 980 064 is another intrusive method for machine-aided quality assessment an audio signal, wherein for assessing the transmission quality a spectral similarity value of the known source signal and the received signal is determined. This similarity value is based on a calculation of the covariance the spectra of the source signal and the received signal and a division of the covariance by the standard deviations of the two spectra.
Intrusive Methoden haben generell jedoch den Nachteil, dass wie bereits erwähnt in das zu testende System eingegriffen werden muss. Zur Bestimmung der Signalqualität muss nämlich mindestens ein Übertragungskanal belegt und darin ein Referenzsignal übermittelt werden. Dieser Übertragungskanal kann während dieser Zeit nicht für eine Datenübermittlung verwendet werden. Zudem ist es bei einem Broadcastingsystem wie beispielsweise einem Rundfunkdienst prinzipiell zwar möglich, die Signalquelle zur Übermittlung von Testsignalen zu belegen, da damit aber sämtliche Kanäle besetzt und das Testsignal zu allen Empfängern übermittelt würde, ist dieses Vorgehen äusserst unpraktisch. Intrusive Verfahren sind ebenso ungeeignet, um gleichzeitig die Qualität einer Vielzahl von Übertragungskanälen zu überwachen.However, intrusive methods generally have the disadvantage that, as already mentioned in the zu testing system must be intervened. To determine the signal quality must namely occupies at least one transmission channel and transmits therein a reference signal become. This transmission channel can not during this time for a data transmission be used. In addition, it is in a broadcasting system such as a broadcasting service in principle possible, the signal source for transmission occupied by test signals, but since this occupies all channels and the test signal to This procedure is extremely impractical. Intrusive Methods are also inappropriate for simultaneously maintaining the quality of a variety of transmission channels to monitor.
EP-A-644 526 offenbart ein nicht-intrusives Verfahren zur Geräuschreduktion, welches zur Berechnung der gewünschten Signalinformation eine Schätzung der Rauschenergie verwendet. EP-A-644 526 discloses a non-intrusive process for Noise reduction, which is used to calculate the desired Signal information uses an estimate of the noise energy.
Aufgabe der Erfindung ist es, ein Verfahren der oben genannten Art anzugeben, welches die Nachteile des Standes der Technik vermeidet und insbesondere eine Möglichkeit bietet zur Beurteilung der Signalqualität eines über ein Telekommunikationsnetz übertragenen Signals ohne Kenntnis des ursprünglich gesendeten Signals.The object of the invention is to provide a method of the type mentioned above, which avoids the disadvantages of the prior art and in particular offers a possibility to assess the signal quality of a transmitted over a telecommunications network Signals without knowledge of the originally transmitted signal.
Die Lösung der Aufgabe ist durch die Merkmale des Verfahrensanspruchs 1 und des Vorrichtungsanspruchs definiert. Bei dem erfindungsgemässen Verfahren zur maschinengestützten Bestimmung eines Qualitätsmasses eines Audiosignals wird aus dem Audiosignal zunächst ein Referenzsignal ermittelt. Mittels Vergleichen des ermittelten Referenzsignals mit dem Audiosignal wird ein Qualitätswert bestimmt, der zur Bestimmung des Qualitätsmasses verwendet wird.The solution of the problem is defined by the features of method claim 1 and the device claim. In the inventive Method for machine-aided determination of a quality measure of an audio signal, a reference signal is first determined from the audio signal. through Comparing the determined reference signal with the audio signal becomes a quality value determined, which is used to determine the quality measure.
Das erfindungsgemässe Verfahren erlaubt somit eine Beurteilung der Qualität eines Audiosignals an einem beliebigen Anschluss des Telekommunikationsnetzwerkes. D. h. es erlaubt damit auch die Qualitätsbeurteilung von vielen Übertragungskanälen gleichzeitig, wobei sogar eine gleichzeitige Beurteilung sämtlicher Kanäle möglich wäre. Die Qualitätsbeurteilung erfolgt hierbei allein aufgrund der Eigenschaften des empfangenen Signals, d. h. ohne Kenntnis des Quellsignals oder der Signalquelle.The inventive method thus allows an assessment of the quality of an audio signal at any terminal of the telecommunication network. Ie. it allows so that the quality assessment of many transmission channels simultaneously, even a simultaneous assessment of all channels would be possible. The quality assessment takes place solely on the basis of the characteristics of the received signal, d. H. without knowledge of the source signal or the signal source.
Die Erfindung ermöglicht somit nicht nur eine Überwachung der Übertragungsqualität des Telekommunikationsnetzwerkes, sondern beispielsweise auch eine qualitätsbasierte Kostenverrechnung, ein qualitätsbasiertes Routing im Netz, ein Test des Deckungsgrades beispielsweise bei Mobilfunknetzen, eine QOS (Quality of Service) Steuerung der Netzknoten oder ein Qualitätsvergleich innerhalb eines Netzes oder auch netzübergreifend.The invention thus not only enables monitoring of the transmission quality of the Telecommunications network, but also, for example, a quality-based cost allocation, a quality-based routing in the network, a test of the coverage ratio For example, in mobile networks, a QOS (Quality of Service) control of network nodes or a quality comparison within a network or across networks.
Ein über ein Telekommunikationsnetz übertragenes Audiosignal weist neben der gewünschten Signalinformation typischerweise auch unerwünschte Komponenten wie beispielsweise verschiedene Rauschanteile auf, welche im ursprünglichen Quellsignal nicht vorhanden waren. A transmitted over a telecommunications network audio signal has next to the desired Signal information also typically unwanted components such as different noise components which are not in the original source signal were present.
Um eine möglichst gute Qualitätsbeurteilung durchführen zu können, ist eine möglichst gute Schätzung des ursprünglich gesendeten Signals notwendig. Um dieses Referenzsignal zu rekonstruieren, gibt es verschiedene Methoden. Eine Möglichkeit besteht darin, eine Schätzung der Charakteristika des Übertragungskanals zu bestimmen und ausgehend vom empfangenen Signal quasi rückwärts zu rechnen. Eine weitere Möglichkeit besteht in einer direkten Schätzung des Referenzsignals anhand der bekannten Informationen über das Empfangssignal und den Übertragungskanal.To be able to perform the best possible quality assessment, one is possible good estimate of the originally transmitted signal necessary. To this reference signal To reconstruct, there are different methods. One possibility is one Estimate the characteristics of the transmission channel and determine from the received signal quasi backward to count. Another possibility is in one direct estimation of the reference signal based on the known information about the Receive signal and the transmission channel.
Bei der vorliegend angewandten Methode wird das Referenzsignal ermittelt, indem die im empfangenen Signal vorhandenen Störsignalanteile geschätzt und anschliessend aus dem empfangenen Signal entfernt werden. Indem die Rauschanteile aus dem Audiosignal entfernt werden, wird zunächst ein entrauschtes Audiosignal bestimmt, welches bevorzugt als Referenzsignal zur Beurteilung der Übertragungsqualität verwendet wird.In the method used here, the reference signal is determined by the in the received signal received existing Störsignalanteile and then from the received signal are removed. By removing the noise from the audio signal are first determined a noisy audio signal, which is preferred as Reference signal is used to assess the transmission quality.
Es gibt verschiedene Methoden, Rauschanteile aus dem empfangenen Audiosignal zu entfernen. Das Audiosignal könnte beispielsweise über entsprechende Filter geführt werden. Bei einer bevorzugten Methode, die Rauschanteile aus dem Audiosignal zu entfemen, wird hierfür jedoch ein neuronales Netzwerk verwendet.There are several ways to remove noise from the received audio signal. The audio signal could, for example, be passed through appropriate filters. In a preferred method to remove the noise from the audio signal is however, a neural network is used for this purpose.
Das Audiosignal wird jedoch nicht direkt als Eingangssignal verwendet. Zunächst wird auf das Audiosignal eine diskrete Wavelet Transformation (DWT) angewendet. Diese Transformation liefert eine Mehrzahl von DWT-Koeffizienten des Audiosignals, welche dem neuronalen Netzwerk als Eingangssignal zugeführt werden. Das neuronale Netzwerk liefert am Ausgang eine Mehrzahl von korrigierten DWT-Koeffizienten, aus welchen mit der inversen DWT das Referenzsignal gewonnen wird. Dieses entspricht der entrauschten Version des Audiosignals.However, the audio signal is not used directly as an input signal. First, it will open the audio signal applied a discrete wavelet transform (DWT). This transformation provides a plurality of DWT coefficients of the audio signal corresponding to the neural Network are supplied as input signal. The neural network delivers at Output a plurality of corrected DWT coefficients, from which with the inverse DWT the reference signal is obtained. This corresponds to the noisy version of the Audio signal.
Um dies zu erreichen, müssen die Koeffizienten des neuronalen Netzwerkes derart eingestellt sein, dass dieses zu den DWT-Koeffizienten eines rauschbehafteten Eingangssignals die DWT-Koeffizienten des entsprechenden entrauschten Eingangssignals liefert. Damit das neuronale Netzwerk die gewünschten Koeffizienten liefert, muss es zuvor mit einem Set von korrespondierenden rauschbehafteten bzw. entrauschten Signalpaaren trainiert werden.To achieve this, the coefficients of the neural network must be set in this way be that this to the DWT coefficients of a noisy input signal provides the DWT coefficients of the corresponding noisy input signal. In order to the neural network provides the desired coefficients, it must first with a Set trained by corresponding noisy or noisy signal pairs become.
Auf diese Weise lässt sich sowohl stationäres Rauschen wie beispielsweise weisses, thermisches sowie Fahrzeug- oder Strassenrauschen, als auch Impulsrauschen unterdrücken. Auch Echostörungen und Interferenzen lassen sich mit dem neuronalen Netzwerk unterdrücken bzw. beseitigen.In this way, both stationary noise such as white, thermal and vehicle or road noise, as well as impulse noise suppress. Also echo disturbances and interferences can be suppressed with the neural network or eliminate.
Bei der Bestimmung des Qualitätsmasses können neben dem Qualitätswert, der durch den Vergleich des empfangenen Audiosignals mit dem daraus ermittelten Referenzsignal ermittelt wird, auch beliebige andere Informationen berücksichtigt werden. Dies können sowohl im Audiosignal enthaltene Informationen, als auch Informationen über den Übertragungskanal oder das Telekommunikationsnetz selber sein.In determining the quality measure, in addition to the quality value provided by the Comparison of the received audio signal determined with the reference signal determined therefrom will be considered, any other information. This can both Information contained in the audio signal, as well as information about the transmission channel or the telecommunications network itself.
Es ist von Vorteil, bei der Bestimmung des Qualitätsmasses Informationen zu verwenden, welche sich mit geeigneten Mitteln aus dem empfangenen Audiosignal selber gewinnen lassen. So wird die Qualität des empfangenen Audiosignal beispielsweise durch die bei der Übermittlung durchlaufenen Codec's (Coder - Decoder) beeinflusst. Es ist schwierig, derartige Signal-Degradationen festzustellen, denn beispielsweise bei zu kleinen Codec-Bitraten geht ein Teil der ursprünglichen Signalinformation verloren. Allerdings haben zu kleine Codec-Bitraten eine Veränderung der Grundfrequenz (Pitch) des Audiosignals zur Folge, weshalb mit Vorteil der Verlauf und die Dynamik der Grundfrequenz im Audiosignal untersucht wird. Da sich solche Änderungen am einfachsten anhand von Audiosignalabschnitten mit Vokalen untersuchen lassen, werden zunächst vorzugsweise Signalanteile im Audiosignal mit Vokalen detektiert und danach auf Pitch-Variationen hin untersucht.It is beneficial to use information in determining the quality measure which win by suitable means from the received audio signal itself to let. Thus, the quality of the received audio signal, for example, by the at Transmission codecs (coder - decoder) influenced. It is difficult to do such Detect signal degradation, for example, at too small codec bit rates a part of the original signal information is lost. However, they are too small Codec bit rates result in a change in the fundamental frequency (pitch) of the audio signal, why examined with advantage the course and the dynamics of the fundamental frequency in the audio signal becomes. Since such changes are easiest based on audio signal sections With vocals, it is first preferable to use signal components in the audio signal detected with vowels and then examined for pitch variations.
Zurück zur Ermittlung des Referenzsignals aus dem empfangenen Audiosignal. Dieses kann nämlich nicht nur unerwünschte Signalanteile aufweisen, es können unterwegs auch teilweise gewünschte Informationen verloren gegangen sein. So kann das empfangene Audiosignal beispielsweise mehr oder weniger lange Signalunterbrüche aufweisen. Back to the determination of the reference signal from the received audio signal. This can namely not only have unwanted signal components, it can also partially on the way desired information has been lost. So can the received audio signal for example, have more or less long signal interruptions.
Je näher nun aber das aus dem Audiosignal generierte Referenzsignal beim ursprünglichen Quellsignal liegt, desto präziser ist die Beurteilung der Übertragungsqualität. Dies ist der Grund dafür, Signalunterbrüche durch geeignete Signale zu ersetzen. Hierfür könnten beispielsweise geeignete Rauschsignale oder auch bereits übermittelte Signalabschnitte verwendet werden.However, the closer the reference signal generated from the audio signal is to the original one Source signal is, the more accurate is the assessment of the transmission quality. this is the Reason for replacing signal interruptions with suitable signals. For example, this could be suitable noise signals or already transmitted signal sections used become.
Um jedoch eine möglichst genaue Schätzung des Referenzsignals zu erhalten, ist es von Vorteil, derartige Signalunterbrüche im Audiosignal zunächst zu detektieren und danach die fehlenden Signalabschnittedurch möglichst genaue, durch Interpolation erreichte Schätzungen zu ersetzen. Die Art der Interpolation der verlorengegangenen Signalabschnitte hängt hierbei ab von der Länge des Signalunterbruches. Bei kurzen Unterbrüchen, d. h. bei Unterbrüchen bis zu einigen wenigen Abtastwerten im Audiosignal wird bevorzugt eine polynomische und bei mittellangen Unterbrüchen, d. h. von einigen wenigen bis einigen Dutzend Abtastwerten wird bevorzugt eine modellbasierte Interpolation verwendet.However, to obtain the most accurate estimate of the reference signal, it is from Advantage to first detect such signal interruptions in the audio signal and then the missing signal sections achieved by interpolation as accurate as possible To replace estimates. The type of interpolation of the lost signal sections depends on the length of the signal interruption. For short breaks, d. H. for breaks up to a few samples in the audio signal is preferred a polynomial and medium-length interruptions, d. H. from a few to a few Dozens of samples preferably use model-based interpolation.
Längere Signalunterbrüche, d. h. Unterbrüche ab einigen Dutzend Abtastwerten, können jedoch kaum sinnvoll rekonstruiert werden. Anstatt diese Informationen als überflüssig zu betrachten und zu verwerfen, werden sie und teilweise auch die Informationen über die kurzen und mittellangen Signalunterbrüche vorzugsweise bei der Beurteilung der Übertragungsqualität berücksichtigt. Sie fliessen bei der Bestimmung des Qualitätsmasses mit in die Berechnungen ein.Longer signal interruptions, d. H. Interruptions from a few dozen samples, can However, hardly any sense reconstructed. Rather than using this information as redundant they will and partly also the information about the short and medium-length signal interruptions preferably in the assessment of the transmission quality considered. They are included in the determination of the quality measure the calculations.
Das empfangene Audiosignal kann verschiedene Arten von Audiosignalen umfassen. So kann es beispielsweise Sprach-, Musik-, Rausch- oder auch Ruhesignalanteile beinhalten. Die Qualitätsbeurteilung kann natürlich anhand der gesamten oder anhand eines Teils dieser Signalanteile erfolgen. Bei einer bevorzugten Variante der Erfindung wird die Beurteilung der Signalqualität hingegen beschränkt auf die Sprachsignalanteile. Mit einem Audio-Diskriminator werden aus dem Audiosignal daher zunächst die Sprachsignalanteile extrahiert und nur diese Sprachsignalanteile zur Bestimmung des Qualitätsmasses, d. h. zur Ermittlung des Referenzsignals verwendet. Um den Qualitätswert zu bestimmen wird in diesem Fall das ermittelte Referenzsignal natürlich auch nicht mit dem empfangenen Audiosignal, sondern nur mit dem daraus extrahierten Sprachsignalanteil verglichen.The received audio signal may include various types of audio signals. So For example, it can contain voice, music, noise or silence signals. Of course, the quality assessment can be based on all or part of it Signal components take place. In a preferred variant of the invention, the assessment the signal quality, however, limited to the speech signal components. With an audio discriminator Therefore, the speech signal components are first extracted from the audio signal and only these speech signal components for determining the quality measure, i. H. to Determination of the reference signal used. To determine the quality value is in In this case, the determined reference signal, of course, not with the received audio signal, but compared only with the voice signal component extracted therefrom.
Die erfindungsgemässe Vorrichtung zur maschinengestützten Bestimmung eines Qualitätsmasses eines Audiosignals umfasst erste Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal, zweite Mittel zur Bestimmung eines Qualitätswertes mittels Vergleichen des ermittelten Referenzsignals mit dem Audiosignal sowie dritte Mittel zur Bestimmung des Qualitätsmasses unter Berücksichtigung des Qualitätswertes.The inventive device for machine-aided determination of a quality measure an audio signal comprises first means for determining a reference signal the audio signal, second means for determining a quality value by means of comparisons the determined reference signal with the audio signal and third means for determining the quality measure taking into account the quality value.
Die ersten Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal können mehrere Module umfassen. So ist vorzugsweise ein Rauschunterdrückungsmodul und/oder ein Unterbruchdetektions- und interpolationsmodul vorgesehen.The first means for determining a reference signal from the audio signal can be several Include modules. So is preferably a noise suppression module and / or a Interrupt detection and interpolation module provided.
Mit dem Rauschunterdrückungsmodul lassen sich Rauschsignalanteile im empfangenen Audiosignal unterdrücken. Es beinhaltet die Mittel zur Durchführung der bereits beschriebenen Wavelet-Transformationen sowie das neuronale Netz zur Bestimmung der neuen DWT-Koeffizienten. Das Unterbruchdetektions- und interpolationsmodul weist diejenigen Mittel auf, welche einerseits zur Detektion von Signalunterbrüchen im Audiosignal und andererseits zur polynomischen Interpolation von kurzen sowie zur modellbasierten Interpolation von mittellangen Signalunterbrüchen benötigt werden. Das dermassen ermittelte Referenzsignal entspricht somit einer entrauschten Version des empfangenen Audiosignals und weist typischerweise nur noch grössere Signalunterbrüche auf.With the noise suppression module, noise signal components can be received in the Suppress audio signal. It contains the means to carry out the already described Wavelet transforms and the neural network to determine the new DWT coefficients. The interrupt detection and interpolation module has those Means, on the one hand for detecting signal interruptions in the audio signal and on the other hand, for the polynomial interpolation of short and model-based interpolation be required by medium-length signal interruptions. The determined so Reference signal thus corresponds to a noisy version of the received audio signal and typically has only larger signal interruptions.
Die Informationen über die Signalunterbrüche des Audiosignals werden jedoch nicht nur zur Ermittlung eines besseren Referenzsignals verwendet, sie können auch zur Bestimmung eines besseren Qualitätsmasses verwendet werden. Die dritten Mittel zur Bestimmung des Qualitätsmasses sind deshalb bevorzugt derart ausgebildet, dass Informationen über Signalunterbrüche im Audiosignal berücksichtigt werden können.However, the information about the signal interruptions of the audio signal is not only used to determine a better reference signal, they can also be used to determine of a better quality. The third means of determination of the quality measure are therefore preferably designed such that information can be taken into account via signal interruptions in the audio signal.
Je mehr Informationen über das Audiosignal bei der Bestimmung des Qualitätsmasses einbezogen werden, umso genauer kann die Qualitätsbeurteilung erfolgen. Die Vorrichtung weist daher mit Vorteil vierte Mittel zur Bestimmung von Informationen über Codec-bedingte Signalverzerrungen auf. Diese umfassen beispielsweise ein Vokaldetektionsmodul, mit welchem sich im Audiosignal Signalanteile mit Vokalen detektieren lassen. Diese Vokal-Signalanteile werden an ein Bewertungsmodul weitergegeben, welches anhand dieser Signalanteile Informationen über Codec-bedingte Signalverzerrungen bestimmt, welche ebenfalls zur Beurteilung der Signalqualität verwendet werden. Die dritten Mittel sind entsprechend derart ausgebildet, dass diese Informationen über die Codec-bedingten Signalverzerrungen bei der Bestimmung des Qualitätsmasses berücksichtigt werden können.The more information about the audio signal is included in the determination of the quality measure the more accurate the quality assessment can be. The device therefore advantageously has fourth means for determining information on codec-related Signal distortions on. These include, for example, a vocal detection module, with which signal components with vowels can be detected in the audio signal. These vowel signal components will be passed on to an evaluation module, which is based on this Signal components Information about codec-related signal distortions determines which also be used to assess the signal quality. The third funds are corresponding designed such that this information about the codec-related signal distortions can be taken into account when determining the quality measure.
Mit Vorteil wird jedoch nicht das gesamte Audiosignal, sondern nur dessen Sprachsignalanteile zur Qualitätsbeurteilung verwendet. Entsprechend dem bereits geschilderten Verfahren weist die Vorrichtung daher insbesondere fünfte Mittel zur Extraktion der Sprachsignalanteile aus dem Audiosignal auf. Dementsprechend wird zur Ermittlung des Referenzsignals nicht das Audiosignal selber, sondern nur dessen Sprachsignalanteil entrauscht und auf Unterbrüche hin untersucht. Ebenso wird natürlich nicht das Audiosignal, sondern nur dessen Sprachsignalanteil mit diesem Referenzsignal verglichen. Damit erfolgt die Bestimmung des Qualitätsmasses lediglich anhand der Informationen im Sprachsignalanteil, wobei die Informationen aus den restlichen Signalanteilen nicht berücksichtigt werden.Advantageously, however, not the entire audio signal, but only its voice signal components used for quality assessment. According to the already described Therefore, the device has, in particular, fifth means for extracting the device Speech signal components from the audio signal. Accordingly, to determine the Reference signal not the audio signal itself, but only the voice signal component noisy and checked for interruptions. Likewise, of course, not the audio signal, but only the voice signal component compared with this reference signal. In order to the determination of the quality measure is based only on the information in Voice signal component, wherein the information from the remaining signal components is not taken into account become.
Aus der nachfolgenden Detailbeschreibung und der Gesamtheit der Patentansprüche ergeben sich weitere vorteilhafte Ausführungsformen und Merkmalskombinationen der Erfindung.From the following detailed description and the totality of the claims result further advantageous embodiments and feature combinations of the invention.
Die zur Erläuterung des Ausführungsbeispiels verwendeten Zeichnungen zeigen:
- Fig. 1
- ein schematisch dargestelltes Blockdiagramm des erfindungsgemässen Verfahrens;
- Fig. 2
- das Rauschunterdrückungsmodul im Betriebszustand;
- Fig. 3
- das Rauschunterdrückungsmodul im Trainingszustand;
- Fig. 4
- das neuronale Netzwerk des Rauschunterdrückungsmoduls und
- Fig. 5
- ein Beispiel für ein Audiosignal mit einem Unterbruch.
- Fig. 1
- a schematically illustrated block diagram of the inventive method;
- Fig. 2
- the noise suppression module in the operating state;
- Fig. 3
- the noise suppression module in the training state;
- Fig. 4
- the neural network of the noise suppression module and
- Fig. 5
- an example of an audio signal with an interruption.
Grundsätzlich sind in den Figuren gleiche Teile mit gleichen Bezugszeichen versehen.Basically, the same parts are provided with the same reference numerals in the figures.
Figur 1 zeigt ein Blockdiagramm des erfindungsgemässen Verfahrens. Hierbei wird für ein
Audiosignal 1 ein Qualitätsmass 2 bestimmt, welches beispielsweise auch zur Bewertung
des benutzten (nicht dargestellten) Telekommunikationsnetzes verwendet werden kann.
Unter dem Audiosignal 1 wird hier dasjenige Signal verstanden, welches ein Empfänger
nach der Übertragung über das Telekommunikationsnetz empfängt. Dieses Audiosignal 1
stimmt nämlich typischerweise nicht mit dem vom (nicht dargestellten) Sender gesendeten
Signal überein, denn auf dem Weg vom Sender zum Empfänger wird das Sendesignal auf
vielfältige Art und Weise verändert. So durchläuft es beispielsweise verschiedene Module
wie Sprachcoder und -decoder, Multiplexer und Demultiplexer oder auch Sprachverbesserer
und Echokompensatoren. Aber auch der Übertragungskanal selber kann einen grossen
Einfluss auf das Signal haben, welche sich beispielsweise in Form von Interferenzen, Fading,
Übertragungsab- oder unterbrüchen, Echogenerierung etc. äussern.FIG. 1 shows a block diagram of the method according to the invention. This is for a
Audio signal 1 determines a
Des Audiosignal 1 enthält somit nicht nur gewünschte Signalanteile, d. h. das ursprüngliche Sendesignal, sondern auch unerwünschte Störsignalanteile. Es kann auch sein, dass Signalanteile des Sendesignals fehlen, d. h. während der Übertragung verloren gegangen sind. The audio signal 1 thus contains not only desired signal components, d. H. the original one Transmission signal, but also unwanted interference signal components. It can also be that Signal portions of the transmission signal are missing, d. H. lost during the transmission are.
Bei dem dargestellten Beispiel erfolgt die Beurteilung der Signalqualität jedoch nicht anhand
des gesamten Audiosignals 1, sondern lediglich anhand des darin enthaltenen
Sprachanteils. Das Audiosignal 1 wird zunächst mit einem Audio-Diskriminator 3 auf
Sprachsignalanteile 4 hin untersucht. Gefundene Sprachsignalanteile 4 werden zur weiteren
Verarbeitung weitergeleitet, wohingegen andere Signalanteile wie beispielsweise Musik
5.1, Pausen 5.2 oder starke Signalstörungen 5.3 aussortiert und anderweitig weiterverarbeitet
oder verworfen werden können. Um diese Unterscheidung durchführen zu können,
wird das Audiosignal 1 stückweise, d. h. zu Stückchen a jeweils etwa 100 ms bis 500
ms, an den Audio-Diskriminator 3 übergeben. Dieser zerlegt diese Stückchen weiter in
einzelne Buffer von etwa 20 ms Länge, verarbeitet diese Buffer und ordnet sie dann jeweils
einer der zu unterscheidenden Signalgruppen Sprachsignal, Musik, Pause oder starke Störung
zu.However, in the illustrated example, the evaluation of signal quality is not based on
the entire audio signal 1, but only on the basis of the contained therein
Speech portion. The audio signal 1 is first recorded with an
Der Audio-Diskriminator 3 verwendet zur Beurteilung der Signalstückchen beispielsweise
eine LPC (linear predictive coding) Transformation, mit welcher die Koeffizienten eines
dem menschlichen Sprachtrakt entsprechenden, adaptiven Filters berechnet werden. Die
Zuordnung der Signalstückchen zu den verschiedenen Signalgruppen erfolgt anhand der
Form der Übertragungs-Charakteristika dieses Filters.The
Um die Qualität der Übertragung beurteilen zu können, wird aus diesem Sprachsignalanteil 4 nun ein Referenzsignal 6, d. h. eine möglichst gute Schätzung des vom Sender ursprünglich übermittelten Sendesignals, ermittelt. Diese Referenzsignal-Schätzung erfolgt mehrstufig.In order to be able to judge the quality of the transmission, this voice signal component becomes 4 now a reference signal 6, d. H. the best possible estimate of the sender originally transmitted transmission signal determined. This reference signal estimation takes place in several stages.
In einer ersten Stufe, einem Rauschunterdrückungsmodul 7, werden zunächst unerwünschte
Signalanteile wie stationäres Rauschen oder Impulsstörungen aus dem Sprachsignalanteil
4 entfernt bzw. unterdrückt. Dies geschieht mit Hilfe eines neuronalen Netzwerkes,
welches zuvor mittels einer Vielzahl von verrauschten Signalen als Eingang und
jeweils der entsprechenden rauschfreien Version des Eingangssignals als Zielsignal trainiert
worden ist. Das auf diese Weise erhaltene, entrauschte Sprachignal 11 wird an die
zweite Stufe weitergeleitet. In a first stage, a
In der zweiten Stufe, dem Unterbruchdetektions- und interpolationsmodul 8 werden Unterbrüche
im Audiosignal 1 bzw. in dessen Sprachsignalanteil 4 detektiert und wenn möglich
interpoliert, d. h. die fehlenden Samples werden durch geeignet geschätzte Werte ersetzt.In the second stage, the interruption detection and
Im vorliegenden Beispiel erfolgt die Detektion von Signalunterbrüchen mittels einer Untersuchung von Diskontinuitäten der Signalgrundfrequenz (pitch-tracing). Die Interpolation wird in Abhängigkeit der Länge des detektierten Unterbruches vorgenommen. Bei kurzen Unterbrüchen, d. h. Unterbrüchen von wenigen Samples Länge wird eine polynomische Interpolation wie beispielsweise ein Lagrange-, Newton-, Hermite-, oder Cubic Spline-Interpolation angewendet. Bei mittellangen Unterbrüchen (einige wenige bis einige Dutzend Samples) werden modellbasierte Interpolationen wie beispielsweise eine Maximum a posteriori-, eine autoregressive- oder eine frequency-time-Interpolation angewendet. Bei längeren Signalunterbrüchen ist eine Interpolation oder eine andere Signalrekonstruktion in der Regel nicht mehr auf sinnvolle Art und Weise möglich.In the present example, the detection of signal interruptions by means of an investigation discontinuities of the signal fundamental frequency (pitch-tracing). The interpolation is performed depending on the length of the detected interruption. In short Interruptions, d. H. Interruptions of a few samples length becomes a polynomial Interpolation such as Lagrange, Newton, Hermite, or Cubic Spline interpolation applied. For medium-length interruptions (a few to a few dozen Samples), model-based interpolations such as a maximum a posteriori, an autoregressive or a frequency-time interpolation applied. For longer Signal interruptions is an interpolation or other signal reconstruction in usually no longer possible in a meaningful way.
Das Ganze wird erschwert durch die Tatsache, dass es sowohl unterschiedliche Arten von Unterbrüchen - es ist zu unterscheiden zwischen Silben- bzw. Wortpausen und richtigen Signalunterbrüchen - als auch unterschiedliche Arten von Techniken zur Bearbeitung solcher Unterbrüche im Übertragungskanal gibt. So kann von einem Endgerät, beispielsweise in Abhängigkeit von Informationen über das Übertragungsnetz, unterschiedlich auf fehlende Frames reagiert werden. Bei einer ersten Methode werden verlorene Frames beispielsweise einfach durch Nullen ersetzt. Bei einer zweiten Methode werden anstelle der verlorenen Frames andere, richtig empfangene Frames eingesetzt und bei einer dritten Methode werden anstelle der verlorenen Frames lokal generierte Rauschsignale, sogenannter "comfort noise" eingesetzt.The whole thing is complicated by the fact that there are both different types of Interruptions - a distinction must be made between syllable and / or word pauses and correct ones Signal interruptions - as well as different types of techniques for processing such There are interruptions in the transmission channel. So can from a terminal, for example depending on information about the transmission network, different on missing Frames are responding. For example, in a first method, lost frames become simply replaced by zeros. In a second method, instead of the lost frames used other, correctly received frames and a third Method instead of the lost frames locally generated noise signals, so-called "comfort noise" used.
Nach dem Ermitteln des Referenzsignals 6 mit dem Rauschunterdrückungsmodul 7 und
dem Unterbruchdetektions- und interpolationsmodul 8 wird es mit Hilfe des Vergleichsmoduls
9 mit dem Sprachsignalanteil 4 verglichen. Für diesen Vergleich kann ein Algorithmus
verwendet werden, wie er beispielsweise bei intrusiven Verfahren für den Vergleich
des bekannten Quellsignals mit dem empfangenen Signal verwendet wird. Geeignet
sind beispielsweise psychoakustische Modelle, die Signale perzeptiv, d. h. wahrnehmbar
vergleichen. Das Resultat dieses Vergleichs ist ein intrusiver Qualitätswert 10. Zur Bestimmung
dieses intrusiven Qualitätswertes 10 werden die Eingangssignale, also der
Sprachsignalanteil 4 und das Referenzsignal 6, in Signalstücke von etwa 20 bis 30 ms
Länge zerlegt und für jedes Signalstück ein Teilqualitätswert berechnet. Nach etwa 20 bis
30 Signalstücken, was etwa einer Signaldauer von 0.5 Sekunden entspricht, wird der intrusive
Qualitätswert 10 als arithmethisches Mittel dieser Teilqualitätswerte ermittelt. Der
intrusive Qualitätswert 10 bildet das Ausgangssignal des Vegleichsmoduls 9.After determining the reference signal 6 with the
Bei der Bestimmung des Qualitätsmasses 2 können jedoch neben der Information über
Störsignalanteile bzw. Signalunterbrüche auch noch andere Informationen über das Audiosignal
1 berücksichtigt werden. So kann beispielsweise ein Sprachcoder bzw. Sprachdecoder,
den das gesendete Signal auf seinem Weg vom Sender zum Empfänger durchlaufen
hat, einen Einfluss auf das Audiosignal 1 haben. Diese Einflüsse bestehen beispielsweise
darin, dass sowohl die Grundfrequenz als auch die Frequenzen der höheren Harmonischen
des Signals variieren. Je kleiner die Bitrate der verwendeten Sprachcodecs, desto grösser
die Frequenzverschiebungen und damit die Signalverzerrungen.In determining the
Derartige Einflüsse lassen sich am einfachsten bei Vokalen untersuchen, weshalb das
entrauschte Sprachsignal 11 zunächst einem Vokaldetektor 12 zugeführt wird. Dieser umfasst
beispielsweise ein neuronales Netz, das vorher für die Erkennung von bestimmten
(einzelne oder alle) Vokalen trainiert worden ist. Vokalsignale 13, d. h. Signalanteile welche
das neuronale Netz als Vokale erkennt, werden an ein Bewertungsmodul 14 weitergeleitet,
andere Signalanteile werden verworfen.Such influences are the easiest way to examine vowels, which is why
Das Bewertungsmodul 14 teilt das Vokalsignal 13 in Signalstücke von etwa 30 ms auf und
berechnet daran jeweils eine DFT (diskrete Fourier Transformation) mit einer Frequenzauflösung
von ungefähr 2 Hz bei einer Abtastfrequenz von etwa 8 kHz. Damit lassen
sich dann die Grundfrequenz sowie die Frequenzen der höheren Harmonischen bestimmen
und auf Variationen hin untersuchen. Ein weiteres Merkmal zur Bewertung der Codec-bedingten
Verzerrungen bildet die Dynamik des Signalspektrums, wobei eine kleinere Dynamik
eine schlechtere Signalqualität bedeutet. Die Referenzwerte für die Dynamikbewertung
werden für die einzelnen Vokale aus Beispielsignalen gewonnen. Aus den Informationen
über den Einfluss von Codecs auf die Frequenzverschiebungen und die Spektrumdynamik
des Audiosignals 1 bzw. des entrauschten Sprachsignals 11 wird ein Codec-Qualitätswert
15 abgeleitet.The
Bei der Bestimmung des Qualitätsmasses 2 durch das Auswertemodul 16 wird zusätzlich
zum intrusiven Qualitätswert 10 und zum Codec-Qualitätswert 15 auch ein Unterbruchs-Qualitätswert
17 berücksichtigt. Dieser Wert beinhaltet Informationen über die Länge und
die Anzahl der vom Unterbruchdetektions- und interpolationsmodul 8 festgestellten Unterbrüche,
wobei bei einem bevorzugten Ausführungsbeispiel der Erfindung nur die Informationen
über die langen Unterbrüche berücksichtigt werden. Zusätzlich können natürlich
auch weitere Qualitäts-Informationen 18 über das empfangene Audiosignal 1 bzw. das
entrauschte Sprachsignal 11, welche mit anderen Modulen oder Untersuchungen ermittelt
werden, in die Berechnungen des Qualitätsmasses 2 einfliessen.In determining the
Die einzelnen Qualitätswerte werden nun derart skaliert, dass sie im Zahlenbereich zwischen
0 und 1 liegen, wobei ein Qualitätswert von 1 eine unverminderte Qualität und
Werte unter 1 eine entsprechend verminderte Qualität bezeichnen. Das Qualitätsmass 2
wird schliesslich als Linearkombination der einzelnen Qualitätswerte berechnet, wobei die
einzelnen Gewichtungskoeffizienten experimentell bestimmt und derart festgelegt werden,
dass ihre Summe 1 ergibt.The individual quality values are now scaled such that they are in the range of numbers between
0 and 1, where a quality value of 1 is undiminished quality and
Values below 1 indicate a correspondingly reduced quality. The
Stehen weitere qualitätsrelevante informationen über das Telekommunikationsnetz zur
Verfügung oder treten neue Effekte in den Übertragungskanälen auf, ist es auf einfache Art
und Weise möglich, weitere Module zur Berechnung von weiteren Qualitätswerten hinzuzufügen
und bei der Bestimmung des Qualitätsmasses 2 in der beschriebenen Art und Weise
zu berücksichtigen.Are further quality-related information on the telecommunications network to
If there are any new effects in the broadcast channels, it is easy
and way to add more modules to calculate further quality values
and in determining the
Im Folgenden werden anhand der Figuren 2 bis 5 einige der Module näher erläutert. Figur
2 zeigt das Rauschunterdrückungsmodul 7. Der Sprachsignalanteil 4 des Audiosignals 1
wird zunächst einer an sich bekannten DWT 19 (diskrete Wavelet Transformation) unterworfen.
DWT's werden ähnlich wie DFT's zur Signalanalyse eingesetzt. Ein wesentlicher
Unterschied ist jedoch, im Gegensatz zu den bei einer DFT verwendeten, zeitlich unbegrenzten
und damit zeitlich nicht lokalisierten Sinus- bzw. Kosinus-wellenformen, der Einsatz
von sogenannten Wavelets, d. h. zeitlich begrenzten und damit zeitlich lokalisierten
Wellenformen mit Mittelwert 0.In the following, some of the modules are explained in more detail with reference to the figures 2 to 5. figure
2 shows the
Der Sprachsignalanteil 4 wird in Signalstücke von etwa 20 ms bis 30 ms unterteilt, welche
jeweils der DWT 19 unterworfen werden. Das Resultat der DWT 19 ist ein Satz von DWT-Koeffizienten
20.1, welche als Eingangsvektor einem neuronalen Netz 20 eingespiesen
werden. Dessen Koeffizienten wurden vorgängig so trainiert, dass sie zu einem gegebenen
Satz von DWT-Koeffizienten 20.1 eines verrauschten Signals einen neuen Satz von DWT-Koeffizienten
20.2 der unverrauschten Version dieses Signals liefern. Dieser neue Satz von
DWT-Koeffizienten 20.2 wird nun der IDWT 21, d. h. der zur DWT 19 inversen DWT unterworfen.
Diese IDWT 21 liefert auf diese Weise eine mehrheitlich unverrauschte Version der
Sprachsignalanteile 4, eben das gewünschte, entrauschte Sprachsignal 11.The
Die Trainingskonfiguration des neuronalen Netzes 20 ist in Figur 3 dargestellt. Es wird mit
Paaren von verrauschten und unverrauschten Versionen von Beispielsignalen trainiert. Ein
unverrauschtes Beispielsignal 22.1 wird der DWT 19 unterworfen und es wird ein erster
Satz 20.3 von DWT-Koeffizienten erhalten. Auch das verrauschte Beispielsignal 22.2 wird
der gleichen DWT 19 unterworfen und ein zweiter Satz 20.4 von DWT-Koeffizienten generiert,
der in das neuronale Netz 20 eingespiesen wird. Der Ausgangsvektor des neuronalen
Netzes 20, die neuen DWT-Koeffizienten 20.5, wird in einem Komparator 23 mit dem ersten
Satz 20.3 von DWT-Koeffizienten verglichen. Aufgrund der Unterschiede zwischen
diesen beiden Sätzen von DWT-Koeffizienten erfolgt eine Korrektur 24 der Koeffizienten
des neuronalen Netzes 20. Dieser Vorgang wird mit einer Vielzahl von Beispielsignal-Paaren
wiederholt, sodass die Koeffizienten des neuronalen Netzes 20 die gewünschte Funktion
immer präziser durchführen. Vorteilhafterweise werden für das Training des neuronalen
Netzes 20 Beispielsignale 22.1, 22.2 verwendet, welche menschliche Laute aus verschiedenen
Sprachen darstellen. Ebenso ist es von Vorteil, hierfür sowohl Frauen- als auch
Männer- und Kinderstimmen zu verwenden. Die erwähnte Grösse der einzeln zu verarbeitenden
Signalstücke von 20 ms bis 30 ms Dauer ist so gewählt, dass die Verarbeitung des
Sprachsignalanteils 4 unabhängig von der Sprache und des Sprechers durchgeführt werden
kann. Auch Sprechpausen und sehr ruhige Signalabschnitte werden trainiert, damit
auch diese korrekt erkannt werden.The training configuration of the
Bei dem vorliegenden Ausführungsbeispiel wurde als neuronales Netzwerk 20 ein Mehrschicht-Perceptron
mit einer Eingangsschicht 25, einer verborgenen Schicht 26 und einer
Ausgangsschicht 27 verwendet. Trainiert wurde das Perceptron mit einem Backpropagation-Algorithmus.
Die Eingangsschicht 25 weist eine Mehrzahl von Eingangs-Neuronen
25.1, die verborgene Schicht 26 eine Mehrzahl von verborgenen Neuronen 26.1 und die
Ausgangsschicht 27 eine Mehrzahl von Ausgangs-Neuronen 27.1 auf. Jedem Eingangs-Neuron
25.1 wird jeweils einer der DWT-Koeffizienten 20.1 der vorangegangenen DWT 19
zugeführt. Nachdem die Eingangssignale das neuronale Netzwerk durchlaufen haben, wobei
die jeweiligen Werte mit den eingestellten Koeffizienten der jeweiligen Neuronen bestimmt
und die Wertekombinationen in den einzelnen Neuronen berechnet werden, liefert
jedes Ausgangs-Neuron 27.1 einen der neuen DWT-Koeffizienten 20.2. Wie bereits
erwähnt, zerlegt der Audio-Diskriminator 3 die Signalstückchen in einzelne Buffer der
Länge 20 ms. Bei einer Abtastrate von 8 kHz entspricht dies 160 Abtastwerten. Für diesen
Fall kann beispielsweise ein neuronales Netz 20 mit je 160 Eingangs- und Ausgangs-Neuronen
25.1, 27.1 sowie etwa 50 bis 60 verborgenen Neuronen 26.1 verwendet werden.In the present embodiment, as the
Anhand der Figur 5 soll die Interpolation eines Signalunterbruches kurz beschrieben werden. Für die Signalrekonstruktion wird beispielsweise eine Zeit-Frequenz Interpolation angewendet. Hierzu wird zunächst ein Kurzzeitspektrum für Signatframes mit 64 Samples Länge (8 ms) berechnet. Dies geschieht, indem die Signalframes mit Hamming-Fenstem bei einer Überschneidung von 50% multipliziert werden.The interpolation of a signal interruption will be briefly described with reference to FIG. For example, a time-frequency interpolation is used for the signal reconstruction. First, a short-term spectrum for 64-sample signal frames is used Length (8 ms) calculated. This is done by using the signal frames with Hamming windows be multiplied at an overlap of 50%.
Das Ziel der Interpolation ist die Behandlung dieser Lücke. Zunächst wird eine Frequenz-Zeit Transformation durchgeführt. Dies führt zu einer dreidimensionalen Signaldarstellung, welche für jeden Punkt in der Zeit-Frequenz Ebene (x-y Ebene) das Leistungsspektrum in Richtung der z-Achse liefert. Ein Unterbruch zu einem gegebenen Zeitpunkt t ist einfach zu erkennen als Nullpunkte entlang der Linie x = t in der Zeit-Frequenz Ebene.The goal of interpolation is to address this gap. First, a frequency time Transformation performed. This leads to a three-dimensional signal representation, which for each point in the time-frequency plane (x-y plane) the power spectrum in Direction of the z-axis delivers. An interruption at a given time t is easy too recognize as zero points along the line x = t in the time-frequency plane.
Figur 5 zeigt ein derartiges Signal 28 von etwa 200 Samples Länge. Um die Periodizität
einfacher erkennen zu können, zeigt Figur 5 das Signal 28 in der zeitlichen Domäne. Auf
der Abszissenachse 32 sind die Anzahl Samples und auf der Ordinatenachse 33 die Magnituden
aufgetragen. Die Interpolation erfolgt jedoch in der Frequenz-Zeit Domäne. In Figur 5
ist der Unterbruch 29 unschwer zu erkennen als Lücke von knapp 10 Samples Länge.Figure 5 shows such a
Für jeden Frequenzanteil erfolgt nun eine polynomische Interpolation sowohl für die Phase,
als auch die Magnitude, wobei diese mit minimaler Phasen- und Magnitudendiskontinuität
erfolgt. Hierfür wird zunächst wiederum die Pitch-Periode 30 des Signals 28 bestimmt. Für
die Interpolation werden Information aus den Samples vor und nach der Lücke innerhalb
dieser Pitch-Periode 30 berücksichtigt. Die Signalbereiche 31.1, 31.2 zeigen diejenigen
Bereiche des Signals 28 je eine Pitch-Periode vor bzw. hinter dem Unterbruch 29. Diese
Signalbereiche 31.1, 31.2 sind zwar nicht identisch mit dem ursprünglichen Signalstück
beim Unterbruch 29, zeigen aber dennoch ein hohes Mass an Ähnlichkeit dazu. Für kleine
Lücken bis etwa 10 Samples wird angenommen, dass noch genügend Signalinformation
vorhanden ist, um eine korrekte Interpolation durchführen zu können. Bei längeren Lücken
können zusätzliche Informationen aus Samples der Umgebung verwendet werden.For each frequency component there is now a polynomial interpolation for both the phase,
as well as the magnitude, these with minimal phase and magnitude discontinuity
he follows. For this purpose, again the
Zusammenfassend ist festzustellen, dass es die Erfindung erlaubt, die Signalqualität eines empfangenen Audiosignals zu beurteilen, ohne das ursprüngliche Sendesignal zu kennen. Aus der Signalqualität kann natürlich auch auf die Qualität der benutzten Übertragungskanäle und somit auf die Service-Qualität des gesamten Telekommunikationsnetzes geschlossen werden. Die schnellen Antwortzeiten des erfindungsgemässen Verfahrens, welche in der Grössenordnung von etwa 100 ms bis 500 ms liegen, ermöglichen somit verschiedenen Anwendungen wie beispielsweise generelle Vergleiche der Servicequalität verschiedener Netze oder Teilnetze, eine qualitätsbasierte Kostenverrechnung oder ein qualitätsbasiertes Routing in einem Netz oder über mehrere Netze hinweg mittels entsprechender Steuerung der Netzknoten (Gateways, Router etc.).In summary, it should be noted that the invention allows the signal quality of a Judge received audio signal without knowing the original transmission signal. From the signal quality can of course on the quality of the transmission channels used and thus closed on the service quality of the entire telecommunications network become. The fast response times of the inventive method, which are on the order of about 100 ms to 500 ms, thus allowing different Applications such as general comparisons of service quality of various Networks or subnets, quality-based cost allocation or quality-based Routing in a network or across multiple networks by means of appropriate Control of network nodes (gateways, routers etc.).
Claims (13)
- A method for the machine-assisted determination of a measure of quality of an audio signal, characterised in that a reference signal that represents an estimate of an audio signal originally transmitted is determined from the audio signal, and a quality value, which is used for determining the measure of quality, is determined by means of comparing the reference signal with the audio signal.
- A method according to claim 1, characterised in that a de-noised audio signal is determined by removing noise signal components from the audio signal and is used as the reference signal.
- A method according to claim 2, characterised in that the de-noised audio signal is determined by subjecting the audio signal to discrete wavelet transformation, feeding the coefficients of the latter into a previously trained neural network and subjecting the output signals of the latter to inverse discrete wavelet transformation.
- A method according to claim 2 or 3, characterised in that signal components with vowels are detected in the de-noised audio signal and information on codec-related signal distortions is determined therefrom and taken into consideration in determining the measure of quality.
- A method according to any one of claims 1 to 4, characterised in that signal interruptions in the audio signal are detected and the reference signal is determined by at least partially reconstructing it in the case of the signal interruptions, the reference signal being reconstructed preferably by polynomial interpolation in the case of short signal interruptions and preferably by model-based interpolation in the case of medium-length signal interruptions.
- A method according to claim 5, characterised in that information on the signal interruptions is taken into consideration in determining the measure of quality.
- A method according to any one of claims 1 to 6, characterised in that, before the reference signal is determined, a speech signal component is extracted from the audio signal and the determination of the measure of quality is restricted to the speech signal component.
- A device for the machine-assisted determination of a measure of quality of an audio signal, characterised in that it has first means for determining a reference signal from the audio signal, second means for determining a quality value by comparing the reference signal with the audio signal, and third means for determining the measure of quality while taking the quality value into consideration, the reference signal representing an estimate of an audio signal originally transmitted.
- A device according to claim 8, characterised in that the first means have a noise suppression module for suppressing noise signal components and/or an interruption detection and interpolation module for detection and interpolation of signal interruptions in the audio signal, and the third means are so designed that signal interruptions can be taken into consideration in determining the measure of quality.
- A device according to claim 8 or 9, characterised in that it has means for determining codec-related signal distortions, these means including a vowel detection module for detecting vowel signal components in the audio signal and an evaluation module for determining the codec-related signal distortions, the third means being so designed that the codec-related signal distortions can be taken into consideration in determining the measure of quality.
- A device according to any one of claims 8 to 10, characterised in that it has means for extracting a speech signal component from the audio signal and is designed for the purpose of determining the measure of quality of the speech signal component.
- A device according to claim 9, wherein the first means have the noise suppression module, characterised in that the noise suppression module has means for performing discrete wavelet transformation for calculating signal coefficients of an audio signal, a neural network for calculating corrected signal coefficients and means for performing inverse discrete wavelet transformation of the corrected signal coefficients for determining the audio signal without noise signal components.
- A device according to claim 9, wherein the first means have the interruption detection and interpolation module, characterised in that the interruption detection and interpolation module has means for detecting signal interruptions in an audio signal and means for interpolating signal interruptions of the audio signal, the latter means preferably being designed for the purpose of polynomial interpolation of short signal interruptions and model-based interpolation of medium-length signal interruptions.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02703438.8A EP1386307B2 (en) | 2001-03-20 | 2002-03-19 | Method and device for determining a quality measure for an audio signal |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01810285A EP1244094A1 (en) | 2001-03-20 | 2001-03-20 | Method and apparatus for determining a quality measure for an audio signal |
EP01810285 | 2001-03-20 | ||
EP02703438.8A EP1386307B2 (en) | 2001-03-20 | 2002-03-19 | Method and device for determining a quality measure for an audio signal |
PCT/CH2002/000164 WO2002075725A1 (en) | 2001-03-20 | 2002-03-19 | Method and device for determining a quality measure for an audio signal |
Publications (3)
Publication Number | Publication Date |
---|---|
EP1386307A1 EP1386307A1 (en) | 2004-02-04 |
EP1386307B1 true EP1386307B1 (en) | 2005-02-09 |
EP1386307B2 EP1386307B2 (en) | 2013-04-17 |
Family
ID=8183803
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP01810285A Withdrawn EP1244094A1 (en) | 2001-03-20 | 2001-03-20 | Method and apparatus for determining a quality measure for an audio signal |
EP02703438.8A Expired - Lifetime EP1386307B2 (en) | 2001-03-20 | 2002-03-19 | Method and device for determining a quality measure for an audio signal |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP01810285A Withdrawn EP1244094A1 (en) | 2001-03-20 | 2001-03-20 | Method and apparatus for determining a quality measure for an audio signal |
Country Status (5)
Country | Link |
---|---|
US (1) | US6804651B2 (en) |
EP (2) | EP1244094A1 (en) |
AT (1) | ATE289109T1 (en) |
DE (1) | DE50202226D1 (en) |
WO (1) | WO2002075725A1 (en) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177430B2 (en) * | 2001-10-31 | 2007-02-13 | Portalplayer, Inc. | Digital entroping for digital audio reproductions |
US7746797B2 (en) * | 2002-10-09 | 2010-06-29 | Nortel Networks Limited | Non-intrusive monitoring of quality levels for voice communications over a packet-based network |
US20040167774A1 (en) * | 2002-11-27 | 2004-08-26 | University Of Florida | Audio-based method, system, and apparatus for measurement of voice quality |
GB2407952B (en) * | 2003-11-07 | 2006-11-29 | Psytechnics Ltd | Quality assessment tool |
US20050228655A1 (en) * | 2004-04-05 | 2005-10-13 | Lucent Technologies, Inc. | Real-time objective voice analyzer |
DE102004029421A1 (en) * | 2004-06-18 | 2006-01-05 | Rohde & Schwarz Gmbh & Co. Kg | Method and device for evaluating the quality of a signal |
US7856355B2 (en) * | 2005-07-05 | 2010-12-21 | Alcatel-Lucent Usa Inc. | Speech quality assessment method and system |
WO2007098258A1 (en) * | 2006-02-24 | 2007-08-30 | Neural Audio Corporation | Audio codec conditioning system and method |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US20080244081A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Automated testing of audio and multimedia over remote desktop protocol |
WO2009111009A1 (en) * | 2008-03-04 | 2009-09-11 | Cardiac Pacemakers, Inc. | Implantable multi-length rf antenna |
JP4327886B1 (en) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | SOUND QUALITY CORRECTION DEVICE, SOUND QUALITY CORRECTION METHOD, AND SOUND QUALITY CORRECTION PROGRAM |
JP4327888B1 (en) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | Speech music determination apparatus, speech music determination method, and speech music determination program |
EP2457233A4 (en) | 2009-07-24 | 2016-11-16 | Ericsson Telefon Ab L M | Method, computer, computer program and computer program product for speech quality estimation |
US20110178800A1 (en) * | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9396738B2 (en) | 2013-05-31 | 2016-07-19 | Sonus Networks, Inc. | Methods and apparatus for signal quality analysis |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9799330B2 (en) | 2014-08-28 | 2017-10-24 | Knowles Electronics, Llc | Multi-sourced noise suppression |
CN106816158B (en) * | 2015-11-30 | 2020-08-07 | 华为技术有限公司 | Voice quality assessment method, device and equipment |
US10490206B2 (en) * | 2016-01-19 | 2019-11-26 | Dolby Laboratories Licensing Corporation | Testing device capture performance for multiple speakers |
US10283140B1 (en) * | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
US10978091B2 (en) * | 2018-03-19 | 2021-04-13 | Academia Sinica | System and methods for suppression by selecting wavelets for feature compression in distributed speech recognition |
CN115798506A (en) * | 2022-11-10 | 2023-03-14 | 维沃移动通信有限公司 | Voice processing method and device, electronic equipment and storage medium |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
DE3639753A1 (en) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | METHOD FOR TRANSMITTING DIGITALIZED SOUND SIGNALS |
US5446492A (en) * | 1993-01-19 | 1995-08-29 | Wolf; Stephen | Perception-based video quality measurement system |
DE4309985A1 (en) * | 1993-03-29 | 1994-10-06 | Sel Alcatel Ag | Noise reduction for speech recognition |
IT1272653B (en) * | 1993-09-20 | 1997-06-26 | Alcatel Italia | NOISE REDUCTION METHOD, IN PARTICULAR FOR AUTOMATIC SPEECH RECOGNITION, AND FILTER SUITABLE TO IMPLEMENT THE SAME |
US6122610A (en) * | 1998-09-23 | 2000-09-19 | Verance Corporation | Noise suppression for low bitrate speech coder |
JP4462766B2 (en) * | 1999-05-25 | 2010-05-12 | アルゴレックス インコーポレイテッド | Universal quality measurement system for multimedia and other signals |
US20020054685A1 (en) * | 2000-11-09 | 2002-05-09 | Carlos Avendano | System for suppressing acoustic echoes and interferences in multi-channel audio systems |
US6937978B2 (en) * | 2001-10-30 | 2005-08-30 | Chungwa Telecom Co., Ltd. | Suppression system of background noise of speech signals and the method thereof |
-
2001
- 2001-03-20 EP EP01810285A patent/EP1244094A1/en not_active Withdrawn
-
2002
- 2002-03-19 EP EP02703438.8A patent/EP1386307B2/en not_active Expired - Lifetime
- 2002-03-19 DE DE50202226T patent/DE50202226D1/en not_active Expired - Lifetime
- 2002-03-19 US US10/101,533 patent/US6804651B2/en not_active Expired - Fee Related
- 2002-03-19 AT AT02703438T patent/ATE289109T1/en not_active IP Right Cessation
- 2002-03-19 WO PCT/CH2002/000164 patent/WO2002075725A1/en not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
US20020191798A1 (en) | 2002-12-19 |
WO2002075725A1 (en) | 2002-09-26 |
ATE289109T1 (en) | 2005-02-15 |
EP1386307A1 (en) | 2004-02-04 |
EP1244094A1 (en) | 2002-09-25 |
EP1386307B2 (en) | 2013-04-17 |
US6804651B2 (en) | 2004-10-12 |
DE50202226D1 (en) | 2005-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1386307B1 (en) | Method and device for determining a quality measure for an audio signal | |
EP1088300B1 (en) | Method for executing automatic evaluation of transmission quality of audio signals | |
DE60034026T2 (en) | LANGUAGE IMPROVEMENT WITH LANGUAGE ACTIVITY-CONTROLLED LIMITATIONS | |
DE60104091T2 (en) | Method and device for improving speech in a noisy environment | |
DE19948308C2 (en) | Method and device for noise suppression in speech transmission | |
EP1869671B1 (en) | Noise suppression process and device | |
DE2626793B2 (en) | Electrical circuitry for determining the voiced or unvoiced state of a speech signal | |
EP0938831B1 (en) | Hearing-adapted quality assessment of audio signals | |
DE10017646A1 (en) | Noise suppression in the time domain | |
WO2007073949A1 (en) | Method and apparatus for artificially expanding the bandwidth of voice signals | |
DE60311619T2 (en) | Data reduction in audio encoders using non-harmonic effects | |
EP3197181B1 (en) | Method for reducing latency of a filter bank for filtering an audio signal and method for low latency operation of a hearing system | |
EP3065417B1 (en) | Method for suppressing interference noise in an acoustic system | |
EP1382034B1 (en) | Method for determining intensity parameters of background noise in speech pauses of voice signals | |
DE60110541T2 (en) | Method for speech recognition with noise-dependent normalization of the variance | |
DE60225505T2 (en) | Method and device for analyzing prediction parameters | |
DE3230391C2 (en) | ||
DE4445983C2 (en) | Noise reduction methods and apparatus for performing the methods | |
DE10150519B4 (en) | Method and arrangement for speech processing | |
EP1130577B1 (en) | Method for the reconstruction of low speech frequencies from mid-range frequencies | |
DE102013005844B3 (en) | Method for measuring quality of speech signal transmitted through e.g. voice over internet protocol, involves weighing partial deviations of each frames of time lengths of reference, and measuring speech signals by weighting factor | |
EP1366617B1 (en) | Method and device for improving voice quality on transparent telecommunication-transmission paths | |
DE10136491B4 (en) | Method and device for improving voice quality on transparent telecommunication transmission paths | |
DE19626329A1 (en) | Method for acoustically accurate analysis of noise of auditory events | |
DE10016620A1 (en) | Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20030821 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Extension state: AL LT LV MK RO SI |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
RIN1 | Information on inventor provided before grant (corrected) |
Inventor name: THOMET, BENDICHT Inventor name: JURIC, PERO |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050209 Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050209 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050209 Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050209 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP Ref country code: CH Ref legal event code: NV Representative=s name: KELLER & PARTNER PATENTANWAELTE AG |
|
RAP2 | Party data changed (patent owner data changed or rights of a patent transferred) |
Owner name: SWISSQUAL LICENSE AG |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: GERMAN |
|
REF | Corresponds to: |
Ref document number: 50202226 Country of ref document: DE Date of ref document: 20050317 Kind code of ref document: P |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050319 Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050319 Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050319 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050331 |
|
NLT2 | Nl: modifications (of names), taken from the european patent patent bulletin |
Owner name: SWISSQUAL LICENSE AG |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050509 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050509 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050509 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050520 |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20050516 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IE Payment date: 20050628 Year of fee payment: 4 |
|
NLV1 | Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act | ||
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
PLBI | Opposition filed |
Free format text: ORIGINAL CODE: 0009260 |
|
PLAX | Notice of opposition and request to file observation + time limit sent |
Free format text: ORIGINAL CODE: EPIDOSNOBS2 |
|
ET | Fr: translation filed | ||
26 | Opposition filed |
Opponent name: ASCOM (SCHWEIZ) AG Effective date: 20051102 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: NV Representative=s name: E. BLUM & CO. PATENTANWAELTE |
|
PLAF | Information modified related to communication of a notice of opposition and request to file observations + time limit |
Free format text: ORIGINAL CODE: EPIDOSCOBS2 |
|
PLBB | Reply of patent proprietor to notice(s) of opposition received |
Free format text: ORIGINAL CODE: EPIDOSNOBS3 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: BE Payment date: 20060929 Year of fee payment: 5 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PFA Owner name: SPIRENT COMMUNICATIONS LICENSE AG Free format text: SWISSQUAL LICENSE AG#METALLSTRASSE 9B#6300 ZUG (CH) -TRANSFER TO- SPIRENT COMMUNICATIONS LICENSE AG#METALLSTRASSE 9B#6300 ZUG (CH) |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: CD |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PFA Owner name: SPIRENT COMMUNICATIONS LICENSE AG Free format text: SPIRENT COMMUNICATIONS LICENSE AG#METALLSTRASSE 9B#6300 ZUG (CH) -TRANSFER TO- SPIRENT COMMUNICATIONS LICENSE AG#METALLSTRASSE 9B#6300 ZUG (CH) |
|
BERE | Be: lapsed |
Owner name: SWISSQUAL A.G. Effective date: 20070331 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20070331 Ref country code: PT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050709 |
|
APBP | Date of receipt of notice of appeal recorded |
Free format text: ORIGINAL CODE: EPIDOSNNOA2O |
|
APAH | Appeal reference modified |
Free format text: ORIGINAL CODE: EPIDOSCREFNO |
|
RAP2 | Party data changed (patent owner data changed or rights of a patent transferred) |
Owner name: SWISSQUAL LICENSE AG |
|
APBQ | Date of receipt of statement of grounds of appeal recorded |
Free format text: ORIGINAL CODE: EPIDOSNNOA3O |
|
RAP2 | Party data changed (patent owner data changed or rights of a patent transferred) |
Owner name: SWISSQUAL LICENSE AG |
|
APBU | Appeal procedure closed |
Free format text: ORIGINAL CODE: EPIDOSNNOA9O |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20120403 Year of fee payment: 11 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20120328 Year of fee payment: 11 |
|
PUAH | Patent maintained in amended form |
Free format text: ORIGINAL CODE: 0009272 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: PATENT MAINTAINED AS AMENDED |
|
27A | Patent maintained in amended form |
Effective date: 20130417 |
|
AK | Designated contracting states |
Kind code of ref document: B2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R102 Ref document number: 50202226 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 50202226 Country of ref document: DE Representative=s name: GESTHUYSEN PATENT- UND RECHTSANWAELTE, DE |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PCOW Free format text: NEW ADDRESS: ALLMENDWEG 8, 4528 ZUCHWIL (CH) Ref country code: CH Ref legal event code: AELC Ref country code: CH Ref legal event code: PFA Owner name: SWISSQUAL LICENSE AG, CH Free format text: FORMER OWNER: SPIRENT COMMUNICATIONS LICENSE AG, CH Ref country code: CH Ref legal event code: PCOW Free format text: NEW ADDRESS: BAARERSTRASSE 78, 6300 ZUG (CH) |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R102 Ref document number: 50202226 Country of ref document: DE Effective date: 20130417 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 50202226 Country of ref document: DE Representative=s name: GESTHUYSEN PATENT- UND RECHTSANWAELTE, DE Effective date: 20130423 Ref country code: DE Ref legal event code: R081 Ref document number: 50202226 Country of ref document: DE Owner name: SWISSQUAL LICENSE AG, CH Free format text: FORMER OWNER: SPIRENT COMMUNICATIONS LICENSE AG, ZUG, CH Effective date: 20130423 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20131129 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130402 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130319 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: CH Payment date: 20210218 Year of fee payment: 20 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20210324 Year of fee payment: 20 Ref country code: DE Payment date: 20210319 Year of fee payment: 20 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R071 Ref document number: 50202226 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: PE20 Expiry date: 20220318 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION Effective date: 20220318 |