EP1244094A1 - Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals - Google Patents
Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals Download PDFInfo
- Publication number
- EP1244094A1 EP1244094A1 EP01810285A EP01810285A EP1244094A1 EP 1244094 A1 EP1244094 A1 EP 1244094A1 EP 01810285 A EP01810285 A EP 01810285A EP 01810285 A EP01810285 A EP 01810285A EP 1244094 A1 EP1244094 A1 EP 1244094A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- audio signal
- quality
- determining
- interruptions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000001629 suppression Effects 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 description 29
- 238000001303 quality assessment method Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 210000002364 input neuron Anatomy 0.000 description 3
- 210000004205 output neuron Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003775 Density Functional Theory Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Definitions
- the invention relates to a method for determining a quality measure of an audio signal.
- the invention further relates to a device for performing this method and a noise reduction module and an interrupt detection and interpolation module for use in such a device.
- Assessing the quality of a telecommunications network is an important tool to achieve or maintain a desired quality of service.
- One way that Assessing the quality of service of a telecommunications network is quality to determine a signal transmitted over the telecommunications network.
- audio signals Various intrusive methods are known for this, particularly in the case of voice signals.
- the system under test is used intervened by occupying a transmission channel and transmitting a reference signal therein becomes.
- the quality assessment is then carried out by comparing the known one Reference signal with the received signal, for example, subjectively by or a large number of test subjects.
- this is complex and therefore expensive.
- EP 0 980 064 describes a further intrusive method for machine-assisted quality assessment described an audio signal, being used to assess the transmission quality a spectral similarity value of the known source signal and the received signal is determined. This similarity value is based on a calculation of the covariance the spectra of the source signal and the received signal and a division of the covariance by the standard deviations of the two spectra mentioned.
- intrusive methods generally have the disadvantage that, as already mentioned, this too testing system must be intervened. To determine the signal quality namely at least one transmission channel is occupied and a reference signal is transmitted therein become. This transmission channel cannot be used for data transmission during this time be used. It is also in a broadcasting system such as a broadcasting service in principle possible, the signal source for transmission of test signals, since this occupies all channels and the test signal this would be extremely impractical for all recipients. Intrusive Methods are also unsuitable to simultaneously control the quality of a variety of transmission channels to monitor.
- the object of the invention is to provide a method of the type mentioned above, which avoids the disadvantages of the prior art and in particular offers a possibility to assess the signal quality of a transmitted over a telecommunications network Signal without knowing the originally sent signal.
- a reference signal is first determined from the audio signal. through Comparing the determined reference signal with the audio signal becomes a quality value determined, which is used to determine the quality measure.
- the method according to the invention thus allows an assessment of the quality of an audio signal at any connection of the telecommunication network. That is, it allows thus the quality assessment of many transmission channels at the same time, even a simultaneous assessment of all channels would be possible.
- the quality assessment takes place solely on the basis of the properties of the received signal, d. H. without knowing the source signal or the signal source.
- the invention thus not only enables monitoring of the transmission quality of the Telecommunications network, but also, for example, quality-based cost allocation, quality-based routing in the network, a test of the coverage ratio for example in the case of mobile radio networks, a QOS (Quality of Service) control of the network nodes or a quality comparison within a network or across networks.
- QOS Quality of Service
- Signal information typically also includes unwanted components such as different noise components, which are not in the original source signal were present.
- the reference signal is determined by the in received signal estimated interference signal and then from the received signal can be removed.
- a noisy audio signal is determined, which is preferred as Reference signal is used to assess the transmission quality.
- the audio signal could, for example, be passed through appropriate filters.
- a preferred method is to remove the noise components from the audio signal however, a neural network is used for this.
- the audio signal is not used directly as an input signal.
- DWT discrete wavelet transform
- This transformation provides a plurality of DWT coefficients of the audio signal, which the neural Network as an input signal.
- the neural network delivers on Output a plurality of corrected DWT coefficients, from which with the inverse DWT the reference signal is obtained. This corresponds to the noiseless version of the Audio signal.
- the coefficients of the neural network must be set in this way be that to the DWT coefficients of a noisy input signal provides the DWT coefficients of the corresponding noiseless input signal.
- the neural network In order to the neural network delivers the desired coefficients, it must first with a Set of corresponding noisy or noisy signal pairs trained become.
- any other information will also be taken into account. This can be both information contained in the audio signal, as well as information about the transmission channel or the telecommunications network itself.
- the quality of the received audio signal is determined by the quality of the Transmission influenced codec's (coder - decoder) influenced. It is difficult to do such Determine signal degradations, for example if the codec bit rates are too low part of the original signal information is lost. However, have too small Codec bit rates result in a change in the fundamental frequency (pitch) of the audio signal, which is why the course and dynamics of the fundamental frequency in the audio signal are advantageously examined becomes. Because such changes are easiest based on audio signal sections with vowels examined, signal components in the audio signal are preferred detected with vowels and then examined for pitch variations.
- the received audio signal can namely not only have unwanted signal components, it can also partially on the way desired information has been lost. So can the received audio signal for example, have more or less long signal interruptions.
- the received audio signal can include various types of audio signals. So it can contain, for example, speech, music, noise or even quiet signal components.
- the quality assessment can of course be based on all or part of this Signal components take place. In a preferred variant of the invention, the assessment the signal quality, however, is limited to the speech signal components. With an audio discriminator the speech signal components are therefore first extracted from the audio signal and only these speech signal components for determining the quality measure, d. H. to Determination of the reference signal used. To determine the quality value is in In this case, of course, the determined reference signal does not match the received audio signal, but only compared with the extracted speech signal component.
- the device according to the invention for machine-assisted determination of a quality measure an audio signal comprises first means for determining a reference signal the audio signal, second means for determining a quality value by means of comparisons the determined reference signal with the audio signal and third means for determination the quality measure taking into account the quality value.
- the first means for determining a reference signal from the audio signal can be several Include modules. So is preferably a noise reduction module and / or a Interrupt detection and interpolation module provided.
- noise signal components can be received Suppress audio signal. It includes the means to carry out those already described Wavelet transformations and the neural network to determine the new one DWT coefficients.
- the interrupt detection and interpolation module has those Means on the one hand for the detection of signal interruptions in the audio signal and on the other hand for the polynomial interpolation of short and for model-based interpolation of medium-long signal interruptions are required. That determined so The reference signal thus corresponds to a noisy version of the received audio signal and typically only shows major signal interruptions.
- the information about the signal interruptions of the audio signal is not only used to determine a better reference signal, they can also be used for determination of a better quality measure can be used.
- the third means of determination of the quality measure are therefore preferably designed such that information can be taken into account via signal interruptions in the audio signal.
- the device therefore advantageously has fourth means for determining information about codec-related Signal distortion.
- codec-related Signal distortion include, for example, a vowel detection module, with which signal components with vowels can be detected in the audio signal. These vowel signal components are passed on to an assessment module, which is based on this Signal components Information about codec-related signal distortions determines which can also be used to assess the signal quality.
- the third means are appropriate formed such that this information about the codec-related signal distortion can be taken into account when determining the quality measure.
- the device therefore has, in particular, fifth means for extracting the method Speech signal components from the audio signal. Accordingly, to determine the Reference signal not the audio signal itself, but only its voice signal component noisy and examined for interruptions. Likewise, of course, the audio signal, but only compared its voice signal component with this reference signal. In order to the quality measure is only determined on the basis of the information in the Speech signal component, whereby the information from the remaining signal components is not taken into account become.
- FIG. 1 shows a block diagram of the method according to the invention.
- a Audio signal 1 determines a quality measure 2, which is also used for evaluation, for example of the telecommunications network used (not shown).
- the audio signal 1 is understood here to mean that signal which is a receiver after transmission over the telecommunications network.
- This audio signal 1 typically does not match the one sent by the (not shown) transmitter Signal coincides, because on the way from the transmitter to the receiver the transmission signal opens varied ways. For example, it goes through various modules such as voice encoders and decoders, multiplexers and demultiplexers or even voice enhancers and echo cancellers.
- the transmission channel itself can also be a big one Influence the signal, which can take the form of interference, fading, Express transmission interruptions or interruptions, echo generation etc.
- the audio signal 1 thus not only contains the desired signal components, i. H. the original Transmitted signal, but also unwanted interference signal components. It may also be that Signal components of the transmission signal are missing, i. H. lost during transmission are.
- the assessment of the signal quality is not based on of the entire audio signal 1, but only based on the contained therein Speech portion.
- the audio signal 1 is initially based on an audio discriminator 3 Speech signal components 4 examined. Found speech signal components 4 become further Processing passed, whereas other signal components such as music 5.1, breaks 5.2 or strong signal interference 5.3 sorted out and processed further or can be discarded.
- the audio signal 1 piecewise, d. H. to pieces a each about 100 ms to 500 ms, passed to the audio discriminator 3. This breaks these pieces down further individual buffers of about 20 ms in length, processes these buffers and then arranges them in each case one of the signal groups to be distinguished: voice signal, music, pause or strong interference to.
- the audio discriminator 3 is used, for example, to assess the signal pieces an LPC (linear predictive coding) transformation, with which the coefficients of a adaptive filters corresponding to the human speech tract are calculated.
- LPC linear predictive coding
- the assignment of the signal pieces to the different signal groups is based on the Form of the transmission characteristics of this filter.
- this speech signal component 4 now a reference signal 6, i. H. a best possible estimate of the original from the transmitter transmitted transmission signal, determined.
- This reference signal estimation is carried out in several stages.
- a noise suppression module 7 undesirable components are initially created Signal components such as stationary noise or impulse interference from the voice signal component 4 removed or suppressed. This is done with the help of a neural network, which was previously used as an input and a plurality of noisy signals each trained the corresponding noise-free version of the input signal as the target signal has been.
- the noise-free speech signal 11 obtained in this way is sent to the second stage forwarded.
- the interrupt detection and interpolation module 8 there are interruptions detected in the audio signal 1 or in its speech signal component 4 and if possible interpolated, d. H. the missing samples are replaced by suitably estimated values.
- signal interruptions are detected by means of an examination discontinuities in the fundamental signal frequency (pitch tracing).
- the interpolation is carried out depending on the length of the detected break.
- d With short Interruptions, d. H. Interruptions of a few samples in length become a polynomial Interpolation such as a Lagrangian, Newton, Hermite, or Cubic Spline interpolation applied.
- model-based interpolations such as a maximum a posteriori, an autoregressive or a frequency-time interpolation is used. With longer ones Signal interruptions is an interpolation or other signal reconstruction in generally no longer possible in a meaningful way.
- an algorithm can be used for this comparison can be used as it is for example in intrusive methods for comparison of the known source signal is used with the received signal. Suitable are, for example, psychoacoustic models, the signals are perceptual, i. H. perceptible to compare.
- the result of this comparison is an intrusive quality value of 10.
- this intrusive quality value 10 becomes the input signals, ie the Speech signal component 4 and the reference signal 6, in signal pieces of about 20 to 30 ms Length broken down and a partial quality value calculated for each signal piece. After about 20 to 30 signal pieces, which corresponds to a signal duration of 0.5 seconds, becomes intrusive Quality value 10 determined as the arithmetic mean of these partial quality values.
- the intrusive quality value 10 forms the output signal of the comparison module 9.
- a speech encoder or speech decoder which the transmitted signal passes on its way from the transmitter to the receiver has an influence on the audio signal 1.
- These influences exist, for example in that both the fundamental frequency and the frequencies of the higher harmonics of the signal vary. The lower the bit rate of the speech codecs used, the greater the frequency shifts and thus the signal distortions.
- noisy speech signal 11 is first supplied to a vocal detector 12.
- Vowel signals 13, i.e. H. Signal components which recognizes the neural network as vowels are forwarded to an evaluation module 14, other signal components are rejected.
- the evaluation module 14 divides the vowel signal 13 into pieces of approximately 30 msec calculates a DFT (discrete Fourier transformation) with a frequency resolution of approximately 2 Hz at a sampling frequency of approximately 8 kHz. Leave with it then determine the fundamental frequency as well as the frequencies of the higher harmonics and examine for variations. Another feature to evaluate the codec-related Distortion forms the dynamics of the signal spectrum, with a smaller dynamic poor signal quality means.
- the reference values for the dynamic evaluation are obtained from the sample signals for the individual vowels. From the information on the influence of codecs on frequency shifts and spectrum dynamics the audio signal 1 or the noisy speech signal 11 becomes a codec quality value 15 derived.
- This value includes information about the length and the number of interruptions detected by the interruption detection and interpolation module 8, in a preferred embodiment of the invention only the information about the long breaks.
- further quality information 18 about the received audio signal 1 or the noisy speech signal 11, which is determined with other modules or examinations are included in the calculations of quality measure 2.
- the individual quality values are now scaled so that they are between 0 and 1 lie, with a quality value of 1 an undiminished quality and Values below 1 indicate a correspondingly reduced quality.
- the quality measure 2 is finally calculated as a linear combination of the individual quality values, whereby the individual weighting coefficients are determined experimentally and determined in such a way that their sum is 1.
- figure 2 shows the noise reduction module 7.
- the speech signal component 4 of the audio signal 1 is first subjected to a known DWT 19 (discrete wavelet transformation). Similar to DFTs, DWTs are used for signal analysis. An essential one The difference is, however, in contrast to those used in a DFT, unlimited in time and thus sine or cosine waveforms not temporally localized, the use of so-called wavelets, i.e. H. limited and thus localized Average 0 waveforms.
- the speech signal component 4 is divided into signal pieces of approximately 20 ms to 30 ms, which are each subject to DWT 19.
- the result of DWT 19 is a set of DWT coefficients 20.1, which are fed as input vector to a neural network 20 become. Its coefficients have previously been trained to match a given one Set of DWT coefficients 20.1 of a noisy signal a new set of DWT coefficients 20.2 deliver the noiseless version of this signal.
- This new set of DWT coefficient 20.2 is now the IDWT 21, i. H. subject to the DWT inverse to DWT 19. In this way, this IDWT 21 delivers a largely noiseless version of the Speech signal components 4, the desired, noiseless speech signal 11.
- the training configuration of the neural network 20 is shown in FIG. 3. It will be with Trained pairs of noisy and noiseless versions of sample signals.
- noisy example signal 22.1 is subjected to DWT 19 and it becomes a first one Obtained set 20.3 of DWT coefficients.
- the noisy example signal 22.2 is also subjected to the same DWT 19 and a second set 20.4 of DWT coefficients generated, which is fed into the neural network 20.
- the output vector of the neural Network 20, the new DWT coefficients 20.5, is in a comparator 23 with the first Theorem 20.3 of DWT coefficients compared. Because of the differences between These two sets of DWT coefficients are corrected 24 for the coefficients of the neural network 20.
- This process is done with a variety of sample signal pairs repeated so that the coefficients of the neural network 20 perform the desired function perform more and more precisely.
- the neural Network 20 uses sample signals 22.1, 22.2, which human sounds from different Represent languages. It is also an advantage to do this for both women and women Use men's and children's voices.
- the mentioned size of the to be processed individually Signal pieces of 20 ms to 30 ms duration is selected so that the processing of the Speech signal portion 4 are carried out regardless of the language and the speaker can. Even pauses in speech and very quiet signal sections are trained with this these are also recognized correctly.
- a multilayer perceptron was used as the neural network 20 with an input layer 25, a hidden layer 26 and one Output layer 27 used.
- the perceptron was trained with a back propagation algorithm.
- the input layer 25 has a plurality of input neurons 25.1, the hidden layer 26 a plurality of hidden neurons 26.1 and the Output layer 27 has a plurality of output neurons 27.1. Any input neuron 25.1 becomes one of the DWT coefficients 20.1 of the previous DWT 19 fed.
- the respective values are determined with the set coefficients of the respective neurons and the value combinations are calculated in the individual neurons each output neuron 27.1 one of the new DWT coefficients 20.2.
- the audio discriminator 3 divides the signal pieces into individual buffers Length 20 ms. At a sampling rate of 8 kHz, this corresponds to 160 samples.
- a neural network 20 with 160 input and output neurons each can be used 25.1, 27.1 and about 50 to 60 hidden neurons 26.1 can be used.
- time-frequency interpolation is used for signal reconstruction.
- a short-term spectrum for signal frames with 64 samples Length (8 ms) calculated. This is done by placing the signal frames with Hamming windows be multiplied at an overlap of 50%.
- the goal of interpolation is to treat this gap.
- FIG. 5 shows such a signal 28 of approximately 200 samples in length.
- About periodicity 5 shows the signal 28 in the temporal domain.
- On the abscissa axis 32 is the number of samples and the ordinate axis 33 the magnitudes applied.
- the interpolation takes place in the frequency-time domain.
- the interruption 29 is easy to recognize as a gap of just under 10 samples in length.
- the pitch period 30 of the signal 28 is first of all determined.
- the interpolation will be information from the samples before and after the gap within this pitch period 30 is taken into account.
- the signal areas 31.1, 31.2 show those Areas of the signal 28 a pitch period before or after the interruption 29.
- This Signal areas 31.1, 31.2 are not identical to the original signal piece at break 29, but still show a high degree of similarity. For little ones Gaps up to about 10 samples are assumed to have enough signal information is present in order to be able to carry out correct interpolation. With longer gaps additional information from samples of the environment can be used.
- the invention allows the signal quality of a judge received audio signal without knowing the original broadcast signal.
- the signal quality can also affect the quality of the transmission channels used and thus concluded on the quality of service of the entire telecommunications network become.
- the fast response times of the method according to the invention which are in the order of magnitude of approximately 100 ms to 500 ms, thus making different possible Applications such as general comparisons of the service quality of different ones Networks or subnetworks, a quality-based cost allocation or a quality-based one Routing in a network or across multiple networks using appropriate Control of the network nodes (gateways, routers etc.).
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Noise Elimination (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Testing Electric Properties And Detecting Electric Faults (AREA)
Abstract
Bei einem Verfahren zur Bestimmung eines Qualitätsmasses (2) eines Audiosignals (1) werden aus dem Audiosignal (1) zunächst die Sprachsignalanteile (4) extrahiert. Anhand dieses Signals wird anschliessend mittels Rauschunterdrückung (7) und Unterbruchsinterpolation (8) ein Referenzsignal (6) generiert. Dieses wird mit dem Sprachsignal (4) verglichen und auf diese Weise ein intrusiver Qualitätswert (10) bestimmt. Ein weiterer Qualitätswert (15) wird bestimmt, indem Codec-bedingte Signalverzerrungen im Sprachsignal (4) bestimmt und bewertet werden (12, 14). Ein nächster Qualitätswert (17) wird den Informationen über die detektierten Signalunterbrüche (8) generiert. Das Qualitätsmass (2) wird schliesslich als Linearkombination (16) der verschiedenen Qualitätswerte (10, 15, 17, 18) bestimmt. <IMAGE>
Description
Die Erfindung betrifft ein Verfahren zur Bestimmung eines Qualitätsmasses eines Audiosignals.
Weiter betrifft die Erfindung eine Vorrichtung zur Durchführung dieses Verfahrens
sowie ein Rauschunterdrückungsmodul und ein Unterbruchdetektions- und interpolationsmodul
zur Verwendung in einer derartigen Vorrichtung.
Die Beurteilung der Qualität eines Telekommunikationsnetzes ist ein wichtiges Instrument
zur Erreichung bzw. Erhaltung einer gewünschten Service-Qualität. Eine Möglichkeit, die
Service-Qualität eines Telekommunikationsnetzes zu beurteilen besteht darin, die Qualität
eines über das Telekommunikationsnetz übertragenen Signals zu bestimmen. Bei Audiosignalen,
insbesondere bei Sprachsignalen sind hierfür verschiedene intrusive Verfahren bekannt.
Bei derartigen Verfahren wird, wie der Name schon sagt, in das zu testende System
eingegriffen, indem ein Übertragungskanal belegt und darin ein Referenzsignal übermittelt
wird. Die Qualitätsbeurteilung erfolgt anschliessend durch einen Vergleich des bekannten
Referenzsignals mit dem empfangenen Signal beispielsweise subjektiv durch eine oder
eine Mehrzahl von Testpersonen. Dies ist jedoch aufwändig und damit teuer.
In der EP 0 980 064 ist ein weiteres intrusives Verfahren zur maschinengestützten Qualitätsbeurteilung
eines Audiosignals beschrieben, wobei zur Beurteilung der Übertragungsqualität
ein spektraler Ähnlichkeitswert des bekannten Quellsignals und des Empfangssignals
bestimmt wird. Dieser Ähnlichkeitswert beruht auf einer Berechnung der Kovarianz
der Spektren des Quellsignals und des Empfangssignal und einer Division der Kovarianz
durch die Standardabweichungen der beiden genannten Spektren.
Intrusive Methoden haben generell jedoch den Nachteil, dass wie bereits erwähnt in das zu
testende System eingegriffen werden muss. Zur Bestimmung der Signalqualität muss nämlich
mindestens ein Übertragungskanal belegt und darin ein Referenzsignal übermittelt
werden. Dieser Übertragungskanal kann während dieser Zeit nicht für eine Datenübermittlung
verwendet werden. Zudem ist es bei einem Broadcastingsystem wie beispielsweise
einem Rundfunkdienst prinzipiell zwar möglich, die Signalquelle zur Übermittlung
von Testsignalen zu belegen, da damit aber sämtliche Kanäle besetzt und das Testsignal zu
allen Empfängern übermittelt würde, ist dieses Vorgehen äusserst unpraktisch. Intrusive
Verfahren sind ebenso ungeeignet, um gleichzeitig die Qualität einer Vielzahl von Übertragungskanälen
zu überwachen.
Aufgabe der Erfindung ist es, ein Verfahren der oben genannten Art anzugeben, welches
die Nachteile des Standes der Technik vermeidet und insbesondere eine Möglichkeit bietet
zur Beurteilung der Signalqualität eines über ein Telekommunikationsnetz übertragenen
Signals ohne Kenntnis des ursprünglich gesendeten Signals.
Die Lösung der Aufgabe ist durch die Merkmale des Anspruchs 1 definiert. Bei dem erfindungsgemässen
Verfahren zur maschinengestützten Bestimmung eines Qualitätsmasses
eines Audiosignals wird aus dem Audiosignal zunächst ein Referenzsignal ermittelt. Mittels
Vergleichen des ermittelten Referenzsignals mit dem Audiosignal wird ein Qualitätswert
bestimmt, der zur Bestimmung des Qualitätsmasses verwendet wird.
Das erfindungsgemässe Verfahren erlaubt somit eine Beurteilung der Qualität eines Audiosignals
an einem beliebigen Anschluss des Telekommunikationsnetzwerkes. D. h. es erlaubt
damit auch die Qualitätsbeurteilung von vielen Übertragungskanälen gleichzeitig,
wobei sogar eine gleichzeitige Beurteilung sämtlicher Kanäle möglich wäre. Die Qualitätsbeurteilung
erfolgt hierbei allein aufgrund der Eigenschaften des empfangenen Signals,
d. h. ohne Kenntnis des Quellsignals oder der Signalquelle.
Die Erfindung ermöglicht somit nicht nur eine Überwachung der Übertragungsqualität des
Telekommunikationsnetzwerkes, sondern beispielsweise auch eine qualitätsbasierte Kostenverrechnung,
ein qualitätsbasiertes Routing im Netz, ein Test des Deckungsgrades
beispielsweise bei Mobilfunknetzen, eine QOS (Quality of Service) Steuerung der Netzknoten
oder ein Qualitätsvergleich innerhalb eines Netzes oder auch netzübergreifend.
Ein über ein Telekommunikationsnetz übertragenes Audiosignal weist neben der gewünschten
Signalinformation typischerweise auch unerwünschte Komponenten wie beispielsweise
verschiedene Rauschanteile auf, welche im ursprünglichen Quellsignal nicht
vorhanden waren.
Um eine möglichst gute Qualitätsbeurteilung durchführen zu können, ist eine möglichst
gute Schätzung des ursprünglich gesendeten Signals notwendig. Um dieses Referenzsignal
zu rekonstruieren, gibt es verschiedene Methoden. Eine Möglichkeit besteht darin, eine
Schätzung der Charakteristika des Übertragungskanals zu bestimmen und ausgehend vom
empfangenen Signal quasi rückwärts zu rechnen. Eine weitere Möglichkeit besteht in einer
direkten Schätzung des Referenzsignals anhand der bekannten Informationen über das
Empfangssignal und den Übertragungskanal.
Bei der vorliegend angewandten Methode wird das Referenzsignal ermittelt, indem die im
empfangenen Signal vorhandenen Störsignalanteile geschätzt und anschliessend aus dem
empfangenen Signal entfernt werden. Indem die Rauschanteile aus dem Audiosignal entfernt
werden, wird zunächst ein entrauschtes Audiosignal bestimmt, welches bevorzugt als
Referenzsignal zur Beurteilung der Übertragungsqualität verwendet wird.
Es gibt verschiedene Methoden, Rauschanteile aus dem empfangenen Audiosignal zu entfernen.
Das Audiosignal könnte beispielsweise über entsprechende Filter geführt werden.
Bei einer bevorzugten Methode, die Rauschanteile aus dem Audiosignal zu entfernen, wird
hierfür jedoch ein neuronales Netzwerk verwendet.
Das Audiosignal wird jedoch nicht direkt als Eingangssignal verwendet. Zunächst wird auf
das Audiosignal eine diskrete Wavelet Transformation (DWT) angewendet. Diese Transformation
liefert eine Mehrzahl von DWT-Koeffizienten des Audiosignals, welche dem neuronalen
Netzwerk als Eingangssignal zugeführt werden. Das neuronale Netzwerk liefert am
Ausgang eine Mehrzahl von korrigierten DWT-Koeffizienten, aus welchen mit der inversen
DWT das Referenzsignal gewonnen wird. Dieses entspricht der entrauschten Version des
Audiosignals.
Um dies zu erreichen, müssen die Koeffizienten des neuronalen Netzwerkes derart eingestellt
sein, dass dieses zu den DWT-Koeffizienten eines rauschbehafteten Eingangssignals
die DWT-Koeffizienten des entsprechenden entrauschten Eingangssignals liefert. Damit
das neuronale Netzwerk die gewünschten Koeffizienten liefert, muss es zuvor mit einem
Set von korrespondierenden rauschbehafteten bzw. entrauschten Signalpaaren trainiert
werden.
Auf diese Weise lässt sich sowohl stationäres Rauschen wie beispielsweise weisses, thermisches
sowie Fahrzeug- oder Strassenrauschen, als auch Impulsrauschen unterdrücken.
Auch Echostörungen und Interferenzen lassen sich mit dem neuronalen Netzwerk unterdrücken
bzw. beseitigen.
Bei der Bestimmung des Qualitätsmasses können neben dem Qualitätswert, der durch den
Vergleich des empfangenen Audiosignals mit dem daraus ermittelten Referenzsignal ermittelt
wird, auch beliebige andere Informationen berücksichtigt werden. Dies können sowohl
im Audiosignal enthaltene Informationen, als auch Informationen über den Übertragungskanal
oder das Telekommunikationsnetz selber sein.
Es ist von Vorteil, bei der Bestimmung des Qualitätsmasses Informationen zu verwenden,
welche sich mit geeigneten Mitteln aus dem empfangenen Audiosignal selber gewinnen
lassen. So wird die Qualität des empfangenen Audiosignal beispielsweise durch die bei der
Übermittlung durchlaufenen Codec's (Coder - Decoder) beeinflusst. Es ist schwierig, derartige
Signal-Degradationen festzustellen, denn beispielsweise bei zu kleinen Codec-Bitraten
geht ein Teil der ursprünglichen Signalinformation verloren. Allerdings haben zu kleine
Codec-Bitraten eine Veränderung der Grundfrequenz (Pitch) des Audiosignals zur Folge,
weshalb mit Vorteil der Verlauf und die Dynamik der Grundfrequenz im Audiosignal untersucht
wird. Da sich solche Änderungen am einfachsten anhand von Audiosignalabschnitten
mit Vokalen untersuchen lassen, werden zunächst vorzugsweise Signalanteile im Audiosignal
mit Vokalen detektiert und danach auf Pitch-Variationen hin untersucht.
Zurück zur Ermittlung des Referenzsignals aus dem empfangenen Audiosignal. Dieses kann
nämlich nicht nur unerwünschte Signalanteile aufweisen, es können unterwegs auch teilweise
gewünschte Informationen verloren gegangen sein. So kann das empfangene Audiosignal
beispielsweise mehr oder weniger lange Signalunterbrüche aufweisen.
Je näher nun aber das aus dem Audiosignal generierte Referenzsignal beim ursprünglichen
Quellsignal liegt, desto präziser ist die Beurteilung der Übertragungsqualität. Dies ist der
Grund dafür, Signalunterbrüche durch geeignete Signale zu ersetzen. Hierfür könnten beispielsweise
geeignete Rauschsignale oder auch bereits übermittelte Signalabschnitte verwendet
werden.
Um jedoch eine möglichst genaue Schätzung des Referenzsignals zu erhalten, ist es von
Vorteil, derartige Signalunterbrüche im Audiosignal zunächst zu detektieren und danach
die fehlenden Signalabschnittedurch möglichst genaue, durch Interpolation erreichte
Schätzungen zu ersetzen. Die Art der Interpolation der verlorengegangenen Signalabschnitte
hängt hierbei ab von der Länge des Signalunterbruches. Bei kurzen Unterbrüchen,
d. h. bei Unterbrüchen bis zu einigen wenigen Abtastwerten im Audiosignal wird bevorzugt
eine polynomische und bei mittellangen Unterbrüchen, d. h. von einigen wenigen bis einigen
Dutzend Abtastwerten wird bevorzugt eine modellbasierte Interpolation verwendet.
Längere Signalunterbrüche, d. h. Unterbrüche ab einigen Dutzend Abtastwerten, können
jedoch kaum sinnvoll rekonstruiert werden. Anstatt diese Informationen als überflüssig zu
betrachten und zu verwerfen, werden sie und teilweise auch die Informationen über die
kurzen und mittellangen Signalunterbrüche vorzugsweise bei der Beurteilung der Übertragungsqualität
berücksichtigt. Sie fliessen bei der Bestimmung des Qualitätsmasses mit in
die Berechnungen ein.
Das empfangene Audiosignal kann verschiedene Arten von Audiosignalen umfassen. So
kann es beispielsweise Sprach-, Musik-, Rausch- oder auch Ruhesignalanteile beinhalten.
Die Qualitätsbeurteilung kann natürlich anhand der gesamten oder anhand eines Teils dieser
Signalanteile erfolgen. Bei einer bevorzugten Variante der Erfindung wird die Beurteilung
der Signalqualität hingegen beschränkt auf die Sprachsignalanteile. Mit einem Audio-Diskriminator
werden aus dem Audiosignal daher zunächst die Sprachsignalanteile extrahiert
und nur diese Sprachsignalanteile zur Bestimmung des Qualitätsmasses, d. h. zur
Ermittlung des Referenzsignals verwendet. Um den Qualitätswert zu bestimmen wird in
diesem Fall das ermittelte Referenzsignal natürlich auch nicht mit dem empfangenen Audiosignal,
sondern nur mit dem daraus extrahierten Sprachsignalanteil verglichen.
Die erfindungsgemässe Vorrichtung zur maschinengestützten Bestimmung eines Qualitätsmasses
eines Audiosignals umfasst erste Mittel zur Bestimmung eines Referenzsignals aus
dem Audiosignal, zweite Mittel zur Bestimmung eines Qualitätswertes mittels Vergleichen
des ermittelten Referenzsignals mit dem Audiosignal sowie dritte Mittel zur Bestimmung
des Qualitätsmasses unter Berücksichtigung des Qualitätswertes.
Die ersten Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal können mehrere
Module umfassen. So ist vorzugsweise ein Rauschunterdrückungsmodul und/oder ein
Unterbruchdetektions- und interpolationsmodul vorgesehen.
Mit dem Rauschunterdrückungsmodul lassen sich Rauschsignalanteile im empfangenen
Audiosignal unterdrücken. Es beinhaltet die Mittel zur Durchführung der bereits beschriebenen
Wavelet-Transformationen sowie das neuronale Netz zur Bestimmung der neuen
DWT-Koeffizienten. Das Unterbruchdetektions- und interpolationsmodul weist diejenigen
Mittel auf, welche einerseits zur Detektion von Signalunterbrüchen im Audiosignal und
andererseits zur polynomischen Interpolation von kurzen sowie zur modellbasierten Interpolation
von mittellangen Signalunterbrüchen benötigt werden. Das dermassen ermittelte
Referenzsignal entspricht somit einer entrauschten Version des empfangenen Audiosignals
und weist typischerweise nur noch grössere Signalunterbrüche auf.
Die Informationen über die Signalunterbrüche des Audiosignals werden jedoch nicht nur
zur Ermittlung eines besseren Referenzsignals verwendet, sie können auch zur Bestimmung
eines besseren Qualitätsmasses verwendet werden. Die dritten Mittel zur Bestimmung
des Qualitätsmasses sind deshalb bevorzugt derart ausgebildet, dass Informationen
über Signalunterbrüche im Audiosignal berücksichtigt werden können.
Je mehr Informationen über das Audiosignal bei der Bestimmung des Qualitätsmasses einbezogen
werden, umso genauer kann die Qualitätsbeurteilung erfolgen. Die Vorrichtung
weist daher mit Vorteil vierte Mittel zur Bestimmung von Informationen über Codec-bedingte
Signalverzerrungen auf. Diese umfassen beispielsweise ein Vokaldetektionsmodul,
mit welchem sich im Audiosignal Signalanteile mit Vokalen detektieren lassen. Diese Vokal-Signalanteile
werden an ein Bewertungsmodul weitergegeben, welches anhand dieser
Signalanteile Informationen über Codec-bedingte Signalverzerrungen bestimmt, welche
ebenfalls zur Beurteilung der Signalqualität verwendet werden. Die dritten Mittel sind entsprechend
derart ausgebildet, dass diese Informationen über die Codec-bedingten Signalverzerrungen
bei der Bestimmung des Qualitätsmasses berücksichtigt werden können.
Mit Vorteil wird jedoch nicht das gesamte Audiosignal, sondern nur dessen Sprachsignalanteile
zur Qualitätsbeurteilung verwendet. Entsprechend dem bereits geschilderten
Verfahren weist die Vorrichtung daher insbesondere fünfte Mittel zur Extraktion der
Sprachsignalanteile aus dem Audiosignal auf. Dementsprechend wird zur Ermittlung des
Referenzsignals nicht das Audiosignal selber, sondern nur dessen Sprachsignalanteil
entrauscht und auf Unterbrüche hin untersucht. Ebenso wird natürlich nicht das Audiosignal,
sondern nur dessen Sprachsignalanteil mit diesem Referenzsignal verglichen. Damit
erfolgt die Bestimmung des Qualitätsmasses lediglich anhand der Informationen im
Sprachsignalanteil, wobei die Informationen aus den restlichen Signalanteilen nicht berücksichtigt
werden.
Aus der nachfolgenden Detailbeschreibung und der Gesamtheit der Patentansprüche ergeben
sich weitere vorteilhafte Ausführungsformen und Merkmalskombinationen der Erfindung.
Die zur Erläuterung des Ausführungsbeispiels verwendeten Zeichnungen zeigen:
- Fig. 1
- ein schematisch dargestelltes Blockdiagramm des erfindungsgemässen Verfahrens;
- Fig. 2
- das Rauschunterdrückungsmodul im Betriebszustand;
- Fig. 3
- das Rauschunterdrückungsmodul im Trainingszustand;
- Fig. 4
- das neuronale Netzwerk des Rauschunterdrückungsmoduls und
- Fig. 5
- ein Beispiel für ein Audiosignal mit einem Unterbruch.
Grundsätzlich sind in den Figuren gleiche Teile mit gleichen Bezugszeichen versehen.
Figur 1 zeigt ein Blockdiagramm des erfindungsgemässen Verfahrens. Hierbei wird für ein
Audiosignal 1 ein Qualitätsmass 2 bestimmt, welches beispielsweise auch zur Bewertung
des benutzten (nicht dargestellten) Telekommunikationsnetzes verwendet werden kann.
Unter dem Audiosignal 1 wird hier dasjenige Signal verstanden, welches ein Empfänger
nach der Übertragung über das Telekommunikationsnetz empfängt. Dieses Audiosignal 1
stimmt nämlich typischerweise nicht mit dem vom (nicht dargestellten) Sender gesendeten
Signal überein, denn auf dem Weg vom Sender zum Empfänger wird das Sendesignal auf
vielfältige Art und Weise verändert. So durchläuft es beispielsweise verschiedene Module
wie Sprachcoder und -decoder, Multiplexer und Demultiplexer oder auch Sprachverbesserer
und Echokompensatoren. Aber auch der Übertragungskanal selber kann einen grossen
Einfluss auf das Signal haben, welche sich beispielsweise in Form von Interferenzen, Fading,
Übertragungsab- oder unterbrüchen, Echogenerierung etc. äussern.
Des Audiosignal 1 enthält somit nicht nur gewünschte Signalanteile, d. h. das ursprüngliche
Sendesignal, sondern auch unerwünschte Störsignalanteile. Es kann auch sein, dass
Signalanteile des Sendesignals fehlen, d. h. während der Übertragung verloren gegangen
sind.
Bei dem dargestellten Beispiel erfolgt die Beurteilung der Signalqualität jedoch nicht anhand
des gesamten Audiosignals 1, sondern lediglich anhand des darin enthaltenen
Sprachanteils. Das Audiosignal 1 wird zunächst mit einem Audio-Diskriminator 3 auf
Sprachsignalanteile 4 hin untersucht. Gefundene Sprachsignalanteile 4 werden zur weiteren
Verarbeitung weitergeleitet, wohingegen andere Signalanteile wie beispielsweise Musik
5.1, Pausen 5.2 oder starke Signalstörungen 5.3 aussortiert und anderweitig weiterverarbeitet
oder verworfen werden können. Um diese Unterscheidung durchführen zu können,
wird das Audiosignal 1 stückweise, d. h. zu Stückchen a jeweils etwa 100 ms bis 500
ms, an den Audio-Diskriminator 3 übergeben. Dieser zerlegt diese Stückchen weiter in
einzelne Buffer von etwa 20 ms Länge, verarbeitet diese Buffer und ordnet sie dann jeweils
einer der zu unterscheidenden Signalgruppen Sprachsignal, Musik, Pause oder starke Störung
zu.
Der Audio-Diskriminator 3 verwendet zur Beurteilung der Signalstückchen beispielsweise
eine LPC (linear predictive coding) Transformation, mit welcher die Koeffizienten eines
dem menschlichen Sprachtrakt entsprechenden, adaptiven Filters berechnet werden. Die
Zuordnung der Signalstückchen zu den verschiedenen Signalgruppen erfolgt anhand der
Form der Übertragungs-Charakteristika dieses Filters.
Um die Qualität der Übertragung beurteilen zu können, wird aus diesem Sprachsignalanteil
4 nun ein Referenzsignal 6, d. h. eine möglichst gute Schätzung des vom Sender ursprünglich
übermittelten Sendesignals, ermittelt. Diese Referenzsignal-Schätzung erfolgt mehrstufig.
In einer ersten Stufe, einem Rauschunterdrückungsmodul 7, werden zunächst unerwünschte
Signalanteile wie stationäres Rauschen oder Impulsstörungen aus dem Sprachsignalanteil
4 entfernt bzw. unterdrückt. Dies geschieht mit Hilfe eines neuronalen Netzwerkes,
welches zuvor mittels einer Vielzahl von verrauschten Signalen als Eingang und
jeweils der entsprechenden rauschfreien Version des Eingangssignals als Zielsignal trainiert
worden ist. Das auf diese Weise erhaltene, entrauschte Sprachignal 11 wird an die
zweite Stufe weitergeleitet.
In der zweiten Stufe, dem Unterbruchdetektions- und interpolationsmodul 8 werden Unterbrüche
im Audiosignal 1 bzw. in dessen Sprachsignalanteil 4 detektiert und wenn möglich
interpoliert, d. h. die fehlenden Samples werden durch geeignet geschätzte Werte ersetzt.
Im vorliegenden Beispiel erfolgt die Detektion von Signalunterbrüchen mittels einer Untersuchung
von Diskontinuitäten der Signalgrundfrequenz (pitch-tracing). Die Interpolation
wird in Abhängigkeit der Länge des detektierten Unterbruches vorgenommen. Bei kurzen
Unterbrüchen, d. h. Unterbrüchen von wenigen Samples Länge wird eine polynomische
Interpolation wie beispielsweise ein Lagrange-, Newton-, Hermite-, oder Cubic Spline-Interpolation
angewendet. Bei mittellangen Unterbrüchen (einige wenige bis einige Dutzend
Samples) werden modellbasierte Interpolationen wie beispielsweise eine Maximum a posteriori-,
eine autoregressive- oder eine frequency-time-Interpolation angewendet. Bei längeren
Signalunterbrüchen ist eine Interpolation oder eine andere Signalrekonstruktion in
der Regel nicht mehr auf sinnvolle Art und Weise möglich.
Das Ganze wird erschwert durch die Tatsache, dass es sowohl unterschiedliche Arten von
Unterbrüchen - es ist zu unterscheiden zwischen Silben- bzw. Wortpausen und richtigen
Signalunterbrüchen - als auch unterschiedliche Arten von Techniken zur Bearbeitung solcher
Unterbrüche im Übertragungskanal gibt. So kann von einem Endgerät, beispielsweise
in Abhängigkeit von Informationen über das Übertragungsnetz, unterschiedlich auf fehlende
Frames reagiert werden. Bei einer ersten Methode werden verlorene Frames beispielsweise
einfach durch Nullen ersetzt. Bei einer zweiten Methode werden anstelle der
verlorenen Frames andere, richtig empfangene Frames eingesetzt und bei einer dritten
Methode werden anstelle der verlorenen Frames lokal generierte Rauschsignale, sogenannter
"comfort noise" eingesetzt.
Nach dem Ermitteln des Referenzsignals 6 mit dem Rauschunterdrückungsmodul 7 und
dem Unterbruchdetektions- und interpolationsmodul 8 wird es mit Hilfe des Vergleichsmoduls
9 mit dem Sprachsignalanteil 4 verglichen. Für diesen Vergleich kann ein Algorithmus
verwendet werden, wie er beispielsweise bei intrusiven Verfahren für den Vergleich
des bekannten Quellsignals mit dem empfangenen Signal verwendet wird. Geeignet
sind beispielsweise psychoakustische Modelle, die Signale perzeptiv, d. h. wahrnehmbar
vergleichen. Das Resultat dieses Vergleichs ist ein intrusiver Qualitätswert 10. Zur Bestimmung
dieses intrusiven Qualitätswertes 10 werden die Eingangssignale, also der
Sprachsignalanteil 4 und das Referenzsignal 6, in Signalstücke von etwa 20 bis 30 ms
Länge zerlegt und für jedes Signalstück ein Teilqualitätswert berechnet. Nach etwa 20 bis
30 Signalstücken, was etwa einer Signaldauer von 0.5 Sekunden entspricht, wird der intrusive
Qualitätswert 10 als arithmethisches Mittel dieser Teilqualitätswerte ermittelt. Der
intrusive Qualitätswert 10 bildet das Ausgangssignal des Vegleichsmoduls 9.
Bei der Bestimmung des Qualitätsmasses 2 können jedoch neben der Information über
Störsignalanteile bzw. Signalunterbrüche auch noch andere Informationen über das Audiosignal
1 berücksichtigt werden. So kann beispielsweise ein Sprachcoder bzw. Sprachdecoder,
den das gesendete Signal auf seinem Weg vom Sender zum Empfänger durchlaufen
hat, einen Einfluss auf das Audiosignal 1 haben. Diese Einflüsse bestehen beispielsweise
darin, dass sowohl die Grundfrequenz als auch die Frequenzen der höheren Harmonischen
des Signals variieren. Je kleiner die Bitrate der verwendeten Sprachcodecs, desto grösser
die Frequenzverschiebungen und damit die Signalverzerrungen.
Derartige Einflüsse lassen sich am einfachsten bei Vokalen untersuchen, weshalb das
entrauschte Sprachsignal 11 zunächst einem Vokaldetektor 12 zugeführt wird. Dieser umfasst
beispielsweise ein neuronales Netz, das vorher für die Erkennung von bestimmten
(einzelne oder alle) Vokalen trainiert worden ist. Vokalsignale 13, d. h. Signalanteile welche
das neuronale Netz als Vokale erkennt, werden an ein Bewertungsmodul 14 weitergeleitet,
andere Signalanteile werden verworfen.
Das Bewertungsmodul 14 teilt das Vokalsignal 13 in Signalstücke von etwa 30 ms auf und
berechnet daran jeweils eine DFT (diskrete Fourier Transformation) mit einer Frequenzauflösung
von ungefähr 2 Hz bei einer Abtastfrequenz von etwa 8 kHz. Damit lassen
sich dann die Grundfrequenz sowie die Frequenzen der höheren Harmonischen bestimmen
und auf Variationen hin untersuchen. Ein weiteres Merkmal zur Bewertung der Codec-bedingten
Verzerrungen bildet die Dynamik des Signalspektrums, wobei eine kleinere Dynamik
eine schlechtere Signalqualität bedeutet. Die Referenzwerte für die Dynamikbewertung
werden für die einzelnen Vokale aus Beispielsignalen gewonnen. Aus den Informationen
über den Einfluss von Codecs auf die Frequenzverschiebungen und die Spektrumdynamik
des Audiosignals 1 bzw. des entrauschten Sprachsignals 11 wird ein Codec-Qualitätswert
15 abgeleitet.
Bei der Bestimmung des Qualitätsmasses 2 durch das Auswertemodul 16 wird zusätzlich
zum intrusiven Qualitätswert 10 und zum Codec-Qualitätswert 15 auch ein Unterbruchs-Qualitätswert
17 berücksichtigt. Dieser Wert beinhaltet Informationen über die Länge und
die Anzahl der vom Unterbruchdetektions- und interpolationsmodul 8 festgestellten Unterbrüche,
wobei bei einem bevorzugten Ausführungsbeispiel der Erfindung nur die Informationen
über die langen Unterbrüche berücksichtigt werden. Zusätzlich können natürlich
auch weitere Qualitäts-Informationen 18 über das empfangene Audiosignal 1 bzw. das
entrauschte Sprachsignal 11, welche mit anderen Modulen oder Untersuchungen ermittelt
werden, in die Berechnungen des Qualitätsmasses 2 einfliessen.
Die einzelnen Qualitätswerte werden nun derart skaliert, dass sie im Zahlenbereich zwischen
0 und 1 liegen, wobei ein Qualitätswert von 1 eine unverminderte Qualität und
Werte unter 1 eine entsprechend verminderte Qualität bezeichnen. Das Qualitätsmass 2
wird schliesslich als Linearkombination der einzelnen Qualitätswerte berechnet, wobei die
einzelnen Gewichtungskoeffizienten experimentell bestimmt und derart festgelegt werden,
dass ihre Summe 1 ergibt.
Stehen weitere qualitätsrelevante Informationen über das Telekommunikationsnetz zur
Verfügung oder treten neue Effekte in den Übertragungskanälen auf, ist es auf einfache Art
und Weise möglich, weitere Module zur Berechnung von weiteren Qualitätswerten hinzuzufügen
und bei der Bestimmung des Qualitätsmasses 2 in der beschriebenen Art und Weise
zu berücksichtigen.
Im Folgenden werden anhand der Figuren 2 bis 5 einige der Module näher erläutert. Figur
2 zeigt das Rauschunterdrückungsmodul 7. Der Sprachsignalanteil 4 des Audiosignals 1
wird zunächst einer an sich bekannten DWT 19 (diskrete Wavelet Transformation) unterworfen.
DWT's werden ähnlich wie DFT's zur Signalanalyse eingesetzt. Ein wesentlicher
Unterschied ist jedoch, im Gegensatz zu den bei einer DFT verwendeten, zeitlich unbegrenzten
und damit zeitlich nicht lokalisierten Sinus- bzw. Kosinus-wellenformen, der Einsatz
von sogenannten Wavelets, d. h. zeitlich begrenzten und damit zeitlich lokalisierten
Wellenformen mit Mittelwert 0.
Der Sprachsignalanteil 4 wird in Signalstücke von etwa 20 ms bis 30 ms unterteilt, welche
jeweils der DWT 19 unterworfen werden. Das Resultat der DWT 19 ist ein Satz von DWT-Koeffizienten
20.1, welche als Eingangsvektor einem neuronalen Netz 20 eingespiesen
werden. Dessen Koeffizienten wurden vorgängig so trainiert, dass sie zu einem gegebenen
Satz von DWT-Koeffizienten 20.1 eines verrauschten Signals einen neuen Satz von DWT-Koeffizienten
20.2 der unverrauschten Version dieses Signals liefern. Dieser neue Satz von
DWT-Koeffizienten 20.2 wird nun der IDWT 21, d. h. der zur DWT 19 inversen DWT unterworfen.
Diese IDWT 21 liefert auf diese Weise eine mehrheitlich unverrauschte Version der
Sprachsignalanteile 4, eben das gewünschte, entrauschte Sprachsignal 11.
Die Trainingskonfiguration des neuronalen Netzes 20 ist in Figur 3 dargestellt. Es wird mit
Paaren von verrauschten und unverrauschten Versionen von Beispielsignalen trainiert. Ein
unverrauschtes Beispielsignal 22.1 wird der DWT 19 unterworfen und es wird ein erster
Satz 20.3 von DWT-Koeffizienten erhalten. Auch das verrauschte Beispielsignal 22.2 wird
der gleichen DWT 19 unterworfen und ein zweiter Satz 20.4 von DWT-Koeffizienten generiert,
der in das neuronale Netz 20 eingespiesen wird. Der Ausgangsvektor des neuronalen
Netzes 20, die neuen DWT-Koeffizienten 20.5, wird in einem Komparator 23 mit dem ersten
Satz 20.3 von DWT-Koeffizienten verglichen. Aufgrund der Unterschiede zwischen
diesen beiden Sätzen von DWT-Koeffizienten erfolgt eine Korrektur 24 der Koeffizienten
des neuronalen Netzes 20. Dieser Vorgang wird mit einer Vielzahl von Beispielsignal-Paaren
wiederholt, sodass die Koeffizienten des neuronalen Netzes 20 die gewünschte Funktion
immer präziser durchführen. Vorteilhafterweise werden für das Training des neuronalen
Netzes 20 Beispielsignale 22.1, 22.2 verwendet, welche menschliche Laute aus verschiedenen
Sprachen darstellen. Ebenso ist es von Vorteil, hierfür sowohl Frauen- als auch
Männer- und Kinderstimmen zu verwenden. Die erwähnte Grösse der einzeln zu verarbeitenden
Signalstücke von 20 ms bis 30 ms Dauer ist so gewählt, dass die Verarbeitung des
Sprachsignalanteils 4 unabhängig von der Sprache und des Sprechers durchgeführt werden
kann. Auch Sprechpausen und sehr ruhige Signalabschnitte werden trainiert, damit
auch diese korrekt erkannt werden.
Bei dem vorliegenden Ausführungsbeispiel wurde als neuronales Netzwerk 20 ein Mehrschicht-Perceptron
mit einer Eingangsschicht 25, einer verborgenen Schicht 26 und einer
Ausgangsschicht 27 verwendet. Trainiert wurde das Perceptron mit einem Backpropagation-Algorithmus.
Die Eingangsschicht 25 weist eine Mehrzahl von Eingangs-Neuronen
25.1, die verborgene Schicht 26 eine Mehrzahl von verborgenen Neuronen 26.1 und die
Ausgangsschicht 27 eine Mehrzahl von Ausgangs-Neuronen 27.1 auf. Jedem Eingangs-Neuron
25.1 wird jeweils einer der DWT-Koeffizienten 20.1 der vorangegangenen DWT 19
zugeführt. Nachdem die Eingangssignale das neuronale Netzwerk durchlaufen haben, wobei
die jeweiligen Werte mit den eingestellten Koeffizienten der jeweiligen Neuronen bestimmt
und die Wertekombinationen in den einzelnen Neuronen berechnet werden, liefert
jedes Ausgangs-Neuron 27.1 einen der neuen DWT-Koeffizienten 20.2. Wie bereits
erwähnt, zerlegt der Audio-Diskriminator 3 die Signalstückchen in einzelne Buffer der
Länge 20 ms. Bei einer Abtastrate von 8 kHz entspricht dies 160 Abtastwerten. Für diesen
Fall kann beispielsweise ein neuronales Netz 20 mit je 160 Eingangs- und Ausgangs-Neuronen
25.1, 27.1 sowie etwa 50 bis 60 verborgenen Neuronen 26.1 verwendet werden.
Anhand der Figur 5 soll die Interpolation eines Signalunterbruches kurz beschrieben werden.
Für die Signalrekonstruktion wird beispielsweise eine Zeit-Frequenz Interpolation angewendet.
Hierzu wird zunächst ein Kurzzeitspektrum für Signalframes mit 64 Samples
Länge (8 ms) berechnet. Dies geschieht, indem die Signalframes mit Hamming-Fenstern
bei einer Überschneidung von 50% multipliziert werden.
Das Ziel der Interpolation ist die Behandlung dieser Lücke. Zunächst wird eine Frequenz-Zeit
Transformation durchgeführt. Dies führt zu einer dreidimensionalen Signaldarstellung,
welche für jeden Punkt in der Zeit-Frequenz Ebene (x-y Ebene) das Leistungsspektrum in
Richtung der z-Achse liefert. Ein Unterbruch zu einem gegebenen Zeitpunkt t ist einfach zu
erkennen als Nullpunkte entlang der Linie x = t in der Zeit-Frequenz Ebene.
Figur 5 zeigt ein derartiges Signal 28 von etwa 200 Samples Länge. Um die Periodizität
einfacher erkennen zu können, zeigt Figur 5 das Signal 28 in der zeitlichen Domäne. Auf
der Abszissenachse 32 sind die Anzahl Samples und auf der Ordinatenachse 33 die Magnituden
aufgetragen. Die Interpolation erfolgt jedoch in der Frequenz-Zeit Domäne. In Figur 5
ist der Unterbruch 29 unschwer zu erkennen als Lücke von knapp 10 Samples Länge.
Für jeden Frequenzanteil erfolgt nun eine polynomische Interpolation sowohl für die Phase,
als auch die Magnitude, wobei diese mit minimaler Phasen- und Magnitudendiskontinuität
erfolgt. Hierfür wird zunächst wiederum die Pitch-Periode 30 des Signals 28 bestimmt. Für
die Interpolation werden Information aus den Samples vor und nach der Lücke innerhalb
dieser Pitch-Periode 30 berücksichtigt. Die Signalbereiche 31.1, 31.2 zeigen diejenigen
Bereiche des Signals 28 je eine Pitch-Periode vor bzw. hinter dem Unterbruch 29. Diese
Signalbereiche 31.1, 31.2 sind zwar nicht identisch mit dem ursprünglichen Signalstück
beim Unterbruch 29, zeigen aber dennoch ein hohes Mass an Ähnlichkeit dazu. Für kleine
Lücken bis etwa 10 Samples wird angenommen, dass noch genügend Signalinformation
vorhanden ist, um eine korrekte Interpolation durchführen zu können. Bei längeren Lücken
können zusätzliche Informationen aus Samples der Umgebung verwendet werden.
Zusammenfassend ist festzustellen, dass es die Erfindung erlaubt, die Signalqualität eines
empfangenen Audiosignals zu beurteilen, ohne das ursprüngliche Sendesignal zu kennen.
Aus der Signalqualität kann natürlich auch auf die Qualität der benutzten Übertragungskanäle
und somit auf die Service-Qualität des gesamten Telekommunikationsnetzes geschlossen
werden. Die schnellen Antwortzeiten des erfindungsgemässen Verfahrens, welche
in der Grössenordnung von etwa 100 ms bis 500 ms liegen, ermöglichen somit verschiedenen
Anwendungen wie beispielsweise generelle Vergleiche der Servicequalität verschiedener
Netze oder Teilnetze, eine qualitätsbasierte Kostenverrechnung oder ein qualitätsbasiertes
Routing in einem Netz oder über mehrere Netze hinweg mittels entsprechender
Steuerung der Netzknoten (Gateways, Router etc.).
Claims (13)
- Verfahren zur maschinengestützten Bestimmung eines Qualitätsmasses eines Audiosignals, dadurch gekennzeichnet, dass aus dem Audiosignal ein Referenzsignal ermittelt und mittels Vergleichen des Referenzsignals mit dem Audiosignal ein Qualitätswert bestimmt wird, der zur Bestimmung des Qualitätsmasses verwendet wird.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mittels Entfernen von Rauschsignalanteilen aus dem Audiosignal ein entrauschtes Audiosignal ermittelt und dieses als Referenzsignal verwendet wird.
- Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das entrauschte Audiosignal ermittelt wird, indem das Audiosignal einer diskreten Wavelet Transformation unterworfen wird, deren Koeffizienten in ein zuvor trainiertes neuronales Netz eingespiesen und dessen Ausgangssignale der inversen, diskreten Wavelet Transformation unterworfen werden.
- Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass im entrauschten Audiosignal Signalanteile mit Vokalen detektiert, daraus Informationen über Codec-bedingte Signalverzerrungen ermittelt und diese bei der Bestimmung des Qualitätsmasses berücksichtigt werden.
- Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass Signalunterbrüche im Audiosignal detektiert und das Referenzsignal ermittelt wird, indem es bei den Signalunterbrüchen zumindest teilweise rekonstruiert wird, wobei das Referenzsignal bei kurzen Signalunterbrüchen vorzugsweise mit einer polynomischen und bei mittellangen Signalunterbrüchen vorzugsweise mit einer modellbasierten Interpolation rekonstruiert wird.
- Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass bei der Bestimmung des Qualitätsmasses Informationen über die Signalunterbrüche berücksichtigt werden.
- Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass vor dem Ermitteln des Referenzsignals aus dem Audiosignal ein Sprachsignalanteil extrahiert und die Bestimmung des Qualitätsmasses auf den Sprachsignalanteil beschränkt wird.
- Vorrichtung zur maschinengestützten Bestimmung eines Qualitätsmasses eines Audiosignals, dadurch gekennzeichnet, dass sie erste Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal, zweite Mittel zur Bestimmung eines Qualitätswertes mittels Vergleichen des Referenzsignals mit dem Audiosignal sowie dritte Mittel zur Bestimmung des Qualitätsmasses unter Berücksichtigung des Qualitätswertes aufweist.
- Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass die ersten Mittel ein Rauschunterdrückungsmodul zur Unterdrückung von Rauschsignalanteilen und/oder ein Unterbruchdetektions- und interpolationsmodul zur Detektion und Interpolation von Signalunterbrüchen im Audiosignal aufweisen, und die dritten Mittel derart ausgebildet sind, dass Signalunterbrüche bei der Bestimmung des Qualitätsmasses berücksichtigt werden können.
- Vorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass sie Mittel zur Bestimmung von Codec-bedingten Signalverzerrungen aufweist, wobei diese ein Vokaldetektionsmodul zur Detektion von Vokal-Signalanteilen im Audiosignal sowie ein Bewertungsmodul zur Bestimmung der Codec-bedingten Signalverzerrungen umfassen, wobei die dritten Mittel derart ausgebildet sind, dass die Codec-bedingten Signalverzerrungen bei der Bestimmung des Qualitätsmasses berücksichtigt werden können.
- Vorrichtung nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass sie Mittel zur Extraktion eines Sprachsignalanteils aus dem Audiosignal aufweist und zur Bestimmung des Qualitätsmasses des Sprachsignalanteils ausgebildet ist.
- Rauschunterdrückungsmodul zur Verwendung in einer Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass es Mittel zur Durchführung einer diskreten Wavelet-Transformation zur Berechnung von Signalkoeffizienten eines Audiosignals, ein neuronales Netz zur Berechnung von korrigierten Signalkoeffizienten sowie Mittel zur Durchführung einer inversen Wavelet-Transformation der korrigierten Signalkoeffizienten zur Bestimmung des Audiosignals ohne Rauschsignalanteile aufweist.
- Unterbruchdetektions- und interpolationsmodul zur Verwendung in einer Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass es Mittel zur Detektion von Signalunterbrüchen in einem Audiosignal sowie Mittel zur Interpolation von Signalunterbrüchen des Audiosignals aufweist, wobei diese vorzugsweise zur polynomischen Interpolation von kurzen bzw. zur modellbasierten Interpolation von mittellangen Signalunterbrüchen ausgebildet sind.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01810285A EP1244094A1 (de) | 2001-03-20 | 2001-03-20 | Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals |
DE50202226T DE50202226D1 (de) | 2001-03-20 | 2002-03-19 | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals |
US10/101,533 US6804651B2 (en) | 2001-03-20 | 2002-03-19 | Method and device for determining a measure of quality of an audio signal |
AT02703438T ATE289109T1 (de) | 2001-03-20 | 2002-03-19 | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals |
EP02703438.8A EP1386307B2 (de) | 2001-03-20 | 2002-03-19 | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals |
PCT/CH2002/000164 WO2002075725A1 (de) | 2001-03-20 | 2002-03-19 | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01810285A EP1244094A1 (de) | 2001-03-20 | 2001-03-20 | Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals |
Publications (1)
Publication Number | Publication Date |
---|---|
EP1244094A1 true EP1244094A1 (de) | 2002-09-25 |
Family
ID=8183803
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP01810285A Withdrawn EP1244094A1 (de) | 2001-03-20 | 2001-03-20 | Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals |
EP02703438.8A Expired - Lifetime EP1386307B2 (de) | 2001-03-20 | 2002-03-19 | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP02703438.8A Expired - Lifetime EP1386307B2 (de) | 2001-03-20 | 2002-03-19 | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals |
Country Status (5)
Country | Link |
---|---|
US (1) | US6804651B2 (de) |
EP (2) | EP1244094A1 (de) |
AT (1) | ATE289109T1 (de) |
DE (1) | DE50202226D1 (de) |
WO (1) | WO2002075725A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004029421A1 (de) * | 2004-06-18 | 2006-01-05 | Rohde & Schwarz Gmbh & Co. Kg | Verfahren und Vorrichtung zur Bewertung der Güte eines Signals |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177430B2 (en) * | 2001-10-31 | 2007-02-13 | Portalplayer, Inc. | Digital entroping for digital audio reproductions |
US7746797B2 (en) * | 2002-10-09 | 2010-06-29 | Nortel Networks Limited | Non-intrusive monitoring of quality levels for voice communications over a packet-based network |
US20040167774A1 (en) * | 2002-11-27 | 2004-08-26 | University Of Florida | Audio-based method, system, and apparatus for measurement of voice quality |
GB2407952B (en) * | 2003-11-07 | 2006-11-29 | Psytechnics Ltd | Quality assessment tool |
US20050228655A1 (en) * | 2004-04-05 | 2005-10-13 | Lucent Technologies, Inc. | Real-time objective voice analyzer |
US7856355B2 (en) * | 2005-07-05 | 2010-12-21 | Alcatel-Lucent Usa Inc. | Speech quality assessment method and system |
US20070239295A1 (en) * | 2006-02-24 | 2007-10-11 | Thompson Jeffrey K | Codec conditioning system and method |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US20080244081A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Automated testing of audio and multimedia over remote desktop protocol |
US8170680B2 (en) * | 2008-03-04 | 2012-05-01 | Cardiac Pacemakers, Inc. | Implantable multi-length RF antenna |
JP4327886B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP4327888B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム |
US8655651B2 (en) | 2009-07-24 | 2014-02-18 | Telefonaktiebolaget L M Ericsson (Publ) | Method, computer, computer program and computer program product for speech quality estimation |
US20110178800A1 (en) * | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9396738B2 (en) | 2013-05-31 | 2016-07-19 | Sonus Networks, Inc. | Methods and apparatus for signal quality analysis |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
CN106816158B (zh) * | 2015-11-30 | 2020-08-07 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
WO2017127367A1 (en) * | 2016-01-19 | 2017-07-27 | Dolby Laboratories Licensing Corporation | Testing device capture performance for multiple speakers |
US10283140B1 (en) * | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
TWI708243B (zh) * | 2018-03-19 | 2020-10-21 | 中央研究院 | 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法 |
CN115798506A (zh) * | 2022-11-10 | 2023-03-14 | 维沃移动通信有限公司 | 语音处理方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0644526A1 (de) * | 1993-09-20 | 1995-03-22 | ALCATEL ITALIA S.p.A. | Geräuschverminderungsverfahren für automatische Spracherkennung und Filter für dieses Verfahren |
US5583968A (en) * | 1993-03-29 | 1996-12-10 | Alcatel N.V. | Noise reduction for speech recognition |
WO2000072453A1 (en) * | 1999-05-25 | 2000-11-30 | Algorex, Inc. | Universal quality measurement system for multimedia and other signals |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
DE3639753A1 (de) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
US5446492A (en) * | 1993-01-19 | 1995-08-29 | Wolf; Stephen | Perception-based video quality measurement system |
US6122610A (en) * | 1998-09-23 | 2000-09-19 | Verance Corporation | Noise suppression for low bitrate speech coder |
US20020054685A1 (en) * | 2000-11-09 | 2002-05-09 | Carlos Avendano | System for suppressing acoustic echoes and interferences in multi-channel audio systems |
US6937978B2 (en) * | 2001-10-30 | 2005-08-30 | Chungwa Telecom Co., Ltd. | Suppression system of background noise of speech signals and the method thereof |
-
2001
- 2001-03-20 EP EP01810285A patent/EP1244094A1/de not_active Withdrawn
-
2002
- 2002-03-19 AT AT02703438T patent/ATE289109T1/de not_active IP Right Cessation
- 2002-03-19 US US10/101,533 patent/US6804651B2/en not_active Expired - Fee Related
- 2002-03-19 WO PCT/CH2002/000164 patent/WO2002075725A1/de not_active Application Discontinuation
- 2002-03-19 EP EP02703438.8A patent/EP1386307B2/de not_active Expired - Lifetime
- 2002-03-19 DE DE50202226T patent/DE50202226D1/de not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583968A (en) * | 1993-03-29 | 1996-12-10 | Alcatel N.V. | Noise reduction for speech recognition |
EP0644526A1 (de) * | 1993-09-20 | 1995-03-22 | ALCATEL ITALIA S.p.A. | Geräuschverminderungsverfahren für automatische Spracherkennung und Filter für dieses Verfahren |
WO2000072453A1 (en) * | 1999-05-25 | 2000-11-30 | Algorex, Inc. | Universal quality measurement system for multimedia and other signals |
Non-Patent Citations (3)
Title |
---|
HAUENSTEIN M ET AL: "INSTRUMENTELLE SPRACHGUETEBEURTEILUNG", FUNKSCHAU,DE,FRANZIS-VERLAG K.G. MUNCHEN, vol. 71, no. 3, 23 January 1998 (1998-01-23), pages 61 - 64, XP000765678, ISSN: 0016-2841 * |
LIANG J ET AL: "OUTPUT-BASED OBJECTIVE SPEECH QUALITY", PROCEEDINGS OF THE VEHICULAR TECHNOLOGY CONFERENCE,US,NEW YORK, IEEE, vol. CONF. 44, 8 June 1994 (1994-06-08), pages 1719 - 1723, XP000497716, ISBN: 0-7803-1928-1 * |
SEOK JONG WON ET AL: "Speech enhancement with reduction of noise components in the wavelet domain", PROCEEDINGS OF THE 1997 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, ICASSP. PART 2 (OF 5);MUNICH, GER APR 21-24 1997, vol. 2, 1997, ICASSP IEEE Int Conf Acoust Speech Signal Process Proc;ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings; Speech Processing 1997 IEEE, Piscataway, NJ, USA, pages 1323 - 1326, XP002170620 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004029421A1 (de) * | 2004-06-18 | 2006-01-05 | Rohde & Schwarz Gmbh & Co. Kg | Verfahren und Vorrichtung zur Bewertung der Güte eines Signals |
Also Published As
Publication number | Publication date |
---|---|
EP1386307B2 (de) | 2013-04-17 |
US6804651B2 (en) | 2004-10-12 |
WO2002075725A1 (de) | 2002-09-26 |
EP1386307A1 (de) | 2004-02-04 |
DE50202226D1 (de) | 2005-03-17 |
EP1386307B1 (de) | 2005-02-09 |
US20020191798A1 (en) | 2002-12-19 |
ATE289109T1 (de) | 2005-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1386307B1 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
EP1088300B1 (de) | Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen | |
DE69614989T2 (de) | Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung | |
DE60034026T2 (de) | Sprachverbesserung mit durch sprachaktivität gesteuerte begrenzungen des gewinnfaktors | |
DE69517325T2 (de) | Tonqualitätsanalyse | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69626115T2 (de) | Signalqualitätsbewertung | |
EP1953739B1 (de) | Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
EP0938831B1 (de) | Gehörangepasste qualitätsbeurteilung von audiosignalen | |
WO2007073949A1 (de) | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen | |
DE10017646A1 (de) | Geräuschunterdrückung im Zeitbereich | |
DE60311619T2 (de) | Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte | |
EP1634277B1 (de) | Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals | |
DE4343366C2 (de) | Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen | |
EP1382034B1 (de) | Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen | |
DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
EP0916206B1 (de) | Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals | |
DE102013005844B3 (de) | Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals | |
EP0787416B1 (de) | Verfahren zur messung der erhaltung stereophoner audiosignale und verfahren zur erkennung gemeinsam codierter stereophoner audiosignale | |
DE69525508T2 (de) | System zur Schätzung der Grundfrequenz | |
DE69221985T2 (de) | Verfahren und Vorrichtung zur Glättung von Grundperiodewellenformen | |
DE4445983A1 (de) | Rauschunterdrückung | |
EP1366617B1 (de) | Verfahren und vorrichtung zur verbesserung der sprachqualität auf transparenten telekommunikations-übertragungswegen | |
DE19626329A1 (de) | Verfahren zur Analyse von Schallereignissen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
AKX | Designation fees paid | ||
REG | Reference to a national code |
Ref country code: DE Ref legal event code: 8566 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20030325 |