EP1386307A1 - Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals - Google Patents

Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals

Info

Publication number
EP1386307A1
EP1386307A1 EP02703438A EP02703438A EP1386307A1 EP 1386307 A1 EP1386307 A1 EP 1386307A1 EP 02703438 A EP02703438 A EP 02703438A EP 02703438 A EP02703438 A EP 02703438A EP 1386307 A1 EP1386307 A1 EP 1386307A1
Authority
EP
European Patent Office
Prior art keywords
signal
audio signal
interruptions
quality
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP02703438A
Other languages
English (en)
French (fr)
Other versions
EP1386307B1 (de
EP1386307B2 (de
Inventor
Pero Juric
Bendicht Thomet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Swissqual License AG
Original Assignee
SwissQual AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8183803&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=EP1386307(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by SwissQual AG filed Critical SwissQual AG
Priority to EP02703438.8A priority Critical patent/EP1386307B2/de
Publication of EP1386307A1 publication Critical patent/EP1386307A1/de
Publication of EP1386307B1 publication Critical patent/EP1386307B1/de
Application granted granted Critical
Publication of EP1386307B2 publication Critical patent/EP1386307B2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Definitions

  • the invention relates to a method for determining a quality measure of an audio signal.
  • the invention further relates to a device for carrying out this method and to a noise suppression module and an interruption detection and interpolation module for use in such a device.
  • a noise suppression module and an interruption detection and interpolation module for use in such a device.
  • the assessment of the quality of a telecommunications network is an important instrument for achieving or maintaining a desired quality of service.
  • One way to assess the service quality of a telecommunications network is to determine the quality of a signal transmitted over the telecommunications network.
  • various intrusive methods are known for this.
  • the system to be tested is intervened by occupying a transmission channel and transmitting a reference signal therein.
  • the quality assessment is then carried out by comparing the known reference signal with the received signal, for example subjectively by one or a plurality of test persons.
  • this is complex and therefore expensive.
  • EP 0 980 064 describes a further intrusive method for machine-assisted quality assessment of an audio signal, a spectral similarity value of the known source signal and of the received signal being determined to assess the transmission quality.
  • This similarity value is based on a calculation of the covariance of the spectra of the source signal and the received signal and a division of the covariance by the standard deviations of the two spectra mentioned.
  • intrusive methods generally have the disadvantage that, as already mentioned, it is necessary to intervene in the system to be tested. To determine the signal quality, at least one transmission channel must be occupied and a reference signal must be transmitted. This transmission channel cannot be used for data transmission during this time.
  • a broadcasting system such as, for example, a broadcasting service
  • Intrusive processes are also unsuitable for simultaneously monitoring the quality of a large number of transmission channels. Presentation of the invention
  • the object of the invention is to provide a method of the type mentioned above which avoids the disadvantages of the prior art and in particular offers a possibility for assessing the signal quality of a signal transmitted over a telecommunications network without knowledge of the signal originally sent.
  • a reference signal is first determined from the audio signal. By comparing the determined reference signal with the audio signal, a quality value is determined which is used to determine the quality measure.
  • the method according to the invention thus allows an assessment of the quality of an audio signal at any connection of the telecommunication network. That is, it also allows the quality assessment of many transmission channels at the same time, even a simultaneous assessment of all channels would be possible.
  • the quality assessment is carried out solely on the basis of the properties of the received signal, ie. H. without knowing the source signal or the signal source.
  • the invention thus not only enables monitoring of the transmission quality of the telecommunications network, but also, for example, quality-based cost allocation, quality-based routing in the network, a test of the coverage ratio, for example in the case of mobile radio networks, QOS (Quality of Service) control of the network nodes or a quality comparison within a network or also across networks.
  • QOS Quality of Service
  • an audio signal transmitted via a telecommunications network typically also has undesired components, such as various noise components, which were not present in the original source signal.
  • undesired components such as various noise components, which were not present in the original source signal.
  • the best possible estimate of the originally transmitted signal is necessary.
  • the reference signal is determined by estimating the interference signal components present in the received signal and then removing them from the received signal. By removing the noise components from the audio signal, a noise-free audio signal is first determined, which is preferably used as a reference signal for assessing the transmission quality.
  • the audio signal could, for example, be passed through appropriate filters.
  • a neural network is used for this.
  • the audio signal is not used directly as an input signal.
  • a discrete wavelet transformation DWT
  • This transformation provides a plurality of DWT coefficients of the audio signal, which are fed to the neural network as an input signal.
  • the neural network delivers a plurality of corrected DWT coefficients, from which the reference signal is obtained with the inverse DWT. This corresponds to the noisy version of the audio signal.
  • the coefficients of the neural network must be set in such a way that, in addition to the DWT coefficients of an input signal with noise, it supplies the DWT coefficients of the corresponding noiseless input signal.
  • the neural network In order for the neural network to deliver the desired coefficients, it must first use a Set of corresponding noisy or noisy signal pairs can be trained.
  • any other information can also be taken into account. This can be information contained in the audio signal as well as information about the transmission channel or the telecommunication network itself.
  • the quality of the received audio signal is influenced, for example, by the codecs (coder-decoder) that were passed through during the transmission. It is difficult to determine such signal degradations because, for example, if the codec bit rates are too low, part of the original signal information is lost. However, codec bit rates that are too low result in a change in the fundamental frequency (pitch) of the audio signal, which is why the course and dynamics of the fundamental frequency in the audio signal are advantageously examined. Since such changes are easiest to examine using audio signal sections with vowels, signal components in the audio signal with vowels are preferably first detected and then examined for pitch variations.
  • the received audio signal can have more or less long signal interruptions.
  • the type of interpolation of the lost signal sections depends on the length of the signal interruption. With short interruptions, i.e. H. for interruptions up to a few samples in the audio signal, a polynomial is preferred, and for medium-long interruptions, i.e. H. from a few to a few dozen samples, model-based interpolation is preferably used.
  • the received audio signal can include various types of audio signals. For example, it can contain speech, music, noise or even quiet signal components.
  • the quality assessment can of course be based on all or part of these signal components. In a preferred variant of the invention, however, the assessment of the signal quality is restricted to the speech signal components.
  • the voice signal components are therefore first extracted from the audio signal and only these voice signal components are used to determine the quality measure, ie to determine the reference signal. To determine the quality value is in In this case, the determined reference signal is of course not compared with the received audio signal, but only with the speech signal component extracted from it.
  • the device according to the invention for machine-based determination of a quality measure of an audio signal comprises first means for determining a reference signal from the audio signal, second means for determining a quality value by comparing the determined reference signal with the audio signal, and third means for determining the quality measure taking into account the quality value.
  • the first means for determining a reference signal from the audio signal can comprise several modules.
  • a noise suppression module and / or an interruption detection and interpolation module is preferably provided.
  • the noise reduction module can be used to suppress noise signal components in the received audio signal. It contains the means for performing the previously described wavelet transformations as well as the neural network for determining the new DWT coefficients.
  • the interrupt detection and interpolation module has those means which are required on the one hand for the detection of signal interruptions in the audio signal and on the other hand for the polynomial interpolation of short and for model-based interpolation of medium-long signal interruptions.
  • the reference signal determined in this way thus corresponds to a noisy version of the received audio signal and typically has only major signal interruptions.
  • the information about the signal interruptions of the audio signal is not only used to determine a better reference signal, it can also be used to determine a better quality measure.
  • the third means for determining the quality measure are therefore preferably designed such that information about signal interruptions in the audio signal can be taken into account.
  • the device therefore advantageously has fourth means for determining information about codec- induced signal distortion.
  • fourth means for determining information about codec- induced signal distortion include, for example, a vowel detection module with which signal components with vowels can be detected in the audio signal. These vowel signal components are passed on to an evaluation module, which uses these signal components to determine information about codec-related signal distortions, which are also used to assess the signal quality.
  • the third means are accordingly designed such that this information about the codec-related signal distortions can be taken into account when determining the quality measure.
  • the device therefore has, in particular, fifth means for extracting the speech signal components from the audio signal. Accordingly, to determine the reference signal, it is not the audio signal itself, but only its speech signal component that is noise-cleared and examined for interruptions. Likewise, of course, it is not the audio signal that is compared, but only its voice signal component with this reference signal. The quality measure is thus determined only on the basis of the information in the voice signal component, the information from the remaining signal components not being taken into account.
  • 1 shows a schematically represented block diagram of the method according to the invention
  • 2 shows the noise suppression module in the operating state
  • Fig. 4 shows the neural network of the noise reduction module
  • FIG 5 shows an example of an audio signal with an interruption.
  • FIG. 1 shows a block diagram of the method according to the invention.
  • a quality measure 2 is determined for an audio signal 1, which can also be used, for example, to evaluate the telecommunications network used (not shown).
  • the audio signal 1 is understood here to mean the signal that a receiver receives after transmission over the telecommunications network.
  • This audio signal 1 typically does not coincide with the signal sent by the transmitter (not shown), because on the way from the transmitter to the receiver the transmission signal is changed in a variety of ways. For example, it runs through various modules such as speech encoders and decoders, multiplexers and demultiplexers, or even speech enhancers and echo cancellers. But also the transmission channel itself can have a major influence on the signal, which can manifest itself in the form of interference, fading, transmission interruptions or interruptions, echo generation, etc.
  • the audio signal 1 thus contains not only the desired signal components, ie the original transmission signal, but also undesired interference signal components. It may also be that signal components of the transmission signal are missing, ie have been lost during the transmission. In the example shown, however, the signal quality is not assessed on the basis of the entire audio signal 1, but only on the basis of the speech component contained therein.
  • the audio signal 1 is first examined with an audio discriminator 3 for speech signal components 4. Found speech signal components 4 are forwarded for further processing, whereas other signal components such as music 5.1, pauses 5.2 or strong signal interference 5.3 can be sorted out and otherwise processed or discarded.
  • the audio signal 1 is transferred to the audio discriminator 3 piece by piece, ie to pieces a of about 100 ms to 500 ms each. This breaks these pieces further into individual buffers of approximately 20 ms in length, processes these buffers and then assigns them to one of the signal groups to be differentiated: voice signal, music, pause or strong interference.
  • the audio discriminator 3 uses, for example, an LPC (linear predictive coding) transformation to assess the signal pieces, with which the coefficients of an adaptive filter corresponding to the human speech tract are calculated.
  • LPC linear predictive coding
  • a reference signal 6, i. H. the best possible estimate of the transmission signal originally transmitted by the transmitter is determined. This reference signal estimation is carried out in several stages.
  • a noise suppression module 7 unwanted signal components such as stationary noise or impulse interference are first removed or suppressed from the speech signal component 4. This is done with the help of a neural network, which has previously been trained using a large number of noisy signals as the input and in each case the corresponding noise-free version of the input signal as the target signal.
  • the noise-free speech signal 1 1 obtained in this way is passed on to the second stage.
  • the interruption detection and interpolation module 8 interruptions in the audio signal 1 or in its speech signal component 4 are detected and, if possible, interpolated, ie the missing samples are replaced by suitably estimated values.
  • signal interruptions are detected by examining discontinuities in the fundamental signal frequency (pitch tracing).
  • the interpolation is carried out depending on the length of the interrupt detected.
  • short interruptions i.e. H.
  • Interruptions of a few samples in length are applied using polynomial interpolation such as Lagrangian, Newton, Hermite, or Cubic Spline interpolation.
  • model-based interpolations such as a maximum a posteriori, an autoregressive or a frequency-time interpolation are used. In the event of longer signal interruptions, interpolation or other signal reconstruction is generally no longer possible in a meaningful way.
  • a terminal can react differently to missing frames, for example depending on information about the transmission network.
  • lost frames are simply replaced with zeros, for example.
  • other correctly received frames are used, and in a third method, locally generated noise signals, so-called "comfort noise", are used instead of the lost frames.
  • the reference signal 6 After the determination of the reference signal 6 with the noise suppression module 7 and the interruption detection and interpolation module 8, it is compared with the speech signal component 4 with the aid of the comparison module 9.
  • An algorithm can be used for this comparison, as is used, for example, in intrusive methods for comparing the known source signal with the received signal. Suitable are, for example, psychoacoustic models that compare signals perceptually, ie perceptibly.
  • the result of this comparison is an intrusive quality value 10.
  • the input signals that is to say the speech signal component 4 and the reference signal 6 are broken down into signal pieces of approximately 20 to 30 ms in length and a partial quality value is calculated for each signal piece. After about 20 to 30 signal pieces, which corresponds to a signal duration of 0.5 seconds, the intrusive quality value 10 is determined as the arithmetic mean of these partial quality values.
  • the intrusive quality value 10 forms the output signal of the comparison module 9.
  • a speech encoder or speech decoder which the transmitted signal has passed on its way from the transmitter to the receiver, can have an influence on the audio signal 1.
  • These influences consist, for example, in that both the fundamental frequency and the frequencies of the higher harmonics of the signal vary. The lower the bit rate of the speech codecs used, the greater the frequency shifts and thus the signal distortions.
  • the evaluation module 14 divides the vowel signal 13 into signal pieces of approximately 30 ms and uses them to calculate a DFT (discrete Fourier transformation) with a frequency resolution of approximately 2 Hz at a sampling frequency of approximately 8 kHz. The fundamental frequency and the frequencies of the higher harmonics can then be determined and examined for variations. Another characteristic for evaluating the codec-related distortion is the dynamics of the signal spectrum, with a smaller dynamic range. mic means poorer signal quality.
  • the reference values for the dynamic evaluation are obtained for the individual vowels from example signals.
  • a codec quality value 15 is derived from the information about the influence of codecs on the frequency shifts and the spectrum dynamics of the audio signal 1 and the noisy speech signal 11.
  • an interruption quality value 17 is also taken into account in addition to the intrusive quality value 10 and the codec quality value 15.
  • This value contains information about the length and the number of interruptions detected by the interruption detection and interpolation module 8, only the information about the long interruptions being taken into account in a preferred exemplary embodiment of the invention.
  • further quality information 18 about the received audio signal 1 or the noisy speech signal 1 1, which are determined with other modules or examinations, can be included in the calculations of the quality measure 2.
  • the individual quality values are now scaled such that they are in the number range between 0 and 1, with a quality value of 1 denoting undiminished quality and values below 1 denoting a correspondingly reduced quality.
  • the quality measure 2 is finally calculated as a linear combination of the individual quality values, the individual weighting coefficients being determined experimentally and determined in such a way that their sum amounts to 1.
  • FIG. 2 shows the noise suppression module 7.
  • the speech signal component 4 of the audio signal 1 is first subjected to a DWT 19 (discrete wavelet transformation) known per se. worfen. Similar to DFTs, DWTs are used for signal analysis. A significant difference, however, in contrast to the temporally unlimited and therefore temporally not localized sine or cosine waveforms used in a DFT, is the use of so-called wavelets, ie temporally limited and therefore temporally localized waveforms with mean value 0.
  • the voice signal component 4 is divided into signal pieces of approximately 20 ms to 30 ms, which are each subjected to the DWT 19.
  • the result of the DWT 19 is a set of DWT coefficients 20.1, which are fed as an input vector to a neural network 20. Its coefficients have previously been trained in such a way that they deliver a new set of DWT coefficients 20.2 of the noiseless version of this signal for a given set of DWT coefficients 20.1 of a noisy signal.
  • This new set of DWT coefficients 20.2 is now the IDWT 21, i. H. subject to the DWT inverse to DWT 19. In this way, this IDWT 21 supplies a mostly noiseless version of the speech signal components 4, namely the desired, noiseless speech signal 1 1.
  • the training configuration of the neural network 20 is shown in FIG. 3. It is trained with pairs of noisy and noiseless versions of sample signals.
  • a noiseless example signal 22.1 is subjected to the DWT 19 and a first set 20.3 of DWT coefficients is obtained.
  • the noisy example signal 22.2 is also subjected to the same DWT 19 and a second set 20.4 of DWT coefficients is generated, which is fed into the neural network 20.
  • the output vector of the neural network 20, the new DWT coefficients 20.5, is compared in a comparator 23 with the first set 20.3 of DWT coefficients. Because of the differences between these two sets of DWT coefficients, the coefficients of the neural network 20 are corrected 24.
  • 20 signals 22.1, 22.2 are used for training the neural network, which represent human sounds from different languages. It is also an advantage to use women's, men's and children's voices for this.
  • the size mentioned that can be processed individually tendency signal pieces of 20 ms to 30 ms duration is chosen so that the processing of the speech signal portion 4 can be carried out independently of the language and the speaker. Even pauses in speech and very quiet signal sections are trained so that they too are recognized correctly.
  • a multilayer perceptron with an input layer 25, a hidden layer 26 and an output layer 27 was used as the neural network 20.
  • the perceptron was trained with a back propagation algorithm.
  • the input layer 25 has a plurality of input neurons 25.1, the hidden layer 26 a plurality of hidden neurons 26.1 and the output layer 27 a plurality of output neurons 27.1.
  • One of the DWT coefficients 20.1 of the previous DWT 19 is supplied to each input neuron 25.1.
  • each output neuron 27.1 supplies one of the new DWT coefficients 20.2.
  • the audio discriminator 3 breaks down the signal pieces into individual buffers with a length of 20 ms. At a sampling rate of 8 kHz, this corresponds to 160 samples.
  • a neural network 20 with 160 input and output neurons 25.1, 27.1 and approximately 50 to 60 hidden neurons 26.1 can be used.
  • time-frequency interpolation is used for signal reconstruction.
  • a short-term spectrum for signal frames with a length of 64 samples (8 ms) is first calculated. This is done by multiplying the signal frames by Hamming windows with an overlap of 50%.
  • the goal of interpolation is to treat this gap.
  • First a frequency-time transformation is carried out. This leads to a three-dimensional signal representation, which shows the power spectrum for each point in the time-frequency level (xy level) Direction of the z-axis. An interruption at a given time t can easily be recognized as zero points along the line x t in the time-frequency plane.
  • FIG. 5 shows such a signal 28 of approximately 200 samples in length.
  • FIG. 5 shows the signal 28 in the temporal domain. The number of samples is plotted on the abscissa axis 32 and the magnitudes on the ordinate axis 33. However, the interpolation takes place in the frequency-time domain. In FIG. 5, the interruption 29 can easily be recognized as a gap of just under 10 samples in length.
  • the pitch period 30 of the signal 28 is first of all determined. Information from the samples before and after the gap within this pitch period 30 is taken into account for the interpolation.
  • the signal areas 31.1, 31.2 each show those areas of the signal 28 one pitch period before or after the interruption 29. These signal areas 31.1, 31.2 are not identical to the original signal piece at the interruption 29, but nevertheless show a high degree of similarity , For small gaps up to about 10 samples, it is assumed that there is still enough signal information to be able to carry out correct interpolation. In the case of longer gaps, additional information from samples from the environment can be used.
  • the invention allows the signal quality of a received audio signal to be assessed without knowing the original transmission signal.
  • the signal quality can of course also be used to infer the quality of the transmission channels used and thus the service quality of the entire telecommunications network.
  • the fast response times of the method according to the invention which are in the order of magnitude of approximately 100 ms to 500 ms, thus enable different applications, such as general comparisons of the service quality of different networks or subnetworks, quality-based cost allocation or quality-based routing in a network or across several networks by means of appropriate control of the network nodes (gateways, routers, etc.).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Noise Elimination (AREA)
  • Testing Electric Properties And Detecting Electric Faults (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Verfahren und Vorrichtung zur Bestimmung eines Qualitatsmasses eines
Audiosignals
Technisches Gebiet
Die Erfindung betrifft ein Verfahren zur Bestimmung eines Qualitatsmasses eines Audiosignals. Weiter betrifft die Erfindung eine Vorrichtung zur Durchführung dieses Verfahrens sowie ein Rauschunterdrückungsmodul und ein Unterbruchdetektions- und interpola- tionsmodul zur Verwendung in einer derartigen Vorrichtung. Stand der Technik
Die Beurteilung der Qualität eines Telekommunikationsnetzes ist ein wichtiges Instrument zur Erreichung bzw. Erhaltung einer gewünschten Service-Qualität. Eine Möglichkeit, die Service-Qualität eines Telekommunikationsnetzes zu beurteilen besteht darin, die Qualität eines über das Telekommunikationsnetz übertragenen Signals zu bestimmen. Bei Audiosignalen, insbesondere bei Sprachsignalen sind hierfür verschiedene intrusive Verfahren bekannt. Bei derartigen Verfahren wird, wie der Name schon sagt, in das zu testende System eingegriffen, indem ein Übertragungskanal belegt und darin ein Referenzsignal übermittelt wird. Die Qualitätsbeurteilung erfolgt anschliessend durch einen Vergleich des bekannten Referenzsignals mit dem empfangenen Signal beispielsweise subjektiv durch eine oder eine Mehrzahl von Testpersonen. Dies ist jedoch aufwändig und damit teuer.
In der EP 0 980 064 ist ein weiteres intrusives Verfahren zur maschinengestützten Qualitätsbeurteilung eines Audiosignals beschrieben, wobei zur Beurteilung der Übertragungsqualität ein spektraler Ähnlichkeitswert des bekannten Quellsignals und des Empfangs- Signals bestimmt wird. Dieser Ähnlichkeitswert beruht auf einer Berechnung der Kovarianz der Spektren des Quellsignals und des Empfangssignal und einer Division der Kovarianz durch die Standardabweichungen der beiden genannten Spektren.
Intrusive Methoden haben generell jedoch den Nachteil, dass wie bereits erwähnt in das zu testende System eingegriffen werden muss. Zur Bestimmung der Signalqualität muss näm- lieh mindestens ein Übertragungskanal belegt und darin ein Referenzsignal übermittelt werden. Dieser Übertragungskanal kann während dieser Zeit nicht für eine Datenübermittlung verwendet werden. Zudem ist es bei einem Broadcastingsystem wie beispielsweise einem Rundfunkdienst prinzipiell zwar möglich, die Signalquelle zur Übermittlung von Testsignalen zu belegen, da damit aber sämtliche Kanäle besetzt und das Testsignal zu allen Empfängern übermittelt würde, ist dieses Vorgehen ausserst unpraktisch. Intrusive Verfahren sind ebenso ungeeignet, um gleichzeitig die Qualität einer Vielzahl von Übertragungskanälen zu überwachen. Darstellung der Erfindung
Aufgabe der Erfindung ist es, ein Verfahren der oben genannten Art anzugeben, welches die Nachteile des Standes der Technik vermeidet und insbesondere eine Möglichkeit bietet zur Beurteilung der Signalqualität eines über ein Telekommunikationsnetz übertragenen Signals ohne Kenntnis des ursprünglich gesendeten Signals.
Die Lösung der Aufgabe ist durch die Merkmale des Anspruchs 1 definiert. Bei dem erfin- dungsgemässen Verfahren zur maschinengestützten Bestimmung eines Qualitatsmasses eines Audiosignals wird aus dem Audiosignal zunächst ein Referenzsignal ermittelt. Mittels Vergleichen des ermittelten Referenzsignals mit dem Audiosignal wird ein Qualitätswert bestimmt, der zur Bestimmung des Qualitatsmasses verwendet wird.
Das erfindungsgemässe Verfahren erlaubt somit eine Beurteilung der Qualität eines Audiosignals an einem beliebigen Anschluss des Telekommunikationsnetzwerkes. D. h. es erlaubt damit auch die Qualitätsbeurteilung von vielen Übertragungskanälen gleichzeitig, wobei sogar eine gleichzeitige Beurteilung sämtlicher Kanäle möglich wäre. Die Qualitäts- beurteilung erfolgt hierbei allein aufgrund der Eigenschaften des empfangenen Signals, d. h. ohne Kenntnis des Quellsignals oder der Signalquelle.
Die Erfindung ermöglicht somit nicht nur eine Überwachung der Übertragungsqualität des Telekommunikationsnetzwerkes, sondern beispielsweise auch eine qualitätsbasierte Kostenverrechnung, ein qualitätsbasiertes Routing im Netz, ein Test des Deckungsgrades beispielsweise bei Mobilfunknetzen, eine QOS (Quality of Service) Steuerung der Netzknoten oder ein Qualitätsvergleich innerhalb eines Netzes oder auch netzübergreifend.
Ein über ein Telekommunikationsnetz übertragenes Audiosignal weist neben der gewünschten Signalinformation typischerweise auch unerwünschte Komponenten wie beispielsweise verschiedene Rauschanteile auf, welche im ursprünglichen Quellsignal nicht vorhanden waren. Um eine möglichst gute Qualitätsbeurteilung durchführen zu können, ist eine möglichst gute Schätzung des ursprünglich gesendeten Signals notwendig. Um dieses Referenzsignal zu rekonstruieren, gibt es verschiedene Methoden. Eine Möglichkeit besteht darin, eine Schätzung der Charakteristika des Übertragungskanals zu bestimmen und ausgehend vom empfangenen Signal quasi rückwärts zu rechnen. Eine weitere Möglichkeit besteht in einer direkten Schätzung des Referenzsignals anhand der bekannten Informationen über das Empfangssignal und den Übertragungskanal.
Bei der vorliegend angewandten Methode wird das Referenzsignal ermittelt, indem die im empfangenen Signal vorhandenen Störsignalanteile geschätzt und anschliessend aus dem empfangenen Signal entfernt werden. Indem die Rauschanteile aus dem Audiosignal entfernt werden, wird zunächst ein entrauschtes Audiosignal bestimmt, welches bevorzugt als Referenzsignal zur Beurteilung der Übertragungsqualität verwendet wird.
Es gibt verschiedene Methoden, Rauschanteile aus dem empfangenen Audiosignal zu entfernen. Das Audiosignal könnte beispielsweise über entsprechende Filter geführt werden. Bei einer bevorzugten Methode, die Rauschanteile aus dem Audiosignal zu entfernen, wird hierfür jedoch ein neuronales Netzwerk verwendet.
Das Audiosignal wird jedoch nicht direkt als Eingangssignal verwendet. Zunächst wird auf das Audiosignal eine diskrete Wavelet Transformation (DWT) angewendet. Diese Transformation liefert eine Mehrzahl von DWT-Koeffizienten des Audiosignals, welche dem neuro- nalen Netzwerk als Eingangssignal zugeführt werden. Das neuronale Netzwerk liefert am Ausgang eine Mehrzahl von korrigierten DWT-Koeffizienten, aus welchen mit der inversen DWT das Referenzsignal gewonnen wird. Dieses entspricht der entrauschten Version des Audiosignals.
Um dies zu erreichen, müssen die Koeffizienten des neuronalen Netzwerkes derart einge- stellt sein, dass dieses zu den DWT-Koeffizienten eines rausch behafteten Eingangssignals die DWT-Koeffizienten des entsprechenden entrauschten Eingangssignals liefert. Damit das neuronale Netzwerk die gewünschten Koeffizienten liefert, muss es zuvor mit einem Set von korrespondierenden rauschbehafteten bzw. entrauschten Signalpaaren trainiert werden.
Auf diese Weise lässt sich sowohl stationäres Rauschen wie beispielsweise weisses, thermisches sowie Fahrzeug- oder Strassenrauschen, als auch Impulsrauschen unterdrücken. Auch Echostörungen und Interferenzen lassen sich mit dem neuronalen Netzwerk unterdrücken bzw. beseitigen.
Bei der Bestimmung des Qualitatsmasses können neben dem Qualitätswert, der durch den Vergleich des empfangenen Audiosignals mit dem daraus ermittelten Referenzsignal ermittelt wird, auch beliebige andere Informationen berücksichtigt werden. Dies können sowohl im Audiosignal enthaltene Informationen, als auch Informationen über den Übertragungskanal oder das Telekommunikationsnetz selber sein.
Es ist von Vorteil, bei der Bestimmung des Qualitatsmasses Informationen zu verwenden, welche sich mit geeigneten Mitteln aus dem empfangenen Audiosignal selber gewinnen lassen. So wird die Qualität des empfangenen Audiosignal beispielsweise durch die bei der Übermittlung durchlaufenen Codec's (Coder - Decoder) beeinflusst. Es ist schwierig, derartige Signal-Degradationen festzustellen, denn beispielsweise bei zu kleinen Codec-Bitraten geht ein Teil der ursprünglichen Signalinformation verloren. Allerdings haben zu kleine Codec-Bitraten eine Veränderung der Grundfrequenz (Pitch) des Audiosignals zur Folge, weshalb mit Vorteil der Verlauf und die Dynamik der Grundfrequenz im Audiosignal unter- sucht wird. Da sich solche Änderungen am einfachsten anhand von Audiosignalabschnitten mit Vokalen untersuchen lassen, werden zunächst vorzugsweise Signalanteile im Audiosignal mit Vokalen detektiert und danach auf Pitch-Variationen hin untersucht.
Zurück zur Ermittlung des Referenzsignals aus dem empfangenen Audiosignal. Dieses kann nämlich nicht nur unerwünschte Signalanteile aufweisen, es können unterwegs auch teil- weise gewünschte Informationen verloren gegangen sein. So kann das empfangene Audiosignal beispielsweise mehr oder weniger lange Signalunterbrüche aufweisen. Je näher nun aber das aus dem Audiosignal generierte Referenzsignal beim ursprünglichen Quellsignal liegt, desto präziser ist die Beurteilung der Übertragungsqualität. Dies ist der Grund dafür, Signalunterbrüche durch geeignete Signale zu ersetzen. Hierfür könnten beispielsweise geeignete Rauschsignale oder auch bereits übermittelte Signalabschnitte ver- wendet werden.
Um jedoch eine möglichst genaue Schätzung des Referenzsignals zu erhalten, ist es von Vorteil, derartige Signalunterbrüche im Audiosignal zunächst zu detektieren und danach die fehlenden Signalabschnittedurch möglichst genaue, durch Interpolation erreichte Schätzungen zu ersetzen. Die Art der Interpolation der verlorengegangenen Signalab- schnitte hängt hierbei ab von der Länge des Signalunterbruches. Bei kurzen Unterbrüchen, d. h. bei Unterbrüchen bis zu einigen wenigen Abtastwerten im Audiosignal wird bevorzugt eine polynomische und bei mittellangen Unterbrüchen, d. h. von einigen wenigen bis einigen Dutzend Abtastwerten wird bevorzugt eine modellbasierte Interpolation verwendet.
Längere Signalunterbrüche, d. h. Unterbrüche ab einigen Dutzend Abtastwerten, können jedoch kaum sinnvoll rekonstruiert werden. Anstatt diese Informationen als überflüssig zu betrachten und zu verwerfen, werden sie und teilweise auch die Informationen über die kurzen und mittellangen Signalunterbrüche vorzugsweise bei der Beurteilung der Übertragungsqualität berücksichtigt. Sie fliessen bei der Bestimmung des Qualitatsmasses mit in die Berechnungen ein.
Das empfangene Audiosignal kann verschiedene Arten von Audiosignalen umfassen. So kann es beispielsweise Sprach-, Musik-, Rausch- oder auch Ruhesignalanteile beinhalten. Die Qualitätsbeurteilung kann natürlich anhand der gesamten oder anhand eines Teils dieser Signalanteile erfolgen. Bei einer bevorzugten Variante der Erfindung wird die Beurteilung der Signalqualität hingegen beschränkt auf die Sprachsignalanteile. Mit einem Audio- Diskriminator werden aus dem Audiosignal daher zunächst die Sprachsignalanteile extrahiert und nur diese Sprachsignalanteile zur Bestimmung des Qualitatsmasses, d. h. zur Ermittlung des Referenzsignals verwendet. Um den Qualitätswert zu bestimmen wird in diesem Fall das ermittelte Referenzsignal natürlich auch nicht mit dem empfangenen Audiosignal, sondern nur mit dem daraus extrahierten Sprachsignalanteil verglichen.
Die erfindungsgemässe Vorrichtung zur maschinengestützten Bestimmung eines Qualitatsmasses eines Audiosignals umfasst erste Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal, zweite Mittel zur Bestimmung eines Qualitätswertes mittels Vergleichen des ermittelten Referenzsignals mit dem Audiosignal sowie dritte Mittel zur Bestimmung des Qualitatsmasses unter Berücksichtigung des Qualitätswertes.
Die ersten Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal können mehrere Module umfassen. So ist vorzugsweise ein Rauschunterdrückungsmodul und/oder ein Unterbruchdetektions- und interpolationsmodul vorgesehen.
Mit dem Rauschunterdrückungsmodul lassen sich Rauschsignalanteile im empfangenen Audiosignal unterdrücken. Es beinhaltet die Mittel zur Durchführung der bereits beschriebenen Wavelet-Transformationen sowie das neuronale Netz zur Bestimmung der neuen DWT-Koeffizienten. Das Unterbruchdetektions- und interpolationsmodul weist diejenigen Mittel auf, welche einerseits zur Detektion von Signalunterbrüchen im Audiosignal und andererseits zur polynomischen Interpolation von kurzen sowie zur modellbasierten Interpolation von mittellangen Signalunterbrüchen benötigt werden. Das dermassen ermittelte Referenzsignal entspricht somit einer entrauschten Version des empfangenen Audiosignals und weist typischerweise nur noch grössere Signalunterbrüche auf.
Die Informationen über die Signalunterbrüche des Audiosignals werden jedoch nicht nur zur Ermittlung eines besseren Referenzsignals verwendet, sie können auch zur Bestimmung eines besseren Qualitatsmasses verwendet werden. Die dritten Mittel zur Bestimmung des Qualitatsmasses sind deshalb bevorzugt derart ausgebildet, dass Informationen über Signalunterbrüche im Audiosignal berücksichtigt werden können.
Je mehr Informationen über das Audiosignal bei der Bestimmung des Qualitatsmasses einbezogen werden, umso genauer kann die Qualitätsbeurteilung erfolgen. Die Vorrichtung weist daher mit Vorteil vierte Mittel zur Bestimmung von Informationen über Codec-be- dingte Signalverzerrungen auf. Diese umfassen beispielsweise ein Vokaldetektionsmodul, mit welchem sich im Audiosignal Signalanteile mit Vokalen detektieren lassen. Diese Vokal-Signalanteile werden an ein Bewertungsmodul weitergegeben, welches anhand dieser Signalanteile Informationen über Codec-bedingte Signalverzerrungen bestimmt, welche ebenfalls zur Beurteilung der Signalqualität verwendet werden. Die dritten Mittel sind entsprechend derart ausgebildet, dass diese Informationen über die Codec-bedingten Signalverzerrungen bei der Bestimmung des Qualitatsmasses berücksichtigt werden können.
Mit Vorteil wird jedoch nicht das gesamte Audiosignal, sondern nur dessen Sprachsignalanteile zur Qualitätsbeurteilung verwendet. Entsprechend dem bereits geschilderten Verfahren weist die Vorrichtung daher insbesondere fünfte Mittel zur Extraktion der Sprachsignalanteile aus dem Audiosignal auf. Dementsprechend wird zur Ermittlung des Referenzsignals nicht das Audiosignal selber, sondern nur dessen Sprachsignalanteil entrauscht und auf Unterbrüche hin untersucht. Ebenso wird natürlich nicht das Audiosignal, sondern nur dessen Sprachsignalanteil mit diesem Referenzsignal verglichen. Damit erfolgt die Bestimmung des Qualitatsmasses lediglich anhand der Informationen im Sprachsignalanteil, wobei die Informationen aus den restlichen Signalanteilen nicht berücksichtigt werden.
Aus der nachfolgenden Detailbeschreibung und der Gesamtheit der Patentansprüche er- geben sich weitere vorteilhafte Ausführungsformen und Merkmalskombinationen der Erfindung.
Kurze Beschreibung der Zeichnungen
Die zur Erläuterung des Ausführungsbeispiels verwendeten Zeichnungen zeigen:
Fig. 1 ein schematisch dargestelltes Blockdiagramm des erfindungsgemässen Verfahrens; Fig. 2 das Rauschunterdrückungsmodul im Betriebszustand;
Fig. 3 das Rauschunterdrückungsmodul im Trainingszustand;
Fig. 4 das neuronale Netzwerk des Rauschunterdrückungsmoduls und
Fig. 5 ein Beispiel für ein Audiosignal mit einem Unterbruch.
Grundsätzlich sind in den Figuren gleiche Teile mit gleichen Bezugszeichen versehen.
Wege zur Ausführung der Erfindung
Figur 1 zeigt ein Blockdiagramm des erfindungsgemässen Verfahrens. Hierbei wird für ein Audiosignal 1 ein Qualitätsmass 2 bestimmt, welches beispielsweise auch zur Bewertung des benutzten (nicht dargestellten) Telekommunikationsnetzes verwendet werden kann. Unter dem Audiosignal 1 wird hier dasjenige Signal verstanden, welches ein Empfänger nach der Übertragung über das Telekommunikationsnetz empfängt. Dieses Audiosignal 1 stimmt nämlich typischerweise nicht mit dem vom (nicht dargestellten) Sender gesendeten Signal überein, denn auf dem Weg vom Sender zum Empfänger wird das Sendesignal auf vielfältige Art und Weise verändert. So durchläuft es beispielsweise verschiedene Module wie Sprachcoder und -decoder, Multiplexer und Demultiplexer oder auch Sprachverbesserer und Echokompensatoren. Aber.auch der Übertragungskanal selber kann einen grossen Einfluss auf das Signal haben, welche sich beispielsweise in Form von Interferenzen, Fading, Übertragungsab- oder unterbrüchen, Echogenerierung etc. äussern.
Des Audiosignal 1 enthält somit nicht nur gewünschte Signalanteile, d. h. das ursprüngli- ehe Sendesignal, sondern auch unerwünschte Störsignalanteile. Es kann auch sein, dass Signalanteile des Sendesignals fehlen, d. h. während der Übertragung verloren gegangen sind. Bei dem dargestellten Beispiel erfolgt die Beurteilung der Signalqualität jedoch nicht anhand des gesamten Audiosignals 1, sondern lediglich anhand des darin enthaltenen Sprachanteils. Das Audiosignal 1 wird zunächst mit einem Audio-Diskriminator 3 auf Sprachsignalanteile 4 hin untersucht. Gefundene Sprachsignalanteile 4 werden zur weite- ren Verarbeitung weitergeleitet, wohingegen andere Signalanteile wie beispielsweise Musik 5.1, Pausen 5.2 oder starke Signalstörungen 5.3 aussortiert und anderweitig weiterverarbeitet oder verworfen werden können. Um diese Unterscheidung durchführen zu können, wird das Audiosignal 1 stückweise, d. h. zu Stückchen a jeweils etwa 100 ms bis 500 ms, an den Audio-Diskriminator 3 übergeben. Dieser zerlegt diese Stückchen weiter in einzelne Buffer von etwa 20 ms Länge, verarbeitet diese Buffer und ordnet sie dann jeweils einer der zu unterscheidenden Signalgruppen Sprachsignal, Musik, Pause oder starke Störung zu.
Der Audio-Diskriminator 3 verwendet zur Beurteilung der Signalstückchen beispielsweise eine LPC (linear predictive coding) Transformation, mit welcher die Koeffizienten eines dem menschlichen Sprachtrakt entsprechenden, adaptiven Filters berechnet werden. Die Zuordnung der Signalstückchen zu den verschiedenen Signalgruppen erfolgt anhand der Form der Übertragungs-Charakteristika dieses Filters.
Um die Qualität der Übertragung beurteilen zu können, wird aus diesem Sprachsignalanteil 4 nun ein Referenzsignal 6, d. h. eine möglichst gute Schätzung des vom Sender ursprüng- lieh übermittelten Sendesignals, ermittelt. Diese Referenzsignal-Schätzung erfolgt mehrstufig.
In einer ersten Stufe, einem Rauschunterdrückungsmodul 7, werden zunächst unerwünschte Signalanteile wie stationäres Rauschen oder Impulsstörungen aus dem Sprachsignalanteil 4 entfernt bzw. unterdrückt. Dies geschieht mit Hilfe eines neuronalen Netz- Werkes, welches zuvor mittels einer Vielzahl von verrauschten Signalen als Eingang und jeweils der entsprechenden rauschfreien Version des Eingangssignals als Zielsignal trainiert worden ist. Das auf diese Weise erhaltene, entrauschte Sprachignal 1 1 wird an die zweite Stufe weitergeleitet. In der zweiten Stufe, dem Unterbruchdetektions- und interpolationsmodul 8 werden Unterbrüche im Audiosignal 1 bzw. in dessen Sprachsignalanteil 4 detektiert und wenn möglich interpoliert, d. h. die fehlenden Samples werden durch geeignet geschätzte Werte ersetzt.
Im vorliegenden Beispiel erfolgt die Detektion von Signalunterbrüchen mittels einer Unter- suchung von Diskontinuitäten der Signalgrundfrequenz (pitch-tracing). Die Interpolation wird in Abhängigkeit der Länge des detektierten Unterbruches vorgenommen. Bei kurzen Unterbrüchen, d. h. Unterbrüchen von wenigen Samples Länge wird eine polynomische Interpolation wie beispielsweise ein Lagrange-, Newton-, Hermite-, oder Cubic Spline-In- terpolation angewendet. Bei mittellangen Unterbrüchen (einige wenige bis einige Dutzend Samples) werden modellbasierte Interpolationen wie beispielsweise eine Maximum a posteriori-, eine autoregressive- oder eine frequency-time-lnterpolation angewendet. Bei längeren Signalunterbrüchen ist eine Interpolation oder eine andere Signalrekonstruktion in der Regel nicht mehr auf sinnvolle Art und Weise möglich.
Das Ganze wird erschwert durch die Tatsache, dass es sowohl unterschiedliche Arten von Unterbrüchen - es ist zu unterscheiden zwischen Silben- bzw. Wortpausen und richtigen Signalunterbrüchen - als auch unterschiedliche Arten von Techniken zur Bearbeitung solcher Unterbrüche im Übertragungskanal gibt. So kann von einem Endgerät, beispielsweise in Abhängigkeit von Informationen über das Übertragungsnetz, unterschiedlich auf fehlende Frames reagiert werden. Bei einer ersten Methode werden verlorene Frames bei- spielsweise einfach durch Nullen ersetzt. Bei einer zweiten Methode werden anstelle der verlorenen Frames andere, richtig empfangene Frames eingesetzt und bei einer dritten Methode werden anstelle der verlorenen Frames lokal generierte Rauschsignale, sogenannter "comfort noise" eingesetzt.
Nach dem Ermitteln des Referenzsignals 6 mit dem Rauschunterdrückungsmodul 7 und dem Unterbruchdetektions- und interpolationsmodul 8 wird es mit Hilfe des Vergleichsmoduls 9 mit dem Sprachsignalanteil 4 verglichen. Für diesen Vergleich kann ein Algorithmus verwendet werden, wie er beispielsweise bei intrusiven Verfahren für den Vergleich des bekannten Quellsignals mit dem empfangenen Signal verwendet wird. Geeignet sind beispielsweise psychoakustische Modelle, die Signale perzeptiv, d. h. wahrnehmbar vergleichen. Das Resultat dieses Vergleichs ist ein intrusiver Qualitätswert 10. Zur Bestimmung dieses intrusiven Qualitätswertes 10 werden die Eingangssignale, also der Sprachsignalanteil 4 und das Referenzsignal 6, in Signalstücke von etwa 20 bis 30 ms Länge zerlegt und für jedes Signalstück ein Teilqualitätswert berechnet. Nach etwa 20 bis 30 Signalstücken, was etwa einer Signaldauer von 0.5 Sekunden entspricht, wird der intrusive Qualitätswert 10 als arithmethisches Mittel dieser Teilqualitätswerte ermittelt. Der intrusive Qualitätswert 10 bildet das Ausgangssignal des Vegleichsmoduls 9.
Bei der Bestimmung des Qualitatsmasses 2 können jedoch neben der Information über Störsignalanteile bzw. Signalunterbrüche auch noch andere Informationen über das Audiosignal 1 berücksichtigt werden. So kann beispielsweise ein Sprachcoder bzw. Sprachdecoder, den das gesendete Signal auf seinem Weg vom Sender zum Empfänger durchlaufen hat, einen Einfluss auf das Audiosignal 1 haben. Diese Einflüsse bestehen beispielsweise darin, dass sowohl die Grundfrequenz als auch die Frequenzen der höheren Harmonischen des Signals variieren. Je kleiner die Bitrate der verwendeten Sprachcodecs, desto grösser die Frequenzverschiebungen und damit die Signalverzerrungen.
Derartige Einflüsse lassen sich am einfachsten bei Vokalen untersuchen, weshalb das entrauschte Sprachsignal 1 1 zunächst einem Vokaldetektor 12 zugeführt wird. Dieser um- fasst beispielsweise ein neuronales Netz, das vorher für die Erkennung von bestimmten (einzelne oder alle) Vokalen trainiert worden ist. Vokalsignale 13, d. h. Signalanteile welche das neuronale Netz als Vokale erkennt, werden an ein Bewertungsmodul 14 weitergeleitet, andere Signalanteile werden verworfen.
Das Bewertungsmodul 14 teilt das Vokalsignal 13 in Signalstücke von etwa 30 ms auf und berechnet daran jeweils eine DFT (diskrete Fourier Transformation) mit einer Fre- quenzauflosung von ungefähr 2 Hz bei einer Abtastfrequenz von etwa 8 kHz. Damit lassen sich dann die Grundfrequenz sowie die Frequenzen der höheren Harmonischen bestimmen und auf Variationen hin untersuchen. Ein weiteres Merkmal zur Bewertung der Codec-bedingten Verzerrungen bildet die Dynamik des Signalspektrums, wobei eine kleinere Dyna- mik eine schlechtere Signalqualität bedeutet. Die Referenzwerte für die Dynamikbewertung werden für die einzelnen Vokale aus Beispielsignalen gewonnen. Aus den Informationen über den Einfluss von Codecs auf die Frequenzverschiebungen und die Spektrumdynamik des Audiosignals 1 bzw. des entrauschten Sprachsignals 1 1 wird ein Codec-Quali- tätswert 15 abgeleitet.
Bei der Bestimmung des Qualitatsmasses 2 durch das Auswertemodul 16 wird zusätzlich zum intrusiven Qualitätswert 10 und zum Codec-Qualitätswert 15 auch ein Unterbruchs- Qualitätswert 17 berücksichtigt. Dieser Wert beinhaltet Informationen über die Länge und die Anzahl der vom Unterbruchdetektions- und interpolationsmodul 8 festgestellten Unter- brüche, wobei bei einem bevorzugten Ausführungsbeispiel der Erfindung nur die Informationen über die langen Unterbrüche berücksichtigt werden. Zusätzlich können natürlich auch weitere Qualitäts-Informationen 18 über das empfangene Audiosignal 1 bzw. das entrauschte Sprachsignal 1 1, welche mit anderen Modulen oder Untersuchungen ermittelt werden, in die Berechnungen des Qualitatsmasses 2 einfliessen.
Die einzelnen Qualitätswerte werden nun derart skaliert, dass sie im Zahlenbereich zwischen 0 und 1 liegen, wobei ein Qualitätswert von 1 eine unverminderte Qualität und Werte unter 1 eine entsprechend verminderte Qualität bezeichnen. Das Qualitätsmass 2 wird schliesslich als Linearkombination der einzelnen Qualitätswerte berechnet, wobei die einzelnen Gewichtungskoeffizienten experimentell bestimmt und derart festgelegt werden, dass ihre Summe 1 ergibt.
Stehen weitere qualitätsrelevante Informationen über das Telekommunikationsnetz zur Verfügung oder treten neue Effekte in den Übertragungskanälen auf, ist es auf einfache Art und Weise möglich, weitere Module zur Berechnung von weiteren Qualitätswerten hinzuzufügen und bei der Bestimmung des Qualitatsmasses 2 in der beschriebenen Art und Weise zu berücksichtigen.
Im Folgenden werden anhand der Figuren 2 bis 5 einige der Module näher erläutert. Figur 2 zeigt das Rauschunterdrückungsmodul 7. Der Sprachsignalanteil 4 des Audiosignals 1 wird zunächst einer an sich bekannten DWT 19 (diskrete Wavelet Transformation) unter- worfen. DWT's werden ähnlich wie DFT's zur Signalanalyse eingesetzt. Ein wesentlicher Unterschied ist jedoch, im Gegensatz zu den bei einer DFT verwendeten, zeitlich unbegrenzten und damit zeitlich nicht lokalisierten Sinus- bzw. Kosinus-wellenformen, der Einsatz von sogenannten Wavelets, d. h. zeitlich begrenzten und damit zeitlich lokalisierten Wellenformen mit Mittelwert 0.
Der Sprachsignalanteil 4 wird in Signalstücke von etwa 20 ms bis 30 ms unterteilt, welche jeweils der DWT 19 unterworfen werden. Das Resultat der DWT 19 ist ein Satz von DWT- Koeffizienten 20.1 , welche als Eingangsvektor einem neuronalen Netz 20 eingespiesen werden. Dessen Koeffizienten wurden vorgängig so trainiert, dass sie zu einem gegebenen Satz von DWT-Koeffizienten 20.1 eines verrauschten Signals einen neuen Satz von DWT- Koeffizienten 20.2 der unverrauschten Version dieses Signals liefern. Dieser neue Satz von DWT-Koeffizienten 20.2 wird nun der IDWT 21, d. h. der zur DWT 19 inversen DWT unterworfen. Diese IDWT 21 liefert auf diese Weise eine mehrheitlich unverrauschte Version der Sprachsignalanteile 4, eben das gewünschte, entrauschte Sprachsignal 1 1.
Die Trainingskonfiguration des neuronalen Netzes 20 ist in Figur 3 dargestellt. Es wird mit Paaren von verrauschten und unverrauschten Versionen von Beispielsignalen trainiert. Ein unverrauschtes Beispielsignal 22.1 wird der DWT 19 unterworfen und es wird ein erster Satz 20.3 von DWT-Koeffizienten erhalten. Auch das verrauschte Beispielsignal 22.2 wird der gleichen DWT 19 unterworfen und ein zweiter Satz 20.4 von DWT-Koeffizienten gene- riert, der in das neuronale Netz 20 eingespiesen wird. Der Ausgangsvektor des neuronalen Netzes 20, die neuen DWT-Koeffizienten 20.5, wird in einem Komparator 23 mit dem ersten Satz 20.3 von DWT-Koeffizienten verglichen. Aufgrund der Unterschiede zwischen diesen beiden Sätzen von DWT-Koeffizienten erfolgt eine Korrektur 24 der Koeffizienten des neuronalen Netzes 20. Dieser Vorgang wird mit einer Vielzahl von Beispielsignal-Paa- ren wiederholt, sodass die Koeffizienten des neuronalen Netzes 20 die gewünschte Funktion immer präziser durchführen. Vorteilhafterweise werden für das Training des neuronalen Netzes 20 Beispielsignale 22.1, 22.2 verwendet, welche menschliche Laute aus verschiedenen Sprachen darstellen. Ebenso ist es von Vorteil, hierfür sowohl Frauen- als auch Männer- und Kinderstimmen zu verwenden. Die erwähnte Grosse der einzeln zu verarbei- tenden Signalstücke von 20 ms bis 30 ms Dauer ist so gewählt, dass die Verarbeitung des Sprachsignalanteils 4 unabhängig von der Sprache und des Sprechers durchgeführt werden kann. Auch Sprechpausen und sehr ruhige Signalabschnitte werden trainiert, damit auch diese korrekt erkannt werden.
Bei dem vorliegenden Ausführungsbeispiel wurde als neuronales Netzwerk 20 ein Mehr- schicht-Perceptron mit einer Eingangsschicht 25, einer verborgenen Schicht 26 und einer Ausgangsschicht 27 verwendet. Trainiert wurde das Perceptron mit einem Backpropaga- tion-Algorithmus. Die Eingangsschicht 25 weist eine Mehrzahl von Eingangs-Neuronen 25.1, die verborgene Schicht 26 eine Mehrzahl von verborgenen Neuronen 26.1 und die Ausgangsschicht 27 eine Mehrzahl von Ausgangs-Neuronen 27.1 auf. Jedem Eingangs- Neuron 25.1 wird jeweils einer der DWT-Koeffizienten 20.1 der vorangegangenen DWT 19 zugeführt. Nachdem die Eingangssignale das neuronale Netzwerk durchlaufen haben, wobei die jeweiligen Werte mit den eingestellten Koeffizienten der jeweiligen Neuronen bestimmt und die Wertekombinationen in den einzelnen Neuronen berechnet werden, liefert jedes Ausgangs-Neuron 27.1 einen der neuen DWT-Koeffizienten 20.2. Wie bereits erwähnt, zerlegt der Audio-Diskriminator 3 die Signalstückchen in einzelne Buffer der Länge 20 ms. Bei einer Abtastrate von 8 kHz entspricht dies 160 Abtastwerten. Für diesen Fall kann beispielsweise ein neuronales Netz 20 mit je 160 Eingangs- und Ausgangs-Neuronen 25.1, 27.1 sowie etwa 50 bis 60 verborgenen Neuronen 26.1 verwendet werden.
Anhand der Figur 5 soll die Interpolation eines Signalunterbruches kurz beschrieben werden. Für die Signalrekonstruktion wird beispielsweise eine Zeit-Frequenz Interpolation angewendet. Hierzu wird zunächst ein Kurzzeitspektrum für Signalframes mit 64 Samples Länge (8 ms) berechnet. Dies geschieht, indem die Signalframes mit Hamming-Fenstem bei einer Überschneidung von 50% multipliziert werden.
Das Ziel der Interpolation ist die Behandlung dieser Lücke. Zunächst wird eine Frequenz- Zeit Transformation durchgeführt. Dies führt zu einer dreidimensionalen Signaldarstellung, welche für jeden Punkt in der Zeit-Frequenz Ebene (x-y Ebene) das Leistungsspektrum in Richtung der z-Achse liefert. Ein Unterbruch zu einem gegebenen Zeitpunkt t ist einfach zu erkennen als Nullpunkte entlang der Linie x = t in der Zeit-Frequenz Ebene.
Figur 5 zeigt ein derartiges Signal 28 von etwa 200 Samples Länge. Um die Periodizität einfacher erkennen zu können, zeigt Figur 5 das Signal 28 in der zeitlichen Domäne. Auf der Abszissenachse 32 sind die Anzahl Samples und auf der Ordinatenachse 33 die Magni- tuden aufgetragen. Die Interpolation erfolgt jedoch in der Frequenz-Zeit Domäne. In Figur 5 ist der Unterbruch 29 unschwer zu erkennen als Lücke von knapp 10 Samples Länge.
Für jeden Frequenzanteil erfolgt nun eine polynomische Interpolation sowohl für die Phase, als auch die Magnitude, wobei diese mit minimaler Phasen- und Magnitudendiskontinuität erfolgt. Hierfür wird zunächst wiederum die Pitch-Periode 30 des Signals 28 bestimmt. Für die Interpolation werden Information aus den Samples vor und nach der Lücke innerhalb dieser Pitch-Periode 30 berücksichtigt. Die Signalbereiche 31.1, 31.2 zeigen diejenigen Bereiche des Signals 28 je eine Pitch-Periode vor bzw. hinter dem Unterbruch 29. Diese Signalbereiche 31.1, 31.2 sind zwar nicht identisch mit dem ursprünglichen Signalstück beim Unterbruch 29, zeigen aber dennoch ein hohes Mass an Ähnlichkeit dazu. Für kleine Lücken bis etwa 10 Samples wird angenommen, dass noch genügend Signalinformation vorhanden ist, um eine korrekte Interpolation durchführen zu können. Bei längeren Lücken können zusätzliche Informationen aus Samples der Umgebung verwendet werden.
Zusammenfassend ist festzustellen, dass es die Erfindung erlaubt, die Signalqualität eines empfangenen Audiosignals zu beurteilen, ohne das ursprüngliche Sendesignal zu kennen. Aus der Signalqualität kann natürlich auch auf die Qualität der benutzten Übertragungskanäle und somit auf die Service-Qualität des gesamten Telekommunikationsnetzes geschlossen werden. Die schnellen Antwortzeiten des erfindungsgemässen Verfahrens, welche in der Grössenordnung von etwa 100 ms bis 500 ms liegen, ermöglichen somit ver- schiedenen Anwendungen wie beispielsweise generelle Vergleiche der Servicequalität verschiedener Netze oder Teilnetze, eine qualitätsbasierte Kostenverrechnung oder ein quali- tätsbasiertes Routing in einem Netz oder über mehrere Netze hinweg mittels entsprechender Steuerung der Netzknoten (Gateways, Router etc.).

Claims

Patentansprüche
1. Verfahren zur maschinengestützten Bestimmung eines Qualit tsmasses eines Audiosignals, dadurch gekennzeichnet, dass aus dem Audiosignal ein Referenzsignal ermittelt und mittels Vergleichen des Referenzsignals mit dem Audiosignal ein Qualitäts- wert bestimmt wird, der zur Bestimmung des Qualitatsmasses verwendet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mittels Entfernen von Rauschsignalanteilen aus dem Audiosignal ein entrauschtes Audiosignal ermittelt und dieses als Referenzsignal verwendet wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das entrauschte Audiosi- gnal ermittelt wird, indem das Audiosignal einer diskreten Wavelet Transformation unterworfen wird, deren Koeffizienten in ein zuvor trainiertes neuronales Netz eingespiesen und dessen Ausgangssignale der inversen, diskreten Wavelet Transformation unterworfen werden.
4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass im entrauschten Audiosignal Signalanteile mit Vokalen detektiert, daraus Informationen über Codecbedingte Signalverzerrungen ermittelt und diese bei der Bestimmung des Qualitatsmasses berücksichtigt werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass Signalunterbrüche im Audiosignal detektiert und das Referenzsignal ermittelt wird, indem es bei den Signalunterbrüchen zumindest teilweise rekonstruiert wird, wobei das Referenzsignal bei kurzen Signalunterbrüchen vorzugsweise mit einer polynomischen und bei mittellangen Signalunterbrüchen vorzugsweise mit einer modellbasierten Interpolation rekonstruiert wird.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass bei der Bestimmung des Qualitatsmasses Informationen über die Signalunterbrüche berücksichtigt werden.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass vor dem Ermitteln des Referenzsignals aus dem Audiosignal ein Sprachsignalanteil extrahiert und die Bestimmung des Qualitatsmasses auf den Sprachsignalanteil beschränkt wird.
8. Vorrichtung zur maschinengestützten Bestimmung eines Qualitatsmasses eines Audiosignals, dadurch gekennzeichnet, dass sie erste Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal, zweite Mittel zur Bestimmung eines Qualitätswertes mittels Vergleichen des Referenzsignals mit dem Audiosignal sowie dritte Mittel zur
Bestimmung des Qualitatsmasses unter Berücksichtigung des Qualitätswertes aufweist.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass die ersten Mittel ein Rauschunterdrückungsmodul zur Unterdrückung von Rauschsignalanteilen und/oder ein Unterbruchdetektions- und interpolationsmodul zur Detektion und Interpolation von Signalunterbrüchen im Audiosignal aufweisen, und die dritten Mittel derart ausgebildet sind, dass Signalunterbrüche bei der Bestimmung des Qualitatsmasses berücksichtigt werden können.
10. Vorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass sie Mittel zur Bestimmung von Codec-bedingten Signalverzerrungen aufweist, wobei diese ein Vo- kaldetektionsmodul zur Detektion von Vokal-Signalanteilen im Audiosignal sowie ein Bewertungsmodul zur Bestimmung der Codec-bedingten Signalverzerrungen umfassen, wobei die dritten Mittel derart ausgebildet sind, dass die Codec-bedingten Signalverzerrungen bei der Bestimmung des Qualitatsmasses berücksichtigt werden können.
11. Vorrichtung nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass sie Mittel zur Extraktion eines Sprachsignalanteils aus dem Audiosignal aufweist und zur Bestimmung des Qualitatsmasses des Sprachsignalanteils ausgebildet ist.
12. Rauschunterdrückungsmodul zur Verwendung in einer Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass es Mittel zur Durchführung einer diskreten Wavelet-
Transformation zur Berechnung von Signalkoeffizienten eines Audiosignals, ein neuronales Netz zur Berechnung von korrigierten Signalkoeffizienten sowie Mittel zur Durchführung einer inversen Wavelet-Transformation der korrigierten Signalkoeffizienten zur Bestimmung des Audiosignals ohne Rauschsignalanteile aufweist.
13. Unterbruchdetektions- und interpolationsmodul zur Verwendung in einer Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass es Mittel zur Detektion von Signalunterbrüchen in einem Audiosignal sowie Mittel zur Interpolation von Signalunterbrüchen des Audiosignals aufweist, wobei diese vorzugsweise zur polynomischen Interpolation von kurzen bzw. zur modellbasierten Interpolation von mittellangen Si- gnalunterbrüchen ausgebildet sind.
EP02703438.8A 2001-03-20 2002-03-19 Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals Expired - Lifetime EP1386307B2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP02703438.8A EP1386307B2 (de) 2001-03-20 2002-03-19 Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP01810285A EP1244094A1 (de) 2001-03-20 2001-03-20 Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals
EP01810285 2001-03-20
EP02703438.8A EP1386307B2 (de) 2001-03-20 2002-03-19 Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
PCT/CH2002/000164 WO2002075725A1 (de) 2001-03-20 2002-03-19 Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals

Publications (3)

Publication Number Publication Date
EP1386307A1 true EP1386307A1 (de) 2004-02-04
EP1386307B1 EP1386307B1 (de) 2005-02-09
EP1386307B2 EP1386307B2 (de) 2013-04-17

Family

ID=8183803

Family Applications (2)

Application Number Title Priority Date Filing Date
EP01810285A Withdrawn EP1244094A1 (de) 2001-03-20 2001-03-20 Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals
EP02703438.8A Expired - Lifetime EP1386307B2 (de) 2001-03-20 2002-03-19 Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals

Family Applications Before (1)

Application Number Title Priority Date Filing Date
EP01810285A Withdrawn EP1244094A1 (de) 2001-03-20 2001-03-20 Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals

Country Status (5)

Country Link
US (1) US6804651B2 (de)
EP (2) EP1244094A1 (de)
AT (1) ATE289109T1 (de)
DE (1) DE50202226D1 (de)
WO (1) WO2002075725A1 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7177430B2 (en) * 2001-10-31 2007-02-13 Portalplayer, Inc. Digital entroping for digital audio reproductions
US7746797B2 (en) * 2002-10-09 2010-06-29 Nortel Networks Limited Non-intrusive monitoring of quality levels for voice communications over a packet-based network
US20040167774A1 (en) * 2002-11-27 2004-08-26 University Of Florida Audio-based method, system, and apparatus for measurement of voice quality
GB2407952B (en) * 2003-11-07 2006-11-29 Psytechnics Ltd Quality assessment tool
US20050228655A1 (en) * 2004-04-05 2005-10-13 Lucent Technologies, Inc. Real-time objective voice analyzer
DE102004029421A1 (de) * 2004-06-18 2006-01-05 Rohde & Schwarz Gmbh & Co. Kg Verfahren und Vorrichtung zur Bewertung der Güte eines Signals
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
WO2007098258A1 (en) * 2006-02-24 2007-08-30 Neural Audio Corporation Audio codec conditioning system and method
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US20080244081A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Automated testing of audio and multimedia over remote desktop protocol
AU2009220198B2 (en) * 2008-03-04 2012-11-29 Cardiac Pacemakers, Inc. Implantable multi-length RF antenna
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4327888B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
EP2457233A4 (de) * 2009-07-24 2016-11-16 Ericsson Telefon Ab L M Verfahren, computerprogramm und computerprogrammprodukt zur sprachqualitätsbeurteilung
US20110178800A1 (en) 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9396738B2 (en) 2013-05-31 2016-07-19 Sonus Networks, Inc. Methods and apparatus for signal quality analysis
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
CN106816158B (zh) * 2015-11-30 2020-08-07 华为技术有限公司 一种语音质量评估方法、装置及设备
US10490206B2 (en) * 2016-01-19 2019-11-26 Dolby Laboratories Licensing Corporation Testing device capture performance for multiple speakers
US10283140B1 (en) * 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
TWI708243B (zh) * 2018-03-19 2020-10-21 中央研究院 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法
CN115798506A (zh) * 2022-11-10 2023-03-14 维沃移动通信有限公司 语音处理方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5446492A (en) * 1993-01-19 1995-08-29 Wolf; Stephen Perception-based video quality measurement system
DE4309985A1 (de) * 1993-03-29 1994-10-06 Sel Alcatel Ag Geräuschreduktion zur Spracherkennung
IT1272653B (it) * 1993-09-20 1997-06-26 Alcatel Italia Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
KR100573398B1 (ko) * 1999-05-25 2006-04-25 내셔널 세미컨덕터 코포레이션 다매체 및 그 밖의 신호를 위한 일반 품질 측정시스템
US20020054685A1 (en) * 2000-11-09 2002-05-09 Carlos Avendano System for suppressing acoustic echoes and interferences in multi-channel audio systems
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO02075725A1 *

Also Published As

Publication number Publication date
WO2002075725A1 (de) 2002-09-26
ATE289109T1 (de) 2005-02-15
US20020191798A1 (en) 2002-12-19
EP1386307B1 (de) 2005-02-09
US6804651B2 (en) 2004-10-12
EP1386307B2 (de) 2013-04-17
EP1244094A1 (de) 2002-09-25
DE50202226D1 (de) 2005-03-17

Similar Documents

Publication Publication Date Title
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
EP1088300B1 (de) Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen
DE60034026T2 (de) Sprachverbesserung mit durch sprachaktivität gesteuerte begrenzungen des gewinnfaktors
EP1953739B1 (de) Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
EP0938831B1 (de) Gehörangepasste qualitätsbeurteilung von audiosignalen
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
WO2007073949A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE60311619T2 (de) Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
EP1634277B1 (de) Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals
DE4343366C2 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
EP3065417A1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
EP1382034B1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE3230391C2 (de)
EP0669606A2 (de) Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
DE4445983C2 (de) Verfahren zur Rauschunterdrückung und Vorrichtungen zur Durchführung der Verfahren
DE10150519B4 (de) Verfahren und Anordnung zur Sprachverarbeitung
DE102013005844B3 (de) Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
EP1366617B1 (de) Verfahren und vorrichtung zur verbesserung der sprachqualität auf transparenten telekommunikations-übertragungswegen
DE10136491B4 (de) Verfahren und Vorrichtung zur Verbesserung der Sprachqualität auf transparenten Telekommunikations-Übertragungswegen
DE19626329A1 (de) Verfahren zur Analyse von Schallereignissen

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20030821

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

RIN1 Information on inventor provided before grant (corrected)

Inventor name: THOMET, BENDICHT

Inventor name: JURIC, PERO

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050209

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050209

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050209

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050209

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

Ref country code: CH

Ref legal event code: NV

Representative=s name: KELLER & PARTNER PATENTANWAELTE AG

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: SWISSQUAL LICENSE AG

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: GERMAN

REF Corresponds to:

Ref document number: 50202226

Country of ref document: DE

Date of ref document: 20050317

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050319

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050319

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050319

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050331

NLT2 Nl: modifications (of names), taken from the european patent patent bulletin

Owner name: SWISSQUAL LICENSE AG

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050509

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050509

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050509

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050520

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20050516

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IE

Payment date: 20050628

Year of fee payment: 4

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PLBI Opposition filed

Free format text: ORIGINAL CODE: 0009260

PLAX Notice of opposition and request to file observation + time limit sent

Free format text: ORIGINAL CODE: EPIDOSNOBS2

ET Fr: translation filed
26 Opposition filed

Opponent name: ASCOM (SCHWEIZ) AG

Effective date: 20051102

REG Reference to a national code

Ref country code: CH

Ref legal event code: NV

Representative=s name: E. BLUM & CO. PATENTANWAELTE

PLAF Information modified related to communication of a notice of opposition and request to file observations + time limit

Free format text: ORIGINAL CODE: EPIDOSCOBS2

PLBB Reply of patent proprietor to notice(s) of opposition received

Free format text: ORIGINAL CODE: EPIDOSNOBS3

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: BE

Payment date: 20060929

Year of fee payment: 5

REG Reference to a national code

Ref country code: CH

Ref legal event code: PFA

Owner name: SPIRENT COMMUNICATIONS LICENSE AG

Free format text: SWISSQUAL LICENSE AG#METALLSTRASSE 9B#6300 ZUG (CH) -TRANSFER TO- SPIRENT COMMUNICATIONS LICENSE AG#METALLSTRASSE 9B#6300 ZUG (CH)

REG Reference to a national code

Ref country code: FR

Ref legal event code: CD

REG Reference to a national code

Ref country code: CH

Ref legal event code: PFA

Owner name: SPIRENT COMMUNICATIONS LICENSE AG

Free format text: SPIRENT COMMUNICATIONS LICENSE AG#METALLSTRASSE 9B#6300 ZUG (CH) -TRANSFER TO- SPIRENT COMMUNICATIONS LICENSE AG#METALLSTRASSE 9B#6300 ZUG (CH)

BERE Be: lapsed

Owner name: SWISSQUAL A.G.

Effective date: 20070331

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20070331

Ref country code: PT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050709

APBP Date of receipt of notice of appeal recorded

Free format text: ORIGINAL CODE: EPIDOSNNOA2O

APAH Appeal reference modified

Free format text: ORIGINAL CODE: EPIDOSCREFNO

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: SWISSQUAL LICENSE AG

APBQ Date of receipt of statement of grounds of appeal recorded

Free format text: ORIGINAL CODE: EPIDOSNNOA3O

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: SWISSQUAL LICENSE AG

APBU Appeal procedure closed

Free format text: ORIGINAL CODE: EPIDOSNNOA9O

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20120403

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20120328

Year of fee payment: 11

PUAH Patent maintained in amended form

Free format text: ORIGINAL CODE: 0009272

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: PATENT MAINTAINED AS AMENDED

27A Patent maintained in amended form

Effective date: 20130417

AK Designated contracting states

Kind code of ref document: B2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

REG Reference to a national code

Ref country code: DE

Ref legal event code: R102

Ref document number: 50202226

Country of ref document: DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 50202226

Country of ref document: DE

Representative=s name: GESTHUYSEN PATENT- UND RECHTSANWAELTE, DE

REG Reference to a national code

Ref country code: CH

Ref legal event code: PCOW

Free format text: NEW ADDRESS: ALLMENDWEG 8, 4528 ZUCHWIL (CH)

Ref country code: CH

Ref legal event code: AELC

Ref country code: CH

Ref legal event code: PFA

Owner name: SWISSQUAL LICENSE AG, CH

Free format text: FORMER OWNER: SPIRENT COMMUNICATIONS LICENSE AG, CH

Ref country code: CH

Ref legal event code: PCOW

Free format text: NEW ADDRESS: BAARERSTRASSE 78, 6300 ZUG (CH)

REG Reference to a national code

Ref country code: DE

Ref legal event code: R102

Ref document number: 50202226

Country of ref document: DE

Effective date: 20130417

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 50202226

Country of ref document: DE

Representative=s name: GESTHUYSEN PATENT- UND RECHTSANWAELTE, DE

Effective date: 20130423

Ref country code: DE

Ref legal event code: R081

Ref document number: 50202226

Country of ref document: DE

Owner name: SWISSQUAL LICENSE AG, CH

Free format text: FORMER OWNER: SPIRENT COMMUNICATIONS LICENSE AG, ZUG, CH

Effective date: 20130423

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20131129

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130319

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 20210218

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20210324

Year of fee payment: 20

Ref country code: DE

Payment date: 20210319

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 50202226

Country of ref document: DE

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20220318

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20220318