EP1386307B2

EP1386307B2 - Method and device for determining a quality measure for an audio signal

Info

Publication number: EP1386307B2
Application number: EP02703438.8A
Authority: EP
Inventors: Pero Juric; Bendicht Thomet
Original assignee: Swissqual License AG
Current assignee: Swissqual License AG
Priority date: 2001-03-20
Filing date: 2002-03-19
Publication date: 2013-04-17
Anticipated expiration: 2022-03-19
Also published as: EP1386307B1; US20020191798A1; WO2002075725A1; ATE289109T1; EP1386307A1; EP1244094A1; US6804651B2; DE50202226D1

Abstract

The invention relates to a method for determining a quality measure (2) for an audio signal (1), whereby the speech signal component (4) is first extracted from the audio signal (1). A reference signal (6) is then generated using said signal, by means of noise suppression (7) and interrupt interpolation (8). The above is compared with the speech signal (4) and an intrusive quality value (10) thus determined. A further quality value (15) is determined, by determining and evaluating Codec-related signal distortions in the speech signal (4). A further quality value (17) is generated from information on the detected signal interruptions (8). The quality measure (2) is finally determined as a linear combination (16) of the various quality values (10, 15, 17, 18).

Description

Technisches GebietTechnical area

Die Erfindung betrifft ein Verfahren zur Bestimmung eines Qualitätsmasses eines Audiosignals. Weiter betrifft die Erfindung eine Vorrichtung zur Durchführung dieses Verfahrens sowie ein Rauschunterdrückungsmodul und ein Unterbruchdetektions- und interpolationsmodul zur Verwendung in einer derartigen Vorrichtung.The invention relates to a method for determining a quality measure of an audio signal. Furthermore, the invention relates to an apparatus for carrying out this method as well as a noise suppression module and an interruption detection and interpolation module for use in such a device.

Stand der TechnikState of the art

Die Beurteilung der Qualität eines Telekommunikationsnetzes ist ein wichtiges Instrument zur Erreichung bzw. Erhaltung einer gewünschten Service-Qualität. Eine Möglichkeit, die Service-Qualität eines Telekommunikationsnetzes zu beurteilen besteht darin, die Qualität eines über das Telekommunikationsnetz übertragenen Signals zu bestimmen. Bei Audiosignalen, insbesondere bei Sprachsignalen sind hierfür verschiedene intrusive Verfahren bekannt. Bei derartigen Verfahren wird, wie der Name schon sagt, in das zu testende System eingegriffen, indem ein Übertragungskanal belegt und darin ein Referenzsignal übermittelt wird. Die Qualitätsbeurteilung erfolgt anschliessend durch einen Vergleich des bekannten Referenzsignals mit dem empfangenen Signal beispielsweise subjektiv durch eine oder eine Mehrzahl von Testpersonen. Dies ist jedoch aufwändig und damit teuer.The assessment of the quality of a telecommunications network is an important tool for achieving or maintaining a desired service quality. One way to assess the quality of service of a telecommunications network is to determine the quality of a signal transmitted over the telecommunications network. In the case of audio signals, in particular speech signals, various intrusive methods are known for this purpose. In such methods, as the name suggests, the system to be tested intervenes by occupying a transmission channel and transmitting a reference signal therein. The quality assessment is then carried out by comparing the known reference signal with the received signal, for example subjectively by one or a plurality of test persons. However, this is expensive and therefore expensive.

In der EP 0 980 064 ist ein weiteres intrusives Verfahren zur maschinengestützten Qualitätsbeurteilung eines Audiosignals beschrieben, wobei zur Beurteilung der Übertragungsqualität ein spektraler Ähnlichkeitswert des bekannten Quellsignals und des Empfangssignals bestimmt wird. Dieser Ähnlichkeitswert beruht auf einer Berechnung der Kovarianz der Spektren des Quellsignals und des Empfangssignal und einer Division der Kovarianz durch die Standardabweichungen der beiden genannten Spektren.In the EP 0 980 064 A further intrusive method for the machine-aided quality assessment of an audio signal is described, wherein a spectral similarity value of the known source signal and the received signal is determined in order to evaluate the transmission quality. This similarity value is based on a calculation of the covariance of the spectra of the source signal and the received signal and a division of the covariance by the standard deviations of the two spectra mentioned.

Intrusive Methoden haben generell jedoch den Nachteil, dass wie bereits erwähnt in das zu testende System eingegriffen werden muss. Zur Bestimmung der Signalqualität muss nämlich mindestens ein Übertragungskanal belegt und darin ein Referenzsignal übermittelt werden. Dieser Übertragungskanal kann während dieser Zeit nicht für eine Datenübermittlung verwendet werden. Zudem ist es bei einem Broadcastingsystem wie beispielsweise einem Rundfunkdienst prinzipiell zwar möglich, die Signalquelle zur Übermittlung von Testsignalen zu belegen, da damit aber sämtliche Kanäle besetzt und das Testsignal zu allen Empfängern übermittelt würde, ist dieses Vorgehen äusserst unpraktisch. Intrusive Verfahren sind ebenso ungeeignet, um gleichzeitig die Qualität einer Vielzahl von Übertragungskanälen zu überwachen.However, intrusive methods generally have the disadvantage that, as already mentioned, the system to be tested must be intervened. In order to determine the signal quality, at least one transmission channel must be occupied and a reference signal transmitted therein. This transmission channel can not be used for data transmission during this time. In addition, while it is in principle possible for a broadcasting system such as a broadcasting service to occupy the signal source for the transmission of test signals, as this would occupy all channels and the test signal would be transmitted to all receivers, this approach is extremely impractical. Intrusive techniques are also unsuitable for simultaneously monitoring the quality of a variety of transmission channels.

EP-A-644 526 offenbart ein nicht-intrusives Verfahren zur Geräuschreduktion, welches zur Berechnung der gewünschten Signalinformation eine Schätzung der Rauschenergie verwendet. US-A-5 848 384 zeigt ein Verfahren und eine Vorrichtung zur Bestimmung der Qualität eines Audiosignals. EP-A-644 526 discloses a non-intrusive noise reduction method which uses an estimate of noise energy to calculate the desired signal information. US-A-5,848,384 shows a method and apparatus for determining the quality of an audio signal.

Darstellung der ErfindungPresentation of the invention

Aufgabe der Erfindung ist es, ein Verfahren der oben genannten Art anzugeben, welches die Nachteile des Standes der Technik vermeidet und insbesondere eine Möglichkeit bietet zur Beurteilung der Signalqualität eines über ein Telekommunikationsnetz übertragenen Signals ohne Kenntnis des ursprünglich gesendeten Signals.The object of the invention is to specify a method of the abovementioned type, which avoids the disadvantages of the prior art and, in particular, offers a possibility for assessing the signal quality of a signal transmitted via a telecommunication network without knowledge of the originally transmitted signal.

Die Lösung der Aufgabe ist durch die Merkmale des Verfahrensanspruchs 1 und des Vorrichtungsanspruchs definiert. Bei dem erfindungsgemässen Verfahren zur maschinengestützten Bestimmung eines Qualitätsmasses eines Audiosignals wird aus dem Audiosignal zunächst ein Referenzsignal ermittelt. Mittels Vergleichen des ermittelten Referenzsignals mit dem Audiosignal wird ein Qualitätswert bestimmt, der zur Bestimmung des Qualitätsmasses verwendet wird.The solution of the problem is defined by the features of method claim 1 and the device claim. In the method according to the invention for machine-aided determination of a quality measure of an audio signal, a reference signal is first determined from the audio signal. By means of comparing the determined reference signal with the audio signal, a quality value is determined which is used to determine the quality measure.

Das erfindungsgemässe Verfahren erlaubt somit eine Beurteilung der Qualität eines Audiosignals an einem beliebigen Anschluss des Telekommunikationsnetzwerkes. D. h. es erlaubt damit auch die Qualitätsbeurteilung von vielen Übertragungskanälen gleichzeitig, wobei sogar eine gleichzeitige Beurteilung sämtlicher Kanäle möglich wäre. Die Qualitätsbeurteilung erfolgt hierbei allein aufgrund der Eigenschaften des empfangenen Signals, d. h. ohne Kenntnis des Quellsignals oder der Signalquelle.The inventive method thus allows an assessment of the quality of an audio signal at any terminal of the telecommunications network. Ie. it also allows the quality assessment of many transmission channels simultaneously, even allowing simultaneous evaluation of all channels. The quality assessment is carried out solely on the basis of the properties of the received signal, d. H. without knowledge of the source signal or the signal source.

Die Erfindung ermöglicht somit nicht nur eine Überwachung der Übertragungsqualität des Telekommunikationsnetzwerkes, sondern beispielsweise auch eine qualitätsbasierte Kostenverrechnung, ein qualitätsbasiertes Routing im Netz, ein Test des Deckungsgrades beispielsweise bei Mobilfunknetzen, eine QOS (Quality of Service) Steuerung der Netzknoten oder ein Qualitätsvergleich innerhalb eines Netzes oder auch netzübergreifend.The invention thus enables not only a monitoring of the transmission quality of the telecommunications network, but also, for example, a quality-based cost accounting, quality-based routing in the network, a test of the degree of coverage, for example in mobile networks, a QOS (Quality of Service) control of network nodes or a quality comparison within a network or across networks.

Ein über ein Telekommunikationsnetz übertragenes Audiosignal weist neben der gewünschten Signalinformation typischerweise auch unerwünschte Komponenten wie beispielsweise verschiedene Rauschanteile auf, welche im ursprünglichen Quellsignal nicht vorhanden waren.An audio signal transmitted via a telecommunication network typically has, in addition to the desired signal information, also undesired components, such as various noise components, which were not present in the original source signal.

Um eine möglichst gute Qualitätsbeurteilung durchführen zu können, ist eine möglichst gute Schätzung des ursprünglich gesendeten Signals notwendig. Um dieses Referenzsignal zu rekonstruieren, gibt es verschiedene Methoden. Eine Möglichkeit besteht darin, eine Schätzung der Charakteristika des Übertragungskanals zu bestimmen und ausgehend vom empfangenen Signal quasi rückwärts zu rechnen. Eine weitere Möglichkeit besteht in einer direkten Schätzung des Referenzsignals anhand der bekannten Informationen über das Empfangssignal und den Übertragungskanal.In order to be able to carry out a quality assessment that is as good as possible, the best possible estimate of the originally transmitted signal is necessary. To reconstruct this reference signal, there are several methods. One possibility is to determine an estimate of the characteristics of the transmission channel and quasi backwards from the received signal. Another possibility is a direct estimation of the reference signal based on the known information about the received signal and the transmission channel.

Bei der vorliegend angewandten Methode wird das Referenzsignal ermittelt, indem die im empfangenen Signal vorhandenen Störsignalanteile geschätzt und anschliessend aus dem empfangenen Signal entfernt werden. Indem die Rauschanteile aus dem Audiosignal entfernt werden, wird zunächst ein entrauschtes Audiosignal bestimmt, welches bevorzugt als Referenzsignal zur Beurteilung der Übertragungsqualität verwendet wird.In the presently applied method, the reference signal is determined by estimating the noise components present in the received signal and then removing them from the received signal. By removing the noise components from the audio signal, a denoised audio signal is first determined, which is preferably used as a reference signal for assessing the transmission quality.

Es gibt verschiedene Methoden, Rauschanteile aus dem empfangenen Audiosignal zu entfernen. Das Audiosignal könnte beispielsweise über entsprechende Filter geführt werden. Bei einer bevorzugten Methode, die Rauschanteile aus dem Audiosignal zu entfemen, wird hierfür jedoch ein neuronales Netzwerk verwendet.There are several ways to remove noise from the received audio signal. The audio signal could, for example, be passed through appropriate filters. However, a preferred method of removing the noise from the audio signal uses a neural network.

Das Audiosignal wird jedoch nicht direkt als Eingangssignal verwendet. Zunächst wird auf das Audiosignal eine diskrete Wavelet Transformation (DWT) angewendet. Diese Transformation liefert eine Mehrzahl von DWT-Koeffizienten des Audiosignals, welche dem neuronalen Netzwerk als Eingangssignal zugeführt werden. Das neuronale Netzwerk liefert am Ausgang eine Mehrzahl von korrigierten DWT-Koeffizienten, aus welchen mit der inversen DWT das Referenzsignal gewonnen wird. Dieses entspricht der entrauschten Version des Audiosignals.However, the audio signal is not used directly as an input signal. First, a discrete wavelet transform (DWT) is applied to the audio signal. This transformation provides a plurality of DWT coefficients of the audio signal which are fed to the neural network as an input. The neural network provides at the output a plurality of corrected DWT coefficients, from which the reference signal is obtained with the inverse DWT. This corresponds to the noisy version of the audio signal.

Um dies zu erreichen, müssen die Koeffizienten des neuronalen Netzwerkes derart eingestellt sein, dass dieses zu den DWT-Koeffizienten eines rauschbehafteten Eingangssignals die DWT-Koeffizienten des entsprechenden entrauschten Eingangssignals liefert. Damit das neuronale Netzwerk die gewünschten Koeffizienten liefert, muss es zuvor mit einem Set von korrespondierenden rauschbehafteten bzw. entrauschten Signalpaaren trainiert werden.To accomplish this, the coefficients of the neural network must be set to provide the DWT coefficients of a noisy input signal the DWT coefficients of the corresponding noisy input signal. For the neural network to provide the desired coefficients, it must first be trained with a set of corresponding noisy or noisy signal pairs.

Auf diese Weise lässt sich sowohl stationäres Rauschen wie beispielsweise weisses, thermisches sowie Fahrzeug- oder Strassenrauschen, als auch Impulsrauschen unterdrücken. Auch Echostörungen und Interferenzen lassen sich mit dem neuronalen Netzwerk unterdrücken bzw. beseitigen.In this way, both stationary noise such as white, thermal and vehicle or road noise, and impulse noise can be suppressed. Even echo interference and interference can be suppressed or eliminated with the neural network.

Bei der Bestimmung des Qualitätsmasses können neben dem Qualitätswert, der durch den Vergleich des empfangenen Audiosignals mit dem daraus ermittelten Referenzsignal ermittelt wird, auch beliebige andere Informationen berücksichtigt werden. Dies können sowohl im Audiosignal enthaltene Informationen, als auch Informationen über den Übertragungskanal oder das Telekommunikationsnetz selber sein.In determining the quality measure, any other information besides the quality value, which is determined by the comparison of the received audio signal with the reference signal determined therefrom, can also be taken into account. This may be information contained in the audio signal as well as information about the transmission channel or the telecommunication network itself.

Es ist von Vorteil, bei der Bestimmung des Qualitätsmasses Informationen zu verwenden, welche sich mit geeigneten Mitteln aus dem empfangenen Audiosignal selber gewinnen lassen. So wird die Qualität des empfangenen Audiosignal beispielsweise durch die bei der Übermittlung durchlaufenen Codec's (Coder - Decoder) beeinflusst. Es ist schwierig, derartige Signal-Degradationen festzustellen, denn beispielsweise bei zu kleinen Codec-Bitraten geht ein Teil der ursprünglichen Signalinformation verloren. Allerdings haben zu kleine Codec-Bitraten eine Veränderung der Grundfrequenz (Pitch) des Audiosignals zur Folge, weshalb mit Vorteil der Verlauf und die Dynamik der Grundfrequenz im Audiosignal untersucht wird. Da sich solche Änderungen am einfachsten anhand von Audiosignalabschnitten mit Vokalen untersuchen lassen, werden zunächst vorzugsweise Signalanteile im Audiosignal mit Vokalen detektiert und danach auf Pitch-Variationen hin untersucht.It is advantageous in the determination of the quality measure to use information which can be obtained by suitable means from the received audio signal itself. Thus, the quality of the received audio signal is influenced, for example, by the codecs (coder-decoder) passed through during the transmission. It is difficult to detect such signal degradation because, for example, if the codec bit rates are too small, some of the original signal information is lost. However, too small codec bit rates result in a change in the fundamental frequency (pitch) of the audio signal, which is why it is advantageous to examine the course and dynamics of the fundamental frequency in the audio signal. Since such changes can be most easily examined on the basis of audio signal sections with vowels, signal components in the audio signal with vowels are preferably first detected and then examined for pitch variations.

Zurück zur Ermittlung des Referenzsignals aus dem empfangenen Audiosignal. Dieses kann nämlich nicht nur unerwünschte Signalanteile aufweisen, es können unterwegs auch teilweise gewünschte Informationen verloren gegangen sein. So kann das empfangene Audiosignal beispielsweise mehr oder weniger lange Signalunterbrüche aufweisen.Back to the determination of the reference signal from the received audio signal. This can namely not only have unwanted signal components, it can also be gone partially desired information has lost. For example, the received audio signal may have more or less long signal interruptions.

Je näher nun aber das aus dem Audiosignal generierte Referenzsignal beim ursprünglichen Quellsignal liegt, desto präziser ist die Beurteilung der Übertragungsqualität. Dies ist der Grund dafür, Signalunterbrüche durch geeignete Signale zu ersetzen. Hierfür könnten beispielsweise geeignete Rauschsignale oder auch bereits übermittelte Signalabschnitte verwendet werden.However, the closer the reference signal generated from the audio signal is to the original source signal, the more accurate is the assessment of the transmission quality. This is the reason for replacing signal interruptions with suitable signals. For this purpose, for example, suitable noise signals or already transmitted signal sections could be used.

Um jedoch eine möglichst genaue Schätzung des Referenzsignals zu erhalten, ist es von Vorteil, derartige Signalunterbrüche im Audiosignal zunächst zu detektieren und danach die fehlenden Signalabschnittedurch möglichst genaue, durch Interpolation erreichte Schätzungen zu ersetzen. Die Art der Interpolation der verlorengegangenen Signalabschnitte hängt hierbei ab von der Länge des Signalunterbruches. Bei kurzen Unterbrüchen, d. h. bei Unterbrüchen bis zu einigen wenigen Abtastwerten im Audiosignal wird bevorzugt eine polynomische und bei mittellangen Unterbrüchen, d. h. von einigen wenigen bis einigen Dutzend Abtastwerten wird bevorzugt eine modellbasierte Interpolation verwendet.However, in order to obtain as accurate an estimate of the reference signal as possible, it is advantageous to first detect such signal discontinuities in the audio signal and then to replace the missing signal sections with the most accurate estimates achieved by interpolation. The type of interpolation of the lost signal sections depends on the length of the signal interruption. For short breaks, d. H. with interruptions up to a few samples in the audio signal is preferably a polynomial and medium-length interruptions, d. H. from a few to a few dozen samples, model-based interpolation is preferred.

Längere Signalunterbrüche, d. h. Unterbrüche ab einigen Dutzend Abtastwerten, können jedoch kaum sinnvoll rekonstruiert werden. Anstatt diese Informationen als überflüssig zu betrachten und zu verwerfen, werden sie und teilweise auch die Informationen über die kurzen und mittellangen Signalunterbrüche vorzugsweise bei der Beurteilung der Übertragungsqualität berücksichtigt. Sie fliessen bei der Bestimmung des Qualitätsmasses mit in die Berechnungen ein.Longer signal interruptions, d. H. Interruptions from a few tens of samples, however, can hardly be reasonably reconstructed. Instead of considering this information as redundant and discarding it, and in some cases also the information about the short and medium signal interruptions, are taken into account, preferably in the assessment of the transmission quality. They are included in the calculations when determining the quality measure.

Das empfangene Audiosignal kann verschiedene Arten von Audiosignalen umfassen. So kann es beispielsweise Sprach-, Musik-, Rausch- oder auch Ruhesignalanteile beinhalten. Die Qualitätsbeurteilung kann natürlich anhand der gesamten oder anhand eines Teils dieser Signalanteile erfolgen. Bei einer bevorzugten Variante der Erfindung wird die Beurteilung der Signalqualität hingegen beschränkt auf die Sprachsignalanteile. Mit einem Audio-Diskriminator werden aus dem Audiosignal daher zunächst die Sprachsignalanteile extrahiert und nur diese Sprachsignalanteile zur Bestimmung des Qualitätsmasses, d. h. zur Ermittlung des Referenzsignals verwendet. Um den Qualitätswert zu bestimmen wird in diesem Fall das ermittelte Referenzsignal natürlich auch nicht mit dem empfangenen Audiosignal, sondern nur mit dem daraus extrahierten Sprachsignalanteil verglichen.The received audio signal may include various types of audio signals. For example, it can contain voice, music, noise or silence signals. Of course, the quality assessment may be based on all or part of these signal components. In a preferred variant of the invention, however, the assessment of the signal quality is limited to the speech signal components. With an audio discriminator, therefore, the audio signal components first become from the audio signal extracted and only these speech signal components for determining the quality measure, ie used to determine the reference signal. In this case, to determine the quality value, the determined reference signal is, of course, not compared with the received audio signal, but only with the speech signal component extracted therefrom.

Die erfindungsgemässe Vorrichtung zur maschinengestützten Bestimmung eines Qualitätsmasses eines Audiosignals umfasst erste Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal, zweite Mittel zur Bestimmung eines Qualitätswertes mittels Vergleichen des ermittelten Referenzsignals mit dem Audiosignal sowie dritte Mittel zur Bestimmung des Qualitätsmasses unter Berücksichtigung des Qualitätswertes.The inventive device for machine-aided determination of a quality measure of an audio signal comprises first means for determining a reference signal from the audio signal, second means for determining a quality value by comparing the determined reference signal with the audio signal and third means for determining the quality measure taking into account the quality value.

Die ersten Mittel zur Bestimmung eines Referenzsignals aus dem Audiosignal können mehrere Module umfassen. So ist vorzugsweise ein Rauschunterdrückungsmodul und/oder ein Unterbruchdetektions- und interpolationsmodul vorgesehen.The first means for determining a reference signal from the audio signal may comprise a plurality of modules. Thus, a noise suppression module and / or an interruption detection and interpolation module is preferably provided.

Mit dem Rauschunterdrückungsmodul lassen sich Rauschsignalanteile im empfangenen Audiosignal unterdrücken. Es beinhaltet die Mittel zur Durchführung der bereits beschriebenen Wavelet-Transformationen sowie das neuronale Netz zur Bestimmung der neuen DWT-Koeffizienten. Das Unterbruchdetektions- und interpolationsmodul weist diejenigen Mittel auf, welche einerseits zur Detektion von Signalunterbrüchen im Audiosignal und andererseits zur polynomischen Interpolation von kurzen sowie zur modellbasierten Interpolation von mittellangen Signalunterbrüchen benötigt werden. Das dermassen ermittelte Referenzsignal entspricht somit einer entrauschten Version des empfangenen Audiosignals und weist typischerweise nur noch grössere Signalunterbrüche auf.The noise suppression module suppresses noise signal components in the received audio signal. It includes the means for performing the wavelet transforms described above as well as the neural network for determining the new DWT coefficients. The interrupt detection and interpolation module has those means which are required on the one hand for detecting signal interruptions in the audio signal and on the other hand for polynomial interpolation of short as well as model-based interpolation of medium-length signal interruptions. The thus determined reference signal thus corresponds to a noisy version of the received audio signal and typically has only greater signal interruptions.

Die Informationen über die Signalunterbrüche des Audiosignals werden jedoch nicht nur zur Ermittlung eines besseren Referenzsignals verwendet, sie können auch zur Bestimmung eines besseren Qualitätsmasses verwendet werden. Die dritten Mittel zur Bestimmung des Qualitätsmasses sind deshalb bevorzugt derart ausgebildet, dass Informationen über Signalunterbrüche im Audiosignal berücksichtigt werden können.However, the information about the signal discontinuities of the audio signal is not only used to obtain a better reference signal, it can also be used to determine a better quality measure. The third means for determining the quality measure are therefore preferably designed such that information about signal interruptions in the audio signal can be taken into account.

Je mehr Informationen über das Audiosignal bei der Bestimmung des Qualitätsmasses einbezogen werden, umso genauer kann die Qualitätsbeurteilung erfolgen. Die Vorrichtung weist daher mit Vorteil vierte Mittel zur Bestimmung von Informationen über Codec-bedingte Signalverzerrungen auf. Diese umfassen beispielsweise ein Vokaldetektionsmodul, mit welchem sich im Audiosignal Signalanteile mit Vokalen detektieren lassen. Diese Vokal-Signalanteile werden an ein Bewertungsmodul weitergegeben, welches anhand dieser Signalanteile Informationen über Codec-bedingte Signalverzerrungen bestimmt, welche ebenfalls zur Beurteilung der Signalqualität verwendet werden. Die dritten Mittel sind entsprechend derart ausgebildet, dass diese Informationen über die Codec-bedingten Signalverzerrungen bei der Bestimmung des Qualitätsmasses berücksichtigt werden können.The more information about the audio signal is included in the determination of the quality measure, the more accurate the quality assessment can be. The device therefore advantageously has fourth means for determining information about codec-related signal distortions. These include, for example, a vocal detection module with which signal components with vowels can be detected in the audio signal. These vocal signal components are passed on to an evaluation module, which uses these signal components to determine information about codec-related signal distortions, which are also used to assess the signal quality. The third means are correspondingly designed such that this information about the codec-related signal distortions can be taken into account in the determination of the quality measure.

Mit Vorteil wird jedoch nicht das gesamte Audiosignal, sondern nur dessen Sprachsignalanteile zur Qualitätsbeurteilung verwendet. Entsprechend dem bereits geschilderten Verfahren weist die Vorrichtung daher insbesondere fünfte Mittel zur Extraktion der Sprachsignalanteile aus dem Audiosignal auf. Dementsprechend wird zur Ermittlung des Referenzsignals nicht das Audiosignal selber, sondern nur dessen Sprachsignalanteil entrauscht und auf Unterbrüche hin untersucht. Ebenso wird natürlich nicht das Audiosignal, sondern nur dessen Sprachsignalanteil mit diesem Referenzsignal verglichen. Damit erfolgt die Bestimmung des Qualitätsmasses lediglich anhand der Informationen im Sprachsignalanteil, wobei die Informationen aus den restlichen Signalanteilen nicht berücksichtigt werden.Advantageously, however, not the entire audio signal but only its voice signal components are used for quality assessment. According to the method already described, the device therefore has, in particular, fifth means for extracting the speech signal components from the audio signal. Accordingly, not the audio signal itself, but only its voice signal component is denoudized and examined for interruptions in order to determine the reference signal. Likewise, of course, not the audio signal, but only the voice signal component is compared with this reference signal. Thus, the determination of the quality measure takes place only on the basis of the information in the speech signal component, wherein the information from the remaining signal components is not taken into account.

Aus der nachfolgenden Detailbeschreibung und der Gesamtheit der Patentansprüche ergeben sich weitere vorteilhafte Ausführungsformen und Merkmalskombinationen der Erfindung.From the following detailed description and the totality of the claims, further advantageous embodiments and feature combinations of the invention result.

Kurze Beschreibung der ZeichnungenBrief description of the drawings

Die zur Erläuterung des Ausführungsbeispiels verwendeten Zeichnungen zeigen:

Fig. 1: ein schematisch dargestelltes Blockdiagramm des erfindungsgemässen Verfahrens;
Fig. 2: das Rauschunterdrückungsmodul im Betriebszustand;
Fig. 3: das Rauschunterdrückungsmodul im Trainingszustand;
Fig. 4: das neuronale Netzwerk des Rauschunterdrückungsmoduls und
Fig. 5: ein Beispiel für ein Audiosignal mit einem Unterbruch.

The drawings used to explain the embodiment show:

Fig. 1: a schematically illustrated block diagram of the inventive method;
Fig. 2: the noise suppression module in the operating state;
Fig. 3: the noise suppression module in the training state;
Fig. 4: the neural network of the noise suppression module and
Fig. 5: an example of an audio signal with an interruption.

Grundsätzlich sind in den Figuren gleiche Teile mit gleichen Bezugszeichen versehen.Basically, the same parts are provided with the same reference numerals in the figures.

Wege zur Ausführung der ErfindungWays to carry out the invention

Figur 1 zeigt ein Blockdiagramm des erfindungsgemässen Verfahrens. Hierbei wird für ein Audiosignal 1 ein Qualitätsmass 2 bestimmt, welches beispielsweise auch zur Bewertung des benutzten (nicht dargestellten) Telekommunikationsnetzes verwendet werden kann. Unter dem Audiosignal 1 wird hier dasjenige Signal verstanden, welches ein Empfänger nach der Übertragung über das Telekommunikationsnetz empfängt. Dieses Audiosignal 1 stimmt nämlich typischerweise nicht mit dem vom (nicht dargestellten) Sender gesendeten Signal überein, denn auf dem Weg vom Sender zum Empfänger wird das Sendesignal auf vielfältige Art und Weise verändert. So durchläuft es beispielsweise verschiedene Module wie Sprachcoder und -decoder, Multiplexer und Demultiplexer oder auch Sprachverbesserer und Echokompensatoren. Aber auch der Übertragungskanal selber kann einen grossen Einfluss auf das Signal haben, welche sich beispielsweise in Form von Interferenzen, Fading, Übertragungsab- oder unterbrüchen, Echogenerierung etc. äussern. FIG. 1 shows a block diagram of the inventive method. Here, a quality measure 2 is determined for an audio signal 1, which can be used, for example, for the evaluation of the used (not shown) telecommunications network. The audio signal 1 is understood here to mean the signal which a receiver receives after the transmission via the telecommunication network. This audio signal 1 is true typically not coincide with the signal transmitted by the transmitter (not shown) because on the way from the transmitter to the receiver, the transmission signal is varied in a variety of ways. For example, it goes through various modules such as speech coders and decoders, multiplexers and demultiplexers, as well as speech enhancers and echo cancellers. But even the transmission channel itself can have a large impact on the signal, which, for example, in the form of interference, fading, Übertragungsab- or interruptions, echoes, etc. express.

Des Audiosignal 1 enthält somit nicht nur gewünschte Signalanteile, d. h. das ursprüngliche Sendesignal, sondern auch unerwünschte Störsignalanteile. Es kann auch sein, dass Signalanteile des Sendesignals fehlen, d. h. während der Übertragung verloren gegangen sind.The audio signal 1 thus contains not only desired signal components, d. H. the original transmission signal, but also unwanted interference signal components. It may also be that signal portions of the transmission signal are missing, d. H. lost during the transmission.

Bei dem dargestellten Beispiel erfolgt die Beurteilung der Signalqualität jedoch nicht anhand des gesamten Audiosignals 1, sondern lediglich anhand des darin enthaltenen Sprachanteils. Das Audiosignal 1 wird zunächst mit einem Audio-Diskriminator 3 auf Sprachsignalanteile 4 hin untersucht. Gefundene Sprachsignalanteile 4 werden zur weiteren Verarbeitung weitergeleitet, wohingegen andere Signalanteile wie beispielsweise Musik 5.1, Pausen 5.2 oder starke Signalstörungen 5.3 aussortiert und anderweitig weiterverarbeitet oder verworfen werden können. Um diese Unterscheidung durchführen zu können, wird das Audiosignal 1 stückweise, d. h. zu Stückchen a jeweils etwa 100 ms bis 500 ms, an den Audio-Diskriminator 3 übergeben. Dieser zerlegt diese Stückchen weiter in einzelne Buffer von etwa 20 ms Länge, verarbeitet diese Buffer und ordnet sie dann jeweils einer der zu unterscheidenden Signalgruppen Sprachsignal, Musik, Pause oder starke Störung zu.In the illustrated example, however, the assessment of the signal quality does not take place on the basis of the entire audio signal 1, but only on the basis of the speech component contained therein. The audio signal 1 is first examined with an audio discriminator 3 to speech signal components 4 out. Found speech signal components 4 are forwarded for further processing, whereas other signal components such as music 5.1, pauses 5.2 or strong signal interference 5.3 can be sorted out and otherwise processed or discarded. To make this distinction, the audio signal is 1 piecewise, d. H. to bits a each about 100 ms to 500 ms, passed to the audio discriminator 3. This splits these bits further into individual buffers of about 20 ms in length, processes these buffers and then allocates them to one of the different signal groups speech signal, music, pause or strong interference.

Der Audio-Diskriminator 3 verwendet zur Beurteilung der Signalstückchen beispielsweise eine LPC (linear predictive coding) Transformation, mit welcher die Koeffizienten eines dem menschlichen Sprachtrakt entsprechenden, adaptiven Filters berechnet werden. Die Zuordnung der Signalstückchen zu den verschiedenen Signalgruppen erfolgt anhand der Form der Übertragungs-Charakteristika dieses Filters.The audio discriminator 3 uses, for example, an LPC (linear predictive coding) transformation for the evaluation of the signal chips, with which the coefficients of an adaptive filter corresponding to the human voice tract are calculated. The assignment of the signal chips to the different signal groups is based on the shape of the transmission characteristics of this filter.

Um die Qualität der Übertragung beurteilen zu können, wird aus diesem Sprachsignalanteil 4 nun ein Referenzsignal 6, d. h. eine möglichst gute Schätzung des vom Sender ursprünglich übermittelten Sendesignals, ermittelt. Diese Referenzsignal-Schätzung erfolgt mehrstufig.In order to be able to judge the quality of the transmission, a reference signal 6, d. H. a possible best estimate of the transmission signal originally transmitted by the transmitter, determined. This reference signal estimation takes place in several stages.

In einer ersten Stufe, einem Rauschunterdrückungsmodul 7, werden zunächst unerwünschte Signalanteile wie stationäres Rauschen oder Impulsstörungen aus dem Sprachsignalanteil 4 entfernt bzw. unterdrückt. Dies geschieht mit Hilfe eines neuronalen Netzwerkes, welches zuvor mittels einer Vielzahl von verrauschten Signalen als Eingang und jeweils der entsprechenden rauschfreien Version des Eingangssignals als Zielsignal trainiert worden ist. Das auf diese Weise erhaltene, entrauschte Sprachignal 11 wird an die zweite Stufe weitergeleitet.In a first stage, a noise suppression module 7, unwanted signal components such as stationary noise or impulse noise are first removed from the speech signal component 4 or suppressed. This is done with the aid of a neural network, which has been previously trained by means of a plurality of noisy signals as input and each of the corresponding noise-free version of the input signal as a target signal. The thus-obtained noisy voice signal 11 is forwarded to the second stage.

In der zweiten Stufe, dem Unterbruchdetektions- und interpolationsmodul 8 werden Unterbrüche im Audiosignal 1 bzw. in dessen Sprachsignalanteil 4 detektiert und wenn möglich interpoliert, d. h. die fehlenden Samples werden durch geeignet geschätzte Werte ersetzt.In the second stage, the interruption detection and interpolation module 8 interruptions in the audio signal 1 and in its voice signal component 4 are detected and interpolated if possible, d. H. the missing samples are replaced by appropriately estimated values.

Im vorliegenden Beispiel erfolgt die Detektion von Signalunterbrüchen mittels einer Untersuchung von Diskontinuitäten der Signalgrundfrequenz (pitch-tracing). Die Interpolation wird in Abhängigkeit der Länge des detektierten Unterbruches vorgenommen. Bei kurzen Unterbrüchen, d. h. Unterbrüchen von wenigen Samples Länge wird eine polynomische Interpolation wie beispielsweise ein Lagrange-, Newton-, Hermite-, oder Cubic Spline-Interpolation angewendet. Bei mittellangen Unterbrüchen (einige wenige bis einige Dutzend Samples) werden modellbasierte Interpolationen wie beispielsweise eine Maximum a posteriori-, eine autoregressive- oder eine frequency-time-Interpolation angewendet. Bei längeren Signalunterbrüchen ist eine Interpolation oder eine andere Signalrekonstruktion in der Regel nicht mehr auf sinnvolle Art und Weise möglich.In the present example, the detection of signal interruptions by means of an examination of discontinuities of the signal fundamental frequency (pitch-tracing). The interpolation is carried out as a function of the length of the detected interruption. For short breaks, d. H. Interruptions of a few samples in length are polynomial-interpolated, such as Lagrange, Newton, Hermite, or Cubic Spline interpolation. For medium-length breaks (a few to a few tens of samples), model-based interpolations such as maximum a posteriori, autoregressive, or frequency-time interpolation are used. For longer signal interruptions, interpolation or other signal reconstruction is usually no longer possible in a meaningful way.

Das Ganze wird erschwert durch die Tatsache, dass es sowohl unterschiedliche Arten von Unterbrüchen - es ist zu unterscheiden zwischen Silben- bzw. Wortpausen und richtigen Signalunterbrüchen - als auch unterschiedliche Arten von Techniken zur Bearbeitung solcher Unterbrüche im Übertragungskanal gibt. So kann von einem Endgerät, beispielsweise in Abhängigkeit von Informationen über das Übertragungsnetz, unterschiedlich auf fehlende Frames reagiert werden. Bei einer ersten Methode werden verlorene Frames beispielsweise einfach durch Nullen ersetzt. Bei einer zweiten Methode werden anstelle der verlorenen Frames andere, richtig empfangene Frames eingesetzt und bei einer dritten Methode werden anstelle der verlorenen Frames lokal generierte Rauschsignale, sogenannter "comfort noise" eingesetzt.The whole thing is hampered by the fact that there are both different types of breaks - there is a difference between syllable breaks and proper signal breaks - as well as different types of techniques for handling such breaks in the transmission channel. Thus, a terminal, for example, depending on information about the transmission network, respond differently to missing frames. For example, in a first method, lost frames are simply replaced by zeros. In a second method, instead of the lost frames other, correctly received frames are used and in a third method locally generated noise signals, so-called "comfort noise" are used instead of the lost frames.

Nach dem Ermitteln des Referenzsignals 6 mit dem Rauschunterdrückungsmodul 7 und dem Unterbruchdetektions- und interpolationsmodul 8 wird es mit Hilfe des Vergleichsmoduls 9 mit dem Sprachsignalanteil 4 verglichen. Für diesen Vergleich kann ein Algorithmus verwendet werden, wie er beispielsweise bei intrusiven Verfahren für den Vergleich des bekannten Quellsignals mit dem empfangenen Signal verwendet wird. Geeignet sind beispielsweise psychoakustische Modelle, die Signale perzeptiv, d. h. wahrnehmbar vergleichen. Das Resultat dieses Vergleichs ist ein intrusiver Qualitätswert 10. Zur Bestimmung dieses intrusiven Qualitätswertes 10 werden die Eingangssignale, also der Sprachsignalanteil 4 und das Referenzsignal 6, in Signalstücke von etwa 20 bis 30 ms Länge zerlegt und für jedes Signalstück ein Teilqualitätswert berechnet. Nach etwa 20 bis 30 Signalstücken, was etwa einer Signaldauer von 0.5 Sekunden entspricht, wird der intrusive Qualitätswert 10 als arithmethisches Mittel dieser Teilqualitätswerte ermittelt. Der intrusive Qualitätswert 10 bildet das Ausgangssignal des Vegleichsmoduls 9.After determining the reference signal 6 with the noise suppression module 7 and the interruption detection and interpolation module 8, it is compared with the speech signal component 4 with the aid of the comparison module 9. For this comparison, an algorithm can be used, as used, for example, in intrusive methods for the comparison of the known source signal with the received signal. For example, psychoacoustic models that compare signals perceptually, ie perceptibly, are suitable. The result of this comparison is an intrusive quality value 10. To determine this intrusive quality value 10, the input signals, ie the speech signal component 4 and the reference signal 6, are decomposed into signal pieces of about 20 to 30 ms in length and a partial quality value is calculated for each signal piece. After about 20 to 30 signal pieces, which corresponds to a signal duration of 0.5 seconds, the intrusive quality value 10 is determined as the arithmetic mean of these partial quality values. The intrusive quality value 10 forms the output signal of the comparison module 9.

Bei der Bestimmung des Qualitätsmasses 2 können jedoch neben der Information über Störsignalanteile bzw. Signalunterbrüche auch noch andere Informationen über das Audiosignal 1 berücksichtigt werden. So kann beispielsweise ein Sprachcoder bzw. Sprachdecoder, den das gesendete Signal auf seinem Weg vom Sender zum Empfänger durchlaufen hat, einen Einfluss auf das Audiosignal 1 haben. Diese Einflüsse bestehen beispielsweise darin, dass sowohl die Grundfrequenz als auch die Frequenzen der höheren Harmonischen des Signals variieren. Je kleiner die Bitrate der verwendeten Sprachcodecs, desto grösser die Frequenzverschiebungen und damit die Signalverzerrungen.In determining the quality measure 2, however, other information about the audio signal 1 can be taken into account in addition to the information about interference signal components or signal interruptions. For example, a voice coder or speech decoder, which the transmitted signal has passed through on its way from the transmitter to the receiver, can have an influence on the audio signal 1. These influences include, for example, varying both the fundamental frequency and the higher harmonic frequencies of the signal. The smaller the bit rate of the speech codecs used, the greater the frequency shifts and thus the signal distortions.

Derartige Einflüsse lassen sich am einfachsten bei Vokalen untersuchen, weshalb das entrauschte Sprachsignal 11 zunächst einem Vokaldetektor 12 zugeführt wird. Dieser umfasst beispielsweise ein neuronales Netz, das vorher für die Erkennung von bestimmten (einzelne oder alle) Vokalen trainiert worden ist. Vokalsignale 13, d. h. Signalanteile welche das neuronale Netz als Vokale erkennt, werden an ein Bewertungsmodul 14 weitergeleitet, andere Signalanteile werden verworfen.Such influences can be examined most easily with vowels, which is why the noise signal 11 which has been deafened is first supplied to a vocal detector 12. This includes, for example, a neural network that has been previously trained for the recognition of particular (single or all) vowels. Vocal signals 13, d. H. Signal components that recognize the neural network as vowels are forwarded to an evaluation module 14, other signal components are discarded.

Das Bewertungsmodul 14 teilt das Vokalsignal 13 in Signalstücke von etwa 30 ms auf und berechnet daran jeweils eine DFT (diskrete Fourier Transformation) mit einer Frequenzauflösung von ungefähr 2 Hz bei einer Abtastfrequenz von etwa 8 kHz. Damit lassen sich dann die Grundfrequenz sowie die Frequenzen der höheren Harmonischen bestimmen und auf Variationen hin untersuchen. Ein weiteres Merkmal zur Bewertung der Codec-bedingten Verzerrungen bildet die Dynamik des Signalspektrums, wobei eine kleinere Dynamik eine schlechtere Signalqualität bedeutet. Die Referenzwerte für die Dynamikbewertung werden für die einzelnen Vokale aus Beispielsignalen gewonnen. Aus den Informationen über den Einfluss von Codecs auf die Frequenzverschiebungen und die Spektrumdynamik des Audiosignals 1 bzw. des entrauschten Sprachsignals 11 wird ein Codec-Qualitätswert 15 abgeleitet.The evaluation module 14 divides the vocal signal 13 into signal pieces of about 30 ms and calculates thereon a DFT (discrete Fourier transform) with a frequency resolution of about 2 Hz at a sampling frequency of about 8 kHz. This allows the fundamental and higher harmonic frequencies to be determined and examined for variations. Another feature for evaluating codec-related distortions is the dynamics of the signal spectrum, with smaller dynamics implying poorer signal quality. The reference values for the dynamics evaluation are obtained for the individual vowels from example signals. A codec quality value 15 is derived from the information about the influence of codecs on the frequency shifts and the spectrum dynamics of the audio signal 1 and of the denoised speech signal 11.

Bei der Bestimmung des Qualitätsmasses 2 durch das Auswertemodul 16 wird zusätzlich zum intrusiven Qualitätswert 10 und zum Codec-Qualitätswert 15 auch ein Unterbruchs-Qualitätswert 17 berücksichtigt. Dieser Wert beinhaltet Informationen über die Länge und die Anzahl der vom Unterbruchdetektions- und interpolationsmodul 8 festgestellten Unterbrüche, wobei bei einem bevorzugten Ausführungsbeispiel der Erfindung nur die Informationen über die langen Unterbrüche berücksichtigt werden. Zusätzlich können natürlich auch weitere Qualitäts-Informationen 18 über das empfangene Audiosignal 1 bzw. das entrauschte Sprachsignal 11, welche mit anderen Modulen oder Untersuchungen ermittelt werden, in die Berechnungen des Qualitätsmasses 2 einfliessen.In the determination of the quality measure 2 by the evaluation module 16, an interruption quality value 17 is taken into account in addition to the intrusive quality value 10 and the codec quality value 15. This value contains information about the length and the number of interruptions detected by the interruption detection and interpolation module 8, whereby in a preferred embodiment of the invention only the information about the long interruptions is taken into account. In addition, of course, further quality information 18 about the received audio signal 1 or the noisy speech signal 11, which are determined with other modules or examinations, can be included in the calculations of the quality measure 2.

Die einzelnen Qualitätswerte werden nun derart skaliert, dass sie im Zahlenbereich zwischen 0 und 1 liegen, wobei ein Qualitätswert von 1 eine unverminderte Qualität und Werte unter 1 eine entsprechend verminderte Qualität bezeichnen. Das Qualitätsmass 2 wird schliesslich als Linearkombination der einzelnen Qualitätswerte berechnet, wobei die einzelnen Gewichtungskoeffizienten experimentell bestimmt und derart festgelegt werden, dass ihre Summe 1 ergibt.The individual quality values are now scaled to lie in the range of numbers between 0 and 1, where a quality value of 1 denotes undiminished quality and values below 1 indicate a correspondingly reduced quality. The quality measure 2 is finally calculated as a linear combination of the individual quality values, wherein the individual weighting coefficients are determined experimentally and determined such that their sum is 1.

Stehen weitere qualitätsrelevante informationen über das Telekommunikationsnetz zur Verfügung oder treten neue Effekte in den Übertragungskanälen auf, ist es auf einfache Art und Weise möglich, weitere Module zur Berechnung von weiteren Qualitätswerten hinzuzufügen und bei der Bestimmung des Qualitätsmasses 2 in der beschriebenen Art und Weise zu berücksichtigen.If further quality-relevant information is available via the telecommunications network or if new effects occur in the transmission channels, it is possible in a simple manner to add further modules for calculating further quality values and to take this into account when determining the quality standard 2 in the described manner ,

Im Folgenden werden anhand der Figuren 2 bis 5 einige der Module näher erläutert. Figur 2 zeigt das Rauschunterdrückungsmodul 7. Der Sprachsignalanteil 4 des Audiosignals 1 wird zunächst einer an sich bekannten DWT 19 (diskrete Wavelet Transformation) unterworfen. DWT's werden ähnlich wie DFT's zur Signalanalyse eingesetzt. Ein wesentlicher Unterschied ist jedoch, im Gegensatz zu den bei einer DFT verwendeten, zeitlich unbegrenzten und damit zeitlich nicht lokalisierten Sinus- bzw. Kosinus-wellenformen, der Einsatz von sogenannten Wavelets, d. h. zeitlich begrenzten und damit zeitlich lokalisierten Wellenformen mit Mittelwert 0.The following are based on the FIGS. 2 to 5 some of the modules explained in more detail. FIG. 2 shows the noise suppression module 7. The voice signal portion 4 of the audio signal 1 is first subjected to a known DWT 19 (Discrete Wavelet Transformation). DWT's are similar to DFT's used for signal analysis. An essential difference, however, is the use of so-called wavelets, ie temporally limited and temporally localized waveforms with a mean value of 0, in contrast to the sinusoidal or cosine wave forms used indefinitely and thus not temporally localized in a DFT.

Der Sprachsignalanteil 4 wird in Signalstücke von etwa 20 ms bis 30 ms unterteilt, welche jeweils der DWT 19 unterworfen werden. Das Resultat der DWT 19 ist ein Satz von DWT-Koeffizienten 20.1, welche als Eingangsvektor einem neuronalen Netz 20 eingespiesen werden. Dessen Koeffizienten wurden vorgängig so trainiert, dass sie zu einem gegebenen Satz von DWT-Koeffizienten 20.1 eines verrauschten Signals einen neuen Satz von DWT-Koeffizienten 20.2 der unverrauschten Version dieses Signals liefern. Dieser neue Satz von DWT-Koeffizienten 20.2 wird nun der IDWT 21, d. h. der zur DWT 19 inversen DWT unterworfen. Diese IDWT 21 liefert auf diese Weise eine mehrheitlich unverrauschte Version der Sprachsignalanteile 4, eben das gewünschte, entrauschte Sprachsignal 11.The speech signal component 4 is divided into signal pieces of about 20 ms to 30 ms, which are each subjected to the DWT 19. The result of the DWT 19 is a set of DWT coefficients 20.1, which are input to a neural network 20 as an input vector. Its coefficients were previously trained to provide a new set of DWT coefficients 20.2 of the noisy version of this signal for a given set of DWT coefficients 20.1 of a noisy signal. This new set of DWT coefficients 20.2 will now be sent to IDWT 21, i. H. subjected to the DWT 19 inverse DWT. In this way, this IDWT 21 delivers a majority of the unencumbered version of the speech signal components 4, namely the desired, denoised speech signal 11.

Die Trainingskonfiguration des neuronalen Netzes 20 ist in Figur 3 dargestellt. Es wird mit Paaren von verrauschten und unverrauschten Versionen von Beispielsignalen trainiert. Ein unverrauschtes Beispielsignal 22.1 wird der DWT 19 unterworfen und es wird ein erster Satz 20.3 von DWT-Koeffizienten erhalten. Auch das verrauschte Beispielsignal 22.2 wird der gleichen DWT 19 unterworfen und ein zweiter Satz 20.4 von DWT-Koeffizienten generiert, der in das neuronale Netz 20 eingespiesen wird. Der Ausgangsvektor des neuronalen Netzes 20, die neuen DWT-Koeffizienten 20.5, wird in einem Komparator 23 mit dem ersten Satz 20.3 von DWT-Koeffizienten verglichen. Aufgrund der Unterschiede zwischen diesen beiden Sätzen von DWT-Koeffizienten erfolgt eine Korrektur 24 der Koeffizienten des neuronalen Netzes 20. Dieser Vorgang wird mit einer Vielzahl von Beispielsignal-Paaren wiederholt, sodass die Koeffizienten des neuronalen Netzes 20 die gewünschte Funktion immer präziser durchführen. Vorteilhafterweise werden für das Training des neuronalen Netzes 20 Beispielsignale 22.1, 22.2 verwendet, welche menschliche Laute aus verschiedenen Sprachen darstellen. Ebenso ist es von Vorteil, hierfür sowohl Frauen- als auch Männer- und Kinderstimmen zu verwenden. Die erwähnte Grösse der einzeln zu verarbeitenden Signalstücke von 20 ms bis 30 ms Dauer ist so gewählt, dass die Verarbeitung des Sprachsignalanteils 4 unabhängig von der Sprache und des Sprechers durchgeführt werden kann. Auch Sprechpausen und sehr ruhige Signalabschnitte werden trainiert, damit auch diese korrekt erkannt werden.The training configuration of the neural network 20 is in FIG. 3 shown. It is trained with pairs of noisy and noisy versions of sample signals. An unencumbered example signal 22.1 is subjected to the DWT 19 and a first set 20.3 of DWT coefficients is obtained. The noisy sample signal 22.2 is also subjected to the same DWT 19 and a second set 20.4 of DWT coefficients is generated, which is fed into the neural network 20. The output vector of the neural network 20, the new DWT coefficients 20.5, is compared in a comparator 23 with the first set 20.3 of DWT coefficients. Due to the differences between these two sets of DWT coefficients, there is a correction 24 of the coefficients of the neural network 20. This process is repeated with a plurality of example signal pairs so that the coefficients of the neural network 20 perform the desired function more and more precisely. Advantageously, the training of the neural network 20 uses example signals 22.1, 22.2, which represent human sounds from different languages. It is also an advantage to use both female and male and child voices. The mentioned size of the individually processed signal pieces of 20 ms to 30 ms duration is selected so that the processing of the speech signal component 4 can be performed independently of the speech and the speaker. Even pauses in speech and very quiet signal sections are trained so that they are recognized correctly.

Bei dem vorliegenden Ausführungsbeispiel wurde als neuronales Netzwerk 20 ein Mehrschicht-Perceptron mit einer Eingangsschicht 25, einer verborgenen Schicht 26 und einer Ausgangsschicht 27 verwendet. Trainiert wurde das Perceptron mit einem Backpropagation-Algorithmus. Die Eingangsschicht 25 weist eine Mehrzahl von Eingangs-Neuronen 25.1, die verborgene Schicht 26 eine Mehrzahl von verborgenen Neuronen 26.1 und die Ausgangsschicht 27 eine Mehrzahl von Ausgangs-Neuronen 27.1 auf. Jedem Eingangs-Neuron 25.1 wird jeweils einer der DWT-Koeffizienten 20.1 der vorangegangenen DWT 19 zugeführt. Nachdem die Eingangssignale das neuronale Netzwerk durchlaufen haben, wobei die jeweiligen Werte mit den eingestellten Koeffizienten der jeweiligen Neuronen bestimmt und die Wertekombinationen in den einzelnen Neuronen berechnet werden, liefert jedes Ausgangs-Neuron 27.1 einen der neuen DWT-Koeffizienten 20.2. Wie bereits erwähnt, zerlegt der Audio-Diskriminator 3 die Signalstückchen in einzelne Buffer der Länge 20 ms. Bei einer Abtastrate von 8 kHz entspricht dies 160 Abtastwerten. Für diesen Fall kann beispielsweise ein neuronales Netz 20 mit je 160 Eingangs- und Ausgangs-Neuronen 25.1, 27.1 sowie etwa 50 bis 60 verborgenen Neuronen 26.1 verwendet werden.In the present embodiment, as the neural network 20, a multi-layer perceptron having an input layer 25, a hidden layer 26, and an output layer 27 was used. The perceptron was trained with a backpropagation algorithm. The input layer 25 has a plurality of input neurons 25.1, the hidden layer 26 a plurality of hidden neurons 26.1, and the output layer 27 a plurality of output neurons 27.1. Each input neuron 25.1 is in each case supplied to one of the DWT coefficients 20. 1 of the preceding DWT 19. After the input signals have passed through the neural network, determining the respective values with the set coefficients of the respective neurons and calculating the value combinations in the individual neurons, each output neuron 27.1 provides one of the new DWT coefficients 20.2. As already mentioned, the audio discriminator 3 splits the signal bits into individual buffers of length 20 ms. At a sampling rate of 8 kHz, this corresponds to 160 samples. For this case, for example, a neural network 20 each having 160 input and output neurons 25.1, 27.1 and about 50 to 60 hidden neurons 26.1 may be used.

Anhand der Figur 5 soll die Interpolation eines Signalunterbruches kurz beschrieben werden. Für die Signalrekonstruktion wird beispielsweise eine Zeit-Frequenz Interpolation angewendet. Hierzu wird zunächst ein Kurzzeitspektrum für Signatframes mit 64 Samples Länge (8 ms) berechnet. Dies geschieht, indem die Signalframes mit Hamming-Fenstem bei einer Überschneidung von 50% multipliziert werden.Based on FIG. 5 The interpolation of a signal interruption should be briefly described. For example, a time-frequency interpolation is used for the signal reconstruction. First, a short-term spectrum for 64-sample-length (8 ms) signed frames is calculated. This is done by multiplying the signal frames by Hamming windows with a 50% overlap.

Das Ziel der Interpolation ist die Behandlung dieser Lücke. Zunächst wird eine Frequenz-Zeit Transformation durchgeführt. Dies führt zu einer dreidimensionalen Signaldarstellung, welche für jeden Punkt in der Zeit-Frequenz Ebene (x-y Ebene) das Leistungsspektrum in Richtung der z-Achse liefert. Ein Unterbruch zu einem gegebenen Zeitpunkt t ist einfach zu erkennen als Nullpunkte entlang der Linie x = t in der Zeit-Frequenz Ebene.The goal of interpolation is to address this gap. First, a frequency-time transformation is performed. This results in a three-dimensional signal representation which provides the power spectrum in the z-axis direction for each point in the time-frequency plane (x-y plane). An interruption at a given time t is easy to recognize as zero points along the line x = t in the time-frequency plane.

Figur 5 zeigt ein derartiges Signal 28 von etwa 200 Samples Länge. Um die Periodizität einfacher erkennen zu können, zeigt Figur 5 das Signal 28 in der zeitlichen Domäne. Auf der Abszissenachse 32 sind die Anzahl Samples und auf der Ordinatenachse 33 die Magnituden aufgetragen. Die Interpolation erfolgt jedoch in der Frequenz-Zeit Domäne. In Figur 5 ist der Unterbruch 29 unschwer zu erkennen als Lücke von knapp 10 Samples Länge. FIG. 5 shows such a signal 28 of about 200 samples in length. In order to recognize the periodicity easier, shows FIG. 5 the signal 28 in the temporal domain. On the abscissa axis 32, the number of samples and on the ordinate axis 33, the magnitudes are plotted. However, the interpolation is done in the frequency-time domain. In FIG. 5 the interruption 29 is easy to recognize as a gap of almost 10 samples.

Für jeden Frequenzanteil erfolgt nun eine polynomische Interpolation sowohl für die Phase, als auch die Magnitude, wobei diese mit minimaler Phasen- und Magnitudendiskontinuität erfolgt. Hierfür wird zunächst wiederum die Pitch-Periode 30 des Signals 28 bestimmt. Für die Interpolation werden Information aus den Samples vor und nach der Lücke innerhalb dieser Pitch-Periode 30 berücksichtigt. Die Signalbereiche 31.1, 31.2 zeigen diejenigen Bereiche des Signals 28 je eine Pitch-Periode vor bzw. hinter dem Unterbruch 29. Diese Signalbereiche 31.1, 31.2 sind zwar nicht identisch mit dem ursprünglichen Signalstück beim Unterbruch 29, zeigen aber dennoch ein hohes Mass an Ähnlichkeit dazu. Für kleine Lücken bis etwa 10 Samples wird angenommen, dass noch genügend Signalinformation vorhanden ist, um eine korrekte Interpolation durchführen zu können. Bei längeren Lücken können zusätzliche Informationen aus Samples der Umgebung verwendet werden.For each frequency component, a polynomial interpolation is now carried out for both the phase and magnitude, with minimal phase and magnitude discontinuity. For this purpose, again the pitch period 30 of the signal 28 is determined. Information from the samples before and after the gap within this pitch period 30 is taken into account for the interpolation. The signal areas 31.1, 31.2 show those areas of the signal 28 each before a pitch period before or after the interruption 29. These signal areas 31.1, 31.2 are not identical to the original signal piece at the interruption 29, but still show a high degree of similarity , For small gaps up to about 10 samples, it is assumed that there is still enough signal information to be able to perform a correct interpolation. For longer gaps, additional information from samples of the environment can be used.

Zusammenfassend ist festzustellen, dass es die Erfindung erlaubt, die Signalqualität eines empfangenen Audiosignals zu beurteilen, ohne das ursprüngliche Sendesignal zu kennen. Aus der Signalqualität kann natürlich auch auf die Qualität der benutzten Übertragungskanäle und somit auf die Service-Qualität des gesamten Telekommunikationsnetzes geschlossen werden. Die schnellen Antwortzeiten des erfindungsgemässen Verfahrens, welche in der Grössenordnung von etwa 100 ms bis 500 ms liegen, ermöglichen somit verschiedenen Anwendungen wie beispielsweise generelle Vergleiche der Servicequalität verschiedener Netze oder Teilnetze, eine qualitätsbasierte Kostenverrechnung oder ein qualitätsbasiertes Routing in einem Netz oder über mehrere Netze hinweg mittels entsprechender Steuerung der Netzknoten (Gateways, Router etc.).In summary, it should be noted that the invention allows the signal quality of a received audio signal to be assessed without knowing the original transmission signal. From the signal quality can of course be concluded on the quality of the transmission channels used and thus on the service quality of the entire telecommunications network. The fast response times of the inventive method, which are in the order of about 100 ms to 500 ms, thus allow various applications such as general comparisons of service quality of different networks or subnets, quality-based cost allocation or quality-based routing in a network or across multiple networks by means of appropriate control of network nodes (gateways, routers, etc.).

Claims

A method for the machine-assisted determination of a measure of quality of an audio signal, in which a reference signal that represents an estimate of an audio signal originally transmitted is determined from the audio signal, and a quality value, which is used for determining the measure of quality, is determined by means of comparing the reference signal with the audio signal, characterised in that a de-noised audio signal is determined by removing noise signal components from the audio signal and is used as the reference signal, and that signal components with vowels are detected in the de-noised audio signal information on codec-related signal distortions is determined therefrom and is taken into consideration in determining the measure of quality.
A method according to claim 1, characterised in that the de-noised audio signal is determined by subjecting the audio signal to discrete wavelet transformation, feeding the coefficients of the latter into a previously trained neural network and subjecting the output signals of the latter to inverse discrete wavelet transformation.
A method according to either of claims 1 and 2, characterised in that signal interruptions in the audio signal are detected and the reference signal is determined by at least partially reconstructing it in the case of the signal interruptions, the reference signal being reconstructed preferably by polynomial interpolation in the case of short signal interruptions and preferably by model-based interpolation in the case of medium-length signal interruptions.
A method according to claim 3, characterised in that information on the signal interruptions is taken into consideration in determining the measure of quality.
A method according to any one of claims 1 to 4, characterised in that, before the reference signal is determined, a speech signal component is extracted from the audio signal and the determination of the measure of quality is restricted to the speech signal component.
A device for the machine-assisted determination of a measure of quality of an audio signal, which has first means for determining a reference signal from the audio signal, second means for determining a quality value by comparing the reference signal with the audio signal, and third means for determining the measure of quality while taking the quality value into consideration, the reference signal representing an estimate of an audio signal originally transmitted, characterised in that it has means for removing noise signal components from the audio signal and means for determining codec-related signal distortions, the latter means including a vowel detection module for detecting vowel signal components in the de-noised audio signal and an evaluation module for determining the codec-related signal distortions, the third means being so designed that the codec-related signal distortions can be taken into consideration in determining the measure of quality.
A device according to claim 6, characterised in that the first means have a noise suppression module for suppressing noise signal components and/or an interruption detection and interpolation module for detection and interpolation of signal interruptions in the audio signal, and the third means are so designed that signal interruptions can be taken into consideration in determining the measure of quality.
A device according to either of claims 6 and 7, characterised in that it has means for extracting a speech signal component from the audio signal and is designed for the purpose of determining the measure of quality of the speech signal component.
A device according to claim 7, wherein the first means have the noise suppression module, characterised in that the noise suppression module has means for performing discrete wavelet transformation for calculating signal coefficients of an audio signal, a neural network for calculating corrected signal coefficients and means for performing inverse discrete wavelet transformation of the corrected signal coefficients for determining the audio signal without noise signal components.
A device according to claim 7, wherein the first means have the interruption detection and interpolation module, characterised in that the interruption detection and interpolation module has means for detecting signal interruptions in an audio signal and means for interpolating signal interruptions of the audio signal, the latter means preferably being designed for the purpose of polynomial interpolation of short signal interruptions and model-based interpolation of medium-length signal interruptions.