DE69321590T2

DE69321590T2 - Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungen

Info

Publication number: DE69321590T2
Application number: DE69321590T
Authority: DE
Inventors: Michael Peter Suffolk Ip4 2Rj Hollier
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1992-06-24
Filing date: 1993-06-24
Publication date: 1999-04-01
Anticipated expiration: 2013-06-25
Also published as: CA2137005C; EP0856961A3; EP0856961B1; EP0856961A2; JP3964456B2; WO1994000922A1; EP0647375B1; AU4350093A; JP4308278B2; EP0647375A1; JP2007143202A; HK1014403A1; CA2137005A1; SG48927A1; AU670950B2; DE69334139T2; JPH08501910A; DE69321590D1; CA2277975C; DE69334139D1

Description

Diese Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Prüfen einer Anlage zum Behandeln von Sprachsignalen.
Beim Prüfen einer solchen Vorrichtung (z. B. einer Telephonleitung, eines Telephonnetzes oder einer anderen Telekommunikationsvorrichtung wie etwa eines Codierers) wird ein Prüfsignal in den Eingang der Telekommunikationsvorrichtung eingegeben, während auf die resultierende Ausgangsgröße der Vorrichtung eine Prüfung angewendet wird. Die Ableitung "objektiver" Prüfmessungen wie etwa des Signal-Rausch-Verhältnisses, das durch eine automatische Verarbeitungsvorrichtung berechnet werden kann, ist bekannt. Außerdem ist die Anwendung "subjektiver" Prüfungen bekannt, in denen ein menschlicher Hörer auf die Ausgangsgröße der Telekommunikationsvorrichtung hört und eine Meinung bezüglich der Qualität des Ausgangssignals äußert.
Einige Elemente von Telekommunikationssystemen sind linear. Dementsprechend können einfache künstliche Prüfsignale wie etwa Sinusschwingungen mit diskreten Frequenzen, gewobbelte Sinussignale oder Chirp-Signale, Zufalls- oder Pseudozufalls-Rauschsignale oder Impulse angewendet werden. Das Ausgangssignal kann dann unter Verwendung z. B. einer schnellen Fourier-Transformation (FFT) oder eines anderen Spektralanalyseverfahrens analysiert werden. Zur Charakterisierung des Verhaltens eines linearen Systems sind eines oder mehrere solcher einfachen Prüfsignale ausreichend.
Andererseits umfassen moderne Telekommunikationssysteme eine wachsende Anzahl von Elementen, die nichtlinear und/oder zeitlich veränderlich sind. Zum Beispiel haben moderne digitale Sprachcodierer mit einer niedrigen Bitrate, die einen Teil von Mobilfunksystemen bilden, eine nichtlineare Antwort, während automatische Verstärkungsregelungen (AGCs), Sprachaktivitäts-Auswerteschaltungen (VADs) und zugeordnete Sprachschalter und Büschelfehler zeitliche Änderungen zu Telekommunikationssystemen beitragen, von denen sie einen Teil bilden. Dementsprechend ist es immer weniger möglich, für lineare Systeme entwickelte einfache Prüfverfahren zum Ableiten objektiver Maße der Verzerrung oder der Eignung von Telekommunikationsvorrichtungen zu verwenden.
Andererseits ist die subjektive Prüfung durch menschliche Hörer teuer, zeitaufwendig, schwer durchzuführen und inkonsistent. Jedoch bedeutet die geringe Korrelation zwischen objektiven Messungen der Systemleistung oder -verzerrung und der subjektiven Antwort eines menschlichen Anwenders des Systems, daß eine solche subjektive Prüfung trotz dieser Probleme der normale Weg der Prüfung einer Telekommunikationsvorrichtung bleibt.
In der auf dem 90. AES-Kongreß, 19.-22. Februar 1991, Paris, vorgestellten Abhandlung "Measuring the Quality of Audio Devices" von John G. Beerends und Jan A. Stemerdink, durch die Audio Engineering Society als Vorabdruck 3070 (L-8) in den AES-Vorabdrucken abgedruckt, wurde vorgeschlagen, die Qualität eines Sprachcodierers für digitalen Mobilfunk unter Verwendung einer Datenbank echter aufgezeichneter Sprache als Prüfsignale und durch Analysieren der entsprechenden Ausgangsgröße des Codierers unter Verwendung eines in der Weise gestalteten Wahrnehmungsanalyseverfahrens zu messen, daß es in einigen Aspekten dem Vorgang entspricht, von dem angenommen wird, daß er im menschlichen Ohr auftritt. In diesem vorgeschlagenen System wird das Sprachsignal in einzelne zeitliche Abschnitte geteilt, wobei für jeden Abschnitt das Frequenzspektrum bestimmt wird, dies in eine psychoakustische Skale (Bark-Skale) transformiert wird und dann mit einer Frequenzausbreitungsfunktion gefaltet wird um zu bestimmen, ob das Verzerrungssignal das ursprüngliche Signal maskiert.
Es wurde (z. B. in "Objective Measurement Method for Estimating Speech Quality of Low Bit Rate Speech Coding", Irii, Kurashima, Kitawaki und Itoh, NTT Review, Bd. 3, Nr. 5, September 1991) vorgeschlagen, ein künstliches Sprachsignal (d. h. ein Signal, das in einem spektralen Sinn der menschlichen Sprache ähnlich ist, aber keine Intelligenz transportiert) in Verbindung mit einem herkömmlichen Verzerrungsanalysemaß wie etwa dem Cepstral- Abstandsmaß (CD-Maß) zur Messung der Leistung von Telekommunikationsvorrichtungen zu verwenden.
Die vorliegende Erfindung schafft eine Prüfvorrichtung zum Prüfen einer Anlage zum Behandeln von Sprachsignalen, mit einer Einrichtung zum Liefern eines Prüfsignals sowie einer Analyseeinrichtung zum Empfangen eines verzerrten Signals, das dem Prüfsignal entspricht, wenn es von der zu prüfenden Anlage verzerrt wird, und zum Analysieren des verzerrten Signals, um ein Verzerrungswahrnehmungsmaß zu erzeugen, das das Ausmaß angibt, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird,
dadurch gekennzeichnet, daß die Analyseeinrichtung eine Einrichtung, die so beschaffen ist, daß sie das verzerrte Signal filtert, um mehrere bandbegrenzte Zeitbereich-Komponentensignale zu erzeugen, die Bandbreiten besitzen, die sich mit der Frequenz ändern, sowie eine Einrichtung enthält, die für jedes solche Komponentensi gnal mehrere Werte (Durchschnittssignalamplitudenwerte) erzeugt, wobei jeder Amplitudenwert mit einem entsprechenden zeitlichen Abschnitt des Signals in Beziehung steht.
Gemäß einem anderen Aspekt schafft die Erfindung ein Verfahren zum Prüfen einer Sprachsignal-Behandlungsanlage, mit den folgenden Schritten:
Liefern eines Prüfsignals an die Sprachsignal- Behandlungsanlage;
Analysieren des Prüfsignals, wenn es durch die Sprachsignal-Behandlungsanlage verzerrt worden ist;
Bestimmen des Ausmaßes, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird; und
Erzeugen eines Verzerrungswahrnehmungsmaßes, das das bestimmte Ausmaß angibt,
dadurch gekennzeichnet, daß das Prüfsignal in spektraler Hinsicht der menschlichen Sprache ähnlich ist und daß der Analyseschritt das Filtern des verzerrten Signals umfaßt, um mehrere bandbegrenzte Zeitbereich- Komponentensignale zu erzeugen, deren Bandbreiten sich mit der Frequenz ändern, und
für jedes bandbegrenzte Zeitbereich-Komponentensignal mehrere Werte (Durchschnittssignalamplitudenwerte) erzeugt werden, wobei jeder Amplitudenwert mit einem entsprechenden zeitlichen Abschnitt des Signals in Beziehung steht.
Die zeitliche Maskierung des verzerrten Signals kann bestimmt werden, um für jedes der Spektralkomponentensignale die Differenz zwischen dem verzerrten Signal und einer entsprechend berechneten Prüfsignalkomponente für mehrere aufeinanderfolgende zeitliche Abschnitte des Prüfsignals zu bilden; um die Erzeugung eines Verzerrungswahrnehmungsmaßes zu ermöglichen, das das Ausmaß angibt, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird, indem es ein Maß der Differenzen der Spektralkomponenten über mehreren der zeitlichen Abschnitte und über mehreren der Spektralkomponenten ableitet.
Andere Aspekte und zweckmäßige Ausführungen der Erfindung gehen aus der folgenden Beschreibung und aus den Ansprüchen hervor.
Die Erfindung wird nun lediglich beispielhaft mit Bezug auf die beigefügte Zeichnung gezeigt, in der
Fig. 1 ein Blockschaltplan ist, der die Anordnung der Ausführung der Erfindung im Gebrauch zeigt;
Fig. 2 ein Blockschaltplan ist, der ausführlicher die Komponenten einer Ausführung der Erfindung zeigt;
Fig. 3 ein Blockschaltplan ist, der ausführlicher einen Prüfsignalgenerator zeigt, der einen Teil der Ausführung aus Fig. 2 bildet;
Fig. 4 schematisch die Struktur eines Prüfsignals über der Zeit zeigt;
Fig. 5a ein Graph des Pegels des maskierten Rauschens (dBs) gegenüber einer Schrittweitenachse (z. B. angenähert einer logarithmischen Frequenzachse) in kritischen Bandrateneinheiten (Bark-Einheiten) für verschiedene Pegel des maskierenden Rauschens ist; und
Fig. 5b ein Diagramm ist, das die Änderung der Anregungsschwelle auf einer Schrittweitenachse (angenähert einer logarithmischen Frequenzachse) in kritischen Bandraten einheiten (Bark-Einheiten) zum Maskieren des Rauschens bei sieben gegebenen Frequenzen zeigt;
Fig. 6 ein Blockschaltplan ist, der ausführlicher eine Analyseeinheit zeigt, die einen Teil der Ausführung aus Fig. 2 bildet;
die Fig. 7a und 7b einen Ablaufplan bilden, der schematisch den Betrieb der Analyseeinheit in der Ausführung aus Fig. 6 zeigt;
Fig. 8a schematisch eine in dieser Ausführung gebildete Schätzung der Anregungsamplitude, die in dem menschlichen Ohr durch ein vorgegebenes sprachähnliches Signal erzeugt würde, als eine Funktion der Zeit und der Schrittweite zeigt; und
Fig. 8b eine entsprechende graphische Darstellung ist, die die Anregung zeigt, die durch zwei beabstandete Impulsgeräusche erzeugt würde;
Fig. 9 eine graphische Darstellung der Wichtungswerte gegenüber der Frequenz zum Umsetzen der Amplitude in wahrgenommene Lautstärke in dieser Ausführung ist;
Fig. 10 eine durch die Analyseeinrichtung gemäß Fig. 7 berechnete exemplarische graphische Darstellung der Fehlerlautstärkewerte für aufeinanderfolgende zeitliche Abschnitte ist;
Fig. 11 einem modifizierten Abschnitt aus Fig. 7b in einer weiteren Ausführung der Erfindung entspricht;
Fig. 12a ein Diagramm der Verzerrungsamplitude gegenüber der Schrittweiten- und der Zeitachse ist, das eine nicht lineare Verzerrung mit einem geringen Ausmaß des in Fig. 8a gezeigten Sprachsignals darstellt; und
Fig. 12b eine graphische Darstellung der aus Fig. 12a abgeleiteten und in bezug auf die Form Fig. 10 entsprechenden wahrgenommenen Fehlerlautstärke ist; und
Fig. 13a der Fig. 12a, jedoch mit einer höheren Amplitude der nichtlinearen Verzerrung, entspricht;
Fig. 13b in ähnlicher Weise der Fig. 12b entspricht;
Fig. 14a der Fig. 12a, jedoch mit der eingesetzten MNRU- Verzerrung, entspricht; und
Fig. 14b eine entsprechende graphische Darstellung der Fehlerlautstärke über der Zeit ist;
Fig. 15a der Fig. 12a, jedoch mit der eingesetzten Nulldurchgangsverzerrung, entspricht; und
Fig. 15b eine entsprechende graphische Darstellung der Fehlerlautstärke über der Zeit ist;
Fig. 16a der Fig. 12a, jedoch mit der eingesetzten Abschneideverzerrung infolge einer Sprachaktivitäts-Auswerteschaltung, entspricht; und
Fig. 16b eine entsprechende graphische Darstellung der Fehlerlautstärke über der Zeit ist.

Überblick der Vorrichtung

In Fig. 1 umfaßt die Telekommunikationsvorrichtung 1 einen Eingangsport 2 und einen Ausgangsport 3. Die Prüfvorrichtung 4 umfaßt einen Ausgangsport 5 zum Anschließen an den Eingangsport 2 der geprüften Telekommunikationsvorrichtung und einen Eingangsport 6 zum Anschließen an den Ausgangsport 3 der geprüften Telekommunikationsvorrichtung.
In Fig. 2 umfaßt die Prüfvorrichtung 4 einen an den Ausgangsport 5 angeschlossenen Prüfsignalgenerator 7, um für diesen ein sprachähnliches Prüfsignal zu liefern und eine an den Eingangsport 6 angeschlossene Signalanalyseeinheit 8 zum Analysieren des von der Telekommunikationsvorrichtung 1 empfangenen Signals. Wie unten ausführlicher diskutiert wird, verwendet der Analysator 8 außerdem eine Analyse des durch den Prüfsignalgenerator 7 erzeugten Prüfsignals, wobei dies in dieser Ausführung durch einen Pfad 9, der vom Ausgangsport 5 zum Eingangsport 6 verläuft, angegeben ist.
Außerdem wird von der Analyseeinheit 8 ein Meßsignal- Ausgangsport 10 bereitgestellt, an dem ein Signal bereitgestellt wird, das ein Maß der Eignung der Telekommunikationsvorrichtung (z. B. der Verzerrung) entweder für die nachfolgende Verarbeitung oder für die Anzeige auf einem nicht gezeigten Sichtgerät (VDU) angibt.

Erste Ausführung

Sprachsignalerzeugung

Wenn eine Vorrichtung wie etwa ein Codierer, der zur Codierung der menschlichen Sprache entwickelt wurde, und ein auf dem menschlichen Ohr beruhenden Analyseverfahrens angewendet werden, würde es offensichtlich scheinen, wirkliche menschliche Sprache zu verwenden, wie es in der obigen Abhandlung von Beerends und Stemerdink vorgeschlagen wurde. Tatsächlich ist die Leistung solcher Prüfsy steme jedoch nicht besonders gut, wobei ein für den Zweck vorgesehenes Prüfsignal bevorzugt wird.
In seiner einfachsten Form kann der Generator 7 für künstliche Sprache lediglich einen digitalen Speicher 71 (z. B. eine Festplatte oder eine digitale Tonkassette) umfassen, die gespeicherte digitale Daten enthalten, aus denen ein Sprachsignal rekonstruiert werden kann. Die gespeicherten Daten können einzelne digitalisierte Abschnitte wirklicher Sprachsignale sein, die nacheinander von dem Speicher 71 an die an den Ausgangsport 5 angeschlossene Signalrekonstruktionseinrichtung 72 (z. B. einen Digital/Analog-Umsetzer (DAC)) geliefert werden. Die in dem Speicher 71 gespeicherten Daten umfassen eine oder mehrere Sprachäußerungen, deren Länge mehrere Sekunden (z. B. in der Größenordnung von zehn Sekunden) dauert.
Alternativ kann der Speicher 71 z. B. Sprachdaten in Form von Filterkoeffizienten zum Ansteuern eines LPC-Sprachsynthetisierers speichern oder Daten einer höheren Ebene (z. B. Phoneme, Schrittweiten- und Intensitätsdaten) zum Ansteuern eines Phonemsynthetisierers, der die Wiederherstellungseinrichtung umfaßt, speichern.
Eine Steuerschaltung 73 (z. B. ein Mikroprozessor) steuert den Betrieb der Speichereinheit 71 zur Auswahl eines besonderen auszugebenden Prüfsignals.
In Fig. 4 ist das in dem Speicher 71 gespeicherte Prüfsignal wiederhergestellt, um ein Prüfsignal mit mehreren Segmenten t&sub0;, t&sub1;, t&sub2;, ... tn zu bilden.
Jedes Segment t&sub0;-tn entspricht typisch einem verschiedenen Sprachklang (z. B. einem verschiedenen Phonem) oder der Stille. Ein bekanntes künstliches Sprachprüfsignal ist in der CCITT-Empfehlung P50 (Recommendation on Artificial Voices, Bd. Rec P50, Melbourne 1988, veröffentlicht durch die CCITT) offenbart. In dem P50-Prüfsignal dauert jedes Segment 60 ms.
In dem P50-Prüfsignal werden die Segmente in Mustern gruppiert, die jeweils eine zufällig gewählte Folge von 16 vorgegebenen, durch die Empfehlung definierten Spektralmustern mit Spektraldichten Si(f) gleich
Spektraldichte Si(f) = 1/(Aij + 2
Aij [cos (2πif)]);
i = 1, 2, ... 16
umfassen.
Der Übergang zwischen den verschiedenen Segmenten in jedem Muster ist so gestaltet, daß er weich erfolgt. Dreizehn der Muster entsprechen stimmhafter Sprache, während die verbleibenden stimmloser Sprache entsprechen. Eine Sprachsequenz kann entweder auf einem Aufzeichnungsmedium gespeichert und reproduziert werden, oder sie kann unter Verwendung eines Vocoders, wie er z. B. in der Abhandlung von Irii, auf die oben Bezug genommen wird, beschrieben ist, aus gespeicherten Daten erzeugt werden.
Wenn das P50-Signal über etwa 10 Sekunden gemittelt wird, besitzt es eine spektrale Langzeit- und Kurzzeitähnlichkeit zu Sprache. Dementsprechend ist die in Fig. 4 gezeigte Sprachsequenz in der Weise gewählt, daß sie eine Dauer von mindestens dieser Länge hat.

Verzerrung

Das Signal, das die geprüfte Telekommunikationsvorrichtung 1 verläßt, unterscheidet sich von dem an den Ein gangsport 2 gelieferten Prüfsignal. Zunächst gibt es zeitlich invariante lineare Verzerrungen des Signals, die zu Gesamtänderungen der Amplitude und zur Filterung des Signals in der Weise führen, daß seine Spektralform geändert wird. Zweitens wird zu dem Signal Rauschen aus verschiedenen Quellen einschließlich konstanter Rauschquellen (wie etwa thermischem Rauschen) und aus diskontinuierlichen Quellen (wie etwa Rauschausbrüchen, Wählimpulsen, Störspitzen und gekreuzten Leitungen) hinzugefügt werden. Drittens gibt es nichtlineare und zeitlich veränderliche Verzerrungen des Signals infolge nichtlinearer Elemente und zeitlich veränderlicher Elemente wie etwa Echokompensatoren und Schwellenhaltern.
Die Anwesenheit einer nichtlinearen Verzerrung kann eine Intermodulation zwischen dem Rauschen und dem Signal bewirken, wobei die Verzerrung an dem Ausgangsport 3 folglich nicht nur von dem Signal und der Vorrichtung 1, sondern auch von dem Rauschen abhängt. Weiter bedeutet die Anwesenheit einer zeitlich veränderlichen Verzerrungseinrichtung, daß die an irgendeinen gegebenen zeitlichen Abschnitt des Signals angelegte Verzerrung von vorhergehenden zeitlichen Abschnitten des Signals und des Rauschens abhängt; falls z. B. vor dem Beginn eines Phonems ein Hochpegelrauschen vorhanden ist, ist es möglich, daß eine Sprachaktivitäts-Erfassungsschaltung das Phonem überhaupt nicht abschneidet, während die Sprachaktivitäts-Erfassungsschaltung den Beginn des Phonems stark abschneiden wird, was zu einer wesentlichen Verzerrung führt, falls dem Phonem Stille vorhergeht.

Analysator 8

Die Analyse gemäß der vorliegenden Erfindung soll ein akzeptables Ausgangssignal bereitstellen, das von der Verzerrung des Prüfsignals ähnlich der Antwort eines menschlichen Ohrs, wie es derzeit verstanden wird, abhängt.
Ohne bei den physikalischen oder biologischen Mechanismen, die diese Erscheinungen verursachen, zu verweilen, ist wohlbekannt, daß die menschliche Klangwahrnehmung durch mehrere Faktoren beeinflußt wird. Zunächst "maskiert" die Anwesenheit eines Klangs einen anderen Klang (d. h. unterdrückt dessen Wahrnehmung) in einem ähnlichen Spektralbereich (Frequenzbereich). Das Ausmaß, in dem der andere Klang maskiert wird, hängt sowohl davon ab, wie nah er in Bezug auf die Schrittweite zu dem ersten Klang ist und hängt von der Amplitude des ersten Klangs ab. Somit hängt die menschliche Wahrnehmung von Fehlern oder Verzerrungen in einem Klang von dem Klang selbst ab. Fehler geringer Amplitude in dem gleichen Spektralgebiet wie der Klang selbst können maskiert und dementsprechend unhörbar sein (wie es z. B. bei Quantisierungsfehlern bei der Teilbandcodierung der Fall ist).
Zweitens besitzt die Maskierungserscheinung eine Zeitabhängigkeit. Ein Klang maskiert während einer kurzen Zeitdauer nach der Entfernung des ersten Klangs weiter andere Klänge; die Amplitude der Maskierungswirkung fällt nach dem Entfernen des ersten Klangs rasch ab. Mit anderen Worten, Klänge geringer Amplitude bleiben nach dem Entfernen des maskierenden Signals während einer längeren Zeitdauer maskiert, als es bei Klängen mit hoher Amplitude der Fall ist. Somit werden Fehler oder Verzerrungen nicht nur durch das derzeitige Signal, sondern (in einem geringeren Ausmaß) auch durch Abschnitte des Signals, die ihm vorhergehen, maskiert. Dies wird als "Vorwärtsmaskierung" bezeichnet. Es wird außerdem festgestellt, daß das Anlegen eines Klangs mit einem hohen Pegel unmittelbar nach einem Klang mit einem niedrigeren Pegel, der rückwirkend andernfalls hörbar gewesen wäre, den früheren Klang subjektiv unhörbar macht. Dies wird als "Rückwärtsmaskierung" bezeichnet.
Drittens antwortet das menschliche Ohr nicht direkt auf die Frequenz, sondern auf die als "Schrittweite" eines Klangs bezeichnete Erscheinung, die einer nichtlinearen Verziehung der Frequenzachse entspricht.
Viertens antwortet das menschliche Ohr selbst dann, wenn das Signal nicht maskiert ist, nicht direkt auf eine Amplitude sondern auf die als Lautstärke wahrgenommene Erscheinung, die eine nichtlineare Funktion der Amplitude ist.
Dementsprechend ist der Analysator 8 in dieser Ausführung so beschaffen, daß er das von der Telekommunikationsanlage 1 empfangene Signal verarbeitet um zu ermitteln, wie bedeutend oder unerwünscht für einen menschlichen Hörer in Übereinstimmung mit den obigen bekannten Merkmalen des menschlichen Ohrs die auf diese Weise in dem Prüfsignal erzeugte Verzerrung sein wird.
Insbesondere ist die Analyseeinheit 8 so beschaffen, um die Antwort des menschlichen Ohrs auf das durch den Prüfsignalgenerator 7 erzeugte Prüfsignal zu ermitteln und um dann das Signal von dem Ausgang 3 der Telekommunikationsvorrichtung ähnlich zu verarbeiten, um durch Ermitteln des Ausmaßes, in dem Verzerrungen wahrnehmbar sind, das Ausmaß zu ermitteln, in dem es sich von dem ursprünglichen Prüfsignal wahrnehmbar unterscheidet.
Fig. 5a zeigt für ein schmalbandiges Rauschen bei einer festen Frequenz schematisch die Variation der spektralen Maskierungsschwelle (der Schwelle, oberhalb derer ein zweiter Klang durch einen ersten verborgen wird). Die fünf Kurven sind für progressiv höhere Pegel des maskie renden Rauschens, wobei sich zeigen wird, daß die Wirkung der Erhöhung des Pegels des maskierenden Rauschens darin besteht, eine annähernd lineare Erhöhung der Maskierungsschwelle bei der Frequenz des maskierenden Rauschens hervorzurufen, außerdem aber die Form der Schwelle von der Rauschfrequenz weg (überwiegend zu höheren Frequenzen) zu verschieben. Mit Bezug auf die Amplitude des maskierenden Rauschens ist die Maskierungswirkung somit in der Amplitude nichtlinear.
Für einen gegeben Pegel des maskierenden Rauschens ändert sich die Breite (z. B. gemessen bei den 3 dB-Punkten unter der Maskierungs-Mittenfrequenz) des maskierten Spektralbands mit der Frequenz des maskierenden Rauschens. Die Änderung der Breite der maskierten Bänder bezieht sich auf die Eigenschaft der Filterkurve des menschlichen Gehörs für die Frequenzauflösung und somit auf die menschliche Wahrnehmung der Schrittweite.
Wie in Fig. 5b gezeigt, kann aus der Frequenzskale durch Verziehen der Frequenzskale dementsprechend eine Schrittweitenskale anstelle einer Frequenzskale erzeugt werden, um so eine neue Skale zu erzeugen, in der die Breiten der maskierenden Bänder konstant sind. Fig. 5b zeigt die kritische Bandratenskale oder die Bark-Skale, die durch Betrachtung einer Menge schmalbandiger maskierender Töne bei verschiedenen Frequenzen, die sich bei dem -3 dB- Punkt kreuzen, hergeleitet wird. Diese Skale ist z. B. in "Audio Engineering and Psychoacoustics: Matching Signals to the Final Receiver, the Human Auditory System", J. Audio Eng. Soc. Bd. 39, März 1991, Zwicker und Zwicker, beschrieben.
Die in Fig. 5b gezeigten kritischen Bänder haben (auf der Frequenzachse), wenn sie auf einer linearen Frequenzskale dargestellt werden, unterhalb 500 Hz eine ähnliche Form.
Oberhalb 500 Hz haben sie eine ähnliche Form, wenn sie auf einer logarithmischen Frequenzskale betrachtet werden. Da die Fernsprechbandbreite typischerweise 300 bis 3150 Hz beträgt und Telekommunikationsvorrichtungen häufig innerhalb dieser Grenzen bandbegrenzt sind, ignoriert die Transformation auf die Schrittweitenskale in dieser Ausführung das lineare Gebiet unterhalb 500 Hz bei nur einem kleinen Kompromiß an die Genauigkeit.
In Fig. 6 umfaßt die Analyseeinheit 8 einen Analog/Digital-Umsetzer (ADC) 81, der so beschaffen ist, daß er Signale von dem Eingangsport 6 empfängt und einen entsprechenden digitalen Impulszug erzeugt; einen Arithmetikprozessor 82 (z. B. einen Mikroprozessor wie etwa den Intel-80486-Prozessor oder eine digitale Signalverarbeitungsvorrichtung wie etwa die DSP 32C-Vorrichtung von Western Electric oder die TMS C30-Vorrichtung von Texas Instruments), der in der Weise angeschlossen ist, daß er das digitale Ausgangssignal des ADC 81 empfängt, eine Speichervorrichtung 83, die Befehlsfolgen für den Prozessor 82 speichert und Arbeitsspeicher zum Speichern von Rechenergebnissen bereitstellt und eine an den Ausgang 10 angeschlossene Ausgangsleitung 84 von dem Prozessor 82.
Unter Bezug auf die Fig. 7a und 7b werden nun die durch den Prozessor 82 in dieser Ausführung ausgeführten Prozesse beschrieben.
Zunächst wird das von dem Prüfsignalgenerator 7 gelieferte Prüfsignal in einem Schritt 100, ohne durch die Telekommunikationsvorrichtung 1 geleitet zu werden, direkt in den Eingangsport 6 eingegeben.
In dem nächsten Schritt 101 wird das Signal von dem ADC 81 durch ein Filter gefiltert, das der Übertragungsfunktion zwischen den Außenabschnitten des Ohrs und dem In nenohr entspricht. Die Filterung kann typisch durch Ausführung einer digitalen Filteroperation entsprechend den in dem Speicher 83 gespeicherten Filterdaten vollzogen werden. Das Filter kann durch eine Übertragungsfunktion des in "Psychoacoustic models for evaluating errors in audio systems", J. R. Stuart, Procs. IOA, Bd. 13, Teil 7, 1991 beschriebenen Typs charakterisiert werden.
Tatsächlich ändert sich die Übertragungsfunktion zum Innenohr leicht in Abhängigkeit davon, ob der Klang (z. B. durch einen Kopfhörer) nah oder (z. B. von einem Lautsprecher) entfernter an das Ohr gekoppelt ist; dementsprechend können der Prozessor 82 und der Speicher 83 so beschaffen sein, daß sie die Merkmale mehrerer verschiedener Übertragungsfunktionen speichern, die in bezug auf den Typ der geprüften Telekommunikationsvorrichtung 1 verschiedenen Orten des Klangs entsprechen und um als Antwort auf die Eingabe eines Anwenders, der den Typ der Telekommunikationsvorrichtung spezifiziert, ein geeignetes Filter zu wählen. Nach der Ausführung des Schritts 101 entspricht das gefilterte Signal dem Signal, wie es im Innenohr empfangen würde.
Um die Transformation von der Frequenz in die Schrittweite auszuführen, wird das Signal als nächstes in einem Schritt 102 in mehrere Spektralbänder mit Bandbreiten aufgespalten, die sich logarithmisch mit der Frequenz ändern. In dieser Ausführung wird das Signal gemäß dem Internationalen Standard ISO 532B durch Bandpässe in 20 Bänder von 100 Hz bis 8 kHz, die jeweils eine Bandbreite von 1/3 Oktave haben, gefiltert. Auf einer logarithmischen Frequenzskale betrachtet, haben die ISO-Bandfilter eine ähnliche Form und sind wohlbekannt und wohldokumentiert. Die mittlere Signalamplitude in jedem der 20 Bänder wird alle 4 Millisekunden berechnet, wobei das Signal nach der Filterung somit eine Reihe von 4 ms- Zeitabschnitten umfaßt, die jeweils 20 Frequenzband- Amplitudenwerte umfassen. Diese Bandpaßfilterung wird für alle Werte in dem Prüfsignal ausgeführt (was größenordnungsmäßig mehrere Sekunden, z. B. 10 Sekunden, dauert).
Die relativ breiten Filter berücksichtigen die Maskierung in jedem Filterband, während die breiten, überlappenden Flanken der Filter sicherstellen, daß die spektrale Maskierung infolge benachbarter Frequenzen ebenfalls berücksichtigt wird.
Als nächstes werden in Schritt 103 auf jedes Ausgangsband in dem Internationalen Standard ISO 226 spezifizierte frequenzabhängige Hörschwellen angewendet. Dies simuliert die Wirkung der in Fig. 5a angegebenen minimalen Hörschwelle. Diese Schwellen werden in dem Speicher 83 gespeichert.
Als nächstes werden die Bandpaß-Signalamplituden in Schritt 104 in einen Telephonie- oder Empfindungspegel umgesetzt, der besser der Lautstärke entspricht, mit der sie durch ein menschliches Hörsystem wahrgenommen würden. Die Umsetzung ist nichtlinear und hängt sowohl von der Amplitude als auch von der Frequenz des Signals ab. Um die Umsetzung auszuführen, werden dementsprechend auf jedes der Ausgangsbänder die in dem Internationalen Standard ISO 226 spezifizierten Profile gleicher Lautstärke angewendet. Diese Profile gleicher Lautstärke werden ebenfalls in dem Speicher 83 gespeichert.
Als nächstes wird in Schritt 105 dadurch eine zeitliche Maskierung (spezifisch eine Vorwärtsmaskierung) ausgeführt, daß nach einem signifikanten Amplitudenwert ein exponentieller Abfall erzeugt wird. Tatsächlich hängt die Abfallrate der Maskierungswirkung von der Zeitdauer des Anlegens des maskierenden Klangs ab; für eine längere Anlegezeitdauer ist die Abfallzeit länger als für eine kürzere Zeitdauer. Jedoch wird es in dieser Ausführung für ausreichend gehalten, einen durch y = 56,5 * 10 (-0,01x) (wobei y den Pegel und x die Zeit darstellt) definierten festen exponentiell gewichteten Abfall anzuwenden, der zwischen dem in der Praxis festzustellenden (einer Dauer von mehr als 200 Millisekunden entsprechenden) maximalen Abfall und dem (einer Dauer von 5 Millisekunden entsprechenden) minimalen Abfall abfällt.
Bei der Anwendung der Vorwärtsmaskierung werden die Maskierungswerte in jedem Zeitabschnitt für jede Bandpaß- Filteramplitude für den entsprechenden Bandpaß in den drei folgenden Zeitabschnitten unter Verwendung des obigen exponentiellen Abfall berechnet. Die drei Werte werden mit den tatsächlichen Amplituden dieser Bänder verglichen und, falls sie höher als die tatsächlichen Amplituden sind, anstelle der tatsächlichen Amplituden eingesetzt.
Wie oben angemerkt, kann ein Klang außerdem einen früher auftretenden Klang maskieren (sogenannte "Rückwärtsmaskierung"). In dieser zweckmäßigen Ausführung wird zur Ausführung der Rückwärtsmaskierung der Vorwärtsmaskierungsprozeß unter Verwendung eines exponentiellen Abfalls des gleiche Typs, aber mit anderen Zahlenkonstanten, wiederholt (mit anderen Worten werden für jeden Zeitabschnitt Werte der Maskierung für früher auftretende Zeitabschnitte berechnet und falls sie höher als die tatsächlichen Amplituden für diese Bänder sind, anstelle der tatsächlichen Amplituden eingesetzt).
Somit umfassen die berechneten Signaldaten nach Schritt 105 eine Folge zeitlich gemittelter Daten, die jeweils 20 Bandpaßsignalamplituden umfassen, mit einer Schwelle, so daß einige Amplituden null sind und die Amplitude eines gegebenen Bands infolge der Vorwärts- und Rückwärtsmaskierungsverarbeitung in einem gegebenen Zeitabschnitt von den Amplituden der entsprechenden Bänder in vergangenen und zukünftigen Zeitabschnitten abhängt.
Dies entspricht einer Fläche, die längs der Signalschrittweite und der Zeitachse die Wirkung der Maskierung angibt, die das Prüfsignal auf das menschliche Ohr haben würde, wenn es direkt, ohne die Telekommunikationsvorrichtung 1 angelegt würde.
Die Fig. 8a und 8b zeigen durch den obigen Prozeß erzeugte Anregungsflächen. Fig. 8a entspricht einem Sprachereignis, das einem stimmhaften Klang entspricht, auf den ein stimmloser Klang folgt; die Formant-Struktur des ersten Klangs und die breitbandige Art des zweiten Klangs sind leicht zu unterscheiden. Fig. 8b zeigt eine entsprechende Fläche für zwei Impulsgeräusche, wobei die Wirkung der Vorwärtsmaskierungsstufe 105 aus Fig. 7 in den exponentiellen Abfällen darin deutlich sichtbar ist.
Als nächstes wiederholt der Prüfsignalgenerator 7 in Schritt 106 das Prüfsignal, wobei es dieses Mal aber an den Eingangsport 2 der Telekommunikationsvorrichtung 1 angelegt wird und deren Ausgangsport 3 an den Eingangsport 6 der Prüfvorrichtung 4 angeschlossen wird. Die Rechenstufen 101-105 werden dann wiederholt, um eine entsprechende Fläche für das von der Telekommunikationsvorrichtung empfangene Signal zu berechnen.
Nach der Berechnung der Wirkung des ursprünglichen Prüfsignals auf das Ohr (der Anregung) und der Ausgangsgröße der Telekommunikationsvorrichtung (dem verzerrten Prüfsignal) entspricht die Differenz in bezug auf das Ausmaß, in dem die zwei das Ohr anregen, dem Verzerrungspegel des Prüfsignals, wie es durch das menschliche Hörsystem wahrgenommen wird. Dementsprechend wird die Amplitudenübertragungsfunktion der Telekommunikationsvorrichtung für jede Frequenzkomponente durch Bilden des Verhältnisses zwischen den entsprechenden Bandpaßamplituden (oder wo, wie in den Fig. 8a oder 8b, die Bandpaßamplituden auf einer dB-Skale dargestellt sind, durch Bilden der Differenz zwischen der Amplitude in dBs) berechnet. Zur Vermeidung eines Gesamtverstärkungsterms in der Übertragungsfunktion, der für die durch die Telekommunikationsvorrichtung erzeugte wahrgenommene Verzerrung irrelevant ist, kann jeder Bandpaßterm durch Dividieren (oder, wenn in dBs dargestellt, durch Subtrahieren) durch die über alle Bandpaßfilterausgänge über alle zeitlichen Abschnitte in der Prüfsignalfolge gemittelte Amplitude in Schritt 107 normiert werden.
Falls das ursprüngliche Prüfsignal und die Ausgangsgröße der Telekommunikationsvorrichtung 1 bis auf eine Gesamtpegeldifferenz völlig gleich sind (d. h., falls die Telekommunikationsvorrichtung 1 keine Verzerrung einführt), ist das Verhältnis zwischen jeder Bandpaßfilter- Ausgangsgröße der zwei Signale eins, während die logarithmische Amplitudendifferenz in dBs null sein wird; dementsprechend wäre die Fig. 8a oder Fig. 8b entsprechende graphische Differenzdarstellung zu allen Zeiten und in allen Schrittweitenbändern vollständig flach. Irgendeine Abweichung wird durch eine Verzerrung in der Telekommunikationsvorrichtung verursacht. Additive Verzerrungsfehler erscheinen relativ zu dem unverzerrten Durchschnittspegel als Spitzen, während Signalverluste als Senken erscheinen.
Die Bedeutung dieser Fehler für die Wahrnehmung hängt nicht direkt von ihrer Amplitude, sondern von der Lautstärke ab, die eine nichtlineare Funktion der Amplitude und eine Funktion der Frequenz ist. Die Berechnung der wahrgenommenen Lautstärke ist in dem Internationalen Standard ISO 532B gegeben. Jedoch gilt diese Spezifizierung für zweiohrigen Klang, während es für einohrigen Klang (wie üblicherweise in Telephonieanwendungen festgestellt wird) möglich ist, eine einfachere Berechnung der Lautstärke auf der Grundlage der in der CCITT-Empfehlung P79 (Blue Book Bd. V, Melbourne, 1988 CCITT) gegebenen bestehenden Wahrnehmungsgewichte für die Lautstärke der einohrigen Telephonie zu verwenden. Dieses Verfahren der Schätzung der Fehlerlautstärke berücksichtigt die Tatsache, daß Fehler bei einigen Frequenzen leichter wahrgenommen werden und ihnen somit ein größeres Gewicht gegeben wird als jene bei anderen Frequenzen. Für jeden Zeitabschnitt in der Signalfolge wird in dieser Ausführung ein Fehlerbetrag wie folgt berechnet:
Fehlerltstt = 0,8
Ern * 10(-0,0175*WSn),
wobei Fehlerltstt die Fehlerlautstärke zur Zeit t für ein schmalbandiges Modell der Fehleranregung zwischen 200 Hz und 4 kHz ist (wobei die Teile +ve und -ve getrennt berechnet werden),
n das n. 1/3-Oktavenband von 200 Hz bis 4 kHz,
Ern die Fehleramplitude in dB,
WSn die SLR-Wichtung für die n. Frequenz,
ist, wobei die aus der P79-Empfehlung abgeleiteten Wichtungskoeffizienten wie in Fig. 9 gezeigt sind.
Für ein Breitbandtelephoniemodell, das alle 20 Bandpfadausgänge verwendet, wird die entsprechende Fehlerlautstärke wie folgt berechnet:
Fehlerltstt = 1,28
Ern * 10(-0,0175*WSn)
In diesem Fall schließt der Wert von n alle 20 Bänder von 100 Hz bis 8 kHz ein.
Der additive Fehler (positive Fehler) und die Defizitfehler (negative Fehlerwerte) werden getrennt aufsummiert, um positive und negative Zwischensummen zu ergeben.
Wie in Fig. 10 gezeigt, ist das Ergebnis des Rechenschritts 109 eine zeitliche Folge von Zeitabschnitts- Fehlerlautstärkewerten. In Schritt 110 wird die Eignung oder Nichteignung der Telekommunikationsvorrichtung in dieser Ausführung direkt aus den in Fig. 10 gezeigten Daten festgestellt, indem z. B. der Spitzenfehlerlautstärkewert und/oder der Durchschnittsfehlerlautstärkewert genommen wird. Eines oder beide dieser Kriterien werden dann in Schritt 111 als das Verzerrungsmaß der Telekommunikationsvorrichtung 1 an den Ausgangsport 9 ausgegeben.

Zweite Ausführung

In der zweiten Ausführung ist die Analyseeinheit 8 die gleiche wie in der ersten Ausführung oder dieser ähnlich. Jedoch verwendet die Prüfsignalerzeugungseinheit 7 nicht das P50-Prüfsignal, sondern erzeugt statt dessen einen anderen Typ eines künstlichen sprachähnlichen Prüfsignals.
Während das P50-Prüfsignal für viele Zwecke akzeptabel ist, wird das Fehlen eines vollen Bereichs von Reibeklängen beobachtet. Weiterhin besitzt es eine recht reguläre und monotone Langzeitstruktur, die eher wie eine Vokal- Konsonant-Vokal-Konsonant...-Folge klingt. Da jedoch viele Telekommunikationssysteme, wie oben diskutiert, zeitabhängige Elemente wie etwa automatische Verstärkungsregelungen oder Sprachschalter umfassen, hängt die an irgendeinen gegebenen Abschnitt des Prüfsignals angelegte Verzerrung teilweise von dem vorhergehenden Abschnitt des Prüfsignals ab; mit anderen Worten, von dem Kontext jenes Abschnitts des Sprachsignals in der zeitlichen Folge des Signals als Ganzes ab.
Dementsprechend wird in dieser Ausführung eine (aus den mehreren zehn bekannten Phonemen gewählte) kleine, repräsentative Teilmenge von Sprachsegmenten verwendet, wobei ein Prüfsignal aus diesen in verschiedener Kontextfolge zusammengesetzten Klängen konstruiert wird. Da die Verzerrung gemessen wird, ist es wichtiger, daß die Prüffolge Folgen von Klängen enthalten sollte, die relativ ungleich zueinander sind oder allgemeiner, wenn einer auf den anderen folgt, relativ wahrscheinlich eine Verzerrung hervorrufen. In einer einfacheren Form dieser Ausführung könnte das Prüfsignal jedes der gewählten Abschnitte enthalten, wobei es durch einen Aufbereitungsabschnitt mit einem Präfix versehen ist, das von einem hohen, tiefen oder Nullpegel gewählt wurde, so daß das Prüfsignal jedes repräsentative Sprachsegment (Phonem) zum Prüfen nach den Präfixklängen verschiedener Pegel freigibt. Die Länge des Präfixsignals wird in der Weise gewählt, daß es sich über die Zeitkonstanten des geprüften Systems erstreckt; z. B. brauchen die Codec-Anpassung und die aktive Verstärkungsregelung größenordnungsmäßig einigen Sekunden, während die vorübergehende Antwort eines Sprachumsetzers in der Größenordnung von einigen Millisekunden liegt.

Dritte Ausführung

In einer dritten Ausführung der Erfindung arbeitet der Prüfsignalgenerator 7 entweder in der gleiche Weise wie in der ersten oder wie in der zweiten Ausführung. Jedoch unterscheidet sich der Betrieb der Analyseeinheit 8 in den Schritten 102 bis 110.
Obgleich festgestellt wurde, daß die logarithmisch beabstandeten Filter der ersten Ausführung eine sinnvolle Näherung an die Schrittweitenskale des menschlichen Ohrs sind, wird festgestellt, daß eine noch bessere Leistung durch die Verwendung von Filtern gegeben ist, die (wie oben diskutiert) auf einer Bark-Skale einen Abstand von Ein-Bark-Intervallen besitzen. Dementsprechend sind die zwanzig Bandpaßfilter in Schritt 102 gerundete Exponentialfilter (Roex-Filter), die auf der Schrittweitenskale in einem Bark-Intervall gleich beabstandet sind. Die gerundete Exponentialfunktion ist in "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns", (J. Acoust. Soc. Am., 74, 750-753, 1983), B. C. J. Moore und M. R. Glasburg beschrieben.
Anstatt alle vier Millisekunden die Durchschnittssignalamplitude in jedem Band zu berechnen, wird die Signalamplitude für die verschiedenen Bänder in dieser Ausführung über verschiedenen Mittelungsperioden berechnet, wobei für das Band mit der höchsten Schrittweite über zwei Millisekunden gemittelt wird und für das Band mit der niedrigsten Schrittweite über 48 Millisekunden gemittelt wird und wobei für die Zwischenbänder über Zwischenmittelungszeiten gemittelt wird. Es wird festgestellt, daß die Änderung der zeitlichen Auflösung in Abhängigkeit von der Schrittweite (oder allgemein von der Frequenz) zum Auflösen über ein längeres Intervall bei geringeren Frequenzen eine wesentlich verbesserte Leistung gibt.
Für die nachfolgende Verarbeitung wird wie zuvor für jeden 2 Millisekunden-Zeitabschnitt eine Anordnung von Bandpaßfilter-Ausgangswerten erzeugt. Für Bänder unterhalb der höchsten Schrittweite werden die Werte für Zwischenzeitabschnitte mehr als einmal wiederholt (z. B. wird für das Band mit der niedrigsten Schrittweite jeder Wert während der 2 Millisekunden-Zeitabschnitte zwischen jedem 48 Millisekunden-Durchschnittsamplitudenwert vier- undzwanzigmal wiederholt). Alternativ kann zwischen aufeinanderfolgenden Werten, anstatt diese lediglich zu wiederholen, eine numerische Interpolation ausgeführt werden.
Die Schritte 103-106 sind die gleichen wie in der ersten Ausführung (mit der Einstellung numerischer Konstanten, die die anderen Filterantworten reflektieren).
Anstelle der Berechnung der Lautstärke der Verzerrung wird in dieser Ausführung ein anderes Prüfmaß abgeleitet, das sich enger auf das subjektive "Hörbemühen"-Maß YLE bezieht.
Die Abfolge von Mengen von Bandpaß-Höranregungswerten (die einer Fläche längs der Zeit- und Schrittweitenachse entsprechen) wird in zusammenhängende Sektoren mit einer Länge von 96 Millisekunden (d. h. in 48 aufeinanderfolgende 2 Millisekundenabschnitte) unterteilt, um in der Weise für das Band mit der geringsten Schrittweite mindestens zwei verschiedene Werte zu umfassen. Der Gesamtbetrag des Fehlers oder der Fehleraktivität wird als
Fehleraktivität EA = 10log
c(i, j)
berechnet, wobei c(i, j) der Fehlerwert in dem i. zeitlichen Abschnitt und in dem j. Schrittweitenband des zu analysierenden Fehlerflächensektors ist.
Dies ergibt eine Anzeige des Absolutbetrags der vorhandenen Verzerrung.
Dann wird die Verteilung des Fehlers über der Zeit und über der Schrittweite (oder eher die Entropie der Verzerrung, die dem reziproken Wert des Ausmaßes entspricht, in dem die Energie verteilt ist) wie folgt berechnet:
Fehlerentropie EE =
a(i, j) * ln (a(i, j),
wobei a(i, j) =
ist.
Der Logarithmus-Term in dem obigen Ausdruck steuert das Ausmaß, in dem die Verteilung der Energie die Entropie EE beeinflußt, wobei er als eine nichtlineare Verdichtungsfunktion wirkt.
Es wird festgestellt, daß das Fehleraktivitäts- und Fehlerentropiekriterium zusammen gut dem subjektiv wahrgenommenen Verzerrungspegel entsprechen, da der Hörer einen hohen Fehlerpegel erheblich stärker wahrnehmbar finden wird, wenn er, anstatt über die Schrittweite und über die Zeit verteilt zu sein, in einer einzelnen Schrittweite über einen kurzen Zeitraum konzentriert ist. Dementsprechend wird in dieser Ausführung, wie in Fig. 11 gezeigt, anstatt in dem Schritt 109 aus Fig. 7b die Lautstärke zu berechnen, ein Schritt 119 der Berechnung der Menge und der Verteilung (der Aktivität und der Entropie) der Verzerrung ausgeführt.
In dem Schritt 110 können die zwei Maße getrennt Schwellen unterworfen werden, oder sie können kombiniert werden, wobei das kombinierte Maß einer Schwelle unterworfen wird. Zum Beispiel können sie zusammen mit geeigneten Wichtungen in einem weiteren Schritt aufsummiert oder miteinander multipliziert werden.

Vierte Ausführung

In dieser Ausführung kann das Sprachsignal wie in der dritten Auswertung entweder gemäß der ersten Ausführung oder gemäß der zweiten Ausführung erzeugt werden. Jedoch simuliert die Analyseeinheit 8, anstatt die obenbeschriebenen Maskierungsberechnungen auszuführen, direkt das menschliche Ohr, wie es z. B. in "Digital Filter Simulation of the Basilar Meinbrane", Computer Speech and Language, Nr. 3, 1989, Anibikairajh, Black und Linggard (die hier in ihrer Gesamtheit als Literaturverweis eingefügt ist) beschrieben ist. Ein solches Modell wird als Eingangsgröße das Signal von dem ADC 81 empfangen, das Signal in mehrere Frequenzbänder aufspalten und in jedem zeitlichen Abschnitt, der den Wirkungen auf Teile der menschlichen Hörstruktur des verzerrten Signals von der Telekommunikationsvorrichtung 1 entspricht, eine Reihe von Ausgangsgrößen erzeugt. Die Ausgängsgrößen des Modells werden dann durch eine geeignete Verarbeitungs- und Entscheidungslogik (z. B. durch ein Neuronennetz oder durch einen Qualitativaussagen-Logikcontroller) auf der Grundlage einer empirisch abgeleiteten Korrelation mit tatsächlichen Hörerantworten kombiniert, um ein Signal bereitzustellen, das die Bedeutung der Verzerrung in dem Signal für die Wahrnehmung angibt.
Aspekte des Analyseverfahrens dieser Ausführung könnten ebenfalls mit anderen Prüfsignalen (z. B. mit der wirklichen menschlichen Sprache) verwendet werden.

Wirkungen der Erfindung

In den Fig. 12 bis 16 wird nun die Darstellung verschiedener Typen von Telekommunikationsvorrichtungs-Verzerrungen des Prüfsignals aus Fig. 8a durch die erste und durch die zweite Ausführung der Erfindung gezeigt.
Fig. 12a zeigt die durch eine momentane Amplitudenverzerrung erzeugte Fehleranregungsfläche, die durch Addieren von Termen zweiter und dritter Ordnung mit niedriger Amplitude zu dem Signal erzeugt wurde. Durch einen menschlichen Hörer wurde die Verzerrung als "kaum hörbar" charakterisiert. Wie in Fig. 12b gezeigt, ist zu sehen, daß die Fehlerlautstärkezahlen klein und zumeist positiv sind.
Fig. 13a zeigt die entsprechende Fehleramplitudenfläche für eine voll hörbare nichtlineare Verzerrung des gleichen Typs, aber mit einem höheren Wert von Termen zweiter und dritter Ordnung. Die Amplitude des Fehlers und die Fehlerlautstärke (Fig. 13b) sind beide viel größer. Außerdem ist zu sehen, daß die Mehrheit der Verzerrungslautstärke mit dem stimmhaften Teil des Prüfsignals aus Fig. 8a zusammenfällt, da dieser Formanttöne geringer Frequenz enthält, deren Harmonische für die Wahrnehmung von Bedeutung sind.
In den Fig. 14a und 14b sind die Wirkungen der Verzerrung einer modulierten Rausch-Bezugseinheit (MNRU) gezeigt. Die MNRU-Verzerrung ist in Anhang A der CCITT-Empfehlung P81 beschrieben und in der Weise konstruiert, daß sie theoretisch der durch eine einzelne A-Gesetz-PCM-Stufe (der Art, wie sie in Telekommunikationssystemen breit verwendet wird) eingeführten Verzerrung entspricht. Durch einen menschlichen Hörer wurde der Verzerrungspegel als vollständig hörbar charakterisiert. Aus Fig. 14a ist wieder zu sehen, daß die Wahrnehmungsverzerrung vorwie gend mit Formanten in dem stimmhaften Teil des Prüfsignals verknüpft ist.
In den Fig. 15a und 15b, in denen eine Nulldurchgangsverzerrung (d. h. eine Verzerrung der Art y = mx + c für x größer als null und y = mx - c für x kleiner als null) geliefert wird, werden keine Signale geringer Amplitude gesendet, so daß der stimmlose Klang niedrigerer Energie in dem zweiten Teil des Prüfsignals drastisch gedämpft wird. Die Fig. 15a und 15b legen somit eine sehr bedeutsame subjektive Wirkung dieser Verzerrungsart nahe, was der Reaktion des menschlichen Hörers entspricht.
Schließlich zeigen die Fig. 16a und 16b die Wirkungen einer Sprachaktivitäts-Auswerteschaltung mit einer Einsetzzeit von 50 Millisekunden. Da das Signal abgeschnitten wurde, gibt es in dem Anfangsteil des Signals eine große negative Fehlerlautstärke. Die folgende positive Fehlerlautstärke wird durch das Überschwingen oder durch die Ausregelung verursacht. Die Fehlerlautstärkewerte geben einen hohen Pegel wahrgenommener Verzerrung an, der mit der Antwort des menschlichen Hörers übereinstimmt.

Andere Alternativen und Modifikationen

Aus dem vorstehenden ist klar, daß zu den obenbeschriebenen Ausführungen ohne Änderung des Betriebsprinzips der Erfindung viele Abwandlungen vorgenommen werden können. Falls die Telekommunikationsvorrichtung z. B. für den Empfang einer digitalen Eingangsgröße beschaffen ist, kann auf den DAC 71 verzichtet werden. Das Signal von dem Ausgangsport 5 könnte in digitaler Form an den Eingangsport 2 der Telekommunikationsvorrichtung geliefert werden, wobei auf den ADC 81 in ähnlicher Weise verzichtet werden kann. Alternativ könnte an dem Ausgangsport 5 ein elektromechanischer Umsetzer bereitgestellt und das Signal als ein Tonsignal geliefert werden. In dem letzteren Fall kann das Prüfsignal über einen künstlichen Mund, wie er in der CCIT P.51 Recommendation on Artificial Ear and Artificial Mouth, Bd. 5, Rec P.51, Melbourne 1988 und der früheren UK-Patentanmeldung GB2218299 (8730346) diskutiert ist, geliefert werden. Ähnlich könnte das verzerrte Sprachsignal über eine Künstliches-Ohr-Akustikstruktur, wie sie in der obigen CCITT-Empfehlung und in unserer früheren UK-Patentanmeldung GB2218300 (8730347) beschrieben ist, empfangen werden. Dies würde die in dem Schritt 101 erforderliche Filterung reduzieren.
Obgleich in den obenbeschriebenen Ausführungen für die zeitliche Maskierung ein einzelnes Abfallprofil beschrieben wird, kann es in alternativen Ausführungen der Erfindung zweckmäßig sein, für die Vorwärts- (und Rückwärts- )Maskierung mehrere (z. B. 2) Abfallraten bereitzustellen und die erforderliche Abfallrate in Abhängigkeit von der Dauer des Maskierungsklangs (d. h. von der Anzahl der zeitlichen Abschnitte, über denen die Amplitude in einem der Durchlaßbereiche einen vorgegebenen Pegel überschreitet) zu wählen. Zum Beispiel können durch
y = 58,4039 * 10 (-0,0059x)
y = 55,5955 * 10 (-0,0163x)
Maximal- und Minimalabfälle definiert werden (die einer Dauer von 200 Millisekunden bzw. 5 Millisekunden entsprechen).
Obgleich hier Verbindungen zu einer tatsächlichen Telekommunikationsvorrichtung beschrieben wurden, wäre es ebenso möglich, eine Computervorrichtung in der Weise zu programmieren, daß sie die durch die Telekommunikationsvorrichtung eingeführten Verzerrungen simuliert, da viele solcher Verzerrungen (z. B. jene infolge von VADs oder Codecs) relativ leicht zu charakterisieren sind. Dementsprechend erstreckt sich die Erfindung in ähnlicher Weise auf Ausführungen, in denen ein Signal an eine solche Simulationsvorrichtung geliefert und die simulierte verzerrte Ausgangsgröße der Telekommunikationsvorrichtung verarbeitet wird. In dieser Weise kann die Eignung der Kombination vieler komplizierter und nichtlinearer Kommunikationsvorrichtungen für einen menschlichen Hörer vor der Montage oder vor dem Anschluß einer solchen Vorrichtung auf dem Gebiet modelliert werden.
Obgleich die Analyseeinheit 8 und der Prüfsignalgenerator 7 als getrennte Hardware beschrieben wurden, könnten sie in der Praxis durch einen einzelnen geeignet verarbeiteten Digitalprozessor realisiert werden; in ähnlicher Weise könnte der Telekommunikationsvorrichtungs-Simulator, auf den in der obigen Ausführung Bezug genommen wird, durch den gleichen Prozessor geliefert werden.
Obgleich die Analyseeinheit 8 in den obenbeschriebenen Ausführungen das Prüfsignal von dem Prüfsignalgenerator 7 empfängt und analysiert, könnte die Analyseeinheit 8 in der Praxis die Anregungsdaten speichern, die zuvor durch eine frühere Analyse für die Prüffolge oder für jede der mehreren Prüffolgen abgeleitet wurden. Somit braucht die Analyseeinheit in solchen Ausführungen nicht selbst so beschaffen zu sein, daß sie das unverzerrte Prüfsignal analysiert.
In den obenbeschriebenen Ausführungen können aus den entsprechend den Fig. 11a, 13a, 14a, 15a und 16a berechneten Daten leicht andere Maße der Signalverzerrung als die Fehlerlautstärke, die Fehleraktivität oder die Fehlerentropie abgeleitet werden. Tatsächlich ist die Lautstärke der Verzerrung nur ein Maß ihrer Wirkung auf einen menschlichen Hörer; andere sind die Ermüdung des Hörers und der Höraufwand. Zum Beispiel können die gemäß der obenbeschriebenen Ausführungen berechneten Verzerrungs- oder Fehlerdaten als Eingangsgrößen in einen statistischen Klassifikator, in ein Neuronennetz oder in eine Qualitativaussagen-Logikmaschine mit Parametern verwendet werden, die in Übereinstimmung mit empirisch durch Vergleichsprüfungen mit rein menschlichen Hörern abgeleiteten Parametern arbeiten.
Ungeachtet dessen, daß der Begriff "Phonem" in seinem normalen Gebrauch einen durch seinen Sprachkontext modifizierten Klang bezeichnen kann, wird er in diesem Dokument der Zweckmäßigkeit halber zur Angabe eines einzelnen, wiederholbaren, menschlichen Sprachklangs verwendet.
Wenn nicht das Gegenteil angegeben oder offensichtlich ist, können die Merkmale der obigen Ausführungen in anderen Weisen als jenen, die hierin genau geschildert sind, kombiniert werden.
Obgleich sich die obenbeschriebenen Ausführungen auf die Prüfung einer Telekommunikationsvorrichtung beziehen, ist die Anwendung neuer Aspekte der Erfindung auf die Prüfung oder Analyse anderer Sprach-Transportvorrichtungen nicht ausgeschlossen.

Claims

1. Prüfvorrichtung zum Prüfen einer Anlage zum Behandeln von Sprachsignalen, mit einer Einrichtung (7) zum Liefern eines Prüfsignals sowie einer Analyseeinrichtung (8) zum Empfangen eines verzerrten Signals, das dem Prüfsignal entspricht, wenn es von der zu prüfenden Anlage (1) verzerrt wird, und zum Analysieren des verzerrten Signals, um ein Verzerrungswahrnehmungsmaß zu erzeugen, das das Ausmaß angibt, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird,

dadurch gekennzeichnet, daß die Analyseeinrichtung (8) eine Einrichtung, die so beschaffen ist, daß sie das verzerrte Signal filtert, um mehrere bandbegrenzte Zeitbereich-Komponentensignale zu erzeugen, die Bandbreiten besitzen, die sich mit der Frequenz ändern, sowie eine Einrichtung enthält, die für jedes solche Komponentensignal mehrere Werte (Durchschnittssignalamplitudenwerte) erzeugt, wobei jeder Amplitudenwert mit einem entsprechenden zeitlichen Abschnitt des Signals in Beziehung steht.

2. Vorrichtung nach Anspruch 1, in der die Komponentensignal-Bandbreiten so gewählt werden, daß sie gleichen Maskierungsamplituden für in jedem Band zentrierte Signale entsprechen.

3. Vorrichtung nach Anspruch 1 oder Anspruch 2, in der die Komponentensignal-Bandbreiten auf einer logarithmischen Frequenzskala angenähert gleich sind.

4. Vorrichtung nach Anspruch 1 oder Anspruch 2, in der die Komponentensignal-Bandbreiten auf einer Bark- Skala ungefähr gleich sind.

5. Vorrichtung nach irgendeinem der Ansprüche 1 bis 4, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie für jedes Komponentensignal die Maskierungswirkung schätzt, die dieses Komponentensignal für das menschliche Ohr erzeugen würde.

6. Vorrichtung nach irgendeinem vorangehenden Anspruch, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie die Wirkung, die die Verzerrung im menschlichen Ohr erzeugen würde, unter Berücksichtigung der zeitlichen Dauer der Wirkung schätzt.

7. Vorrichtung nach Anspruch 6, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie aus dem Prüfsignal und/oder aus dem verzerrten Signal eine zeitliche Folge aufeinanderfolgender, verarbeiteter Signalabschnitte erzeugt, wobei der Wert wenigstens einiger Signalabschnitte in Abhängigkeit von einem Abschnitt des Prüfsignals und/oder des verzerrten Signals, die den Signalabschnitten vorhergehen und/oder nachfolgen, erzeugt wird.

8. Vorrichtung nach irgendeinem vorangehenden Anspruch, ferner mit einer Einrichtung zum Berechnen der zeitlichen Maskierung des verzerrten Signals, indem für jeden von mehreren aufeinanderfolgenden zeitlichen Abschnitten jedes bandbegrenzten Zeitbereich- Komponentensignals die Differenz zwischen dem verzerrten Signal und einer entsprechend berechneten Prüfsignalkomponente gebildet wird; und einer Einrichtung, die ein Verzerrungswahrnehmungsmaß (EA) erzeugt, das das Ausmaß angibt, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird, indem sie die Differenzen über mehrere der zeitlichen Abschnitte der Komponentensignale mißt.

9. Vorrichtung nach Anspruch 8, wobei die Spektralkomponentenbänder ungefähr um die gleiche Schrittweite beabstandet sind und wobei die Verzerrungsmaß-Meßeinrichtung ein Maß EE der statistischen Verteilung der Differenzen über den zeitlichen Abschnitten und den Spektralkomponenten erzeugt.

10. Prüfvorrichtung nach irgendeinem der Ansprüche 1 bis 9, wobei das durch jeden Abschnitt repräsentierte Zeitintervall für Komponentensignale mit geringerer Frequenz länger als für Komponentensignale mit höherer Frequenz ist.

11. Vorrichtung nach irgendeinem vorangehenden Anspruch, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie die Wirkung, die im menschlichen Gehörsystem durch das Prüfsignal erzeugt würde, schätzt und daraus die Wirkung schätzt, die im menschlichen Gehörsystem durch die Verzerrung erzeugt würde.

12. Vorrichtung nach Anspruch 11, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie die Wirkung schätzt, die im menschlichen Gehörsystem durch das verzerrte Signal erzeugt würde, und die Differenz zwischen der Wirkung und derjenigen, die durch das Prüfsignal hervorgerufen wird, bestimmt, und das Verzerrungswahrnehmungsmaß (EA) in Abhängigkeit von dieser Differenz erzeugt.

13. Vorrichtung nach irgendeinem vorangehenden Anspruch, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie das Verzerrungswahrnehmungsmaß (EA) in der Weise erzeugt, daß es von der wahrnehmbaren Lautstärke der Verzerrung und nichtlinear von der Amplitude der Verzerrung abhängt.

14. Vorrichtung nach irgendeinem der Ansprüche 8 bis 13, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie ein Maß (EE) der statistischen Verteilung des Verzerrungswahrnehmungsmaßes (EA) über die zeitlichen Abschnitte und Spektralkomponentensignale erzeugt.

15. Vorrichtung nach irgendeinem der Ansprüche 8 bis 14, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie aus den Differenzen zwischen den Zeitabschnitten der Prüfsignalkomponenten und den entsprechenden Abschnitten der verzerrten Signalkomponenten, die entsprechend der relativen Lautstärke von Klängen mit Referenzamplitude in Schrittweiten, die den Komponentensignalen entsprechen, gewichtet sind, eine gewichtete Summe bildet und das Verzerrungswahrnehmungsmaß (EA) in Abhängigkeit von der gewichteten Summe erzeugt.

16. Vorrichtung nach irgendeinem der Ansprüche 1 bis 15, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie für jedes Komponentensignal eine Zeitfolge aus Komponentenwerten erzeugt, wovon jede Komponentensignalwerte über ein Zeitintervall repräsentiert, wobei das Zeitintervall für Komponentensignale mit geringerer Frequenz dasjenige für Komponentensignale mit höherer Frequenz übersteigt.

17. Vorrichtung nach irgendeinem vorangehenden Anspruch, in der die Analyseeinrichtung (8) so beschaffen ist, daß sie das Prüfsignal und/oder das verzerrte Signal entsprechend einem Filter filtert, das so berechnet ist, daß es der Übertragungsfunktion von Abschnitten des menschlichen Gehörsystems zwischen dem Telekommunikationsgerät und dem Innenohr entspricht.

18. Vorrichtung nach Anspruch 17, in der die Analyseeinrichtung so beschaffen ist, daß sie eine von mehreren verschiedenen Übertragungsfunktionen, die jeweils verschiedenen Sprachsignal-Transportanlagen entsprechen, wählen kann.

19. Vorrichtung nach irgendeinem vorangehenden Anspruch, ferner mit einer künstlichen Ohrstruktur zum Empfangen des verzerrten Signals als ein Schaltsignal und zum akustischen Verarbeiten des verzerrten Signals vor der Analyse durch die Analyseeinrichtung (8).

20. Vorrichtung nach irgendeinem vorangehenden Anspruch, in der der Signalgenerator (7) ferner eine künstliche Mundstruktur enthält, die das Prüfsignal vom Signalgenerator in akustischer Form empfängt und das Prüfsignal akustisch verarbeitet, bevor es an die zu prüfende Anlage geliefert wird.

21. Vorrichtung nach irgendeinem vorangehenden Anspruch, in der der Signalgenerator (7) einen digitalen Speicher zum Speichern von Sprachdaten sowie eine Einrichtung (72) zum Wiederherstellen eines Sprachsignals aus den gespeicherten Sprachdaten enthält.

22. Vorrichtung nach Anspruch 21, in der die gespeicherten Sprachdaten digitalisierte Klangsignale enthalten und die Wiederherstellungseinrichtung (72) einen Digital/Analog-Umsetzer enthält.

23. Vorrichtung nach Anspruch 22, in der der Speicher (71) so beschaffen ist, daß er Parameter für die Steuerung eines Sprachsynthetisierers speichert, der die Einrichtung zum Wiederherstellen des Sprachsignals enthält.

24. Vorrichtung nach irgendeinem vorangehenden Anspruch, in der der Signalgenerator (7) so beschaffen ist, daß er ein Prüfsignal erzeugt, das eine Folge enthält, die aus einer vorgegebenen Anzahl von Sprachsegmenten gebildet ist, die kleiner als die Anzahl gemeinsam auftretender menschlicher Sprachphoneme ist, wobei das Sprachsignal mehrere verschiedene Gruppen der Segmente enthält, derart, daß jedes Segment in mehreren verschiedenen zeitlichen Kontexten innerhalb der Folge repräsentiert wird, so daß die Wirkung von zeitlich veränderlichen Verzerrungen in der geprüften Anlage auf jedes Segment unterschiedlich ist.

25. Vorrichtung nach Anspruch 24, in der der Prüfsignalgenerator (7) so beschaffen ist, daß er den Kontext für verschiedene der Sprachsegmente verändert, indem er die Segmente im voraus an vorgegebene Signalabschnitte mit mehreren verschiedenen Pegeln innerhalb einer Folge des Prüfsignals fixiert.

26. Vorrichtung nach Anspruch 25, in der die Segmente in der Folge in mehreren verschiedenen Kombinationen vorhanden sind.

27. Verfahren zum Prüfen einer Sprachsignal-Behandlungsanlage, mit den folgenden Schritten:

Liefern eines Prüfsignals an die Sprachsignal- Behandlungsanlage;

Analysieren des Prüfsignals, wenn es durch die Sprachsignal-Behandlungsanlage verzerrt worden ist;

Bestimmen des Ausmaßes, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird; und

Erzeugen eines Verzerrungswahrnehmungsmaßes, das das bestimmte Ausmaß angibt,

dadurch gekennzeichnet, daß das Prüfsignal in spektraler Hinsicht der menschlichen, Sprache ähnlich ist und daß der Analyseschritt das Filtern des verzerrten Signals umfaßt, um mehrere bandbegrenzte Zeitbereich- Komponentensignale zu erzeugen, deren Bandbreiten sich mit der Frequenz ändern, und

für jedes bandbegrenzte Zeitbereich-Komponentensignal mehrere Werte (Durchschnittssignalamplitudenwerte) erzeugt werden, wobei jeder Amplitudenwert mit einem entsprechenden zeitlichen Abschnitt des Signals in Beziehung steht.

28. Verfahren nach Anspruch 27, mit den folgenden Schritten:

Erzeugen des Prüfsignals;

Schicken des Prüfsignals durch die Anlage; und

Analysieren des verzerrten Signals, das am Ausgang der Anlage erzeugt wird.

29. Verfahren nach Anspruch 27 oder 28, ferner mit den folgenden Schritten:

Analysieren des Ausmaßes, in dem das Prüfsignal für einen menschlichen Hörer wahrnehmbar wäre,

Ableiten eines Maßes für die Differenz zwischen der Wahrnehmung des Prüfsignals und derjenigen des verzerrten Signals; und

Ableiten des Verzerrungswahrnehmungsmaßes (EA) in Abhängigkeit von der Differenz.

30. Verfahren nach irgendeinem der Ansprüche 28 oder 29, bei dem für jedes Komponentensignal eine Schätzung der Maskierungswirkung ausgeführt wird, die das Komponentensignal im menschlichen Ohr erzeugen würde.

31. Verfahren nach Anspruch 27, 28, 29 oder 30, mit den folgenden Schritten:

Berechnen der zeitlichen Maskierung des verzerrten Signals, um für jeden der zeitlichen Abschnitte jedes Komponentensignals die Differenz zwischen dem verzerrten Signal und einem entsprechenden Abschnitt einer Komponente des Prüfsignals zu bilden; und

Ableiten eines Maßes (EA) der Differenzen über die zeitlichen Abschnitte und die Komponentensignale.

32. Verfahren nach Anspruch 31, bei dem die bandbegrenzten Komponentensignale ungefähr um die gleiche Schrittweite beabstandet sind und wobei die Verzerrungswahrnehmung-Meßeinrichtung ein Maß (EE) der statistischen Verteilung der Differenzen über die zeitlichen Abschnitte und die Komponentensignale erzeugt.

33. Verfahren nach irgendeinem der Ansprüche 27 bis 32, mit dem Schritt des Erzeugens einer zeitlichen Folge aus aufeinanderfolgenden Werten, die Komponentensignalpegel in vorgegebenen Zeitintervallen darstellen, wobei die Zeitintervalle für Komponentensignale mit geringeren Frequenzen länger als für Komponentensignale mit höherer Frequenz sind.