DE69321590T2 - Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungen - Google Patents
Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungenInfo
- Publication number
- DE69321590T2 DE69321590T2 DE69321590T DE69321590T DE69321590T2 DE 69321590 T2 DE69321590 T2 DE 69321590T2 DE 69321590 T DE69321590 T DE 69321590T DE 69321590 T DE69321590 T DE 69321590T DE 69321590 T2 DE69321590 T2 DE 69321590T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- distortion
- speech
- test
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000005259 measurement Methods 0.000 title description 4
- 238000012360 testing method Methods 0.000 claims description 115
- 230000000873 masking effect Effects 0.000 claims description 44
- 238000004458 analytical method Methods 0.000 claims description 43
- 230000000694 effects Effects 0.000 claims description 28
- 230000002123 temporal effect Effects 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 230000008447 perception Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 4
- 210000003027 ear inner Anatomy 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims 1
- 230000004044 response Effects 0.000 description 10
- 230000005284 excitation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000013707 sensory perception of sound Effects 0.000 description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 101150087426 Gnal gene Proteins 0.000 description 1
- 206010021403 Illusion Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000001266 bandaging Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007321 biological mechanism Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000011181 container closure integrity test Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/46—Monitoring; Testing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/24—Arrangements for testing
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
- Telephone Function (AREA)
- Testing Electric Properties And Detecting Electric Faults (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
- Diese Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Prüfen einer Anlage zum Behandeln von Sprachsignalen.
- Beim Prüfen einer solchen Vorrichtung (z. B. einer Telephonleitung, eines Telephonnetzes oder einer anderen Telekommunikationsvorrichtung wie etwa eines Codierers) wird ein Prüfsignal in den Eingang der Telekommunikationsvorrichtung eingegeben, während auf die resultierende Ausgangsgröße der Vorrichtung eine Prüfung angewendet wird. Die Ableitung "objektiver" Prüfmessungen wie etwa des Signal-Rausch-Verhältnisses, das durch eine automatische Verarbeitungsvorrichtung berechnet werden kann, ist bekannt. Außerdem ist die Anwendung "subjektiver" Prüfungen bekannt, in denen ein menschlicher Hörer auf die Ausgangsgröße der Telekommunikationsvorrichtung hört und eine Meinung bezüglich der Qualität des Ausgangssignals äußert.
- Einige Elemente von Telekommunikationssystemen sind linear. Dementsprechend können einfache künstliche Prüfsignale wie etwa Sinusschwingungen mit diskreten Frequenzen, gewobbelte Sinussignale oder Chirp-Signale, Zufalls- oder Pseudozufalls-Rauschsignale oder Impulse angewendet werden. Das Ausgangssignal kann dann unter Verwendung z. B. einer schnellen Fourier-Transformation (FFT) oder eines anderen Spektralanalyseverfahrens analysiert werden. Zur Charakterisierung des Verhaltens eines linearen Systems sind eines oder mehrere solcher einfachen Prüfsignale ausreichend.
- Andererseits umfassen moderne Telekommunikationssysteme eine wachsende Anzahl von Elementen, die nichtlinear und/oder zeitlich veränderlich sind. Zum Beispiel haben moderne digitale Sprachcodierer mit einer niedrigen Bitrate, die einen Teil von Mobilfunksystemen bilden, eine nichtlineare Antwort, während automatische Verstärkungsregelungen (AGCs), Sprachaktivitäts-Auswerteschaltungen (VADs) und zugeordnete Sprachschalter und Büschelfehler zeitliche Änderungen zu Telekommunikationssystemen beitragen, von denen sie einen Teil bilden. Dementsprechend ist es immer weniger möglich, für lineare Systeme entwickelte einfache Prüfverfahren zum Ableiten objektiver Maße der Verzerrung oder der Eignung von Telekommunikationsvorrichtungen zu verwenden.
- Andererseits ist die subjektive Prüfung durch menschliche Hörer teuer, zeitaufwendig, schwer durchzuführen und inkonsistent. Jedoch bedeutet die geringe Korrelation zwischen objektiven Messungen der Systemleistung oder -verzerrung und der subjektiven Antwort eines menschlichen Anwenders des Systems, daß eine solche subjektive Prüfung trotz dieser Probleme der normale Weg der Prüfung einer Telekommunikationsvorrichtung bleibt.
- In der auf dem 90. AES-Kongreß, 19.-22. Februar 1991, Paris, vorgestellten Abhandlung "Measuring the Quality of Audio Devices" von John G. Beerends und Jan A. Stemerdink, durch die Audio Engineering Society als Vorabdruck 3070 (L-8) in den AES-Vorabdrucken abgedruckt, wurde vorgeschlagen, die Qualität eines Sprachcodierers für digitalen Mobilfunk unter Verwendung einer Datenbank echter aufgezeichneter Sprache als Prüfsignale und durch Analysieren der entsprechenden Ausgangsgröße des Codierers unter Verwendung eines in der Weise gestalteten Wahrnehmungsanalyseverfahrens zu messen, daß es in einigen Aspekten dem Vorgang entspricht, von dem angenommen wird, daß er im menschlichen Ohr auftritt. In diesem vorgeschlagenen System wird das Sprachsignal in einzelne zeitliche Abschnitte geteilt, wobei für jeden Abschnitt das Frequenzspektrum bestimmt wird, dies in eine psychoakustische Skale (Bark-Skale) transformiert wird und dann mit einer Frequenzausbreitungsfunktion gefaltet wird um zu bestimmen, ob das Verzerrungssignal das ursprüngliche Signal maskiert.
- Es wurde (z. B. in "Objective Measurement Method for Estimating Speech Quality of Low Bit Rate Speech Coding", Irii, Kurashima, Kitawaki und Itoh, NTT Review, Bd. 3, Nr. 5, September 1991) vorgeschlagen, ein künstliches Sprachsignal (d. h. ein Signal, das in einem spektralen Sinn der menschlichen Sprache ähnlich ist, aber keine Intelligenz transportiert) in Verbindung mit einem herkömmlichen Verzerrungsanalysemaß wie etwa dem Cepstral- Abstandsmaß (CD-Maß) zur Messung der Leistung von Telekommunikationsvorrichtungen zu verwenden.
- Die vorliegende Erfindung schafft eine Prüfvorrichtung zum Prüfen einer Anlage zum Behandeln von Sprachsignalen, mit einer Einrichtung zum Liefern eines Prüfsignals sowie einer Analyseeinrichtung zum Empfangen eines verzerrten Signals, das dem Prüfsignal entspricht, wenn es von der zu prüfenden Anlage verzerrt wird, und zum Analysieren des verzerrten Signals, um ein Verzerrungswahrnehmungsmaß zu erzeugen, das das Ausmaß angibt, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird,
- dadurch gekennzeichnet, daß die Analyseeinrichtung eine Einrichtung, die so beschaffen ist, daß sie das verzerrte Signal filtert, um mehrere bandbegrenzte Zeitbereich-Komponentensignale zu erzeugen, die Bandbreiten besitzen, die sich mit der Frequenz ändern, sowie eine Einrichtung enthält, die für jedes solche Komponentensi gnal mehrere Werte (Durchschnittssignalamplitudenwerte) erzeugt, wobei jeder Amplitudenwert mit einem entsprechenden zeitlichen Abschnitt des Signals in Beziehung steht.
- Gemäß einem anderen Aspekt schafft die Erfindung ein Verfahren zum Prüfen einer Sprachsignal-Behandlungsanlage, mit den folgenden Schritten:
- Liefern eines Prüfsignals an die Sprachsignal- Behandlungsanlage;
- Analysieren des Prüfsignals, wenn es durch die Sprachsignal-Behandlungsanlage verzerrt worden ist;
- Bestimmen des Ausmaßes, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird; und
- Erzeugen eines Verzerrungswahrnehmungsmaßes, das das bestimmte Ausmaß angibt,
- dadurch gekennzeichnet, daß das Prüfsignal in spektraler Hinsicht der menschlichen Sprache ähnlich ist und daß der Analyseschritt das Filtern des verzerrten Signals umfaßt, um mehrere bandbegrenzte Zeitbereich- Komponentensignale zu erzeugen, deren Bandbreiten sich mit der Frequenz ändern, und
- für jedes bandbegrenzte Zeitbereich-Komponentensignal mehrere Werte (Durchschnittssignalamplitudenwerte) erzeugt werden, wobei jeder Amplitudenwert mit einem entsprechenden zeitlichen Abschnitt des Signals in Beziehung steht.
- Die zeitliche Maskierung des verzerrten Signals kann bestimmt werden, um für jedes der Spektralkomponentensignale die Differenz zwischen dem verzerrten Signal und einer entsprechend berechneten Prüfsignalkomponente für mehrere aufeinanderfolgende zeitliche Abschnitte des Prüfsignals zu bilden; um die Erzeugung eines Verzerrungswahrnehmungsmaßes zu ermöglichen, das das Ausmaß angibt, in dem die Verzerrung des Signals für einen menschlichen Hörer wahrnehmbar sein wird, indem es ein Maß der Differenzen der Spektralkomponenten über mehreren der zeitlichen Abschnitte und über mehreren der Spektralkomponenten ableitet.
- Andere Aspekte und zweckmäßige Ausführungen der Erfindung gehen aus der folgenden Beschreibung und aus den Ansprüchen hervor.
- Die Erfindung wird nun lediglich beispielhaft mit Bezug auf die beigefügte Zeichnung gezeigt, in der
- Fig. 1 ein Blockschaltplan ist, der die Anordnung der Ausführung der Erfindung im Gebrauch zeigt;
- Fig. 2 ein Blockschaltplan ist, der ausführlicher die Komponenten einer Ausführung der Erfindung zeigt;
- Fig. 3 ein Blockschaltplan ist, der ausführlicher einen Prüfsignalgenerator zeigt, der einen Teil der Ausführung aus Fig. 2 bildet;
- Fig. 4 schematisch die Struktur eines Prüfsignals über der Zeit zeigt;
- Fig. 5a ein Graph des Pegels des maskierten Rauschens (dBs) gegenüber einer Schrittweitenachse (z. B. angenähert einer logarithmischen Frequenzachse) in kritischen Bandrateneinheiten (Bark-Einheiten) für verschiedene Pegel des maskierenden Rauschens ist; und
- Fig. 5b ein Diagramm ist, das die Änderung der Anregungsschwelle auf einer Schrittweitenachse (angenähert einer logarithmischen Frequenzachse) in kritischen Bandraten einheiten (Bark-Einheiten) zum Maskieren des Rauschens bei sieben gegebenen Frequenzen zeigt;
- Fig. 6 ein Blockschaltplan ist, der ausführlicher eine Analyseeinheit zeigt, die einen Teil der Ausführung aus Fig. 2 bildet;
- die Fig. 7a und 7b einen Ablaufplan bilden, der schematisch den Betrieb der Analyseeinheit in der Ausführung aus Fig. 6 zeigt;
- Fig. 8a schematisch eine in dieser Ausführung gebildete Schätzung der Anregungsamplitude, die in dem menschlichen Ohr durch ein vorgegebenes sprachähnliches Signal erzeugt würde, als eine Funktion der Zeit und der Schrittweite zeigt; und
- Fig. 8b eine entsprechende graphische Darstellung ist, die die Anregung zeigt, die durch zwei beabstandete Impulsgeräusche erzeugt würde;
- Fig. 9 eine graphische Darstellung der Wichtungswerte gegenüber der Frequenz zum Umsetzen der Amplitude in wahrgenommene Lautstärke in dieser Ausführung ist;
- Fig. 10 eine durch die Analyseeinrichtung gemäß Fig. 7 berechnete exemplarische graphische Darstellung der Fehlerlautstärkewerte für aufeinanderfolgende zeitliche Abschnitte ist;
- Fig. 11 einem modifizierten Abschnitt aus Fig. 7b in einer weiteren Ausführung der Erfindung entspricht;
- Fig. 12a ein Diagramm der Verzerrungsamplitude gegenüber der Schrittweiten- und der Zeitachse ist, das eine nicht lineare Verzerrung mit einem geringen Ausmaß des in Fig. 8a gezeigten Sprachsignals darstellt; und
- Fig. 12b eine graphische Darstellung der aus Fig. 12a abgeleiteten und in bezug auf die Form Fig. 10 entsprechenden wahrgenommenen Fehlerlautstärke ist; und
- Fig. 13a der Fig. 12a, jedoch mit einer höheren Amplitude der nichtlinearen Verzerrung, entspricht;
- Fig. 13b in ähnlicher Weise der Fig. 12b entspricht;
- Fig. 14a der Fig. 12a, jedoch mit der eingesetzten MNRU- Verzerrung, entspricht; und
- Fig. 14b eine entsprechende graphische Darstellung der Fehlerlautstärke über der Zeit ist;
- Fig. 15a der Fig. 12a, jedoch mit der eingesetzten Nulldurchgangsverzerrung, entspricht; und
- Fig. 15b eine entsprechende graphische Darstellung der Fehlerlautstärke über der Zeit ist;
- Fig. 16a der Fig. 12a, jedoch mit der eingesetzten Abschneideverzerrung infolge einer Sprachaktivitäts-Auswerteschaltung, entspricht; und
- Fig. 16b eine entsprechende graphische Darstellung der Fehlerlautstärke über der Zeit ist.
- In Fig. 1 umfaßt die Telekommunikationsvorrichtung 1 einen Eingangsport 2 und einen Ausgangsport 3. Die Prüfvorrichtung 4 umfaßt einen Ausgangsport 5 zum Anschließen an den Eingangsport 2 der geprüften Telekommunikationsvorrichtung und einen Eingangsport 6 zum Anschließen an den Ausgangsport 3 der geprüften Telekommunikationsvorrichtung.
- In Fig. 2 umfaßt die Prüfvorrichtung 4 einen an den Ausgangsport 5 angeschlossenen Prüfsignalgenerator 7, um für diesen ein sprachähnliches Prüfsignal zu liefern und eine an den Eingangsport 6 angeschlossene Signalanalyseeinheit 8 zum Analysieren des von der Telekommunikationsvorrichtung 1 empfangenen Signals. Wie unten ausführlicher diskutiert wird, verwendet der Analysator 8 außerdem eine Analyse des durch den Prüfsignalgenerator 7 erzeugten Prüfsignals, wobei dies in dieser Ausführung durch einen Pfad 9, der vom Ausgangsport 5 zum Eingangsport 6 verläuft, angegeben ist.
- Außerdem wird von der Analyseeinheit 8 ein Meßsignal- Ausgangsport 10 bereitgestellt, an dem ein Signal bereitgestellt wird, das ein Maß der Eignung der Telekommunikationsvorrichtung (z. B. der Verzerrung) entweder für die nachfolgende Verarbeitung oder für die Anzeige auf einem nicht gezeigten Sichtgerät (VDU) angibt.
- Wenn eine Vorrichtung wie etwa ein Codierer, der zur Codierung der menschlichen Sprache entwickelt wurde, und ein auf dem menschlichen Ohr beruhenden Analyseverfahrens angewendet werden, würde es offensichtlich scheinen, wirkliche menschliche Sprache zu verwenden, wie es in der obigen Abhandlung von Beerends und Stemerdink vorgeschlagen wurde. Tatsächlich ist die Leistung solcher Prüfsy steme jedoch nicht besonders gut, wobei ein für den Zweck vorgesehenes Prüfsignal bevorzugt wird.
- In seiner einfachsten Form kann der Generator 7 für künstliche Sprache lediglich einen digitalen Speicher 71 (z. B. eine Festplatte oder eine digitale Tonkassette) umfassen, die gespeicherte digitale Daten enthalten, aus denen ein Sprachsignal rekonstruiert werden kann. Die gespeicherten Daten können einzelne digitalisierte Abschnitte wirklicher Sprachsignale sein, die nacheinander von dem Speicher 71 an die an den Ausgangsport 5 angeschlossene Signalrekonstruktionseinrichtung 72 (z. B. einen Digital/Analog-Umsetzer (DAC)) geliefert werden. Die in dem Speicher 71 gespeicherten Daten umfassen eine oder mehrere Sprachäußerungen, deren Länge mehrere Sekunden (z. B. in der Größenordnung von zehn Sekunden) dauert.
- Alternativ kann der Speicher 71 z. B. Sprachdaten in Form von Filterkoeffizienten zum Ansteuern eines LPC-Sprachsynthetisierers speichern oder Daten einer höheren Ebene (z. B. Phoneme, Schrittweiten- und Intensitätsdaten) zum Ansteuern eines Phonemsynthetisierers, der die Wiederherstellungseinrichtung umfaßt, speichern.
- Eine Steuerschaltung 73 (z. B. ein Mikroprozessor) steuert den Betrieb der Speichereinheit 71 zur Auswahl eines besonderen auszugebenden Prüfsignals.
- In Fig. 4 ist das in dem Speicher 71 gespeicherte Prüfsignal wiederhergestellt, um ein Prüfsignal mit mehreren Segmenten t&sub0;, t&sub1;, t&sub2;, ... tn zu bilden.
- Jedes Segment t&sub0;-tn entspricht typisch einem verschiedenen Sprachklang (z. B. einem verschiedenen Phonem) oder der Stille. Ein bekanntes künstliches Sprachprüfsignal ist in der CCITT-Empfehlung P50 (Recommendation on Artificial Voices, Bd. Rec P50, Melbourne 1988, veröffentlicht durch die CCITT) offenbart. In dem P50-Prüfsignal dauert jedes Segment 60 ms.
- In dem P50-Prüfsignal werden die Segmente in Mustern gruppiert, die jeweils eine zufällig gewählte Folge von 16 vorgegebenen, durch die Empfehlung definierten Spektralmustern mit Spektraldichten Si(f) gleich
- Spektraldichte Si(f) = 1/(Aij + 2
- Aij [cos (2πif)]);
- i = 1, 2, ... 16
- umfassen.
- Der Übergang zwischen den verschiedenen Segmenten in jedem Muster ist so gestaltet, daß er weich erfolgt. Dreizehn der Muster entsprechen stimmhafter Sprache, während die verbleibenden stimmloser Sprache entsprechen. Eine Sprachsequenz kann entweder auf einem Aufzeichnungsmedium gespeichert und reproduziert werden, oder sie kann unter Verwendung eines Vocoders, wie er z. B. in der Abhandlung von Irii, auf die oben Bezug genommen wird, beschrieben ist, aus gespeicherten Daten erzeugt werden.
- Wenn das P50-Signal über etwa 10 Sekunden gemittelt wird, besitzt es eine spektrale Langzeit- und Kurzzeitähnlichkeit zu Sprache. Dementsprechend ist die in Fig. 4 gezeigte Sprachsequenz in der Weise gewählt, daß sie eine Dauer von mindestens dieser Länge hat.
- Das Signal, das die geprüfte Telekommunikationsvorrichtung 1 verläßt, unterscheidet sich von dem an den Ein gangsport 2 gelieferten Prüfsignal. Zunächst gibt es zeitlich invariante lineare Verzerrungen des Signals, die zu Gesamtänderungen der Amplitude und zur Filterung des Signals in der Weise führen, daß seine Spektralform geändert wird. Zweitens wird zu dem Signal Rauschen aus verschiedenen Quellen einschließlich konstanter Rauschquellen (wie etwa thermischem Rauschen) und aus diskontinuierlichen Quellen (wie etwa Rauschausbrüchen, Wählimpulsen, Störspitzen und gekreuzten Leitungen) hinzugefügt werden. Drittens gibt es nichtlineare und zeitlich veränderliche Verzerrungen des Signals infolge nichtlinearer Elemente und zeitlich veränderlicher Elemente wie etwa Echokompensatoren und Schwellenhaltern.
- Die Anwesenheit einer nichtlinearen Verzerrung kann eine Intermodulation zwischen dem Rauschen und dem Signal bewirken, wobei die Verzerrung an dem Ausgangsport 3 folglich nicht nur von dem Signal und der Vorrichtung 1, sondern auch von dem Rauschen abhängt. Weiter bedeutet die Anwesenheit einer zeitlich veränderlichen Verzerrungseinrichtung, daß die an irgendeinen gegebenen zeitlichen Abschnitt des Signals angelegte Verzerrung von vorhergehenden zeitlichen Abschnitten des Signals und des Rauschens abhängt; falls z. B. vor dem Beginn eines Phonems ein Hochpegelrauschen vorhanden ist, ist es möglich, daß eine Sprachaktivitäts-Erfassungsschaltung das Phonem überhaupt nicht abschneidet, während die Sprachaktivitäts-Erfassungsschaltung den Beginn des Phonems stark abschneiden wird, was zu einer wesentlichen Verzerrung führt, falls dem Phonem Stille vorhergeht.
- Die Analyse gemäß der vorliegenden Erfindung soll ein akzeptables Ausgangssignal bereitstellen, das von der Verzerrung des Prüfsignals ähnlich der Antwort eines menschlichen Ohrs, wie es derzeit verstanden wird, abhängt.
- Ohne bei den physikalischen oder biologischen Mechanismen, die diese Erscheinungen verursachen, zu verweilen, ist wohlbekannt, daß die menschliche Klangwahrnehmung durch mehrere Faktoren beeinflußt wird. Zunächst "maskiert" die Anwesenheit eines Klangs einen anderen Klang (d. h. unterdrückt dessen Wahrnehmung) in einem ähnlichen Spektralbereich (Frequenzbereich). Das Ausmaß, in dem der andere Klang maskiert wird, hängt sowohl davon ab, wie nah er in Bezug auf die Schrittweite zu dem ersten Klang ist und hängt von der Amplitude des ersten Klangs ab. Somit hängt die menschliche Wahrnehmung von Fehlern oder Verzerrungen in einem Klang von dem Klang selbst ab. Fehler geringer Amplitude in dem gleichen Spektralgebiet wie der Klang selbst können maskiert und dementsprechend unhörbar sein (wie es z. B. bei Quantisierungsfehlern bei der Teilbandcodierung der Fall ist).
- Zweitens besitzt die Maskierungserscheinung eine Zeitabhängigkeit. Ein Klang maskiert während einer kurzen Zeitdauer nach der Entfernung des ersten Klangs weiter andere Klänge; die Amplitude der Maskierungswirkung fällt nach dem Entfernen des ersten Klangs rasch ab. Mit anderen Worten, Klänge geringer Amplitude bleiben nach dem Entfernen des maskierenden Signals während einer längeren Zeitdauer maskiert, als es bei Klängen mit hoher Amplitude der Fall ist. Somit werden Fehler oder Verzerrungen nicht nur durch das derzeitige Signal, sondern (in einem geringeren Ausmaß) auch durch Abschnitte des Signals, die ihm vorhergehen, maskiert. Dies wird als "Vorwärtsmaskierung" bezeichnet. Es wird außerdem festgestellt, daß das Anlegen eines Klangs mit einem hohen Pegel unmittelbar nach einem Klang mit einem niedrigeren Pegel, der rückwirkend andernfalls hörbar gewesen wäre, den früheren Klang subjektiv unhörbar macht. Dies wird als "Rückwärtsmaskierung" bezeichnet.
- Drittens antwortet das menschliche Ohr nicht direkt auf die Frequenz, sondern auf die als "Schrittweite" eines Klangs bezeichnete Erscheinung, die einer nichtlinearen Verziehung der Frequenzachse entspricht.
- Viertens antwortet das menschliche Ohr selbst dann, wenn das Signal nicht maskiert ist, nicht direkt auf eine Amplitude sondern auf die als Lautstärke wahrgenommene Erscheinung, die eine nichtlineare Funktion der Amplitude ist.
- Dementsprechend ist der Analysator 8 in dieser Ausführung so beschaffen, daß er das von der Telekommunikationsanlage 1 empfangene Signal verarbeitet um zu ermitteln, wie bedeutend oder unerwünscht für einen menschlichen Hörer in Übereinstimmung mit den obigen bekannten Merkmalen des menschlichen Ohrs die auf diese Weise in dem Prüfsignal erzeugte Verzerrung sein wird.
- Insbesondere ist die Analyseeinheit 8 so beschaffen, um die Antwort des menschlichen Ohrs auf das durch den Prüfsignalgenerator 7 erzeugte Prüfsignal zu ermitteln und um dann das Signal von dem Ausgang 3 der Telekommunikationsvorrichtung ähnlich zu verarbeiten, um durch Ermitteln des Ausmaßes, in dem Verzerrungen wahrnehmbar sind, das Ausmaß zu ermitteln, in dem es sich von dem ursprünglichen Prüfsignal wahrnehmbar unterscheidet.
- Fig. 5a zeigt für ein schmalbandiges Rauschen bei einer festen Frequenz schematisch die Variation der spektralen Maskierungsschwelle (der Schwelle, oberhalb derer ein zweiter Klang durch einen ersten verborgen wird). Die fünf Kurven sind für progressiv höhere Pegel des maskie renden Rauschens, wobei sich zeigen wird, daß die Wirkung der Erhöhung des Pegels des maskierenden Rauschens darin besteht, eine annähernd lineare Erhöhung der Maskierungsschwelle bei der Frequenz des maskierenden Rauschens hervorzurufen, außerdem aber die Form der Schwelle von der Rauschfrequenz weg (überwiegend zu höheren Frequenzen) zu verschieben. Mit Bezug auf die Amplitude des maskierenden Rauschens ist die Maskierungswirkung somit in der Amplitude nichtlinear.
- Für einen gegeben Pegel des maskierenden Rauschens ändert sich die Breite (z. B. gemessen bei den 3 dB-Punkten unter der Maskierungs-Mittenfrequenz) des maskierten Spektralbands mit der Frequenz des maskierenden Rauschens. Die Änderung der Breite der maskierten Bänder bezieht sich auf die Eigenschaft der Filterkurve des menschlichen Gehörs für die Frequenzauflösung und somit auf die menschliche Wahrnehmung der Schrittweite.
- Wie in Fig. 5b gezeigt, kann aus der Frequenzskale durch Verziehen der Frequenzskale dementsprechend eine Schrittweitenskale anstelle einer Frequenzskale erzeugt werden, um so eine neue Skale zu erzeugen, in der die Breiten der maskierenden Bänder konstant sind. Fig. 5b zeigt die kritische Bandratenskale oder die Bark-Skale, die durch Betrachtung einer Menge schmalbandiger maskierender Töne bei verschiedenen Frequenzen, die sich bei dem -3 dB- Punkt kreuzen, hergeleitet wird. Diese Skale ist z. B. in "Audio Engineering and Psychoacoustics: Matching Signals to the Final Receiver, the Human Auditory System", J. Audio Eng. Soc. Bd. 39, März 1991, Zwicker und Zwicker, beschrieben.
- Die in Fig. 5b gezeigten kritischen Bänder haben (auf der Frequenzachse), wenn sie auf einer linearen Frequenzskale dargestellt werden, unterhalb 500 Hz eine ähnliche Form.
- Oberhalb 500 Hz haben sie eine ähnliche Form, wenn sie auf einer logarithmischen Frequenzskale betrachtet werden. Da die Fernsprechbandbreite typischerweise 300 bis 3150 Hz beträgt und Telekommunikationsvorrichtungen häufig innerhalb dieser Grenzen bandbegrenzt sind, ignoriert die Transformation auf die Schrittweitenskale in dieser Ausführung das lineare Gebiet unterhalb 500 Hz bei nur einem kleinen Kompromiß an die Genauigkeit.
- In Fig. 6 umfaßt die Analyseeinheit 8 einen Analog/Digital-Umsetzer (ADC) 81, der so beschaffen ist, daß er Signale von dem Eingangsport 6 empfängt und einen entsprechenden digitalen Impulszug erzeugt; einen Arithmetikprozessor 82 (z. B. einen Mikroprozessor wie etwa den Intel-80486-Prozessor oder eine digitale Signalverarbeitungsvorrichtung wie etwa die DSP 32C-Vorrichtung von Western Electric oder die TMS C30-Vorrichtung von Texas Instruments), der in der Weise angeschlossen ist, daß er das digitale Ausgangssignal des ADC 81 empfängt, eine Speichervorrichtung 83, die Befehlsfolgen für den Prozessor 82 speichert und Arbeitsspeicher zum Speichern von Rechenergebnissen bereitstellt und eine an den Ausgang 10 angeschlossene Ausgangsleitung 84 von dem Prozessor 82.
- Unter Bezug auf die Fig. 7a und 7b werden nun die durch den Prozessor 82 in dieser Ausführung ausgeführten Prozesse beschrieben.
- Zunächst wird das von dem Prüfsignalgenerator 7 gelieferte Prüfsignal in einem Schritt 100, ohne durch die Telekommunikationsvorrichtung 1 geleitet zu werden, direkt in den Eingangsport 6 eingegeben.
- In dem nächsten Schritt 101 wird das Signal von dem ADC 81 durch ein Filter gefiltert, das der Übertragungsfunktion zwischen den Außenabschnitten des Ohrs und dem In nenohr entspricht. Die Filterung kann typisch durch Ausführung einer digitalen Filteroperation entsprechend den in dem Speicher 83 gespeicherten Filterdaten vollzogen werden. Das Filter kann durch eine Übertragungsfunktion des in "Psychoacoustic models for evaluating errors in audio systems", J. R. Stuart, Procs. IOA, Bd. 13, Teil 7, 1991 beschriebenen Typs charakterisiert werden.
- Tatsächlich ändert sich die Übertragungsfunktion zum Innenohr leicht in Abhängigkeit davon, ob der Klang (z. B. durch einen Kopfhörer) nah oder (z. B. von einem Lautsprecher) entfernter an das Ohr gekoppelt ist; dementsprechend können der Prozessor 82 und der Speicher 83 so beschaffen sein, daß sie die Merkmale mehrerer verschiedener Übertragungsfunktionen speichern, die in bezug auf den Typ der geprüften Telekommunikationsvorrichtung 1 verschiedenen Orten des Klangs entsprechen und um als Antwort auf die Eingabe eines Anwenders, der den Typ der Telekommunikationsvorrichtung spezifiziert, ein geeignetes Filter zu wählen. Nach der Ausführung des Schritts 101 entspricht das gefilterte Signal dem Signal, wie es im Innenohr empfangen würde.
- Um die Transformation von der Frequenz in die Schrittweite auszuführen, wird das Signal als nächstes in einem Schritt 102 in mehrere Spektralbänder mit Bandbreiten aufgespalten, die sich logarithmisch mit der Frequenz ändern. In dieser Ausführung wird das Signal gemäß dem Internationalen Standard ISO 532B durch Bandpässe in 20 Bänder von 100 Hz bis 8 kHz, die jeweils eine Bandbreite von 1/3 Oktave haben, gefiltert. Auf einer logarithmischen Frequenzskale betrachtet, haben die ISO-Bandfilter eine ähnliche Form und sind wohlbekannt und wohldokumentiert. Die mittlere Signalamplitude in jedem der 20 Bänder wird alle 4 Millisekunden berechnet, wobei das Signal nach der Filterung somit eine Reihe von 4 ms- Zeitabschnitten umfaßt, die jeweils 20 Frequenzband- Amplitudenwerte umfassen. Diese Bandpaßfilterung wird für alle Werte in dem Prüfsignal ausgeführt (was größenordnungsmäßig mehrere Sekunden, z. B. 10 Sekunden, dauert).
- Die relativ breiten Filter berücksichtigen die Maskierung in jedem Filterband, während die breiten, überlappenden Flanken der Filter sicherstellen, daß die spektrale Maskierung infolge benachbarter Frequenzen ebenfalls berücksichtigt wird.
- Als nächstes werden in Schritt 103 auf jedes Ausgangsband in dem Internationalen Standard ISO 226 spezifizierte frequenzabhängige Hörschwellen angewendet. Dies simuliert die Wirkung der in Fig. 5a angegebenen minimalen Hörschwelle. Diese Schwellen werden in dem Speicher 83 gespeichert.
- Als nächstes werden die Bandpaß-Signalamplituden in Schritt 104 in einen Telephonie- oder Empfindungspegel umgesetzt, der besser der Lautstärke entspricht, mit der sie durch ein menschliches Hörsystem wahrgenommen würden. Die Umsetzung ist nichtlinear und hängt sowohl von der Amplitude als auch von der Frequenz des Signals ab. Um die Umsetzung auszuführen, werden dementsprechend auf jedes der Ausgangsbänder die in dem Internationalen Standard ISO 226 spezifizierten Profile gleicher Lautstärke angewendet. Diese Profile gleicher Lautstärke werden ebenfalls in dem Speicher 83 gespeichert.
- Als nächstes wird in Schritt 105 dadurch eine zeitliche Maskierung (spezifisch eine Vorwärtsmaskierung) ausgeführt, daß nach einem signifikanten Amplitudenwert ein exponentieller Abfall erzeugt wird. Tatsächlich hängt die Abfallrate der Maskierungswirkung von der Zeitdauer des Anlegens des maskierenden Klangs ab; für eine längere Anlegezeitdauer ist die Abfallzeit länger als für eine kürzere Zeitdauer. Jedoch wird es in dieser Ausführung für ausreichend gehalten, einen durch y = 56,5 * 10 (-0,01x) (wobei y den Pegel und x die Zeit darstellt) definierten festen exponentiell gewichteten Abfall anzuwenden, der zwischen dem in der Praxis festzustellenden (einer Dauer von mehr als 200 Millisekunden entsprechenden) maximalen Abfall und dem (einer Dauer von 5 Millisekunden entsprechenden) minimalen Abfall abfällt.
- Bei der Anwendung der Vorwärtsmaskierung werden die Maskierungswerte in jedem Zeitabschnitt für jede Bandpaß- Filteramplitude für den entsprechenden Bandpaß in den drei folgenden Zeitabschnitten unter Verwendung des obigen exponentiellen Abfall berechnet. Die drei Werte werden mit den tatsächlichen Amplituden dieser Bänder verglichen und, falls sie höher als die tatsächlichen Amplituden sind, anstelle der tatsächlichen Amplituden eingesetzt.
- Wie oben angemerkt, kann ein Klang außerdem einen früher auftretenden Klang maskieren (sogenannte "Rückwärtsmaskierung"). In dieser zweckmäßigen Ausführung wird zur Ausführung der Rückwärtsmaskierung der Vorwärtsmaskierungsprozeß unter Verwendung eines exponentiellen Abfalls des gleiche Typs, aber mit anderen Zahlenkonstanten, wiederholt (mit anderen Worten werden für jeden Zeitabschnitt Werte der Maskierung für früher auftretende Zeitabschnitte berechnet und falls sie höher als die tatsächlichen Amplituden für diese Bänder sind, anstelle der tatsächlichen Amplituden eingesetzt).
- Somit umfassen die berechneten Signaldaten nach Schritt 105 eine Folge zeitlich gemittelter Daten, die jeweils 20 Bandpaßsignalamplituden umfassen, mit einer Schwelle, so daß einige Amplituden null sind und die Amplitude eines gegebenen Bands infolge der Vorwärts- und Rückwärtsmaskierungsverarbeitung in einem gegebenen Zeitabschnitt von den Amplituden der entsprechenden Bänder in vergangenen und zukünftigen Zeitabschnitten abhängt.
- Dies entspricht einer Fläche, die längs der Signalschrittweite und der Zeitachse die Wirkung der Maskierung angibt, die das Prüfsignal auf das menschliche Ohr haben würde, wenn es direkt, ohne die Telekommunikationsvorrichtung 1 angelegt würde.
- Die Fig. 8a und 8b zeigen durch den obigen Prozeß erzeugte Anregungsflächen. Fig. 8a entspricht einem Sprachereignis, das einem stimmhaften Klang entspricht, auf den ein stimmloser Klang folgt; die Formant-Struktur des ersten Klangs und die breitbandige Art des zweiten Klangs sind leicht zu unterscheiden. Fig. 8b zeigt eine entsprechende Fläche für zwei Impulsgeräusche, wobei die Wirkung der Vorwärtsmaskierungsstufe 105 aus Fig. 7 in den exponentiellen Abfällen darin deutlich sichtbar ist.
- Als nächstes wiederholt der Prüfsignalgenerator 7 in Schritt 106 das Prüfsignal, wobei es dieses Mal aber an den Eingangsport 2 der Telekommunikationsvorrichtung 1 angelegt wird und deren Ausgangsport 3 an den Eingangsport 6 der Prüfvorrichtung 4 angeschlossen wird. Die Rechenstufen 101-105 werden dann wiederholt, um eine entsprechende Fläche für das von der Telekommunikationsvorrichtung empfangene Signal zu berechnen.
- Nach der Berechnung der Wirkung des ursprünglichen Prüfsignals auf das Ohr (der Anregung) und der Ausgangsgröße der Telekommunikationsvorrichtung (dem verzerrten Prüfsignal) entspricht die Differenz in bezug auf das Ausmaß, in dem die zwei das Ohr anregen, dem Verzerrungspegel des Prüfsignals, wie es durch das menschliche Hörsystem wahrgenommen wird. Dementsprechend wird die Amplitudenübertragungsfunktion der Telekommunikationsvorrichtung für jede Frequenzkomponente durch Bilden des Verhältnisses zwischen den entsprechenden Bandpaßamplituden (oder wo, wie in den Fig. 8a oder 8b, die Bandpaßamplituden auf einer dB-Skale dargestellt sind, durch Bilden der Differenz zwischen der Amplitude in dBs) berechnet. Zur Vermeidung eines Gesamtverstärkungsterms in der Übertragungsfunktion, der für die durch die Telekommunikationsvorrichtung erzeugte wahrgenommene Verzerrung irrelevant ist, kann jeder Bandpaßterm durch Dividieren (oder, wenn in dBs dargestellt, durch Subtrahieren) durch die über alle Bandpaßfilterausgänge über alle zeitlichen Abschnitte in der Prüfsignalfolge gemittelte Amplitude in Schritt 107 normiert werden.
- Falls das ursprüngliche Prüfsignal und die Ausgangsgröße der Telekommunikationsvorrichtung 1 bis auf eine Gesamtpegeldifferenz völlig gleich sind (d. h., falls die Telekommunikationsvorrichtung 1 keine Verzerrung einführt), ist das Verhältnis zwischen jeder Bandpaßfilter- Ausgangsgröße der zwei Signale eins, während die logarithmische Amplitudendifferenz in dBs null sein wird; dementsprechend wäre die Fig. 8a oder Fig. 8b entsprechende graphische Differenzdarstellung zu allen Zeiten und in allen Schrittweitenbändern vollständig flach. Irgendeine Abweichung wird durch eine Verzerrung in der Telekommunikationsvorrichtung verursacht. Additive Verzerrungsfehler erscheinen relativ zu dem unverzerrten Durchschnittspegel als Spitzen, während Signalverluste als Senken erscheinen.
- Die Bedeutung dieser Fehler für die Wahrnehmung hängt nicht direkt von ihrer Amplitude, sondern von der Lautstärke ab, die eine nichtlineare Funktion der Amplitude und eine Funktion der Frequenz ist. Die Berechnung der wahrgenommenen Lautstärke ist in dem Internationalen Standard ISO 532B gegeben. Jedoch gilt diese Spezifizierung für zweiohrigen Klang, während es für einohrigen Klang (wie üblicherweise in Telephonieanwendungen festgestellt wird) möglich ist, eine einfachere Berechnung der Lautstärke auf der Grundlage der in der CCITT-Empfehlung P79 (Blue Book Bd. V, Melbourne, 1988 CCITT) gegebenen bestehenden Wahrnehmungsgewichte für die Lautstärke der einohrigen Telephonie zu verwenden. Dieses Verfahren der Schätzung der Fehlerlautstärke berücksichtigt die Tatsache, daß Fehler bei einigen Frequenzen leichter wahrgenommen werden und ihnen somit ein größeres Gewicht gegeben wird als jene bei anderen Frequenzen. Für jeden Zeitabschnitt in der Signalfolge wird in dieser Ausführung ein Fehlerbetrag wie folgt berechnet:
- Fehlerltstt = 0,8
- Ern * 10(-0,0175*WSn),
- wobei Fehlerltstt die Fehlerlautstärke zur Zeit t für ein schmalbandiges Modell der Fehleranregung zwischen 200 Hz und 4 kHz ist (wobei die Teile +ve und -ve getrennt berechnet werden),
- n das n. 1/3-Oktavenband von 200 Hz bis 4 kHz,
- Ern die Fehleramplitude in dB,
- WSn die SLR-Wichtung für die n. Frequenz,
- ist, wobei die aus der P79-Empfehlung abgeleiteten Wichtungskoeffizienten wie in Fig. 9 gezeigt sind.
- Für ein Breitbandtelephoniemodell, das alle 20 Bandpfadausgänge verwendet, wird die entsprechende Fehlerlautstärke wie folgt berechnet:
- Fehlerltstt = 1,28
- Ern * 10(-0,0175*WSn)
- In diesem Fall schließt der Wert von n alle 20 Bänder von 100 Hz bis 8 kHz ein.
- Der additive Fehler (positive Fehler) und die Defizitfehler (negative Fehlerwerte) werden getrennt aufsummiert, um positive und negative Zwischensummen zu ergeben.
- Wie in Fig. 10 gezeigt, ist das Ergebnis des Rechenschritts 109 eine zeitliche Folge von Zeitabschnitts- Fehlerlautstärkewerten. In Schritt 110 wird die Eignung oder Nichteignung der Telekommunikationsvorrichtung in dieser Ausführung direkt aus den in Fig. 10 gezeigten Daten festgestellt, indem z. B. der Spitzenfehlerlautstärkewert und/oder der Durchschnittsfehlerlautstärkewert genommen wird. Eines oder beide dieser Kriterien werden dann in Schritt 111 als das Verzerrungsmaß der Telekommunikationsvorrichtung 1 an den Ausgangsport 9 ausgegeben.
- In der zweiten Ausführung ist die Analyseeinheit 8 die gleiche wie in der ersten Ausführung oder dieser ähnlich. Jedoch verwendet die Prüfsignalerzeugungseinheit 7 nicht das P50-Prüfsignal, sondern erzeugt statt dessen einen anderen Typ eines künstlichen sprachähnlichen Prüfsignals.
- Während das P50-Prüfsignal für viele Zwecke akzeptabel ist, wird das Fehlen eines vollen Bereichs von Reibeklängen beobachtet. Weiterhin besitzt es eine recht reguläre und monotone Langzeitstruktur, die eher wie eine Vokal- Konsonant-Vokal-Konsonant...-Folge klingt. Da jedoch viele Telekommunikationssysteme, wie oben diskutiert, zeitabhängige Elemente wie etwa automatische Verstärkungsregelungen oder Sprachschalter umfassen, hängt die an irgendeinen gegebenen Abschnitt des Prüfsignals angelegte Verzerrung teilweise von dem vorhergehenden Abschnitt des Prüfsignals ab; mit anderen Worten, von dem Kontext jenes Abschnitts des Sprachsignals in der zeitlichen Folge des Signals als Ganzes ab.
- Dementsprechend wird in dieser Ausführung eine (aus den mehreren zehn bekannten Phonemen gewählte) kleine, repräsentative Teilmenge von Sprachsegmenten verwendet, wobei ein Prüfsignal aus diesen in verschiedener Kontextfolge zusammengesetzten Klängen konstruiert wird. Da die Verzerrung gemessen wird, ist es wichtiger, daß die Prüffolge Folgen von Klängen enthalten sollte, die relativ ungleich zueinander sind oder allgemeiner, wenn einer auf den anderen folgt, relativ wahrscheinlich eine Verzerrung hervorrufen. In einer einfacheren Form dieser Ausführung könnte das Prüfsignal jedes der gewählten Abschnitte enthalten, wobei es durch einen Aufbereitungsabschnitt mit einem Präfix versehen ist, das von einem hohen, tiefen oder Nullpegel gewählt wurde, so daß das Prüfsignal jedes repräsentative Sprachsegment (Phonem) zum Prüfen nach den Präfixklängen verschiedener Pegel freigibt. Die Länge des Präfixsignals wird in der Weise gewählt, daß es sich über die Zeitkonstanten des geprüften Systems erstreckt; z. B. brauchen die Codec-Anpassung und die aktive Verstärkungsregelung größenordnungsmäßig einigen Sekunden, während die vorübergehende Antwort eines Sprachumsetzers in der Größenordnung von einigen Millisekunden liegt.
- In einer dritten Ausführung der Erfindung arbeitet der Prüfsignalgenerator 7 entweder in der gleiche Weise wie in der ersten oder wie in der zweiten Ausführung. Jedoch unterscheidet sich der Betrieb der Analyseeinheit 8 in den Schritten 102 bis 110.
- Obgleich festgestellt wurde, daß die logarithmisch beabstandeten Filter der ersten Ausführung eine sinnvolle Näherung an die Schrittweitenskale des menschlichen Ohrs sind, wird festgestellt, daß eine noch bessere Leistung durch die Verwendung von Filtern gegeben ist, die (wie oben diskutiert) auf einer Bark-Skale einen Abstand von Ein-Bark-Intervallen besitzen. Dementsprechend sind die zwanzig Bandpaßfilter in Schritt 102 gerundete Exponentialfilter (Roex-Filter), die auf der Schrittweitenskale in einem Bark-Intervall gleich beabstandet sind. Die gerundete Exponentialfunktion ist in "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns", (J. Acoust. Soc. Am., 74, 750-753, 1983), B. C. J. Moore und M. R. Glasburg beschrieben.
- Anstatt alle vier Millisekunden die Durchschnittssignalamplitude in jedem Band zu berechnen, wird die Signalamplitude für die verschiedenen Bänder in dieser Ausführung über verschiedenen Mittelungsperioden berechnet, wobei für das Band mit der höchsten Schrittweite über zwei Millisekunden gemittelt wird und für das Band mit der niedrigsten Schrittweite über 48 Millisekunden gemittelt wird und wobei für die Zwischenbänder über Zwischenmittelungszeiten gemittelt wird. Es wird festgestellt, daß die Änderung der zeitlichen Auflösung in Abhängigkeit von der Schrittweite (oder allgemein von der Frequenz) zum Auflösen über ein längeres Intervall bei geringeren Frequenzen eine wesentlich verbesserte Leistung gibt.
- Für die nachfolgende Verarbeitung wird wie zuvor für jeden 2 Millisekunden-Zeitabschnitt eine Anordnung von Bandpaßfilter-Ausgangswerten erzeugt. Für Bänder unterhalb der höchsten Schrittweite werden die Werte für Zwischenzeitabschnitte mehr als einmal wiederholt (z. B. wird für das Band mit der niedrigsten Schrittweite jeder Wert während der 2 Millisekunden-Zeitabschnitte zwischen jedem 48 Millisekunden-Durchschnittsamplitudenwert vier- undzwanzigmal wiederholt). Alternativ kann zwischen aufeinanderfolgenden Werten, anstatt diese lediglich zu wiederholen, eine numerische Interpolation ausgeführt werden.
- Die Schritte 103-106 sind die gleichen wie in der ersten Ausführung (mit der Einstellung numerischer Konstanten, die die anderen Filterantworten reflektieren).
- Anstelle der Berechnung der Lautstärke der Verzerrung wird in dieser Ausführung ein anderes Prüfmaß abgeleitet, das sich enger auf das subjektive "Hörbemühen"-Maß YLE bezieht.
- Die Abfolge von Mengen von Bandpaß-Höranregungswerten (die einer Fläche längs der Zeit- und Schrittweitenachse entsprechen) wird in zusammenhängende Sektoren mit einer Länge von 96 Millisekunden (d. h. in 48 aufeinanderfolgende 2 Millisekundenabschnitte) unterteilt, um in der Weise für das Band mit der geringsten Schrittweite mindestens zwei verschiedene Werte zu umfassen. Der Gesamtbetrag des Fehlers oder der Fehleraktivität wird als
- Fehleraktivität EA = 10log
- c(i, j)
- berechnet, wobei c(i, j) der Fehlerwert in dem i. zeitlichen Abschnitt und in dem j. Schrittweitenband des zu analysierenden Fehlerflächensektors ist.
- Dies ergibt eine Anzeige des Absolutbetrags der vorhandenen Verzerrung.
- Dann wird die Verteilung des Fehlers über der Zeit und über der Schrittweite (oder eher die Entropie der Verzerrung, die dem reziproken Wert des Ausmaßes entspricht, in dem die Energie verteilt ist) wie folgt berechnet:
- Fehlerentropie EE =
- a(i, j) * ln (a(i, j),
- wobei a(i, j) =
- ist.
- Der Logarithmus-Term in dem obigen Ausdruck steuert das Ausmaß, in dem die Verteilung der Energie die Entropie EE beeinflußt, wobei er als eine nichtlineare Verdichtungsfunktion wirkt.
- Es wird festgestellt, daß das Fehleraktivitäts- und Fehlerentropiekriterium zusammen gut dem subjektiv wahrgenommenen Verzerrungspegel entsprechen, da der Hörer einen hohen Fehlerpegel erheblich stärker wahrnehmbar finden wird, wenn er, anstatt über die Schrittweite und über die Zeit verteilt zu sein, in einer einzelnen Schrittweite über einen kurzen Zeitraum konzentriert ist. Dementsprechend wird in dieser Ausführung, wie in Fig. 11 gezeigt, anstatt in dem Schritt 109 aus Fig. 7b die Lautstärke zu berechnen, ein Schritt 119 der Berechnung der Menge und der Verteilung (der Aktivität und der Entropie) der Verzerrung ausgeführt.
- In dem Schritt 110 können die zwei Maße getrennt Schwellen unterworfen werden, oder sie können kombiniert werden, wobei das kombinierte Maß einer Schwelle unterworfen wird. Zum Beispiel können sie zusammen mit geeigneten Wichtungen in einem weiteren Schritt aufsummiert oder miteinander multipliziert werden.
- In dieser Ausführung kann das Sprachsignal wie in der dritten Auswertung entweder gemäß der ersten Ausführung oder gemäß der zweiten Ausführung erzeugt werden. Jedoch simuliert die Analyseeinheit 8, anstatt die obenbeschriebenen Maskierungsberechnungen auszuführen, direkt das menschliche Ohr, wie es z. B. in "Digital Filter Simulation of the Basilar Meinbrane", Computer Speech and Language, Nr. 3, 1989, Anibikairajh, Black und Linggard (die hier in ihrer Gesamtheit als Literaturverweis eingefügt ist) beschrieben ist. Ein solches Modell wird als Eingangsgröße das Signal von dem ADC 81 empfangen, das Signal in mehrere Frequenzbänder aufspalten und in jedem zeitlichen Abschnitt, der den Wirkungen auf Teile der menschlichen Hörstruktur des verzerrten Signals von der Telekommunikationsvorrichtung 1 entspricht, eine Reihe von Ausgangsgrößen erzeugt. Die Ausgängsgrößen des Modells werden dann durch eine geeignete Verarbeitungs- und Entscheidungslogik (z. B. durch ein Neuronennetz oder durch einen Qualitativaussagen-Logikcontroller) auf der Grundlage einer empirisch abgeleiteten Korrelation mit tatsächlichen Hörerantworten kombiniert, um ein Signal bereitzustellen, das die Bedeutung der Verzerrung in dem Signal für die Wahrnehmung angibt.
- Aspekte des Analyseverfahrens dieser Ausführung könnten ebenfalls mit anderen Prüfsignalen (z. B. mit der wirklichen menschlichen Sprache) verwendet werden.
- In den Fig. 12 bis 16 wird nun die Darstellung verschiedener Typen von Telekommunikationsvorrichtungs-Verzerrungen des Prüfsignals aus Fig. 8a durch die erste und durch die zweite Ausführung der Erfindung gezeigt.
- Fig. 12a zeigt die durch eine momentane Amplitudenverzerrung erzeugte Fehleranregungsfläche, die durch Addieren von Termen zweiter und dritter Ordnung mit niedriger Amplitude zu dem Signal erzeugt wurde. Durch einen menschlichen Hörer wurde die Verzerrung als "kaum hörbar" charakterisiert. Wie in Fig. 12b gezeigt, ist zu sehen, daß die Fehlerlautstärkezahlen klein und zumeist positiv sind.
- Fig. 13a zeigt die entsprechende Fehleramplitudenfläche für eine voll hörbare nichtlineare Verzerrung des gleichen Typs, aber mit einem höheren Wert von Termen zweiter und dritter Ordnung. Die Amplitude des Fehlers und die Fehlerlautstärke (Fig. 13b) sind beide viel größer. Außerdem ist zu sehen, daß die Mehrheit der Verzerrungslautstärke mit dem stimmhaften Teil des Prüfsignals aus Fig. 8a zusammenfällt, da dieser Formanttöne geringer Frequenz enthält, deren Harmonische für die Wahrnehmung von Bedeutung sind.
- In den Fig. 14a und 14b sind die Wirkungen der Verzerrung einer modulierten Rausch-Bezugseinheit (MNRU) gezeigt. Die MNRU-Verzerrung ist in Anhang A der CCITT-Empfehlung P81 beschrieben und in der Weise konstruiert, daß sie theoretisch der durch eine einzelne A-Gesetz-PCM-Stufe (der Art, wie sie in Telekommunikationssystemen breit verwendet wird) eingeführten Verzerrung entspricht. Durch einen menschlichen Hörer wurde der Verzerrungspegel als vollständig hörbar charakterisiert. Aus Fig. 14a ist wieder zu sehen, daß die Wahrnehmungsverzerrung vorwie gend mit Formanten in dem stimmhaften Teil des Prüfsignals verknüpft ist.
- In den Fig. 15a und 15b, in denen eine Nulldurchgangsverzerrung (d. h. eine Verzerrung der Art y = mx + c für x größer als null und y = mx - c für x kleiner als null) geliefert wird, werden keine Signale geringer Amplitude gesendet, so daß der stimmlose Klang niedrigerer Energie in dem zweiten Teil des Prüfsignals drastisch gedämpft wird. Die Fig. 15a und 15b legen somit eine sehr bedeutsame subjektive Wirkung dieser Verzerrungsart nahe, was der Reaktion des menschlichen Hörers entspricht.
- Schließlich zeigen die Fig. 16a und 16b die Wirkungen einer Sprachaktivitäts-Auswerteschaltung mit einer Einsetzzeit von 50 Millisekunden. Da das Signal abgeschnitten wurde, gibt es in dem Anfangsteil des Signals eine große negative Fehlerlautstärke. Die folgende positive Fehlerlautstärke wird durch das Überschwingen oder durch die Ausregelung verursacht. Die Fehlerlautstärkewerte geben einen hohen Pegel wahrgenommener Verzerrung an, der mit der Antwort des menschlichen Hörers übereinstimmt.
- Aus dem vorstehenden ist klar, daß zu den obenbeschriebenen Ausführungen ohne Änderung des Betriebsprinzips der Erfindung viele Abwandlungen vorgenommen werden können. Falls die Telekommunikationsvorrichtung z. B. für den Empfang einer digitalen Eingangsgröße beschaffen ist, kann auf den DAC 71 verzichtet werden. Das Signal von dem Ausgangsport 5 könnte in digitaler Form an den Eingangsport 2 der Telekommunikationsvorrichtung geliefert werden, wobei auf den ADC 81 in ähnlicher Weise verzichtet werden kann. Alternativ könnte an dem Ausgangsport 5 ein elektromechanischer Umsetzer bereitgestellt und das Signal als ein Tonsignal geliefert werden. In dem letzteren Fall kann das Prüfsignal über einen künstlichen Mund, wie er in der CCIT P.51 Recommendation on Artificial Ear and Artificial Mouth, Bd. 5, Rec P.51, Melbourne 1988 und der früheren UK-Patentanmeldung GB2218299 (8730346) diskutiert ist, geliefert werden. Ähnlich könnte das verzerrte Sprachsignal über eine Künstliches-Ohr-Akustikstruktur, wie sie in der obigen CCITT-Empfehlung und in unserer früheren UK-Patentanmeldung GB2218300 (8730347) beschrieben ist, empfangen werden. Dies würde die in dem Schritt 101 erforderliche Filterung reduzieren.
- Obgleich in den obenbeschriebenen Ausführungen für die zeitliche Maskierung ein einzelnes Abfallprofil beschrieben wird, kann es in alternativen Ausführungen der Erfindung zweckmäßig sein, für die Vorwärts- (und Rückwärts- )Maskierung mehrere (z. B. 2) Abfallraten bereitzustellen und die erforderliche Abfallrate in Abhängigkeit von der Dauer des Maskierungsklangs (d. h. von der Anzahl der zeitlichen Abschnitte, über denen die Amplitude in einem der Durchlaßbereiche einen vorgegebenen Pegel überschreitet) zu wählen. Zum Beispiel können durch
- y = 58,4039 * 10 (-0,0059x)
- y = 55,5955 * 10 (-0,0163x)
- Maximal- und Minimalabfälle definiert werden (die einer Dauer von 200 Millisekunden bzw. 5 Millisekunden entsprechen).
- Obgleich hier Verbindungen zu einer tatsächlichen Telekommunikationsvorrichtung beschrieben wurden, wäre es ebenso möglich, eine Computervorrichtung in der Weise zu programmieren, daß sie die durch die Telekommunikationsvorrichtung eingeführten Verzerrungen simuliert, da viele solcher Verzerrungen (z. B. jene infolge von VADs oder Codecs) relativ leicht zu charakterisieren sind. Dementsprechend erstreckt sich die Erfindung in ähnlicher Weise auf Ausführungen, in denen ein Signal an eine solche Simulationsvorrichtung geliefert und die simulierte verzerrte Ausgangsgröße der Telekommunikationsvorrichtung verarbeitet wird. In dieser Weise kann die Eignung der Kombination vieler komplizierter und nichtlinearer Kommunikationsvorrichtungen für einen menschlichen Hörer vor der Montage oder vor dem Anschluß einer solchen Vorrichtung auf dem Gebiet modelliert werden.
- Obgleich die Analyseeinheit 8 und der Prüfsignalgenerator 7 als getrennte Hardware beschrieben wurden, könnten sie in der Praxis durch einen einzelnen geeignet verarbeiteten Digitalprozessor realisiert werden; in ähnlicher Weise könnte der Telekommunikationsvorrichtungs-Simulator, auf den in der obigen Ausführung Bezug genommen wird, durch den gleichen Prozessor geliefert werden.
- Obgleich die Analyseeinheit 8 in den obenbeschriebenen Ausführungen das Prüfsignal von dem Prüfsignalgenerator 7 empfängt und analysiert, könnte die Analyseeinheit 8 in der Praxis die Anregungsdaten speichern, die zuvor durch eine frühere Analyse für die Prüffolge oder für jede der mehreren Prüffolgen abgeleitet wurden. Somit braucht die Analyseeinheit in solchen Ausführungen nicht selbst so beschaffen zu sein, daß sie das unverzerrte Prüfsignal analysiert.
- In den obenbeschriebenen Ausführungen können aus den entsprechend den Fig. 11a, 13a, 14a, 15a und 16a berechneten Daten leicht andere Maße der Signalverzerrung als die Fehlerlautstärke, die Fehleraktivität oder die Fehlerentropie abgeleitet werden. Tatsächlich ist die Lautstärke der Verzerrung nur ein Maß ihrer Wirkung auf einen menschlichen Hörer; andere sind die Ermüdung des Hörers und der Höraufwand. Zum Beispiel können die gemäß der obenbeschriebenen Ausführungen berechneten Verzerrungs- oder Fehlerdaten als Eingangsgrößen in einen statistischen Klassifikator, in ein Neuronennetz oder in eine Qualitativaussagen-Logikmaschine mit Parametern verwendet werden, die in Übereinstimmung mit empirisch durch Vergleichsprüfungen mit rein menschlichen Hörern abgeleiteten Parametern arbeiten.
- Ungeachtet dessen, daß der Begriff "Phonem" in seinem normalen Gebrauch einen durch seinen Sprachkontext modifizierten Klang bezeichnen kann, wird er in diesem Dokument der Zweckmäßigkeit halber zur Angabe eines einzelnen, wiederholbaren, menschlichen Sprachklangs verwendet.
- Wenn nicht das Gegenteil angegeben oder offensichtlich ist, können die Merkmale der obigen Ausführungen in anderen Weisen als jenen, die hierin genau geschildert sind, kombiniert werden.
- Obgleich sich die obenbeschriebenen Ausführungen auf die Prüfung einer Telekommunikationsvorrichtung beziehen, ist die Anwendung neuer Aspekte der Erfindung auf die Prüfung oder Analyse anderer Sprach-Transportvorrichtungen nicht ausgeschlossen.
Claims (33)
1. Prüfvorrichtung zum Prüfen einer Anlage zum
Behandeln von Sprachsignalen, mit einer Einrichtung (7)
zum Liefern eines Prüfsignals sowie einer
Analyseeinrichtung (8) zum Empfangen eines verzerrten Signals, das dem
Prüfsignal entspricht, wenn es von der zu prüfenden
Anlage (1) verzerrt wird, und zum Analysieren des
verzerrten Signals, um ein Verzerrungswahrnehmungsmaß zu
erzeugen, das das Ausmaß angibt, in dem die Verzerrung
des Signals für einen menschlichen Hörer wahrnehmbar sein
wird,
dadurch gekennzeichnet, daß die
Analyseeinrichtung (8) eine Einrichtung, die so beschaffen ist, daß sie
das verzerrte Signal filtert, um mehrere bandbegrenzte
Zeitbereich-Komponentensignale zu erzeugen, die
Bandbreiten besitzen, die sich mit der Frequenz ändern, sowie
eine Einrichtung enthält, die für jedes solche
Komponentensignal mehrere Werte
(Durchschnittssignalamplitudenwerte) erzeugt, wobei jeder Amplitudenwert mit einem
entsprechenden zeitlichen Abschnitt des Signals in
Beziehung steht.
2. Vorrichtung nach Anspruch 1, in der die
Komponentensignal-Bandbreiten so gewählt werden, daß sie gleichen
Maskierungsamplituden für in jedem Band zentrierte
Signale entsprechen.
3. Vorrichtung nach Anspruch 1 oder Anspruch 2, in
der die Komponentensignal-Bandbreiten auf einer
logarithmischen Frequenzskala angenähert gleich sind.
4. Vorrichtung nach Anspruch 1 oder Anspruch 2, in
der die Komponentensignal-Bandbreiten auf einer Bark-
Skala ungefähr gleich sind.
5. Vorrichtung nach irgendeinem der Ansprüche 1 bis
4, in der die Analyseeinrichtung (8) so beschaffen ist,
daß sie für jedes Komponentensignal die
Maskierungswirkung schätzt, die dieses Komponentensignal für das
menschliche Ohr erzeugen würde.
6. Vorrichtung nach irgendeinem vorangehenden
Anspruch, in der die Analyseeinrichtung (8) so beschaffen
ist, daß sie die Wirkung, die die Verzerrung im
menschlichen Ohr erzeugen würde, unter Berücksichtigung der
zeitlichen Dauer der Wirkung schätzt.
7. Vorrichtung nach Anspruch 6, in der die
Analyseeinrichtung (8) so beschaffen ist, daß sie aus dem
Prüfsignal und/oder aus dem verzerrten Signal eine zeitliche
Folge aufeinanderfolgender, verarbeiteter
Signalabschnitte erzeugt, wobei der Wert wenigstens einiger
Signalabschnitte in Abhängigkeit von einem Abschnitt des
Prüfsignals und/oder des verzerrten Signals, die den
Signalabschnitten vorhergehen und/oder nachfolgen,
erzeugt wird.
8. Vorrichtung nach irgendeinem vorangehenden
Anspruch, ferner mit einer Einrichtung zum Berechnen der
zeitlichen Maskierung des verzerrten Signals, indem für
jeden von mehreren aufeinanderfolgenden zeitlichen
Abschnitten jedes bandbegrenzten Zeitbereich-
Komponentensignals die Differenz zwischen dem verzerrten
Signal und einer entsprechend berechneten
Prüfsignalkomponente gebildet wird; und einer Einrichtung, die ein
Verzerrungswahrnehmungsmaß (EA) erzeugt, das das Ausmaß
angibt, in dem die Verzerrung des Signals für einen
menschlichen Hörer wahrnehmbar sein wird, indem sie die
Differenzen über mehrere der zeitlichen Abschnitte der
Komponentensignale mißt.
9. Vorrichtung nach Anspruch 8, wobei die
Spektralkomponentenbänder ungefähr um die gleiche Schrittweite
beabstandet sind und wobei die
Verzerrungsmaß-Meßeinrichtung ein Maß EE der statistischen Verteilung der
Differenzen über den zeitlichen Abschnitten und den
Spektralkomponenten erzeugt.
10. Prüfvorrichtung nach irgendeinem der Ansprüche 1
bis 9, wobei das durch jeden Abschnitt repräsentierte
Zeitintervall für Komponentensignale mit geringerer
Frequenz länger als für Komponentensignale mit höherer
Frequenz ist.
11. Vorrichtung nach irgendeinem vorangehenden
Anspruch, in der die Analyseeinrichtung (8) so beschaffen
ist, daß sie die Wirkung, die im menschlichen Gehörsystem
durch das Prüfsignal erzeugt würde, schätzt und daraus
die Wirkung schätzt, die im menschlichen Gehörsystem
durch die Verzerrung erzeugt würde.
12. Vorrichtung nach Anspruch 11, in der die
Analyseeinrichtung (8) so beschaffen ist, daß sie die Wirkung
schätzt, die im menschlichen Gehörsystem durch das
verzerrte Signal erzeugt würde, und die Differenz zwischen
der Wirkung und derjenigen, die durch das Prüfsignal
hervorgerufen wird, bestimmt, und das
Verzerrungswahrnehmungsmaß (EA) in Abhängigkeit von dieser Differenz
erzeugt.
13. Vorrichtung nach irgendeinem vorangehenden
Anspruch, in der die Analyseeinrichtung (8) so beschaffen
ist, daß sie das Verzerrungswahrnehmungsmaß (EA) in der
Weise erzeugt, daß es von der wahrnehmbaren Lautstärke
der Verzerrung und nichtlinear von der Amplitude der
Verzerrung abhängt.
14. Vorrichtung nach irgendeinem der Ansprüche 8 bis
13, in der die Analyseeinrichtung (8) so beschaffen ist,
daß sie ein Maß (EE) der statistischen Verteilung des
Verzerrungswahrnehmungsmaßes (EA) über die zeitlichen
Abschnitte und Spektralkomponentensignale erzeugt.
15. Vorrichtung nach irgendeinem der Ansprüche 8 bis
14, in der die Analyseeinrichtung (8) so beschaffen ist,
daß sie aus den Differenzen zwischen den Zeitabschnitten
der Prüfsignalkomponenten und den entsprechenden
Abschnitten der verzerrten Signalkomponenten, die
entsprechend der relativen Lautstärke von Klängen mit
Referenzamplitude in Schrittweiten, die den
Komponentensignalen entsprechen, gewichtet sind, eine gewichtete Summe
bildet und das Verzerrungswahrnehmungsmaß (EA) in
Abhängigkeit von der gewichteten Summe erzeugt.
16. Vorrichtung nach irgendeinem der Ansprüche 1 bis
15, in der die Analyseeinrichtung (8) so beschaffen ist,
daß sie für jedes Komponentensignal eine Zeitfolge aus
Komponentenwerten erzeugt, wovon jede
Komponentensignalwerte über ein Zeitintervall repräsentiert, wobei das
Zeitintervall für Komponentensignale mit geringerer
Frequenz dasjenige für Komponentensignale mit höherer
Frequenz übersteigt.
17. Vorrichtung nach irgendeinem vorangehenden
Anspruch, in der die Analyseeinrichtung (8) so beschaffen
ist, daß sie das Prüfsignal und/oder das verzerrte Signal
entsprechend einem Filter filtert, das so berechnet ist,
daß es der Übertragungsfunktion von Abschnitten des
menschlichen Gehörsystems zwischen dem
Telekommunikationsgerät und dem Innenohr entspricht.
18. Vorrichtung nach Anspruch 17, in der die
Analyseeinrichtung so beschaffen ist, daß sie eine von mehreren
verschiedenen Übertragungsfunktionen, die jeweils
verschiedenen Sprachsignal-Transportanlagen entsprechen,
wählen kann.
19. Vorrichtung nach irgendeinem vorangehenden
Anspruch, ferner mit einer künstlichen Ohrstruktur zum
Empfangen des verzerrten Signals als ein Schaltsignal und
zum akustischen Verarbeiten des verzerrten Signals vor
der Analyse durch die Analyseeinrichtung (8).
20. Vorrichtung nach irgendeinem vorangehenden
Anspruch, in der der Signalgenerator (7) ferner eine
künstliche Mundstruktur enthält, die das Prüfsignal vom
Signalgenerator in akustischer Form empfängt und das
Prüfsignal akustisch verarbeitet, bevor es an die zu
prüfende Anlage geliefert wird.
21. Vorrichtung nach irgendeinem vorangehenden
Anspruch, in der der Signalgenerator (7) einen digitalen
Speicher zum Speichern von Sprachdaten sowie eine
Einrichtung (72) zum Wiederherstellen eines Sprachsignals
aus den gespeicherten Sprachdaten enthält.
22. Vorrichtung nach Anspruch 21, in der die
gespeicherten Sprachdaten digitalisierte Klangsignale enthalten
und die Wiederherstellungseinrichtung (72) einen
Digital/Analog-Umsetzer enthält.
23. Vorrichtung nach Anspruch 22, in der der Speicher
(71) so beschaffen ist, daß er Parameter für die
Steuerung eines Sprachsynthetisierers speichert, der die
Einrichtung zum Wiederherstellen des Sprachsignals
enthält.
24. Vorrichtung nach irgendeinem vorangehenden
Anspruch, in der der Signalgenerator (7) so beschaffen ist,
daß er ein Prüfsignal erzeugt, das eine Folge enthält,
die aus einer vorgegebenen Anzahl von Sprachsegmenten
gebildet ist, die kleiner als die Anzahl gemeinsam
auftretender menschlicher Sprachphoneme ist, wobei das
Sprachsignal mehrere verschiedene Gruppen der Segmente
enthält, derart, daß jedes Segment in mehreren
verschiedenen zeitlichen Kontexten innerhalb der Folge
repräsentiert wird, so daß die Wirkung von zeitlich
veränderlichen Verzerrungen in der geprüften Anlage auf jedes
Segment unterschiedlich ist.
25. Vorrichtung nach Anspruch 24, in der der
Prüfsignalgenerator (7) so beschaffen ist, daß er den Kontext
für verschiedene der Sprachsegmente verändert, indem er
die Segmente im voraus an vorgegebene Signalabschnitte
mit mehreren verschiedenen Pegeln innerhalb einer Folge
des Prüfsignals fixiert.
26. Vorrichtung nach Anspruch 25, in der die Segmente
in der Folge in mehreren verschiedenen Kombinationen
vorhanden sind.
27. Verfahren zum Prüfen einer
Sprachsignal-Behandlungsanlage, mit den folgenden Schritten:
Liefern eines Prüfsignals an die Sprachsignal-
Behandlungsanlage;
Analysieren des Prüfsignals, wenn es durch die
Sprachsignal-Behandlungsanlage verzerrt worden ist;
Bestimmen des Ausmaßes, in dem die Verzerrung des
Signals für einen menschlichen Hörer wahrnehmbar sein
wird; und
Erzeugen eines Verzerrungswahrnehmungsmaßes, das
das bestimmte Ausmaß angibt,
dadurch gekennzeichnet, daß das Prüfsignal in
spektraler Hinsicht der menschlichen, Sprache ähnlich ist
und daß der Analyseschritt das Filtern des verzerrten
Signals umfaßt, um mehrere bandbegrenzte Zeitbereich-
Komponentensignale zu erzeugen, deren Bandbreiten sich
mit der Frequenz ändern, und
für jedes bandbegrenzte
Zeitbereich-Komponentensignal mehrere Werte (Durchschnittssignalamplitudenwerte)
erzeugt werden, wobei jeder Amplitudenwert mit einem
entsprechenden zeitlichen Abschnitt des Signals in
Beziehung steht.
28. Verfahren nach Anspruch 27, mit den folgenden
Schritten:
Erzeugen des Prüfsignals;
Schicken des Prüfsignals durch die Anlage; und
Analysieren des verzerrten Signals, das am
Ausgang der Anlage erzeugt wird.
29. Verfahren nach Anspruch 27 oder 28, ferner mit
den folgenden Schritten:
Analysieren des Ausmaßes, in dem das Prüfsignal
für einen menschlichen Hörer wahrnehmbar wäre,
Ableiten eines Maßes für die Differenz zwischen
der Wahrnehmung des Prüfsignals und derjenigen des
verzerrten Signals; und
Ableiten des Verzerrungswahrnehmungsmaßes (EA) in
Abhängigkeit von der Differenz.
30. Verfahren nach irgendeinem der Ansprüche 28 oder
29, bei dem für jedes Komponentensignal eine Schätzung
der Maskierungswirkung ausgeführt wird, die das
Komponentensignal im menschlichen Ohr erzeugen würde.
31. Verfahren nach Anspruch 27, 28, 29 oder 30, mit
den folgenden Schritten:
Berechnen der zeitlichen Maskierung des
verzerrten Signals, um für jeden der zeitlichen Abschnitte jedes
Komponentensignals die Differenz zwischen dem verzerrten
Signal und einem entsprechenden Abschnitt einer
Komponente des Prüfsignals zu bilden; und
Ableiten eines Maßes (EA) der Differenzen über
die zeitlichen Abschnitte und die Komponentensignale.
32. Verfahren nach Anspruch 31, bei dem die
bandbegrenzten Komponentensignale ungefähr um die gleiche
Schrittweite beabstandet sind und wobei die
Verzerrungswahrnehmung-Meßeinrichtung ein Maß (EE) der statistischen
Verteilung der Differenzen über die zeitlichen Abschnitte
und die Komponentensignale erzeugt.
33. Verfahren nach irgendeinem der Ansprüche 27 bis
32, mit dem Schritt des Erzeugens einer zeitlichen Folge
aus aufeinanderfolgenden Werten, die
Komponentensignalpegel in vorgegebenen Zeitintervallen darstellen, wobei die
Zeitintervalle für Komponentensignale mit geringeren
Frequenzen länger als für Komponentensignale mit höherer
Frequenz sind.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB929213459A GB9213459D0 (en) | 1992-06-24 | 1992-06-24 | Characterisation of communications systems using a speech-like test stimulus |
GB939312758A GB9312758D0 (en) | 1993-06-21 | 1993-06-21 | Speech-like test stimulus |
PCT/GB1993/001322 WO1994000922A1 (en) | 1992-06-24 | 1993-06-24 | Method and apparatus for objective speech quality measurements of telecommunication equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69321590D1 DE69321590D1 (de) | 1998-11-19 |
DE69321590T2 true DE69321590T2 (de) | 1999-04-01 |
Family
ID=26301121
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69321590T Expired - Lifetime DE69321590T2 (de) | 1992-06-24 | 1993-06-24 | Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungen |
DE1993634139 Expired - Lifetime DE69334139T2 (de) | 1992-06-24 | 1993-06-24 | Testen von Nachrichtenübertragungsgerät |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1993634139 Expired - Lifetime DE69334139T2 (de) | 1992-06-24 | 1993-06-24 | Testen von Nachrichtenübertragungsgerät |
Country Status (9)
Country | Link |
---|---|
EP (2) | EP0647375B1 (de) |
JP (2) | JP3964456B2 (de) |
AU (1) | AU670950B2 (de) |
CA (2) | CA2277975C (de) |
DE (2) | DE69321590T2 (de) |
ES (1) | ES2122021T3 (de) |
HK (1) | HK1014403A1 (de) |
SG (1) | SG48927A1 (de) |
WO (1) | WO1994000922A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013005844B3 (de) * | 2013-03-28 | 2014-08-28 | Technische Universität Braunschweig | Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5890104A (en) * | 1992-06-24 | 1999-03-30 | British Telecommunications Public Limited Company | Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal |
GB9213459D0 (en) * | 1992-06-24 | 1992-08-05 | British Telecomm | Characterisation of communications systems using a speech-like test stimulus |
GB2281311B (en) * | 1993-03-29 | 1996-09-04 | Boc Group Plc | Metallurgical processes and apparatus |
EP0705501B1 (de) * | 1993-06-21 | 1999-11-17 | BRITISH TELECOMMUNICATIONS public limited company | Verfahren und vorrichtung zum testen einer fernmeldeanlage unter verwendung eines testsignals mit verminderter redundanz |
CH686752A8 (de) * | 1993-09-22 | 1996-08-15 | Ascom Tech Ag Berner Technopark | Verfahren zum Beurteilen der Übertragungsqualität einer Sprach-Übertragungsstrecke |
EP0730798A1 (de) * | 1993-11-25 | 1996-09-11 | BRITISH TELECOMMUNICATIONS public limited company | Verfahren und einrichtung zum testen einer telekommunikationsvorrichtung |
CA2148340C (en) * | 1995-05-01 | 2004-12-07 | Gianni Di Pietro | Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system |
FR2736490B1 (fr) * | 1995-07-06 | 1997-08-22 | Renault | Dispositif de test pour la prise de son d'un radiotelephone, notamment destine a etre installe dans un vehicule automobile |
GB9604315D0 (en) * | 1996-02-29 | 1996-05-01 | British Telecomm | Training process |
US6119083A (en) * | 1996-02-29 | 2000-09-12 | British Telecommunications Public Limited Company | Training process for the classification of a perceptual signal |
EP0916206B1 (de) | 1996-08-02 | 2004-10-13 | Ascom AG | Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals |
AU7342798A (en) * | 1997-05-16 | 1998-12-11 | British Telecommunications Public Limited Company | Measurement of signal quality |
US6201960B1 (en) * | 1997-06-24 | 2001-03-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech quality measurement based on radio link parameters and objective measurement of received speech signals |
GB2345077B (en) | 1997-07-23 | 2002-02-13 | Cleansorb Ltd | Methods for deposition of materials in underground reservoirs |
WO2000022803A1 (en) * | 1998-10-08 | 2000-04-20 | British Telecommunications Public Limited Company | Measurement of speech signal quality |
NL1013044C2 (nl) * | 1999-09-15 | 2001-03-16 | Koninkl Kpn Nv | Kwaliteitsmeting van spraaksignalen met echo-verstoring. |
IL153419A0 (en) | 2000-06-12 | 2003-07-06 | British Telecomm | In-service measurement of perceived speech quality by measuring objective error parameters |
WO2002037694A2 (en) * | 2000-11-01 | 2002-05-10 | Genista Corporation | SPECIAL SIGNALING FOR PERCEPTUAL QoS MEASUREMENT |
EP1244312A1 (de) | 2001-03-23 | 2002-09-25 | BRITISH TELECOMMUNICATIONS public limited company | Multimodale Erfassung von Qualität |
ATE429745T1 (de) | 2001-09-11 | 2009-05-15 | Psytechnics Ltd | Verfahren und system zur messung der genauigkeit eines übertragungskanals |
EP1376997A1 (de) * | 2002-06-24 | 2004-01-02 | Alcatel | Verfahren zum Testen und Anpassen der Audioeinheitsparameter für ein Telekommunikationssystem |
EP1534033B1 (de) * | 2003-11-24 | 2006-04-19 | Mitsubishi Electric Information Technology Centre Europe B.V. | Verfahren zum Simulieren eines Mobilkommunikationsnetzes sowie Simulationsgerät zur Durchführung des Verfahrens |
DE102004009949B4 (de) | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
EP1758358B1 (de) | 2005-08-25 | 2009-04-01 | Psytechnics Ltd | Erzeugung von Prüfsequenzen zur Sprachgütebeurteilung |
US7698144B2 (en) * | 2006-01-11 | 2010-04-13 | Microsoft Corporation | Automated audio sub-band comparison |
EP1918909B1 (de) | 2006-11-03 | 2010-07-07 | Psytechnics Ltd | Abtastfehlerkompensation |
WO2010031109A1 (en) * | 2008-09-19 | 2010-03-25 | Newsouth Innovations Pty Limited | Method of analysing an audio signal |
JP5662712B2 (ja) * | 2010-06-25 | 2015-02-04 | 日本板硝子環境アメニティ株式会社 | 音声変更装置、音声変更方法および音声情報秘話システム |
JP5679475B2 (ja) * | 2013-02-26 | 2015-03-04 | 日本電信電話株式会社 | 音量調整装置及び音量調整方法 |
JP2016062034A (ja) * | 2014-09-19 | 2016-04-25 | トヨタ自動車株式会社 | 音声分析装置 |
-
1993
- 1993-06-24 EP EP93913419A patent/EP0647375B1/de not_active Expired - Lifetime
- 1993-06-24 EP EP98200727A patent/EP0856961B1/de not_active Expired - Lifetime
- 1993-06-24 WO PCT/GB1993/001322 patent/WO1994000922A1/en active IP Right Grant
- 1993-06-24 CA CA002277975A patent/CA2277975C/en not_active Expired - Lifetime
- 1993-06-24 ES ES93913419T patent/ES2122021T3/es not_active Expired - Lifetime
- 1993-06-24 CA CA002137005A patent/CA2137005C/en not_active Expired - Fee Related
- 1993-06-24 AU AU43500/93A patent/AU670950B2/en not_active Ceased
- 1993-06-24 JP JP50215694A patent/JP3964456B2/ja not_active Expired - Lifetime
- 1993-06-24 SG SG1996003824A patent/SG48927A1/en unknown
- 1993-06-24 DE DE69321590T patent/DE69321590T2/de not_active Expired - Lifetime
- 1993-06-24 DE DE1993634139 patent/DE69334139T2/de not_active Expired - Lifetime
-
1998
- 1998-12-24 HK HK98115655A patent/HK1014403A1/xx not_active IP Right Cessation
-
2007
- 2007-03-05 JP JP2007054310A patent/JP4308278B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013005844B3 (de) * | 2013-03-28 | 2014-08-28 | Technische Universität Braunschweig | Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals |
Also Published As
Publication number | Publication date |
---|---|
CA2137005C (en) | 2000-05-23 |
EP0856961A3 (de) | 2000-09-13 |
EP0856961B1 (de) | 2007-05-09 |
EP0856961A2 (de) | 1998-08-05 |
JP3964456B2 (ja) | 2007-08-22 |
WO1994000922A1 (en) | 1994-01-06 |
EP0647375B1 (de) | 1998-10-14 |
AU4350093A (en) | 1994-01-24 |
JP4308278B2 (ja) | 2009-08-05 |
EP0647375A1 (de) | 1995-04-12 |
JP2007143202A (ja) | 2007-06-07 |
HK1014403A1 (en) | 1999-09-24 |
CA2137005A1 (en) | 1994-01-06 |
SG48927A1 (en) | 1998-05-18 |
AU670950B2 (en) | 1996-08-08 |
DE69334139T2 (de) | 2008-01-10 |
JPH08501910A (ja) | 1996-02-27 |
DE69321590D1 (de) | 1998-11-19 |
CA2277975C (en) | 2001-11-20 |
DE69334139D1 (de) | 2007-06-21 |
ES2122021T3 (es) | 1998-12-16 |
CA2277975A1 (en) | 1994-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69321590T2 (de) | Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungen | |
DE69517325T2 (de) | Tonqualitätsanalyse | |
US5621854A (en) | Method and apparatus for objective speech quality measurements of telecommunication equipment | |
AU680072B2 (en) | Method and apparatus for testing telecommunications equipment | |
DE69626115T2 (de) | Signalqualitätsbewertung | |
Huber et al. | PEMO-Q—A new method for objective audio quality assessment using a model of auditory perception | |
DE69520067T2 (de) | Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales | |
US6651041B1 (en) | Method for executing automatic evaluation of transmission quality of audio signals using source/received-signal spectral covariance | |
EP0938831B1 (de) | Gehörangepasste qualitätsbeurteilung von audiosignalen | |
DE69901894T2 (de) | Verfahren und vorrichtung zur objektiven qualitätsmessung von audiosignalen | |
DE60311619T2 (de) | Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte | |
DE60308336T2 (de) | Verfahren und system zur messung der übertragungsqualität eines systems | |
DE69421704T2 (de) | Verfahren und vorrichtung zum testen einer fernmeldeanlage unter verwendung eines testsignals mit verminderter redundanz | |
DE2826818C2 (de) | Verfahren und Vorrichtung zum Erzeugen eines künstlichen Durchschnitts-Sprechsignals | |
Hansen | Assessment and prediction of speech transmission quality with an auditory processing model. | |
DE102013005844B3 (de) | Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals | |
DE10361954B4 (de) | Hörsystem und Verfahren zur Einstellung eines solchen, Verfahren zur Erkennung von charakteristischen Schallspektren, sowie entsprechende Computerprogramme und entsprechende computerlesbare Speichermedien |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |