DE102013005844B3 - Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals - Google Patents

Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals Download PDF

Info

Publication number
DE102013005844B3
DE102013005844B3 DE201310005844 DE102013005844A DE102013005844B3 DE 102013005844 B3 DE102013005844 B3 DE 102013005844B3 DE 201310005844 DE201310005844 DE 201310005844 DE 102013005844 A DE102013005844 A DE 102013005844A DE 102013005844 B3 DE102013005844 B3 DE 102013005844B3
Authority
DE
Germany
Prior art keywords
speech signal
phonetic
frame
reference information
measurement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE201310005844
Other languages
English (en)
Inventor
Patrick Bauer
Tim Fingscheidt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technische Universitaet Braunschweig
Original Assignee
Technische Universitaet Braunschweig
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Braunschweig filed Critical Technische Universitaet Braunschweig
Priority to DE201310005844 priority Critical patent/DE102013005844B3/de
Application granted granted Critical
Publication of DE102013005844B3 publication Critical patent/DE102013005844B3/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Verfahren zum Messen der Qualität eines Mess-Sprachsignals (16), wobei das Verfahren die folgenden Schritte aufweist: a) Bereitstellen eines Referenz-Sprachsignals (6) der zeitlichen Länge t_ref in einer Speichereinheit (2), b) Bereitstellen von phonetischen Referenzinformationen (8) zu dem Referenz-Sprachsignal (6) in der Speichereinheit (2), c) Verarbeiten eines Eingangs-Sprachsignals (9) durch eine Verarbeitungseinheit (10), d) Aufnehmen des verarbeiteten Eingangs-Sprachsignals (9) mittels einer Aufnahmeeinheit (14), die ein Mess-Sprachsignal (16) der zeitlichen Länge t_mess aufnimmt, e) Zerlegen der zeitlichen Längen t_ref und t_mess in eine Mehrzahl von aufeinanderfolgenden Rahmen mit den jeweiligen zeitlichen Längen Δt_ref und Δt_mess, und Zerlegen des Referenz-Sprachsignals (6) in eine Mehrzahl von Referenz-Teilsignalen der zeitlichen Länge Δt_ref und des Mess-Sprachsignals (16) in eine Mehrzahl von Mess-Teilsignalen der zeitlichen Länge Δt_mess entsprechend den Rahmen in einer Datenverarbeitungseinheit (18), f) Zuordnen einer phonetischen Referenzinformation (8) zu jedem Rahmen in der Datenverarbeitungseinheit (18), g) Vergleichen der Referenz-Teilsignale mit den Mess-Teilsignalen und Ermitteln einer Teilabweichung für jeden Rahmen in der Datenverarbeitungseinheit (18), h) Bestimmen einer Gesamtabweichung aus den Teilabweichungen in der Datenverarbeitungseinheit (18), wobei der Einfluss der Teilabweichung eines jeden Rahmens auf die Gesamtabweichung von der dem jeweiligen Rahmen zugeordneten phonetischen Referenzinformation (8) abhängig ist, wobei die Teilabweichungen für jeden Rahmen in der Datenverarbeitungseinheit (18) in Abhängigkeit von der phonetischen Referenzinformation (8) ermittelt werden, wobei die Gesamtabweichung aus den Teilabweichungen und den dem jeweiligen Rahmen zugeordneten phonetischen Referenzinformationen bestimmt wird und wobei die Teilabweichungen der einzelnen Rahmen mit einem Gewichtungsfaktor gewichtet werden, der von der phonetischen Referenzinformation (8) abhängig ist, die den jeweiligen Rahmen zugeordnet ist, und der davon abhängig ist, wie stark eine bestimmte Abweichung in den übertragenen Signalen wahrgenommen wird.

Description

  • Die Vorrichtung betrifft ein Verfahren zum Messen der Qualität eines Sprachsignals. Die Erfindung betrifft zudem eine Vorrichtung zum Durchführen eines derartigen Verfahrens.
  • Ein erster Anwendungsbereich betrifft die Übertragung von Sprachsignalen, die heute insbesondere über digitale Übertragungswege weit verbreitet ist. Als Beispiel wären zu nennen Voice over IP (VoIP), d. h. Telefonie über das Internet, weiterhin Telefonie über mobile Kommunikationsnetze wie das Global System for Mobile Communication (GSM), das Universal Mobile Telecommunications System (UMTS) und andere Systeme der sog. 3. Generation, oder Long-Term Evolution (LTE), der Standard der 4. Generation der Mobilkommunikationsnetze. Telekommunikationsanbieter betreiben darüber hinaus sog. Backbone-Datenverbindungen, vielfach IP-gestützt, über die mittlerweile auch ein Großteil der Sprachverbindungen übertragen werden. In all den genannten Übertragungsstandards werden Sprachsignale sendeseitig quellencodiert, das heißt i. d. R. einem Sprach(en)coder zugeführt, der eine Kompression der zu übertragenden Datenmenge durchführt. Der komprimierte Bitstrom wird übertragen und empfangsseitig wieder quellendecodiert, d. h. er wird dem entsprechenden Sprachdecoder zugeführt, der aus dem komprimierten Bitstrom wieder digitale Sprachsignale rekonstruiert. Eine solche Encodierung/Decodierung (genannt Transcodierung) geschieht auf jedem Übertragungsweg mindestens einmal, kann aber bei Durchlaufen mehrerer Netze und Netztypen auch mehrfach vorkommen (Tandem). Da i. d. R. sog. verlustbehaftete Sprachcodierverfahren zum Einsatz kommen, führt jede Transcodierung zu entsprechenden Verzerrungen im empfangenen Sprachsignal. Ziel des Entwurfes von geeigneten Telekommunikationsnetzen und Sprachcodierverfahren ist es, dass das empfangene Sprachsignal in seiner Qualität dem gesendeten (Referenzsprachsignal) möglichst nahe kommt.
  • In einem anderen Anwendungsbereich wird beispielsweise Sprache in Form von Texten oder Liedern auf einem Datenträger, beispielsweise einer CD oder DVD, gespeichert, um zu einem späteren Zeitpunkt wieder abgerufen zu werden. Um auf dem jeweiligen Datenträger möglichst wenig Speicherplatz zu verwenden, sind unterschiedliche Codierungs- und Komprimierungsverfahren bekannt. Beim Aufnehmen wird das Sprachsignal dabei kodiert und in kodierter Form gespeichert. Soll das Sprachsignal abgerufen und abgespielt werden, muss das codierte Signal decodiert werden. Durch die Komprimierung des codierten Signals zum Zwecke der Speicherung kommt es hier zu einem Informationsverlust, der jedoch optimalerweise so ausgebildet sein sollte, dass für die Personen, die sich die Sprachsignale anhören, kein oder zumindest kein nennenswerter Qualitätsverlust eintritt. Dabei stellt sich oftmals die Frage, wie stark die jeweiligen Sprachsignale zum Zwischenspeichern komprimiert werden können, ohne dass es nach dem Decodieren der Sprachsignale zu einem nennenswerten Qualitätsverlust kommt. Die Original-Audiosignale bzw. -Sprachsignale geben auch hier wieder die Referenzqualität vor, die Signale nach Decodierung sollen in der Qualität der Referenzqualität möglichst nahe kommen.
  • In einem weiteren Anwendungsbeispiel werden Sprachsignale im Sender, im Übertragungsnetz oder beim Empfänger in der Qualität und/oder in der Sprachverständlichkeit verbessert. Sendeseitige Verfahren sind beispielsweise Freisprechsysteme mit akustischen Echokompensatoren oder Störgeräuschreduktionsverfahren. Im Übertragungsnetz oder im Empfänger kann eine Signalverbesserung erfolgen durch sog. Leitungsechokompensatoren und/oder ebenfalls durch Störgeräuschreduktionsverfahren. In den hier genannten Anwendungsbeispielen wird eine Qualitätsverbesserung durch die Verarbeitung angestrebt. Ein Referenzsignal bzw. eine Referenzsprachqualität kann in solchen Fällen z. B. durch ein separates Zurverfügungstellen des (nahezu) ungestörten Sendesprachsignales geschehen (also ohne Störgeräusch und ohne Echokomponente, oder z. B. mit einer aufgemischten Störgeräuschkomponente mit nur niedriger Leistung). Ziel einer Sprachsignalverbesserung ist es dann, dass das verbesserte Sprachsignal diesem Referenzsignal in der Sprachqualität nahe kommt.
  • Ein weiteres Anwendungsbeispiel ist durch die Verbesserung der Sprachqualität und oder -verständlichkeit im Übertragungsnetz oder im Empfänger mittels einer künstlichen Sprachbandbreitenerweiterung gegeben. Dies soll im folgenden skizziert werden. Beim Telefonieren wird beispielsweise ein Sprachsignal über das Übertragungsnetz übertragen. Dabei kann aus verschiedenen Gründen in der Regel jedoch nicht die volle Frequenzbandbreite übermittelt werden, sondern es werden lediglich die Signalanteile in einem Frequenzband endlicher Breite übertragen. Dabei werden beispielsweise je nach Auslegung der Grenzfrequenzen der akustischen Wandler, der Abtastrate der Analog-/Digitalwandler, und je nach verfügbarer Sprachcodierverfahren Frequenzen, die unter bzw. über einer bestimmten Grenzfrequenz liegen, herausgefiltert, so dass sie nicht mit übertragen werden. Je nach verfügbaren bzw. gewählten Grenzfrequenzen spricht man beispielsweise von schmalbandiger Sprachübertragung bei einer Bandbreite von 300 Hz bis ca. 3400 Hz, breitbandiger Sprachübertragung bei einer Bandbreite von 50 Hz bis ca. 7000 Hz und von einer Superbreitbandübertragung beispielsweise bei einer Übertragung von 50 Hz bis 14000 Hz. Je größer die übertragene Bandbreite ist, desto besser ist die grundsätzlich erzielbare Qualität der jeweiligen Übertragung. Allerdings muss dafür im Grundsatz auch eine entsprechend höhere Bitrate übertragen werden, die in der Leitung bzw. dem Übertragungskanal zur Verfügung stehen muss. Um die Qualität z. B. nur schmalbandig (300 Hz bis 3400 Hz) übertragener Sprachsignale nach der Übertragung wieder zu verbessern, wurde beispielsweise die künstliche Sprachenbandbreitenerweiterung (artificial speech bandwidth extension (ABWE)) entwickelt, bei der über bestimmte Algorithmen aus Informationen, die in den übertragenen Sprachsignalen im sog. unteren Frequenzband vorhanden sind, auf Informationen geschlossen wird, die wahrscheinlich in dem ursprünglich zu übertragenen Sprachsignal (sendeseitiges akustisches Signal) in z. B. einem oberen Frequenzband (z. B. 3400 Hz bis ca. 7000 Hz) und/oder in einem unteren Frequenzband (z. B. 50 Hz bis 300 Hz) vorhanden gewesen sind. Dadurch wird zwar die Qualität der Übertragung des Sprachsignals gesteigert, es erfolgt jedoch keine vollständige Wiederherstellung des ursprünglichen übertragenen Sprachsignals, da die auf diese Weise ergänzten Informationen bei größeren Frequenzen nur näherungsweise bekannt sind. Wurde die ABWE angewandt auf schmalbandige Sprachsignale um beispielsweise breitbandige Sprachsignale zu schätzen, nimmt man gerne das entsprechende breitbandige (oder noch höher in der Bandbreite) Sprachsignal auf Sendeseite als Referenz. In diesem Anwendungsfall würde dann das durch die ABWE verbesserte Sprachsignal in der Qualität zu vergleichen sein mit dem genannten Referenzsprachsignal. In diesem Falle können durch die digitatale Signalverarbeitung an verschiedener Stelle Abtastratenwandlungen von Mess- oder Referenzsignalen notwendig sein, die im folgenden jedoch nicht weiter ausdetailliert werden sollen, dem mit der Materie befassten Fachmann jedoch jeweils als notwendig vor Augen stehen.
  • Im Weiteren soll verallgemeinernd für die Übertragung (erste zwei Anwendungsbeispiele) und die Verbesserung (letzte zwei Anwendungsbeispiele) von Sprachsignalen der Begriff der Verarbeitung von Sprachsignalen genutzt werden. Entsprechend soll mit verarbeiten zum einen übertragen, zum anderen verbessern gemeint sein.
  • Unabhängig vom jeweiligen Anwendungsfall, der der Verarbeitung des Sprachsignals zugrunde liegt, ist es von Vorteil, die Qualität der Verarbeitung des jeweiligen Sprachsignals messen und so einordnen zu können. Hierfür sind aus dem Stand der Technik zwei prinzipiell unterschiedliche Ansätze bekannt. Bei dem ersten der beiden Ansätze wird das übertragene Sprachsignal von einer Person angehört, die die Qualität beurteilt und eine naturgemäß subjektive Bewertung abgibt. Wird dieses Verfahren von einer ausreichend großen Anzahl von Personen durchgeführt, lässt sich die Qualität unterschiedlicher Verfahren zur Verarbeitung vergleichen und einordnen. Dies hat jedoch den Nachteil, dass zum einen eine relativ große Anzahl von Personen benötigt wird, was zeit- und kostenintensiv ist, und zum anderen die Beurteilung im Detail nicht reproduzierbar ist. Da auf diese Weise subjektive Bewertungen erzielt werden, spricht man in diesem Zusammenhang von einer subjektiven Hörqualität (listening quality subjective (LQS)).
  • Die zweite prinzipiell unterschiedliche Methode zur Bestimmung der Qualität einer Verarbeitung eines Sprachsignals kommt ohne menschliche Probanden aus, die sich die verarbeiteten Sprachsignale anhören. Vielmehr wird beispielsweise auf elektronischem Weg das verarbeitete Sprachsignal mit einem Referenz-Sprachsignal verglichen. Dies ist beispielsweise von elektronischen Datenverarbeitungsanlagen durchführbar und führt zu einer objektiven Einschätzung der Qualität der Verarbeitung des Sprachsignals. Daher spricht man in diesem Fall von objektiver Hörqualität (listening quality objective (LQO)).
  • Die Art und Weise, wie ein derartiges referenzbasiertes Verfahren durchgeführt wird und wie durch ein derartiges Verfahren auf die Qualität der Verarbeitung der Sprachsignale geschlossen werden kann, ist in einer Vielzahl von unterschiedlichen, teilweise internationalen Empfehlungen und Standards festgelegt. Ein sehr aktuelles Beispiel ist der sogenannte POLQA-Standard (ITU-T P.863 [„ITU-T Recommendation P.863, Perceptual Objective Listening Quality Assessment”, ITU, Jan. 2011], bei dem ein Mess-Sprachsignal mit einem Referenz-Sprachsignal verglichen wird. Das Mess-Sprachsignal weist dabei eine zeitliche Länge t_mess auf, das Referenz-Sprachsignal weist eine zeitliche Länge t_ref auf. Diese zeitlichen Längen werden in eine Vielzahl zeitlich aufeinanderfolgender Rahmen zerlegt, die die jeweiligen Längen Δt aufweisen. Auch die beiden Sprachsignale werden diesen Rahmen entsprechend zerlegt. Anschließend wird beispielsweise eine diskrete Fourier-Transformation der beiden Signale aus dem Zeitbereich in den Frequenzbereich durchgeführt. Aus den so ermittelten Spektren kann eine Abweichung der beiden Fouriertransformierten Sprach-Teilsignale voneinander bestimmt werden. Hierzu können unterschiedlichste Kriterien, wie beispielsweise Lautstärkenunterschiede, Verschiebungen der spektralen Gewichte oder die Größe des Signal-Rauschverhältnisses herangezogen werden. Besondere Anwendung finden bei der Berechnung der Abweichung des Messsignals vom Referenzsignal sog. psychoakustische Effekte wie zeitliche und spektrale Verdeckungseffekte. Durch die Berechnung der Abweichung entstehen von der Frequenz abhängige Störungsdichten, die anschließend über die Frequenz integriert werden, um zu einer Teilabweichung, also der Störung des empfangenen Messsignals relativ zum ursprünglichen Referenzsignal innerhalb des jeweiligen Rahmens, zu gelangen.
  • Diese Teilabweichungen werden gegebenenfalls vorgeglättet und anschließend über die gesamte zeitliche Dauer t (abhängig von t_ref und t_mess), also über alle vorhandenen Rahmen mit zeitlicher Länge Δt aufsummiert. Hierbei können unterschiedliche Momente der jeweiligen Teilabweichung verwendet werden.
  • Aus den Teilabweichungen, die für die einzelnen Rahmen berechnet wurden, lässt sich somit eine Gesamtabweichung bestimmen, die ein Maß für die Qualität des jeweiligen Mess-Sprachsignals darstellt.
  • Nachteilig ist jedoch, dass das Ergebnis einer derartigen referenzbasierten objektiven Qualitätsbestimmung der Qualität des jeweiligen Sprachsignals mit dem Ergebnis einer entsprechenden subjektiven Qualitätsbestimmung durch eine ausreichend große Anzahl von Personen nicht oder zumindest nicht ausreichend bzw. nicht immer übereinstimmt. Dies bedeutet, dass bei referenzbasierten objektiven Verfahren zur Bestimmung der Qualität eines Mess-Sprachsignals in einigen Fällen unzutreffende Beurteilungen der jeweiligen Qualität getroffen werden.
  • Aus der DE 694 21 704 T2 ist ein Verfahren und eine Vorrichtung zum Testen einer Fernmeldeanlage bekannt, bei dem an stelle eines Sprachsignals ein künstlich erzeugtes Signal mit verminderter Redundanz verwendet wird. Damit kann das verwendete Signal gegenüber tatsächlichen Sprachsignalen deutlich verkürzt werden. Um der in der tatsächlichen Sprache auftretenden Redundanz der unterschiedlichen Lautfolgen und Phoneme Rechnung zu tragen, werden die bei dem Verfahren aufgezeigten und festgestellten Fehler beziehungsweise Signalabweichungen mit einem Häufigkeitsfaktor multipliziert.
  • Die DE 693 21 590 T2 beschreibt ein Verfahren für eine objektive Sprachqualitätsmessung in Telekommunikationseinrichtungen. Dabei wird ein Testsignal, das ebenfalls kein tatsächliches Sprachsignal ist, so beispielsweise durch die Anwendung eines Filters bearbeitet, dass es möglichst gut dem tatsächlichen Höreindruck im Innenohr eines Hörers entspricht. Dieses wird mit dem übertragenen Signal verglichen.
  • Die US 2004/0002857 A1 beschreibt ein Verfahren für eine objektive Sprachqualitätsmessung, die Sprachstile und individuelle Sprecherdifferenzen in Betracht zieht. Dabei werden die Sprachsignale einmal in unveränderter Qualität und einmal leicht verzerrt mittels einer Spracherkennungssoftware bearbeitet und die so ermittelten Ergebnisse mit einander verglichen.
  • Der Erfindung liegt somit die Aufgabe zugrunde, ein referenzbasiertes objektives Verfahren zur Bestimmung der Qualität eines Mess-Sprachsignals zu verbessern.
  • Die Erfindung löst die gestellte Aufgabe durch ein derartiges Verfahren, das die folgenden Schritte aufweist:
    • a) Bereitstellen eines Referenz-Sprachsignals der zeitlichen Länge t_ref in einer Speichereinheit,
    • b) Bereitstellen von phonetischen Referenzinformationen zu dem Referenz-Sprachsignal in der Speichereinheit,
    • c) Verarbeiten eines Eingangs-Sprachsignals durch eine Verarbeitungseinheit,
    • d) Aufnehmen des verarbeiteten Eingangs-Sprachsignals mittels einer Aufnahmeeinheit, die ein Mess-Sprachsignal der zeitlichen Länge t_mess aufnimmt,
    • e) Zerlegen der zeitlichen Längen t_ref und t_mess in eine Mehrzahl von aufeinanderfolgenden Rahmen mit einer zeitlichen Länge Δt_ref und Δt_mess und Zerlegen des Referenz-Sprachsignals in eine Mehrzahl von Referenz-Teilsignalen der zeitlichen Länge Δt_ref und des Mess-Sprachsignals in eine Mehrzahl von Mess-Teilsignalen der zeitlichen Länge Δt_mess entsprechend den Rahmen in einer Datenverarbeitungseinheit,
    • f) Zuordnen einer phonetischen Referenzinformation zu jedem Rahmen in der Datenverarbeitungseinheit,
    • g) Vergleichen der Referenz-Teilsignale mit den Mess-Teilsignalen und Ermitteln einer Teilabweichung für jeden Rahmen in der Datenverarbeitungseinheit,
    • h) Bestimmen einer Gesamtabweichung aus den Teilabweichungen in der Datenverarbeitungseinheit, wobei der Einfluss der Teilabweichung eines jeden Rahmens auf die Gesamtabweichung von der dem jeweiligen Rahmen zugeordneten phonetischen Referenzinformation abhängig ist,
    wobei die Teilabweichungen für jeden Rahmen in der Datenverarbeitungseinheit in Abhängigkeit von der phonetischen Referenzinformation ermittelt werden, wobei die Gesamtabweichung aus den Teilabweichungen und dem jeweiligen Rahmen zugeordneten phonetischen Referenzinformationen bestimmt wird und wobei die Teilabweichungen der einzelnen Rahmen mit einem Gewichtungsfaktor gewichtet werden, der von der phonetischen Referenzinformation abhängig ist, die den jeweiligen Rahmen zu geordnet ist, und der davon abhängig ist, wie stark eine bestimmte Abweichung in den übertragenen Signalen wahrgenommen wird.
  • Der Erfindung liegt die Erkenntnis zugrunde, dass die abweichende Beurteilung der Qualität eines Mess-Sprachsignals zwischen einer objektiven referenzbasierten und von einer Datenverarbeitungseinrichtung durchgeführten Analyse einerseits und einer subjektiven von Probanden durchgeführten Analyse andererseits dadurch entsteht, dass es Abweichungen, Fehler oder sonstige Qualitätseinbußen bzw. nicht erschöpfte Potentiale zur Qualitätsverbesserung durch die Verarbeitung des Sprachsignals gibt, die rechnerisch zu den gleichen Teilabweichungen führen, jedoch von Probanden als unterschiedlich schwerwiegend beurteilt werden.
  • Enthält das zu übertragende Sprachsignal beispielsweise ein Wort, in dem der Laut /s/ wie im Wort „Boss” enthalten ist und wird stattdessen der Laut /f/ übertragen, wird dies als deutlich störender empfunden (Lispeln), als wenn der Laut /f/ erwartet wird und stattdessen der Laut /s/ übertragen wird (Zischeln). Die beispielsweise nach der „POLQA”-Empfehlung ausgerechnete Teilabweichung kann jedoch für beide Fehlübertragungen identisch sein. Dies ist nur ein Beispiel für das in dieser Hinsicht unsymmetrische Fehlerempfinden des Menschen, das zu unterschiedlichen Beurteilungen der Qualität des übertragenen Sprachsignals führt. Erfindungsgemäß ist es daher vorgesehen, dieses Qualitätsempfinden durch unterschiedliche Einflüsse der jeweiligen Teilabweichung zu berücksichtigen, die insbesondere von der phonetischen Referenzinformation abhängig sind.
  • Zunächst werden folglich ein Referenz-Sprachsignal der zeitlichen Länge t_ref und zugehörige phonetische Referenzinformationen bereitgestellt. Referenzsignale können beispielsweise die in den eingangs beschriebenen vier Anwendungsgebieten erwähnten Referenzsignale sein. Die dort erwähnten übertragenen oder verbesserten Signale werden als sog. Mess-Sprachsignale durch eine Aufnahmeeinheit erfasst und aufgenommen. Um die Qualität der Verarbeitung (Übertragung oder Verbesserung) des Eingangs-Sprachsignals beurteilen zu können, oder einfach nur zur Bewertung der Qualität des Mess-Sprachsignals selbst, muss nun das Referenz-Sprachsignal mit dem empfangenen Mess-Sprachsignal verglichen werden.
  • Dazu werden die zeitlichen Längen t_mess und t_ref in die Mehrzahl aufeinanderfolgender Rahmen zerlegt, während gleichzeitig sowohl das Referenz-Sprachsignal als auch das Mess-Sprachsignal in eine Mehrzahl von Teilsignalen entsprechend der Länge der jeweiligen Rahmen zerlegt wird.
  • Jedem dieser Rahmen wird nun eine phonetische Referenzinformation zugeordnet. Es wird nun beispielsweise für jeden Rahmen das diesem Rahmen entsprechende Referenz-Teilsignal mit dem diesem Rahmen entsprechenden Mess-Teilsignal verglichen. Gegebenenfalls muss das Mess-Sprachsignal und/oder das Referenz-Sprachsignal zuvor in der Zeit so verschoben werden, und/oder verlängert bzw. gekürzt, dass beide Signale zum gleichen Zeitpunkt beginnen. Damit werden gegebenenfalls auftretende Verzögerungen aufgrund der Verarbeitung des Signals ausgeglichen.
  • Der Vergleich zwischen den beiden Teilsignalen eines jeden Rahmens erfolgt dabei beispielsweise nach dem gleichen Muster, wie dies aus dem Stand der Technik, beispielsweise der „POLQA”-Empfehlung (ITU-T P.863) bekannt ist. Natürlich ist auch die Auswertung gemäß einem anderen Standard möglich. Auf diese Weise werden Teilabweichungen für jeden der Rahmen bestimmt.
  • Wird auf diese Weise die jeweilige Teilabweichung bestimmt, muss der Einfluss der jeweiligen Teilabweichungen zur Gesamtabweichung auf andere Weise von der dem jeweiligen Rahmen zugeordneten phonetischen Referenzinformation abhängig gemacht werden.
  • Erfindungsgemäß werden die Teilabweichungen für jeden Rahmen in der Datenverarbeitungseinheit in Abhängigkeit von der phonetischen Referenzinformation ermittelt. Die jeweilige Teilabweichung wird folglich nicht nach einer der bekannten Empfehlungen berechnet, da das dort beschriebene Berechnungsverfahren für jeden Rahmen identisch ausgebildet ist. Vielmehr fließt beispielsweise in die Berechnung der Teilabweichung bereits eine Gewichtung ein, durch die dem Umstand Rechnung getragen wird, dass bestimmte Abweichungen als störender empfunden werden als andere. Wird bereits die jeweilige Teilabweichung für jeden Rahmen von den phonetischen Referenzinformationen abhängig ermittelt, kann die Gesamtabweichung aus den so ermittelten Teilabweichungen in aus dem Stand der Technik bekannter Weise, beispielsweise nach der „POLQA”-Empfehlung, ermittelt werden.
  • Zusätzlich dazu wird die Gesamtabweichung aus den Teilabweichungen und den den jeweiligen Rahmen zugeordneten phonetischen Referenzinformationen bestimmt. Dies kann in einer besonders einfachen Ausgestaltung dadurch geschehen, dass, anderes als aus dem Stand der Technik bekannt, die Teilabweichungen nicht identisch gewichtet zu der Gesamtabweichung verarbeitet werden. Stattdessen werden erfindungsgemäß die einzelnen Teilabweichungen mit Gewichtungsfaktoren gewichtet, die von den zuvor zugeordneten Referenzinformationen abhängen. Dies kann beispielsweise dazu führen, dass eine Teilabweichung für einen Rahmen, in dem der Laut /s/ im Sprachsignal gesprochen wird, stärker gewichtet wird und somit einen größeren Einfluss auf die Gesamtabweichung und damit die Qualität der Übertragung des Sprachsignals aufweist, als dies für eine Teilabweichung eines Rahmens der Fall ist, in dem beispielsweise der Laut /f/ gesprochen wird. Natürlich sind auch andere Verfahren vorstellbar und von der vorliegend beschriebenen Erfindung umfasst, durch die der Einfluss der jeweiligen Teilabweichung von der dem entsprechenden Rahmen zugeordneten phonetischen Referenzinformation abhängig wird. Ob dies durch eine von der Referenzinformation abhängige Art der Berechnung der Teilabweichungen oder durch eine Gewichtung der Teilabweichungen geschieht oder eine Kombination beider Möglichkeiten verwendet wird, ist für die vorliegende Erfindung unerheblich.
  • Durch das erfindungsgemäße Verfahren ist es folglich möglich, ein referenzbasiertes objektives Hörqualitätsermittlungsverfahren (listening quality objective (LQO)) anzugeben, mit dem die Ergebnisse subjektiver Qualitätstests (listening quality subjective (LOS)) reproduziert werden können, so dass eine zutreffende Beurteilung der Sprachqualität ermöglicht wird. Eine zuverlässige Reproduktion bezieht sich dabei auf hohe Korrelationsfaktoren zwischen subjektiven und objektiven Tests, aber auch auf eine (zumindest annähernd) gleiche Reihung bei der subjektiven und objektiven Qualitätsbewertung einer Anzahl getesteter Verfahren zur Verarbeitung. Dabei kann die Zuordnung der phonetischen Referenzinformationen zu den entsprechenden Gewichtungsfaktoren für die einzelnen Rahmen beispielsweise sprachenabhängig geschehen, je nachdem, wie stark eine bestimmte Abweichung in den übertragenden Signalen von Personen, die beispielsweise die gleiche Muttersprache sprechen, wahrgenommen wird. Dies kann dazu führen, dass eine bestimmte Übertragungsart für Sprachsignale einer Sprache besser geeignet ist als für Sprachsignale einer anderen Sprache und dass diese unterschiedliche Eignung auch in der objektiven referenzbasierten Bewertung zum Ausdruck kommt.
  • Das erfindungsgemäße Verfahren ist dabei unabhängig davon anwendbar, über welche Zeitspanne, über welche räumliche Distanz oder auf welche Weise das Eingangs-Sprachsignal übertragen oder verbessert wird. Es ist dabei insbesondere unerheblich, ob und in welcher Weise das Eingangs-Sprachsignal zum oder beim Versenden kodiert und komprimiert und zum erneuten Abspielen dekodiert wird. Zudem ist es für das erfindungsgemäße Verfahren unerheblich, ob und in welcher Form beispielsweise eine Sprachbandbreite des Eingangs-Sprachsignals künstlich erhöht wird oder ob das Sprachsignal auf eine andere Weise manipuliert wird, beispielsweise durch eine Störgeräuschreduktion oder akustische Echokompensation.
  • Vorteilhafterweise ist die phonetische Referenzinformation, die einem Rahmen zugeordnet wird, derjenige Laut, der in dem Referenz-Teilsignal des Rahmens gesprochen wird. Alternativ oder zusätzlich dazu kann die phonetische Referenzinformation auch eine Information über die Orthographie, also die oder den in dem jeweiligen Referenz-Teilsignal des Rahmens gesprochenen Buchstaben, enthalten. Insbesondere für den Fall, dass die phonetischen Referenzinformationen die Phone oder Phoneme, also die gesprochenen Laute, der entsprechenden Referenz-Teilsignale sind, kann durch eine gegebenenfalls sprachenspezifische Auswahl der entsprechenden Phoneme die Qualität der Übertragung des Sprachsignals für Sprachsignale unterschiedlich sprachengetrennt voneinander bewertet werden. Natürlich ist es auch möglich, die Phoneme einer Vielzahl gesprochener Sprachen in die mögliche phonetische Referenzinformation aufzunehmen und so beispielsweise ein sprachenunabhängiges objektives Messverfahren zu erhalten. Auf diese Weise lässt sich objektiv und sprachenunabhängig die Qualität von Sprachsignalen bestimmen.
  • In einer besonders bevorzugten Ausgestaltung des Verfahrens werden die phonetischen Referenzinformationen durch eine Spracherkennungseinheit aus dem Referenz-Sprachsignal gewonnen. Dies ist insbesondere dann von Vorteil, wenn die phonetischen Referenzinformationen Phoneme, also gesprochene Laute, beinhalten. Diese Ausgestaltung des Verfahrens hat den Vorteil, dass ein einmal erzeugtes Referenz-Sprachsignal verwendet werden kann, ohne dass sichergestellt werden muss, dass die entsprechenden bereitzustellenden phonetischen Referenzinformationen deckungsgleich mit dem Referenz-Sprachsignal sind. Dies wird durch die Spracherkennungseinheit automatisch gewährleistet, da die Spracherkennungseinheit die benötigten phonetischen Referenzinformationen direkt aus dem Referenz-Sprachsignal extrahiert. Natürlich ist dabei darauf zu achten, dass die Spracherkennungseinheit möglichst fehlerfrei funktioniert und alle gewünschten phonetischen Referenzinformationen zu extrahieren und zu erkennen vermag. Zusätzlich – oder alternativ – kann die Spracherkennungseinheit auch dazu genutzt werden, eine bereits vorhandene phonetische Referenzinformation zeitlich genau den Rahmen beim Vergleich von Mess-Sprachsignal und Referenz-Sprachsignal zuzuordnen.
  • Vorzugsweise werden phonetische Messinformationen aus dem Mess-Sprachsignal gewonnen, wobei jedem Rahmen eine phonetische Messinformation zugeordnet wird. Auch dies kann besonders bevorzugt durch eine Spracherkennungseinheit geschehen. Dabei wird das Mess-Sprachsignal der Spracherkennungseinheit zugeführt, die daraus die phonetischen Messinformationen, insbesondere die in dem Mess-Sprachsignal gesprochenen Phoneme, ermittelt und extrahiert. Werden phonetische Referenzinformationen und phonetische Messinformationen entweder durch händische Transkription oder durch automatische Spracherkennung zur Verfügung gestellt, kann vorteilhaft Nutzen daraus gezogen werden, ob beispielsweise aus einem /s/-Laut ein /f/-Laut geworden ist, oder umgekehrt. In diesem Falle werden dem Rahmen daher beide phonetischen Informationen zugeordnet.
  • Vorteilhafterweise wird zum Messen der Teilabweichung für jeden Rahmen die phonetische Referenzinformation des Rahmens mit der phonetischen Messinformation des Rahmens verglichen und die Gewichtung für die Teilabweichung oder die Art der Berechnung der Teilabweichung des jeweiligen Rahmens hängt von dem Ergebnis dieses Vergleiches ab. Wird durch den Vergleich der phonetischen Referenzinformation mit der phonetischen Messinformation eines Rahmens beispielsweise ermittelt, dass sowohl im Referenz-Sprachsignal als auch im Mess-Sprachsignal für diesen Rahmen das gleiche Phonem vorliegt, also der gleiche Laut gesprochen wird, kann ein reduzierter Gewichtungsfaktor für diesen Rahmen verwendet oder auf sonstige Weise der Einfluss der Teilabweichung dieses Rahmens bei der Ermittlung der Gesamtabweichung reduziert werden. Auch eine relativ große Teilabweichung, die beispielsweise nach einem bekannten Standard ermittelt wurde, trägt in diesem Fall nur einen begrenzt großen Beitrag zur Gesamtabweichung bei, da sich durch diese Teilabweichung offensichtlich an der Verständlichkeit des Textes des jeweiligen Sprachsignals nichts geändert hat.
  • Ergibt hingegen der Vergleich der phonetischen Referenzinformation eines Rahmens mit der entsprechenden phonetischen Messinformation einen Unterschied, bedeutet dies, dass in dem Mess-Teilsignal ein anderer Laut zu verstehen ist, als dies in dem Referenz-Teilsignal des jeweiligen Rahmens der Fall ist. In diesem Fall sollte ein erhöhter Gewichtungsfaktor für diesen Rahmen verwendet werden, da selbst eine gegebenenfalls vorliegende, nur kleine Teilabweichung zu einer Lautverschiebung beziehungsweise einer Veränderung des Lautes durch die Übertragung des Sprachsignals geführt hat und somit die Verständlichkeit des Textes des Sprachsignals reduziert wurde.
  • Vorteilhafterweise werden die phonetischen Referenzinformationen inklusive ihrer zeitlichen Zuordnung zur Rahmenstruktur in Form einer separaten Datei bereitgestellt. Dies hat zur Folge, dass insbesondere für den Fall, dass keine phonetischen Messinformationen verwendet werden, keine Spracherkennungseinheit benötigt wird. Dadurch wird der apparative und/oder programmiertechnische Aufwand reduziert und das Verfahren kostengünstiger durchführbar. Zudem ist die Spracherkennungseinheit als zusätzliche Fehlerquelle bei der Erkennung der gesprochenen Phoneme ausgeschlossen.
  • Die phonetischen Referenzinformationen und/oder die phonetischen Messinformationen enthalten bevorzugt Elemente aus dem SAMPA- oder dem X-SAMPA-Alphabet. Bei SAMPA (Abkürzung für Speech Assessment Methods Phonetic Alphabet) handelt es sich um ein phonetisches Alphabet für eine phonemische Transkription europäischer Sprachen. Bei X-SAMPA (Abkürzung für Extended Speech Assessment Methods Phonetic Alphabet) handelt es sich um eine Weiterentwicklung von SAMPA zu einem phonetischen Alphabet, das sämtliche oder zumindest nahezu sämtliche Phoneme, die in menschlichen Sprachen vorkommen, umfasst.
  • Durch das Verfahren ist es folglich möglich, die Übertragung der Qualität eines Sprachsignals objektiv so zu bestimmen, wie sie auch subjektiv durch Probanden bestimmt würde. Ob die so ermittelte Qualität auch dem Eindruck beispielsweise einer telefonischen Übertragung entspricht, hängt natürlich insbesondere von der Wahl der Referenz-Sprachsignale ab. Um eine möglichst umfassende Beurteilung der Qualität der Übertragung des Sprachsignals gewährleisten zu können, sollte die Menge der Referenz-Sprachsignale so gewählt werden, dass in den zugehörigen phonetischen Referenzinformationen möglichst alle in dem jeweiligen Sprachenalphabet vorkommenden Phoneme enthalten sind. Für eine weltweit gültige Bestimmung der Sprachqualität bedeutet dies, dass in den phonetischen Referenzinformationen zu dem gewählten Referenz-Sprachsignal möglichst alle in dem Alphabet X-SAMPA enthaltenen Phoneme vorkommen sollten. Wird nur eine in beispielsweise bestimmten sprachlich verwandten Regionen gültige Einschätzung der Qualität des Sprachsignals gewünscht, ist die Beschränkung auf ein kleineres phonetisches Alphabet und entsprechend weniger umfangreiches Referenzsprachmaterial von Vorteil, um den Rechenaufwand und die Verfahrensdauer zu reduzieren.
  • Als vorteilhaft hat sich herausgestellt, wenn die Rahmen nicht alle die gleiche zeitliche Länge Δt aufweisen. Weisen alle Rahmen die gleiche zeitliche Länge Δt auf, ist es möglich, dass zum einen mehrere aufeinanderfolgende Rahmen die gleiche phonetische Referenzinformation, also das gleiche gesprochene Phonem, zugeordnet bekommen. Geht man davon aus, dass sich die Qualität der Übertragung dieses Phonems von Rahmen zu Rahmen nicht abrupt ändert, sind folglich in den entsprechenden Rahmen redundante Informationen enthalten, so dass eine separate Berechnung der Teilabweichungen für diese Rahmen keinen Informationsgewinn für die zu bestimmende Gesamtabweichung liefert.
  • Zudem ist es möglich, dass in diesem Fall in dem jeweiligen Referenz-Teilsignal eines Rahmens mehrere Phoneme enthalten sind, so dass für eine genaue Analyse der Qualität des Mess-Sprachsignals dieser Rahmen eigentlich mehrere phonetische Referenzinformationen zugeordnet bekommen müsste. Durch die variable Wahl der zeitlichen Länge Δt_mess und/oder Δt_ref der jeweiligen Rahmen könnte erreicht werden, dass die zeitliche Länge eines Rahmens auf die zeitliche Länge des jeweils in dem Sprachsignal enthaltenen Phonems abgestimmt wird. Auf diese Weise werden beide als nachteilig beschriebenen Effekte sicher vermieden, der Rechenaufwand deutlich verringert und somit das Verfahren schlanker und kostengünstiger durchführbar. Die zeitliche Länge der jeweiligen Rahmen sollte in diesem Fall vorzugsweise in den jeweiligen Gewichtungsfaktor für jeden Rahmen einfließen, indem der von den phonetischen Referenzinformationen und gegebenenfalls den phonetischen Messinformationen abhängende Gewichtungsfaktor beispielsweise mit der zeitlichen Länge Δt des jeweiligen Rahmens multipliziert wird.
  • In einer bevorzugten Ausgestaltung des Verfahrens hängen die zeitlichen Längen Δt_ref und/oder Δt_mess für den jeweiligen Rahmen also von der phonetischen Referenzinformation und/oder der phonetischen Messinformation ab.
  • Damit kann auf individuelle Eigenschaften der jeweiligen Sprachsignale eingegangen werden.
  • Vorteilhafterweise überträgt die Verarbeitungseinheit das Eingangs-Sprachsignal, wobei diese Übertragung mindestens eine Quellencodierung – z. B. in Form einer Sprachcodierung – und mindestens eine Quellendecodierung – entsprechend in Form einer Sprachdecodierung – aufweist. Auf diese Weise kann die Qualität der Übertragung des Eingangs-Sprachsignals ermittelt werden. Dabei hat es sich insbesondere für diesen Fall als vorteilhaft herausgestellt, wenn das Eingangs-Sprachsignal das Referenz-Sprachsignal ist. Auf diese Weise ist ein besonders einfacher Vergleich der unterschiedlichen Sprachsignale möglich.
  • Alternativ oder zusätzlich dazu unterzieht die Verarbeitungseinheit das Eingangs-Sprachsignal einem Verbesserungsverfahren, wobei dieses vorteilhafterweise eine Störgeräuschreduktion und/oder eine Verständlichkeitsverbesserung im Eingangs-Sprachsignal umfasst. Alternativ oder zusätzlich dazu umfasst das Verbesserungsverfahren eine künstliche Bandbreitenerweiterung auf der Basis des Eingangs-Sprachsignals. Auf diese Weise können auch komplexe Verarbeitungen, beispielsweise des Referenz-Sprachsignals, untersucht werden. In einem ersten Schritt wird dieses Sprachsignal beispielsweise übertragen, wobei in diesem Fall beispielsweise das Eingangs-Sprachsignal das Referenz-Sprachsignal sein kann. Zunächst wird folglich die Qualität der Übertragung des Sprachsignals ermittelt. Anschließend kann die Qualität des so übertragenen Referenz-Sprachsignals durch die genannten Verfahren verbessert werden, wobei nun einerseits die Qualität der Verbesserung und andererseits die Qualität der Kombination aus Übertragung und Verbesserung bestimmt werden kann.
  • Dadurch wird die bevorzugte Ausgestaltung erreicht, dass der Gewichtungsfaktor auch von der zeitlichen Länge Δt_ref und/oder Δt_mess des jeweiligen Rahmens abhängt. Als besonders bevorzugt hat sich erwiesen, wenn das Referenz-Sprachsignal das Eingangs-Sprachsignal ist. Dies ist insbesondere dann von Vorteil, wenn es sich bei der Verarbeitung des Sprachsignals um eine Übertragung handelt.
  • Eine erfindungsgemäße Vorrichtung verfügt über eine Speichereinheit, eine Verarbeitungseinheit, eine Aufnahmeeinheit und eine Datenverarbeitungseinheit, und ist eingerichtet zum Durchführen eines hier beschriebenen Verfahrens.
  • Mit Hilfe einer Zeichnung wird nachfolgend ein Ausführungsbeispiel der vorliegenden Erfindung näher erläutert. Es zeigen:
  • 14 – schematische Darstellungen eines Verfahrens gemäß verschiedener Ausführungsbeispiele der vorliegenden Erfindung.
  • 1 zeigt schematisch in Form eines Flussdiagramms, wie ein Verfahren gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung durchgeführt wird. Zunächst wird in einer Speichereinheit 2, die Teil einer Vorrichtung 4 ist, ein Referenz-Sprachsignal 6 bereitgestellt. Zu diesem Referenz-Sprachsignal 6 werden Referenzinformationen 8 bereitgestellt, die beispielsweise den in dem Referenz-Sprachsignal 6 gesprochenen Phonemen entsprechen. Das Referenz-Sprachsignal 6 wird in Form eines Eingangs-Sprachsignals 9 an eine Verarbeitungseinheit 10 übergeben. Da es sich bei dem Eingangs-Sprachsignal 9 in diesem Fall um das Referenz-Sprachsignal 6 handelt, ist die Verarbeitungseinheit vorzugsweise eine Übertragungseinheit.
  • Nach der Verarbeitung des Eingangs-Sprachsignals 9 in der Verarbeitungseinheit 10 wird es durch eine Aufnahmeeinheit 14 in Form eines Mess-Sprachsignals 16 aufgenommen. Aufgabe der in 1 dargestellten Vorrichtung 4 ist die Bestimmung der Qualität des Mess-Sprachsignals 16. Dazu wird das Mess-Sprachsignal 16 mit dem Referenz-Sprachsignal 6 und den Referenzinformationen 8 einer Datenverarbeitungseinheit 18 zugeführt, die die übrigen Verfahrensschritte ausführt und so nach einer Bestimmung der Gesamtabweichung, diese entlang des Ausgabepfeils 20 ausgibt.
  • Durch die Verwendung der Referenzinformationen 8 zur Bestimmung der Gesamtabweichung, die ein Maß für die Qualität des Mess-Sprachsignals 16 ist, können phsychoakustische Effekte, die beim menschlichen Hören des übertragenen Signals auftreten, in das objektive referenzbasierte Verfahren integriert werden, so dass dieses Verfahren zu identischen oder zumindest sehr ähnlichen Ergebnissen kommt, wie ein subjektives Hörqualitätsbestimmungsverfahren.
  • 2 zeigt eine weitere Ausführungsform eines Verfahrens gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung. In der Speichereinheit 2 der Vorrichtung 4 wird zunächst wieder das Referenz-Sprachsignal 6 bereitgestellt. Dieses wird jedoch anders als im in 1 gezeigten Ausführungsbeispiel einer Spracherkennungseinheit 22 übergeben, die aus dem Referenz-Sprachsignal 6 die Referenzinformationen 8 gewinnt. Diese werden anschließend in der Speichereinheit 2 bereitgestellt und ebenso wie das Referenz-Sprachsignal 6 der Datenverarbeitungseinheit 18 übergeben. Das Referenz-Sprachsignal wird in Form des Eingangs-Sprachsignals 9 der Verarbeitungseinheit 10 übergeben und nach der Verarbeitung in Form eines Mess-Sprachsignals 16 von der Aufnahmeeinheit 14 empfangen. Innerhalb der Aufnahmeeinheit 14 befindet sich im in 2 gezeigten Ausführungsbeispiel eine weitere Spracherkennungseinheit, die jedoch auch als separate Einheit ausgebildet sein kann. Zudem ist es möglich, die bereits verwendete Spracherkennungseinheit 22 zu verwenden. Durch diese in der 2 in der Aufnahmeeinheit 14 integrierte Spracherkennungseinheit werden aus dem Mess-Sprachsignal 16 phonetische Messinformationen 24 gewonnen, die ebenso wie das Mess-Sprachsignal 16 der Datenverarbeitungseinheit 18 übergeben werden. Die Datenverarbeitungseinheit 18 bestimmt wieder die Referenz-Teilsignale, die Mess-Teilsignale sowie daraus die Teilabweichungen und anschließend die Gesamtabweichung, die wieder entlang des Ausgabepfeils 20 ausgegeben wird.
  • Während in den 1 und 2 jeweils das Referenz-Sprachsignal 6 in Form des Eingangs-Sprachsignals 9 der Verarbeitungseinheit 10 übergeben wurde, ist in den 3 und 4 jeweils eine andere Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung beschrieben. In 3 werden wieder in der Speichereinheit 2 das Referenz-Sprachsignal 6 und die Referenzinformationen 8 bereitgestellt und der Datenverarbeitungseinheit 18 übergeben. Anders als beispielsweise in 1, wird jedoch in 3 nicht das Referenz-Sprachsignal 6, sondern ein separates, zu verbesserndes Sprachsignal 7 als Eingangs-Sprachsignal 9 der Verarbeitungseinheit 10 übergeben. Bei der Verarbeitungseinheit 10 handelt es sich vorteilhafterweise um eine Verbesserungseinheit, die ein Verbesserungsverfahren durchführt, um die Qualität des Eingangs-Sprachsignals 9, das das zu verbessernde Sprachsignal 7 ist, zu verbessern. Anschließend verläuft das Verfahren gemäß 3 identisch zu dem in 1 gezeigten Verfahren. Nach der Verarbeitung des Eingangs-Sprachsignals 9 in der Verarbeitungseinheit 10 wird es in der Aufnahmeeinheit als Mess-Sprachsignal 16 gemessen und der Datenverarbeitungseinheit 18 zugeführt, die entlang des Ausgabepfeils 20 die Gesamtabweichung bestimmt.
  • 4 zeigt ein Verfahren, das dem in 2 gezeigten Verfahren ähnlich ist. Auch hier wird in der Speichereinheit 2 das Referenz-Sprachsignal 6 bereitgestellt, aus dem über die Spracherkennungseinheit 22 die Referenzinformationen 8 bestimmt werden, die gemeinsam mit dem Referenz-Sprachsignal 6 der Datenverarbeitungseinrichtung 18 zur Verfügung gestellt werden. Auch hier wird wie im in 3 gezeigten Ausführungsbeispiel ein separates zu verbesserndes Sprachsignal 7 als Eingangs-Sprachsignal 9 der Verarbeitungseinheit 10 übergeben, die wieder ein Verbesserungsverfahren durchführt. Das verarbeitete Signal wird in der Aufnahmeeinheit in Form des Mess-Sprachsignale 16 aufgenommen. Auch hier werden dem Mess-Sprachsignal 16 Messinformationen 24 entnommen, die gemeinsam mit dem Mess-Sprachsignal 16 der Datenverarbeitungseinheit 18 zur Verfügung gestellt werden.
  • Bezugszeichenliste
  • 2
    Speichereinheit
    4
    Vorrichtung
    6
    Referenz-Sprachsignal
    7
    Zu verbesserndes Sprachsignal
    8
    Referenzinformationen
    9
    Eingangs-Sprachsignal
    10
    Verarbeitungseinheit
    14
    Aufnahmeeinheit
    16
    Mess-Sprachsignal
    18
    Datenverarbeitungseinheit
    20
    Ausgabepfeil
    22
    Spracherkennungseinheit
    24
    Messinformationen

Claims (15)

  1. Verfahren zum Messen der Qualität eines Mess-Sprachsignals (16), wobei das Verfahren die folgenden Schritte aufweist: a) Bereitstellen eines Referenz-Sprachsignals (6) der zeitlichen Länge t_ref in einer Speichereinheit (2), b) Bereitstellen von phonetischen Referenzinformationen (8) zu dem Referenz-Sprachsignal (6) in der Speichereinheit (2), c) Verarbeiten eines Eingangs-Sprachsignals (9) durch eine Verarbeitungseinheit (10), d) Aufnehmen des verarbeiteten Eingangs-Sprachsignals (9) mittels einer Aufnahmeeinheit (14), die ein Mess-Sprachsignal (16) der zeitlichen Länge t_mess aufnimmt, e) Zerlegen der zeitlichen Längen t_ref und t_mess in eine Mehrzahl von aufeinanderfolgenden Rahmen mit den jeweiligen zeitlichen Längen Δt_ref und Δt_mess, und Zerlegen des Referenz-Sprachsignals (6) in eine Mehrzahl von Referenz-Teilsignalen der zeitlichen Länge Δt_ref und des Mess-Sprachsignals (16) in eine Mehrzahl von Mess-Teilsignalen der zeitlichen Länge Δt_mess entsprechend den Rahmen in einer Datenverarbeitungseinheit (18), f) Zuordnen einer phonetischen Referenzinformation (8) zu jedem Rahmen in der Datenverarbeitungseinheit (18), g) Vergleichen der Referenz-Teilsignale mit den Mess-Teilsignalen und Ermitteln einer Teilabweichung für jeden Rahmen in der Datenverarbeitungseinheit (18), h) Bestimmen einer Gesamtabweichung aus den Teilabweichungen in der Datenverarbeitungseinheit (18), wobei der Einfluss der Teilabweichung eines jeden Rahmens auf die Gesamtabweichung von der dem jeweiligen Rahmen zugeordneten phonetischen Referenzinformation (8) abhängig ist, wobei die Teilabweichungen für jeden Rahmen in der Datenverarbeitungseinheit (18) in Abhängigkeit von der phonetischen Referenzinformation (8) ermittelt werden, wobei die Gesamtabweichung aus den Teilabweichungen und den dem jeweiligen Rahmen zugeordneten phonetischen Referenzinformationen bestimmt wird und wobei die Teilabweichungen der einzelnen Rahmen mit einem Gewichtungsfaktor gewichtet werden, der von der phonetischen Referenzinformation (8) abhängig ist, die den jeweiligen Rahmen zugeordnet ist, und der davon abhängig ist, wie stark eine bestimmte Abweichung in den übertragenen Signalen wahrgenommen wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die phonetische Referenzinformation (8), die einem Rahmen zugeordnet wird, derjenige Laut ist, der in dem Referenz-Teilsignal des Rahmens gesprochen wird beziehungsweise enthalten ist.
  3. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die phonetische Referenzinformation (8) durch eine Spracherkennungseinheit (22) aus dem Referenz-Sprachsignal (6) gewonnen wird.
  4. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass phonetische Messinformationen (24) aus dem Mess-Sprachsignal (16) gewonnen werden und jedem Rahmen eine phonetische Messinformation (24) zugeordnet wird.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass zum Messen der Teilabweichungen für jeden Rahmen die phonetische Referenzinformation (8) des Rahmens mit der phonetischen Messinformation (24) des Rahmens verglichen wird und die Teilabweichung des jeweiligen Rahmens oder der Beitrag der Teilabweichung zur Gesamtabweichung von dem Ergebnis dieses Vergleichs abhängt.
  6. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die phonetischen Referenzinformationen (8) in Form einer separaten Datei bereitgestellt werden.
  7. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die phonetische Referenzinformation (8) und/oder die phonetische Messinformation (24) Elemente aus dem SAMPA- oder X-SAMPA-Alphabet enthalten.
  8. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die zeitlichen Längen Δt_ref und/oder Δt_mess in der zeitlichen Länge variieren.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die zeitlichen Längen Δt_ref und/oder Δt_mess in Abhängigkeit von der phonetischen Referenzinformation (8) und/oder der phonetischen Messinformation (24) variieren.
  10. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Verarbeitungseinheit (10) das Eingangs-Sprachsignal (9) überträgt, wobei die Übertragung mindestens eine Quellencodierung und eine Quellendecodierung aufweist.
  11. Verfahren nach einem der vorstehenden Ansprüche 1 bis 10, dadurch gekennzeichnet, dass die Verarbeitungseinheit (10) das Eingangs-Sprachsignal (9) einem Verbesserungsverfahren unterzieht.
  12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass das Verbesserungsverfahren eine Störgeräuschreduktion und/oder eine Verständlichkeitsverbesserung im Eingangs-Sprachsignal (9) umfasst.
  13. Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass das Verbesserungsverfahren eine künstliche Sprachbandbreitenerweiterung auf Basis des Eingangs-Sprachsignals (9) umfasst.
  14. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass das Eingangs-Sprachsignal (9) das Referenz-Sprachsignal (6) ist.
  15. Vorrichtung (4) mit einer Speichereinheit (2), einer Verarbeitungseinheit (10), einer Aufnahmeeinheit (14) und einer Datenverarbeitungseinheit (18), wobei die Vorrichtung (4) eingerichtet ist zum Durchführen eines Verfahrens nach einem der vorstehenden Ansprüche.
DE201310005844 2013-03-28 2013-03-28 Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals Expired - Fee Related DE102013005844B3 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE201310005844 DE102013005844B3 (de) 2013-03-28 2013-03-28 Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE201310005844 DE102013005844B3 (de) 2013-03-28 2013-03-28 Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals

Publications (1)

Publication Number Publication Date
DE102013005844B3 true DE102013005844B3 (de) 2014-08-28

Family

ID=51349717

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201310005844 Expired - Fee Related DE102013005844B3 (de) 2013-03-28 2013-03-28 Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals

Country Status (1)

Country Link
DE (1) DE102013005844B3 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10249318B2 (en) 2016-03-21 2019-04-02 Nxp B.V. Speech signal processing circuit

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69321590T2 (de) * 1992-06-24 1999-04-01 British Telecomm Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungen
DE69421704T2 (de) * 1993-06-21 2000-06-08 British Telecomm Verfahren und vorrichtung zum testen einer fernmeldeanlage unter verwendung eines testsignals mit verminderter redundanz
US20030092394A1 (en) * 2000-05-26 2003-05-15 Philip Gray Test signalling
US20040002857A1 (en) * 2002-07-01 2004-01-01 Kim Doh-Suk Compensation for utterance dependent articulation for speech quality assessment
US20040267523A1 (en) * 2003-06-25 2004-12-30 Kim Doh-Suk Method of reflecting time/language distortion in objective speech quality assessment
DE60122751T2 (de) * 2000-09-06 2007-08-30 Koninklijke Kpn N.V. Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal
DE112005000924T5 (de) * 2004-04-20 2008-07-17 Voice Signal Technologies Inc., Woburn Stimme über Short Message Service
DE602004010634T2 (de) * 2003-03-31 2008-12-11 Koninklijke Kpn N.V. Verfahren und system zur sprachqualitätsvorhersage eines audioübertragungssystems
US20090018825A1 (en) * 2006-01-31 2009-01-15 Stefan Bruhn Low-complexity, non-intrusive speech quality assessment
DE602005004503T2 (de) * 2005-02-21 2009-01-22 Harman Becker Automotive Systems Gmbh Multilinguale Spracherkennung

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69321590T2 (de) * 1992-06-24 1999-04-01 British Telecomm Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungen
DE69421704T2 (de) * 1993-06-21 2000-06-08 British Telecomm Verfahren und vorrichtung zum testen einer fernmeldeanlage unter verwendung eines testsignals mit verminderter redundanz
US20030092394A1 (en) * 2000-05-26 2003-05-15 Philip Gray Test signalling
DE60122751T2 (de) * 2000-09-06 2007-08-30 Koninklijke Kpn N.V. Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal
US20040002857A1 (en) * 2002-07-01 2004-01-01 Kim Doh-Suk Compensation for utterance dependent articulation for speech quality assessment
DE602004010634T2 (de) * 2003-03-31 2008-12-11 Koninklijke Kpn N.V. Verfahren und system zur sprachqualitätsvorhersage eines audioübertragungssystems
US20040267523A1 (en) * 2003-06-25 2004-12-30 Kim Doh-Suk Method of reflecting time/language distortion in objective speech quality assessment
DE112005000924T5 (de) * 2004-04-20 2008-07-17 Voice Signal Technologies Inc., Woburn Stimme über Short Message Service
DE602005004503T2 (de) * 2005-02-21 2009-01-22 Harman Becker Automotive Systems Gmbh Multilinguale Spracherkennung
US20090018825A1 (en) * 2006-01-31 2009-01-15 Stefan Bruhn Low-complexity, non-intrusive speech quality assessment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ITU-T Rec. P.863, "Perceptual Objective Listening QualityAssessment (POLQA)", International Telecommunication Union,Geneva, 2011 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10249318B2 (en) 2016-03-21 2019-04-02 Nxp B.V. Speech signal processing circuit

Similar Documents

Publication Publication Date Title
US6651041B1 (en) Method for executing automatic evaluation of transmission quality of audio signals using source/received-signal spectral covariance
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP0938831B1 (de) Gehörangepasste qualitätsbeurteilung von audiosignalen
DE69534285T3 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE60029453T2 (de) Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
EP2364646B1 (de) Hörtestverfahren
Florentine Speech perception in noise by fluent, non‐native listeners
DE60311619T2 (de) Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte
EP1634277B1 (de) Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals
DE60311754T2 (de) Verfahren und Vorrichtung zur Schätzung der Gesamtgüte eines Sprachsignals
DE4343366C2 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
DE60004403T2 (de) Vorrichtung und verfahren zur signalqualitätserfassung
DE102013005844B3 (de) Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
EP0946015B1 (de) Verfahren und Vorrichtung zur Beurteilung der Übertragungsqualität
DE2826818C2 (de) Verfahren und Vorrichtung zum Erzeugen eines künstlichen Durchschnitts-Sprechsignals
Jokinen et al. Intelligibility evaluation of speech coding standards in severe background noise and packet loss conditions
Tesic et al. An experimental study on the phase importance in digital processing of speech signal
Gallardo et al. Phoneme Intelligibility in Narrowband and in Wideband Channels
Möller et al. Qualität von Sprach-und Audio-Übertragungssystemen
Gierlich et al. Aspects of Speech-Quality Assessment
Möller et al. Qualität von Sprach-und Audio-Übertragungssystemen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R082 Change of representative

Representative=s name: GRAMM, LINS & PARTNER PATENT- UND RECHTSANWAEL, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee