EP0993670B1

EP0993670B1 - Verfahren und vorrichtung zur sprachverbesserung in einem sprachübertragungssystem

Info

Publication number: EP0993670B1
Application number: EP98932337A
Authority: EP
Inventors: Robert James Chance; Ian Vince Mcloughlin
Original assignee: Simoco International Ltd
Current assignee: Simoco International Ltd
Priority date: 1997-07-02
Filing date: 1998-07-01
Publication date: 2002-03-20
Anticipated expiration: 2018-07-01
Also published as: GB9814279D0; GB9714001D0; CN1265217A; ATE214832T1; KR20010014352A; AU8227798A; WO1999001863A1; CA2235455A1; GB2327835A; ZA985607B; PL337717A1; GB2327835B; DE69804310D1; JP2002507291A; EP0993670A1

Claims

Verfahren zum Verbessern bzw. Steigern der Verständlichkeit einer Sprachausgabe durch ein Sprachkommunikationssystem für einen das System nutzenden Hörer mit folgenden Verfahrensschritten:

Analysieren der gegenwärtigen akustischen Hintergrund-Rauschumgebung des Hörers,

Bestimmen unter Verwendung der Ergebnisse der Hintergrund-Rauschanalyse, ob die zu dem Hörer auszugebende Sprache für den Hörer in seiner gegenwärtigen Hintergrund-Rauschumgebung verständlich sein würde, indem die Inhalte der Sprache in mindestens zwei Kategorien eingestuft werden, und die Amplitude der Sprache in einer Kategorie bei einer Frequenz mit der Rauschamplitude bei dieser Frequenz verglichen wird, und

Ändern der Eigenschaften bzw. Kenndaten der Sprache, die durch das Sprachkommunikationssystem auszugeben ist, auf Basis der Bestimmung, so daß die veränderte Sprache eine verbesserte Verständlichkeit für den Hörer in seiner gegenwärtigen Hintergrund-Rauschumgebung hat.
Verfahren nach Anspruch 1, bei den die Verständlichkeit der auszugebenden Sprache bestimmt wird durch Einstufen des Inhalts der Sprache in eine Kategorie, die Formance in der Sprache enthält, und durch Vergleichen der Amplitude der Sprachkategorie, die Formante enthält, bei einer Frequenz mit der Rauschamplitude bei dieser Frequenz.
Verfahren nach Anspruch 1 oder 2, bei dem die Verständlichkeit der auszugebenden Sprache bestimmt wird durch Einstufen des Inhalts der Sprache in Nicht-Sprache, gesprochene Sprache oder ungesprochene Sprache, und durch Vergleichen der Amplitude der gesprochenen Sprache bei einer Frequenz mit der Rauschamplitude bei dieser Frequenz.
Verfahren nach einem der Ansprüche 1 bis 3, bei dem die Verständlichkeit der auszugebenden Sprache bestimmt wird durch Einstufen des Inhalts der Sprache in Nicht-Sprache, gesprochene Sprache oder ungesprochene Sprache, und durch Vergleichen der Amplitude einer spektralen Spitze der gesprochenen Sprache, die eine Mittenfrequenz bzw. Ruhefrequenz hat, mit der Rauschamplitude bei der Mittenfrequenz der spektralen Spitze.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem die Verständlichkeit der auszugebenden Sprache bestimmt wird durch Einstufen des Inhalts der Sprache in Nicht-Sprache, gesprochene Sprache oder ungesprochene Sprache, und durch Vergleichen der Amplitude eines Formants der gesprochenen Sprache, die eine Mittenfrequenz hat, mit der Rauschamplitude bei der Mittenfrequenz des Formants.
Verfahren nach einem der Ansprüche 1 bis 5, bei dem die Sprache als unverständlich bestimmt wird, wenn die Hintergrund-Rauschamplitude bei im wesentlichen der gleichen Frequenz wie eine spektrale Spitze in der Sprache die Amplitude der spektralen Spitze übertrifft.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem die Sprache als unverständlich bestimmt wird, wenn die Hintergrund-Rauschamplitude bei im wesentlichen der gleichen Frequenz wie ein Formant in der Sprache die Amplitude des Formants übertrifft.
Verfahren nach einem der Ansprüche 1 bis 7, bei dem die Spracheigenschaften bzw. Sprachkenndaten durch Ändern der Daten eines Spektrallinienpaares (line spectral pair: LSP), die die Sprache repräsentieren, geändert werden.
Verfahren nach Anspruch 8, bei dem die Spracheigenschaften durch Bewegen eines Spektrallinienpaares in das Sprachspektrum geändert werden.
Verfahren nach einem der Ansprüche 1 bis 9, bei dem die Spracheigenschaften durch Ändern der Frequenz einer Komponente in dem Sprachspektrum geändert werden.
Verfahren nach Anspruch 10, bei dem die Frequenz eines Formants in dem Sprachspektrum geändert wird.
Verfahren nach Anspruch 11, bei dem die Frequenz eines Formants in der Sprache geändert wird, um den Formant zu einer Frequenz zu bewegen, bei der die Hintergrund-Rauschamplitude niedriger ist.
Verfahren nach einem der Ansprüche 10 bis 12, bei dem das Sprachspektrum eine spektrale Spitze mit einer Mittenfrequenz umfaßt und die Mittenfrequenz der spektralen spitze in dem Sprachspektrum geändert wird.
Sprachkommunikationssystem mit:

Mitteln (12) zum Analysieren der gegenwärtigen akustischen Hintergrund-Rauschumgebung des Sprachkommunikationssystems,

Mitteln (11) zum Bestimmen unter Verwendung der Ergebnisse der Hintergrund-Rauschanalyse, ob die durch das Sprachkommunikationssystem an einen Hörer, der dem Sprachkommunikationssystem zuhört, auszugebende Sprache, verständlich für den Zuhörer in der gegenwärtigen Hintergrund-Rauschumgebung sein würde, und

Mitteln (10) zum Ändern der Figenschaften der durch das Sprachkommnikationssystem für den Hörer auszugebenden Sprache, um die Verständlichkeit der Sprache für den Hörer in dem gegenwärtigen Hintergrundrauschen zu verbessern, gemäß der Ausgabe der Bestimmungsmittel,

bei dem das Mittel (11) zum Bestimmen, ob die auszugebende Sprache verständlich sein würde, Mittel zum Einstufen des Inhalts der Sprache in unterschiedliche Kategorien umfaßt, und Mittel zum Vergleichen der Amplitude einer Sprachkategorie bei einer Frequenz mit der Rauschamplitude bei dieser Frequenz.
System nach Anspruch 14, bei dem das Mittel zum Einstufen des Inhalts der Sprache in unterschiedliche Kategorien den Inhalt der Sprache in eine Kategorie einstuft, die Formanten in der Sprache enthält, und das Vergleichsmittel die Amplitude der Sprachkategorie, die Formanten enthält, bei einer Frequenz mit der Rauschamplitude bei dieser Frequenz vergleicht.
System nach Anspruch 14 oder 15, bei dem das Mittel (11) zum Bestimmen, ob die auszugebende Sprache verständlich sein würde, Mittel zum Vergleichen der Rauschamplitude bei der im wesentlichen gleichen Frequenz wie ein Formant in der Sprache mit der Amplitude des Formante umfaßt.
System nach einem der Ansprüche 14 bis 16, bei dem die Sprache durch Daten repräsentiert ist, die Daten eines Spektrallinienpaares (LSP) enthalten, und das Mittel (10) zum Ändern der Eigengchaften der durch das Sprachkommunikationssystem auszugebenden Sprache Mittel zum Ändern der Daten des Spektrallinienpaares (LSP) umfaßt, die die Sprache repräsentieren.
System nach einem der Ansprüche 14 bis 17, bei dem das Mittel (10) zum Ändern der Eigenschaften der durch das Sprachkommunikationssystem auszugebenden Sprache Mittel zum Ändern der Frequenz einer Komponente in dem Sprachspektrum umfaßt.
System nach Anspruch 18, bei dem das Mittel (10) zum Ändern der Eigenschaften der durch das Sprachkommunikationssystem auszugebenden Sprache Mittel zum Ändern der Frequenz eines Forments in der Sprache, um den Formant zu einer Frequenz zu bewegen, bei der die Rauschamplitude niedriger ist, umfaßt.