DE69820903T2 - Sprach-kodierungs-verfahren und endgeräte zum implementieren besagten verfahrens - Google Patents

Sprach-kodierungs-verfahren und endgeräte zum implementieren besagten verfahrens Download PDF

Info

Publication number
DE69820903T2
DE69820903T2 DE69820903T DE69820903T DE69820903T2 DE 69820903 T2 DE69820903 T2 DE 69820903T2 DE 69820903 T DE69820903 T DE 69820903T DE 69820903 T DE69820903 T DE 69820903T DE 69820903 T2 DE69820903 T2 DE 69820903T2
Authority
DE
Germany
Prior art keywords
references
primary
phonetic
code words
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69820903T
Other languages
English (en)
Other versions
DE69820903D1 (de
Inventor
Pierre Nicaise
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sagem SA
Original Assignee
Sagem SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sagem SA filed Critical Sagem SA
Publication of DE69820903D1 publication Critical patent/DE69820903D1/de
Application granted granted Critical
Publication of DE69820903T2 publication Critical patent/DE69820903T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Description

  • Die Sprachübertragung über das leitungsvermittelte Telefonnetz erfordert, daß eine ausreichende Bandbreite verfügbar ist, damit die Sprache verständlich bleibt. Eine von sehr niedrigen Frequenzen bis zu einigen Kilohertz verlaufendes Band stellt einen guten Kompromiß zwischen Wiedergabetreue und Bandbreitenressourcen dar. Um Sprache in dem leitungsvermittelten Netz zu übertragen, dessen zwischen den Ämtern verlaufende Verbindungen digital sind, codiert man daher die Sprachfrequenzen, um sie in ein digitales Signal mit der Basisübertragungsgeschwindigkeit des leitungsvermittelten Netzes umzuwandeln, das den Amplitudenverlauf des Sprachsignals darstellt.
  • Manchmal möchte man jedoch die Übertragungsgeschwindigkeit verringern, beispielsweise in einem Sprachsyntheseendgerät, dessen Nachrichtenspeicher eine begrenzte Größe einhalten muß. Außerdem kann es erwünscht sein, nur einen Übertragungsweg eines speziellen Netzes mit einer Übertragungsgeschwindigkeit deutlich unterhalb der oben erwähnten Übertragungsgeschwindigkeit des Telefonnetzes zu verwenden.
  • In einem entsprechenden Fall versucht man, die verschiedenen Phoneme einer Sprachsequenz laufend bzw. direkt zu erkennen. Man vergleicht diese Phoneme mit Referenzen einer Bibliothek, die zu Codewörtern gehören, und ersetzt diese Phoneme durch die entsprechenden Codewörter, welche die Sprache mit einer deutlich geringeren Informationsmenge beschreiben. Auf diese Weise wird die Sprache komprimiert.
  • Das angerufene Endgerät weist die gleiche Bibliothek auf und rekonstruiert beim Empfang durch Sprachsynthese die analogen Signale, die den verschiedenen Codewörtern entsprechen.
  • Eine derartige Vorgehensweise hat jedoch den Nachteil, daß mit Hilfe der Bibliothek nur eine vereinheitlichte bzw. normierte und dementsprechend unpersönliche Sprache rekonstruiert wird und daß es daher grundsätzlich unmöglich ist, den Gesprächspartner zu erkennen, um eine Sprachnachricht zu authen tifizieren. Der Tonfall oder Fluktuationen der Sprache, welche auch Informationen darstellen, wie die Bedeutung der Sprache selbst, werden folglich nicht rekonstruiert.
  • Der Artikel "Speaker normalization algorithms for very low-rate speech coding" von Roucos et al. ICASSP 84, Band 1, 19.–21. März 1984, Seiten 1.11 bis 1.14, XP002073267, San Diego, CA, US und das Patent DE-A-34 16 238 beschreiben das progressive Anpassen einer Bibliothek mit Sprachsignalen an diejenigen eines neuen Sprechers. Die zwischen diesen Signalen festgestellten Unterschiede dienen alleine dieser Anpassung.
  • Die Sprachsignale sind folglich bei der Wiedergabe verzerrt bzw. deformiert, sofern die Bibliothek keinen neuen Gleichgewichtszustand erreicht hat.
  • Die WO-A-94 18 668 betrifft die Sprachübertragung durch lineare Prädiktion und betrifft nicht die Spracherkennung. Ferner erfordert das Verfahren gemäß diesem Dokument Mittelwerteberechnungen mit einer Bibliothek mit Parametern, für welche der Ton identifiziert wurde, und nicht mit an dem erfaßten Ton direkt gemessenen Parametern.
  • Die Patent Abstracts of Japan, Band 10, Nr. 240, JP 61 071 730A beschreiben das Erkennen einer Sprachcharakteristik neben der Sprache selbst, ohne jedoch deren Beschaffenheit anzugeben, und insbesondere ohne anzugeben, wie diese Charakteristik bestimmt wird.
  • Eine treue Wiedergabe der Sprache kann nicht garantiert werden.
  • Die vorliegende Erfindung dient dazu, eine Sprachcodierung bereitzustellen, die gleichzeitig eine Komprimierung der Informationen und eine individuelle bzw. personenspezifische Wiedergabe ermöglicht.
  • Daher betrifft die Erfindung zunächst ein Verfahren zur Codierung von Sprache gemäß Anspruch 1.
  • Die primären Codewörter codieren wirksam und kompakt den größten Teil der erfaßten phonischen Energie, während die sekundären Codewörter die Wiedergabetreue verbessern, ohne die Codedatenmenge übermäßig ansteigen zu lassen, da sie nur eine begrenzte Energie betreffen und eine geringe Anzahl von Bits die Codierung dieser marginalen Energie erlaubt, die die primäre Energie bzw. Standardenergie moduliert, welche den primären Codewörtern entspricht.
  • Die Erfindung betrifft außerdem ein Endgerät zur Codierung von Sprachsignalen gemäß Anspruch 7.
  • Die Erfindung betrifft schließlich ein Endgerät zur Decodierung von Sprachsignalen gemäß Anspruch 8.
  • Obwohl es für die vorliegende Erfindung erforderlich ist, daß insgesamt ein Endgerät zur Codierung und ein entsprechendes Endgerät zur Decodierung vorhanden sind, können beide getrennt auf den Markt gebracht werden und die Anmelderin beabsichtigt daher, beide zu beanspruchen.
  • Insbesondere ist es vorteilhaft ein Telefaxgerät bereitzustellen, das Mittel aufweist, um Codewörter in eine Telefaxnachricht einzufügen.
  • Die Erfindung wird mit Hilfe der folgenden Beschreibung einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens besser verständlich, wobei auf die beigefügte Zeichnung Bezug genommen wird, in welcher:
  • 1 schematisch ein Sendeendgerät und ein Empfangsendgerät für Sprachesignale zur Durchführung des erfindungsgemäßen Verfahrens zeigt,
  • 2 die Amplitude A eines Sprachsignals als Funktion der Zeit t darstellt,
  • 3 die Amplitude K von Spektrallinien des Signals der Sprache 2 als Funktion der Frequenz F darstellt, und
  • 4 ein Flußdiagramm zeigt, das die Verfahrensschritte veranschaulicht.
  • Das in 1 mit dem Bezugszeichen 15 versehene Sendeendgerät, das hier die Form eines tragbaren Handapparats für Funknetze hat, weist ein Mikrofon 26 zum Erfassen des Sprachsignals von seinem Benutzer auf, welches einen Analog/Digital-Wandler 27 speist, der ausgangsseitig mit einer Mikroprozessor-Zentraleinheit 28 verbunden ist, der zwei Bibliotheken 11 und 12 mit normierten bzw. vereinheitlichten akustischen Sequenzen oder phonischen Einheiten, wie beispielsweise Phonemen zugeordnet sind. Die Zentraleinheit 28, welche die Sprache codiert, steuert einen Sender 29, hier einen Funksender, dessen Sendungen von einer Empfangsschaltung 30 eines Sprachwiedergabeendgeräts 35 empfangen werden. 2 zeigt die Amplitude einer phonischen Einheit als Funktion der Zeit t und 3 zeigt die Amplitude K von Spektrallinien zu einem vorgegebenen Zeitpunkt.
  • Genauer gesagt enthält die Zentraleinheit 28 einen Komparator 16, um die vom Wandler 27 empfangenen phonischen Einheiten mit den phonischen Einheiten in der Bibliothek zu vergleichen. Wie detaillierter im Zusammenhang mit 4 erläutert wird, ist es die Aufgabe des Komparators 16, in der Bibliothek die Referenz auszuwählen, die dem dann analysierten Signal am meisten ähnelt, und ferner, diese Differenz zu spezifizieren, d. h. einen Wert für die Abweichung für jedes Kriterium zu liefern, das zur Auswahl beigetragen hat. Diese Differenz wird hier mit Hilfe einer Codeumsetzungsschaltung 17 umcodiert, um deren Ausdruck zu komprimieren, und zwar in Form eines sekundären Codeworts, welches in einem Speicher 18 unter der Steuerung des Komparators 16 gespeichert wird. Dieser letztere, welcher zuvor das primäre Codewort in den Speicher 18 gespeichert hat, adressiert und steuert das Schreiben in diesem, damit die beiden Codewörter, nämlich das primäre und das sekundäre Codewort, physisch so verbunden werden, wie sie es in logischer Hinsicht sind, d. h., es wird beispielsweise eine Verknüpfung zwischen den beiden Speicherzonen definiert, welche diese enthalten.
  • Das Empfangsendgerät 35 weist eine Zentraleinheit 33 auf, welche eine inverse Decodierung der Sprache bewirkt, um einen Lautsprecher 34 zu speisen. Zwei Bibliotheken 31 und 32 bildende Speicher, welche hier extern bezüglich der Zentraleinheit 33 angeordnet sind, sind mit dieser verbunden. Das Empfangsendgerät 35 ist hier ein klassisches Endgerät für den Empfang von geschriebenen Nachrichten, welches Pager genannt wird und u. a. dafür eingerichtet ist, um Sprachnachrichten zu empfangen. Aus Gründen der Übersichtlichkeit sind verschiedene klassische Schaltungen zur Wahleingabe, zur Sendung dieser und zur Datenanzeige nicht dargestellt.
  • Die Zentraleinheit 33 weist eine Schaltung 36 zur Adressierung der individualisierten bzw. primären Bibliotheken 31 und 32 ausgehend von den von der Empfangsschaltung 30 empfangenen Codewörtern auf. Eine Pufferschaltung 37 empfängt als Antwort von der primären Bibliothek 32 primäre Spektren der phonischen Einheiten und überträgt diese an eine Schaltung 38 zur Modulation oder zum Aufbau dieser Spektren. Die Schaltung 38 moduliert diese als Funktion des sekundären Codeworts, welches dem primären Codewort vom Lesen der primären Bibliothek 32 zugeordnet ist. Die Schaltung 38 kombiniert folglich die Informationen der primären und sekundären Codewörter, um das ursprünglich (26) aufgenommene Signal zu rekonstruieren. Diese Kombination kann beispielsweise eine Addition oder Multiplikation von Frequenzlinien sein, gefolgt von einer inversenen Fourier-Transformation oder sie kann direkt die Signalamplituden betreffen. Bei diesem Beispiel wird jede Art von wiedergegebener phonischer Einheit in dem individualisierten Speicher 31 gespeichert, um diese letztere direkt zu verwenden, wenn später ein gleiches Paar aus primärem und sekundärem Codewort empfangen wird. Alternativ könnte der Speicher 31 nur Modulationswerte enthalten, welche er nach der Adressierung mit Hilfe eines sekundären Codewortes an die Schaltung 38 liefern würde.
  • Die Codier- und Decodieroperationen werden nun detaillierter unter Bezugnahme auf 4 dargestellt.
  • Um Sprache zu codieren, nimmt man in einem Schritt 1 mit Hilfe eines Mikrofons 26 ein Sprachsignal auf und wandelt dieses hier in einem Schritt 2 in dem Wandler 27 in ein digitales Signal um. Das Sprachsignal wird dann in der Zentraleinheit 28 mit mehreren Referenzsignalen der Bibliothek 11 verglichen, Schritt 3. Der Vergleich findet laufend statt, praktisch zyklisch mit einer höheren Geschwindigkeit als die Entwicklungsgeschwindigkeit des analysierten Sprachsignals. Von diesem kann angenommen werden, es bestünde aus einer Folge von phonischen Einheiten, die für eine vorgegebene Sprache spezifisch sind, beispielsweise Vokale, Diphthonge oder Hiatus, von denen eine Darstellung zu Beginn in die Bibliothek 11 gestellt wurde und denen jeweils ein bestimmtes Codewort, genannt primäres Codewort, zugeordnet ist. Bei dem Aufbau der Bibliothek 11 und der weiter unten angegebenen Bibliotheken 12 und 32 werden mehrere Sprachaufnahmen von dem gleichen Sprecher oder von mehreren durchgeführt, um eine mittlere Sprachreferenz zu bilden. Zur Erhöhung der Effizienz bei zukünftigen Erkennungen speichert (11, 12) man für jede phonische Einheit mehrere Referenzen, um einen Erkennungsbereich zu bilden, welcher Abweichungen zwischen Sprechern toleriert.
  • Jede phonische Einheit (2) entspricht einer bestimmten Entwicklung der Amplitude A oder der Energie des Sprachsignals und hat eine Dauer, die in Abhängigkeit von der Sprechgeschwindigkeit der sprechenden Person variieren kann.
  • Schritt 3 besteht folglich darin, den Verlauf bzw. die Entwicklung der Amplituden der Referenzsignale mit dem erfaßten Signal zu vergleichen. Damit Sprachgeschwindigkeitsunterschiede unberücksichtigt bleiben, kann man beispielsweise nur die Abfolge der Modulationen mit signifikanter Amplitude betrachten (über einen Schwellwert hinausgehende Energieveränderung), ohne einen Zeitbegriff zuzuordnen.
  • In 2 stellen die hier acht vertikalen Pfeile die Amplitude der Extrema dar und bilden auf diese Weise eine Signatur, von der hier angenommen wird, daß sie eine vorgegebene phonische Einheit repräsentiert.
  • Es wird der Zeitbereich gemäß 2 verlassen. Nun wird der Frequenzbereich betrachtet. Die Fourier-Transformierte der momentanen Amplitude A des Signals in einem beliebigen Punkt der Kurve gemäß 2 kann durch das Frequenzlinienspektrum gemäß 3 dargestellt werden. In der Praxis findet man, daß die Sprachenergie im wesentlichen auf drei Frequenzbänder beschränkt ist, die bei 0,1 kHz liegen bzw. zwei Bänder zwischen ungefähr 1 und 3 kHz sowie zwischen 5 und 7 kHz.
  • Wenn man die Kurve der Amplitude gemäß 2 als Funktion der Zeit t durchläuft, erweist sich die Amplitude K jeder Linie in 3 folglich als moduliert als Funktion des Verlaufs der Amplitude A des Sprachsignals.
  • Wenn man folglich die Folge der Spektren gemäß 3 speichert, kann man die Folge der Amplituden A des ursprünglichen Signals mit Hilfe der inversen Fourier-Transformierten rekonstruieren.
  • Um die Anzahl der zu bearbeitenden Spektren zu begrenzen, können lediglich zyklische Abtastungen bewirkt werden, die ausreichend dicht beieinander liegen, damit keine Informationen verloren gehen. Man kann sich auch auf einen beschränkten Satz von Spektren der durch die acht Pfeile in 2 dargestellten Amplituden-Extrema beschränken. Wenn man die Anzahl der Spektren weiter beschränken will, kann man nur ein einziges Spektrum speichern, welches den Mittelwert aller Spektren im betrachteten Zeitintervall der phonischen Einheit darstellt oder den Mittelwert der Spektren der Extrema.
  • Wie dies weiter unten detaillierter beschrieben wird, vergleicht man das mittleren Spektrum, oder die Spektren des erfaßten Sprachsignals mit einem oder mehreren entsprechenden Spektrum bzw. Spektren von Referenzsprachsignalen in der Bibliothek, um einerseits das Referenzsprachsignal (die phonische Einheit) auszuwählen, das dem erfaßten Signal am meisten ähnelt, und andererseits ein Differenzsignal zwischen dem oder den Spektren des letzteren und dem oder den Spektren des ausgewählten Referenzsignals zu bilden. Das Differenzsignal wird in die Form eines Codeworts gebracht, genannt sekundäres Codewort, und wird dem primären Codewort des ausgewählten Referenzsignals (erkannte phonische Einheit) zugeordnet und bildet auf diese Weise eine zusätzliche Information zur Modulation oder Korrektur des normierten bzw. vereinheitlichten analogen Signals, das ausgehend von dem betrachteten primären Codewort wiedergegeben wird.
  • Die primären Codewörter der entsprechend dem Verlauf der Sprachsequenz nacheinander ausgewählten phonischen Einheiten werden im Schritt 4 gespeichert, um eine gemäß der Norm der Bibliothek 11 codierte Nachricht zu bilden.
  • Im übrigen werden im Schritt 5, weiter vorne, bestimmte der erfaßten und erkannten phonischen Einheiten bearbeitet, indem hier im Frequenzbereich mit Hilfe der inversen Fourier- Transformierten deren Frequenzspektrum detailliert analysiert wird, wie weiter oben erläutert ist, Schritt 6.
  • Im Schritt 7 wird das Linienspektrum j der betroffenen phonischen Einheit mit der Identität i oder die deren Verlauf über die Zeit t darstellenden Spektren mit dem (den) Spektrum (Spektren) der in der Bibliothek 11 ausgewählten phonischen Einheit verglichen, das (die) in der zugehörigen Bibliothek 12 enthalten ist (sind). Auf diese Weise wird für das Spektrum oder für jedes Spektrum eine Serie von Wichtungs-Koeffizienten Cijt (i = Identität des Phonems, j = Frequenzrang der Linie, t = Zeitrang) zur Verfügung gestellt, von denen jeder die Amplitude oder relative Energie jeder Linie j im Vergleich zu seinem Pendant in der Bibliothek 12 angibt. Mit anderen Worten, diese Koeffizienten stellen ebenfalls, wenn auch indirekt, die relative Differenz (1 – Cijt) zwischen der erkannte phonischen Einheit und der entsprechenden Referenz in der Bibliothek dar. Die Linien in jedem der drei Bänder entsprechen tatsächlich einem Bereich von Minibändern von benachbarten Frequenzen, in welchen man die Sprachenergie erfaßt. Die Analyse im Frequenzbereich, welche hier gewählt wurde, liefert auf diese weise detailliertere Informationen als im Falle einer Analyse im Zeitbereich gemäß 2, wo man nur über die instantane Amplitude A verfügt.
  • Im Fall der 2 und 3 weist die obige Serie somit zwölf Koeffizienten auf, die die zwölf gezeichneten Linien repräsentieren, während ein Feld von acht solchen Serien die phonische Einheit repräsentiert, und zwar über die acht gezeichneten Extrema. Außer der Reduzierung des Feldes auf eine einzige Serie kann vorgesehen werden, daß nur ein mittlerer Wichtungs-Koeffizient für jedes der drei Bänder gespeichert wird. Wenn jeder Koeffizient auf nur 4 Bits codiert wird, überschreitet der Fehler ungefähr 3% nicht, was völlig ausreichend ist, um ein Timbre einer Stimme wiederzugeben, wenn das Korrektursignal eine geringe Energie bezogen auf das normierte Signal, welches es korrigiert, repräsentiert, so daß der Fehler bezogen aufs Ganze gering ist.
  • Man kann folglich dem ausgewählten primären Codewort der phonischen Einheit in der Größenordnung von 100 Bits (12 × 8) zuordnen, wenn man jedes Extrema speichert, oder nur 12 Bits (4 × 3) für die drei Bänder. Da das Timbre der Stimme hauptsächlich durch die hohen Frequenzen des dritten Bandes geliefert wird, kann man auch nur das sekundäre Codewort zur Korrektur in bezug auf dieses übertragen.
  • In einem Schritt 8 transformiert man das Spektrumdifferenzsignal in ein sekundäres Codewort, welches das Feld oder die obige Serie repräsentiert. Wenn die Sequenz der erfaßten Sprache endet, werden die primären Codewörter aus dem Schritt 4 und die sekundären Codewörter aus dem Schritt 8 einander zugeordnet (Schritt 9) und dann über ein Übertragungsnetz, wie beispielsweise das leitungsvermittelte Telefonnetz oder hier ein Nachrichtenfunknetz gesendet (Schritt 10).
  • Das angerufene Endgerät 35 empfängt die Nachricht in einem Schritt 21, und in einem Schritt 22 wird von der Schaltung 36 eine Datei in der primären Bibliothek 32 gelesen, die der Datei der Spektren 12 ähnelt, um davon entsprechend den primären Codewörtern die normierten primären Spektren abzuleiten. In einem Schritt 23 dienen die sekundären Codewörter zur Modulation (38) der Amplituden oder Energien der in der primären Bibliothek 32 gelesenen normierten Linien, um auf diese Weise die individualisierte Bibliothek 31 aus phonischen Einheiten zu bilden, d. h. insbesondere mit dem Timbre der aufgenommenen Stimme. Die phonischen Einheiten der individualisierten Bibliothek 31 werden in digitaler Form im Zeitbereich dargestellt, und zwar nach einer vorherigen Transformation mit Hilfe der inversen Fourier-Tranformierten.
  • Im Schritt 24 werden die empfangenen primären Codewörter nacheinander gelesen, um mit Hilfe des Lautsprechers 34 (Schritt 25) das aufgenommen Sprachsignal wiederzugeben. Zu diesem Zweck lesen die primären Codewörter die individualisierte Bibliothek 31, die folglich der Bibliothek 11 entspricht, welche jedoch durch die Charakteristika im Spektrum der aufgenommenen Stimme individualisiert wurden.
  • Die Einrichtung der Bibliothek 31 ist wie weiter oben angegeben, fakultativ und dient zur Speicherung einer Korrektur für jedes primäre Codewort, wodurch vermieden wird, daß ein sekundäres Codewort wiederholt gesendet werden muß, wenn das gleiche primäre Codewort mehrere Male gesendet wird. wenn dagegen systematisch ein sekundäres Codewort gesendet wird, kann sich dieses ändern und eventuellen Entwicklungen des Timbres folgen. In diesem Fall ist die wiedergegebene Stimme gleichzeitig individualisiert und außerdem wird die Entwicklung des Timbres mit der Zeit wiedergegeben.
  • Es sei ferner allgemein bemerkt, daß die Analyse und die. Wiedergabe das gesamte hörbare Frequenzband betreffen können, welches von ungefähr 15 Hz bis 15 kHz reicht, selbst wenn man sich in der Praxis auf bis zu 8 kHz beschränken kann. Die Frequenzen des Bandes von 4 bis 8 kHz, welche für die klassischen Übertragungen über das Telefonnetz herausgeschnitten werden, werden hier analysiert und wiedergeben, da man die entsprechenden Informationen in Form einer Fernsteuerung von der Bibliothek 31 überträgt, welche bereits die Linien bei diesen Frequenzen enthält, was eine explizite Übertragung dieser vermeidet.
  • Es sei ferner erwähnt, daß, wenn die Analyse nur eine begrenzte Anzahl von ausreichend charakteristischen Frequenzbändern in der Bibliothek 11, 12 betreffen kann, die verschiedenen wiederzugebenden Signale in der Bibliothek 32 die Gesamtheit der ursprünglich erfaßten Linien umfassen, d. h. jeweils beispielsweise ein ununterbrochenes Band von 15 Hz bis 8 kHz abdecken.
  • Wie zu Beginn angegeben, kann die Erfindung außerhalb des Übertragungsgebiets eingesetzt werden, um beispielsweise lokal eine später wiederzugebene Nachricht zu speichern, d. h., es handelt sich folglich um die Funktion eines Tonbandgeräts.
  • Bei einer nicht dargestellten anderen Ausführungsform sind die primären und sekundären Codewörter Telefaxdaten zugeordnet, um eine Nachricht aus Stimme und Daten zu bilden. Die Nachricht wird von der normalerweise mit Telefaxgeräten verbundenen Fernsprechstelle erfaßt und wird mit dem gleichen Mittel auf Seiten des angerufenen Telefaxgeräts wiedergegeben. Die von einer Schaltung, wie der Schaltung 28, gesendeten Codewörter werden in ein spezielles Feld der Nachricht von einem Mikroprozessor eingefügt, welcher das Telefaxübertragungsprotokoll steuert und werden genauso beim Empfang extrahiert, um wie weiter oben erläutert, bearbeitet zu werden. Auf diese Weise kann man eine Sprachannotation für eine Telefaxnachricht realisieren, wobei die Annotation beispielsweise wie ein Telefaxkopf übertragen wird.

Claims (9)

  1. Verfahren zur Codierung von aus einer Folge von phonischen Einheiten bestehender Sprache, wobei man diese phonischen Einheiten nacheinander mit Referenzen in einer Bibliothek vergleicht, die zu speziellen primären Codewörtern gehören, und wobei man für jede phonische Einheit eine Referenz und folglich deren spezielles zugehöriges Codewort auswählt, die Differenz zwischen der phonischen Einheit und der Referenz bestimmt, eine Codeumsetzung der Differenz durchführt, um ein sekundäres Codewort zu erhalten, das primäre Codewort und das sekundäre Codewort einander zuordnet und die phonische Einheit durch das Paar aus primärem und sekundärem Codewort ersetzt, wobei das Verfahren dadurch gekennzeichnet ist, daß der Vergleich der phonischen Einheiten und der Referenzen die Energie von Frequenzlinien betrifft, für welche man bezogen auf die Energie von Referenzlinien normierte Wichtungskoeffizienten bestimmt, die entsprechend den sekundären Codewörtern umcodiert sind.
  2. Verfahren nach Anspruch 1, wobei man die Differenz ausgehend von einer Folge von Spektren bestimmt, die einer Folge von Amplituden der betrachteten phonischen Einheit entspricht.
  3. Verfahren nach Anspruch 2, wobei man nur die Amplituden betrachtet, die Extrema entsprechen.
  4. Verfahren nach Anspruch 1, wobei man die Differenz ausgehend von einem einzigen mittleren Spektrum der betrachteten phonischen Einheit bestimmt.
  5. Verfahren nach einem der Ansprüche 1 bis 4, wobei man den Frequenzvergleich auf drei Frequenzbänder beschränkt.
  6. Verfahren nach Anspruch 5, wobei man den Wichtungskoeffizienten der Linien jedes Bandes durch einen einzigen Koeffizienten ausdrückt.
  7. Endgerät zur Codierung von Sprachsignalen, mit Mitteln (26, 27) zur Erfassung einer Sequenz von phonischen Einheiten und zur Übertragung dieser an Komparatormittel (16), die ausgebildet sind, um die phonischen Einheiten mit Referenzen in einer Bibliothek (11, 12) zu vergleichen, und so dort jedesmal ein spezielles primäres Codewort von einer der Referenzen auszuwählen, wobei der Vergleich der phonischen Einheiten und der Referenzen die Energie von Frequenzlinien betrifft, wobei die Komparatormittel (16) ausgebildet sind, um eine Differenz zwischen der betrachteten erfaßten phonischen Einheit und der dem ausgewählten Codewort entsprechenden Referenz zu bestimmen, daraus einen bezogen auf die Energie der Referenzlinien normierten Wichtungskoeffizienten abzuleiten und den Koeffizienten an Mittel zur Codeumsetzung (17) zu übertragen, die zur Lieferung eines sekundären Codewortes als Antwort vorgesehen sind, das in Speichermitteln (18) gespeichert wird, wo jeweils die primären und sekundären Codewörter zugeordnet sind.
  8. Endgerät zur Decodierung von Sprachsignalen, mit Mitteln (30) zum Empfangen von Signalen, die primäre Codewörter von Referenzen phonischer Einheiten in einer Bibliothek (32) darstellen, und mit Mitteln zur Decodierung (33), die ausgebildet sind, um bestimmte Referenzen in der Bibliothek (32) gemäß den empfangenen primären Codewörtern auszuwählen und um entsprechend einen Wandler (34) zur Sprachsignalwiedergabe zu steuern, wobei der Vergleich der phonischen Einheiten und der Referenzen die Energie von Frequenzlinien betrifft, wobei die Decodiermittel (33) ausgebildet sind, um außerdem sekundäre Codewörter zur Korrektur zu decodieren, die den primären Codewörtern zugeordnet sind und bezogen auf die Energie der Referenzlinien normierten Wichtungskoeffizienten entsprechen, und um entsprechend (38) die ausgewählten Referenzen durch Modulation dieser Referenzen mit Hilfe der sekundären Codewörter zu korrigieren.
  9. Endgerät nach Anspruch 7 oder 8, gebildet durch ein Telefaxgerät, das Mittel zum Einfügen der Codewörter in eine Telefaxnachricht aufweist.
DE69820903T 1997-11-21 1998-11-20 Sprach-kodierungs-verfahren und endgeräte zum implementieren besagten verfahrens Expired - Lifetime DE69820903T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9714667 1997-11-21
FR9714667A FR2771544B1 (fr) 1997-11-21 1997-11-21 Procede de codage de la parole et terminaux pour la mise en oeuvre du procede
PCT/FR1998/002486 WO1999027521A1 (fr) 1997-11-21 1998-11-20 Procede de codage de la parole et terminaux pour la mise en oeuvre du procede

Publications (2)

Publication Number Publication Date
DE69820903D1 DE69820903D1 (de) 2004-02-05
DE69820903T2 true DE69820903T2 (de) 2004-12-09

Family

ID=9513661

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69820903T Expired - Lifetime DE69820903T2 (de) 1997-11-21 1998-11-20 Sprach-kodierungs-verfahren und endgeräte zum implementieren besagten verfahrens

Country Status (4)

Country Link
EP (1) EP1032933B1 (de)
DE (1) DE69820903T2 (de)
FR (1) FR2771544B1 (de)
WO (1) WO1999027521A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6501751B1 (en) * 1998-09-30 2002-12-31 Symantec Corporation Voice communication with simulated speech data
DE19925264A1 (de) * 1999-06-01 2000-12-14 Siemens Ag Verfahren und Anordnung zur Übertragung von mit Individualmerkmalen behafteten Datensignalen, insbesondere Sprachsignalen
EP1102242A1 (de) * 1999-11-22 2001-05-23 Alcatel Verfahren zur Personalisierung von Sprachausgabe

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4707858A (en) * 1983-05-02 1987-11-17 Motorola, Inc. Utilizing word-to-digital conversion
JPS6171730A (ja) * 1984-09-14 1986-04-12 Nec Corp 音声デ−タ転送方式
US4802224A (en) * 1985-09-26 1989-01-31 Nippon Telegraph And Telephone Corporation Reference speech pattern generating method
FI96246C (fi) * 1993-02-04 1996-05-27 Nokia Telecommunications Oy Menetelmä koodatun puheen lähettämiseksi ja vastaanottamiseksi

Also Published As

Publication number Publication date
DE69820903D1 (de) 2004-02-05
FR2771544B1 (fr) 2000-12-29
EP1032933A1 (de) 2000-09-06
WO1999027521A1 (fr) 1999-06-03
EP1032933B1 (de) 2004-01-02
FR2771544A1 (fr) 1999-05-28

Similar Documents

Publication Publication Date Title
DE3534064C2 (de)
AT405346B (de) Verfahren zum herleiten der nachwirkperiode in einem sprachdecodierer bei diskontinuierlicher übertragung, sowie sprachcodierer und sender-empfänger
Flanagan et al. Phase vocoder
DE69631318T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hintergrundrauschen in einem digitalen Übertragungssystem
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE69828160T2 (de) Gerät und verfahren zur programmierung eines hörhilfegerätes
DE69533500T2 (de) Verfahren und vorrichtung zum kodieren und dekodieren von nachrichten
DE19604273C2 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE69534561T2 (de) Sender-empfänger
DE602004005784T2 (de) Verbesserte Anregung für Höherband-Kodierung in einem Codec basierend auf Frequenzbandtrennungs-Kodierungsverfahren
DE4313175A1 (de) Verfahren und Vorrichtung zur Aufzeichnung von Audiosignalen in einen Halbleiterspeicher
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren
DE69839312T2 (de) Kodierverfahren für vibrationswellen
DE2546446C3 (de) PCM-Zeitmultiplex-System
DE69633154T2 (de) Schnurloses Telefongerät
DE69820903T2 (de) Sprach-kodierungs-verfahren und endgeräte zum implementieren besagten verfahrens
EP0658874B1 (de) Verfahren und Schaltungsanordnung zur Vergrösserung der Bandbreite von schmalbandigen Sprachsignalen
DE2125391A1 (de) Endgerätsystem zur Verbindung einer Vielzahl von Benutzerkanälen über einen Übertragungskanal begrenzter Bandbreite
DE2854401C2 (de) Anrufbeantworter
DE60108708T2 (de) Tragbares Telefon mit einer Aufzeichnungsfunktion zur Speicherung von Telefongesprächen unter Anwendung einer reduzierten Speicherkapazität
DE4203436A1 (de) Datenreduzierte sprachkommunikation
DE60027140T2 (de) Sprachsynthetisierer auf der basis von sprachkodierung mit veränderlicher bit-rate
DE2238136C2 (de) Gesteuerter Signalprozessor für die Verarbeitung von elektrischen Signalen
DE69910833T2 (de) Verfahren und vorrichtung zur speicherbedarfsreduzierung für ein sprachaufnahmesystem
DE4345252B4 (de) Verfahren zur Wiedergabe von digitalisierten Audiodaten aus einem Halbleiterspeicher

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
R082 Change of representative

Ref document number: 1032933

Country of ref document: EP