DE4441906C2 - Anordnung und Verfahren für Sprachsynthese - Google Patents

Anordnung und Verfahren für Sprachsynthese

Info

Publication number
DE4441906C2
DE4441906C2 DE4441906A DE4441906A DE4441906C2 DE 4441906 C2 DE4441906 C2 DE 4441906C2 DE 4441906 A DE4441906 A DE 4441906A DE 4441906 A DE4441906 A DE 4441906A DE 4441906 C2 DE4441906 C2 DE 4441906C2
Authority
DE
Germany
Prior art keywords
phoneme
points
time scale
time
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE4441906A
Other languages
English (en)
Other versions
DE4441906A1 (de
Inventor
Tomas Svensson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Publication of DE4441906A1 publication Critical patent/DE4441906A1/de
Application granted granted Critical
Publication of DE4441906C2 publication Critical patent/DE4441906C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)
  • Electric Clocks (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

Die vorliegende Erfindung betrifft die Sprachsynthese. Bei der Sprachsynthese werden Worte identifiziert, die in eine Anzahl von charakteristischen Tönen unterteilt werden, die Phoneme genannt werden. Bei der Identifizierung gesprochener Sequenzen ist es wichtig, daß diese Phoneme richtig identifiziert werden. Die Phoneme werden auch dazu benutzt, gesprochene Se­ quenzen mit Hilfe von künstlichen Mitteln zu erzeugen.
Wenn Sprache künstlich erzeugt wird, wird normalerweise eine Bibliothek mit grundlegenden Phonemen verwendet. Wenn diese Phoneme in Worte zusammengesetzt werden, müssen sie in vielen Fällen in längere oder kürzere Zeiträume umgewandelt werden, als sie durch das Grundphonem dargestellt sind. In diesem Zusammenhang ist es bekannt, das Phonem an einer Anzahl von Punkten zu identifizieren. Wird das ursprüngliche Phonem in einen anderen Zeitmaßstab umgewandelt, was Verlängerung oder Verkürzung des Zeitmaßstabes bedeuten kann, ist es bekannt, die Umwandlung an einer Anzahl ausgewählter Punkte durchzufüh­ ren. Wird der Zeitmaßstab verlängert, so betrifft dieses gewisse Punkte im ursprünglichen Phonem, die eine Anzahl von Punkten im neuem Phonem darstellen. Wird der Zeitmaßstab ver­ kürzt, so wird eine Anzahl ausgewählter Punkte im ursprüng­ lichen Phonem kombiniert, um einen Punkt im neuen Phonem zu bilden. Wird das ursprüngliche Phonem in einen Zeitmaßstab übertragen, der zum Beispiel 25% länger ist als das Phonem in der Bibliothek, so wird eine Anzahl von Punkten des Bi­ bliothekphonems ausgewählt. Im neuen Phonem, das durch die Umwandlung gebildet wird, werden 25% mehr Punkte als im Bi­ bliotheksphonem eingeführt. Bei der Umwandlung wird daher das neue Phonem eine Anzahl von Punkten enthalten, die im Biblio­ theksphonem nicht identifiziert sind. Bei der Umwandlung wird jeder vierte Punkt im Bibliotheksphonem ausgewählt. Diese Teile des Phonems werden verdoppelt und auf zwei Punkte im verlängerten Phonem übertragen. Die restlichen Punkte werden vom Bibliotheksphonem zum verlängerten Phonem Punkt um Punkt übertragen. Hierdurch wird eine Verlängerung in bezug auf die Zeit des ursprünglichen Phonems mit Hilfe einer gleichförmi­ gen Zeitverlängerung über das ganze Phonem bewirkt. In den Fällen, in denen das Bibliotheksphonem länger ist als das Phonem, das gebildet werden muß, wird jeder vierte Punkte in derselben Weise wie oben ausgewählt, wenn man annimmt, daß die Zeitverkürzung 25% beträgt. Wird das zeitverkürzte Pho­ nem gebildet, werden diese Punkte bei der Umwandlung ent­ fernt.
In EP 525 544 A wird die Sprachmaßstabmodifikation eines neuen Signalpunktes beschrieben. Dies beruht unter anderem auf der Erkenntnis, daß Zeitmaßstabkompression den Informati­ onsinhalt verringert und Zeitmaßstabexpansion den Informati­ onsgehalt erhöht. Es können daher "Mittenabstand-Perioden" oder "Teilungs-Perioden" oder "Tonhöhen-Perioden" ("pitch pe­ riods") über ein Segment entfernt oder eingefügt werden. Die Erfindung stellt ein Verfahren zum Verbessern des SOLA- Verfahrens (Synchronized Overlap add = synchronisierte Über­ lappungsaddition) durch Überlagerung teilweise überlappender Blöcke dar.
US-Patent 4 435 832 zeigt Sprachsynthese mit Verlängerung und Kompression des Zeitmaßstabes, ohne die Tonhöhe der synthe­ tischen Sprache zu ändern. LPC-Parameter (Linear Predictive Coding = lineare vorhersagende Kodierung) werden von in Segmente aufgeteilten Wellenformen abgetastet, die herausge­ nommen worden sind aus natürlicher Sprache zu einem gegebenen Zeitintervall, von Information über Phoneme mit und ohne Sprache, Tonhöhe und Lautstärkeinformation. LPC wird interpo­ liert, und das Zeitskalenintervall für die Interpolation wird verbessert.
In US-PS-4 864 620 ist ein Verfahren für Zeitmaßstabmodifika­ tion von Sprachinformation oder Sprachsignalen beschrieben, um aufgezeichnete Sprache mit einer unterschiedlichen Ge­ schwindigkeit ohne Änderungen in der Tonhöhe zu reproduzie­ ren. Zeitdomänenproben werden in Rahmen genommen, wobei die Anzahl der Proben pro Rahmen eine Funktion des gewünschten Sprachänderungsfaktors ist. Blöcke werden von den Rahmen ge­ bildet. Verhältnismäßig sanfte Übergänge werden durch abge­ stufte Gewichtung erzeugt.
Die Zeitmaßstabmodifikation von Sprachsignalen ist auch in US-PS-5 216 744 angegeben. Die Anzahl der Proben, die eine "Teilungs-Periode" oder "Tonhöhen-Periode" bildet, wird be­ stimmt. Außerdem wird eine kombinierte Probengruppe gebildet, die aus einer ersten Probengruppe und einer zweiten Proben­ gruppe gebildet ist. Die Anzahl der Proben in jeder Gruppe ist gleich der Anzahl der Proben, die eine Teilungs- oder Tonhöhen-Periode bilden.
Ein Verfahren zum Unwandeln von Sprachsignalen von einem er­ sten Zeitmaßstab zu einem zweiten Zeitmaßstab ist aus DE 41 01 022 A1 bekannt. Bei diesem Verfahren wird das Sprachsignal in Blöcke zerlegt, und die Blöcke werden zu ei­ nem neuen Sprachsignal zusammengesetzt. Durch das wiederhol­ tes Aneinanderreihen desselben Blocks wird das Sprachsignal dabei zeitlich gedehnt, durch Weglassen von Blöcken wird das Sprachsignal verkürzt.
In US 4,700,391 ist ein Verfahren angegeben, bei dem das Sprachsignal mit einer bestimmten ersten Geschwindigkeit in einen Speicher eingeschrieben und mit einer zweiten anderen Geschwindigkeit ausgelesen wird, so daß eine Änderung der Zeitdauer des Sprachsignals erfolgt.
Bei der Sprachsynthese ist es wichtig, daß Worte und Sätze, die künstlich erzeugt werden, natürlich wiedergegeben werden. Es ist auch wichtig, daß durch eine Person erzeugte Sprache in richtiger Weise identifiziert wird. In diesem Zusammenhang ist es möglich, eine Anzahl von charakteristischen Tönen, Phonemen, für verschiedene Sprachen zu identifizieren. Diese Phoneme werden in verschiedenen Formen von Bibliotheken ange­ ordnet. Diese Phoneme bilden einen Grundkern. Die Phoneme können sich über eine längere oder kürzere Zeit als die Zeit­ intervalle erstrecken, die durch die Grundphoneme dargestellt werden sind, und zwar in Abhängigkeit vom Zusammenhang und in welchen Worten sie eingeschlossen sind. Dies bringt mit sich, daß die Phoneme, die in der Bibliothek dargestellt sind, in längere oder kürzere Zeitperioden umgewandelt werden müssen. in diesem Zusammenhang ist es bei solchen Umwandlungen wich­ tig, daß die Charakteristik des Phonems nicht geändert wird. Dies bringt es mit sich, daß die informationstragenden Teile des Phonems nicht geändert werden sollten. Es ist daher wünschenswert, daß Zeitänderungen in den Teilen des Phonems stattfinden, die weniger Information tragen. Beim Zusammen­ setzen einer Anzahl von Phonemen in Worte und Sätze ist es auch wichtig, daß die Übergänge zwischen den Phonemen auf solche Weise stattfinden, daß die informationstragenden Teile eines entsprechenden Phonems nicht geändert werden.
In der natürlichen Sprache wird im Verlauf des Sprechens der Grundton innerhalb des einen und selben Phonems geändert. Die Lösungen, die bisher angeboten wurden, haben diese Erscheinung nicht berücksichtigt. Es ist daher wünschenswert, daß die Änderung im Grundton, höhere oder tiefere Frequenz, beim Umwandeln von Phonemen berücksichtigt wird.
Die gekennzeichnete Erfindung soll eine Lösung für das angege­ bene Problem angeben.
Die vorliegende Erfindung betrifft ein Verfahren bei der Sprachsynthese. Ein Phonem wird in einer Anzahl von Punkten bei der entsprechenden Stimmbanderregung des Sprechers identi­ fiziert. Das Phonem muß in eine andere Zeit als die umgewan­ delt werden, die durch das ursprüngliche Phonem dargestellt wird. Nachdem die Punkte ausgewählt worden sind, werden die Punkte im Phonem identifiziert, die Information tragen. Infor­ mationstragend bedeutet in diesem Zusammenhang die Teile des Phonems, die erforderlich sind, damit das Phonem richtig ver­ standen wird. Die Teile des Phonems, die weniger Information tragen, werden ebenfalls identifiziert. Teile, die weniger Information tragen, können geändert werden, ohne daß sich die Charakteristik des Phonem in seinen wichtigsten Teilen ändert. Werden Phoneme verwendet, zum Beispiel beim Erzeugen künstlicher Sprache, ist es wünschenswert, daß eine Anzahl von Grundphonemen verwendet werden kann, die bei verschiedenen Gelegenheiten in gewünschte Werte umgewandelt werden. Die Erfindung berücksichtigt diese Situation und bewegt die Über­ gänge zwischen unterschiedlichen Phonemen zu den Teilen, die weniger Information tragen. Wenn in einen neuen Zeitmaßstab umgewandelt wird, findet Rompression bzw. Auseinanderziehen im wesentlichen in den Teilen des Phonems statt, die weniger Information tragen. Auf diese Weise werden informationstra­ gende Teile des Phonems im wesentlichen unversehrt gehalten.
Die Anordnung weist ein Element auf, das ein Phonem aus einer gesprochenen Sequenz oder von einem Speicherelement auswählt. Das Element identifiziert eine Anzahl von Punkten im Phonem. Danach werden die informationstragenden Teile des Phonems bzw. die Teile des Phonems, die weniger Information tragen, identi­ fiziert. Das Element sorgt dann dafür, daß Umwandlung des Phonems über eine längere/kürzere Zeit durch Kompression oder Strecken in den Teilen des Phonems stattfindet, die weniger Information tragen. Auf diese Weise wird der Charakter des Phonems im wesentlichen beibehalten. Außerdem ist eine Mög­ lichkeit gegeben, Übergänge zwischen unterschiedlichen Phone­ men zu erhalten, wodurch ein natürlicher Eindruck erhalten wird. Die Erfindung ermöglicht die Speicherung eines Satzes von Bibliotheksphonemen, die eine Anzahl von Standardtönen darstellen, die in der Sprache gefunden werden. Diese Biblio­ theksphoneme können dann für Umwandlung über eine längere oder kürzere Zeit, als dies durch die Bibliotheksphoneme darge­ stellt wird, verwendet werden. Mit der angegebenen Lösung wird das umgewandelte Phonem in bezug auf das Bibliotheksphonem minimal entstellt. Dies beruht auf der Tatsache, daß die Teile des Phonems, die für die Interpretation des Phonems wichtig sind, unverändert bleiben oder in geringerem Ausmaß verändert werden. Die Erfindung ermöglicht es auch, daß Änderungen im Grundton des Phonems berücksichtigt werden. Es ist so ermög­ licht, daß Veränderungen im Grundton in das umgewandelte Phonem in bezug auf das Bibliotheksphonem eingeführt werden können. Die Bedeutung dieser Tatsache liegt darin, daß ge­ schaffene Sprachsequenzen einen Charakter erhalten können, der mit der natürlichen Sprache übereinstimmt. Dies ist teilweise zum Verstehen der Sprache und teilweise zum Erhalten einer natürlichen Betonung der erzeugten Töne wesentlich.
Die Erfindung wird im folgenden unter Bezugnahme auf die bei­ gefügten Zeichnungen beispielsweise beschrieben. Es zeigen:
Fig. 1 Beispiele von Aufteilung mit linearem Zeitmaßstab;
Fig. 2 die erfindungsgemäßen Zeitmaßstabverhältnisse;
Fig. 3 die Erfindung in Blockschemaform; und
Fig. 4 ein Phonem, in dem ein Fenster A einen Puls asymme­ trisch ausschneidet.
Im folgenden Text wird die Erfindung unter Bezugnahme auf die Figuren beschrieben. Wird künstliche Sprache erzeugt, so er­ scheint bei 1 in Fig. 3 ein Text. Der Text wird durch 1 analy­ siert und in seine fundamentalen Komponenten aufgeteilt. Danach werden die Phoneme von der Bibliothek ausgewählt. Das Phonem in der Bibliothek stellt einen Standardwert dar. Dies bedeutet, daß dem Phonem ein Standardwert in bezug auf Dauer, Tonhöhe usw. gegeben wurde. Soll das Phonem dann in den Text, der angekommen ist, eingesetzt werden, so ist in der Regel irgendeine Modifikation des Phonems erforderlich. Dies bedeu­ tet, daß die zeitliche Ausdehnung des Phonems geändert werden muß. Dies wird zum Beispiel durch lange, kurze oder mittel­ lange Zeiten dargestellt, während der zum Beispiel ein Vokal dargestellt werden muß. Um ein Bibliotheksphonem zu transfor­ mieren, wird es an einer Anzahl von Punkten identifiziert. Das Phonem wird dann durch 1 analysiert. Bei der Analyse werden informationstragende Teile und Teile, die weniger Information tragen, bestimmt. Die Teile, die weniger Information tragen, werden dann für die Umwandlung ausgewählt. Man hat beobachtet, daß die Übergänge zwischen unterschiedlichen Phonemen von größerer Bedeutung als die stabileren Teile des Inneren des Phonems sind. Das Aufbauverfahren, das entscheidende Informa­ tion bezüglich der Interpretation des Phonems enthält, ist in diesem Zusammenhang besonders wichtig. Die Punkte, die weniger Information tragen, werden dann in eine Anzahl von äquivalen­ ten Punkten im neuen Zeitmaßstab kopiert, wenn die Zeit verlängert wird. Dies ist in Fig. 2 dargestellt, bei der gewisse Punkte vom kürzeren Zeitmaßstab in eine Anzahl von Punkten im längeren Zeitmaßstab übertragen werden. Auf diese Weise werden die informationstragenden Teile des Phonems beim Strecken des Zeitmaßstabs aufrechterhalten, ohne daß die Charakteristik des Phonems geändert wird. Der Zeitmaßstab wird in entsprechender Weise verkürzt. In diesem Falle werden zwei oder mehr Punkte in dem Teil des Phonems, der keine Informa­ tion trägt, kombiniert, um einen Punkt zu bilden. Auf diese Weise werden ebenfalls die informationstragenden Teile zum großen Teil unversehrt gehalten, wenn der Zeitmaßstab in dem Phonem verkürzt wird.
Um die Wirkung einer vorangehenden Stimmbanderregung zu redu­ zieren, ist ein Fenster ausgewählt worden, das asymmetrisch ausgeschnitten ist. Dies ist in Fig. 4 dargestellt. Das Fenster ist dabei steil am Anfang geschnitten, wodurch die Anfangsperiode des Pulses und ein sehr kleiner Teil des Endteils des vorangehenden Pulses aufgezeichnet wird. Es ist auch zweckmäßig, daß ein solcher großer Teil des Pulses aus­ geschnitten wird, daß sein Maximalwert und ein Teil des gedämpften Pulses erhalten wird. Diese Lösung schafft die Möglichkeit, daß die Übergänge zwischen den Stimmbanderre­ gungspulsen zu den Bereichen bewegt werden können, wo die Pulse gedämpft sind und keine bedeutende Information ent­ halten. Ein Fensterausschnitt dieses Typs führt auch dazu, daß es möglich ist, die Bedeutung der einzelnen Pulse zum Ver­ stehen der Phoneme zu identifizieren.
Die Erfindung ermöglicht es auch, daß unterschiedliche Punkte im Bibliotheksphonem in bezug auf die informationstragenden Elemente gewichtet werden. Das Gewichten wird bei der Umwand­ lung des Phonems in solcher Weise benutzt, daß die Punkte, denen eine geringere Gewichtung gegeben ist, über eine längere Zeitperiode als die Teile umgewandelt werden, die eine höhere Gewichtung erhalten haben. So werden Punkte mit niedriger Gewichtung zum Beispiel drei Punkten in einem längeren Zeit­ maßstab zugeordnet, während Punkte, die eine mittlere Gewich­ tung darstellen, zum Beispiel zwei Punkten im neuen Zeitmaß­ stab umgewandelt werden, und wobei Punkte mit der höchsten Gewichtung ungeändert in den neuen Maßstab übertragen werden.
Bei Umwandlung zu einem kürzeren Zeitmaßstab als derjenige, der durch das Rundphonem dargestellt wird, so werden zum Beispiel drei Punkte, die die niedrigste Gewichtung darstel­ len, in einen Punkt in ähnlicher Weise kombiniert, und Punkte, die mittlere Gewichtung darstellen, werden jeweils zu zweit in einen Punkt im zeitverkürzten Phonem kombiniert. Punkte mit der höchsten Gewichtung werden ungeändert in den neuen Zeit­ maßstab übertragen.
Auf diese Weise ermöglicht es die Erfindung, daß die Verände­ rung des Zeitmaßstabes für Phoneme durchgeführt werden kann, ohne daß die informationstragenden Teile des Phonems in irgendeiner bedeutenden Weise geändert werden. Das Verfahren ermöglicht es auch, daß unterschiedliche Phoneme miteinander auf solche Weise verbunden werden können, daß wichtige Infor­ mation in den Phonemen bei den Phonemübergängen nicht zerstört wird. Dies wird dadurch erreicht, daß der Übergang zwischen den Phonemen in Teilen stattfindet, die keinerlei Information tragen. Auf diese Weise ermöglicht es die Erfindung, daß Worte und Ausdrücke, die über Sprachsynthese erzeugt werden, fast natürlich werden. Aufgrund der Tatsache, daß die im Phonem ausgewählten Punkte Stimmbanderregungen bei der Sprache dar­ stellen, ist es möglich, den Grundton zu ändern. Dies ist not­ wendig, um zum Beispiel dem Phonem, das erzeugt wird, den richtigen Charakter zu geben. Die Änderung des Grundtons wird dadurch erhalten, daß die Stimmbanderregungen im erzeugten Phonem an Punkten wiedergegeben werden, die in bezug auf das ursprüngliche Phonem geändert sind. Es soll zum Beispiel ange­ nommen werden, daß das Grundphonem einen Ton mit ungeändertem Grundton darstellt. Dies bedeutet, daß die Stimmbanderregungen mit demselben Abstand zwischen denselben erfolgen. In einem umgewandelten Phonem ist jedoch der Grundton während der Dauer des Phonems geändert. Mit Kenntnis der Änderung der Grundton­ charakteristik muß dies bei der Umwandlung berücksichtigt werden. Im neuen Phonem, das in diesem Falle ein Phonem sein kann, das bezüglich der Zeit unverändert ist, oder in ein längeres oder kürzeres Zeitintervall umgewandelt ist, werden die Zeitintervalle zwischen jeder Stimmbanderregung, die im Phonem erscheinen soll, bestimmt. So ist zum Beispiel das Zeitintervall zwischen der ersten und zweiten Stimmbanderre­ gung T1, und das Intervall zwischen der letzten und der vor­ letzten Stimmbanderregung ist durch T2 bestimmt. Wenn in diesem Falle es passiert, daß die Änderung im Grundton gleich­ förmig über die Zeit sich ändert, so müssen die dazwischen­ liegenden Stimmbanderregungen verteilt werden, während dies berücksichtigt wird. Diese Verteilung wird auf geeignete Weise mit Hilfe bekannter mathematischer Modelle durchgeführt. Ent­ sprechende Stimmbanderregungen des Grundphonems werden dann auf entsprechende Punkte des umgewandelten Phonems übertragen. Hierdurch erhält man eine Änderung im Grundton, der natür­ licher Sprache entspricht.

Claims (10)

1. Verfahren zum Umwandeln eines Phonems von einem ersten Zeitmaßstab zu einem zweiten Zeitmaßstab bei der Sprachsynthese, dadurch gekennzeichnet, daß Punkte mit einem umgebenden Zeitintervall, die einen Teil der Kurve des Phonems darstellen, bestimmt werden, daß die Teile des Phonems, die mehr oder weniger Information tragen, jeweils identifiziert werden, und daß die Tei­ le des Phonems, die weniger Information tragen, in den zweiten Zeitmaßstab in eine längere/kürzere Periode im zweiten Zeitmaßstab umgewandelt werden und daß auch die Teile des Phonems, die mehr Information tragen, in den zweiten Zeitmaßstab umgewandelt werden, wobei sie im wesentlichen zeitlich nicht verändert werden, wo­ durch der ursprüngliche Charakter des Phonems im we­ sentlichen beibehalten wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die unterschiedlichen Punkte des Phonems identifiziert werden, und unterschiedlich in bezug auf den Grad von Information, den sie darstellen, gewichtet werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeich­ net, daß die Punkte mit niedrigerer Gewichtung über eine längere/kürzere Periode als die Punkte mit höherer Gewichtung umgewandelt werden, und daß die Umwand­ lung durch Verdoppelung oder Entfernung von Punkten mit niedrigerer Gewichtung stattfindet.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Phonemumwandlungen in den Teilen des Phonem statt­ finden, die keinerlei Information tragen.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die ausgewählten Punkte im zweiten Zeitmaßstab mit demselben oder einem anderen Zeitintervall als beim ersten Zeitmaßstab ausgewählt werden, wodurch der Grundton aufrechterhalten oder in bezug auf das vorge­ gebenen Phonem bei Umwandlung des Phonems geändert wird.
6. Anordnung für Sprachsynthese, die ein Auswahlelement aufweist, das aus einer gesprochenen Sequenz oder aus einem Speicherelement ein Phonem auswählt, um das Pho­ nem von einem ersten Zeitmaßstab in einen zweiten Zeitmaßstab zu übertragen, dadurch gekennzeichnet, daß das Auswahlelement eine Anzahl von Punkten mit einem umgebenden Zeitintervall identifiziert, die einen Teil der Phonemkurve des Phonems darstellen, wobei die Tei­ le des Phonems, die mehr oder weniger Information tra­ gen, jeweils identifiziert werden, daß das Element die Teile des Phonems, die weniger Information tragen, bei der Umwandlung des Phonems in einen anderen Zeitmaß­ stab in eine längere/kürzere Zeit als bei dem ur­ sprünglichen Zeitmaßstab umwandelt, der durch das Pho­ nem dargestellt ist, und daß der ursprüngliche Charak­ ter des Phonems im wesentlichen aufrechterhalten wird.
7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß das Auswahlelement unterschiedliche Punkte in Abhän­ gigkeit vom Informationsinhalt der Punkte in bezug auf die Identifizierbarkeit des Phonems identifiziert und wichtet.
8. Anordnung nach Anspruch 6 oder 7, dadurch gekennzeich­ net, daß das Auswahlelement Punkte mit niedrigerer Ge­ wichtung über einen längen Zeitmaßstab als die Punkte umwandelt, die eine mittlere Gewichtung darstellen, und das Punkte, die eine hohe Gewichtung haben, unver­ ändert umgewandelt werden.
9. Anordnung nach Anspruch 6 oder 7, dadurch gekennzeich­ net, daß drei oder mehr Punkte mit niedriger Gewich­ tung kombiniert werden und daß Punkte mit mittlerer Gewichtung in eine niedrigere Anzahl von Punkten als Punkte mit niedrigerer Gewichtung kombiniert werden und daß Punkte mit hoher Gewichtung unverändert umge­ wandelt werden.
10. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß das Auswahlelement den Grundton im Phonem bei Übertra­ gung in den zweiten Zeitmaßstab ändert und daß die ausgewählten Punkte im Phonem Stimmbanderregungen bei der Sprache darstellen.
DE4441906A 1993-11-25 1994-11-24 Anordnung und Verfahren für Sprachsynthese Expired - Fee Related DE4441906C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9303902A SE516521C2 (sv) 1993-11-25 1993-11-25 Anordning och förfarande vid talsyntes

Publications (2)

Publication Number Publication Date
DE4441906A1 DE4441906A1 (de) 1995-06-01
DE4441906C2 true DE4441906C2 (de) 2003-02-13

Family

ID=20391875

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4441906A Expired - Fee Related DE4441906C2 (de) 1993-11-25 1994-11-24 Anordnung und Verfahren für Sprachsynthese

Country Status (10)

Country Link
US (1) US5729657A (de)
AU (1) AU676389B2 (de)
CH (1) CH689883A5 (de)
DE (1) DE4441906C2 (de)
ES (1) ES2106669B1 (de)
FR (1) FR2713006B1 (de)
GB (1) GB2284328B (de)
IT (1) IT1276336B1 (de)
NL (1) NL194481C (de)
SE (1) SE516521C2 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2166883C (en) * 1993-08-04 1999-09-21 Andrew Paul Breen Synthesising speech by converting phonemes to digital waveforms
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
CN1682281B (zh) * 2002-09-17 2010-05-26 皇家飞利浦电子股份有限公司 在语音合成中用于控制持续时间的方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4435832A (en) * 1979-10-01 1984-03-06 Hitachi, Ltd. Speech synthesizer having speech time stretch and compression functions
US4700301A (en) * 1983-11-02 1987-10-13 Dyke Howard L Method of automatically steering agricultural type vehicles
US4864620A (en) * 1987-12-21 1989-09-05 The Dsp Group, Inc. Method for performing time-scale modification of speech information or speech signals
EP0525544A2 (de) * 1991-07-23 1993-02-03 Siemens Rolm Communications Inc. (a Delaware corp.) Verfahren zur Zeitskalenmodifikation von Signalen
US5216744A (en) * 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3158685A (en) * 1961-05-04 1964-11-24 Bell Telephone Labor Inc Synthesis of speech from code signals
FR1602936A (de) * 1968-12-31 1971-02-22
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
US4406001A (en) * 1980-08-18 1983-09-20 The Variable Speech Control Company ("Vsc") Time compression/expansion with synchronized individual pitch correction of separate components
US4435831A (en) * 1981-12-28 1984-03-06 Mozer Forrest Shrago Method and apparatus for time domain compression and synthesis of unvoiced audible signals
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4701937A (en) * 1985-05-13 1987-10-20 Industrial Technology Research Institute Republic Of China Signal storage and replay system
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
US4802221A (en) * 1986-07-21 1989-01-31 Ncr Corporation Digital system and method for compressing speech signals for storage and transmission
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
US5189702A (en) * 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0392049B1 (de) * 1989-04-12 1994-01-12 Siemens Aktiengesellschaft Verfahren zur Dehnung oder Raffung eines Zeitsignals
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
EP0527527B1 (de) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4435832A (en) * 1979-10-01 1984-03-06 Hitachi, Ltd. Speech synthesizer having speech time stretch and compression functions
US4700301A (en) * 1983-11-02 1987-10-13 Dyke Howard L Method of automatically steering agricultural type vehicles
US4864620A (en) * 1987-12-21 1989-09-05 The Dsp Group, Inc. Method for performing time-scale modification of speech information or speech signals
US5216744A (en) * 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals
EP0525544A2 (de) * 1991-07-23 1993-02-03 Siemens Rolm Communications Inc. (a Delaware corp.) Verfahren zur Zeitskalenmodifikation von Signalen

Also Published As

Publication number Publication date
SE9303902L (sv) 1995-05-26
US5729657A (en) 1998-03-17
ES2106669A1 (es) 1997-11-01
IT1276336B1 (it) 1997-10-28
CH689883A5 (de) 1999-12-31
SE516521C2 (sv) 2002-01-22
AU7885694A (en) 1995-06-01
FR2713006A1 (fr) 1995-06-02
ITRM940763A0 (it) 1994-11-23
SE9303902D0 (sv) 1993-11-25
NL9401964A (nl) 1995-06-16
NL194481B (nl) 2002-01-02
GB9423236D0 (en) 1995-01-04
DE4441906A1 (de) 1995-06-01
FR2713006B1 (fr) 1998-03-20
ITRM940763A1 (it) 1996-05-23
AU676389B2 (en) 1997-03-06
GB2284328B (en) 1998-01-28
NL194481C (nl) 2002-05-03
GB2284328A (en) 1995-05-31
ES2106669B1 (es) 1998-06-01

Similar Documents

Publication Publication Date Title
DE69413052T2 (de) Sprachsynthese
DE69427525T2 (de) Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE69521955T2 (de) Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE69837822T2 (de) Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE69710525T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
DE4237563A1 (de)
DE3228756A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen
DE9006717U1 (de) Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE69318209T2 (de) Verfahren und Anordnung zur Sprachsynthese
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE69716703T2 (de) Verfahren zur kodierung menschlicher sprache und vorrichtung zur wiedergabe derartig kodierter menschlicher sprache
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE69326501T2 (de) Verfahren und Vorrichtung zur Sprachsynthese mit variabler Geschwindigkeit
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE60303688T2 (de) Sprachsynthese durch verkettung von sprachsignalformen
DE2335818C3 (de) Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen
DE3232835C2 (de)

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8304 Grant after examination procedure
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee