DE4441906C2 - Anordnung und Verfahren für Sprachsynthese - Google Patents
Anordnung und Verfahren für SprachsyntheseInfo
- Publication number
- DE4441906C2 DE4441906C2 DE4441906A DE4441906A DE4441906C2 DE 4441906 C2 DE4441906 C2 DE 4441906C2 DE 4441906 A DE4441906 A DE 4441906A DE 4441906 A DE4441906 A DE 4441906A DE 4441906 C2 DE4441906 C2 DE 4441906C2
- Authority
- DE
- Germany
- Prior art keywords
- phoneme
- points
- time scale
- time
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 15
- 230000015572 biosynthetic process Effects 0.000 title claims description 9
- 238000003786 synthesis reaction Methods 0.000 title claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000000717 retained effect Effects 0.000 claims 1
- 210000001260 vocal cord Anatomy 0.000 description 9
- 230000007704 transition Effects 0.000 description 7
- 230000000638 stimulation Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Processing Or Creating Images (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
- Electric Clocks (AREA)
- Electrophonic Musical Instruments (AREA)
Description
Die vorliegende Erfindung betrifft die Sprachsynthese. Bei der
Sprachsynthese werden Worte identifiziert, die in eine Anzahl
von charakteristischen Tönen unterteilt werden, die Phoneme
genannt werden. Bei der Identifizierung gesprochener Sequenzen
ist es wichtig, daß diese Phoneme richtig identifiziert
werden. Die Phoneme werden auch dazu benutzt, gesprochene Se
quenzen mit Hilfe von künstlichen Mitteln zu erzeugen.
Wenn Sprache künstlich erzeugt wird, wird normalerweise eine
Bibliothek mit grundlegenden Phonemen verwendet. Wenn diese
Phoneme in Worte zusammengesetzt werden, müssen sie in vielen
Fällen in längere oder kürzere Zeiträume umgewandelt werden,
als sie durch das Grundphonem dargestellt sind. In diesem
Zusammenhang ist es bekannt, das Phonem an einer Anzahl von
Punkten zu identifizieren. Wird das ursprüngliche Phonem in
einen anderen Zeitmaßstab umgewandelt, was Verlängerung oder
Verkürzung des Zeitmaßstabes bedeuten kann, ist es bekannt,
die Umwandlung an einer Anzahl ausgewählter Punkte durchzufüh
ren. Wird der Zeitmaßstab verlängert, so betrifft dieses
gewisse Punkte im ursprünglichen Phonem, die eine Anzahl von
Punkten im neuem Phonem darstellen. Wird der Zeitmaßstab ver
kürzt, so wird eine Anzahl ausgewählter Punkte im ursprüng
lichen Phonem kombiniert, um einen Punkt im neuen Phonem zu
bilden. Wird das ursprüngliche Phonem in einen Zeitmaßstab
übertragen, der zum Beispiel 25% länger ist als das Phonem
in der Bibliothek, so wird eine Anzahl von Punkten des Bi
bliothekphonems ausgewählt. Im neuen Phonem, das durch die
Umwandlung gebildet wird, werden 25% mehr Punkte als im Bi
bliotheksphonem eingeführt. Bei der Umwandlung wird daher das
neue Phonem eine Anzahl von Punkten enthalten, die im Biblio
theksphonem nicht identifiziert sind. Bei der Umwandlung wird
jeder vierte Punkt im Bibliotheksphonem ausgewählt. Diese
Teile des Phonems werden verdoppelt und auf zwei Punkte im
verlängerten Phonem übertragen. Die restlichen Punkte werden
vom Bibliotheksphonem zum verlängerten Phonem Punkt um Punkt
übertragen. Hierdurch wird eine Verlängerung in bezug auf die
Zeit des ursprünglichen Phonems mit Hilfe einer gleichförmi
gen Zeitverlängerung über das ganze Phonem bewirkt. In den
Fällen, in denen das Bibliotheksphonem länger ist als das
Phonem, das gebildet werden muß, wird jeder vierte Punkte in
derselben Weise wie oben ausgewählt, wenn man annimmt, daß
die Zeitverkürzung 25% beträgt. Wird das zeitverkürzte Pho
nem gebildet, werden diese Punkte bei der Umwandlung ent
fernt.
In EP 525 544 A wird die Sprachmaßstabmodifikation eines
neuen Signalpunktes beschrieben. Dies beruht unter anderem
auf der Erkenntnis, daß Zeitmaßstabkompression den Informati
onsinhalt verringert und Zeitmaßstabexpansion den Informati
onsgehalt erhöht. Es können daher "Mittenabstand-Perioden"
oder "Teilungs-Perioden" oder "Tonhöhen-Perioden" ("pitch pe
riods") über ein Segment entfernt oder eingefügt werden. Die
Erfindung stellt ein Verfahren zum Verbessern des SOLA-
Verfahrens (Synchronized Overlap add = synchronisierte Über
lappungsaddition) durch Überlagerung teilweise überlappender
Blöcke dar.
US-Patent 4 435 832 zeigt Sprachsynthese mit Verlängerung und
Kompression des Zeitmaßstabes, ohne die Tonhöhe der synthe
tischen Sprache zu ändern. LPC-Parameter (Linear Predictive
Coding = lineare vorhersagende Kodierung) werden von in Segmente
aufgeteilten Wellenformen abgetastet, die herausge
nommen worden sind aus natürlicher Sprache zu einem gegebenen
Zeitintervall, von Information über Phoneme mit und ohne
Sprache, Tonhöhe und Lautstärkeinformation. LPC wird interpo
liert, und das Zeitskalenintervall für die Interpolation wird
verbessert.
In US-PS-4 864 620 ist ein Verfahren für Zeitmaßstabmodifika
tion von Sprachinformation oder Sprachsignalen beschrieben,
um aufgezeichnete Sprache mit einer unterschiedlichen Ge
schwindigkeit ohne Änderungen in der Tonhöhe zu reproduzie
ren. Zeitdomänenproben werden in Rahmen genommen, wobei die
Anzahl der Proben pro Rahmen eine Funktion des gewünschten
Sprachänderungsfaktors ist. Blöcke werden von den Rahmen ge
bildet. Verhältnismäßig sanfte Übergänge werden durch abge
stufte Gewichtung erzeugt.
Die Zeitmaßstabmodifikation von Sprachsignalen ist auch in
US-PS-5 216 744 angegeben. Die Anzahl der Proben, die eine
"Teilungs-Periode" oder "Tonhöhen-Periode" bildet, wird be
stimmt. Außerdem wird eine kombinierte Probengruppe gebildet,
die aus einer ersten Probengruppe und einer zweiten Proben
gruppe gebildet ist. Die Anzahl der Proben in jeder Gruppe
ist gleich der Anzahl der Proben, die eine Teilungs- oder
Tonhöhen-Periode bilden.
Ein Verfahren zum Unwandeln von Sprachsignalen von einem er
sten Zeitmaßstab zu einem zweiten Zeitmaßstab ist aus
DE 41 01 022 A1 bekannt. Bei diesem Verfahren wird das
Sprachsignal in Blöcke zerlegt, und die Blöcke werden zu ei
nem neuen Sprachsignal zusammengesetzt. Durch das wiederhol
tes Aneinanderreihen desselben Blocks wird das Sprachsignal
dabei zeitlich gedehnt, durch Weglassen von Blöcken wird das
Sprachsignal verkürzt.
In US 4,700,391 ist ein Verfahren angegeben, bei dem das
Sprachsignal mit einer bestimmten ersten Geschwindigkeit in
einen Speicher eingeschrieben und mit einer zweiten anderen
Geschwindigkeit ausgelesen wird, so daß eine Änderung der
Zeitdauer des Sprachsignals erfolgt.
Bei der Sprachsynthese ist es wichtig, daß Worte und Sätze,
die künstlich erzeugt werden, natürlich wiedergegeben werden.
Es ist auch wichtig, daß durch eine Person erzeugte Sprache
in richtiger Weise identifiziert wird. In diesem Zusammenhang
ist es möglich, eine Anzahl von charakteristischen Tönen,
Phonemen, für verschiedene Sprachen zu identifizieren. Diese
Phoneme werden in verschiedenen Formen von Bibliotheken ange
ordnet. Diese Phoneme bilden einen Grundkern. Die Phoneme
können sich über eine längere oder kürzere Zeit als die Zeit
intervalle erstrecken, die durch die Grundphoneme dargestellt
werden sind, und zwar in Abhängigkeit vom Zusammenhang und in
welchen Worten sie eingeschlossen sind. Dies bringt mit sich,
daß die Phoneme, die in der Bibliothek dargestellt sind, in
längere oder kürzere Zeitperioden umgewandelt werden müssen.
in diesem Zusammenhang ist es bei solchen Umwandlungen wich
tig, daß die Charakteristik des Phonems nicht geändert wird.
Dies bringt es mit sich, daß die informationstragenden Teile
des Phonems nicht geändert werden sollten. Es ist daher
wünschenswert, daß Zeitänderungen in den Teilen des Phonems
stattfinden, die weniger Information tragen. Beim Zusammen
setzen einer Anzahl von Phonemen in Worte und Sätze ist es
auch wichtig, daß die Übergänge zwischen den Phonemen auf
solche Weise stattfinden, daß die informationstragenden Teile
eines entsprechenden Phonems nicht geändert werden.
In der natürlichen Sprache wird im Verlauf des Sprechens der
Grundton innerhalb des einen und selben Phonems geändert. Die
Lösungen, die bisher angeboten wurden, haben diese Erscheinung
nicht berücksichtigt. Es ist daher wünschenswert, daß die
Änderung im Grundton, höhere oder tiefere Frequenz, beim
Umwandeln von Phonemen berücksichtigt wird.
Die gekennzeichnete Erfindung soll eine Lösung für das angege
bene Problem angeben.
Die vorliegende Erfindung betrifft ein Verfahren bei der
Sprachsynthese. Ein Phonem wird in einer Anzahl von Punkten
bei der entsprechenden Stimmbanderregung des Sprechers identi
fiziert. Das Phonem muß in eine andere Zeit als die umgewan
delt werden, die durch das ursprüngliche Phonem dargestellt
wird. Nachdem die Punkte ausgewählt worden sind, werden die
Punkte im Phonem identifiziert, die Information tragen. Infor
mationstragend bedeutet in diesem Zusammenhang die Teile des
Phonems, die erforderlich sind, damit das Phonem richtig ver
standen wird. Die Teile des Phonems, die weniger Information
tragen, werden ebenfalls identifiziert. Teile, die weniger
Information tragen, können geändert werden, ohne daß sich die
Charakteristik des Phonem in seinen wichtigsten Teilen ändert.
Werden Phoneme verwendet, zum Beispiel beim Erzeugen künstlicher
Sprache, ist es wünschenswert, daß eine Anzahl von
Grundphonemen verwendet werden kann, die bei verschiedenen
Gelegenheiten in gewünschte Werte umgewandelt werden. Die
Erfindung berücksichtigt diese Situation und bewegt die Über
gänge zwischen unterschiedlichen Phonemen zu den Teilen, die
weniger Information tragen. Wenn in einen neuen Zeitmaßstab
umgewandelt wird, findet Rompression bzw. Auseinanderziehen im
wesentlichen in den Teilen des Phonems statt, die weniger
Information tragen. Auf diese Weise werden informationstra
gende Teile des Phonems im wesentlichen unversehrt gehalten.
Die Anordnung weist ein Element auf, das ein Phonem aus einer
gesprochenen Sequenz oder von einem Speicherelement auswählt.
Das Element identifiziert eine Anzahl von Punkten im Phonem.
Danach werden die informationstragenden Teile des Phonems bzw.
die Teile des Phonems, die weniger Information tragen, identi
fiziert. Das Element sorgt dann dafür, daß Umwandlung des
Phonems über eine längere/kürzere Zeit durch Kompression oder
Strecken in den Teilen des Phonems stattfindet, die weniger
Information tragen. Auf diese Weise wird der Charakter des
Phonems im wesentlichen beibehalten. Außerdem ist eine Mög
lichkeit gegeben, Übergänge zwischen unterschiedlichen Phone
men zu erhalten, wodurch ein natürlicher Eindruck erhalten
wird. Die Erfindung ermöglicht die Speicherung eines Satzes
von Bibliotheksphonemen, die eine Anzahl von Standardtönen
darstellen, die in der Sprache gefunden werden. Diese Biblio
theksphoneme können dann für Umwandlung über eine längere oder
kürzere Zeit, als dies durch die Bibliotheksphoneme darge
stellt wird, verwendet werden. Mit der angegebenen Lösung wird
das umgewandelte Phonem in bezug auf das Bibliotheksphonem
minimal entstellt. Dies beruht auf der Tatsache, daß die Teile
des Phonems, die für die Interpretation des Phonems wichtig
sind, unverändert bleiben oder in geringerem Ausmaß verändert
werden. Die Erfindung ermöglicht es auch, daß Änderungen im
Grundton des Phonems berücksichtigt werden. Es ist so ermög
licht, daß Veränderungen im Grundton in das umgewandelte
Phonem in bezug auf das Bibliotheksphonem eingeführt werden
können. Die Bedeutung dieser Tatsache liegt darin, daß ge
schaffene Sprachsequenzen einen Charakter erhalten können, der
mit der natürlichen Sprache übereinstimmt. Dies ist teilweise
zum Verstehen der Sprache und teilweise zum Erhalten einer
natürlichen Betonung der erzeugten Töne wesentlich.
Die Erfindung wird im folgenden unter Bezugnahme auf die bei
gefügten Zeichnungen beispielsweise beschrieben. Es zeigen:
Fig. 1 Beispiele von Aufteilung mit linearem Zeitmaßstab;
Fig. 2 die erfindungsgemäßen Zeitmaßstabverhältnisse;
Fig. 3 die Erfindung in Blockschemaform; und
Fig. 4 ein Phonem, in dem ein Fenster A einen Puls asymme
trisch ausschneidet.
Im folgenden Text wird die Erfindung unter Bezugnahme auf die
Figuren beschrieben. Wird künstliche Sprache erzeugt, so er
scheint bei 1 in Fig. 3 ein Text. Der Text wird durch 1 analy
siert und in seine fundamentalen Komponenten aufgeteilt.
Danach werden die Phoneme von der Bibliothek ausgewählt. Das
Phonem in der Bibliothek stellt einen Standardwert dar. Dies
bedeutet, daß dem Phonem ein Standardwert in bezug auf Dauer,
Tonhöhe usw. gegeben wurde. Soll das Phonem dann in den Text,
der angekommen ist, eingesetzt werden, so ist in der Regel
irgendeine Modifikation des Phonems erforderlich. Dies bedeu
tet, daß die zeitliche Ausdehnung des Phonems geändert werden
muß. Dies wird zum Beispiel durch lange, kurze oder mittel
lange Zeiten dargestellt, während der zum Beispiel ein Vokal
dargestellt werden muß. Um ein Bibliotheksphonem zu transfor
mieren, wird es an einer Anzahl von Punkten identifiziert. Das
Phonem wird dann durch 1 analysiert. Bei der Analyse werden
informationstragende Teile und Teile, die weniger Information
tragen, bestimmt. Die Teile, die weniger Information tragen,
werden dann für die Umwandlung ausgewählt. Man hat beobachtet,
daß die Übergänge zwischen unterschiedlichen Phonemen von
größerer Bedeutung als die stabileren Teile des Inneren des
Phonems sind. Das Aufbauverfahren, das entscheidende Informa
tion bezüglich der Interpretation des Phonems enthält, ist in
diesem Zusammenhang besonders wichtig. Die Punkte, die weniger
Information tragen, werden dann in eine Anzahl von äquivalen
ten Punkten im neuen Zeitmaßstab kopiert, wenn die Zeit
verlängert wird. Dies ist in Fig. 2 dargestellt, bei der
gewisse Punkte vom kürzeren Zeitmaßstab in eine Anzahl von
Punkten im längeren Zeitmaßstab übertragen werden. Auf diese
Weise werden die informationstragenden Teile des Phonems beim
Strecken des Zeitmaßstabs aufrechterhalten, ohne daß die
Charakteristik des Phonems geändert wird. Der Zeitmaßstab wird
in entsprechender Weise verkürzt. In diesem Falle werden zwei
oder mehr Punkte in dem Teil des Phonems, der keine Informa
tion trägt, kombiniert, um einen Punkt zu bilden. Auf diese
Weise werden ebenfalls die informationstragenden Teile zum
großen Teil unversehrt gehalten, wenn der Zeitmaßstab in dem
Phonem verkürzt wird.
Um die Wirkung einer vorangehenden Stimmbanderregung zu redu
zieren, ist ein Fenster ausgewählt worden, das asymmetrisch
ausgeschnitten ist. Dies ist in Fig. 4 dargestellt. Das
Fenster ist dabei steil am Anfang geschnitten, wodurch die
Anfangsperiode des Pulses und ein sehr kleiner Teil des
Endteils des vorangehenden Pulses aufgezeichnet wird. Es ist
auch zweckmäßig, daß ein solcher großer Teil des Pulses aus
geschnitten wird, daß sein Maximalwert und ein Teil des
gedämpften Pulses erhalten wird. Diese Lösung schafft die
Möglichkeit, daß die Übergänge zwischen den Stimmbanderre
gungspulsen zu den Bereichen bewegt werden können, wo die
Pulse gedämpft sind und keine bedeutende Information ent
halten. Ein Fensterausschnitt dieses Typs führt auch dazu, daß
es möglich ist, die Bedeutung der einzelnen Pulse zum Ver
stehen der Phoneme zu identifizieren.
Die Erfindung ermöglicht es auch, daß unterschiedliche Punkte
im Bibliotheksphonem in bezug auf die informationstragenden
Elemente gewichtet werden. Das Gewichten wird bei der Umwand
lung des Phonems in solcher Weise benutzt, daß die Punkte,
denen eine geringere Gewichtung gegeben ist, über eine längere
Zeitperiode als die Teile umgewandelt werden, die eine höhere
Gewichtung erhalten haben. So werden Punkte mit niedriger
Gewichtung zum Beispiel drei Punkten in einem längeren Zeit
maßstab zugeordnet, während Punkte, die eine mittlere Gewich
tung darstellen, zum Beispiel zwei Punkten im neuen Zeitmaß
stab umgewandelt werden, und wobei Punkte mit der höchsten
Gewichtung ungeändert in den neuen Maßstab übertragen werden.
Bei Umwandlung zu einem kürzeren Zeitmaßstab als derjenige,
der durch das Rundphonem dargestellt wird, so werden zum
Beispiel drei Punkte, die die niedrigste Gewichtung darstel
len, in einen Punkt in ähnlicher Weise kombiniert, und Punkte,
die mittlere Gewichtung darstellen, werden jeweils zu zweit in
einen Punkt im zeitverkürzten Phonem kombiniert. Punkte mit
der höchsten Gewichtung werden ungeändert in den neuen Zeit
maßstab übertragen.
Auf diese Weise ermöglicht es die Erfindung, daß die Verände
rung des Zeitmaßstabes für Phoneme durchgeführt werden kann,
ohne daß die informationstragenden Teile des Phonems in
irgendeiner bedeutenden Weise geändert werden. Das Verfahren
ermöglicht es auch, daß unterschiedliche Phoneme miteinander
auf solche Weise verbunden werden können, daß wichtige Infor
mation in den Phonemen bei den Phonemübergängen nicht zerstört
wird. Dies wird dadurch erreicht, daß der Übergang zwischen
den Phonemen in Teilen stattfindet, die keinerlei Information
tragen. Auf diese Weise ermöglicht es die Erfindung, daß Worte
und Ausdrücke, die über Sprachsynthese erzeugt werden, fast
natürlich werden. Aufgrund der Tatsache, daß die im Phonem
ausgewählten Punkte Stimmbanderregungen bei der Sprache dar
stellen, ist es möglich, den Grundton zu ändern. Dies ist not
wendig, um zum Beispiel dem Phonem, das erzeugt wird, den
richtigen Charakter zu geben. Die Änderung des Grundtons wird
dadurch erhalten, daß die Stimmbanderregungen im erzeugten
Phonem an Punkten wiedergegeben werden, die in bezug auf das
ursprüngliche Phonem geändert sind. Es soll zum Beispiel ange
nommen werden, daß das Grundphonem einen Ton mit ungeändertem
Grundton darstellt. Dies bedeutet, daß die Stimmbanderregungen
mit demselben Abstand zwischen denselben erfolgen. In einem
umgewandelten Phonem ist jedoch der Grundton während der Dauer
des Phonems geändert. Mit Kenntnis der Änderung der Grundton
charakteristik muß dies bei der Umwandlung berücksichtigt
werden. Im neuen Phonem, das in diesem Falle ein Phonem sein
kann, das bezüglich der Zeit unverändert ist, oder in ein
längeres oder kürzeres Zeitintervall umgewandelt ist, werden
die Zeitintervalle zwischen jeder Stimmbanderregung, die im
Phonem erscheinen soll, bestimmt. So ist zum Beispiel das
Zeitintervall zwischen der ersten und zweiten Stimmbanderre
gung T1, und das Intervall zwischen der letzten und der vor
letzten Stimmbanderregung ist durch T2 bestimmt. Wenn in
diesem Falle es passiert, daß die Änderung im Grundton gleich
förmig über die Zeit sich ändert, so müssen die dazwischen
liegenden Stimmbanderregungen verteilt werden, während dies
berücksichtigt wird. Diese Verteilung wird auf geeignete Weise
mit Hilfe bekannter mathematischer Modelle durchgeführt. Ent
sprechende Stimmbanderregungen des Grundphonems werden dann
auf entsprechende Punkte des umgewandelten Phonems übertragen.
Hierdurch erhält man eine Änderung im Grundton, der natür
licher Sprache entspricht.
Claims (10)
1. Verfahren zum Umwandeln eines Phonems von einem ersten
Zeitmaßstab zu einem zweiten Zeitmaßstab bei der
Sprachsynthese, dadurch gekennzeichnet, daß Punkte mit
einem umgebenden Zeitintervall, die einen Teil der
Kurve des Phonems darstellen, bestimmt werden, daß die
Teile des Phonems, die mehr oder weniger Information
tragen, jeweils identifiziert werden, und daß die Tei
le des Phonems, die weniger Information tragen, in den
zweiten Zeitmaßstab in eine längere/kürzere Periode im
zweiten Zeitmaßstab umgewandelt werden und daß auch
die Teile des Phonems, die mehr Information tragen, in
den zweiten Zeitmaßstab umgewandelt werden, wobei sie
im wesentlichen zeitlich nicht verändert werden, wo
durch der ursprüngliche Charakter des Phonems im we
sentlichen beibehalten wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die unterschiedlichen Punkte des Phonems identifiziert
werden, und unterschiedlich in bezug auf den Grad von
Information, den sie darstellen, gewichtet werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeich
net, daß die Punkte mit niedrigerer Gewichtung über
eine längere/kürzere Periode als die Punkte mit höherer
Gewichtung umgewandelt werden, und daß die Umwand
lung durch Verdoppelung oder Entfernung von Punkten
mit niedrigerer Gewichtung stattfindet.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die Phonemumwandlungen in den Teilen des Phonem statt
finden, die keinerlei Information tragen.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die ausgewählten Punkte im zweiten Zeitmaßstab mit
demselben oder einem anderen Zeitintervall als beim
ersten Zeitmaßstab ausgewählt werden, wodurch der
Grundton aufrechterhalten oder in bezug auf das vorge
gebenen Phonem bei Umwandlung des Phonems geändert
wird.
6. Anordnung für Sprachsynthese, die ein Auswahlelement
aufweist, das aus einer gesprochenen Sequenz oder aus
einem Speicherelement ein Phonem auswählt, um das Pho
nem von einem ersten Zeitmaßstab in einen zweiten
Zeitmaßstab zu übertragen, dadurch gekennzeichnet, daß
das Auswahlelement eine Anzahl von Punkten mit einem
umgebenden Zeitintervall identifiziert, die einen Teil
der Phonemkurve des Phonems darstellen, wobei die Tei
le des Phonems, die mehr oder weniger Information tra
gen, jeweils identifiziert werden, daß das Element die
Teile des Phonems, die weniger Information tragen, bei
der Umwandlung des Phonems in einen anderen Zeitmaß
stab in eine längere/kürzere Zeit als bei dem ur
sprünglichen Zeitmaßstab umwandelt, der durch das Pho
nem dargestellt ist, und daß der ursprüngliche Charak
ter des Phonems im wesentlichen aufrechterhalten wird.
7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß
das Auswahlelement unterschiedliche Punkte in Abhän
gigkeit vom Informationsinhalt der Punkte in bezug auf
die Identifizierbarkeit des Phonems identifiziert und
wichtet.
8. Anordnung nach Anspruch 6 oder 7, dadurch gekennzeich
net, daß das Auswahlelement Punkte mit niedrigerer Ge
wichtung über einen längen Zeitmaßstab als die Punkte
umwandelt, die eine mittlere Gewichtung darstellen,
und das Punkte, die eine hohe Gewichtung haben, unver
ändert umgewandelt werden.
9. Anordnung nach Anspruch 6 oder 7, dadurch gekennzeich
net, daß drei oder mehr Punkte mit niedriger Gewich
tung kombiniert werden und daß Punkte mit mittlerer
Gewichtung in eine niedrigere Anzahl von Punkten als
Punkte mit niedrigerer Gewichtung kombiniert werden
und daß Punkte mit hoher Gewichtung unverändert umge
wandelt werden.
10. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß
das Auswahlelement den Grundton im Phonem bei Übertra
gung in den zweiten Zeitmaßstab ändert und daß die
ausgewählten Punkte im Phonem Stimmbanderregungen bei
der Sprache darstellen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9303902A SE516521C2 (sv) | 1993-11-25 | 1993-11-25 | Anordning och förfarande vid talsyntes |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4441906A1 DE4441906A1 (de) | 1995-06-01 |
DE4441906C2 true DE4441906C2 (de) | 2003-02-13 |
Family
ID=20391875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4441906A Expired - Fee Related DE4441906C2 (de) | 1993-11-25 | 1994-11-24 | Anordnung und Verfahren für Sprachsynthese |
Country Status (10)
Country | Link |
---|---|
US (1) | US5729657A (de) |
AU (1) | AU676389B2 (de) |
CH (1) | CH689883A5 (de) |
DE (1) | DE4441906C2 (de) |
ES (1) | ES2106669B1 (de) |
FR (1) | FR2713006B1 (de) |
GB (1) | GB2284328B (de) |
IT (1) | IT1276336B1 (de) |
NL (1) | NL194481C (de) |
SE (1) | SE516521C2 (de) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2166883C (en) * | 1993-08-04 | 1999-09-21 | Andrew Paul Breen | Synthesising speech by converting phonemes to digital waveforms |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
CN1682281B (zh) * | 2002-09-17 | 2010-05-26 | 皇家飞利浦电子股份有限公司 | 在语音合成中用于控制持续时间的方法 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6992612B2 (ja) * | 2018-03-09 | 2022-01-13 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4435832A (en) * | 1979-10-01 | 1984-03-06 | Hitachi, Ltd. | Speech synthesizer having speech time stretch and compression functions |
US4700301A (en) * | 1983-11-02 | 1987-10-13 | Dyke Howard L | Method of automatically steering agricultural type vehicles |
US4864620A (en) * | 1987-12-21 | 1989-09-05 | The Dsp Group, Inc. | Method for performing time-scale modification of speech information or speech signals |
EP0525544A2 (de) * | 1991-07-23 | 1993-02-03 | Siemens Rolm Communications Inc. (a Delaware corp.) | Verfahren zur Zeitskalenmodifikation von Signalen |
US5216744A (en) * | 1991-03-21 | 1993-06-01 | Dictaphone Corporation | Time scale modification of speech signals |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3158685A (en) * | 1961-05-04 | 1964-11-24 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
FR1602936A (de) * | 1968-12-31 | 1971-02-22 | ||
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
JPS55147697A (en) * | 1979-05-07 | 1980-11-17 | Sharp Kk | Sound synthesizer |
US4406001A (en) * | 1980-08-18 | 1983-09-20 | The Variable Speech Control Company ("Vsc") | Time compression/expansion with synchronized individual pitch correction of separate components |
US4435831A (en) * | 1981-12-28 | 1984-03-06 | Mozer Forrest Shrago | Method and apparatus for time domain compression and synthesis of unvoiced audible signals |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4701937A (en) * | 1985-05-13 | 1987-10-20 | Industrial Technology Research Institute Republic Of China | Signal storage and replay system |
JPH0632020B2 (ja) * | 1986-03-25 | 1994-04-27 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声合成方法および装置 |
US4802221A (en) * | 1986-07-21 | 1989-01-31 | Ncr Corporation | Digital system and method for compressing speech signals for storage and transmission |
US4833718A (en) * | 1986-11-18 | 1989-05-23 | First Byte | Compression of stored waveforms for artificial speech |
US5189702A (en) * | 1987-02-16 | 1993-02-23 | Canon Kabushiki Kaisha | Voice processing apparatus for varying the speed with which a voice signal is reproduced |
JPS63285598A (ja) * | 1987-05-18 | 1988-11-22 | ケイディディ株式会社 | 音素接続形パラメ−タ規則合成方式 |
FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
EP0392049B1 (de) * | 1989-04-12 | 1994-01-12 | Siemens Aktiengesellschaft | Verfahren zur Dehnung oder Raffung eines Zeitsignals |
JP3278863B2 (ja) * | 1991-06-05 | 2002-04-30 | 株式会社日立製作所 | 音声合成装置 |
EP0527527B1 (de) * | 1991-08-09 | 1999-01-20 | Koninklijke Philips Electronics N.V. | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
-
1993
- 1993-11-25 SE SE9303902A patent/SE516521C2/sv not_active IP Right Cessation
-
1994
- 1994-11-15 AU AU78856/94A patent/AU676389B2/en not_active Ceased
- 1994-11-17 GB GB9423236A patent/GB2284328B/en not_active Expired - Fee Related
- 1994-11-22 FR FR9413979A patent/FR2713006B1/fr not_active Expired - Fee Related
- 1994-11-23 IT IT94RM000763A patent/IT1276336B1/it active IP Right Grant
- 1994-11-24 DE DE4441906A patent/DE4441906C2/de not_active Expired - Fee Related
- 1994-11-24 NL NL9401964A patent/NL194481C/nl not_active IP Right Cessation
- 1994-11-24 CH CH03548/94A patent/CH689883A5/de not_active IP Right Cessation
- 1994-11-25 ES ES09402427A patent/ES2106669B1/es not_active Expired - Lifetime
-
1997
- 1997-04-16 US US08/834,391 patent/US5729657A/en not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4435832A (en) * | 1979-10-01 | 1984-03-06 | Hitachi, Ltd. | Speech synthesizer having speech time stretch and compression functions |
US4700301A (en) * | 1983-11-02 | 1987-10-13 | Dyke Howard L | Method of automatically steering agricultural type vehicles |
US4864620A (en) * | 1987-12-21 | 1989-09-05 | The Dsp Group, Inc. | Method for performing time-scale modification of speech information or speech signals |
US5216744A (en) * | 1991-03-21 | 1993-06-01 | Dictaphone Corporation | Time scale modification of speech signals |
EP0525544A2 (de) * | 1991-07-23 | 1993-02-03 | Siemens Rolm Communications Inc. (a Delaware corp.) | Verfahren zur Zeitskalenmodifikation von Signalen |
Also Published As
Publication number | Publication date |
---|---|
SE9303902L (sv) | 1995-05-26 |
US5729657A (en) | 1998-03-17 |
ES2106669A1 (es) | 1997-11-01 |
IT1276336B1 (it) | 1997-10-28 |
CH689883A5 (de) | 1999-12-31 |
SE516521C2 (sv) | 2002-01-22 |
AU7885694A (en) | 1995-06-01 |
FR2713006A1 (fr) | 1995-06-02 |
ITRM940763A0 (it) | 1994-11-23 |
SE9303902D0 (sv) | 1993-11-25 |
NL9401964A (nl) | 1995-06-16 |
NL194481B (nl) | 2002-01-02 |
GB9423236D0 (en) | 1995-01-04 |
DE4441906A1 (de) | 1995-06-01 |
FR2713006B1 (fr) | 1998-03-20 |
ITRM940763A1 (it) | 1996-05-23 |
AU676389B2 (en) | 1997-03-06 |
GB2284328B (en) | 1998-01-28 |
NL194481C (nl) | 2002-05-03 |
GB2284328A (en) | 1995-05-31 |
ES2106669B1 (es) | 1998-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69413052T2 (de) | Sprachsynthese | |
DE69427525T2 (de) | Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes | |
DE60118874T2 (de) | Prosodiemustervergleich für Text-zu-Sprache Systeme | |
DE69521955T2 (de) | Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE69837822T2 (de) | Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen | |
DD143970A1 (de) | Verfahren und anordnung zur synthese von sprache | |
DE69710525T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese | |
DE4237563A1 (de) | ||
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
DE9006717U1 (de) | Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE69318209T2 (de) | Verfahren und Anordnung zur Sprachsynthese | |
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE69716703T2 (de) | Verfahren zur kodierung menschlicher sprache und vorrichtung zur wiedergabe derartig kodierter menschlicher sprache | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
DE69326501T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese mit variabler Geschwindigkeit | |
DE60311482T2 (de) | Verfahren zur steuerung der dauer bei der sprachsynthese | |
DE60303688T2 (de) | Sprachsynthese durch verkettung von sprachsignalformen | |
DE2335818C3 (de) | Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen | |
DE3232835C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |