DE19942171A1 - Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung - Google Patents
Verfahren zur Satzendebestimmung in der automatischen SprachverarbeitungInfo
- Publication number
- DE19942171A1 DE19942171A1 DE1999142171 DE19942171A DE19942171A1 DE 19942171 A1 DE19942171 A1 DE 19942171A1 DE 1999142171 DE1999142171 DE 1999142171 DE 19942171 A DE19942171 A DE 19942171A DE 19942171 A1 DE19942171 A1 DE 19942171A1
- Authority
- DE
- Germany
- Prior art keywords
- token
- tokens
- sentence
- category
- judging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 45
- 238000012545 processing Methods 0.000 title claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000003936 working memory Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 101100154785 Mus musculus Tulp2 gene Proteins 0.000 description 1
- 235000009037 Panicum miliaceum subsp. ruderale Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 244000022185 broomcorn panic Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Ein in Token unterteilter Text wird erfindungsgemäß derart bearbeitet, daß zunächst die einzelnen Token in vorbestimmte linguistische Kategorien eingeteilt werden, wobei ambige Token in einem separaten Verfahrensschritt disambiguiert werden und die endgültige Beurteilung der Satzenden auf Grundlage der linguistischen Kategorien erfolgt.
Description
Die vorliegende Erfindung betrifft ein Verfahren zur Satzen
debestimmung in der automatischen Sprachverarbeitung.
Die beiden hauptsächlichen Anwendungsgebiete der automati
schen Sprachverarbeitung sind die automatische Spracherken
nung und die automatische Sprachsynthese. Verfahren zum Syn
thetisieren von Sprache sind beispielsweise aus der
EP 793 218 A2, EP 821 344 A2 oder der WO 96/42079 bekannt.
Bei diesen bekannten Verfahren wird ein in Form einer Textda
tei vorliegender Text in eine Audiodatei gewandelt, die mit
tels einer akustischen Ausgabeeinheit als Sprache ausgegeben
wird. Bei der Umsetzung der Textdatei in eine Audiodatei wird
versucht die menschliche Sprache möglichst exakt nachzubil
den. Die zwei wesentlichen Kriterien hierfür sind die Ver
ständlichkeit der Sprache an sich und die Prosodie der er
zeugten Sprache. Die Prosodie wird im wesentlichen durch die
Grundfrequenz (Stimmlage), Lautenergie (Lautstärke) und Laut
dauer (Dehnung und Pausen) bestimmt.
Ein komplexes Problem bei der Erzeugung der richtigen Proso
die ist die Erkennung der Satzenden in einem beliebigen Text.
Hierzu müssen die in der jeweiligen Sprache geltenden Satz
endezeichen richtig interpretiert werden. Dieses Problem wur
de bisher durch regelbasierte Routinen gelöst, die in ein
entsprechendes Programm zur Erzeugung von Sprache implemen
tiert werden. Zum Aufstellen einer derartigen regelbasierten
Routine ist ein Sprachexperte nötig, der für die jeweilige
Sprache einen Regelsatz aufstellt. Die Erstellung des Regel
satzes bedeutet einen erheblichen Aufwand, der für jede Spra
che, für die das Verfahren angewandt werden soll, wiederholt
werden muß.
Der Erfindung liegt die Aufgabe zugrunde Verfahren zur
Satzendebestimmung in der automatischen Sprachverarbeitung
zu schaffen, das einfacher als die bekannten Verfahren auf
unterschiedliche Sprachen adaptiert werden kann und dennoch
Satzenden mit geringster Fehlerrate korrekt erkennt.
Die Aufgabe wird durch ein Verfahren mit den Merkmalen des
Anspruchs 1 gelöst. Vorteilhafte Ausgestaltungen der Erfin
dung sind in den Unteransprüchen angegeben.
Das erfindungsgemäße Verfahren zur Satzendebestimmung in der
automatischen Sprachverarbeitung umfaßt folgende Schritte:
- - Einteilen des Textes in Token,
- - Untersuchen der Token, ob sie ein Satzende darstellen kön nen,
- - Markieren aller Token, die ein potentielles Satzende dar stellen können, mit einem Flag,
- - Kategorisieren der einzelnen Token in vorbestimmte lingui stische Kategorien, wobei in der Regel nicht allen Token eindeutig eine linguistische Kategorie zugeordnet werden kann,
- - Disambiguieren der Token, welchen nicht eindeutig eine Ka tegorie zugeordnet werden kann, und
- - Beurteilen der mit einem Flag versehenen Token auf Grundla ge der ihnen zugeordneten Kategorie, ob sie ein Satzende darstellen oder nicht.
Das Beurteilen der mit einem Flag versehenen Token kann mit
einer datengetriebenen Routine durchgeführt werden, das
heißt, einem lernenden Programmteil, der sich im wesentlichen
selbständig an eine Sprache anpassen kann. Beispiele für da
tengetriebene Routinen sind Routinen, die selbständig Stati
stiken erstellen und diese bei einer Entscheidung entspre
chend auswerten, oder auch neuronale Netze.
Auch das Disambiguieren der Token kann mittels datengetriebe
ner Routinen realisiert werden.
Das erfindungsgemäße Verfahren eignet sich besonders für da
tengetriebene Routinen, da das Beurteilen der mit einem Flag
versehenen Token nach dem Disambiguieren der Token auf Grund
lage der ihnen zugeordneten Kategorie durchgeführt wird, so
daß die ermittelten linguistischen Kategorien der einzelnen
Token fast vollständig korrekt sind und dementsprechend exakt
die Beurteilung der Token erfolgen kann.
Nach einer besonders bevorzugten Ausführungsform sind die
beiden Verfahrensschritte des Disambiguierens und des Beur
teilens der mit einem Flag versehenen Token als neuronale
Netze ausgebildet, die jeweils auf den gleichen Kontext, z. B.
drei Token vor und drei Token nach dem zu untersuchenden To
ken zugreifen.
Die Erfindung wird nachfolgend anhand der Zeichnung beispiel
haft näher erläutert in denen schematisch zeigen:
Fig. 1 ein Beispiel des erfindungsgemäßen Verfahrens in ei
nem Flußdiagramm,
Fig. 2 ein Computersystem zum Ausführen des erfindungsgemä
ßen Verfahrens in einem Blockschaltbild,
Fig. 3 einen Aufbau eines neuronalen Netzes zum Disambiguie
ren, und
Fig. 4 den Aufbau eines neuronalen Netzes zur Beurteilung
von Satzenden.
Die Erfindung wird anhand eines Ausführungsbeispieles für die
deutsche Sprache näher erläutert. Sie ist jedoch nicht auf
die deutsche Sprache beschränkt, sondern das erfindungsgemäße
Verfahren kann für beliebige Sprachen angewandt werden.
Fig. 1 zeigt in einem Flußdiagramm die wesentlichen Verfah
rensschritte des erfindungsgemäßen Verfahrens bei der Umset
zung einer Textdatei in eine Audiodatei. Zunächst wird in ei
nem ersten Schritt S1 eine Textdatei in Token eingeteilt. Im
Sinne der Erfindung sind Token alle Textelemente, die sich
zwischen zwei Tokenseparatoren befinden. Im vorliegenden Aus
führungsbeispiel umfassen die Tokenseparatoren Leerzeichen,
Tabulatoren und Zeilenendezeichen. Ein Token beginnt mit ei
nem Zeichen, das kein Separator ist, und endet mit dem Zei
chen, nach dem ein Separator kommt. Diese Separatoren können
für jede Sprache in einer gesonderten Datei abgelegt werden.
Dies stellt einen der wenigen Verfahrensabschnitte dar, die
beim erfindungsgemäßen Ausführungsbeispiel vorab sprachspezi
fisch mit entsprechendem Expertenwissen erstellt werden müs
sen. Die Tokenseparatoren sind jedoch in der Regel für die
meisten Sprachen bekannt und lassen sich aufgrund ihrer ge
ringen Zahl einfach ermitteln.
Im nachfolgenden Schritt S2 werden die Token, die ein Satzen
de darstellen können, mit einem entsprechenden Flag markiert.
Flags im Sinne der Erfindung sind alle beliebigen Datenzuord
nungen, mit welchen einzelne Token nach einer entsprechenden
Zuordnung einfach und schnell als mögliches Satzende identi
fiziert werden können. Dieses Flag wird als PEOS (possible
end of sentence) bezeichnet. Als Token, die ein Satzende dar
stellen können, werden alle Token beurteilt, die ein Zeichen
aufweisen, das möglicherweise als Satzende verstanden werden
kann. Bei Satzendezeichen unterscheidet man zwischen Zeichen,
die immer ein Satzende markieren, wie z. B. das Fragezeichen
oder das Ausrufezeichen, und solchen Zeichen, die auch eine
andere Verwendung haben können, wie z. B. der Punkt, der auch
in Abkürzungen, Akronymen und Zahlen vorkommen kann. Ein Son
derfall für die Prosodiebestimmung ist der Doppelpunkt, da er
zwar nie am grammatischen Satzende steht, jedoch für die Pro
sodie, insbesondere für ein Sprechpause, in der Regel die
gleiche Bedeutung wie der Punkt am Satzende hat. Der Doppel
punkt gilt deshalb beim erfindungsgemäßen Ausführungsbeispiel
auch als Satzendezeichen, obwohl dies grammatikalisch nicht
korrekt ist.
Für die Behandlung dieser Satzendezeichen gibt es im Deut
schen drei Möglichkeiten:
- - Das Satzendezeichen steht am Tokenende und ein klein ge schriebenes Token folgt. In diesem Fall handelt es sich nicht um ein Satzende.
- - Das Satzendezeichen steht im Token, das heißt, es folgt kein Tokenseparator. Dieser Fall tritt z. B. in Zahlenanga ben auf (1.5, 13 : 20). Dabei markiert das Satzendezeichen in keinem Fall ein Satzende.
- - Das Satzendezeichen steht am Tokenende und das nächste To ken beginnt nicht mit einem kleinen Buchstaben. Dieses To ken, der am Ende das Satzendezeichen aufweist, stellt ein mögliches Satzende dar und wird mit dem Flag PEOS markiert (PEOS: possible end of sentence).
Diese oben aufgeführten Regeln aus der deutschen Sprache gel
ten für viele weitere Sprachen, insbesondere den mitteleuro
päischen Sprachen, so daß bei einer Anwendung des erfindungs
gemäßen Ausführungsbeispiels für eine andere Sprache keine
Anpassungen nötig sind. Soll das erfindungsgemäße Ausfüh
rungsbeispiel jedoch für Sprachen angewandt werden, in denen
es z. B. keine Großbuchstaben gibt, wie z. B. im Arabischen,
muß der Verfahrensschritt des Markierens der möglichen
Satzendetoken entsprechend angepaßt werden.
Im folgenden Schritt S3 werden den einzelnen Token linguisti
sche Kategorien zugeordnet. Die linguistischen Kategorien um
fassen Wortklassen und sonstige Zeichen, die in einem Text
enthalten sein können. In der unten angegebenen Tabelle sind
die im vorliegenden Ausführungsbeispiel verwendeten lingui
stischen Kategorien aufgeführt:
Kategorie | |
Beschreibung | |
NUM | Numerale |
VERB | Verben |
VPART | Verbpartikel |
PRON | Pronomen |
PREP | Präpositionen |
NOMEN | Nomen, Eigennamen |
PART | Partikel |
DET | Artikel |
CONJ | Konjunktionen |
ADV | Adverben |
ADJ | Adjektive |
PDET | PREP+DET |
INTJ | Interjektionen |
PUNCT | Satzzeichen |
Die oben angegebene Aufteilung der linguistischen Kategorien
ist lediglich ein Beispiel. Es können auch andere Aufteilun
gen von linguistischen Kategorien verwendet werden. So werden
beispielsweise bei der Spracherkennung bis zu 40 linguisti
sche Kategorien verwendet. Bei der vorliegenden Erfindung ist
jedoch eine Aufteilung mit weniger Kategorien vorteilhaft, da
sich hierbei die unten näher erläuterten neuronalen Netzwerke
einfacher realisieren und schneller trainieren lassen.
Beim Kategorisieren der Token werden aus einem Lexikon die zu
den jeweiligen Token gehörenden linguistischen Kategorien
ausgelesen. Hierbei ist es möglich, daß einem einzelnen Token
auch mehrere linguistische Kategorien zugeordnet werden.
In der Regel sind jedoch nicht alle Token eines Textes im Le
xikon vorhanden, so daß mit Hilfe des Lexikons nicht für alle
Token die entsprechende Kategorie bzw. die entsprechenden Ka
tegorien bestimmt werden können. Die linguistische Kategorie
der Token, welchen nicht eindeutig eine Kategorie zugeordnet
werden kann, wird mit einer sogenannten OOV-Routine (out of
vocabulary) bestimmt. Diese OOV-Routine ist im vorliegenden
Ausführungsbeispiel als neuronales Netzwerk ausgebildet, das
anhand der letzten vier Buchstaben des jeweiligen Tokens auf
dessen Kategorie schließt. Diese OOV-Routine kann jedoch auch
auf einer anderen datengetriebenen Methode beruhen.
Das neuronale Netzwerk der OOV-Routine kann auch die letzen
drei oder fünf Zeichen des Tokens auswerten, um auf dessen
Kategorie zu schließen. Bei einer anderen Sprache kann es
zweckmäßig sein, nicht anhand der Endung, sondern anhand ei
nes anderen Abschnittes des Tokens die Kategorie zu bestim
men.
Sowohl bei der Kategorisierung anhand des Lexikons als auch
bei der Kategorisierung anhand der OOV-Routine kann das lin
guistische Kriterium ambig sein, das heißt, daß dem Token
mehrere linguistische Kategorien zugeordnet sind.
Die Lexika für die einzelnen Sprachen sind wiederum sprach
spezifisch, so daß das Lexikon bei der Übertragung des erfin
dungsgemäßen Verfahrens auf eine andere Sprache entsprechend
ausgetauscht werden muß. Derartige Lexika sind jedoch für die
meisten Sprachen bekannt, weshalb der Austausch der Lexika
kein ernsthaftes Problem bei der Übertragung des erfindungs
gemäßen Verfahrens auf eine andere Sprache darstellt.
Die Token können weiteren Bearbeitungsvorgängen unterzogen
werden, die in dem in Fig. 1 gezeigten Flußdiagramm im
Schritt S4 zusammengefaßt dargestellt sind. Mit derartigen
Bearbeitungsvorgängen können im Text enthaltene Abkürzungen,
Akronyme und Formeln ausgewertet werden. Hierbei kann sich
ergeben, daß ein mit einem Flag als potentielles Satzende
markiertes Token kein Satzende sein kann. In einem solchen
Fall wird während dieser Bearbeitungsvorgänge das entspre
chende Flag gelöscht. Weitere derartige Arbeitsvorgänge kön
nen z. B. das Normalisieren (normalizing) bzw. Ausdehnen (ex
panding) der Token sein. Beim Normalisieren eines Tokens wer
den Token kategorisiert, die Zeichen unterschiedlicher Kate
gorien enthalten, wie z. B. "54jährig". Beim Ausdehnen von To
ken werden mehrere Token, wie z. B. "New" und "York" zu einem
einzigen Token "New York" zusammengefaßt. Auch bei diesen
Verarbeitungsvorgängen kann sich ergeben, daß ein im Schritt
S2 gesetztes Flag gelöscht werden kann, was dann entsprechend
ausgeführt wird.
Im nachfolgenden Schritt S5 werden die ambigen Token, das
heißt die Token, denen mehrere linguistische Kategorien zuge
ordnet sind, disambiguiert. Dies wird beim erfindungsgemäßen
Ausführungsbeispiel durch ein neuronales Netz ausgeführt, das
auf einer standard-feed-forward-Architektur mit einem hidden
Layer beruht. Dieses neuronale Netz ist schematisch grob ver
einfacht in Fig. 3 dargestellt. Auf der Eingangsseite weist
es Knoten für das zu disambiguierende Wort und den entspre
chenden Vorgängern bzw. Nachfolgern auf. Im Ausführungsbei
spiel werden drei dem zu disambiguierenden Token vorhergehen
de Token und drei dem zu disambiguierenden Token nachfolgende
Token berücksichtigt. Dies bedeutet, daß für die drei Token
der Vorgänger jeweils 14 Knoten für die einzelnen Kategorien
vorgesehen sind. Für das zu disambiguierende Token sind 13
Knoten vorgesehen, da hier die Kategorie der Satzzeichen
nicht berücksichtigt werden muß. Für den Nachfolger sind ge
nauso wie für die Vorgänger 3 × 14 (42) Knoten vorzusehen.
Jeder dieser Knoten stellt somit eine linguistische Kategorie
für ein bestimmtes Token dar. An die Knoten wird das Ein
gangssignal +1 angelegt, wenn die jeweilige Kategorie dem je
weiligen Token zugeordnet ist bzw. -1 angelegt, wenn dem je
weiligen Token diese Kategorie nicht zugeordnet ist. Wenn bei
den Vorgängern bzw. Nachfolgern kein Token vorhanden ist, was
am Anfang und am Ende des Textes der Fall ist, wird den je
weiligen Knoten der Wert 0 zugeordnet. Auf der Ausgangsseite
des Netzwerkes sind 13 Knoten für die jeweiligen Kategorien
des zu disambiguierenden Wortes vorgesehen. Zwischen den Aus
gangsknoten und den Eingangsknoten befindet sich eine ver
deckte Schicht (hidden Layer).
Mit diesem neuronalen Netzwerk wird den ambigen Token jeweils
eine einzige Kategorie zugeordnet, wodurch deren Mehrdeutig
keit aufgehoben wird. Mit dem Schritt der Disambiguierung
wird somit eindeutig eine Zuordnung der linguistischen Kate
gorien zu den Token geschaffen.
Im nächsten Schritt S6 werden die mit dem Flag PEOS versehe
nen Token untersucht und es wird beurteilt, ob sie ein
Satzende oder kein Satzende darstellen. Dies wird im vorlie
genden Ausführungsbeispiel durch ein weiteres neuronales
Netzwerk (Fig. 4) ausgeführt. Das neuronale Netzwerk weist
auf der Eingangsseite wiederum 13 Knoten für das zu beurtei
lende Token und jeweils 42 Knoten für die Vorgänger (3 Token)
und 42 Knoten für den Nachfolger (3 Token) auf. Darüber ist
eine versteckte Schicht angeordnet und ausgangsseitig gibt es
lediglich einen einzigen Knoten, der das binäre Ergebnis, das
Token ist ein Satzende oder ist kein Satzende, darstellt.
Diese Struktur des neuronalen Netzes zeigt, daß bei der Beur
teilung das mit dem Flag versehenen Token die linguistische
Kategorie des zu beurteilenden Tokens und die linguistische
Kategorie der Vorgänger und Nachfolger mit berücksichtigt
werden.
Nach der Beurteilung der Token, die ein Satzende darstellen
können, sind die durch die linguistische Kategorisierung und
den Satzenden auf die Prosodie ausgeübten Einflüsse abschlie
ßend festgelegt. Auf Grundlage dieser Daten kann somit eine
Audiodatei erzeugt werden (Schritt S7), wobei hier noch wei
tere Parameter zur Festlegung der Prosodie zu berücksichtigen
sind, die jedoch nicht Gegenstand der vorliegenden Erfindung
sind.
Die neuronalen Netze oder sonstigen datengetriebenen Routinen
des erfindungsgemäßen Verfahrens werden zunächst in einer
Trainingsphase anhand eines Textes trainiert. Die linguisti
schen Kategorien der Token und die Enden der einzelnen Sätze
dieses Trainingstextes sind bekannt und werden während des
Trainings den zu trainierenden Routinen eingegeben. Das er
findungsgemäße Verfahren lernt somit selbsttätig die Gesetze
einer Sprache, wobei lediglich bekanntes und einfach verfüg
bares Wissen (Einteilung der Token, Vergabe von Flags für
Satzenden, Lexikon) als Expertenwissen hinzugefügt werden
muß. Die in der Praxis schwierig zu erstellenden Gesetze der
Sprache lernt das erfindungsgemäße Verfahren beim Training.
Das erfindungsgemäße Verfahren läßt sich somit schnell und
einfach auf eine andere Sprache übertragen.
Mit dem oben beschriebenen Ausführungsbeispiel des erfin
dungsgemäßen Verfahrens sind für die deutsche Sprache gute
Ergebnisse erzielt worden. So konnten bei umfangreichen Tex
ten Fehlerraten beim Kategorisieren von weniger als 2% er
zielt werden. Entsprechend zuverlässig ist auch die Erkennung
der Satzenden gewesen, wodurch eine sehr natürliche Sprach
ausgabe der Texte erzielt worden ist.
Das erfindungsgemäße Verfahren wird als Computerprogramm auf
einem Computersystem realisiert, wie es schematisch verein
facht in Fig. 2 dargestellt ist. Das Computerprogramm kann
auch auf einen elektronisch lesbaren Datenträger gespeichert
werden und so auf ein anderes Computersystem übertragen wer
den. Das Computersystem 1 weist einen internen Bus 2 auf, der
mit einem Speicherbereich 3, einer zentralen Prozessoreinheit
4 und einem Interface 5 verbunden ist. Das Interface 5 stellt
über eine Datenleitung 6 eine Datenverbindung zu weiteren
Computersystemen her. An dem internen Bus sind ferner eine
akustische Ausgabeeinheit 7, eine grafische Ausgabeeinheit 8
und eine Eingabeeinheit 9 angeschlossen. Die akustische Aus
gabeeinheit 7 ist mit einem Lautsprecher 10, die grafische
Ausgabeeinheit 8 mit einem Bildschirm 11 und die Eingabeein
heit 9 mit einer Tastatur 12 verbunden. An das Computersystem
1 können über die Datenleitung 6 und das Interface 5 Texte
übertragen werden, die im Speicher 3 abgespeichert werden.
Der Speicherbereich 3 ist in mehrere Bereiche unterteilt, in
denen Texte, Audiodateien, Anwendungsprogramme zum Durchfüh
ren des erfindungsgemäßen Verfahrens und weitere Anwendungs-
und Hilfsprogramme gespeichert sind. Die als Textdatei abge
speicherten Texte werden durch die Anwendungsprogramme zum
Ausführen des erfindungsgemäßen Verfahrens in Audiodateien
gewandelt, die über den internen Bus 2 zur akustischen Ausga
beeinheit 7 übertragen und von dieser am Lautsprecher 10 als
Sprache ausgegeben werden.
Die Erfindung ist oben anhand eines Ausführungsbeispiels für
die deutsche Sprache näher erläutert. Die Erfindung ist je
doch nicht auf die Anwendung der deutschen Sprache be
schränkt, sondern ist im Vergleich zu bekannten Verfahren
sehr leicht auf andere Sprachen übertragbar. Ein wesentlicher
Vorteil des erfindungsgemäßen Verfahrens gegenüber bekannten
Verfahren liegt darin, daß hiermit auch eine Satzendeerken
nung in Sprachen möglich ist, für die ein Expertenwissen zu
den Sprachregeln zum Bestimmen der Kategorie der Token als
auch der Satzenden noch nicht bekannt ist. Das erfindungsge
mäße Verfahren läßt sich somit auch einfach bei nicht sehr
populären und deshalb nur gering erforschten Sprachen einset
zen.
Ferner ist es möglich, daß die beiden neuronalen Netzwerke
des oben beschriebenen Ausführungsbeispiels zum Disambiguie
ren und zum Beurteilen der Satzenden als ein einziges neuro
nales Netzwerk ausgebildet werden. Es ist auch möglich, an
stelle neuronaler Netzwerke ein beliebiges anderes statisti
sches, datengetriebenes Verfahren zu verwenden.
Claims (13)
1. Verfahren zur Satzendebestimmung in der automatischen
Sprachverarbeitung mit folgenden Schritten:
Einteilen des Textes in Token,
Untersuchen der Token, ob sie ein Satzende darstellen können,
Markieren aller Token, die ein potentielles Satzende dar stellen können, mit einem Flag (PEOS),
Kategorisieren der einzelnen Token in vorbestimmte lin guistische Kategorien, wobei in der Regel nicht allen Token eindeutig eine linguistische Kategorie zugeordnet werden kann,
Disambiguieren der Token, welchen nicht eindeutig eine Kategorie zugeordnet werden kann,
Beurteilen der mit einem Flag versehenen Token auf Grund lage der Ihnen zugeordneten linguistischen Kategorie, ob sie ein Satzende darstellen.
Einteilen des Textes in Token,
Untersuchen der Token, ob sie ein Satzende darstellen können,
Markieren aller Token, die ein potentielles Satzende dar stellen können, mit einem Flag (PEOS),
Kategorisieren der einzelnen Token in vorbestimmte lin guistische Kategorien, wobei in der Regel nicht allen Token eindeutig eine linguistische Kategorie zugeordnet werden kann,
Disambiguieren der Token, welchen nicht eindeutig eine Kategorie zugeordnet werden kann,
Beurteilen der mit einem Flag versehenen Token auf Grund lage der Ihnen zugeordneten linguistischen Kategorie, ob sie ein Satzende darstellen.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die Beurteilung der mit einem Flag versehenen Token
auch auf Grundlage des dem zu beurteilendem Token vorherge
henden und/oder nachfolgenden Kontextes erfolgt.
3. Verfahren nach Anspruch 2,
dadurch gekennzeichnet,
daß der Kontext für die Beurteilung eines mit einem Flag
versehenen Tokens jeweils ein einziges Token umfaßt.
4. Verfahren nach Anspruch 2,
dadurch gekennzeichnet,
daß der Kontext für die Beurteilung eines mit einem Flag
versehenen Tokens mehrere und vorzugsweise genau drei Token
umfaßt.
5. Verfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet,
daß das Beurteilen der mit einem Flag versehenen Token
mit Hilfe eines neuronalen Netzwerkes ausgeführt wird.
6. Verfahren nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet,
daß das Disambiguieren auf Grundlage des vorhergehenden
und/oder nachfolgenden Kontextes des zu disambiguierenden To
kens erfolgt.
7. Verfahren nach Anspruch 6,
dadurch gekennzeichnet,
daß der beim Disambiguieren berücksichtigte Kontext genau
ein einziges Token umfaßt.
8. Verfahren nach Anspruch 6,
dadurch gekennzeichnet,
daß der beim Disambiguieren berücksichtigte Kontext meh
rere Token und vorzugsweise genau drei Token umfaßt.
9. Verfahren nach einem der Ansprüche 6 bis 7,
dadurch gekennzeichnet,
daß das Disambiguieren und das Beurteilen der mit einem
Flag versehenen Token auf Grundlage gleich großer Kontexte
erfolgt.
10. Verfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet,
daß beim Kategorisieren der einzelnen Token die einem To
ken zugeordneten Kategorien aus einem Lexikon ausgelesen wer
den und alle Token, die nicht im Lexikon enthalten sind mit
tels einer OOV-Routine kategorisiert werden.
11. Verfahren nach Anspruch 10,
dadurch gekennzeichnet,
daß die OOV-Routine eine datengetriebene Routine ist, die
anhand der Othographie eines Tokens dessen Kategorie beur
teilt, wobei vorzugsweise ein Abschnitt des Tokens mit 3 bis
5 Zeichen ausgewertet wird.
12. Verfahren nach einem der Ansprüche 1 bis 11,
dadurch gekennzeichnet,
daß nach dem Kategorisieren der einzelnen Token und vor
dem Beurteilen der mit einem Flag versehenen Token ein oder
mehrere Tokenbehandlungsvorgänge, z. B. zum Ermitteln von Ab
kürzungen, Akronymen oder Formeln oder zum Normalisieren bzw.
Ausdehnen der Token, ausgeführt werden, wobei bei den einzel
nen Tokenbehandlungsvorgängen gesetzte Flags gelöscht werden,
wenn sich aus dem Tokenbehandlungsvorgang ergibt, daß das je
weilige Token kein Satzende bilden kann.
13. Vorrichtung zum Synthetisieren von Sprache aus einem
elektronisch verarbeitbaren Text,
gekennzeichnet durch
ein Computersystem (1) mit einer zentralen Prozessorein
heit (4), einem Arbeitsspeicher (3) und einer akustischen
Ausgabeeinheit (7) und einem im Arbeitsspeicher (3) gespei
cherten Programm zum Ausführen des Verfahrens nach einem der
Ansprüche 1 bis 12, wobei auf Grundlage der dementsprechend
ermittelten Satzenden eine Prosodie erzeugt wird, und der
elektronisch verarbeitbare Text als Textdatei vorliegt, die
gemäß der erfindungsgemäß ermittelten Prosodie in eine Audio
datei gewandelt wird, und die Audiodatei an der akustischen
Ausgabeeinheit (7) in Sprache gewandelt wird.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999142171 DE19942171A1 (de) | 1999-09-03 | 1999-09-03 | Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung |
PCT/DE2000/002979 WO2001018788A2 (de) | 1999-09-03 | 2000-08-31 | Verfahren zur satzendebestimmung in der automatischen sprachverarbeitung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999142171 DE19942171A1 (de) | 1999-09-03 | 1999-09-03 | Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19942171A1 true DE19942171A1 (de) | 2001-03-15 |
Family
ID=7920746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1999142171 Withdrawn DE19942171A1 (de) | 1999-09-03 | 1999-09-03 | Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE19942171A1 (de) |
WO (1) | WO2001018788A2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016008855A1 (de) | 2016-07-20 | 2018-01-25 | Audi Ag | Verfahren zum Durchführen einer Sprachübertragung |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3733674A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Sprachanalysator |
WO1996042079A1 (en) * | 1995-06-13 | 1996-12-27 | British Telecommunications Public Limited Company | Speech synthesis |
EP0793218A2 (de) * | 1996-02-28 | 1997-09-03 | Sony Corporation | Verfahren und Vorrichtung zur Sprachsynthese |
EP0821344A2 (de) * | 1996-07-25 | 1998-01-28 | Matsushita Electric Industrial Co., Ltd. | Verfahren und Vorrichtung zur Sprachsynthese |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4773009A (en) * | 1986-06-06 | 1988-09-20 | Houghton Mifflin Company | Method and apparatus for text analysis |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
-
1999
- 1999-09-03 DE DE1999142171 patent/DE19942171A1/de not_active Withdrawn
-
2000
- 2000-08-31 WO PCT/DE2000/002979 patent/WO2001018788A2/de active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3733674A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Sprachanalysator |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
WO1996042079A1 (en) * | 1995-06-13 | 1996-12-27 | British Telecommunications Public Limited Company | Speech synthesis |
EP0793218A2 (de) * | 1996-02-28 | 1997-09-03 | Sony Corporation | Verfahren und Vorrichtung zur Sprachsynthese |
EP0821344A2 (de) * | 1996-07-25 | 1998-01-28 | Matsushita Electric Industrial Co., Ltd. | Verfahren und Vorrichtung zur Sprachsynthese |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016008855A1 (de) | 2016-07-20 | 2018-01-25 | Audi Ag | Verfahren zum Durchführen einer Sprachübertragung |
Also Published As
Publication number | Publication date |
---|---|
WO2001018788A3 (de) | 2001-09-07 |
WO2001018788A2 (de) | 2001-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE69816676T2 (de) | System und verfahren zur bestimmung und minimalisierung eines endlichen transducers zur spracherkennung | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE3788488T2 (de) | Sprachenübersetzungssystem. | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE112017006151T5 (de) | Anpassbare Verarbeitungskomponenten | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE3615972A1 (de) | Zweisprachiges uebersetzungssystem mit eigen-intelligenz | |
EP1217610A1 (de) | Verfahren und System zur multilingualen Spracherkennung | |
DE112005002534T5 (de) | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE10306599A1 (de) | Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache | |
DE69025091T2 (de) | Verfahren und Vorrichtung zur Übersetzung eines Satzes mit einem durch Trennung gebildeten, zusammengesetzten Wort | |
DE68919030T2 (de) | Computerunterstütztes Übersetzungsgerät. | |
DE69723449T2 (de) | Verfahren und system zur sprache-in-sprache-umsetzung | |
EP0814457B1 (de) | Verfahren zur automatischen Erkennung eines gesprochenen Textes | |
DE19942171A1 (de) | Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung | |
DE102007042971A1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
DE102016125162B4 (de) | Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8139 | Disposal/non-payment of the annual fee |