DE10008502C2 - Anapher-Analysevorrichtung mit Vorgängerkandidatenzurückweisungseinrichtung unter Verwendung eines Kandidatenzurückweisungsentscheidungsbaums - Google Patents
Anapher-Analysevorrichtung mit Vorgängerkandidatenzurückweisungseinrichtung unter Verwendung eines KandidatenzurückweisungsentscheidungsbaumsInfo
- Publication number
- DE10008502C2 DE10008502C2 DE10008502A DE10008502A DE10008502C2 DE 10008502 C2 DE10008502 C2 DE 10008502C2 DE 10008502 A DE10008502 A DE 10008502A DE 10008502 A DE10008502 A DE 10008502A DE 10008502 C2 DE10008502 C2 DE 10008502C2
- Authority
- DE
- Germany
- Prior art keywords
- candidate
- predecessor
- anaphor
- analysis
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003066 decision tree Methods 0.000 title claims description 24
- 238000004458 analytical method Methods 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 16
- 238000012937 correction Methods 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 3
- 241001051118 Garcinia nigrolineata Species 0.000 description 2
- 230000009089 cytolysis Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 101100149256 Mus musculus Sema6b gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
Die vorliegende Erfindung betrifft eine Vorrichtung zum Analysieren
von Anaphern zur Verwendung bei der Analyse natürlicher Sprache und
insbesondere eine Vorrichtung zum Analysieren von Anaphern zum au
tomatischen Schätzen einer Anapherreferenzbeziehung oder eines Vor
gängers eines Nomens zur Verwendung in einem Satz einer natürlichen
Sprache, d. h. zum Schätzen, was ein Pronomen, ein De
monstrativpronomen oder dergleichen in dem Satz der natürlichen
Sprache genau angibt. Im Rahmen der vorliegenden Erfindung ist der
Gegenstand einer Anapheranalyse die Gruppe der Nomina, wobei No
mina, Pronomina und Demonstrativpronomina eingeschlossen sind.
Beim Schätzen einer Anapherreferenzbeziehung eines Nomens in einer
Vorrichtung zum Analysieren natürlicher Sprache war es bisher üblich,
daß eine Person zuvor einen Satz in einem zu analysierenden Feld in
terpretiert und anschließend Anapher-Regeln erstellt.
Basierend auf einer kürzlich erfolgten Schaffung einer Umgebung, die
das Verwenden eines markierten Körpers erlaubt, der nach der mor
phologischen Analyse und der grammatischen Analyse erhalten wird,
ist ferner im Stand der Technik, beispielsweise in D. Conolly et al., "A
Machine Training Approach to Anaphora relation", Proceeding of NeM-
LaP, 1994 (im folgenden erstgenannter Stand der Technik genannt)
und in C. Aone et al., "Evaluating Automated and Manual Acquisition of
Anaphora Resolution Strategies", Proceeding of ACL, S. 122-129, 1995
(im folgenden als zweitgenannter Stand der Technik bezeichnet), ein
Verfahren vorgeschlagen, das einen Entscheidungsbaum verwendet,
welcher durch Anwenden eines maschinellen Trainingsverfahrens auf
den markierten Körper erhalten wird.
Nach dem zuvor beschriebenen manuellen Erstellen der Anapher-Re
geln ist es erforderlich, wenn eine tatsächliche Anwendung der Ana
pher-Regel zu einer inkorrekten Schätzung führt, den Grund für die
fehlerhafte Schätzung zu ermitteln und anschließend Anapher-Regeln
hinzuzufügen oder zu verbessern. Somit kann nur ein mit den Prinzi
pien der Vorrichtungen zum Analysieren natürlicher Sprache vertrauter
Fachmann die Anapher-Regeln aufstellen.
Ferner verwendet der erstgenannte Stand der Technik ein Verfahren,
bei dem ein besserer Kandidat durch sequentielles Vergleichen zweier
Kandidaten gewählt wird, wobei der Entscheidungsbaum zur Wahl ei
nes Vorgängers verwendet wird. In diesem Fall besteht die Möglichkeit,
daß die gewählten Vorgänger je nach Reihenfolge der Eingabe der Vor
gänger-Kandidaten voneinander verschieden sind. Der erstgenannte
Stand der Technik weist daher das Problem auf, nicht sicherstellen zu
können, daß der Kandidat mit der tatsächlichen hohen Priorität gewählt
wird. Ferner verwendet der zweitgenannte Stand der Technik den Ent
scheidungsbaum zum Wählen des Vorgängers, jedoch wird der Inte
gration von Häufigkeitsstatistiken und Platzinformationen beim Zuwei
sen von Präferenzen nicht Rechnung getragen. Daher weist der zweit
genannte Stand der Technik den Nachteil auf, daß die Genauigkeit der
Anapheranalyse relativ gering ist.
Bei Verwendung des zuvor genannten markierten Körpers wird der
Entscheidungsbaum entsprechend der Art der Erstellung des mar
kierten Körpers erzeugt, so daß die Datenmenge die Schätzungsge
nauigkeit beeinträchtigen kann. Darüber hinaus kann die Schätzung
aufgrund der Auswirkung eines geringen Unterschieds zwischen dem
Wesen des eingegebenen Satzes und des markierten Körpers zu einem
falschen Ergebnis führen. Anders gesagt: herkömmliche Vorrichtungen
zum Analysieren natürlicher Sprache weisen die folgenden Probleme
auf. Beim Erstellen der Regeln für die Anapheranalyse ist es für den
Fachmann auf dem Gebiet der Vorrichtungen zur Analyse natürlicher
Sprache erforderlich, die Regeln zu erstellen oder die Ana
lyseergebnisse zu verifizieren, so daß der Zeitaufwand und die Kosten
für die Erstellung der Regeln erhöht werden. Zwar verursacht die Ver
wendung des maschinellen Trainings keine derartigen Zeit- und ko
stenbezogenen Probleme, jedoch hat das maschinelle Training den
Nachteil, daß die Schätzung aufgrund kleiner oder großer Datenmen
gen oder der Wesensunterschiede unter Umständen nicht erfolgreich
ist.
Es ist daher die Aufgabe der vorliegenden Erfindung, eine Vorrichtung
zum Analysieren von Anaphern zu schaffen, die in der Lage ist, die
Analyse von Anaphern mit einer größeren Genauigkeit durchzuführen
als dies im Stand der Technik möglich ist.
Die Lösung der Aufgabe erfolgt erfindungsgemäß mit den Merkmalen
des Patentanspruchs 1.
Weitere vorteilhafte Ausgestaltungen der Erfindung sind in den Unter
ansprüchen angegeben.
Im folgenden werden bevorzugte Ausführungsbeispiele der Erfindung
anhand der zugehörigen Zeichnungen beschrieben, wobei gleiche Be
zugszeichen in sämtlichen Figuren gleiche Teile bezeichnen.
Es zeigen:
Fig. 1 ein Blockschaltbild einer Konfiguration einer Vorrichtung zum
Analysieren von Anaphern gemäß einem bevorzugten Ausführungsbei
spiel der Erfindung;
Fig. 2 ein Beispiel für einen Kandidatenzurückweisungsentschei
dungsbaum, der in einem Kandidatenzurückweisungsentscheidungs
baumspeicher nach Fig. 1 gespeichert ist;
Fig. 3 eine Grafik des Prozentsatzes der Korrektur der Anapherana
lyse bezogen auf eine Anzahl Übungsdialogen, bei der es sich um Ver
suchsergebnisse der Vorrichtung zum Analysieren von Anaphern ge
mäß Fig. 1 handelt.
Fig. 1 ist ein Blockschaltbild der Konfiguration einer Vorrichtung zum
Analysieren von Anaphern gemäß einem bevorzugten Ausführungsbei
spiel der vorliegenden Erfindung. Die Vorrichtung zum Analysieren von
Anaphern gemäß dem bevorzugten Ausführungsbeispiel dient der
Durchführung von Anapheranalyseprozessen zum Wählen von Vor
gängern entsprechend eines markierten Körpers, bei dem es sich um in
einem Textdatenspeicher 10 gespeicherte Textdaten handelt. Die Vor
richtung zum Analysieren von Anaphern weist einen Kandidaten
zurückweisungsabschnitt 3 und einen Präferenzzuweisungsabschnitt 4
auf. Der Kandidatenzurückweisungsabschnitt 3 weist unnötige Kandi
daten, die keine Anapherreferenzbeziehung zu einem Nomen unter den
von einem Vorgängerkandidatengenerator 2 erzeugten Vorgän
gerkandidaten des Nomens haben, zurück, indem ein in einem Kandi
datenzurückweisungsentscheidungsbaumspeicher 12 gespeicherter
Kandidatenzurückweisungsentscheidungsbaum verwendet wird, um in
den nachfolgenden Präferenzzuweisungsabschnitt 4 eingegebenes Rau
schen zu verringern. Der Präferenzzuweisungsabschnitt 4 weist den
eingegebenen Vorgängerkandidaten einen Präferenzgrad oder eine
Priorität zu und gibt die mit Präferenz versehenen Vorgängerkandida
ten aus, indem er integral eine Informationstabelle verwendet, die
Häufigkeitsinformationen und ein Anapherverhältnis enthält.
Wie in Fig. 1 dargestellt, ist der Textdatenspeicher 10 zum Vorabspei
chern eingegebener Sätze der Textdaten von Sätzen einer natürlichen
Sprache vorgesehen, die einer Anapheranalyse unterzogen werden sol
len. Es werden beispielsweise die folgenden eingegebenen Sätze in
dem Textdatenspeicher 10 gespeichert.
201
Receptionist: Thank you. This is New York City Hotel.
202
Traveler: Hello? I am Hiroko Tanaka. I'd like to make a reserva
tion at your hotel.
203
Receptionist: May I ask how to spell your name, please?
204
Traveler: O. K. T-a-n-a-k-a.
I will stay at a youth hostel in Washington until tomorrow.
I will stay at a youth hostel in Washington until tomorrow.
205
Receptionist: Okay. You will arrive here on the 10th
, right?
Eine Analysevorrichtung 1 führt einen vorbestimmten Analyseprozess
für den in der natürlichen Sprache eingegebenen Satz durch, beispiels
weise eine morphologische Analyse, eine grammatische Analyse und
dergleichen durch, die dem Fachmann bekannt sind, und erzeugt so
dann einen markierten Körper, der Markierungen aufweist, wie zum
Beispiel Informationen über einen durch ein Wort gebildeten Teil der
Sprachäußerung und Informationen über die Beziehung zwischen ei
nem Relativpronomen und einem Nomen, bei denen es sich um Analy
seergebnisse handelt. Anschließend speichert die Analysevorrichtung 1
die Analyseergebnisse in einem Analyseergebnisspeicher 11 und gibt
die Analyseergebnisse an den Vorgängerkandidatengenerator 2 aus.
Bei dem bevorzugten Ausführungsbeispiel ist der markierte Körper mit
Wortinformationen versehen, beispielsweise regulärer Ausdruck, Teil
der Sprechäußerung, semantischer Code, wie Geschlecht, Person und
Anzahl für jedes Wort. Anschließend erkennt der Vorgängerkandida
tengenerator 2 eine Zielkomponente in dem eingegebenen Satz, die für
die Anapheranalyse entsprechend den Analyseergebnissen des einge
gebenen markierten Körpers erforderlich ist, indem er auf den markier
ten Körper der in dem Analyseergebnisspeicher 11 gespeicherten vor
hergehenden Analyseergebnisse Bezug nimmt, und er erzeugt ferner
der Zielkomponente entsprechende Vorgängerkandidaten, die an den
Kandidatenzurückweisungsabschnitt 3 ausgegeben werden. Genauer
gesagt extrahiert der Vorgängerkandidatengenerator 2 die Nomina aus
dem eingegebenen markierten Körper und den vorherigen markierten
Körpern unter Verwendung eines bekannten Verfahrens, um so die
Vorgängerkandidaten zu erzeugen, welche die Nomina sind, die als ein
Anapher-Bezugsverhältnis aufweisend gelten.
Der Kandidatenzurückweisungsentscheidungsbaumspeicher 12 spei
chert beispielsweise den Kandidatenzurückweisungsentscheidungs
baum nach Fig. 2, der durch ein bekanntes vorbestimmtes maschinel
les Trainingsverfahren erstellt wurde, entsprechend dem markierten
Körper, der durch Anwenden des Analyseprozesses, beispielsweise
morphologische Analyse, grammatische Analyse und dergleichen be
kannte Analysen, auf die Trainingstextdaten erstellt wurde. Bei dem
bevorzugten Ausführungsbeispiel ist der markierte Körper mit Wortin
formationen versehen, wie beispielsweise regulärer Ausdruck, Teil der
Sprachäußerung, semantische Codes, wie Geschlecht, Person und An
zahl für jedes Wort.
In dem Kandidatenzurückweisungsentscheidungsbaum nach Fig. 2 wird
festgestellt, ob ein potentielles Anapher-Bezugsverhältnis besteht, in
dem binäre Bäume jeweiliger Knotenpunkte von Ausgangspunkten 100
zu Verzweigungspunkten 201, 202, 203, 204 und so weiter verfolgt
werden. Existiert kein potentielles Anapher-Bezugsverhältnis, wird der
Kandidat zurückgewiesen. Ein Paar, bestehend aus dem Wort "A" und
dem Kandidaten "C" wird am Ausgangspunkt 100 eingegeben, wobei
das Wort "A" die einer Anapheranalyse zu unterziehende Zielkompo
nente ist. An einem mit dem Ausgangspunkt 100 verbundener Ver
zweigungspunkt 301 wird festgestellt, ob ein Anapherverhältnis "Ver
hältnis (A, C)" zwischen dem Wort "A" und dem Wort "C", das durch
Verwendung eines durch die nachfolgende Gleichung (1) definierten
Anapherverhältnisses "Verhältnis" berechnet wird, gleich oder größer
als der vorgegebene Schwellenwert = 0 ist. Ferner wird an einem Ver
zweigungspunkt 302 festgestellt, ob ein Abstand "Abst", welcher die
Zahl der Kandidaten zwischen dem Wort "A" und dem Wort "C" (d. h.,
die Zahl der Nomina) angibt, sechzehn überschreitet. Ferner wird an
einem Verzweigungspunkt 303 festgestellt, ob ein regulärer Ausdruck
des Wortes "A" "Your" ist. Des weiteren wird an einem Verzweigungs
punkt 304 festgestellt, ob der semantische Code "Sem", definiert durch
das bekannte "Kadokawa Synonym New Dictionary", ein Name ist.
Schließlich wird an einem Verzweigungspunkt 305 festgestellt, ob ein
abschließender Ausdruck für das Wort "C" "Hostel" ist.
In dem Beispiel nach Fig. 2 wird festgestellt, wenn an den Verzwei
gungspunkten 301, 302 und 303 JA, NEIN und JA entschieden wurde,
daß die Wörter "A" und "C" das Potential für ein Anapher-
Bezugsverhältnis haben, so daß der Kandidat nicht zurückgewiesen
wird. Wird an den Verzweigungspunkten 301 und 302 jedoch JA und JA
entschieden, so gelten die Wörter "A" und "C" als kein Potential für ein
Anapher-Bezugsverhältnis aufweisend, weshalb der Kandidat zurück
gewiesen wird. Wird ferner an den Verzweigungspunkten 301 und 304
NEIN und JA entschieden, so gelten die Wörter "A" und "C" als kein Potential
für ein Anapher-Bezugsverhältnis aufweisend, weshalb der Kan
didat zurückgewiesen wird. Wird ferner an den Verzweigungspunkten
303 und 305 JA und NEIN entschieden, so gelten die Wörter "A" und
"C" als kein Potential für ein Anapher-Bezugsverhältnis aufweisend,
weshalb der Kandidat zurückgewiesen wird.
Dementsprechend weist der Kandidatenzurückweisungsabschnitt 3 die
Vorgängerkandidaten zurück, die kein Potential für ein Anapher-
Bezugsverhältnis haben, indem er beispielsweise den Kandidatenzu
rückweisungsentscheidungsbaum der Fig. 2 entsprechend den Ergeb
nissen der Vorgängerkandidaten verwendet, welche vom Vorgänger
kandidatengenerator 2 eingegeben wurden; anschließend gibt der
Kandidatenzurückweisungsabschnitt 3 die verbleibenden Vorgänger
kandidaten an den Präferenzzuweisungsabschnitt 4 aus. Der Kandida
tenzurückweisungsabschnitt 3 ist derart aufgebaut, daß er einen oder
mehr verbleibende Vorgängerkandidaten ausgibt, wenn sämtliche Vor
gängerkandidaten zurückgewiesen werden sollten.
Im folgenden werden das Anapherverhältnis "Verhältnis", der Abstand
"Abst" und ein Anapherschätzwert (im folgenden auch als Präferenz
wert bezeichnet) "Präf", die in dem Kandidatenzurückweisungsab
schnitt 3 und dem Präferenzzuweisungsabschnitt 4 verwendet werden,
im einzelnen beschrieben. Das Anapherverhältnis "Verhältnis" ist durch
die folgende Gleichung (1) definiert:
In der vorgenannten Gleichung (1) bezeichnet
- a) "freq+" die Anzahl (im folgenden als Anzahl der positiven Fälle be zeichnet) von Fällen (im folgenden als positive Fälle bezeichnet), die ein Anapher-Bezugsverhältnis zwischen dem Wort "A" und dem Wort "C" aufweisen, d. h. die Anzahl coreferentieller Anapher-Vorgängerpaare; und
- b) "freq-" die Anzahl (im folgenden als die Anzahl der negativen Fälle bezeichnet) von Fällen (im folgenden als negative Fälle bezeichnet), die kein Anapher-Bezugsverhältnis zwischen dem Wort "A" und dem Wort "C" aufweisen, d. h. die Anzahl nonreferentieller Anapher- Vorgängerpaare.
Der Wert des durch die genannte Gleichung (1) definierten Anapher
verhältnisses "Verhältnis" liegt innerhalb eines Bereichs von [-1. +1].
Im Falle exklusiver nonreferentieller Verhältnisse ist das Anapherver
hältnis "Verhältnis" gleich -1. Bei exklusiven coreferentiellen Verhältnis
sen ist das Anapherverhältnis "Verhältnis" gleich +1. Damit ein Refe
renzpaar, das durch das Verhältnis = 0 und den Körper, der die Trai
ningstextdaten darstellt, aufgrund seiner Priorität vor einem Referenz
paar ohne Häufigkeitsinformationen ausgewählt wird, ist das Anapher
verhältnis "Verhältnis" im vorliegenden bevorzugten Ausführungsbei
spiel entsprechend einem vorbestimmten Gewichtungsfaktor δ gering
fügig verringert. Bei dem vorliegenden bevorzugten Ausführungsbei
spiel ist das Anapherverhältnis "Verhältnis" normalisiert, wie durch die
nachfolgende Gleichung (2) angegeben, indem der Abstand "Abst", der
die Anzahl der Kandidaten zwischen dem Wort "A" und dem Wort "C"
(d. h. die Anzahl der Nomina) verwendet und anschließend der Präfe
renzwert "Präf" wie folgt definiert wird.
Wie aus der Gleichung (2) ersichtlich, nimmt der Präferenzwert "Präf"
mit der Zunahme des Abstands "Abst" ab. Andererseits wird der Präfe
renzwert "Präf" größer, je kleiner der Abstand "Abst" wird. Ferner liegt
der Wert des Anapherverhältnisses "Verhältnis" zwischen -1 und +1.
Schließt das Anapherverhältnis "Verhältnis" mit -1, so wird der Präfe
renzwert "Präf" kleiner. Schließt das Anapherverhältnis "Verhältnis" je
doch mit +1, so wird der Präferenzwert "Präf" größer.
Der Präferenzwert "Präf" wird für jeden Vorgängerkandidaten berech
net und es wird eine Präferenzliste der Vorgängerkandidaten erstellt,
um den Präferenzwert "Präf" zu maximieren. Anschließend wird ein
Vorgänger Cbest, der durch die Anapher-Analysevorrichtung des vorlie
genden bevorzugten Ausführungsbeispiels bestimmt wird, als folgende
Gleichung (3) ausgedrückt.
Cbest = (Ci|maxpref(A, Ci)) (3)
Das heißt, der Vorgängerkandidat Cbest für das Analyseergebnis ist der
Kandidat mit dem höchsten Präferenzwert "Präf" unter den Vorgänger
kandidaten Ci für das Wort "A" der zu analysierenden Zielkomponente.
Der Präferenzzuweisungsabschnitt 4 weist den Vorgängerkandidaten,
welche nach dem Kandidatenzurückweisungsvorgang verbleiben und
vom Kandidatenzurückweisungsabschnitt 3 ausgegeben werden, Präferenzwerte
zu, indem er auf die Häufigkeitsinformationen und das Ana
pherverhältnis "Verhältnis", die in einem Informationstabellenspeicher
13 gespeichert sind, zugreift. Anschließend gibt der Präferenzzuwei
sungsabschnitt 4 die Kandidaten mit dem Präferenzwert oder der Prio
ritätsfolge an eine Kandidatenentscheidungsabschnitt 5 aus. In dem In
formationstabellenspeicher 13 werden die Häufigkeitsinformationen,
welche die Anzahl der positiven und der negativen Fälle umfassen, und
das Anapherverhältnis "Verhältnis" berechnet und gespeichert, und
zwar für jeden der Vorgängerkandidaten für einer Anapheranalyse zu
unterziehende relevante Zielkomponenten, entsprechend dem durch
das Anwenden der bekannten Analyseverfahren auf die Trainingstext
daten erhaltenen markierten Körper. Ferner verringert der Kandidaten
entscheidungsabschnitt 5 schließlich die Anzahl der Vorgängerkandida
ten unter Berücksichtigung der Prioritätsfolge auf eine vorbestimmte
Anzahl von Vorgängerkandidaten, nämlich auf N Vorgängerkandidaten
(N-best), und gibt anschließend die Ergebnisse als die ausgewählten
Vorgängerkandidaten aus.
In der zuvor beschriebenen Anapher-Analysevorrichtung sind die Ana
lysevorrichtung 1, der Vorgängerkandidatengenerator 2, der Kandida
tenzurückweisungsabschnitt 3, der Präferenzzuweisungsabschnitt 4
und der Kandidatenentscheidungsabschnitt 5 jeweils durch eine Zen
tralverarbeitungseinheit, beispielsweise einen digitalen Computer oder
dergleichen, gebildet. Der Textdatenspeicher 10, der Analyseergebnis
speicher 11, der Kandidatenzurückweisungsbaumspeicher 12 sowie der
Informationstabellenspeicher 13 sind jeweils durch eine Speicherein
heit, beispielsweise ein Festplattenspeicher oder dergleichen, gebildet.
Im folgenden wird das Ergebnis des Prozesses beschrieben, das durch
die Durchführung des Anapheranalysevorgangs unter Verwendung der
Anapher-Analysevorrichtung gemäß dem bevorzugten Ausführungsbei
spiel der Erfindung erreicht wurde, indem als Beispiel die in der Tabelle
1 verwendeten Sätze einer englischen Konversation im Rahmen einer
Reise verwendet werden. Diese Sätze werden in die Vorrichtung einge
geben. Die nachfolgende Beschreibung betrifft eine mit der erfindungs
gemäßen Vorrichtung durchgeführte Anapher-Bezugsverhältnisanalyse
von "your" in Satz 202 und "here" in Satz 205 gemäß der Tabelle 1.
Im folgenden wird der markierte Text, der das Ergebnis der Analyse
des genannten eingegebenen Satzes durch die Analysevorrichtung 1
ist, beschrieben. Die mit einem Pfeil, beispielsweise (←401), versehe
nen Informationen, die an das durch 403 gekennzeichnete "your" an
gehängt sind, sind die durch die Anapheranalyse erhaltenen Informa
tionen. Zwar werden diese Informationen zum besseren Verständnis
der Tabelle 6 beschrieben, jedoch werden diese Informationen am En
de der Analyse nicht ausgegeben.
Receptionist: Thank you. This is [(401) New York City Hotel].
Traveler: Hello? I am [(402) Hiroko Tanaka]. I'd like to make a reser vation at [(403)(←401) your] [(404)(←401) hotel].
Receptionist: May I ask how to [(406) spell] your [(405) (←402)] name, please?
Traveler: O. K. T-a-n-a-k-a [(407) (←406)].
I will stay at [(408) a youth hostel] in Washington until tomorrow. Receptionist: Okay. You will arrive [(409) (←403) here] on the 10th
Traveler: Hello? I am [(402) Hiroko Tanaka]. I'd like to make a reser vation at [(403)(←401) your] [(404)(←401) hotel].
Receptionist: May I ask how to [(406) spell] your [(405) (←402)] name, please?
Traveler: O. K. T-a-n-a-k-a [(407) (←406)].
I will stay at [(408) a youth hostel] in Washington until tomorrow. Receptionist: Okay. You will arrive [(409) (←403) here] on the 10th
,
right?
Nur die für die Anapheranalyse erforderlichen Markierungen
sind in der Tabelle beschrieben.
Anschließend extrahiert der Vorgängerkandidatengenerator 2 die
"your", "hotel" and "here" vorangehenden Nomina als Vorgängerkandi
daten. Die Ergebnisse bezüglich der Vorgängerkandidaten sind in der
Tabelle 3 dargestellt.
Your: Hiroko Tanaka
Your: I
Your: New York City Hotel
Hotel: Your Hotel
Hotel: Hiroko Tanaka
Hotel: I
Hotel: New York City Hotel
Here: 10th
Your: I
Your: New York City Hotel
Hotel: Your Hotel
Hotel: Hiroko Tanaka
Hotel: I
Hotel: New York City Hotel
Here: 10th
Here: Youth Hostel
Here: Washington
Here: Tomorrow
Here: T-A-N-A-K-A
Here: Spell
Here: Name
Here: Your
Here: Reservation
Here: Hotel
Here: Your
Here: Hiroko Tanaka
Here: I
Here: New York City Hotel.
Here: Washington
Here: Tomorrow
Here: T-A-N-A-K-A
Here: Spell
Here: Name
Here: Your
Here: Reservation
Here: Hotel
Here: Your
Here: Hiroko Tanaka
Here: I
Here: New York City Hotel.
Im folgenden wird ein Beispiel des von dem Kandidatenzurückwei
sungsabschnitt 3 durchgeführten Kandidatenzurückweisungsvorgangs
beschrieben. Die Tabellen 4A und 4B zeigen Beispiele des Ablaufs für
den Fall, daß der Kandidatenzurückweisungsvorgang den in Fig. 2 dar
gestellten Entscheidungsbaum verwendet.
- A) Zielkomponenten (Your, New York City Hotel)
- 1. Am Ausgangspunkt 100:
A = [(403) your]
C = [(401) New York City Hotel]
(siehe Tabelle 2) - 2. Am Verzweigungspunkt 301:
Anapherverhältnis "Verhältnis" (your, New York City Hotel) = +1,00
(siehe Tabelle 6)
Ergebnis = JA - 3. Am Verzweigungspunkt 302:
Abstand "Abst" (your, New York City Hotel) = 3
(siehe Tabelle 2)
<Hinweis< Da Abst = 1 für Hiroko Tanaka, Abst = 2 für I und Abst = 3 für New York City Hotel.
Ergebnis = NEIN - 4. Am Verzweigungspunkt 303:
Regulärer Ausdruck (your) = your
Ergebnis = JA - 5. Am Verzweigungspunkt 202:
Ergebnis des Entscheidungsbaums: in Beziehung
- 1. Am Ausgangspunkt 100:
- A) Zielkomponenten (Your, Youth Hostel)
- 1. Am Ausgangspunkt 100:
A = [(409) your]
C = [(408) Youth Hostel]
(siehe Tabelle 2) - 2. Am Verzweigungspunkt 301:
Anapherverhältnis "Verhältnis" (your, Youth Hostel) = +1,00
(siehe Tabelle 6)
Ergebnis = JA - 3. Am Verzweigungspunkt 302:
Abstand "Abst" (your, Youth Hostel) = 2 (siehe Tabelle 2)
<Hinweis< Da Abst = 1 für 10th, Abst = 2 für Youth Hostel.
Ergebnis = NEIN - 4. Am Verzweigungspunkt 303:
Regulärer Ausdruck (your) = your
Ergebnis = NEIN - 5. Am Verzweigungspunkt 305:
Abschließender Ausdruck (Youth Hostel) = (I. tel. stel, hostel, . . .)
Ergebnis = JA - 6. Am Verzweigungspunkt 204:
Ergebnis des Entscheidungsbaums: nicht in Beziehung.
- 1. Am Ausgangspunkt 100:
Der gesamte Bestimmungsvorgang des vorgenannten Kandidatenzu
rückweisungsvorgangs ist in Tabelle 5 dargestellt.
In dieser Tabelle steht O für einen nicht zurückgewiesenen Vorgänger
kandidaten und X für einen zurückgewiesenen Vorgängerkandidaten.
Wenn beispielsweise sämtliche Kandidaten zurückgewiesen werden,
wird der folgende Ablauf ausgeführt:
- a) sämtliche Kandidaten werden ausgewählt;
- b) zwei der aktuellsten Kandidaten werden ausgewählt; oder derglei chen,
woraufhin der nachfolgende Vorgang fortgesetzt werden kann. Im
nachfolgenden Beispiel bleibt lediglich ein Kandidat übrig, wenn zwei
Kandidaten für die Zielkomponente "your" entsprechend der Feststel
lung in Tabelle 5 zurückgewiesen werden, weshalb der Vorgang aus
Gründen der Vereinfachung unter Einbeziehung der beiden zurückge
wiesenen Kandidaten beschrieben wird. Die Beschreibung ist derjeni
gen in Zusammenhang mit der Zielkomponente "Here" ähnlich. Im fol
genden sei ein Beispiel für die im Informationstabellenspeicher
13
ge
speicherten Informationen genannt. Diese Informationstabelle ergibt
durch das Aufaddieren der in Tabelle 2 gezeigten markierten Körper.
Zwar werden dieselben Beispielsätze verwendet wie in Tabelle 2, je
doch können Markierungen aus anderen Sätzen der eingegebenen Sät
ze hinzugefügt werden. Zum Beispiel ist in der Tabelle 2 der positive
Fall für "your" mit der Bezeichnung (403) "New York City Hotel" in
(401) und die negativen Fälle dazu sind "Hiroko Tanaka" und "I".
In der Tabelle 6 weisen die relevante Zielkomponente und der Vorgän
gerkandidat drei Abstraktionsebenen auf, wobei eine Kombination die
ser Ebenen als "Typ" bezeichnet wird. Zwar bezeichnet "w" ein Wort
selbst und "r" eine reguläre Form, beispielsweise die Umwandlung von
"10th" in "nth", jedoch kann das ursprünglich abstrakte Wort, bei
spielsweise "your" dieselbe Form für "w" und "r" aufweisen. "s" be
zeichnet einen Namen eines semantischen Codes nach der Definition in
"Kadokawa Synonyme New Dictionary". Anders ausgedrückt, gibt "w-w"
an, daß die betreffende Zielkomponente ein Wort ist, und ein Vor
gängerkandidat ist ein Wort, wenn die positiven und negativen Fälle
addiert werden. Ferner bezeichnet "r-r" einen Typ mit regulären For
men, "r-s" bezeichnet einen Typ mit einer regulären Form und einem
semantischen Code, und "s-s" bezeichnet einen Typ mit einem seman
tischen Code und einem semantischen Code.
Im folgenden wird ein Beispiel für den vom Präferenzzuweisungsab
schnitt 4 durchgeführten Präferenzzuweisungsvorgang beschrieben.
Bei dem Beispiel der Tabelle 7 sind die Vorgängerkandidaten mit Präfe
renzen versehen, so daß der höchste Präferenzwert oder Prioritätsgrad
dem Kandidaten in der untersten Reihe jeder Spalte in der Tabelle 7
verliehen werden kann, und der Präferenzwert in der oberen Reihe je
der Spalte der Tabelle 7 verringert werden kann. In diesem Fall ist der
wahrscheinlichste Vorgängerkandidat von "your" "New York City Hotel".
Ein Vergleich der durch den genannten Vorgang erhaltenen Ergebnisse
ist in Tabelle 8 dargestellt.
In der Tabelle 8, hat nach dem Präferenzzuweisungsvorgang der Vor
gängerkandidat "Youth Hostel" den höchsten Präferenzwert, jedoch
wurde dieser Vorgängerkandidat durch den Kandidatenzurückwei
sungsabschnitt 3 zurückgewiesen. Somit kann der Kandidatenzurück
weisungsabschnitt 3 eine irrtümliche Auswahl dieses Vorgängerkandi
daten verhindern. Infolgedessen wird der gewählte Vorgängerkandidat
"New York City Hotel" als das auszugebende Ergebnis des Kandidaten
entscheidungsabschnitts 5 ermittelt.
Die Ergebnisse des unter Verwendung der Anapher-Analysevorrichtung
gemäß dem bevorzugten Ausführungsbeispiel durchgeführten Versuchs
sind in Fig. 3 dargestellt.
In Fig. 3 bezeichnet "DT+PRÄF" einen Prozentsatz an Korrektur, wenn
die Anapher-Analysevorrichtung den Kandidatenzurückweisungsab
schnitt 3 und den Präferenzzuweisungsabschnitt 4 gemäß dem bevor
zugten Ausführungsbeispiel aufweist. "PRÄF" bezeichnet einen Prozent
satz an Korrekturen, wenn die Anapher-Analysevorrichtung nur den
Präferenzzuweisungsabschnitt 4 aufweist. "DT" gibt einen Prozentsatz
an Korrekturen für den Fall wieder, daß die Anapher-Analysevorrich
tung nur den Kandidatenzurückweisungsabschnitt 3 aufweist. "MRC"
gibt den Prozentsatz an Korrekturen wieder, wenn der letzte Kandidat
(most recent candidate) als der Vorgängerkandidat angesehen wird.
Der Korrekturprozentsatz der Anapheranalyse wird durch eine dem
Fachmann bekannte F-Messung bestimmt. Bei dem bevorzugten Aus
führungsbeispiel dient die "Database of bilingual conversation for travel
for speech translation research" der Anmelderin (siehe die Druckschrift
T. Takezawa et al., "Speech and language database for speech transla
tion research in ATR" in Proceedings of 1st International Workshop on
East Asian Language Resource and Evaluation - Oriental COCOSDA-
Workshop, S. 148-155, 1998) zur Erstellung des Entscheidungsbaums,
der die Kandidatenauswahlregeln darstellt, und zur Berechnung des
Anapherverhältnisses "Verhältnis". Es sei jedoch darauf verweisen, daß
auszuwertende Dialoge nicht zur Erstellung des Entscheidungsbaums
und zum Berechnen des Anapherverhältnisses "Verhältnis" verwendet
werden.
Bei den von den Erfindern vorgenommenen Versuchen wurden 200 bis
400 Dialoge zur Erstellung des Entscheidungsbaums und zum Berechnen
des Anapherverhältnisses "Verhältnis" verwendet, wobei das be
vorzugte Ausführungsbeispiel einen Prozentsatz der Korrektur der Ana
pheranalyse von 79% bis 81% mit hoher Stabilität in diesem Bereich
erreichte. Die Ergebnisse der Versuche in bezug auf dem herkömmli
chen Verfahren sind im folgenden angegeben. Bei Verwendung des
Anapherverhältnisses und des Abstands ("PRÄF") betrug der Korrek
turprozentsatz 77 bis 78% (im wesentlichen fest). Wenn nur der Ent
scheidungsbaum verwendet wurde ("DT") betrug der Korrekturpro
zentsatz der Anapheranalyse 58 bis 65% (aufwärts gerichtete Ten
denz). Wenn das letzte Nomen als der Vorgängerkandidat angesehen
und ausschließlich gewählt wurde ("MRC"), betrug der Korrekturpro
zentsatz der Anapheranalyse 43% (fest). Es hat sich gezeigt, daß das
bevorzugte Ausführungsbeispiel am effektivsten arbeitete. Wenn nur
der Entscheidungsbaum verwendet wird, hat der Korrekturprozentsatz
der Anapheranalyse im Bereich zwischen 200 und 400 Dialogen eine
Aufwärtstendenz, so daß ein höherer Korrekturprozentsatz möglich ist.
Jedoch ist das bevorzugte Ausführungsbeispiel vorteilhafter, da das
ausgezeichnete Ergebnis stabil unter Verwendung einer relativ kleinen
Datenmenge erzielt werden kann.
Wie zuvor beschrieben, findet das bevorzugte Ausführungsbeispiel der
vorliegenden Erfindung den Kandidaten mit der höchsten Präferenz,
anders als im erstgenannten Stand der Technik. Im Vergleich zum
zweitgenannten Stand der Technik, weist das bevorzugte Ausführungs
beispiel eine bessere Präferenzzuweisung und eine erhebliche Verbes
serung der Genauigkeit der Vorgängerwahl auf. Ferner kann das be
vorzugte Ausführungsbeispiel auf verschiedenartige Aufgaben ange
wandt werden, indem der die Trainingstextdaten bildende Korpus zur
Erstellung des Kandidatenzurückweisungsentscheidungsbaums und der
Informationstabelle geändert wird.
Bei dem zuvor beschriebenen bevorzugten Ausführungsbeispiel weist
der Kandidatenzurückweisungsabschnitt 3 die Kandidaten unter Ver
wendung des Kandidatenzurückweisungsentscheidungsbaums zurück,
jedoch ist die vorliegende Erfindung nicht hierauf beschränkt. Bei
spielsweise kann der Vorgängerkandidat mit einem Anapherverhältnis
kleiner als Null ohne Verwendung des Kandidatenzurückweisungsent
scheidungsbaums zurückgewiesen werden. Ferner kann der Vorgän
gerkandidat zum Beispiel zurückgewiesen werden, wenn der vorge
nannte Abstand zehn oder mehr beträgt. Des weiteren kann der Vor
gängerkandidat zurückgewiesen werden, wenn der Abstand zwischen
den semantischen Codes (der angibt, wie weit die semantischen Codes
voneinander entfernt sind) gleich oder größer als eine vorbestimmter
Schwellenwert ist. Das bedeutet, daß verschiedenste Referenzmöglich
keiten zur Zurückweisung von Vorgängerkandidaten durch den Kandi
datenzurückweisungsabschnitt 3 verwendet werden können.
Bei dem beschriebenen bevorzugten Ausführungsbeispiel weist der Prä
ferenzzuweisungsabschnitt 4 den Kandidaten den Präferenzwert oder
den Prioritätsgrad entsprechend dem Anapherbezugsverhältniswert
"Präf" zu, jedoch ist die Erfindung nicht hierauf beschränkt. Der Präfe
renzzuweisungsabschnitt 4 kann den Präferenzwert an Kandidaten al
lein gemäß dem Anapherverhältnis oder dem Abstand zuweisen.
Wie zuvor im einzelnen beschrieben, findet das bevorzugte Ausfüh
rungsbeispiel der vorliegenden Erfindung den Kandidaten mit der höch
sten Präferenz, anders als im erstgenannten Stand der Technik. Im
Vergleich zum zweitgenannten Stand der Technik, weist das bevorzugte
Ausführungsbeispiel eine bessere Präferenzzuweisung und eine er
hebliche Verbesserung der Genauigkeit der Vorgängerwahl auf. Ferner
kann das bevorzugte Ausführungsbeispiel auf verschiedenartige Aufga
ben angewandt werden, indem der die Trainingstextdaten bildende
Korpus zur Erstellung des Kandidatenzurückweisungsentscheidungs
baums und der Informationstabelle geändert wird.
Claims (5)
1. Anapher-Analysevorrichtung mit:
einer Analyseeinrichtung (1) zum Analysieren eines eingegebenen Sat zes einer natürlichen Sprache und zum Ausgeben der Analyseergebnis se;
einer Speichereinrichtung (11) zum Speichern der aus der Analyseein richtung (1) ausgegebenen Analyseergebnisse;
einer Vorgängerkandidatenerzeugungseinrichtung (2) zum Erkennen einer Zielkomponente in dem eingegebenen Satz der natürlichen Spra che, die für die Anapheranalyse gemäß den aktuellen Analyseergebnis sen der Analyseeinrichtung (1) und den in der Speichereinrichtung (11) gespeicherten vergangenen Analyseergebnissen erforderlich ist, und zum Erzeugen von der Zielkomponente entsprechenden Vorgängerkandida ten;
einer Kandidatenzurückweisungseinrichtung (3) zum Zurückweisen un nötiger, kein Potential für ein Anapherbezugsverhältnis aufweisender Kandidaten unter den von der Vorgängerkandidatenerzeugungseinrich tung (2) erzeugten Vorgängerkandidaten, unter Verwendung eines vorbestimmten Zurückweisungskriteriums, und zum Ausgeben der verbleibenden Vorgängerkandidaten, wobei das Zurückweisungskriteri um ein Entscheidungsbaum ist, der durch Verwenden eines maschinel len Trainingsverfahrens mit einem markierten Trainingskörper erstellt wird und der mit vorbestimmten Wortinformationen für jedes Wort des mar kierten Trainingskörpers versehen ist;
einer Präferenzzuweisungseinrichtung (4) zum Berechnen eines vorbe stimmten Schätzwerts für jeden der verbleibenden Vorgängerkandida ten, die von der Kandidatenzurückweisungseinrichtung (3) ausgegeben wurden, indem auf eine Informationstabelle Bezug genommen wird, die anhand eines vorbestimmten weiteren markierten Trainingskörpers erstellt wurde, um den Vorgängerkandidaten Präferenzen entsprechend dem berechneten Schätzwert zuzuweisen und um mit Präferenzen ver sehene Vorgängerkandidaten auszugeben; und
einer Kandidatenentscheidungseinrichtung (5) zum Bestimmen und Ausgeben einer vorbestimmten Anzahl von Vorgängerkandidaten auf der Basis der bestehenden Präferenz entsprechend den von der Präfe renzzuweisungseinrichtung (4) ausgegebenen, mit einer Präferenz ver sehenen Vorgängerkandidaten.
einer Analyseeinrichtung (1) zum Analysieren eines eingegebenen Sat zes einer natürlichen Sprache und zum Ausgeben der Analyseergebnis se;
einer Speichereinrichtung (11) zum Speichern der aus der Analyseein richtung (1) ausgegebenen Analyseergebnisse;
einer Vorgängerkandidatenerzeugungseinrichtung (2) zum Erkennen einer Zielkomponente in dem eingegebenen Satz der natürlichen Spra che, die für die Anapheranalyse gemäß den aktuellen Analyseergebnis sen der Analyseeinrichtung (1) und den in der Speichereinrichtung (11) gespeicherten vergangenen Analyseergebnissen erforderlich ist, und zum Erzeugen von der Zielkomponente entsprechenden Vorgängerkandida ten;
einer Kandidatenzurückweisungseinrichtung (3) zum Zurückweisen un nötiger, kein Potential für ein Anapherbezugsverhältnis aufweisender Kandidaten unter den von der Vorgängerkandidatenerzeugungseinrich tung (2) erzeugten Vorgängerkandidaten, unter Verwendung eines vorbestimmten Zurückweisungskriteriums, und zum Ausgeben der verbleibenden Vorgängerkandidaten, wobei das Zurückweisungskriteri um ein Entscheidungsbaum ist, der durch Verwenden eines maschinel len Trainingsverfahrens mit einem markierten Trainingskörper erstellt wird und der mit vorbestimmten Wortinformationen für jedes Wort des mar kierten Trainingskörpers versehen ist;
einer Präferenzzuweisungseinrichtung (4) zum Berechnen eines vorbe stimmten Schätzwerts für jeden der verbleibenden Vorgängerkandida ten, die von der Kandidatenzurückweisungseinrichtung (3) ausgegeben wurden, indem auf eine Informationstabelle Bezug genommen wird, die anhand eines vorbestimmten weiteren markierten Trainingskörpers erstellt wurde, um den Vorgängerkandidaten Präferenzen entsprechend dem berechneten Schätzwert zuzuweisen und um mit Präferenzen ver sehene Vorgängerkandidaten auszugeben; und
einer Kandidatenentscheidungseinrichtung (5) zum Bestimmen und Ausgeben einer vorbestimmten Anzahl von Vorgängerkandidaten auf der Basis der bestehenden Präferenz entsprechend den von der Präfe renzzuweisungseinrichtung (4) ausgegebenen, mit einer Präferenz ver sehenen Vorgängerkandidaten.
2. Anapher-Analysevorrichtung nach Anspruch 1, dadurch gekenn
zeichnet, daß die Kandidatenzurückweisungseinrichtung (3) einen oder
mehrere Vorgängerkandidaten beibehält und ausgibt, wenn sämtliche
Vorgängerkandidaten von der Kandidatenzurückweisungseinrichtung
(3) zurückgewiesen wurden.
3. Anapher-Analysevorrichtung nach Anspruch 1 oder 2, dadurch ge
kennzeichnet, daß die Informationstabelle Häufigkeitsinformationen
enthält, die aus dem vorbestimmten weiteren markierten Trainingskör
per erhalten wurden.
4. Anapher-Analysevorrichtung nach einem der Ansprüche 1 bis 3, da
durch gekennzeichnet, daß die Schätzungsinformationen für die Infor
mationstabelle einen Abstand zwischen der Zielkomponente der Anapheranalyse
und aus dem vorbestimmten weiteren markierten Trai
ningskörper erhaltenen Vorgängerkandidaten aufweist.
5. Anapher-Analysevorrichtung nach einem der Ansprüche 1 bis 3, da
durch gekennzeichnet, daß die Schätzungsinformationen für die Infor
mationstabelle vorbestimmte Informationen umfassen, die aus Häufig
keitsinformationen berechnet sind, welche aus dem vorbestimmten
weiteren markierten Trainingskörper und einem Abstand zwischen der
Zielkomponente der Anapheranalyse und aus dem vorbestimmten wei
teren markierten Trainingskörper erhaltenen Vorgängerkandidaten er
halten werden.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5034099 | 1999-02-26 | ||
JP2000007768A JP3135235B2 (ja) | 1999-02-26 | 2000-01-17 | 照応解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10008502A1 DE10008502A1 (de) | 2000-09-07 |
DE10008502C2 true DE10008502C2 (de) | 2002-01-24 |
Family
ID=26390805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10008502A Expired - Fee Related DE10008502C2 (de) | 1999-02-26 | 2000-02-24 | Anapher-Analysevorrichtung mit Vorgängerkandidatenzurückweisungseinrichtung unter Verwendung eines Kandidatenzurückweisungsentscheidungsbaums |
Country Status (3)
Country | Link |
---|---|
US (1) | US6343266B1 (de) |
JP (1) | JP3135235B2 (de) |
DE (1) | DE10008502C2 (de) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3135235B2 (ja) * | 1999-02-26 | 2001-02-13 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 照応解析装置 |
US6704827B1 (en) * | 2001-03-08 | 2004-03-09 | Sun Microsystems, Inc. | Hot plug interface (HPI) test fixture |
JP4065936B2 (ja) * | 2001-10-09 | 2008-03-26 | 独立行政法人情報通信研究機構 | 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム |
US7085709B2 (en) * | 2001-10-30 | 2006-08-01 | Comverse, Inc. | Method and system for pronoun disambiguation |
US7813916B2 (en) * | 2003-11-18 | 2010-10-12 | University Of Utah | Acquisition and application of contextual role knowledge for coreference resolution |
JP3962382B2 (ja) * | 2004-02-20 | 2007-08-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 表現抽出装置、表現抽出方法、プログラム及び記録媒体 |
DE102004029873B3 (de) * | 2004-06-16 | 2005-12-29 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme |
US7765098B2 (en) * | 2005-04-26 | 2010-07-27 | Content Analyst Company, Llc | Machine translation using vector space representations |
JP4992715B2 (ja) * | 2005-08-04 | 2012-08-08 | 日本電気株式会社 | データ処理装置、データ処理方法、データ処理プログラム |
KR100750886B1 (ko) | 2005-12-09 | 2007-08-22 | 한국전자통신연구원 | 학습 데이터 구축 장치 및 방법 |
US8712758B2 (en) * | 2007-08-31 | 2014-04-29 | Microsoft Corporation | Coreference resolution in an ambiguity-sensitive natural language processing system |
US20110131033A1 (en) * | 2009-12-02 | 2011-06-02 | Tatu Ylonen Oy Ltd | Weight-Ordered Enumeration of Referents and Cutting Off Lengthy Enumerations |
US8661018B2 (en) | 2010-08-10 | 2014-02-25 | Lockheed Martin Corporation | Data service response plan generator |
JP5197774B2 (ja) * | 2011-01-18 | 2013-05-15 | 株式会社東芝 | 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム |
US20170161372A1 (en) * | 2015-12-04 | 2017-06-08 | Codeq Llc | Method and system for summarizing emails and extracting tasks |
CN109145082A (zh) * | 2018-08-09 | 2019-01-04 | 北京中关村科金技术有限公司 | 一种用于智能对话系统的敏感词检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0855660A2 (de) * | 1997-01-17 | 1998-07-29 | Fujitsu Limited | Vorrichtung und Verfahren zur Zusammenfassung |
US5794050A (en) * | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
JP3135235B2 (ja) * | 1999-02-26 | 2001-02-13 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 照応解析装置 |
-
2000
- 2000-01-17 JP JP2000007768A patent/JP3135235B2/ja not_active Expired - Fee Related
- 2000-02-24 DE DE10008502A patent/DE10008502C2/de not_active Expired - Fee Related
- 2000-02-25 US US09/512,881 patent/US6343266B1/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794050A (en) * | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
EP0855660A2 (de) * | 1997-01-17 | 1998-07-29 | Fujitsu Limited | Vorrichtung und Verfahren zur Zusammenfassung |
Non-Patent Citations (2)
Title |
---|
AONE, C. et al, "Evaluating Automated and Manual Aquisition of Anaphora Resolution Strategies", in: Proceeding of ACL, S. 122-199, 1995 * |
CONOLLY, D. et al, "A Machine Training Approach to Anaphora relation", in: Proceeding of NeMLaP, 1994 * |
Also Published As
Publication number | Publication date |
---|---|
JP3135235B2 (ja) | 2001-02-13 |
JP2000311165A (ja) | 2000-11-07 |
DE10008502A1 (de) | 2000-09-07 |
US6343266B1 (en) | 2002-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10008502C2 (de) | Anapher-Analysevorrichtung mit Vorgängerkandidatenzurückweisungseinrichtung unter Verwendung eines Kandidatenzurückweisungsentscheidungsbaums | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE4015905C2 (de) | Sprachanalyseeinrichtung, -verfahren und -programm | |
DE69421324T2 (de) | Verfahren und Vorrichtung zur Sprachkommunikation | |
DE60026637T2 (de) | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE602006000090T2 (de) | Konfidenzmaß für ein Sprachdialogsystem | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE68923981T2 (de) | Verfahren zur Bestimmung von Textteilen und Verwendung. | |
DE69617515T2 (de) | Automatisches Verfahren zur Erzeugung von thematischen Zusammenfassungen | |
DE19636739C1 (de) | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem | |
DE69229124T2 (de) | Mehrteiliger expertsystem | |
DE60109999T2 (de) | Spracherkennung mittels lexikalischer Bäumen | |
DE112013005742T5 (de) | Absichtsabschätzungsvorrichtung und Absichtsabschätzungsverfahren | |
DE3236834A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE19708184A1 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
EP0797185A2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69613293T2 (de) | Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE112016006549B4 (de) | Antworterzeugungsvorrichtung, dialogsteuersystem und antworterzeugungsverfahren | |
EP1085499A2 (de) | Erkennung einer in buchstabierter Form vorliegenden Sprachäusserungseingabe | |
EP1187095B1 (de) | Graphem-Phonem-Zuordnung | |
DE10393736T5 (de) | Automatische Evaluierung von übermässig wiederholter Wortverwendung in einem Essay |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |