-
Hintergrund der Erfindung
-
Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft ein verteiltes Sprachverarbeitungssystem
und ein Verfahren zur Ausgabe eines Zwischensignals davon, und besonders
ein verteiltes Sprachverarbeitungssystem und ein Verfahren zur Ausgabe
eines Zwischensignals davon, wobei das System eine vereinheitlichte Spracheingabeschnittstelle
benutzt, so dass der Anwender sich mit der einfachen, vereinheitlichten Schnittstelle
vertraut machen kann, die Genauigkeit bei der Erkennung der Sprache
des Anwenders erhöht
und die Verbraucherfreundlichkeit des Systems durch Erlernen persönlicher
Dialogmodelle verbessert.
-
Beschreibung
der zugehörigen
Technik
-
Die
Mensch-Maschine-Schnittstellentechnologie wird durch die Verwendung
von Spracheingabe ausgereifter. Deshalb werden immer mehr Sprachschnittstellen
benötigt.
Die gestiegene Zahl an Schnittstellen stört den Anwender. Eine vereinheitlichte
Sprachschnittstelle, die verschiedene Anwendungssysteme verbindet,
ist eine sehr vorteilhafte und notwendige Ausführung für Anwender.
-
Durch
die ausgereifte Mensch-Maschine-Technologie mit Spracheingabe, dient
die Technologie als Sprachbefehl-Steuerungsschnittstelle eines Anwendungssystems.
Die Technologie ermöglicht Spracherkennung über das
Telefon, die automatische Informationssuche über den Dialog mit einer Maschine
oder automatische Reservierungen, etc. Die Sprachbefehl-Steuerungsfunktion ähnelt einer Fernbedienungsfunktion.
Da sich die Menschen an Kommunikation über Dialoge gewöhnt haben,
unterstützt
ein automatisches Sprachdialogsystem persönliche Dienstleistungen 24
Stunden am Tag, sieben Tage die Woche. Das System wird nicht um
Mitternacht heruntergefahren. Das automatische Sprachsystem erledigt
Routinearbeiten und bietet ausgezeichnete Dienstleistungen, die
von Menschen angeboten werden können.
Zusätzlich
ist das automatische Sprachdialogsystem auf Grund der menschlichen
Natur in verbaler Kommunikation eine große Unterstützung, wenn persönliche Dienstleistungen
angeboten werden, so wie bei rund um die Uhr Service an 7 Tagen
die Woche, ohne Unterbrechung. Das System hat schrittweise lästige Routinearbeit übernommen.
Dementsprechend steigt die Qualität von Dienstleistungen, die
Personal bieten kann.
-
Zur
Zeit ist der Großteil
der entwickelten oder in Entwicklung befindlichen Sprachtechnologie
nicht ausgereift. Dementsprechend wurde der Vorteil einer gleichzeitigen
Verwendung von mehreren Sprachtechnologieprodukten nicht berücksichtigt.
Zum Beispiel haben diese Schnittstellen verschiedene Arbeitsabläufe und
benötigen
beträchtliche
Berechnungs- und Speicherquellen. Deshalb muss der Anwender für die teuren
Dienste und Systeme einzeln zahlen und sich je nach individueller
Mensch-Maschine-Schnittstellenausgestaltung unterschiedlich verhalten.
-
Im
Allgemeinen, beruhend auf der Vokabulargröße des Spracheingabesystems,
gibt es Sprachbefehl-Steuerungsfunktionen mit geringem Vokabular
und Sprachdialogfunktionen mit mittelgroßen und großem Vokabular. Es gibt lokale
Kundensoftware und dezentrale Serversysteme. Verschiedene Anwendungssoftwares
haben verschiedene Sprachanwenderschnittstellen, die nicht miteinander
kommunizieren. Jedes Sprachdialogsystem entspricht nur einem Anwendungsgerät. Wenn
viele Anwendungssysteme verwendet werden, müssten verschiedene Sprachanwenderschnittstellen
gleichzeitig als verschiedene Unterstützungen behandelt werden. Diese Situation
ist von Nachteil, da ein Anwender gleichzeitig mehrere Fernbedienungen
verwendet. Die traditionelle Struktur wird in 1 gezeigt.
-
Wie
in 1 gezeigt, umfasst
die Struktur ein Mikrophon/Lautsprecher 110 um das Eingangssprachsignal
vom Anwender zu empfangen. Das Signal wird dann in ein digitales
Sprachsignal umgewandelt und an die Serversysteme 112, 114 und 116 mit
dem Anwendungsprogramm wie in dieser Figur dargestellt, übertragen.
Jedes Serversystem beinhaltet die Anwendungsprogramm-Anwender-Schnittstelle,
die Spracherkennungsfunktion, die Sprachverständnisfunktion und die Dialogmanagementfunktion.
Wenn der Anwender Befehle übers
Telefon eingibt, wird das analoge Sprachsignal vom Telefon 120 über die
Telefonschnittstellenkarten 130, 140 und 150 zu
jeweils den Serversystemen 132, 142 und 152 übertragen.
Jedes Serversystem beinhaltet die Anwendungsprogramm-Anwender-Schnittstelle,
die Spracherkennungsfunktion, die Sprachverständnisfunktion und die Dialogmanagementfunktion.
Verschiedene Anwendungssoftwares haben verschiedene Sprachanwenderschnittstellen,
die nicht miteinander kommunizieren. Jedes Sprachdialogsystem entspricht
nur einem Anwendungsgerät.
Wenn viele Anwendungssysteme verwendet werden, müssen verschiedene Sprachanwenderschnittstellen
angewandt werden und arbeiten, ohne voneinander zu wissen. Ein solche
Vorgangsweise ist sehr kompliziert und nachteilig.
-
Zum
Beispiel benutzen die meisten Sprachdialogsysteme über Telefonleitungen
dezentrale Serversysteme, so wie Reservierungssysteme von Fluggesellschaften
oder Krankenhäusern über natürliche Sprache.
Die Sprachsignale oder die Sprachparameter werden am lokalen Terminal
gesammelt und zum dezentralen Terminal über die Telefonleitung übertragen.
Die dezentrale Spracherkennungs- und Sprachverständnisverarbeitungseinheit übersetzen
die Sprachsignale in semantische Signale. Über die Dialogsteuerungseinheit
und die Anwendungsverarbeitungseinheit des Anwendungssystems werden
die vom Anwender eingegebene Kommunikation oder Befehle verarbeitet.
Im Allgemeinen befinden sich die Spracherkennungs- und die Sprachverständnisverarbeitungseinheit
im dezentralen Serversystem und werden mit einem sprecherunabhängigen Modell, wie
in 2 dargestellt, verarbeitet.
-
Wie
in 2 dargestellt, benutzt
der Anwender das Telefon als Eingangsschnittstelle. Das Telefon 210 leitet
die analogen Sprachsignale über
das Telefonnetzwerk und die Telefonschnittstellenkarte 220 an
das Serversystem 230. Das Serversystem 230 umfasst
die Spracherkennungseinheit 232, die Sprachverständniseinheit 234,
die Dialogmanagementeinheit 236 und den verbundenen Datenbankserver 240.
Das Serversystem 230 erzeugt eine Sprache 238 und
leitet diese über
die Telefonschnittstellenkarte 220 an den Anwender weiter.
-
Offensichtlich
hat diese Struktur Nachteile, trotzdem ist es schwierig das Problem
zu beseitigen. Erstens führt
die gleichzeitige Verwendung verschiedener Sprachanwenderschnittstellen
zu Verwechslungen. Zweitens wird die Installierung zusätzlicher oder
verringerter Anwendungssoftwares) schwierig, da die vereinheitlichten
Schnittstelle nicht mit der ursprünglichen Anwendungsumgebung
verbunden ist. Was die Klangsignalleitung und Modellvergleichberechnungen
betrifft, ist ein weiteres Betriebsproblem, einen konkurrierenden
Zugriff der Schnittstellen auf Quellen zu vermeiden. Drittens unterstützen sich
unabhängige,
akustische Vergleichsmaschinen und Modellparameter nicht und können ihre
Quellen nicht gemeinsam verwenden. Im Stand der Technik können zum
Beispiel akustische Signale und die gehäuften Gewohnheiten des Anwenders
nicht gesammelt werden, die Anpassungstechnologie kann nicht verwendet
werden, um die anwenderabhängigen,
akustischen Modellparameter, die Sprachmodellparameter und die Anwendungsfavoritenparameter
zu verbessern. Generell ist die Spracherkennungsgenauigkeit nach
der Anpassung viel besser als jene des sprecherunabhängigen Basissystems.
-
Dementsprechend
bietet eine vereinheitlichte Sprachanwenderschnittstelle nicht nur
eine vorteilhaftere Anwenderumgebung, sondern verbessert auch die
ganze Leistung der Spracherkennung.
-
Zusammenfassung
der Erfindung
-
Dementsprechend
bietet die vorliegende Erfindung eine vereinheitlichte Spracheingabe-Dialogschnittstelle
und verteiltes System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit
mit einer vereinheitlichten Spracherkennungsfunktion und einer vereinheitlichten
Dialogschnittstelle. Das System bietet nicht nur eine vorteilhafte
Umgebung sondern steigert auch die Leistung der Spracherkennung.
-
Die
vorliegende Erfindung bietet ein verteiltes System mit einer mehrfach
anwendungsabhängigen
Sprachverarbeitungseinheit. Durch die Verwendung einer vereinheitlichten
Spracheingabeschnittstelle, kann ein Anwender sich mit der einfachen
vereinheitlichten Schnittstelle besser vertaut machen und die Genauigkeit bei
der Erkennung der Sprache des Anwenders kann ebenfalls verbessert
werden. Zusätzlich
erlernt das System das persönliche
Dialogmodell and damit wird die Verbraucherfreundlichkeit des Systems
noch weiter verbessert.
-
Um
die oben beschriebene Aufgabe zu lösen, sieht die vorliegende
Erfindung ein verteiltes Sprachverarbeitungssystem vor, das eine
Spracheingabeschnittstelle, eine Spracherkennungsschnittstelle,
eine Sprachverarbeitungseinheit und eine Dialogmanagementeinheit
umfasst. Die Spracheingabeschnittstelle empfängt ein Sprachsignal. Die Spracherkennungsschnittstelle,
erkennt das empfangene Sprachsignal je nach Art des Sprachsignals
und erzeugt daraufhin ein Spracherkennungsergebnis. Die Sprachverarbeitungseinheit
empfängt
und analysiert das Spracherkennungsergebnis und erzeugt ein semantisches
Signal. Die Dialogmanagementeinheit empfängt und bestimmt das semantische
Signal und erzeugt dann eine semantische Information, die dem Sprachsignal
entspricht.
-
Im
verteilten Sprachverarbeitungssystem umfasst die Spracherkennungsschnittstelle
eine Modellabgleichfunktion, so dass ein Klangmodell das Sprachsignal
durch die Modellabgleichfunktion erkennt. In der Modellabgleichfunktion
bezieht sich das sprecherabhängige
und geräteabhängige Klangmodell
auf ein übliches
Modell, das als Anfangsmodellparameter sprecherunabhängig und
geräteunabhängig ist,
um einen Parameter des Klangmodels so anzupassen, dass das Erkennungsergebnis
optimiert ist.
-
Im
verteilten Sprachverarbeitungssystem umfasst das System des weiteren
in einer Ausführungsform
eine Zuordnungseinheit zwischen der Spracherkennungsschnittstelle
und der Sprachverarbeitungseinheit, um das Spracherkennungsergebnis zu
empfangen und zuzuordnen; gemäß einem
Zwischensignal-Ausgabeprotokoll, um ein Zuordnungssignal, das als
Spracherkennungssignal dient, zu erzeugen und an die Sprachverarbeitungseinheit
zu übertragen.
Das Verfahren zur Übertragung
des Zuordnungssignals an die Sprachverarbeitungseinheit umfasst
ein Ausstrahlungsverfahren, ein Verfahren über ein Kabelkommunikationsnetzwerk
oder ein Verfahren über
ein kabelloses Kommunikationsnetzwerk. Im oben beschriebenen Zwischensignal-Ausgabeprotokoll,
wird das Zuordnungssignal aus einer Vielzahl an Worteinheiten und
einer Vielzahl an Teilworteinheiten gebildet. Die Teilworteinheiten
umfassen eine chinesische Silbe, ein englisches Phonem, eine Vielzahl
an englischen Phonemen oder eine englische Silbe.
-
Gemäß dem oben
beschriebenen, Zwischensignal-Ausgabeprotokoll, ist das Zuordnungssignal
eine/ein aus einer Vielzahl an Worteinheiten und einer Vielzahl
an Teilworteinheiten bestehende Sequenz oder Verband.
-
Im
verteilten Sprachverarbeitungssystem erzeugt die Dialogmanagementeinheit
semantische Informationen, die dem Sprachsignal entsprechen. Wenn
die semantische Information, die dem von der Dialogmanagementeinheit
erzeugten Sprachsignal entspricht, ein Sprachbefehl ist, wird eine
Handlung, die dem Sprachbefehl entspricht, ausgeführt. In
einer Ausführungsform
wird die Handlung, die dem Sprachbefehl entspricht, ausgeführt, wenn
der Sprachbefehl größer ist
als ein Vertrauensindex.
-
Im
verteilten Sprachverarbeitungssystem umfasst die Sprachverarbeitungseinheit
eine Sprachverständniseinheit
und eine Datenbank. Die Sprachverständniseinheit empfängt und
analysiert das Spracherkennungsergebnis anschließend und greift auf die Datenbank
zu, um das semantische Signal zu erhalten, das dem Spracherkennungsergebnis
entspricht.
-
Im
verteilten Sprachverarbeitungssystem ist in einer Ausführungsform
das System nach einer verteilten Architektur strukturiert. In der
verteilten Architektur befinden sich die Spracheingabeschnittstelle, die
Spracherkennungsschnittstelle und die Dialogmanagementeinheit in
einem Anwenderterminal und die Sprachverarbeitungsarbeit in einem
Serverterminal zur Systemanwendung.
-
Jedes
Serverterminal zur Systemanwendung umfasst eine entsprechende Sprachverarbeitungseinheit.
Diese Sprachverarbeitungseinheiten empfangen und analysieren die
Spracherkennungsergebnisse, um die semantischen Signale zu erhalten
und zur Dialogmanagementeinheit zu übertragen; gemäß der Bestimmung
der semantischen Signale werden semantische Informationen, die den
semantischen Signalen entsprechen, erzeugt. Gemäß dem verteilten Sprachverarbeitungssystem, könnten sich
in einer Ausführungsform
die Spracheingabeschnittstelle, die Spracherkennungsschnittstelle,
die Sprachverarbeitungseinheit und die Dialogmanagementeinheit in
einem eigenständigen
System in einem Anwenderterminal befinden.
-
Gemäß dem verteilten
Sprachverarbeitungssystem erhöht
in einer Ausführungsform
die Spracherkennungsschnittstelle die Erkennungseffizient durch
Lernen je nach Dialoggewohnheiten des Anwenders. Darüber hinaus
umfasst die Spracheingabeschnittstelle einen Begrüßungssteuerungsmechanismus
und Begrüßungen der
Spracheingabeschnittstelle können
von einem Anwender geändert
werden.
-
Die
vorliegende Erfindung sieht auch ein Verfahren zur Ausgabe eines
Zwischensignals und ein Protokoll, das im Verfahren verwendet wird,
vor. Das Verfahren ist für
ein verteiltes Sprachverarbeitungssystem angepasst. Das verteilte
Sprachverarbeitungssystem ist nach einer verteilten Architektur strukturiert.
Die verteilte Architektur umfasst ein Anwenderterminal und ein Serverterminal
zur Systemanwendung. Das Anwenderterminal umfasst eine Spracherkennungsschnittstelle
und eine Dialogmanagementeinheit. Das Serverterminal zur Systemanwendung
umfasst eine Sprachverarbeitungseinheit. In diesem Verfahren zur
Ausgabe eines Zwischensignals empfängt und analysiert die Spracherkennungsschnittstelle
ein Sprachsignal, um ein Spracherkennungsergebnis zu erzeugen. Das
Spracherkennungsergebnis wird in ein Signal verwandelt, das aus einer
Vielzahl von Worteinheiten und einer Vielzahl von Teilworteinheiten
gemäß dem Zwischensignal-Ausgabeprotokoll
gebildet ist. Das Signal wird dann zur Analyse an die Sprachverarbeitungseinheit übertragen,
um eine semantischen Information zu erhalten. Die semantische Information
wird an die Dialogmanagementeinheit übertragen, um durch eine Graphik-
oder Stimmschnittstelle eine Antwort an den Benutzer zu erzeugen.
-
In
dem Verfahren zur Ausgabe des Zwischensignals und einem Protokoll,
das im Verfahren verwendet wird, umfasst das Teilwort eine chinesische
Silbe, ein englisches Phonem, eine Vielzahl an englischen Phonemen
oder eine englische Silbe. Das aus den entsprechend dem Zwischensignalprotokoll
umgewandelten mehreren Wort- und Teilworteinheiten bestehende Signal
ist eine Sequenz oder ein Verband, die/der aus einer Vielzahl an Worteinheiten
und einer Vielzahl an Teilworteinheiten besteht.
-
Die
oben genannten und andere Merkmale der vorliegenden Erfindung werden
durch die folgende detaillierte Beschreibung der bevorzugten Ausführungsformen
der Erfindung, in Zusammenhang mit den begleitenden Zeichnungen,
besser verständlich.
-
Kurze Beschreibung
der Zeichnungen
-
1 ist
eine Zeichnung, die ein Spracheingabesystem nach Stand der Technik
zeigt.
-
2 ist
ein Blockdiagram, das einen Spracherkennungs- und Sprachanalyse-Verarbeitungsschaltkreis
eines traditionellen Spracheingabesystems zeigt.
-
3 ist
eine Zeichnung, die eine verteilte Systemarchitektur mit einer mehrfach
anwendungsabhängigen
Sprachverarbeitungseinheit mit einer vereinheitlichten Spracherkennungsfunktion
und einer vereinheitlichten Dialogschnittstelle gemäß einer Ausführungsform
der vorliegenden Erfindung zeigt.
-
4 zeigt
wie verschiedene Sätze
an die üblichen
chinesischen Wörter
gekoppelt werden, so dass alle möglichen
Sätze in
einem Verband gezeigt werden.
-
Beschreibung
einiger Ausführungsformen
-
Die
vorliegende Erfindung sieht eine vereinheitlichte Spracheingabe-Dialogschnittstelle
und ein verteiltes System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit
mit der vereinheitlichten Spracherkennungsfunktion und der vereinheitlichten
Dialogschnittstelle vor. Das System bietet nicht nur eine vorteilhafte
Umgebung, sondern verbessert auch die ganze Leistung der Spracherkennung.
-
Die
Mensch-Maschine-Schnittstellentechnologie, die Spracheingabe verwendet,
wird ausgereifter. Um verschiedene Anwendungsapparate zu steuern,
um verschiedene Informationen zu suchen oder Reservierungen zu machen,
können
verschiedene Eingabeschnittstellen benötigt werden. Wenn diese Schnittstellen
unterschiedliche Arbeitsabläufe
haben und wenn jede von ihnen eine beträchtliche Berechnungs- und Speicherquelle
benötigt,
wird das einen Anwender stören.
Dementsprechend wird eine einfache Schnittstelle, mit einfacher
Bedienung und einfachen Verbindungen zu verschiedenen Anwendungssystemen,
um eine vereinheitlichte Anwenderumgebung vorzusehen, sehr wichtig
für Entwicklung
und Kommerzialisierung von fortschrittlicher Sprachtechnologie.
Da diese Schnittstellen unterschiedliche Betriebsweisen haben und
jede beträchtliche
Berechnungen und Speicher belegt, wird der Anwender von den komplizierten
und nachteiligen Anwendungen gestört sein. Dementsprechend ist
eine vereinfachte und einfach zu bedienende Schnittstelle, die mit
verschiedenen Anwendungssystemen verbunden ist, um eine vereinheitlichte
Anwenderumgebung zu bieten, grundlegend, besonders für die Entwicklung
und Beliebtheit fortschrittlicher Sprachtechnologie.
-
Um
den oben beschriebenen Aspekt zu lösen, ist in der vorliegenden
Erfindung eine vereinheitlichte Spracheingabeschnittstelle vorgesehen,
so dass ein Anwender sich mit der vereinheitlichten Schnittstelle
vertraut machen kann; die Spracherkennungsgenauigkeit der Anwendung
ist erhöht;
das System erlernt auch das persönliche
Dialogmodell und so ist auch die Verbraucherfreundlichkeit des Systems
verbessert.
-
Zuerst
wird das Klangmodell, das sprecherabhängig und geräteabhängig ist,
an einem lokalen Terminalgerät
angebracht. Diese Struktur bietet dem Anwender eine bessere akustische
Vergleichsqualität.
In einer Ausführungsform
kann das Klangmodell ein übliches
Modell benutzen, das als Anfangsmodell sprecherunabhängig und
geräteunabhängig ist,
um schrittweise durch die Modellableichtechnologie die Modellparameter,
die sprecherabhängig
und geräteabhängig sind,
zu verbessern. Die Erkennungsgenauigkeit wird so beträchtlich
verbessert. In einer Ausführungsform
können
ein Lexikon, das engen Bezug zur Spracherkennung hat und ein N-Gramm-Modell,
das sprachabhängig
ist, in der Modellabgleichtechnologie verwendet werden, um die Erkennungsqualität zu verbessern.
-
Das
erwähnte
Lexikon stellt der Spracherkennungsmaschine Zeichen und Informationen
von entsprechenden Klangeinheiten bereit. Zum Beispiel ist das Wort „recognition" in chinesischen
Silbeneinheiten /bian4/ /ren4/, oder in Phonemeinheiten /b/, /i4/,
/e4/, /M/, /r/, /e4/ und /M/. Gemäß der Information bildet die
Spracherkennungsmaschine das Klangvergleichmodell, wie das Versteckte
Markov Model (HMM: Hidden Markov Model).
-
Das
beschriebene N-Gramm-Modell zeichnet Ungleichheiten von Verbindung
von verschiedenen Zeichen auf, wie die Ungleichheiten in der Verbindung
zwischen „Republic
of" und „China", zwischen „People
of" und „Republic
of" und zwischen „Republic
of" und anderen
Zeichen. Es stellt auch die Verbindungsmöglichkeiten zwischen verschiedenen Zeichen
dar. Da die Funktion einer grammatikalischen Funktion ähnelt, wird
sie mit „Gramm" bezeichnet. In einer
engeren Definition: Ein Modell bezeichnet die Häufigkeit von N-Buchstaben/Worten,
die verbunden werden. Zum Beispiel, zusätzlich zum Üben der Aussprache von Chinesischen
Zeichen/Worten, sollte ein Nicht-Chinese mehrere Artikel lesen um
die Verbindungen zwischen diesen Zeichen zu lernen. Das N-Gramm-Modell
schätzt
auch die Ungleichheiten der Verbindungen von verschiedenen Zeichen/Wörtern durch
das Abfragen von gewaltigen Artikelmengen.
-
Mit
dem Zwischensignal-Ausgabeprotokoll des Spracherkennungsgeräts, kann
das Spracherkennungsergebnis am Vorderende von der Verarbeitungseinheit
am Rückende
akzeptiert werden, so dass die Bedeutung von den Wörtern exakt
eingehalten werden kann. In verschiedenen Anwendungsgeräten werden
verschiedene Wortgruppen verwendet. Wenn eine Wortgruppe als Einheit
verwendet wird, werden neue erkennbare Wortgruppen kontinuierlich durch
die steigende Anzahl an Anwendungsprogrammen geschaffen. Es wird
nicht zu störend
sein, wenn es nur wenige Anwendungssysteme gibt. Wenn viele Anwendungssysteme
verwendet werden, wird die große
Anzahl von Wortgruppen die Spracherkennungseinheit am Vorderende
ernsthaft verzögern. Dementsprechend
beinhalten die gemeinsam benutzten Zwischensignale die gemeinsam
benutzten üblichen
Wörter
und die gemeinsam benutzten Teilwörter. Die üblichen Wörter können häufig verwendete Sprachbefehle
beinhalten. Das Hinzufügen
von üblichen
Wörtern
verbessert die Erkennungsgenauigkeit und vermindert beträchtlich Verwechslungen bei
der Erkennung. Die oben genannten Teilwörter sind Fragmente, die kleiner
sind als eine Worteinheit, so wie eine chinesische Silbe, ein englisches
Phonem, mehrere englische Phoneme oder eine englische Silbe.
-
Die
oben beschriebene Silbe ist eine chinesische phonetische Einheit.
Es gibt ungefähr
1.300 Tonsilben, oder ungefähr
408 tonlose Silben. Jedes chinesische Zeichen ist eine einzelne
Silbe. Mit anderen Worten, jede Silbe steht für die Aussprache eines Zeichens.
In einem Artikel steht die Anzahl an Silben für die Anzahl an Zeichen. Zum
Beispiel ist das chinesische Zeichen
,
das von der Tonsilbe des Hanyu Pinyin Systems gezeigt wird, /guo2/,
und das chinesische Zeichen
ist
/jial/; oder /guo/ und /jia/ sind die tonlosen Silben.
-
In
dem oben beschriebenen englischen Phonem, werden zahlreiche englische
Phoneme oder englische Silben in Englisch verwendet, bei denen der
Großteil
der Phonetik eines englischen Wortes eine Multisilbe ist. Wenn der
automatische Spracherkenner verwendet wird, um Englisch zu erkennen, sollten
angemessene Mengen klangüblicher
Einheiten, die kleiner sind als die Multisilben schon im Vorhinein
vorgesehen werden, um als die Modellvergleicheinheiten zu dienen.
Sie sollten einzelne Silbeneinheiten oder Teilsilbeneinheiten beinhalten.
Die am häufigsten
verwendeten Phonemeinheiten in der englischen Phonologielehre umfassen
zum Beispiel: /a/, /i/, /u/, /e/ and /o/ etc.
-
Die
Ausgabe der Spracherkennung am Vorderende kann eine aus N-Best üblichen
Wörtern
und Teilwörtern
bestehende Sequenz sein. In einer anderen Ausführungsform kann es ein Verband
einer üblichen
Einheit sein. Während
ein Anwender einen Satz sagt (einige Worte äußert), vergleicht der Spracherkenner
den Klang, um ein Erkennungsergebnis mit den meisten Vergleichstreffern
zu erzeugen. Da die Erkennungsgenauigkeit nicht bei 100% liegt,
kann die Ausgabe des Erkennungsergebnisses verschiedene mögliche Erkennungsergebnisse
beinhalten. Die Ausgabeform mit N-Folgen von Wortsequenzergebnissen
wird das N-Best Erkennungsresultat genannt. Jede Folge von Wortsequenzergebnissen
ist eine unabhängige
Wortfolge.
-
Eine
weitere mögliche
Ausgabeform ist ein Verband, was heißt der Wortverband bildet,
dass die üblichen
Wörter
von verschiedenen Wortfolgen einen Knoten bilden. Verschiedene Sätze werden
an die üblichen
chinesischen Wörter
gekoppelt, so dass alle möglichen
Sätze in
einem Verband wie in
4 gezeigt werden:
In
4 haben
die chinesischen Schriftzeichen folgende Bedeutung:
Knoten
1 steht für
den Start Knoten.
Knoten 5 steht für den End Knoten.
Knoten
1 2
stehen
für Treffer
(1, 2,
).
Knoten
1 2
stehen
für Treffer
(1, 2,
).
Knoten
2 3
stehen
für Treffer
(2, 3,
).
Knoten
2 3
stehen
für Treffer
(2, 3,
).
Knoten
3 5
stehen
für Treffer
(3, 5,
).
Knoten
4 5
stehen
für Treffer
(4, 5,
).
-
Die
oben beschriebene Sequenz oder Verband wird dann ausgestrahlt, oder über ein
Kabelkommunikationsnetzwerk oder eine kabelloses Kommunikationsnetzwerk übertragen.
Sie/er wird von verschiedenen Anwendungs-Analysegeräten empfangen.
Sie/er kann auch zum Sprachverarbeitungs-Analysegerät übertragen
werden, um den semantischen Inhalt der Sequenz oder des Verbands nicht über ein
Netzwerk zu analysieren. Jedes Sprachverarbeitungs-Analysegerät analysiert
und verarbeitet die Sequenz oder den Verband individuell, um den
entsprechenden semantischen Inhalt zu erhalten. Diese Sprachverständnis-Verarbeitungseinheiten
entsprechen individuell verschiedenen Anwendungssystemen. Deshalb
beinhalten sie verschiedene Lexika und Grammatiken. Diese Sprachverständnis-Verarbeitungsschritte
schließen
unerkennbare Zwischensignale aus (inklusive einiger üblichen
Worte und Teilworte) und behalten erkennbare Signale, um so die
Satzstrukturen weiter zu analysieren und den grammatikalischen Vergleich
aufzustellen. Dann wird das beste und vertrauenswürdigste semantische
Signal ausgegeben und zum Spracheingabeschnittstellenapparat des
lokalen Terminals des Anwenders übertragen.
-
Die
Dialogmanagementeinheit des Spracheingangsschnittstellenapparats
sammelt alle übertragenen
semantischen Signale. Durch Hinzufügen des linguistischen Kontexts
des semantischen Signals, kann das optimierte Ergebnis erzielt werden. Zahlreiche
Modalitäten
würden
dann verwendet, um dem Anwender zu antworten, um einen Dialog während der
Konversation zu vervollständigen.
Wenn es als Sprachbefehlt bestimmt wird und wenn der Vertrauensindex
ausreicht, wird die nachfolgende Handlung, die vom Befehl gesteuert
wird, ausgeführt
und die Arbeit ist getan.
-
3 ist
eine Zeichnung, die eine verteilte Systemarchitektur mit einer mehrfach
anwendungsabhängigen
Sprachverarbeitungseinheit mit einer vereinheitlichten Spracherkennungsfunktion
und einer vereinheitlichten Dialogschnittstelle gemäß einer Ausführungsform
der vorliegenden Erfindung zeigt. In dieser Ausführungsform kann es ein Spracheingabe-/Dialogverarbeitungs-Schnittstellenapparat
sein. Wie in 3 gezeigt, umfasst das System
zwei Sprachverarbeitungsschnittstellen 310 und 320 und zwei
Anwendungsserver 330 und 340. Die vorliegende
Erfindung ist jedoch nicht darauf begrenzt. Die Anzahl an Sprachverarbeitungsschnittstellen
und an Anwendungsservern ist variabel.
-
Die
Sprachverarbeitungsschnittstelle 310 umfasst eine Spracherkennungseinheit 314,
eine verknüpfende
Wortzuordnungseinheit 316 und eine Dialogmanagementeinheit 318.
In der Sprachverarbeitungsschnittstelle 310, wird der Klangmodus,
der sprecherabhängig
und geräteabhängig ist,
an dem lokalen Gerät
angeordnet. Die Struktur erhöht
die akustische Vergleichsqualität.
Die Sprachverarbeitungsschnittstelle 310 empfängt ein
Sprachsignal von einem Anwender. Die Sprachverarbeitungsschnittstelle 310 kann
weiterhin, wie in 3 gezeigt, eine Sprachempfangseinheit 312 umfassen,
wie ein Mikrophon, um das Sprachsignal des Anwenders vorteilhaft
zu empfangen.
-
Eine
weitere Sprachverarbeitungsschnittstelle 320 umfasst eine
Spracherkennungseinheit 324, eine verknüpfende Wortzuordnungseinheit 326 und eine
Dialogmanagementeinheit 328. Die Sprachverarbeitungsschnittstelle 320 empfängt ein
Sprachsignal von einem Anwender. Die Sprachverarbeitungsschnittstelle 320 kann
des weiteren, wie in 3 gezeigt, eine Sprachempfangseinheit 322,
wie ein Mikrophon beinhalten, um das Sprachsignal des Anwenders
vorteilhaft zu empfangen. In dieser Ausführungsform empfängt die
Sprachempfangseinheit 322 das Sprachsignal vom Anwender
A.
-
In
der Sprachverarbeitungsschnittstelle 310 kann das Klangmodell,
das sprecherabhängig
und geräteabhängig ist,
in der Spracherkennungseinheit 314 angeordnet sein. Die
Struktur kann die akustische Vergleichsqualität verbessern. In einer Ausführungsform
zum Aufbau des Klangmodells, das sprecherabhängig und geräteabhängig ist,
dient ein übliches
Modell, das sprecherunabhängig
und geräteunabhängig ist,
als ein Anfangsmodell. Durch Verwendung der Modellabgleichtechnologie
können
die Modellparameter, die sprecherabhängig und geräteabhängig sind,
verbessert werden und die Erkennungsgenauigkeit ist ebenfalls beträchtlich
verbessert.
-
In
einer Ausführungsform
wird das Lexikon oder N-Gramm-Modell, das eng mit der Spracherkennung
verbunden ist, auf die Modellableichstechnologie angewandt, um die
Erkennungsgenauigkeit zu verbessern.
-
In
der Sprachverarbeitungsschnittstelle 310 gemäß einer
bevorzugten Ausführungsform
der vorliegenden Erfindung, führt
die verknüpfende
Wortzuordnungseinheit 316 gemäß einem Zwischensignal-Ausgabeprotokoll
einen Zuordnungsvergleich der Ausgabe von der Sprachverarbeitungsschnittstelle 310 und
des Spracherkennungsergebnisses aus, das von der Spracherkennungseinheit 314 ausgegeben
wurde. Das Ausgabeergebnis von der Sprachverarbeitungsschnittstelle 310 wird
dann ausgegeben. Da die Verarbeitungseinheit am Rückende auch das
Signal gemäß dem Zwischensignal-Ausgabeprotokoll
erkennt, ist das Spracherkennungsergebnis auch akzeptierbar und
die semantische Erkennungsgenauigkeit kann erhalten werden. Im Zwischensignal-Ausgabeprotokoll
gemäß einer
bevorzugten Ausführungsform
der vorliegenden Erfindung ist das vom Anwender übertragene Signal normalerweise
ein Signal, das aus üblichen
Worten und Teilworten besteht.
-
In
der traditionellen Architektur werden zahlreiche Kombination von
Wortgruppen in verschiedenen Anwendungsgeräten verwendet. Wenn die Einheit
eine Wortgruppe ist, wird die neue Erkennung von Wortgruppen durch
die höhere
Anzahl an Anwendungsprogrammen kontinuierlich erhöht. Es wird nicht
viele Probleme bereiten, wenn es wenige Anwendungssysteme gibt.
Wenn es jedoch viele Anwendungssysteme gibt, wird die Anzahl der
Wortgruppen die Spracherkennungseinheit am Vorderende ernsthaft
verzögern.
Dementsprechend erzeugt das Spracherkennungsergebnis gemäß der Spracherkennungseinheit 314 in
der Ausführungsform
der vorliegenden Erfindung, nach dem Zuordnungsvergleich durch die
verknüpfende
Wortzuordnungseinheit 316, gemeinsam benutzte Signale von üblichen Worten
und Teilworten. Sowohl der Signalsender als auch der Signalempfänger können die
durch das Zwischensignal-Ausgabeprotokoll definierten Signale erkennen
und verarbeiten.
-
Die
oben beschriebenen Teilworte sind Fragmente, die kleiner als Worte
sind, so wie eine chinesische Silbe, ein englisches Phonem, viele
englische Phoneme oder eine englische Silbe. Die üblichen Worte
umfassen häufig
verwendete Sprachbefehle. Das Hinzufügen der üblichen Worte verbessert die Erkennungsgenauigkeit
und reduziert beträchtlich Verwechslungen
bei der Erkennung. Die Ausgabe der Spracherkennung am Vorderende
kann zum Beispiel eine N-Best-Sequenz üblicher Worte, oder Teilworte
oder ein Verband einer üblichen
Einheit wie zuvor beschrieben, sein.
-
In
der Sprachverarbeitungsschnittstelle 310, wird gemäß dem Zwischensignal-Ausgabeprotokoll das
ausgegebene Spracherkennungsergebnis nach dem Zuordnungsvergleich
durch die verknüpfende Wortzuordnungseinheit 316 durch
das Signal 311 an eine Sprachverarbeitungseinheit übertragen,
um die Bedeutung der Worte zu erkennen. Zum Beispiel wird das Signal 311 zu
den Anwendungsservern (A) 330 und (B) 340 übertragen.
Das Signal 311 ist ein Sequenzsignal oder ein Verbandsignal,
das dem Zwischensignal-Ausgabeprotokoll entspricht. Das Verfahren
zur Übertragung
des Signals 311 zu den Anwendungsservern (A) 330 und
(B) 340 kann zum Beispiel ein Ausstrahlungsverfahren, ein
Verfahren über ein
Kabelkommunikationsnetzwerk oder ein Verfahren über ein kabelloses Kommunikationsnetzwerk sein.
Es wird von verschiedenen Anwendungsanalysegeräten empfangen oder sogar zu
Analysegeräten des
selben Apparats ohne Verwendung eines Netzwerks übertragen.
-
Wie
in 3 gezeigt, umfasst der Anwendungsserver (A) 330 eine
Datenbank 332 und eine Sprachverständniseinheit 334.
Der Anwendungsserver (B) 340 umfasst eine Datenbank 342 und
eine Sprachverständniseinheit 344.
Wenn die Anwendungsserver (A) 330 und (B) 340 das
Signal 311 empfangen, führt
jeder von ihnen eine Sprachanalyse und Verarbeitung durch seine
eigene Sprachverständniseinheit 334 oder 344 aus.
Durch Zugriff auf die Datenbank 332 oder 342 kann
die Wortbedeutung erhalten werden.
-
Was
eine weitere Sprachverarbeitungsschnittstelle 320 betrifft,
wird gemäß dem Zwischensignal-Ausgabeprotokoll
das ausgegebene Spracherkennungsergebnis nach dem Zuordnungsvergleich
durch die verknüpfende
Wortzuordnungseinheit 326 durch das Signal 321 zu
den Anwendungsservern (A) 330 und (B) 340 übertragen.
Das Signal 321 ist ein Sequenzsignal oder ein Verbandsignal, das
dem Zwischensignal-Ausgabeprotokoll entspricht. Wenn die Anwendungsserver
(A) 330 und (B) 340 das Signal 311 empfangen,
führt jeder
von ihnen die Sprachanalyse und Verarbeitung durch seine eigene
Sprachverständniseinheit 334 oder 344 aus. Durch
Zugriff auf die Datenbank 332 oder 342 kann die
Wortbedeutung erhalten werden.
-
Verschiedene
Sprachverständniseinheiten entsprechen
verschiedenen Anwendungssystemen. Deshalb beinhalten sie verschiedene
Lexika und Grammatiken. Diese Sprachverständnis-Verarbeitungsschritte
schließen
unerkennbare Zwischensignale aus (inklusive einiger üblichen
Worte und Teilworte) und behalten erkennbare Signale, um so die Satzstrukturen
weiter zu analysieren und den grammatikalischen Vergleich aufzustellen.
Dann wird das beste und vertrauenswürdigste semantische Signal ausgegeben.
Die von der Sprachanalyse und Verarbeitung durch die Sprachverständniseinheiten 334 und 344 ausgegebenen
Signale, werden durch die semantischen Signale 331 beziehungsweise 341 zu der
Sprachverarbeitungseinheit 310, oder zu der Sprachverarbeitungseinheit 320 durch
die semantischen Signale 333 beziehungsweise 343 übertragen.
-
Dann
sammelt die Dialogmanagementeinheit des Spracheingabe-/Dialogverarbeitungs-Schnittstellenapparats,
wie die Dialogmanagementeinheit 318 der Sprachverarbeitungsschnittstelle 310 oder
die Dialogmanagementeinheit 328 der Sprachverarbeitungsschnittstelle 320,
alle übertragenen
semantischen Signale. Durch Hinzufügen des Kontexts des semantischen
Signals kann das optimierte Ergebnis bestimmt werden. Zahlreiche
Modalitäten
würden
dann verwendet, um dem Anwender zu antworten, um einen Dialog während der
Konversation zu vervollständigen.
Wenn es als ein Sprachbefehl bestimmt wird und wenn der Vertrauensindex ausreicht,
wird die nachfolgende Handlung, die vom Befehl gesteuert wird, ausgeführt und
die Arbeit ist getan.
-
In
dem verteilten System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit
mit der vereinheitlichten Spracherkennungsfunktion und der vereinheitlichten
Dialogschnittstelle gemäß einer
bevorzugten Ausführungsform
der vorliegenden Erfindung, sind alle Dialoggeräte an verschiedenen Orten angebracht
und kommunizieren mit- oder untereinander über verschiedene Übertragungsschnittstellen,
wie eine Ausstrahlungsstation, ein Kabelkommunikationsnetzwerk oder
ein kabelloses Kommunikationsnetzwerk. Das Signal wird von verschiedenen
Anwendungsanalysegeräten
empfangen oder zum Analysegerät
des selben Apparats ohne Verwendung des Netzwerks übertragen.
-
Was
eine Systemarchitektur einer Ausführungsform betrifft, kann sie
eine verteilte Architektur sein. Zum Beispiel beinhalten das lokale
Anwenderterminal, wie die Sprachverarbeitungsschnittstellen 310 und 320,
die Funktionen zur Spracherkennungsverarbeitung und das Dialogmanagement.
Die Sprachverständniseinheiten,
die für
die Sprachverständnis-
und Analysefunktion dienen, können
am Rückende
des Systemanwendungsservers angebracht werden, d.h. die Sprachverständniseinheit 334 des
Anwendungsservers (A) 330 oder die Sprachverständniseinheit 344 des
Anwendungsservers (B) 340.
-
In
einer Ausführungsform
der vorliegenden Erfindung kann die Sprachverständniseinheit für die Sprachverständnis- und
Analysefunktion am lokalen Anwenderterminal angebracht werden. Es
hängt von den
Ausgestaltungsanforderungen und der Verarbeitungsberechnungskapazität des Apparats
am lokalen Anwenderterminal ab. Bei einem Wetterinformationssuchsystem,
benötigt
die Datenverarbeitung zum Beispiel eine große Menge an Berechnungs- und Speicherkapazität. Dementsprechend
sind viele Betriebsprozessoren nötig,
um diese Daten zu kalkulieren und zu verarbeiten. Die Grammatik
der Daten, die verglichen werden müssen, ist auch komplizierter. Deshalb
sollte das Anwendungssystem, das die Bedeutung von Sätzen analysiert,
im dezentralen Terminal angebracht sein, d.h. im Anwendungsserverterminal.
Wenn das Anwendungssystem viele seltsame Worte oder Wortgruppen,
die sich von denen in anderen Anwendungssystemen unterscheiden,
umfasst, ist es sinnvoll, so einen Vorgang am Anwendungsterminal
auszuführen.
Außerdem
sammelt das Anwendungsserverterminal weiter das Lexikon und Satzstrukturen,
die von verschiedenen Anwendern genutzt werden, um so dem System
im Anwendungsserverterminal das Selbstlernen zu ermöglichen.
Informationen, wie das persönliche
Telefonbuch, das gewöhnlich
am lokalen Anwenderterminal ist, sollten durch die Sprachverständniseinheit
des lokalen Terminals verarbeitet werden.
-
Man
nehme das Beispiel von Lichtsteuerung eines Konferenzraums. Normalerweise
wird ein Prozessor mit Berechnungsfunktion nicht in einem Lichtset
angebracht. Die Lichtsteuerung kann jedoch durch Übertragung
eines kabellosen Befehls dahin ausgeführt werden, nachdem die lokale
Sprachverständniseinheit
verarbeitet hat. Es ist auch möglich, dass
durch Verwendung eines kleinen Chips eine begrenzte Anzahl von Wörtern, wie „anschalten", „ausschalten", „Licht
anschalten" oder „Licht
ausschalten", darin
verarbeitet werden können.
Jedes der Anwendungssystemterminals und der Anwenderschnittstellenterminals
umfasst Mehrfach-zu-Mehrfach-Kanäle
(multiple-to-multiple). Verschiedene Anwender können die Stimme verwenden,
um das Licht zu steuern oder die Wettervorhersage zu suchen.
-
In
einer Ausführungsform
bietet die vorgelegte Erfindung das verteilte System mit einer mehrfach
anwendungsabhängigen
Sprachverarbeitungseinheit mit der vereinheitlichten Spracherkennungsfunktion
und der vereinheitlichten Dialogschnittstelle. Die Dialoggewohnheiten
des Anwenders können durch
lernen verbessert werden. Zum Beispiel variieren Begrüßungsworte,
die in der Spracheingabeschnittstelle verwendet werden, je nach
Anwender und können
dennoch genau erkannt werden. Die Umschaltbefehle des Anwendungssystems,
die verwendet werden, um die Bedienung oder den Dialog zu wechseln,
können
persönlich
angepasst werden, um so die Anwendungen exakt zu schalten. In einer anderen
Ausführungsform,
die auf persönlicher
Anwendung beruht, sind auch Befehle mit „nick names" möglich, um
mehr Spaß und
Verbrauchertreundlichkeit zu bieten. Einigen leicht zu vergessenden
Namen von Anwendungen können
personalisierte Namen gegeben werden. All diese Funktionen können von
der vereinheitlichten Spracheingabeschnittstelle vorgesehen werden.
-
Das
traditionelle Stimmnachricht(voice message)-Anwendungssystem umfasst
gewöhnlich
einen Spracherkenner und einen Sprachanalysierer, die sprecherunabhängig sind.
Normalerweise deckt der Spracherkenner die meisten Berechnungen
ab. Ein System kann eine begrenzte Anzahl an Telefonkanälen bewältigen.
Wenn mehrere Telefonkanäle
zu verarbeiten sind, werden die Kosten dramatisch steigen. Da die
Kanäle,
die Stimmen übertragen, mehr
Quellen der Hardware belegen, wird das zum Engpass der Dienstleistung
zu Spitzenzeiten und zu einem Anstieg der Kommunikationsgebühren führen. Wenn
die Spracherkennung im Vorhinein am lokalen Anwenderterminal verarbeitet
werden kann, können Kommunikationskosten
durch Übertragung
von ausschließlich
Zwischensignalen (inklusive üblicher Worte
und Teilworte) mit jeder Datenübertragungsleitung
gespart werden. Die Verzögerung
der Datenübertragung
wird unterdrückt
und die Kommunikationskosten werden reduziert. Ohne Sprachverarbeitung
am Serverterminal, werden die Kosten für die Bedienungsquellen des
Serverterminals gespart.
-
Die
Struktur genügt
nicht nur der Spracherkennungsgenauigkeit, sondern spart auch viele
Kosten. Die vereinheitlichte Schnittstelle reduziert auch die Schwierigkeiten,
die durch Hinzufügen
oder Reduzieren von Anwendungsgeräten, entstehen. Damit bietet
die vorliegende Erfindung mehr potentielle Fläche für Sprachtechnologieentwicklung.
Mit dem Fortschritt der Entwicklung von zentralen Verarbeitungseinheiten
(central processing units, CPUs), werden auch CPUs mit einer großen Menge
von Berechnungen, angepasst für
Handapparate, entwickelt. Mit diesen Techniken sind vorteilhaftere
und langerwartete Mensch-Maschine-Schnittstellen in Greifweite.
-
Obwohl
die vorliegende Erfindung an Hand exemplarischer Ausführungsformen
beschrieben wurde, ist sie nicht darauf beschränkt. Vielmehr sollten die angefügten Ansprüche breit
gefasst sein, um andere Varianten und Ausführungsformen der Erfindung,
die von Fachleuten gemacht werden könnten, ohne von dem Schutzumfang
und Bereich von Äquivalenten
der Erfindung abzuweichen, einzuschließen.