DE102006006069A1 - Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon - Google Patents

Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon Download PDF

Info

Publication number
DE102006006069A1
DE102006006069A1 DE102006006069A DE102006006069A DE102006006069A1 DE 102006006069 A1 DE102006006069 A1 DE 102006006069A1 DE 102006006069 A DE102006006069 A DE 102006006069A DE 102006006069 A DE102006006069 A DE 102006006069A DE 102006006069 A1 DE102006006069 A1 DE 102006006069A1
Authority
DE
Germany
Prior art keywords
speech
signal
processing system
voice
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102006006069A
Other languages
English (en)
Inventor
Jui-Chang Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Delta Electronics Inc
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Publication of DE102006006069A1 publication Critical patent/DE102006006069A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Eine vereinheitlichte Spracheingabe-Dialogschnittstelle und ein verteiltes System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit mit der vereinheitlichten Spracherkennungsfunktion und der vereinheitlichten Dialogschnittstelle sind vorgesehen. Das System bietet nicht nur eine vorteilhafte Anwenderumgebung, sondern verbessert auch die gesamte Leistung der Spracherkennung. Das verteilte System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit verwendet eine Spracheingabeschnittstelle, so dass der Anwender sich mit einer einfachen, vereinheitlichten Schnittstelle vertraut machen kann. Das System verbessert auch die Spracherkennungsgenauigkeit und erhöht die Verbraucherfreundlichkeit durch die Verwendung eines personalisierten Selbstlern-Dialogmodells.

Description

  • Hintergrund der Erfindung
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft ein verteiltes Sprachverarbeitungssystem und ein Verfahren zur Ausgabe eines Zwischensignals davon, und besonders ein verteiltes Sprachverarbeitungssystem und ein Verfahren zur Ausgabe eines Zwischensignals davon, wobei das System eine vereinheitlichte Spracheingabeschnittstelle benutzt, so dass der Anwender sich mit der einfachen, vereinheitlichten Schnittstelle vertraut machen kann, die Genauigkeit bei der Erkennung der Sprache des Anwenders erhöht und die Verbraucherfreundlichkeit des Systems durch Erlernen persönlicher Dialogmodelle verbessert.
  • Beschreibung der zugehörigen Technik
  • Die Mensch-Maschine-Schnittstellentechnologie wird durch die Verwendung von Spracheingabe ausgereifter. Deshalb werden immer mehr Sprachschnittstellen benötigt. Die gestiegene Zahl an Schnittstellen stört den Anwender. Eine vereinheitlichte Sprachschnittstelle, die verschiedene Anwendungssysteme verbindet, ist eine sehr vorteilhafte und notwendige Ausführung für Anwender.
  • Durch die ausgereifte Mensch-Maschine-Technologie mit Spracheingabe, dient die Technologie als Sprachbefehl-Steuerungsschnittstelle eines Anwendungssystems. Die Technologie ermöglicht Spracherkennung über das Telefon, die automatische Informationssuche über den Dialog mit einer Maschine oder automatische Reservierungen, etc. Die Sprachbefehl-Steuerungsfunktion ähnelt einer Fernbedienungsfunktion. Da sich die Menschen an Kommunikation über Dialoge gewöhnt haben, unterstützt ein automatisches Sprachdialogsystem persönliche Dienstleistungen 24 Stunden am Tag, sieben Tage die Woche. Das System wird nicht um Mitternacht heruntergefahren. Das automatische Sprachsystem erledigt Routinearbeiten und bietet ausgezeichnete Dienstleistungen, die von Menschen angeboten werden können. Zusätzlich ist das automatische Sprachdialogsystem auf Grund der menschlichen Natur in verbaler Kommunikation eine große Unterstützung, wenn persönliche Dienstleistungen angeboten werden, so wie bei rund um die Uhr Service an 7 Tagen die Woche, ohne Unterbrechung. Das System hat schrittweise lästige Routinearbeit übernommen. Dementsprechend steigt die Qualität von Dienstleistungen, die Personal bieten kann.
  • Zur Zeit ist der Großteil der entwickelten oder in Entwicklung befindlichen Sprachtechnologie nicht ausgereift. Dementsprechend wurde der Vorteil einer gleichzeitigen Verwendung von mehreren Sprachtechnologieprodukten nicht berücksichtigt. Zum Beispiel haben diese Schnittstellen verschiedene Arbeitsabläufe und benötigen beträchtliche Berechnungs- und Speicherquellen. Deshalb muss der Anwender für die teuren Dienste und Systeme einzeln zahlen und sich je nach individueller Mensch-Maschine-Schnittstellenausgestaltung unterschiedlich verhalten.
  • Im Allgemeinen, beruhend auf der Vokabulargröße des Spracheingabesystems, gibt es Sprachbefehl-Steuerungsfunktionen mit geringem Vokabular und Sprachdialogfunktionen mit mittelgroßen und großem Vokabular. Es gibt lokale Kundensoftware und dezentrale Serversysteme. Verschiedene Anwendungssoftwares haben verschiedene Sprachanwenderschnittstellen, die nicht miteinander kommunizieren. Jedes Sprachdialogsystem entspricht nur einem Anwendungsgerät. Wenn viele Anwendungssysteme verwendet werden, müssten verschiedene Sprachanwenderschnittstellen gleichzeitig als verschiedene Unterstützungen behandelt werden. Diese Situation ist von Nachteil, da ein Anwender gleichzeitig mehrere Fernbedienungen verwendet. Die traditionelle Struktur wird in 1 gezeigt.
  • Wie in 1 gezeigt, umfasst die Struktur ein Mikrophon/Lautsprecher 110 um das Eingangssprachsignal vom Anwender zu empfangen. Das Signal wird dann in ein digitales Sprachsignal umgewandelt und an die Serversysteme 112, 114 und 116 mit dem Anwendungsprogramm wie in dieser Figur dargestellt, übertragen. Jedes Serversystem beinhaltet die Anwendungsprogramm-Anwender-Schnittstelle, die Spracherkennungsfunktion, die Sprachverständnisfunktion und die Dialogmanagementfunktion. Wenn der Anwender Befehle übers Telefon eingibt, wird das analoge Sprachsignal vom Telefon 120 über die Telefonschnittstellenkarten 130, 140 und 150 zu jeweils den Serversystemen 132, 142 und 152 übertragen. Jedes Serversystem beinhaltet die Anwendungsprogramm-Anwender-Schnittstelle, die Spracherkennungsfunktion, die Sprachverständnisfunktion und die Dialogmanagementfunktion. Verschiedene Anwendungssoftwares haben verschiedene Sprachanwenderschnittstellen, die nicht miteinander kommunizieren. Jedes Sprachdialogsystem entspricht nur einem Anwendungsgerät. Wenn viele Anwendungssysteme verwendet werden, müssen verschiedene Sprachanwenderschnittstellen angewandt werden und arbeiten, ohne voneinander zu wissen. Ein solche Vorgangsweise ist sehr kompliziert und nachteilig.
  • Zum Beispiel benutzen die meisten Sprachdialogsysteme über Telefonleitungen dezentrale Serversysteme, so wie Reservierungssysteme von Fluggesellschaften oder Krankenhäusern über natürliche Sprache. Die Sprachsignale oder die Sprachparameter werden am lokalen Terminal gesammelt und zum dezentralen Terminal über die Telefonleitung übertragen. Die dezentrale Spracherkennungs- und Sprachverständnisverarbeitungseinheit übersetzen die Sprachsignale in semantische Signale. Über die Dialogsteuerungseinheit und die Anwendungsverarbeitungseinheit des Anwendungssystems werden die vom Anwender eingegebene Kommunikation oder Befehle verarbeitet. Im Allgemeinen befinden sich die Spracherkennungs- und die Sprachverständnisverarbeitungseinheit im dezentralen Serversystem und werden mit einem sprecherunabhängigen Modell, wie in 2 dargestellt, verarbeitet.
  • Wie in 2 dargestellt, benutzt der Anwender das Telefon als Eingangsschnittstelle. Das Telefon 210 leitet die analogen Sprachsignale über das Telefonnetzwerk und die Telefonschnittstellenkarte 220 an das Serversystem 230. Das Serversystem 230 umfasst die Spracherkennungseinheit 232, die Sprachverständniseinheit 234, die Dialogmanagementeinheit 236 und den verbundenen Datenbankserver 240. Das Serversystem 230 erzeugt eine Sprache 238 und leitet diese über die Telefonschnittstellenkarte 220 an den Anwender weiter.
  • Offensichtlich hat diese Struktur Nachteile, trotzdem ist es schwierig das Problem zu beseitigen. Erstens führt die gleichzeitige Verwendung verschiedener Sprachanwenderschnittstellen zu Verwechslungen. Zweitens wird die Installierung zusätzlicher oder verringerter Anwendungssoftwares) schwierig, da die vereinheitlichten Schnittstelle nicht mit der ursprünglichen Anwendungsumgebung verbunden ist. Was die Klangsignalleitung und Modellvergleichberechnungen betrifft, ist ein weiteres Betriebsproblem, einen konkurrierenden Zugriff der Schnittstellen auf Quellen zu vermeiden. Drittens unterstützen sich unabhängige, akustische Vergleichsmaschinen und Modellparameter nicht und können ihre Quellen nicht gemeinsam verwenden. Im Stand der Technik können zum Beispiel akustische Signale und die gehäuften Gewohnheiten des Anwenders nicht gesammelt werden, die Anpassungstechnologie kann nicht verwendet werden, um die anwenderabhängigen, akustischen Modellparameter, die Sprachmodellparameter und die Anwendungsfavoritenparameter zu verbessern. Generell ist die Spracherkennungsgenauigkeit nach der Anpassung viel besser als jene des sprecherunabhängigen Basissystems.
  • Dementsprechend bietet eine vereinheitlichte Sprachanwenderschnittstelle nicht nur eine vorteilhaftere Anwenderumgebung, sondern verbessert auch die ganze Leistung der Spracherkennung.
  • Zusammenfassung der Erfindung
  • Dementsprechend bietet die vorliegende Erfindung eine vereinheitlichte Spracheingabe-Dialogschnittstelle und verteiltes System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit mit einer vereinheitlichten Spracherkennungsfunktion und einer vereinheitlichten Dialogschnittstelle. Das System bietet nicht nur eine vorteilhafte Umgebung sondern steigert auch die Leistung der Spracherkennung.
  • Die vorliegende Erfindung bietet ein verteiltes System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit. Durch die Verwendung einer vereinheitlichten Spracheingabeschnittstelle, kann ein Anwender sich mit der einfachen vereinheitlichten Schnittstelle besser vertaut machen und die Genauigkeit bei der Erkennung der Sprache des Anwenders kann ebenfalls verbessert werden. Zusätzlich erlernt das System das persönliche Dialogmodell and damit wird die Verbraucherfreundlichkeit des Systems noch weiter verbessert.
  • Um die oben beschriebene Aufgabe zu lösen, sieht die vorliegende Erfindung ein verteiltes Sprachverarbeitungssystem vor, das eine Spracheingabeschnittstelle, eine Spracherkennungsschnittstelle, eine Sprachverarbeitungseinheit und eine Dialogmanagementeinheit umfasst. Die Spracheingabeschnittstelle empfängt ein Sprachsignal. Die Spracherkennungsschnittstelle, erkennt das empfangene Sprachsignal je nach Art des Sprachsignals und erzeugt daraufhin ein Spracherkennungsergebnis. Die Sprachverarbeitungseinheit empfängt und analysiert das Spracherkennungsergebnis und erzeugt ein semantisches Signal. Die Dialogmanagementeinheit empfängt und bestimmt das semantische Signal und erzeugt dann eine semantische Information, die dem Sprachsignal entspricht.
  • Im verteilten Sprachverarbeitungssystem umfasst die Spracherkennungsschnittstelle eine Modellabgleichfunktion, so dass ein Klangmodell das Sprachsignal durch die Modellabgleichfunktion erkennt. In der Modellabgleichfunktion bezieht sich das sprecherabhängige und geräteabhängige Klangmodell auf ein übliches Modell, das als Anfangsmodellparameter sprecherunabhängig und geräteunabhängig ist, um einen Parameter des Klangmodels so anzupassen, dass das Erkennungsergebnis optimiert ist.
  • Im verteilten Sprachverarbeitungssystem umfasst das System des weiteren in einer Ausführungsform eine Zuordnungseinheit zwischen der Spracherkennungsschnittstelle und der Sprachverarbeitungseinheit, um das Spracherkennungsergebnis zu empfangen und zuzuordnen; gemäß einem Zwischensignal-Ausgabeprotokoll, um ein Zuordnungssignal, das als Spracherkennungssignal dient, zu erzeugen und an die Sprachverarbeitungseinheit zu übertragen. Das Verfahren zur Übertragung des Zuordnungssignals an die Sprachverarbeitungseinheit umfasst ein Ausstrahlungsverfahren, ein Verfahren über ein Kabelkommunikationsnetzwerk oder ein Verfahren über ein kabelloses Kommunikationsnetzwerk. Im oben beschriebenen Zwischensignal-Ausgabeprotokoll, wird das Zuordnungssignal aus einer Vielzahl an Worteinheiten und einer Vielzahl an Teilworteinheiten gebildet. Die Teilworteinheiten umfassen eine chinesische Silbe, ein englisches Phonem, eine Vielzahl an englischen Phonemen oder eine englische Silbe.
  • Gemäß dem oben beschriebenen, Zwischensignal-Ausgabeprotokoll, ist das Zuordnungssignal eine/ein aus einer Vielzahl an Worteinheiten und einer Vielzahl an Teilworteinheiten bestehende Sequenz oder Verband.
  • Im verteilten Sprachverarbeitungssystem erzeugt die Dialogmanagementeinheit semantische Informationen, die dem Sprachsignal entsprechen. Wenn die semantische Information, die dem von der Dialogmanagementeinheit erzeugten Sprachsignal entspricht, ein Sprachbefehl ist, wird eine Handlung, die dem Sprachbefehl entspricht, ausgeführt. In einer Ausführungsform wird die Handlung, die dem Sprachbefehl entspricht, ausgeführt, wenn der Sprachbefehl größer ist als ein Vertrauensindex.
  • Im verteilten Sprachverarbeitungssystem umfasst die Sprachverarbeitungseinheit eine Sprachverständniseinheit und eine Datenbank. Die Sprachverständniseinheit empfängt und analysiert das Spracherkennungsergebnis anschließend und greift auf die Datenbank zu, um das semantische Signal zu erhalten, das dem Spracherkennungsergebnis entspricht.
  • Im verteilten Sprachverarbeitungssystem ist in einer Ausführungsform das System nach einer verteilten Architektur strukturiert. In der verteilten Architektur befinden sich die Spracheingabeschnittstelle, die Spracherkennungsschnittstelle und die Dialogmanagementeinheit in einem Anwenderterminal und die Sprachverarbeitungsarbeit in einem Serverterminal zur Systemanwendung.
  • Jedes Serverterminal zur Systemanwendung umfasst eine entsprechende Sprachverarbeitungseinheit. Diese Sprachverarbeitungseinheiten empfangen und analysieren die Spracherkennungsergebnisse, um die semantischen Signale zu erhalten und zur Dialogmanagementeinheit zu übertragen; gemäß der Bestimmung der semantischen Signale werden semantische Informationen, die den semantischen Signalen entsprechen, erzeugt. Gemäß dem verteilten Sprachverarbeitungssystem, könnten sich in einer Ausführungsform die Spracheingabeschnittstelle, die Spracherkennungsschnittstelle, die Sprachverarbeitungseinheit und die Dialogmanagementeinheit in einem eigenständigen System in einem Anwenderterminal befinden.
  • Gemäß dem verteilten Sprachverarbeitungssystem erhöht in einer Ausführungsform die Spracherkennungsschnittstelle die Erkennungseffizient durch Lernen je nach Dialoggewohnheiten des Anwenders. Darüber hinaus umfasst die Spracheingabeschnittstelle einen Begrüßungssteuerungsmechanismus und Begrüßungen der Spracheingabeschnittstelle können von einem Anwender geändert werden.
  • Die vorliegende Erfindung sieht auch ein Verfahren zur Ausgabe eines Zwischensignals und ein Protokoll, das im Verfahren verwendet wird, vor. Das Verfahren ist für ein verteiltes Sprachverarbeitungssystem angepasst. Das verteilte Sprachverarbeitungssystem ist nach einer verteilten Architektur strukturiert. Die verteilte Architektur umfasst ein Anwenderterminal und ein Serverterminal zur Systemanwendung. Das Anwenderterminal umfasst eine Spracherkennungsschnittstelle und eine Dialogmanagementeinheit. Das Serverterminal zur Systemanwendung umfasst eine Sprachverarbeitungseinheit. In diesem Verfahren zur Ausgabe eines Zwischensignals empfängt und analysiert die Spracherkennungsschnittstelle ein Sprachsignal, um ein Spracherkennungsergebnis zu erzeugen. Das Spracherkennungsergebnis wird in ein Signal verwandelt, das aus einer Vielzahl von Worteinheiten und einer Vielzahl von Teilworteinheiten gemäß dem Zwischensignal-Ausgabeprotokoll gebildet ist. Das Signal wird dann zur Analyse an die Sprachverarbeitungseinheit übertragen, um eine semantischen Information zu erhalten. Die semantische Information wird an die Dialogmanagementeinheit übertragen, um durch eine Graphik- oder Stimmschnittstelle eine Antwort an den Benutzer zu erzeugen.
  • In dem Verfahren zur Ausgabe des Zwischensignals und einem Protokoll, das im Verfahren verwendet wird, umfasst das Teilwort eine chinesische Silbe, ein englisches Phonem, eine Vielzahl an englischen Phonemen oder eine englische Silbe. Das aus den entsprechend dem Zwischensignalprotokoll umgewandelten mehreren Wort- und Teilworteinheiten bestehende Signal ist eine Sequenz oder ein Verband, die/der aus einer Vielzahl an Worteinheiten und einer Vielzahl an Teilworteinheiten besteht.
  • Die oben genannten und andere Merkmale der vorliegenden Erfindung werden durch die folgende detaillierte Beschreibung der bevorzugten Ausführungsformen der Erfindung, in Zusammenhang mit den begleitenden Zeichnungen, besser verständlich.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist eine Zeichnung, die ein Spracheingabesystem nach Stand der Technik zeigt.
  • 2 ist ein Blockdiagram, das einen Spracherkennungs- und Sprachanalyse-Verarbeitungsschaltkreis eines traditionellen Spracheingabesystems zeigt.
  • 3 ist eine Zeichnung, die eine verteilte Systemarchitektur mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit mit einer vereinheitlichten Spracherkennungsfunktion und einer vereinheitlichten Dialogschnittstelle gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • 4 zeigt wie verschiedene Sätze an die üblichen chinesischen Wörter gekoppelt werden, so dass alle möglichen Sätze in einem Verband gezeigt werden.
  • Beschreibung einiger Ausführungsformen
  • Die vorliegende Erfindung sieht eine vereinheitlichte Spracheingabe-Dialogschnittstelle und ein verteiltes System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit mit der vereinheitlichten Spracherkennungsfunktion und der vereinheitlichten Dialogschnittstelle vor. Das System bietet nicht nur eine vorteilhafte Umgebung, sondern verbessert auch die ganze Leistung der Spracherkennung.
  • Die Mensch-Maschine-Schnittstellentechnologie, die Spracheingabe verwendet, wird ausgereifter. Um verschiedene Anwendungsapparate zu steuern, um verschiedene Informationen zu suchen oder Reservierungen zu machen, können verschiedene Eingabeschnittstellen benötigt werden. Wenn diese Schnittstellen unterschiedliche Arbeitsabläufe haben und wenn jede von ihnen eine beträchtliche Berechnungs- und Speicherquelle benötigt, wird das einen Anwender stören. Dementsprechend wird eine einfache Schnittstelle, mit einfacher Bedienung und einfachen Verbindungen zu verschiedenen Anwendungssystemen, um eine vereinheitlichte Anwenderumgebung vorzusehen, sehr wichtig für Entwicklung und Kommerzialisierung von fortschrittlicher Sprachtechnologie. Da diese Schnittstellen unterschiedliche Betriebsweisen haben und jede beträchtliche Berechnungen und Speicher belegt, wird der Anwender von den komplizierten und nachteiligen Anwendungen gestört sein. Dementsprechend ist eine vereinfachte und einfach zu bedienende Schnittstelle, die mit verschiedenen Anwendungssystemen verbunden ist, um eine vereinheitlichte Anwenderumgebung zu bieten, grundlegend, besonders für die Entwicklung und Beliebtheit fortschrittlicher Sprachtechnologie.
  • Um den oben beschriebenen Aspekt zu lösen, ist in der vorliegenden Erfindung eine vereinheitlichte Spracheingabeschnittstelle vorgesehen, so dass ein Anwender sich mit der vereinheitlichten Schnittstelle vertraut machen kann; die Spracherkennungsgenauigkeit der Anwendung ist erhöht; das System erlernt auch das persönliche Dialogmodell und so ist auch die Verbraucherfreundlichkeit des Systems verbessert.
  • Zuerst wird das Klangmodell, das sprecherabhängig und geräteabhängig ist, an einem lokalen Terminalgerät angebracht. Diese Struktur bietet dem Anwender eine bessere akustische Vergleichsqualität. In einer Ausführungsform kann das Klangmodell ein übliches Modell benutzen, das als Anfangsmodell sprecherunabhängig und geräteunabhängig ist, um schrittweise durch die Modellableichtechnologie die Modellparameter, die sprecherabhängig und geräteabhängig sind, zu verbessern. Die Erkennungsgenauigkeit wird so beträchtlich verbessert. In einer Ausführungsform können ein Lexikon, das engen Bezug zur Spracherkennung hat und ein N-Gramm-Modell, das sprachabhängig ist, in der Modellabgleichtechnologie verwendet werden, um die Erkennungsqualität zu verbessern.
  • Das erwähnte Lexikon stellt der Spracherkennungsmaschine Zeichen und Informationen von entsprechenden Klangeinheiten bereit. Zum Beispiel ist das Wort „recognition" in chinesischen Silbeneinheiten /bian4/ /ren4/, oder in Phonemeinheiten /b/, /i4/, /e4/, /M/, /r/, /e4/ und /M/. Gemäß der Information bildet die Spracherkennungsmaschine das Klangvergleichmodell, wie das Versteckte Markov Model (HMM: Hidden Markov Model).
  • Das beschriebene N-Gramm-Modell zeichnet Ungleichheiten von Verbindung von verschiedenen Zeichen auf, wie die Ungleichheiten in der Verbindung zwischen „Republic of" und „China", zwischen „People of" und „Republic of" und zwischen „Republic of" und anderen Zeichen. Es stellt auch die Verbindungsmöglichkeiten zwischen verschiedenen Zeichen dar. Da die Funktion einer grammatikalischen Funktion ähnelt, wird sie mit „Gramm" bezeichnet. In einer engeren Definition: Ein Modell bezeichnet die Häufigkeit von N-Buchstaben/Worten, die verbunden werden. Zum Beispiel, zusätzlich zum Üben der Aussprache von Chinesischen Zeichen/Worten, sollte ein Nicht-Chinese mehrere Artikel lesen um die Verbindungen zwischen diesen Zeichen zu lernen. Das N-Gramm-Modell schätzt auch die Ungleichheiten der Verbindungen von verschiedenen Zeichen/Wörtern durch das Abfragen von gewaltigen Artikelmengen.
  • Mit dem Zwischensignal-Ausgabeprotokoll des Spracherkennungsgeräts, kann das Spracherkennungsergebnis am Vorderende von der Verarbeitungseinheit am Rückende akzeptiert werden, so dass die Bedeutung von den Wörtern exakt eingehalten werden kann. In verschiedenen Anwendungsgeräten werden verschiedene Wortgruppen verwendet. Wenn eine Wortgruppe als Einheit verwendet wird, werden neue erkennbare Wortgruppen kontinuierlich durch die steigende Anzahl an Anwendungsprogrammen geschaffen. Es wird nicht zu störend sein, wenn es nur wenige Anwendungssysteme gibt. Wenn viele Anwendungssysteme verwendet werden, wird die große Anzahl von Wortgruppen die Spracherkennungseinheit am Vorderende ernsthaft verzögern. Dementsprechend beinhalten die gemeinsam benutzten Zwischensignale die gemeinsam benutzten üblichen Wörter und die gemeinsam benutzten Teilwörter. Die üblichen Wörter können häufig verwendete Sprachbefehle beinhalten. Das Hinzufügen von üblichen Wörtern verbessert die Erkennungsgenauigkeit und vermindert beträchtlich Verwechslungen bei der Erkennung. Die oben genannten Teilwörter sind Fragmente, die kleiner sind als eine Worteinheit, so wie eine chinesische Silbe, ein englisches Phonem, mehrere englische Phoneme oder eine englische Silbe.
  • Die oben beschriebene Silbe ist eine chinesische phonetische Einheit. Es gibt ungefähr 1.300 Tonsilben, oder ungefähr 408 tonlose Silben. Jedes chinesische Zeichen ist eine einzelne Silbe. Mit anderen Worten, jede Silbe steht für die Aussprache eines Zeichens. In einem Artikel steht die Anzahl an Silben für die Anzahl an Zeichen. Zum Beispiel ist das chinesische Zeichen
    Figure 00110001
    , das von der Tonsilbe des Hanyu Pinyin Systems gezeigt wird, /guo2/, und das chinesische Zeichen
    Figure 00110002
    ist /jial/; oder /guo/ und /jia/ sind die tonlosen Silben.
  • In dem oben beschriebenen englischen Phonem, werden zahlreiche englische Phoneme oder englische Silben in Englisch verwendet, bei denen der Großteil der Phonetik eines englischen Wortes eine Multisilbe ist. Wenn der automatische Spracherkenner verwendet wird, um Englisch zu erkennen, sollten angemessene Mengen klangüblicher Einheiten, die kleiner sind als die Multisilben schon im Vorhinein vorgesehen werden, um als die Modellvergleicheinheiten zu dienen. Sie sollten einzelne Silbeneinheiten oder Teilsilbeneinheiten beinhalten. Die am häufigsten verwendeten Phonemeinheiten in der englischen Phonologielehre umfassen zum Beispiel: /a/, /i/, /u/, /e/ and /o/ etc.
  • Die Ausgabe der Spracherkennung am Vorderende kann eine aus N-Best üblichen Wörtern und Teilwörtern bestehende Sequenz sein. In einer anderen Ausführungsform kann es ein Verband einer üblichen Einheit sein. Während ein Anwender einen Satz sagt (einige Worte äußert), vergleicht der Spracherkenner den Klang, um ein Erkennungsergebnis mit den meisten Vergleichstreffern zu erzeugen. Da die Erkennungsgenauigkeit nicht bei 100% liegt, kann die Ausgabe des Erkennungsergebnisses verschiedene mögliche Erkennungsergebnisse beinhalten. Die Ausgabeform mit N-Folgen von Wortsequenzergebnissen wird das N-Best Erkennungsresultat genannt. Jede Folge von Wortsequenzergebnissen ist eine unabhängige Wortfolge.
  • Eine weitere mögliche Ausgabeform ist ein Verband, was heißt der Wortverband bildet, dass die üblichen Wörter von verschiedenen Wortfolgen einen Knoten bilden. Verschiedene Sätze werden an die üblichen chinesischen Wörter gekoppelt, so dass alle möglichen Sätze in einem Verband wie in 4 gezeigt werden:
    In 4 haben die chinesischen Schriftzeichen folgende Bedeutung:
    Knoten 1 steht für den Start Knoten.
    Knoten 5 steht für den End Knoten.
    Knoten 1 2
    Figure 00120001
    stehen für Treffer (1, 2,
    Figure 00120002
    ).
    Knoten 1 2
    Figure 00120003
    stehen für Treffer (1, 2,
    Figure 00120004
    ).
    Knoten 2 3
    Figure 00120005
    stehen für Treffer (2, 3,
    Figure 00120006
    ).
    Knoten 2 3
    Figure 00120007
    stehen für Treffer (2, 3,
    Figure 00120008
    ).
    Knoten 3 5
    Figure 00120009
    stehen für Treffer (3, 5,
    Figure 00120010
    ).
    Knoten 4 5
    Figure 00120011
    stehen für Treffer (4, 5,
    Figure 00120012
    ).
  • Die oben beschriebene Sequenz oder Verband wird dann ausgestrahlt, oder über ein Kabelkommunikationsnetzwerk oder eine kabelloses Kommunikationsnetzwerk übertragen. Sie/er wird von verschiedenen Anwendungs-Analysegeräten empfangen. Sie/er kann auch zum Sprachverarbeitungs-Analysegerät übertragen werden, um den semantischen Inhalt der Sequenz oder des Verbands nicht über ein Netzwerk zu analysieren. Jedes Sprachverarbeitungs-Analysegerät analysiert und verarbeitet die Sequenz oder den Verband individuell, um den entsprechenden semantischen Inhalt zu erhalten. Diese Sprachverständnis-Verarbeitungseinheiten entsprechen individuell verschiedenen Anwendungssystemen. Deshalb beinhalten sie verschiedene Lexika und Grammatiken. Diese Sprachverständnis-Verarbeitungsschritte schließen unerkennbare Zwischensignale aus (inklusive einiger üblichen Worte und Teilworte) und behalten erkennbare Signale, um so die Satzstrukturen weiter zu analysieren und den grammatikalischen Vergleich aufzustellen. Dann wird das beste und vertrauenswürdigste semantische Signal ausgegeben und zum Spracheingabeschnittstellenapparat des lokalen Terminals des Anwenders übertragen.
  • Die Dialogmanagementeinheit des Spracheingangsschnittstellenapparats sammelt alle übertragenen semantischen Signale. Durch Hinzufügen des linguistischen Kontexts des semantischen Signals, kann das optimierte Ergebnis erzielt werden. Zahlreiche Modalitäten würden dann verwendet, um dem Anwender zu antworten, um einen Dialog während der Konversation zu vervollständigen. Wenn es als Sprachbefehlt bestimmt wird und wenn der Vertrauensindex ausreicht, wird die nachfolgende Handlung, die vom Befehl gesteuert wird, ausgeführt und die Arbeit ist getan.
  • 3 ist eine Zeichnung, die eine verteilte Systemarchitektur mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit mit einer vereinheitlichten Spracherkennungsfunktion und einer vereinheitlichten Dialogschnittstelle gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. In dieser Ausführungsform kann es ein Spracheingabe-/Dialogverarbeitungs-Schnittstellenapparat sein. Wie in 3 gezeigt, umfasst das System zwei Sprachverarbeitungsschnittstellen 310 und 320 und zwei Anwendungsserver 330 und 340. Die vorliegende Erfindung ist jedoch nicht darauf begrenzt. Die Anzahl an Sprachverarbeitungsschnittstellen und an Anwendungsservern ist variabel.
  • Die Sprachverarbeitungsschnittstelle 310 umfasst eine Spracherkennungseinheit 314, eine verknüpfende Wortzuordnungseinheit 316 und eine Dialogmanagementeinheit 318. In der Sprachverarbeitungsschnittstelle 310, wird der Klangmodus, der sprecherabhängig und geräteabhängig ist, an dem lokalen Gerät angeordnet. Die Struktur erhöht die akustische Vergleichsqualität. Die Sprachverarbeitungsschnittstelle 310 empfängt ein Sprachsignal von einem Anwender. Die Sprachverarbeitungsschnittstelle 310 kann weiterhin, wie in 3 gezeigt, eine Sprachempfangseinheit 312 umfassen, wie ein Mikrophon, um das Sprachsignal des Anwenders vorteilhaft zu empfangen.
  • Eine weitere Sprachverarbeitungsschnittstelle 320 umfasst eine Spracherkennungseinheit 324, eine verknüpfende Wortzuordnungseinheit 326 und eine Dialogmanagementeinheit 328. Die Sprachverarbeitungsschnittstelle 320 empfängt ein Sprachsignal von einem Anwender. Die Sprachverarbeitungsschnittstelle 320 kann des weiteren, wie in 3 gezeigt, eine Sprachempfangseinheit 322, wie ein Mikrophon beinhalten, um das Sprachsignal des Anwenders vorteilhaft zu empfangen. In dieser Ausführungsform empfängt die Sprachempfangseinheit 322 das Sprachsignal vom Anwender A.
  • In der Sprachverarbeitungsschnittstelle 310 kann das Klangmodell, das sprecherabhängig und geräteabhängig ist, in der Spracherkennungseinheit 314 angeordnet sein. Die Struktur kann die akustische Vergleichsqualität verbessern. In einer Ausführungsform zum Aufbau des Klangmodells, das sprecherabhängig und geräteabhängig ist, dient ein übliches Modell, das sprecherunabhängig und geräteunabhängig ist, als ein Anfangsmodell. Durch Verwendung der Modellabgleichtechnologie können die Modellparameter, die sprecherabhängig und geräteabhängig sind, verbessert werden und die Erkennungsgenauigkeit ist ebenfalls beträchtlich verbessert.
  • In einer Ausführungsform wird das Lexikon oder N-Gramm-Modell, das eng mit der Spracherkennung verbunden ist, auf die Modellableichstechnologie angewandt, um die Erkennungsgenauigkeit zu verbessern.
  • In der Sprachverarbeitungsschnittstelle 310 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung, führt die verknüpfende Wortzuordnungseinheit 316 gemäß einem Zwischensignal-Ausgabeprotokoll einen Zuordnungsvergleich der Ausgabe von der Sprachverarbeitungsschnittstelle 310 und des Spracherkennungsergebnisses aus, das von der Spracherkennungseinheit 314 ausgegeben wurde. Das Ausgabeergebnis von der Sprachverarbeitungsschnittstelle 310 wird dann ausgegeben. Da die Verarbeitungseinheit am Rückende auch das Signal gemäß dem Zwischensignal-Ausgabeprotokoll erkennt, ist das Spracherkennungsergebnis auch akzeptierbar und die semantische Erkennungsgenauigkeit kann erhalten werden. Im Zwischensignal-Ausgabeprotokoll gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist das vom Anwender übertragene Signal normalerweise ein Signal, das aus üblichen Worten und Teilworten besteht.
  • In der traditionellen Architektur werden zahlreiche Kombination von Wortgruppen in verschiedenen Anwendungsgeräten verwendet. Wenn die Einheit eine Wortgruppe ist, wird die neue Erkennung von Wortgruppen durch die höhere Anzahl an Anwendungsprogrammen kontinuierlich erhöht. Es wird nicht viele Probleme bereiten, wenn es wenige Anwendungssysteme gibt. Wenn es jedoch viele Anwendungssysteme gibt, wird die Anzahl der Wortgruppen die Spracherkennungseinheit am Vorderende ernsthaft verzögern. Dementsprechend erzeugt das Spracherkennungsergebnis gemäß der Spracherkennungseinheit 314 in der Ausführungsform der vorliegenden Erfindung, nach dem Zuordnungsvergleich durch die verknüpfende Wortzuordnungseinheit 316, gemeinsam benutzte Signale von üblichen Worten und Teilworten. Sowohl der Signalsender als auch der Signalempfänger können die durch das Zwischensignal-Ausgabeprotokoll definierten Signale erkennen und verarbeiten.
  • Die oben beschriebenen Teilworte sind Fragmente, die kleiner als Worte sind, so wie eine chinesische Silbe, ein englisches Phonem, viele englische Phoneme oder eine englische Silbe. Die üblichen Worte umfassen häufig verwendete Sprachbefehle. Das Hinzufügen der üblichen Worte verbessert die Erkennungsgenauigkeit und reduziert beträchtlich Verwechslungen bei der Erkennung. Die Ausgabe der Spracherkennung am Vorderende kann zum Beispiel eine N-Best-Sequenz üblicher Worte, oder Teilworte oder ein Verband einer üblichen Einheit wie zuvor beschrieben, sein.
  • In der Sprachverarbeitungsschnittstelle 310, wird gemäß dem Zwischensignal-Ausgabeprotokoll das ausgegebene Spracherkennungsergebnis nach dem Zuordnungsvergleich durch die verknüpfende Wortzuordnungseinheit 316 durch das Signal 311 an eine Sprachverarbeitungseinheit übertragen, um die Bedeutung der Worte zu erkennen. Zum Beispiel wird das Signal 311 zu den Anwendungsservern (A) 330 und (B) 340 übertragen. Das Signal 311 ist ein Sequenzsignal oder ein Verbandsignal, das dem Zwischensignal-Ausgabeprotokoll entspricht. Das Verfahren zur Übertragung des Signals 311 zu den Anwendungsservern (A) 330 und (B) 340 kann zum Beispiel ein Ausstrahlungsverfahren, ein Verfahren über ein Kabelkommunikationsnetzwerk oder ein Verfahren über ein kabelloses Kommunikationsnetzwerk sein. Es wird von verschiedenen Anwendungsanalysegeräten empfangen oder sogar zu Analysegeräten des selben Apparats ohne Verwendung eines Netzwerks übertragen.
  • Wie in 3 gezeigt, umfasst der Anwendungsserver (A) 330 eine Datenbank 332 und eine Sprachverständniseinheit 334. Der Anwendungsserver (B) 340 umfasst eine Datenbank 342 und eine Sprachverständniseinheit 344. Wenn die Anwendungsserver (A) 330 und (B) 340 das Signal 311 empfangen, führt jeder von ihnen eine Sprachanalyse und Verarbeitung durch seine eigene Sprachverständniseinheit 334 oder 344 aus. Durch Zugriff auf die Datenbank 332 oder 342 kann die Wortbedeutung erhalten werden.
  • Was eine weitere Sprachverarbeitungsschnittstelle 320 betrifft, wird gemäß dem Zwischensignal-Ausgabeprotokoll das ausgegebene Spracherkennungsergebnis nach dem Zuordnungsvergleich durch die verknüpfende Wortzuordnungseinheit 326 durch das Signal 321 zu den Anwendungsservern (A) 330 und (B) 340 übertragen. Das Signal 321 ist ein Sequenzsignal oder ein Verbandsignal, das dem Zwischensignal-Ausgabeprotokoll entspricht. Wenn die Anwendungsserver (A) 330 und (B) 340 das Signal 311 empfangen, führt jeder von ihnen die Sprachanalyse und Verarbeitung durch seine eigene Sprachverständniseinheit 334 oder 344 aus. Durch Zugriff auf die Datenbank 332 oder 342 kann die Wortbedeutung erhalten werden.
  • Verschiedene Sprachverständniseinheiten entsprechen verschiedenen Anwendungssystemen. Deshalb beinhalten sie verschiedene Lexika und Grammatiken. Diese Sprachverständnis-Verarbeitungsschritte schließen unerkennbare Zwischensignale aus (inklusive einiger üblichen Worte und Teilworte) und behalten erkennbare Signale, um so die Satzstrukturen weiter zu analysieren und den grammatikalischen Vergleich aufzustellen. Dann wird das beste und vertrauenswürdigste semantische Signal ausgegeben. Die von der Sprachanalyse und Verarbeitung durch die Sprachverständniseinheiten 334 und 344 ausgegebenen Signale, werden durch die semantischen Signale 331 beziehungsweise 341 zu der Sprachverarbeitungseinheit 310, oder zu der Sprachverarbeitungseinheit 320 durch die semantischen Signale 333 beziehungsweise 343 übertragen.
  • Dann sammelt die Dialogmanagementeinheit des Spracheingabe-/Dialogverarbeitungs-Schnittstellenapparats, wie die Dialogmanagementeinheit 318 der Sprachverarbeitungsschnittstelle 310 oder die Dialogmanagementeinheit 328 der Sprachverarbeitungsschnittstelle 320, alle übertragenen semantischen Signale. Durch Hinzufügen des Kontexts des semantischen Signals kann das optimierte Ergebnis bestimmt werden. Zahlreiche Modalitäten würden dann verwendet, um dem Anwender zu antworten, um einen Dialog während der Konversation zu vervollständigen. Wenn es als ein Sprachbefehl bestimmt wird und wenn der Vertrauensindex ausreicht, wird die nachfolgende Handlung, die vom Befehl gesteuert wird, ausgeführt und die Arbeit ist getan.
  • In dem verteilten System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit mit der vereinheitlichten Spracherkennungsfunktion und der vereinheitlichten Dialogschnittstelle gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung, sind alle Dialoggeräte an verschiedenen Orten angebracht und kommunizieren mit- oder untereinander über verschiedene Übertragungsschnittstellen, wie eine Ausstrahlungsstation, ein Kabelkommunikationsnetzwerk oder ein kabelloses Kommunikationsnetzwerk. Das Signal wird von verschiedenen Anwendungsanalysegeräten empfangen oder zum Analysegerät des selben Apparats ohne Verwendung des Netzwerks übertragen.
  • Was eine Systemarchitektur einer Ausführungsform betrifft, kann sie eine verteilte Architektur sein. Zum Beispiel beinhalten das lokale Anwenderterminal, wie die Sprachverarbeitungsschnittstellen 310 und 320, die Funktionen zur Spracherkennungsverarbeitung und das Dialogmanagement. Die Sprachverständniseinheiten, die für die Sprachverständnis- und Analysefunktion dienen, können am Rückende des Systemanwendungsservers angebracht werden, d.h. die Sprachverständniseinheit 334 des Anwendungsservers (A) 330 oder die Sprachverständniseinheit 344 des Anwendungsservers (B) 340.
  • In einer Ausführungsform der vorliegenden Erfindung kann die Sprachverständniseinheit für die Sprachverständnis- und Analysefunktion am lokalen Anwenderterminal angebracht werden. Es hängt von den Ausgestaltungsanforderungen und der Verarbeitungsberechnungskapazität des Apparats am lokalen Anwenderterminal ab. Bei einem Wetterinformationssuchsystem, benötigt die Datenverarbeitung zum Beispiel eine große Menge an Berechnungs- und Speicherkapazität. Dementsprechend sind viele Betriebsprozessoren nötig, um diese Daten zu kalkulieren und zu verarbeiten. Die Grammatik der Daten, die verglichen werden müssen, ist auch komplizierter. Deshalb sollte das Anwendungssystem, das die Bedeutung von Sätzen analysiert, im dezentralen Terminal angebracht sein, d.h. im Anwendungsserverterminal. Wenn das Anwendungssystem viele seltsame Worte oder Wortgruppen, die sich von denen in anderen Anwendungssystemen unterscheiden, umfasst, ist es sinnvoll, so einen Vorgang am Anwendungsterminal auszuführen. Außerdem sammelt das Anwendungsserverterminal weiter das Lexikon und Satzstrukturen, die von verschiedenen Anwendern genutzt werden, um so dem System im Anwendungsserverterminal das Selbstlernen zu ermöglichen. Informationen, wie das persönliche Telefonbuch, das gewöhnlich am lokalen Anwenderterminal ist, sollten durch die Sprachverständniseinheit des lokalen Terminals verarbeitet werden.
  • Man nehme das Beispiel von Lichtsteuerung eines Konferenzraums. Normalerweise wird ein Prozessor mit Berechnungsfunktion nicht in einem Lichtset angebracht. Die Lichtsteuerung kann jedoch durch Übertragung eines kabellosen Befehls dahin ausgeführt werden, nachdem die lokale Sprachverständniseinheit verarbeitet hat. Es ist auch möglich, dass durch Verwendung eines kleinen Chips eine begrenzte Anzahl von Wörtern, wie „anschalten", „ausschalten", „Licht anschalten" oder „Licht ausschalten", darin verarbeitet werden können. Jedes der Anwendungssystemterminals und der Anwenderschnittstellenterminals umfasst Mehrfach-zu-Mehrfach-Kanäle (multiple-to-multiple). Verschiedene Anwender können die Stimme verwenden, um das Licht zu steuern oder die Wettervorhersage zu suchen.
  • In einer Ausführungsform bietet die vorgelegte Erfindung das verteilte System mit einer mehrfach anwendungsabhängigen Sprachverarbeitungseinheit mit der vereinheitlichten Spracherkennungsfunktion und der vereinheitlichten Dialogschnittstelle. Die Dialoggewohnheiten des Anwenders können durch lernen verbessert werden. Zum Beispiel variieren Begrüßungsworte, die in der Spracheingabeschnittstelle verwendet werden, je nach Anwender und können dennoch genau erkannt werden. Die Umschaltbefehle des Anwendungssystems, die verwendet werden, um die Bedienung oder den Dialog zu wechseln, können persönlich angepasst werden, um so die Anwendungen exakt zu schalten. In einer anderen Ausführungsform, die auf persönlicher Anwendung beruht, sind auch Befehle mit „nick names" möglich, um mehr Spaß und Verbrauchertreundlichkeit zu bieten. Einigen leicht zu vergessenden Namen von Anwendungen können personalisierte Namen gegeben werden. All diese Funktionen können von der vereinheitlichten Spracheingabeschnittstelle vorgesehen werden.
  • Das traditionelle Stimmnachricht(voice message)-Anwendungssystem umfasst gewöhnlich einen Spracherkenner und einen Sprachanalysierer, die sprecherunabhängig sind. Normalerweise deckt der Spracherkenner die meisten Berechnungen ab. Ein System kann eine begrenzte Anzahl an Telefonkanälen bewältigen. Wenn mehrere Telefonkanäle zu verarbeiten sind, werden die Kosten dramatisch steigen. Da die Kanäle, die Stimmen übertragen, mehr Quellen der Hardware belegen, wird das zum Engpass der Dienstleistung zu Spitzenzeiten und zu einem Anstieg der Kommunikationsgebühren führen. Wenn die Spracherkennung im Vorhinein am lokalen Anwenderterminal verarbeitet werden kann, können Kommunikationskosten durch Übertragung von ausschließlich Zwischensignalen (inklusive üblicher Worte und Teilworte) mit jeder Datenübertragungsleitung gespart werden. Die Verzögerung der Datenübertragung wird unterdrückt und die Kommunikationskosten werden reduziert. Ohne Sprachverarbeitung am Serverterminal, werden die Kosten für die Bedienungsquellen des Serverterminals gespart.
  • Die Struktur genügt nicht nur der Spracherkennungsgenauigkeit, sondern spart auch viele Kosten. Die vereinheitlichte Schnittstelle reduziert auch die Schwierigkeiten, die durch Hinzufügen oder Reduzieren von Anwendungsgeräten, entstehen. Damit bietet die vorliegende Erfindung mehr potentielle Fläche für Sprachtechnologieentwicklung. Mit dem Fortschritt der Entwicklung von zentralen Verarbeitungseinheiten (central processing units, CPUs), werden auch CPUs mit einer großen Menge von Berechnungen, angepasst für Handapparate, entwickelt. Mit diesen Techniken sind vorteilhaftere und langerwartete Mensch-Maschine-Schnittstellen in Greifweite.
  • Obwohl die vorliegende Erfindung an Hand exemplarischer Ausführungsformen beschrieben wurde, ist sie nicht darauf beschränkt. Vielmehr sollten die angefügten Ansprüche breit gefasst sein, um andere Varianten und Ausführungsformen der Erfindung, die von Fachleuten gemacht werden könnten, ohne von dem Schutzumfang und Bereich von Äquivalenten der Erfindung abzuweichen, einzuschließen.

Claims (40)

  1. Ein verteiltes Sprachverarbeitungssystem, das folgendes umfasst: eine Spracheingabeschnittstelle, die ein Sprachsignal empfängt; eine Spracherkennungsschnittstelle, gemäß dem empfangenen Sprachsignal, die ein Sprachsignal erkennt und anschließend ein Spracherkennungsergebnis erzeugt; eine Sprachverarbeitungseinheit, die das Spracherkennungsergebnis empfängt und analysiert, um ein semantisches Signal zu erzeugen; und eine Dialogmanagementeinheit, die das semantische Signal empfängt und bestimmt und anschließend eine semantische Information erzeugt, die dem Sprachsignal entspricht.
  2. Das verteilte Sprachverarbeitungssystem nach Anspruch 1, wobei die Spracherkennungsschnittstelle eine Modellabgleichfunktion umfasst, so dass ein Klangmodell das Sprachsignal durch die Modellabgleichfunktion erkennt.
  3. Das verteilte Sprachverarbeitungssystem nach Anspruch 1, das des weiteren eine Zuordnungseinheit zwischen der Spracherkennungsschnittstelle und der Sprachverarbeitungseinheit umfasst, um das Spracherkennungsergebnis zu empfangen und zuzuordnen; gemäß einem ausgegebenen Zwischensignalprotokoll, um ein Zuordnungssignal, das als das Spracherkennungsergebnis dient, zu erzeugen und an die Sprachverarbeitungseinheit zu übertragen.
  4. Das verteilte Sprachverarbeitungssystem nach Anspruch 3, wobei ein Verfahren zur Übertragung des Zuordnungssignals an die Sprachverarbeitungseinheit ein Ausstrahlungs-Verfahren umfasst.
  5. Das verteilte Sprachverarbeitungssystem nach Anspruch 3, wobei ein Verfahren zur Übertragung des Zuordnungssignals an die Sprachverarbeitungseinheit ein Verfahren über ein Kabelkommunikationsnetzwerk umfasst.
  6. Das verteilte Sprachverarbeitungssystem nach Anspruch 3, wobei ein Verfahren zur Übertragung des Zuordnungssignals an die Sprachverarbeitungseinheit ein Verfahren über ein kabelloses Kommunikationsnetzwerk beinhaltet.
  7. Das verteilte Sprachverarbeitungssystem nach Anspruch 3, wobei im Zwischensignal-Ausgabeprotokoll das Zuordnungssignal aus einer Vielzahl von Worteinheiten und einer Vielzahl an Teilworteinheiten gebildet wird.
  8. Das verteilte Sprachverarbeitungssystem nach Anspruch 7, wobei die Teilworteinheit eine Chinesische Silbe umfasst.
  9. Das verteilte Sprachverarbeitungssystem nach Anspruch 8, wobei die Teilworteinheit ein englisches Phonem umfasst.
  10. Das verteilte Sprachverarbeitungssystem nach Anspruch 8, wobei die Teilworteinheit eine Vielzahl an englischen Phonemen umfasst.
  11. Das verteilte Sprachverarbeitungssystem nach Anspruch 8, wobei die Teilworteinheit eine englische Silbe umfasst.
  12. Das verteilte Sprachverarbeitungssystem nach Anspruch 3, wobei das Zuordnungssignal eine Sequenz ist, die aus Worteinheiten und Teilworteinheiten besteht.
  13. Das verteilte Sprachverarbeitungssystem nach Anspruch 3, wobei das Zuordnungssignal ein Verband ist, der aus einer Vielzahl an Worteinheiten und einer Vielzahl an Teilworteinheiten besteht.
  14. Das verteilte Sprachverarbeitungssystem nach Anspruch 1, wobei, wenn die semantische Information, die dem von der Dialogmanagementeinheit gebildeten Sprachsignal entspricht, ein Sprachbefehl ist, eine Handlung entsprechend des Sprachbefehls ausgeführt wird.
  15. Das verteilte Sprachverarbeitungssystem nach Anspruch 14, wobei, wenn die semantische Information, die dem von der Dialogmanagementeinheit gebildeten Sprachsignal entspricht, der Sprachbefehl ist, bestimmt wird, ob der Sprachbefehl wichtiger ist als ein bekannter Befehl; ist dies der Fall, wird die dem Sprachbefehl entsprechende Handlung ausgeführt.
  16. Das verteilte Sprachverarbeitungssystem nach Anspruch 1, wobei die Sprachverarbeitungseinheit eine Sprachverständniseinheit und eine Datenbank umfasst, die Sprachverständniseinheit das Spracherkennungsergebnis empfängt und dann analysiert und auf die Datenbank zugreift, um das dem Spracherkennungsergebnis entsprechende, semantische Signal zu erhalten.
  17. Das verteilte Sprachverarbeitungssystem nach Anspruch 1, wobei das System nach einer unterteilten Architektur strukturiert ist; wobei sich in der verteilten Architektur die Spracheingabeschnittstelle, die Spracherkennungsschnittstelle und die Dialogmanagementeinheit in einem Anwenderterminal, und die Sprachverarbeitungseinheit in einem Serverterminal zur Systemanwendung befinden.
  18. Das verteilte Sprachverarbeitungssystem nach Anspruch 17, wobei jedes Serverterminal zur Systemanwendung eine ihm entsprechende Sprachverarbeitungseinheit umfasst, die Sprachverarbeitungseinheit das Spracherkennungsergebnis empfängt und analysiert, um das semantische Signal zu erhalten und an die Dialogmanagementeinheit eines Schnittstellengeräts zur Spracheingabe-/Dialogverarbeitung zu übertragen; und gemäß dem semantischen Signal von dem Serverterminal zur Systemanwendung eine Mehrfachanalyse ausgeführt wird.
  19. Das verteilte Sprachverarbeitungssystem nach Anspruch 1, wobei sich gemäß einer unterteilten Architektur die Spracheingabeschnittstelle, die Spracherkennungsschnittstelle, die Sprachverarbeitungsschnittstelle und die Dialogmanagementeinheit in einem Anwenderterminal und die Sprachverarbeitungseinheit in einem Serverterminal zur Systemanwendung befinden.
  20. Das verteilte Sprachverarbeitungssystem nach Anspruch 1, wobei die Spracherkennungsschnittstelle die Erkennungseffizienz erhöht, indem sie gemäß den Dialoggewohnheiten eines Anwenders lernt.
  21. Das verteilte Sprachverarbeitungssystem nach Anspruch 1, wobei die Spracheingabeschnittstelle einen Begrüßungskontrollmechanismus umfasst und eine Begrüßung der Spracheingabeschnittstelle von einem Anwender geändert werden kann.
  22. Das verteilte Sprachverarbeitungssystem nach Anspruch 2, wobei in der Modellabgleichfunktion das Klangmodell, das sprecherabhängig und geräteabhängig ist, als Anfangsmodellparameter zur Anpassung eines Parameters des Klangmodells auf ein gewöhnliches Modell zugreift, das sprecherunabhängig und geräteunabhängig ist.
  23. Das verteilte Sprachverarbeitungssystem nach Anspruch 2, wobei die Modellabgleichfunktion die Verwendung eines Lexikons für den Abgleich umfasst.
  24. Das verteilte Sprachverarbeitungssystem nach Anspruch 2, wobei die Modellabgleichfunktion ein N-Gram als Basis für den Abgleich umfasst.
  25. Das verteilte Sprachverarbeitungssystem, mit folgenden Komponenten: eine Spracheingabeschnittstelle, die ein Sprachsignal empfängt, eine Spracherkennungsschnittstelle, gemäß dem empfangenen Sprachsignal, die dieses erkennt und ein Spracherkennungsergebnis erzeugt, eine Vielzahl von Sprachverarbeitungseinheiten, die das Spracherkennungsergebnis empfängt und analysiert, um eine Vielzahl von semantischen Signalen zu erzeugen, und eine Dialogmanagementeinheit, welche die semantischen Signale empfängt und bestimmt und anschließend eine semantische Information erzeugt, die dem Sprachsignal entspricht.
  26. Das verteilte Sprachverarbeitungssystem nach Anspruch 25, das des weiteren eine Zuordnungseinheit zwischen der Spracherkennungsschnittstelle und der Sprachverarbeitungseinheit umfasst, um das Spracherkennungsergebnis zu empfangen und zuzuordnen, gemäß einem Zwischensignal-Ausgabeprotokoll, um ein Zuordnungssignal, das als das Spracherkennungsergebnis dient, zu erzeugen und an die Sprachverarbeitungseinheit zu übertragen.
  27. Das verteilte Sprachverarbeitungssystem nach Anspruch 25, wobei, wenn die, semantische Information, die dem von der Dialogmanagementeinheit gebildeten Sprachsignal entspricht, ein Sprachbefehl ist, eine diesem Sprachbefehl entsprechende Handlung ausgeführt wird.
  28. Das verteilte Sprachverarbeitungssystem nach Anspruch 27, wobei, wenn die semantische Information, die dem vom Dialogmanagement gebildeten Sprachsignal entspricht, der Sprachbefehl ist, bestimmt wird, ob der Sprachbefehl wichtiger ist als ein bekannter Befehl; ist dies der Fall, wird die dem Sprachbefehl entsprechende Handlung ausgeführt.
  29. Das verteilte Sprachverarbeitungssystem nach Anspruch 25, wobei die Sprachverarbeitungseinheit eine Sprachverständniseinheit und eine Datenbank umfasst, die Sprachverständniseinheit das Spracherkennungsergebnis empfängt und dann analysiert und auf die Datenbank zugreift, um das dem Spracherkennungsergebnis entsprechende, semantische Signal zu erhalten.
  30. Das verteilte Sprachverarbeitungssystem nach Anspruch 25, wobei das System nach einer unterteilten Architektur strukturiert ist; in der unterteilten Architektur befinden sich die Spracheingabeschnittstelle, die Spracherkennungsschnittstelle und die Dialogmanagementeinheit in einem Anwenderterminal, und die Sprachverarbeitungseinheit in einem Serverterminal zur Systemanwendung.
  31. Das verteilte Sprachverarbeitungssystem nach Anspruch 30, wobei jedes Serverterminal zur Systemanwendung eine ihm entsprechende Sprachverarbeitungseinheit umfasst, die Sprachverarbeitungseinheit das Spracherkennungsergebnis empfängt und analysiert, um das semantische Signal zu erhalten und zur Dialogmanagementeinheit eines Spracheingabe-/Dialogverarbeitenden Schnittstellenapparats zu übertragen; und gemäß dem semantischen Signal von dem Serverterminal zur Systemanwendung eine Mehrfachanalyse ausgeführt wird.
  32. Das verteilte Sprachverarbeitungssystem nach Anspruch 25, wobei die Spracherkennungsschnittstelle die Erkennungseffizienz durch Lernen von den Dialoggewohnheiten des Anwenders.
  33. Das verteilte Sprachverarbeitungssystem nach Anspruch 25, wobei die Spracheingabeschnittstelle einen Begrüßungskontrollmechanismus umfasst und eine Begrüßung der Spracheingabeschnittstelle von einem Anwender geändert werden kann.
  34. Verfahren zur Ausgabe eines Zwischensignals, wobei das Verfahren sich eines ausgegebnen Zwischensignalprotokolls, das einem verteilten Sprachverarbeitungssystem angepasst wurde, bedient, das verteilte Sprachverarbeitungssystem nach einer unterteilten Architektur strukturiert ist, die unterteilte Architektur ein Anwenderterminal und ein Serverterminal zur Systemanwendung umfasst, das Anwenderterminal eine Spracherkennungsschnittstelle und eine Dialogmanagementeinheit umfasst, das Serverterminal zur Systemanwendung eine Sprachverarbeitungseinheit und das Verfahren zum Ausgeben des Zwischensignals folgendes umfasst: Empfangen und Analysieren eines Sprachsignals durch die Spracherkennungsschnittstelle, um ein Spracherkennungsergebnis zu erzeugen, Unwandeln des Spracherkennungsergebnisses in ein Signal, das aus einer Vielzahl an Worteinheiten und einer Vielzahl von Teilworteinheiten entsprechend dem Zwischensignal-Ausgabeprotokoll besteht, und Übertragen des Signals an die Sprachverarbeitungseinheit zur Analyse, um ein semantisches Signal zu erhalten, und Übertragen des semantischen Signals an die Dialogmanagementeinheit, um dem Sprachsignal entsprechende semantische Information zu erzeugen.
  35. Verfahren zur Ausgabe eines Zwischensignals nach Anspruch 34, wobei die Teilworteinheit eine chinesische Silbe enthält.
  36. Verfahren zur Ausgabe eines Zwischensignals nach Anspruch 34, wobei die Teilworteinheit ein englisches Phonem umfasst.
  37. Verfahren zur Ausgabe eines Zwischensignals nach Anspruch 34, wobei die Teilworteinheit eine Vielzahl von englischen Phonemen umfasst.
  38. Verfahren zur Ausgabe eines Zwischensignals nach Anspruch 34, wobei die Teilworteinheit eine englische Silbe umfasst.
  39. Verfahren zur Ausgabe eines Zwischensignals nach Anspruch 34, wobei das Zuordnungssignal eine Sequenz ist, die aus den Worteinheiten und Teilworteinheiten zusammengesetzt ist.
  40. Verfahren zur Ausgabe eines Zwischensignals nach Anspruch 34, wobei das Zuordnungssignal ein Verband ist, der aus den Worteinheiten und Teilworteinheiten besteht.
DE102006006069A 2005-02-18 2006-02-09 Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon Ceased DE102006006069A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW094104792A TWI276046B (en) 2005-02-18 2005-02-18 Distributed language processing system and method of transmitting medium information therefore
TW94104792 2005-02-18

Publications (1)

Publication Number Publication Date
DE102006006069A1 true DE102006006069A1 (de) 2006-12-28

Family

ID=36141954

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102006006069A Ceased DE102006006069A1 (de) 2005-02-18 2006-02-09 Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon

Country Status (5)

Country Link
US (1) US20060190268A1 (de)
DE (1) DE102006006069A1 (de)
FR (1) FR2883095A1 (de)
GB (1) GB2423403A (de)
TW (1) TWI276046B (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008067562A2 (en) * 2006-11-30 2008-06-05 Rao Ashwin P Multimodal speech recognition system
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
KR20090013876A (ko) * 2007-08-03 2009-02-06 한국전자통신연구원 음소를 이용한 분산형 음성 인식 방법 및 장치
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
US8892439B2 (en) * 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US8972263B2 (en) 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
US20140039893A1 (en) * 2012-07-31 2014-02-06 Sri International Personalized Voice-Driven User Interfaces for Remote Multi-User Services
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) * 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US10410635B2 (en) 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
CN109166594A (zh) * 2018-07-24 2019-01-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110517674A (zh) * 2019-07-26 2019-11-29 视联动力信息技术股份有限公司 一种语音处理方法、装置及存储介质
US11900921B1 (en) 2020-10-26 2024-02-13 Amazon Technologies, Inc. Multi-device speech processing
CN113096668B (zh) * 2021-04-15 2023-10-27 国网福建省电力有限公司厦门供电公司 一种构建协作语音交互引擎簇的方法及装置
US11721347B1 (en) * 2021-06-29 2023-08-08 Amazon Technologies, Inc. Intermediate data for inter-device speech processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
US7366766B2 (en) * 2000-03-24 2008-04-29 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
JP3423296B2 (ja) * 2001-06-18 2003-07-07 沖電気工業株式会社 音声対話インターフェース装置
US7376220B2 (en) * 2002-05-09 2008-05-20 International Business Machines Corporation Automatically updating a voice mail greeting
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags

Also Published As

Publication number Publication date
TWI276046B (en) 2007-03-11
GB0603131D0 (en) 2006-03-29
FR2883095A1 (fr) 2006-09-15
TW200630955A (en) 2006-09-01
GB2423403A (en) 2006-08-23
US20060190268A1 (en) 2006-08-24

Similar Documents

Publication Publication Date Title
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE60201262T2 (de) Hierarchische sprachmodelle
DE68928097T2 (de) Spracherkennungssystem
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE60201939T2 (de) Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System
EP0925578A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE60207217T2 (de) Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite
CN109545197A (zh) 语音指令的识别方法、装置和智能终端
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
CN112820268A (zh) 个性化语音转换训练方法、装置、计算机设备及存储介质
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE112021000292T5 (de) Sprachverarbeitungssystem
DE60025687T2 (de) Vorrichtung zum Spracherkennung mit Durchführung einer syntaktischen Permutationsregel
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
Callejas et al. Implementing modular dialogue systems: A case of study
DE10011178A1 (de) Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
Neto et al. The development of a multi-purpose spoken dialogue system.

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection