-
Die
Erfindung betrifft die Architektur einer Systemplatine eines Computers
gemäß den Merkmalen
aus Anspruch 1 und ein Verfahren nach den Merkmalen aus Anspruch
16.
-
Die
Erfindung betrifft im Wesentlichen eine neuartige Architektur einer
Systemplatine, bei der der Baustein für die digitale Signalverarbeitung
als direktes Audio-Eingangs-Interface
integriert ist und die Bearbeitung von Befehlseingabe sowie von
fortlaufend gesprochenem Text übernimmt.
-
Die
am nächsten
kommende Vorveröffentlichung
ist EPA-0 535 909,
in dem die Architektur einer Computer Systemplatine mit den üblichen
Komponenten wie CPU, Datenbus, Stromversorgung und einem Datenpfad
für die
Audio-Eingangs-Signale,
der den Audioeingang der Systemplatine mit der CPU verbindet, einem
DSP Chip im Datenpfad des Audioeingangs; eine zwischen DSP Chip
und dem Bus auf der Systemplatine als Schnittelle vorgesehene Brücke; ein
mit dem DSP Chip elektrisch verbundener Speicher; und ein im Speicher
des DSP-Chip residentes Spracherkennungssystem.
-
Spracherkennung
und Sprachansteuerung haben mit zunehmender Leistungsfähigkeit
von softwarebasierten Spracherken nungssystemen und Geschwindigkeiten
der Mikroprozessoren von 1 GHz an Bedeutung gewonnen. Ursprünglich waren
sie als ein Mittel zur Diktataufnahme konzipiert, das ohne großen Einfluss
auf das Betriebssystem auskam, doch jetzt und in Zukunft wird die
Spracherkennung bei allen möglichen
Anwendungen in großem
Umfang eingesetzt werden. Sprache ist die natürlichste und effizienteste
Art der Kommunikation. Sie kann in alle Steuerungsbefehle und die
unterschiedlichsten Anwendungen wie Web-Browser und Suchmaschinen integriert
werden. Über
die Sprache können
viele an einem Computer manuell vorgenommene Operationen automatisiert
werden. Einige moderne Computer sind sogar überwiegend sprachgesteuert
ausgelegt. Zwei Beispiele hierfür
sind die US-Patente 5.305.244 und 5.844.823, in denen ein sprachgesteuerter
am Körper
zu tragender Computer gelehrt wird, für dessen Betrieb der Benutzer
seine Hände
nicht braucht. Nach der Offenbarung im *244 Patent heißt es: "Der Rechner enthält ein Modul
für die
Spracherkennung in Verbindung mit einem Prozessor, das die Akustikbefehle
des Nutzers empfängt
und diese in elektrische Signale umwandelt, die umgewandelten elektrischen
Signale erkennt und die erkannten Signale an den Prozessor zur Verarbeitung
sendet, wobei der Benutzer das Modul für die Spracherkennung unterstützt." Im Patent *824 heißt es weiter "... ein am Körper zu
tragender, ohne Hände
zu betätigendes
Computersystem, das ohne Eingabe über eine Tastatur oder ein
Ansteuerungsgerät
auskommt, sondern vielmehr verschiedene handfreie Aktivierungsmittel
aufweist." Eines
dieser Aktivierungsmittel ist die Sprache. Die durch diese beiden
Patente offenbarte Erfindung lehrt also eine Computer Hardwareplattform, welche
die Steuerung des Betriebssystems und verschiedener An wendungen
auf dem Wege der Sprache als Hauptaktivierung erlaubt.
-
Die
meisten Menschen können
etwa fünfmal schneller
sprechen als tippen und wahrscheinlich zehnmal schneller als schreiben.
Die Effizienz wird also erheblich gesteigert, wenn die Spracherkennung und
-verarbeitung in PCs richtig funktionierend integriert wird. Sprache
wird nach der derzeitigen Methode in PC-Umgebung vornehmlich auf
Softwarebasis verarbeitet. Die Soundkarte dient als Akustikeingang und
enthält
einen A/D-Wandler, der die von einem normalen Mikrofon aufgenommenen
analogen Audiosignale bzw. Worte in einen digitalen Bitstrom umwandelt,
der dem Mikroprozessor zugeführt
wird. Dann wird die im Speicher abgelegte Software parallel mit
der CPU eingesetzt, um die in Form von Signalen vorliegende Stimme,
ob Befehl oder nur Text, so zu verarbeiten, dass der entsprechende
Befehl oder die Funktion ausgeführt
werden. Die führenden Software-Anwendungen
für diese
Form der Interaktion sind ViaVoiceR von
IBM Corporation und Naturally SpeakingR von
Dragon Systems Corporation. Beides sind Spracherkennungsprogramme
mit Spracherkennungssystemen, welche die CPU des Computers für die gesamte
Sprachverarbeitung benutzen. Diese Aufgabe belegt in der CPU umfangreiche
Rechenkapazität
und bindet bzw. schränkt
damit die Systemressourcen ein. Bei Tischrechnern oder Laptops führt verminderte
Wechselstromspeisung lediglich zu einer Verschlechterung der Systemleistung.
Bei mobilen und am Körper
zu tragenden Einrichtungen, die meist batteriegespeist sind, führt dies
auch zu überhöhter Leistungsaufnahme.
Es besteht ein direkter Zusammenhang zwischen den Taktzyklen der
CPU und der Stromaufnahme. Außerdem
kann in diesen mobilen am Körper
getragenen Einrichtungen, in denen schon aus Platzgründen nur
geringe Kühlung oder
keine aktive Kühlung
möglich
ist, starke Wärmeentwicklung
zu Schäden
im Speicher, der Systemplatine und anderen elektronischen Komponenten
auf Silikonbasis führen
und kann auch dazu führen,
dass die CPU mit der erzeugten Wärme
nicht schnell genug fertig wird. Eine Architektur, die die Nutzungsdauer
von Batterien verlängert
und die Wärmeerzeugung
durch die CPU verringert und gleichzeitig Sprache effizient und
sinnvoll verarbeitet, brächte
einen erheblichen Fortschritt gegenüber dem Stand der Technik.
-
Jüngst wurde
ein Chip mit digitaler Signalverarbeitung (nachstehend DSP) zur
Verarbeitung natürlicher
Sprache eingesetzt. Ein Beispiel hierfür sind die telefonvermittelten
Dienstleistungen, bei denen die Anrufer ihre Eingabe sowohl sprechen
als auch über
die in ihr Telefon integrierte Tastatur machen können. DSP ist in die Telefon-Baumstruktur integriert.
Sobald das System ein für
ein gesprochenes Wort stehendes Signal erhält, vergleicht DSP dieses mit
der Signalstruktur bekannter Worte und gibt diese Daten ein. Diese
Systeme sind jedoch im Allgemeinen auf die numerische Erkennung
beschränkt
und sind für
Verbraucher orientierte Produkte nicht verfügbar.
-
Ein
DSP-Chip ist ganz allgemein ein Universal-Mikroprozessor, der sich bei unterschiedlichen Anwendungen
einsetzen lässt.
Er enthält
eine spezielle Logik-Hardware
zur Ausführung
mathematischer Funktionen mit Geschwindigkeiten, Stromverbrauch und
Leistungen, die bei Mikroprozessoren nicht generell vorkommen. Diese
Chips können
so programmiert werden, dass sie unterschiedliche Signalverarbeitungsfunktionen
ausführen.
Es gibt eine Reihe von handelsüblichen
Erweiterungskarten für
PC, die DSP enthalten und meist ein Anwendungsprogramm zur Programmierung
der Signalverarbeitung. Aufgrund ihrer Hardware und Architektur
sind sie meist besser geeignet, um bestimmte Funktionen mit hoher Rechenleistung
auszuführen.
-
Die
Auslegung des DSP-Chip ist standardmäßig insbesondere für mathematische
Algorithmen optimiert, wie Korrelation, komplizierte Rechnungen, FIR-Filter,
IIR-Filter, FFT (Fast Fourier Transformationen), Matrixberechnungen
und innere Produkte in anderen Operationen. Die Implementierungen
dieser mathematischen Algorithmen umfassen im Allgemeinen lange
Sequenzen von systematischen Operationen in Arithmetik und Multiplikation.
FFT und Filter haben bei der Sprachverarbeitung eine besondere Relevanz.
-
Die
CPU umfasst im Allgemeinen ein Ausführungsmodul, Cache-Speicher,
eine Speicherverwaltung und ein Gleitkommaregister sowie andere Logiken.
Die Aufgabe einer Universal-CPU ist, Kodes abzuarbeiten und Operationen
an Daten im Computerspeicher vorzunehmen, also die Rechnerplattform zu
verwalten. Generell ist die CPU eines X86 oder eines anderen Computertyps
hauptsächlich
so ausgelegt, dass Entscheidungsoperationen nach der boolschen Algebra,
bei der Verwaltung und Datenbearbeitung ausgeführt werden. Die von einer Universal-CPU
ausgeführten
Anweisungen sind mathematische Grundfunktionen. Diese Funktionen
sind aber für
komplexe DSP-typische mathematische Operationen nicht sonderlich
geeignet. Deshalb bedarf es einer Universal-CPU, mit der sich eine
große
Menge DSP-bezogener Anweisungen abarbeiten lässt, die auch grundlegende
DSP-Funktionen einschließen.
-
Nach
dem Stand der Technik wurde bereits bei Hardware und Software versucht,
DSP in die Architektur von PCs einzuführen, weil man sich davon mehr
Effizienz versprach. Das US-Patent 5.794.068 (nachstehend *068 Patent
genannt) liefert ein Beispiel. Im *068-Patent ist eine Universal-CPU offenbart, die
eine Universal-CPU-Karte, wie einen X86 Hauptspeicher enthält und außerdem einen DSP-Hauptspeicher. Die
CPU enthält
einen Dekoder für
die DSP Funktion oder einen Präprozessor,
der die Sequenzen von Anweisungen prüft und festlegt, ob eine DSP-Funktion
ausgeführt
wird. Ergibt die Prüfung,
dass dies der Fall ist, setzt der Funktionsdekoder die Sequenzen
der Anweisung in ein DSP Makro um und leitet dieses in den DSP Hauptspeicher.
Der DSP Hauptspeicher kann die DSP Funktion parallel zu anderen
in der CPU laufenden Operationen ausführen. Diese Auslegung sichert
eine gegenseitige Kompatibilität
mit bestehenden Softwarepaketen, solchen die DSP Operationen erfordern
und solchen ohne. Wegen des Präprozessors
ist allerdings ein zusätzlicher
Schritt in den Ablaufzyklus erforderlich. Nachteilig beim *068-Patent
ist, dass zur Ermittlung einer DSP-Funktion ein Befehl vor seiner Verarbeitung
erst dekodiert werden muss. Ein weiterer Nachteil des Systems gemäß dem *068-Patent ist,
dass die Architektur für
die Sprachverarbeitung nicht optimiert ist und nicht lehrt, ein
Spracherkennungssystem für
eingegebene Einzelbefehle in den DSP-Chip selbst zu integrieren.
Außerdem
dient der DSP nicht als Hauptschnittstelle für alle Sprachsignale, die vom
Audioeingang des Computers eingehen.
-
Ein
weiteres Beispiel aus dem US- Patent 5.915.236 (nachstehend *236
Patent genannt) nennt eine Softwarelösung für den Einsatz von DSP zur Sprachverarbeitung.
Das *236- Patent
lehrt ein Worterkennungssystem, das die zur Verfügung stehenden Rechenressourcen
ermittelt, wie Geschwindigkeit, Anzahl der Prozessoren, Existenz
eines DSP und ändert
die von ihm ausgeführten
Anweisungen ergebnisabhängig,
um die Zuweisung von Anweisungen zu optimieren. Das System ist in
erster Linie ein Spracherkennungssystem, das bestehende Worterkennungsprogramm
kann aber die Rechenintensität seiner
Signalverarbeitung in Abhängigkeit
von den verfügbaren
Rechenressourcen ändern.
Ermittelt das Programm sowohl eine CPU als auch einen DSP-Prozessor, kann es über den
DSP den Zeitpunkt für
eine Unterbrechung der CPU veranlassen. Mit dem Programm kann auch
die Rate geändert werden,
mit der verhältnismäßig niederwertige
(einfach verarbeitbare) Wörter
aus der Betrachtung während
des Erkennungsprozesses ausgefiltert werden, je nachdem, was an
Ressourcen verfügbar
ist. Nachteilig bzw. problematisch ist hier, dass es sich um eine
reine Softwarelösung
handelt, die durch die Architektur des Computers, auf dem das Programm läuft, eingeschränkt ist.
Das heißt,
ohne ein DSP arbeitet das System anfälliger und ungenauer. Darüber hinaus
müssen
die Software und die CPU den Code auf DSP Anweisungen hin prüfen, wodurch
ein zusätzlicher
Programmschritt eingeführt
wird.
-
Es
besteht daher ein Bedarf an einer Sprachverarbeitungsarchitektur
für PC,
insbesondere mobile, hand-held und am Körper tragbare Computer, welche
die vorstehend aufgezeigten Mängel
beseitigen kann.
-
Aufgabe
der Erfindung ist es daher, eine neuartige Systemplatine zu schaffen,
die die vorstehenden Nachteile nicht aufweist.
-
Durch
die Erfindung soll ferner eine neuartige Systemplatine mit der Möglichkeit
von integrierter digitaler Signalverarbeitung (nachstehend "DSP" genannt) geschaffen
werden.
-
Darüber hinaus
soll durch die Erfindung eine zur Sprachverarbeitung optimierte
Hardware Architektur geschaffen werden.
-
Gemäß der Erfindung
soll außerdem
die Architektur der Systemplatine so ausgebildet werden, dass die
CPU im Zuge der Sprachverarbeitung weniger Strom verbraucht und
geringere Taktzyklen hat.
-
Des
Weiteren ist es Aufgabe der Erfindung, eine Rechnerarchitektur zu
schaffen, die hinsichtlich Genauigkeit und der vorhandenen Möglichkeiten
bestehende softwarebasierte Sprachverarbeitungsverfahren übertrifft.
-
Außerdem soll
durch die Erfindung eine Systemplatine für PCs, insbesondere mobile,
hand-held und am Körper
zu tragenden PCs, und für
andere elektronische Einrichtungen, so gestaltet werden, dass die
CPU bei der Sprachverarbeitung mit weniger Zyklen auskommt.
-
Ferner
soll durch die Erfindung eine Architektur geschaffen werden, die
Rauschunterdrückung und
Rauschminderung während
der Sprachverarbeitung erlaubt.
-
Außerdem soll
durch die Erfindung ein in den DSP integriertes Spracherkennungssystem
geschaffen werden, dessen Vokabular für die gesprochene Befehlseingabe
individuell gestaltbar ist.
-
Diese
und weitere Aufgaben der offenbarten Erfindung werden generell durch
die Auslegung einer Systemplatine für einen Computer gelöst, bei
dem DSP Hardware in die Systemplatine als Interface zwischen dem
Audioeingang und dem Mikroprozessor für die Erkennung und Verarbeitung
der gesprochenen Befehle integriert ist.
-
Weitere
Vorteile und Merkmale ergeben sich aus der nachstehenden Beschreibung
mehrerer Ausführungsformen
der Erfindung in Verbindung mit den Zeichnungen. Es zeigen:
-
1 eine
typische Systemplatine für
einen Computer oder eine Recheneinheit mit den üblichen Systemkomponenten,
-
2 einen
Standard PC mit einem Mikrofon als Quelle für Audioeingabe
-
3 den
Ablaufplan für
das erfindungsgemäße Verfahren
bezüglich
der Spracheingabe in die Recheneinheit;
-
4 den
Ablaufplan und die Entscheidungs-Baumstruktur
für den
fortlaufenden Texteingabemode und den Befehlseingabemode,
-
5 eine
Muster-Systemplatine für
einen am Körper
zu tragenden Computer, mit dem in den Schaltungsaufbau und die Datenleitung
der Platine integrierten DSP.
-
In
dieser Beschreibung und den Ansprüchen bedeutet die Bezeichnung "Computer-Systemplatine" jede Systemplatine,
für einen
PC, einen am Körper
zu tragenden Computer, einen tragbaren Computer, ein Laptop, einen
Kombinationsrechner und ein Kommunikationsgerät oder ein PALM. Die Erfindung betrifft
im Wesentlichen eine neuartige Archi tektur einer Computer Systemplatine,
in der ein DSP als Hardware integriert ist und das Interface zwischen der
Soundkarte oder einer ähnlichen
Akustikeingabeeinrichtung und dem Mikroprozessor bildet. Hierdurch
werden eine Reihe von Problemen gelöst, die bei den bestehenden
Architekturen der Sprachverarbeitungssysteme auftreten. Die Integration
des DSP in den Datenstrom der eingehenden Sprachsignale erweitert
die Möglichkeiten
bestehender Architekturen für
die Spracherkennung ganz wesentlich und minimiert den Einsatz des
Mikroprozessors bei der Sprachverarbeitung. Beim derzeitigen Verfahren
der Sprachverarbeitung unter Einsatz der CPU und softwarebasierter
Spracherkennungssysteme wie bei ViaVoiceR und
Naturally SpeakingR ist problematisch, dass
die Mikroprozessoren ungeeignet sind, um die Flut der Fast Fourier
Transformationen (nachstehend FFT) zu bewältigen, die für die Sprachverarbeitung erforderlich
sind. Hierdurch wird der Prozessor unter steigendem Stromverbrauch übermäßig beansprucht,
so dass es zu sehr starker Wärmeentwicklung
kommt und damit verhindert wird, dass der Prozessor andere Aufgaben
so schnell wie sonst möglich
ausführt.
Mikroprozessoren verbrauchen Strom im hohen Wattbereich. Ein als
Brücke
zwischen dem A/D-Wandler und dem Mikroprozessor eingebauter DSP
ist ein Präprozessor
für diktierten
Text und eingegebene gesprochene Befehle und spart somit Strom und
erlaubt zusätzliche Überprüfungen zwecks
größerer Genauigkeit.
Der DSP-Chip wie die Serie TMS5000 von Texas Instruments Corporation in
Dallas, Texas, verbraucht nur Milliwatts, was die CPU um mehrere
Größenordnungen
entlastet. Zweitens sind diese Chips auf die für die sinnvolle und effiziente
Sprachverarbeitung erforderlichen Rechenoperationen optimiert. Aufgrund
dieser Architektur lassen sich also Genauigkeit, Geschwindigkeit und Möglichkeiten
verbessern. Außerdem
wird die CPU für
die Ausführung
anderer Aufgaben bei parallel ablaufenden Anwendungsprogrammen frei
gehalten, von denen einige für
eine verbesserte Genauigkeit in der Erkennung und die interaktive
Benutzerführung herangezogen
werden können.
Hiervon profitieren sowohl am Körper
zu tragenden als auch tragbare Computer sowie Tischcomputer und
Heimcomputer. Speziell unter den Bedingungen bei am Körper zu tragenden/tragbaren
Computern wird die vielseitige Einsetzbarkeit der Einrichtung durch
die nicht anfällige
Sprachverarbeitung verbessert. In dieser Beschreibung werden unter
am Körper
zu tragenden Computern solche verstanden, wie sie im US-Patent 5.844.824
für Xybernaut
Corporation, Fairfax, VA, offenbart sind und unter dem Warennamen
Mobile AssistantR erfolgreich eingeführt sind.
Das US-Patent 5.844.824
offenbart die Verwendung von Kommunikationsmitteln bei Computern,
die am Benutzer getragen werden. Beim vorliegenden System kann jede Art
von Display verwendet werden wie HMD oder ein umhängbares
Display, Flachbildschirme oder jede andere Art von Display. Für den Fachmann
ist klar, dass am Körper
zu tragende Computer auch solche betreffen, die anderweitig hergestellt
werden oder Computer mit Systemplatinen und elektronische Produkte,
die demnächst
hergestellt werden sollen. Die Aufnahme dieser Technologie ermöglicht es
dem Nutzer, derartige Einrichtungen sprachgesteuert robust und präzise einzusetzen
und zwar anstatt oder zusätzlich
zur manuellen oder durch Kontakt vermittelten Aktivierung. Da ferner
der DSP weniger Strom verbraucht als die CPU verlängert sich
auch die Nutzungsdauer der Batterien des Geräts wesentlich. Bei Desktop-Computern
können
die Vorteile einer effizienteren Sprachverarbeitung und Freisetzung
von CPU Taktzyklen ebenfalls realisiert werden.
-
Die
Verarbeitung von Spracheingaben bei Computern kann in zwei Hauptkategorien
unterteilt werden. Erstens die Eingabe von gesprochenen Befehlen
zu Steuerung des Computers (nachstehend Befehlseingabemode) und
zweitens die Eingabe von fortlaufend gesprochenem Text (nachstehend
Texteingabemode bzw. Diktieren). Befehlseingabemode sind Wörter, die
zur Steuerung des Betriebssystems eingesetzt werden oder durch eine
bestimmte Anwendung führen.
Diese Wörter
oder Wortgruppen können
individuell gestaltet und spezifischen Kommandos zugeordnet werden.
Sätze wie "Fenster öffnen" oder "scroll down" sind Beispiele für diese
Art der Sprachsteuerung. Im Allgemeinen geht es hier um Wörter aus
einem beschränkten
oder in Gruppen aufgeteilten Vokabular, in dem jedes Wort an einen bestimmten
Befehl für
den Computer gebunden ist. Derzeit erfolgt hier die Verarbeitung
durch das softwarebasierte Spracherkennungssystem und die CPU. Der
DSP ist jedoch in der Lage als Spracherkennungssystem für diese
Wörter
oder Sätze
der Sprachsteuerung zu fungieren. Das Spracherkennungssystem selbst
liegt im DSP-Chip internen Speicher, so dass nur der übersetzte
Befehl an die CPU zur Ausführung
geht. Dies erlaubt die vollständige
Interpretation und Vorbearbeitung des Gesprochenen durch den DSP,
ohne dass die CPU hierfür
gebraucht wird. Die Template der geltenden Befehlswörter kann im
Speicher des DSP resident sein oder kann alternativ in den DSP-Speicher
aus der Host-CPU je nach Kontext und Anwendung geladen werden, was
eine Vielzahl von Bibliotheken unterschiedlicher Steuerungsbefehle
je nach der zum Einsatz kommenden Anwendung ermöglicht. Auf diese Weise braucht
der DSP keinen übermäßig großen Speicher,
weil das Vokabular an Steuerungsworten klein ist und die kontextabhängigen Worttemplates
jederzeit o der bei sich änderndem
Kontext in den DSP-Speicher unmittelbar geladen werden können. Die
Anforderungen an die Speicherkapazität im Befehlseingabemode sind
bei effizienterem Betrieb wesentlich geringer. Ein Speicher von
vierundsechzig Kilobytes müsste
für eine
Bibliothek im Befehlsmode ausreichen, was leicht der Speicherkapazität derzeitiger
DSP entspricht. Mit zunehmend größeren und
sicheren Speichern der DSP kann es nützlich und erfolgreich sein,
mehr oder alle Worttemplates mit den gesprochenen Befehlen im DSP
Speicher abzulegen. Das Spracherkennungssystem selbst kann individuell
ausgelegt werden, so dass der Nutzer den Wortbefehl für eine Aktion
selbst definieren kann. Hierdurch kommt es nicht zu dem Problem,
dass ähnlich
klingende Wörter
unterschiedliche Befehle auslösen.
Gibt es beispielsweise zwei phonetisch ähnliche Befehle, die aber zu
unterschiedlichen Ergebnissen führen,
kann ein anderer Sprachbefehl gewählt werden, der zum gleichen
Ergebnis führt
oder die nach Kontext und Umgebung geeignete Befehlsfolge kann die
richtige Bedeutung liefern.
-
Für die Erkennung
eines fortlaufenden Textes bietet der Einsatz eines DSP zur Unterstützung der
CPU bei der Sprachverarbeitung ebenfalls bedeutende Vorteile. Sobald
in der CPU ein digital abgetasteter Bitstrom eingeht, der die gesprochenen Wörter aus
dem CODEC A/D-Wandler wiedergibt, muss diese sie in Phoneme oder
akustische Signale umwandeln, die Buchstabengruppen oder Wortteile darstellen,
und muss dann das am zutreffendste Wort oder den Satz erkennen,
das bzw. welcher der Lautfolge entspricht. Dieser Vorgang der Umwandlung des
Bitstroms in Phoneme erfordert eine hohe Rechenkapazität und die
Logik einer Universal-CPU ist für
diese Art der Verarbeitung nicht optimiert. Der DSP-Chip kann auch
als Datenstationsrechner (FEP) für
ein softwarebasiertes Erkennungssystem für diktierten Text dienen. Da
für diese
Art Spracherkennung das Wörterbuch
sehr umfangreich ist und der DSP nur eine eingeschränkte Speicherkapazität besitzt,
ist es aussichtsreicher, die CPU und ein softwarebasiertes Spracherkennungssystem
als Nachrechner einzusetzen. Der DSP nimmt den der Spracheingabe
entsprechenden Bitstrom auf und wandelt ihn in Phoneme um, die an
die CPU weitergeleitet und dort mit dem softwarebasierten Spracherkennungssystem
abgeglichen werden. Phoneme sind die kleinsten nichtteilbaren Lauteinheiten,
aus denen Wörter
bestehen, beispielsweise eine einsilbige Buchstabenkombination.
Diese Vorbearbeitung, üblicherweise
von der CPU vorgenommen, verringert die zur Verarbeitung einer vorgegebenen
Anzahl von Wörtern
erforderliche Gesamtzahl der Ausführungszyklen in der CPU beträchtlich,
als wenn die CPU nach der herkömmlichen
Methode die Sprachverarbeitung allein ausführte. Es ist nämlich die
Umwandlung des Bitstroms in Phoneme, die enorm viele FFT Rechenoperationen
erfordert. Der leistungsstarke DSP-Chip nimmt also der CPU viel
Arbeit ab und entlastet sie damit, so dass sie frei für die Bearbeitung der
Programmanweisungen für
die Umwandlung der Phoneme in richtige Wörter und Sätze ist. Dies führt wiederum
zu einer genaueren Erkennung des Gesprochenen, zu schnellerer Systemfunktion,
geringerer Wärmeentwicklung
und einen günstigeren
Stromverbrauch. Eventuell muss ein neues softwarebasiertes Spracherkennungssystem
für die
Verarbeitung von fortlaufend Gesprochenem entwickelt werden, damit
der DSP für
die Frontend-Bearbeitung die neue Architektur bestmöglich nutzen
kann. Alternativ kann der Quellkode von handelsüblichen Texteingabe-Spracherkennungssystemen
wie ViaVoiceR und Naturally SpeakingR abgeändert
werden, damit der DSP die Front-end-Bearbeitung des Gesprochenen vornehmen
kann, was bisher Aufgabe der CPU ist.
-
Ein
weiterer Vorteil dieser Erfindung ist die Fähigkeit, Rauschen auszufiltern
und zu reduzieren. Der DSP-Chip eignet sich gut zur Bearbeitung
von Algorithmen zur Filterung und Rauschunterdrückung, denn er nimmt den das
Gesprochene verkörpernden digitalen
Bitstrom auf, ob fortlaufend oder extern beeinflusst, filtert die
Rauschsignale aus und setzt ihn dann in verständliche Phoneme um. Im Befehlseingabemodus
wird der Befehl von ihm extrahiert und an die CPU weitergeleitet.
Im Texteingabemodus werden die Phoneme an die CPU zur Verarbeitung
mit dem softwarebasierten Spracherkennungssystem weitergeleitet.
Die Fähigkeit,
Rauschen im Gesprochenen zu unterdrücken, ermöglicht es dem Nutzer von Computern
mit dieser Architektur auch in sehr lauter Umwelt mit größerer Genauigkeit
zu arbeiten. Wenn beispielsweise an einer Turbine eines Kraftwerkes
Wartungsarbeiten auszuführen
sind oder an einem Montageband für
Flugzeuge, wo durch Werkzeuge und Roboter und das Vernieten starker
Lärm entsteht,
kann der Nutzer seinen Computer immer noch exakt einsetzen, weil
die Leistung sich kaum oder gar nicht verschlechtert. Besonders
günstig wirkt
sich dies bei sprachgesteuerten, am Körper zu tragenden und hand-held
Computern aus, wie sie unter diesen Bedingungen häufig verwendet
werden, wobei die Nutzer eine Hand oder beide Hände frei haben können, während sie
die Informationen im Bildlauf verfolgen. Typische Anwendungen sind
hier das Lesen von interaktiven elektronischen technischen Handbüchern, in
denen ein Techniker über
den Bildlauf eine Information aus rechnergestützten Fachanweisungen, Stücklisten
oder Plänen während seiner
Wartungs- oder Montagearbeiten finden muss. Diese Betriebsart wird
häufig
bei großen
oder nicht leicht bewegbaren Baugruppen oder Endprodukten eingesetzt.
Hierdurch erhöht
sich der Nutzen, den der am Körper
zu tragende Computer für
den Techniker hat, wenn er sich seiner unterbrechungsfrei bedienen und
in Lärm
intensiver Umgebung durch sein Handbuch blättern kann, Bedingungen, die
in Fabriken, Kraftwerken, bei Montagebändern usw. üblich sind.
-
Die
Erfindung bietet noch andere bedeutende Vorteile für traditionelle
und am Körper
zu tragende PCs. Der DSP kann die Umwandlung von Text in Gesprochenes
erleichtern und/oder unterstützen. Dieser
Vorgang verläuft
umgekehrt wie bei der Spracherkennung, denn hier müssen die
Wörter
im Text selbst in ihre Lauteinheiten aufgebrochen werden, ehe sie
an einem Tonwiedergabegerät
ausgegeben werden. Handelt es sich um einen on-board DSP in einem
am Körper
zu tragenden Computer oder einem hand-held Gerät und sind diese mit Funkverbindung ausgestattet,
beispielsweise einem Funkmodem oder einer anderen Kommunikationseinrichtung, dann
kann der DSP Funktionen eines Mobiltelefons übernehmen wie Digitalisierung
von Sprache und Einzelbefehlen, um beispielsweise sprachgesteuertes
Anwählen,
gesprochene Einzelbefehle, Rauschreduzierung, Umwandlung von Sprache
in Signale usw. zu erleichtern.
-
Nach
einer bevorzugten Ausführung
sind softwarebasierte Bedienungselemente für die Auswahl des jeweiligen
Betriebsmodes des DSP vorgesehen, d.h. Befehlseingabemode oder Texteingabemode.
Hierfür
steht jeweils eine aus mehreren Methoden zur Verfügung. Nach
einer Methode kann der Nutzer durch Betätigen von softwarebasierten
Bedienungs elementen den Mode des DSP entweder auf Systemstart oder
auf Modeanwahl einstellen, wenn das System eingeschaltet ist. Dieser
Mode bleibt bis zu einer etwaigen Änderung Standardeinstellung.
Alternativ kann das System im Befehlseingabemodus eingeschaltet
werden, so dass der Nutzer in das Betriebssystem einsteigen und
es steuern und eine spezielle Anwendung auswählen kann. Sobald die Anwendung
jedoch aufgerufen ist und diese die fortlaufende Texteingabe erfordert,
beispielsweise ein Wordprozessor, dann wird der Mode automatisch
auf fortlaufend eingestellt. Zweckmäßig ist, einen Modeunterbrechungsbefehl
vorzusehen, über
den der Nutzer einen Modewechsel auch während einer laufenden Anwendung
vornehmen kann. Wenn ein Nutzer beispielsweise einen Text in seine
Anwendung diktiert und dann eine Datei abspeichern oder andere Aufgaben
ausführen
will, für
die im Anwendungsprogramm in Menüs
auszuwählen
ist, werden seine gesprochenen Wörter
als Befehle interpretiert und nicht einfach als diktierte Sprache.
Des Weiteren gibt es bestimmte Anwendungen, die ein spezifisches
Vokabular für
Steuerungsworte unterstützen,
die in den DSP Speicher beim Aufrufen der Anwendung geladen werden
können.
Wird beispielsweise ein Web Browser aufgerufen, dann werden alle
Befehle für das
Navigieren und die Ausführung
von Standardfunktionen eines Browsers in den DSP Speicher geladen.
Die vielseitige Einsetzbarkeit der Erfindung lässt sich durch einige anwendungsspezifische
Befehle zusätzlich
zu den elementaren Befehlen zur Steuerung des Betriebssystems steigern.
-
Nach
einer weiteren Ausführungsform
kann die Erfindung zur Unterstützung
einer direkten Übersetzung
natürlicher
Sprache in eine andere Sprache eingesetzt werden. Beim Ablauf eines Übersetzungsprogramms
in einem Spracherken nungssystem kann beispielsweise jemand in einer
Sprache in den Computer sprechen und sie in eine andere Sprache
entweder als Texteingabe oder zur Anzeige oder Audiowiedergabe übersetzt
haben. Der DSP würde
als FEP für
die CPU und das Programm dienen und würde die Vorbearbeitung für eine Fremdsprache
ausführen.
Außerdem
können
spezielle Filter, die für
das Erkennen eines bestimmten Dialektes optimiert sind, in den DSP
geladen werden, damit dieser eine genauere Übersetzung der Spracheingabe
liefern kann. Aufgrund der konstruktiven Auslegung des DSP kann dieser
auch hier diese Aufgabe besser lösen
als die CPU.
-
Nach
einer weiteren Ausführungsform
kann die Erfindung zur Integration von Sprache in andere Rechenvorrichtungen
herangezogen werden wie tragbare Rechen- und Kommunikationsvorrichtungen.
Beispielsweise können
sich PDAs, private Kommunikationsvorrichtungen (z.B. Mobiltelefone
für den Empfang
und die Anzeige von Internetinhalten) und sogar Palms oder hand-held
Computer die Erfindung zu Nutze machen. Nach der erfindungsgemäßen Lehre
können
diese Vorrichtungen die Spracherkennung auf robuste Weise und mit äußerst geringem Stromverbrauch
ausführen.
Da tragbare Rechen- und Kommunikationsvorrichtungen meist nur batteriegespeist
sind, ist möglichst
geringer Stromverbrauch beim Ablauf von Anwendungsprogrammen eminent
wichtig. Da ferner die Prozessoren in dieser Art von Vorrichtungen
meist nicht so leistungsfähig sind
wie bei am Körper
zu tragenden oder Tischcomputern, können sie DSP Funktionen noch
in weit geringerem Maße
ausführen
als die bekannten CPUs. Die größere Vielseitigkeit
und Zweckmäßigkeit
für den
Benutzer ist hier ebenfalls eindeutig. In einem Telefon kann der
Nutzer beispielsweise den DSP für das
sprachgesteuerte Anwählen
nutzen, entweder durch Nennung der Nummer oder des Namens des Teilnehmers
in das Telefon, wobei dann die Signale im DSP mit einer im Speicher
abgelegten Nummer abgeglichen werden. In einem PDA oder einem PALM
kann der DSP für
die Steuerung spezieller Anwendungen herangezogen werden, beispielsweise ein
E-Mail Programm oder einen Web Browser oder er kann das Betriebssystem
selbst steuern. Der Nutzer brauchte einfach nur den Befehl aussprechen, um
nach E-Mail zu sehen oder den Browser zu öffnen, ohne dass hierfür ein Kontaktbildschirm,
eine Maus oder eine andere manuelle Ansteuerung eingesetzt werden
muss.
-
Nach
einer noch anderen Ausführungsform kann
die erfindungsgemäße Lehre
zur Steuerung durch gesprochene Einzelbefehle in einem hand-held,
am Körper
zu tragenden oder sonst wie tragbaren oder nicht tragbaren Spielecomputer
umgesetzt werden. Der DSP auf der Systemplatine könnte die
Sprachsteuerung der Spielmaschine übernehmen, ohne dass der Nutzer
für Entscheidungen
Tasten zu drücken
brauchte. Er könnte
auch zusammen mit manuellen Bedienelementen eingesetzt werden, die
weniger komplex sein müssten,
wenn einige Entscheidungen durch Sprechen getroffen werden. Bei
einem Spiel, in dem beispielsweise das Zeichen (Figur, deren Bewegung,
Position und/oder Aktionen durch den Spieler gesteuert werden) sich
sowohl bewegt als auch Handlungen vornimmt, etwa Abfeuern einer
Waffe oder Werfen eines Balls könnten
die manuellen Bedienelemente für
die Bewegung eingesetzt werden, während die Spracheingabe eine Aktion
auslöst
wie feuern, werfen oder Auswahl oder Nachladen einer Waffe. Hierdurch
erhielte das Spiel eine weitere Realitätsdimension und der Spieler könnte sich
bei freien Händen
mehr auf die elementaren Befehle konzentrieren. Dies ist besonders
be deutsam bei den gängigen
Videospielen, etwa die von Sony Corporation oder Nintendo Corporation,
die Bedienelemente für
zehn oder mehr unterschiedliche gleichzeitige Befehle aufweisen.
Durch Abladen einiger dieser Befehle auf die Sprachsteuerung ist
eine weniger ausgeprägte
Fingerfertigkeit vonnöten.
-
In
den Figuren sind Ausführungsbeispiele der
Erfindung dargestellt.
-
1 zeigt
eine Standard Systemplatine 1 eines Computers. Die Systemplatine
kann zu einem PC, einem mobilen Computer, einer Rechen- und Kommunikationseinrichtung
oder einer anderen elektronischen Recheneinrichtung gehören. Diese
Systemplatine ist standardmäßig mit
den wichtigsten Systemkomponenten ausgerüstet, wie eine CPU 2, einem
Speicher 3, einem Datenbus, einer Interfacekarte für die Stromversorgung 5,
die Ein-/Ausgabe-Schnittstelle 4, Videoausgang 6 und
Audioausgang und wahlweise einem Eingangsport ausgerüstet.
-
2 zeigt
einen typischen Systemaufbau eines für den Sprachempfang ausgelegten
PC. Die Anlage umfasst einen Monitor 10, einen Rechner 9, eine
Tastatur 11, die Maus 12 und das Mikrofon 8. Das
Mikrofon 8 ist bei allen Anwendungen die direkte Quelle
für die
Eingabe des Gesprochenen in den Computer.
-
3 zeigt
einen Ablaufplan für
die Spracheingabe im Kontext dieser Erfindung. Die Sprache gelangt über den
das Gesprochene in elektrische Signale umwandelnden Mikrofoneingang 13 in
das System. Über
den Datenpfad gelangt das Signal in den A/D Wandler 14 (CODEC)
oder äquivalenten Chip,
der die A/D-Wandlung des Signals vornimmt. Das digitale Signal wird
dann dem DSP 15 zur Verarbeitung zugeführt. An diesem Punkt 16 hat
das System eine Entscheidung über
den Betriebsmode des DSP 15 zu fällen, ob im Befehleingabemode
oder Texteingabemode. Im Befehlseingabemode, wird der Befehl in 17 extrahiert
und an die CPU zur Verarbeitung 19 geleitet. Wird dagegen
für den
DSP 15 der Texteingabemode gewählt, muss dieser die Textsignale
in Schritt 18 in Phoneme umwandeln und diese dann der CPU
zur Verarbeitung 19 in Verbindung mit einem softwarebasierten
Spracherkennungssystem zuführen.
-
4 zeigt
einen Ablaufplan des Prozesses im DSP, wenn ein Sprache repräsentierendes
Signal eingeht. Das Sprachsignal 20 kommt im DSP 15 an, der
entweder auf den Texteingabemode oder den Befehleingabemode eingestellt
ist. Im Texteingabemode wird das Signal gefiltert und etwaige Rauschsignale
werden in Schritt 24 ausgefiltert. Dieser Prozess kann
auf die spezifische Arbeitsumgebung oder den sprachlichen Kontext
abgestimmt werden. Anschließend
wird das Signal in Schritt 25 in Phoneme umgewandelt und
der CPU zugeführt,
welche mit dem softwarebasierten spezifischen Spracherkennungssystem
in Schritt 26 die Erkennung vornimmt. Bei Einstellung des
DSP auf den Befehlseingabemode wird das Signal ebenfalls einer Filterung
und Rauschunterdrückung
in Schritt 21 unterzogen. Auch dieser Vorgang kann auf
das Rauschen in einer bestimmten Umwelt und die Art einer Steuerbibliothek
optimiert werden. Das Signal des nunmehr rauschfreien Befehls wird
dann vom DSP mit in einem Speicher abgelegten Signalen abgeglichen,
auf den der DSP in Schritt 22 zugreifen kann. Sobald der
Befehl extrahiert worden ist, geht er an die CPU in Schritt 23.
-
5 zeigt
ein Ausführungsbeispiel
eines eingebauten DSP auf einer Systemplatine 200 eines mobilen
Computers. Der Baustein 103 ist ein TMS5000 Serien DSP-Chip.
Er ist in die Systemplatine als Brücke zwischen dem Audioeingang 101 und CODEC 102 und
der CPU 108 und der integrierten Intel-Brücke 1905
82443MX100 N&S
integriert. Der DSP 103 kommuniziert mit dem parallelen
PCI-Bus 106 über
ein TI PCI2040 PCI zur DSP-Brücke 104,
so dass die Ausgangssignale des DSP 103 die Schnittstelle
zum Bus 106 bilden. Die CPU 108 ist in diesem Beispiel
ein 600 MHz mobile PentiumR -Chip von Intel Corporation;
Für einen
Fachmann ist jedoch klar, dass jede geeignete Computer CPU in Frage
kommt, ohne den Erfindungsgedanken dieser Erfindung zu verlassen.
In diesem Beispiel ist eine Benutzer-Schnittstelle PCB 100 gezeigt.
Diese weist mehrere typische Eingangs- und Ausgangsschnittstellen auf,
wie einen Benutzer Interfaceport 101, USB Port 110,
1394 Port 111 und Display Port 109.
-
Der
typische Pfad des Datenstroms bei der Verarbeitung im Befehlseingabe-
und Texteingabemode ist wie folgt. Das Gesprochene wird von dem analogen
Audioeingang 101, dem Benutzer Interfaceport, als analoges
elektrisches Signal von einem Mikrofon empfangen. Die analogen Akustiksignale gelangen
zum CODEC 102, wo ein A/D-Wandler sie in einen digitalen
Bitstrom umsetzt. Dieser Bitstrom gelangt zum DSP-Chip 103.
Der DSP 103 übernimmt die
erforderlichen Funktionen hinsichtlich Beseitigung der Störsignale
und Verarbeitung des Gesprochenen in Phoneme. Arbeitet der Computer
im Befehlseingabemode nimmt der DSP 103 die Zuordnung der
Phoneme zum eingegebenen Befehl über sein
eigenes Spracherkennungssystem vor. Arbeitet er im Texteingabemode
bedarf es lediglich der Umwandlung in Phoneme.
-
In
einem nächsten
Schritt werden die Ausgangssignale, entweder ein von der CPU 108 abzuarbeitender
Befehl oder eine Lautfolge über
den Datenpfad zur Weiterverarbeitung an die CPU 108 geleitet.
Hierzu wird das Ausgangssignal durch einen den DSP mit PCI verbindenden
Brückenchip 104 geleitet,
in dem das Ausgangssignal in ein mit dem PCI-Bus 106 kompatibles Bitformat
umgesetzt wird. Das Signal gelangt nunmehr durch den Baustein 105 Intel
82443X100 unmittelbar zur CPU 108. Steht das Signal für Befehlseingabe
wird es durch die CPU 108 ausgeführt. Die CPU 108 ist
bis zu diesem Zeitpunkt hinsichtlich der Sprachverarbeitung nicht
eingeschaltet. Handelt es sich um einen aus Phonemen bestehenden
Signalstrom, wie bei der Texteingabe, dann greift die CPU 108 auf
das softwarebasierte Spracherkennungssystem zu, um die Phoneme zu
verarbeiten und sie in Text umzusetzen (TTS= Sprachsynthese), je
nachdem für
welchen Zweck die jeweilige Anwendung bestimmt ist. Für einen
Fachmann ist klar, dass das gezeigte Ausführungsbeispiel der Erläuterung
dient und dass die Erfindung selbst auf jede Systemplatine eines
Computers unabhängig von
ihrer Konfiguration anwendbar ist, und dass etwaige Permutationen
und Abwandlungen unter den in den beigefügten Ansprüchen definierten Schutzumfang
fallen, sofern der Grundgedanke der Erfindung erhalten bleibt, nämlich die
Verwendung eines DSP im Datenpfad des Akustikeingangs als Spracherkennungssystem
für gesprochene
Text- und Befehlseingabe und/oder als Front-End-Prozessor für Texteingabe, für die Verarbeitung
und Unterstützung von
Menüauswahlen
oder Einzelbefehlen aus einem Mobiltelefon und zur Umwandlung von
Text in Sprache.
-
Die
hier beschriebenen und dargestellten bevorzugten Ausführungsbeispiele
der Erfindung geben den Grundgedanken der Erfindung an, doch können Abänderungen
und Erweiterungen vorgenommen werden, ohne vom Umfang der Erfindung
abzuweichen.
-
- 1
- Computer
Systemplatine
- 2
- CPU
- 3
- Speicher
- 4
- I/0
Interface
- 5
- Stromversorgungsinterface
- 6
- Videoausgang
- 7
- Audio
Aus- und Eingang
- 8
- Mikrofon
- 9
- CPU
- 10
- Display
- 11
- Tastatur
- 12
- Maus
- 13
- Mikrofoneingang
- 14
- CODEC
- 15
- DSP
- 16
- Entscheidungszustand
- 17
- Extraktion
des Befehls
- 18
- Wandlungsstufe
- 19
- Befehlsverarbeitung
/ CPU
- 20
- Sprachsignal
- 21
- Filterung
und Rauschunterdrückung
- 22
- Anpassung
- 23
- Weiterleitung
- 24
- Filterung
und Subtraktion
- 25
- Umwandlung
- 26
- Erkennung
- 101
- Audioeingang
- 102
- CODEC
- 103
- DSP
Baustein
- 104
- Chip
- 105
- Brücke
- 106
- PCI-Bus
- 108
- CPU
- 109
- Display
Port
- 110
- USB
Port
- 111
- Port
1394
- 200
- Systemplatine
eines mobilen Computers