DE60102993T2 - Architektur einer Rechnergrundplatine - Google Patents

Architektur einer Rechnergrundplatine Download PDF

Info

Publication number
DE60102993T2
DE60102993T2 DE60102993T DE60102993T DE60102993T2 DE 60102993 T2 DE60102993 T2 DE 60102993T2 DE 60102993 T DE60102993 T DE 60102993T DE 60102993 T DE60102993 T DE 60102993T DE 60102993 T2 DE60102993 T2 DE 60102993T2
Authority
DE
Germany
Prior art keywords
system board
computer system
dsp
architecture
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60102993T
Other languages
English (en)
Other versions
DE60102993D1 (de
Inventor
Robert G. Schultz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xybernaut Corp
Original Assignee
Xybernaut Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=24719254&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60102993(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Xybernaut Corp filed Critical Xybernaut Corp
Application granted granted Critical
Publication of DE60102993D1 publication Critical patent/DE60102993D1/de
Publication of DE60102993T2 publication Critical patent/DE60102993T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Hardware Redundancy (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

  • Die Erfindung betrifft die Architektur einer Systemplatine eines Computers gemäß den Merkmalen aus Anspruch 1 und ein Verfahren nach den Merkmalen aus Anspruch 16.
  • Die Erfindung betrifft im Wesentlichen eine neuartige Architektur einer Systemplatine, bei der der Baustein für die digitale Signalverarbeitung als direktes Audio-Eingangs-Interface integriert ist und die Bearbeitung von Befehlseingabe sowie von fortlaufend gesprochenem Text übernimmt.
  • Die am nächsten kommende Vorveröffentlichung ist EPA-0 535 909, in dem die Architektur einer Computer Systemplatine mit den üblichen Komponenten wie CPU, Datenbus, Stromversorgung und einem Datenpfad für die Audio-Eingangs-Signale, der den Audioeingang der Systemplatine mit der CPU verbindet, einem DSP Chip im Datenpfad des Audioeingangs; eine zwischen DSP Chip und dem Bus auf der Systemplatine als Schnittelle vorgesehene Brücke; ein mit dem DSP Chip elektrisch verbundener Speicher; und ein im Speicher des DSP-Chip residentes Spracherkennungssystem.
  • Spracherkennung und Sprachansteuerung haben mit zunehmender Leistungsfähigkeit von softwarebasierten Spracherken nungssystemen und Geschwindigkeiten der Mikroprozessoren von 1 GHz an Bedeutung gewonnen. Ursprünglich waren sie als ein Mittel zur Diktataufnahme konzipiert, das ohne großen Einfluss auf das Betriebssystem auskam, doch jetzt und in Zukunft wird die Spracherkennung bei allen möglichen Anwendungen in großem Umfang eingesetzt werden. Sprache ist die natürlichste und effizienteste Art der Kommunikation. Sie kann in alle Steuerungsbefehle und die unterschiedlichsten Anwendungen wie Web-Browser und Suchmaschinen integriert werden. Über die Sprache können viele an einem Computer manuell vorgenommene Operationen automatisiert werden. Einige moderne Computer sind sogar überwiegend sprachgesteuert ausgelegt. Zwei Beispiele hierfür sind die US-Patente 5.305.244 und 5.844.823, in denen ein sprachgesteuerter am Körper zu tragender Computer gelehrt wird, für dessen Betrieb der Benutzer seine Hände nicht braucht. Nach der Offenbarung im *244 Patent heißt es: "Der Rechner enthält ein Modul für die Spracherkennung in Verbindung mit einem Prozessor, das die Akustikbefehle des Nutzers empfängt und diese in elektrische Signale umwandelt, die umgewandelten elektrischen Signale erkennt und die erkannten Signale an den Prozessor zur Verarbeitung sendet, wobei der Benutzer das Modul für die Spracherkennung unterstützt." Im Patent *824 heißt es weiter "... ein am Körper zu tragender, ohne Hände zu betätigendes Computersystem, das ohne Eingabe über eine Tastatur oder ein Ansteuerungsgerät auskommt, sondern vielmehr verschiedene handfreie Aktivierungsmittel aufweist." Eines dieser Aktivierungsmittel ist die Sprache. Die durch diese beiden Patente offenbarte Erfindung lehrt also eine Computer Hardwareplattform, welche die Steuerung des Betriebssystems und verschiedener An wendungen auf dem Wege der Sprache als Hauptaktivierung erlaubt.
  • Die meisten Menschen können etwa fünfmal schneller sprechen als tippen und wahrscheinlich zehnmal schneller als schreiben. Die Effizienz wird also erheblich gesteigert, wenn die Spracherkennung und -verarbeitung in PCs richtig funktionierend integriert wird. Sprache wird nach der derzeitigen Methode in PC-Umgebung vornehmlich auf Softwarebasis verarbeitet. Die Soundkarte dient als Akustikeingang und enthält einen A/D-Wandler, der die von einem normalen Mikrofon aufgenommenen analogen Audiosignale bzw. Worte in einen digitalen Bitstrom umwandelt, der dem Mikroprozessor zugeführt wird. Dann wird die im Speicher abgelegte Software parallel mit der CPU eingesetzt, um die in Form von Signalen vorliegende Stimme, ob Befehl oder nur Text, so zu verarbeiten, dass der entsprechende Befehl oder die Funktion ausgeführt werden. Die führenden Software-Anwendungen für diese Form der Interaktion sind ViaVoiceR von IBM Corporation und Naturally SpeakingR von Dragon Systems Corporation. Beides sind Spracherkennungsprogramme mit Spracherkennungssystemen, welche die CPU des Computers für die gesamte Sprachverarbeitung benutzen. Diese Aufgabe belegt in der CPU umfangreiche Rechenkapazität und bindet bzw. schränkt damit die Systemressourcen ein. Bei Tischrechnern oder Laptops führt verminderte Wechselstromspeisung lediglich zu einer Verschlechterung der Systemleistung. Bei mobilen und am Körper zu tragenden Einrichtungen, die meist batteriegespeist sind, führt dies auch zu überhöhter Leistungsaufnahme. Es besteht ein direkter Zusammenhang zwischen den Taktzyklen der CPU und der Stromaufnahme. Außerdem kann in diesen mobilen am Körper getragenen Einrichtungen, in denen schon aus Platzgründen nur geringe Kühlung oder keine aktive Kühlung möglich ist, starke Wärmeentwicklung zu Schäden im Speicher, der Systemplatine und anderen elektronischen Komponenten auf Silikonbasis führen und kann auch dazu führen, dass die CPU mit der erzeugten Wärme nicht schnell genug fertig wird. Eine Architektur, die die Nutzungsdauer von Batterien verlängert und die Wärmeerzeugung durch die CPU verringert und gleichzeitig Sprache effizient und sinnvoll verarbeitet, brächte einen erheblichen Fortschritt gegenüber dem Stand der Technik.
  • Jüngst wurde ein Chip mit digitaler Signalverarbeitung (nachstehend DSP) zur Verarbeitung natürlicher Sprache eingesetzt. Ein Beispiel hierfür sind die telefonvermittelten Dienstleistungen, bei denen die Anrufer ihre Eingabe sowohl sprechen als auch über die in ihr Telefon integrierte Tastatur machen können. DSP ist in die Telefon-Baumstruktur integriert. Sobald das System ein für ein gesprochenes Wort stehendes Signal erhält, vergleicht DSP dieses mit der Signalstruktur bekannter Worte und gibt diese Daten ein. Diese Systeme sind jedoch im Allgemeinen auf die numerische Erkennung beschränkt und sind für Verbraucher orientierte Produkte nicht verfügbar.
  • Ein DSP-Chip ist ganz allgemein ein Universal-Mikroprozessor, der sich bei unterschiedlichen Anwendungen einsetzen lässt. Er enthält eine spezielle Logik-Hardware zur Ausführung mathematischer Funktionen mit Geschwindigkeiten, Stromverbrauch und Leistungen, die bei Mikroprozessoren nicht generell vorkommen. Diese Chips können so programmiert werden, dass sie unterschiedliche Signalverarbeitungsfunktionen ausführen. Es gibt eine Reihe von handelsüblichen Erweiterungskarten für PC, die DSP enthalten und meist ein Anwendungsprogramm zur Programmierung der Signalverarbeitung. Aufgrund ihrer Hardware und Architektur sind sie meist besser geeignet, um bestimmte Funktionen mit hoher Rechenleistung auszuführen.
  • Die Auslegung des DSP-Chip ist standardmäßig insbesondere für mathematische Algorithmen optimiert, wie Korrelation, komplizierte Rechnungen, FIR-Filter, IIR-Filter, FFT (Fast Fourier Transformationen), Matrixberechnungen und innere Produkte in anderen Operationen. Die Implementierungen dieser mathematischen Algorithmen umfassen im Allgemeinen lange Sequenzen von systematischen Operationen in Arithmetik und Multiplikation. FFT und Filter haben bei der Sprachverarbeitung eine besondere Relevanz.
  • Die CPU umfasst im Allgemeinen ein Ausführungsmodul, Cache-Speicher, eine Speicherverwaltung und ein Gleitkommaregister sowie andere Logiken. Die Aufgabe einer Universal-CPU ist, Kodes abzuarbeiten und Operationen an Daten im Computerspeicher vorzunehmen, also die Rechnerplattform zu verwalten. Generell ist die CPU eines X86 oder eines anderen Computertyps hauptsächlich so ausgelegt, dass Entscheidungsoperationen nach der boolschen Algebra, bei der Verwaltung und Datenbearbeitung ausgeführt werden. Die von einer Universal-CPU ausgeführten Anweisungen sind mathematische Grundfunktionen. Diese Funktionen sind aber für komplexe DSP-typische mathematische Operationen nicht sonderlich geeignet. Deshalb bedarf es einer Universal-CPU, mit der sich eine große Menge DSP-bezogener Anweisungen abarbeiten lässt, die auch grundlegende DSP-Funktionen einschließen.
  • Nach dem Stand der Technik wurde bereits bei Hardware und Software versucht, DSP in die Architektur von PCs einzuführen, weil man sich davon mehr Effizienz versprach. Das US-Patent 5.794.068 (nachstehend *068 Patent genannt) liefert ein Beispiel. Im *068-Patent ist eine Universal-CPU offenbart, die eine Universal-CPU-Karte, wie einen X86 Hauptspeicher enthält und außerdem einen DSP-Hauptspeicher. Die CPU enthält einen Dekoder für die DSP Funktion oder einen Präprozessor, der die Sequenzen von Anweisungen prüft und festlegt, ob eine DSP-Funktion ausgeführt wird. Ergibt die Prüfung, dass dies der Fall ist, setzt der Funktionsdekoder die Sequenzen der Anweisung in ein DSP Makro um und leitet dieses in den DSP Hauptspeicher. Der DSP Hauptspeicher kann die DSP Funktion parallel zu anderen in der CPU laufenden Operationen ausführen. Diese Auslegung sichert eine gegenseitige Kompatibilität mit bestehenden Softwarepaketen, solchen die DSP Operationen erfordern und solchen ohne. Wegen des Präprozessors ist allerdings ein zusätzlicher Schritt in den Ablaufzyklus erforderlich. Nachteilig beim *068-Patent ist, dass zur Ermittlung einer DSP-Funktion ein Befehl vor seiner Verarbeitung erst dekodiert werden muss. Ein weiterer Nachteil des Systems gemäß dem *068-Patent ist, dass die Architektur für die Sprachverarbeitung nicht optimiert ist und nicht lehrt, ein Spracherkennungssystem für eingegebene Einzelbefehle in den DSP-Chip selbst zu integrieren. Außerdem dient der DSP nicht als Hauptschnittstelle für alle Sprachsignale, die vom Audioeingang des Computers eingehen.
  • Ein weiteres Beispiel aus dem US- Patent 5.915.236 (nachstehend *236 Patent genannt) nennt eine Softwarelösung für den Einsatz von DSP zur Sprachverarbeitung. Das *236- Patent lehrt ein Worterkennungssystem, das die zur Verfügung stehenden Rechenressourcen ermittelt, wie Geschwindigkeit, Anzahl der Prozessoren, Existenz eines DSP und ändert die von ihm ausgeführten Anweisungen ergebnisabhängig, um die Zuweisung von Anweisungen zu optimieren. Das System ist in erster Linie ein Spracherkennungssystem, das bestehende Worterkennungsprogramm kann aber die Rechenintensität seiner Signalverarbeitung in Abhängigkeit von den verfügbaren Rechenressourcen ändern. Ermittelt das Programm sowohl eine CPU als auch einen DSP-Prozessor, kann es über den DSP den Zeitpunkt für eine Unterbrechung der CPU veranlassen. Mit dem Programm kann auch die Rate geändert werden, mit der verhältnismäßig niederwertige (einfach verarbeitbare) Wörter aus der Betrachtung während des Erkennungsprozesses ausgefiltert werden, je nachdem, was an Ressourcen verfügbar ist. Nachteilig bzw. problematisch ist hier, dass es sich um eine reine Softwarelösung handelt, die durch die Architektur des Computers, auf dem das Programm läuft, eingeschränkt ist. Das heißt, ohne ein DSP arbeitet das System anfälliger und ungenauer. Darüber hinaus müssen die Software und die CPU den Code auf DSP Anweisungen hin prüfen, wodurch ein zusätzlicher Programmschritt eingeführt wird.
  • Es besteht daher ein Bedarf an einer Sprachverarbeitungsarchitektur für PC, insbesondere mobile, hand-held und am Körper tragbare Computer, welche die vorstehend aufgezeigten Mängel beseitigen kann.
  • Aufgabe der Erfindung ist es daher, eine neuartige Systemplatine zu schaffen, die die vorstehenden Nachteile nicht aufweist.
  • Durch die Erfindung soll ferner eine neuartige Systemplatine mit der Möglichkeit von integrierter digitaler Signalverarbeitung (nachstehend "DSP" genannt) geschaffen werden.
  • Darüber hinaus soll durch die Erfindung eine zur Sprachverarbeitung optimierte Hardware Architektur geschaffen werden.
  • Gemäß der Erfindung soll außerdem die Architektur der Systemplatine so ausgebildet werden, dass die CPU im Zuge der Sprachverarbeitung weniger Strom verbraucht und geringere Taktzyklen hat.
  • Des Weiteren ist es Aufgabe der Erfindung, eine Rechnerarchitektur zu schaffen, die hinsichtlich Genauigkeit und der vorhandenen Möglichkeiten bestehende softwarebasierte Sprachverarbeitungsverfahren übertrifft.
  • Außerdem soll durch die Erfindung eine Systemplatine für PCs, insbesondere mobile, hand-held und am Körper zu tragenden PCs, und für andere elektronische Einrichtungen, so gestaltet werden, dass die CPU bei der Sprachverarbeitung mit weniger Zyklen auskommt.
  • Ferner soll durch die Erfindung eine Architektur geschaffen werden, die Rauschunterdrückung und Rauschminderung während der Sprachverarbeitung erlaubt.
  • Außerdem soll durch die Erfindung ein in den DSP integriertes Spracherkennungssystem geschaffen werden, dessen Vokabular für die gesprochene Befehlseingabe individuell gestaltbar ist.
  • Diese und weitere Aufgaben der offenbarten Erfindung werden generell durch die Auslegung einer Systemplatine für einen Computer gelöst, bei dem DSP Hardware in die Systemplatine als Interface zwischen dem Audioeingang und dem Mikroprozessor für die Erkennung und Verarbeitung der gesprochenen Befehle integriert ist.
  • Weitere Vorteile und Merkmale ergeben sich aus der nachstehenden Beschreibung mehrerer Ausführungsformen der Erfindung in Verbindung mit den Zeichnungen. Es zeigen:
  • 1 eine typische Systemplatine für einen Computer oder eine Recheneinheit mit den üblichen Systemkomponenten,
  • 2 einen Standard PC mit einem Mikrofon als Quelle für Audioeingabe
  • 3 den Ablaufplan für das erfindungsgemäße Verfahren bezüglich der Spracheingabe in die Recheneinheit;
  • 4 den Ablaufplan und die Entscheidungs-Baumstruktur für den fortlaufenden Texteingabemode und den Befehlseingabemode,
  • 5 eine Muster-Systemplatine für einen am Körper zu tragenden Computer, mit dem in den Schaltungsaufbau und die Datenleitung der Platine integrierten DSP.
  • In dieser Beschreibung und den Ansprüchen bedeutet die Bezeichnung "Computer-Systemplatine" jede Systemplatine, für einen PC, einen am Körper zu tragenden Computer, einen tragbaren Computer, ein Laptop, einen Kombinationsrechner und ein Kommunikationsgerät oder ein PALM. Die Erfindung betrifft im Wesentlichen eine neuartige Archi tektur einer Computer Systemplatine, in der ein DSP als Hardware integriert ist und das Interface zwischen der Soundkarte oder einer ähnlichen Akustikeingabeeinrichtung und dem Mikroprozessor bildet. Hierdurch werden eine Reihe von Problemen gelöst, die bei den bestehenden Architekturen der Sprachverarbeitungssysteme auftreten. Die Integration des DSP in den Datenstrom der eingehenden Sprachsignale erweitert die Möglichkeiten bestehender Architekturen für die Spracherkennung ganz wesentlich und minimiert den Einsatz des Mikroprozessors bei der Sprachverarbeitung. Beim derzeitigen Verfahren der Sprachverarbeitung unter Einsatz der CPU und softwarebasierter Spracherkennungssysteme wie bei ViaVoiceR und Naturally SpeakingR ist problematisch, dass die Mikroprozessoren ungeeignet sind, um die Flut der Fast Fourier Transformationen (nachstehend FFT) zu bewältigen, die für die Sprachverarbeitung erforderlich sind. Hierdurch wird der Prozessor unter steigendem Stromverbrauch übermäßig beansprucht, so dass es zu sehr starker Wärmeentwicklung kommt und damit verhindert wird, dass der Prozessor andere Aufgaben so schnell wie sonst möglich ausführt. Mikroprozessoren verbrauchen Strom im hohen Wattbereich. Ein als Brücke zwischen dem A/D-Wandler und dem Mikroprozessor eingebauter DSP ist ein Präprozessor für diktierten Text und eingegebene gesprochene Befehle und spart somit Strom und erlaubt zusätzliche Überprüfungen zwecks größerer Genauigkeit. Der DSP-Chip wie die Serie TMS5000 von Texas Instruments Corporation in Dallas, Texas, verbraucht nur Milliwatts, was die CPU um mehrere Größenordnungen entlastet. Zweitens sind diese Chips auf die für die sinnvolle und effiziente Sprachverarbeitung erforderlichen Rechenoperationen optimiert. Aufgrund dieser Architektur lassen sich also Genauigkeit, Geschwindigkeit und Möglichkeiten verbessern. Außerdem wird die CPU für die Ausführung anderer Aufgaben bei parallel ablaufenden Anwendungsprogrammen frei gehalten, von denen einige für eine verbesserte Genauigkeit in der Erkennung und die interaktive Benutzerführung herangezogen werden können. Hiervon profitieren sowohl am Körper zu tragenden als auch tragbare Computer sowie Tischcomputer und Heimcomputer. Speziell unter den Bedingungen bei am Körper zu tragenden/tragbaren Computern wird die vielseitige Einsetzbarkeit der Einrichtung durch die nicht anfällige Sprachverarbeitung verbessert. In dieser Beschreibung werden unter am Körper zu tragenden Computern solche verstanden, wie sie im US-Patent 5.844.824 für Xybernaut Corporation, Fairfax, VA, offenbart sind und unter dem Warennamen Mobile AssistantR erfolgreich eingeführt sind. Das US-Patent 5.844.824 offenbart die Verwendung von Kommunikationsmitteln bei Computern, die am Benutzer getragen werden. Beim vorliegenden System kann jede Art von Display verwendet werden wie HMD oder ein umhängbares Display, Flachbildschirme oder jede andere Art von Display. Für den Fachmann ist klar, dass am Körper zu tragende Computer auch solche betreffen, die anderweitig hergestellt werden oder Computer mit Systemplatinen und elektronische Produkte, die demnächst hergestellt werden sollen. Die Aufnahme dieser Technologie ermöglicht es dem Nutzer, derartige Einrichtungen sprachgesteuert robust und präzise einzusetzen und zwar anstatt oder zusätzlich zur manuellen oder durch Kontakt vermittelten Aktivierung. Da ferner der DSP weniger Strom verbraucht als die CPU verlängert sich auch die Nutzungsdauer der Batterien des Geräts wesentlich. Bei Desktop-Computern können die Vorteile einer effizienteren Sprachverarbeitung und Freisetzung von CPU Taktzyklen ebenfalls realisiert werden.
  • Die Verarbeitung von Spracheingaben bei Computern kann in zwei Hauptkategorien unterteilt werden. Erstens die Eingabe von gesprochenen Befehlen zu Steuerung des Computers (nachstehend Befehlseingabemode) und zweitens die Eingabe von fortlaufend gesprochenem Text (nachstehend Texteingabemode bzw. Diktieren). Befehlseingabemode sind Wörter, die zur Steuerung des Betriebssystems eingesetzt werden oder durch eine bestimmte Anwendung führen. Diese Wörter oder Wortgruppen können individuell gestaltet und spezifischen Kommandos zugeordnet werden. Sätze wie "Fenster öffnen" oder "scroll down" sind Beispiele für diese Art der Sprachsteuerung. Im Allgemeinen geht es hier um Wörter aus einem beschränkten oder in Gruppen aufgeteilten Vokabular, in dem jedes Wort an einen bestimmten Befehl für den Computer gebunden ist. Derzeit erfolgt hier die Verarbeitung durch das softwarebasierte Spracherkennungssystem und die CPU. Der DSP ist jedoch in der Lage als Spracherkennungssystem für diese Wörter oder Sätze der Sprachsteuerung zu fungieren. Das Spracherkennungssystem selbst liegt im DSP-Chip internen Speicher, so dass nur der übersetzte Befehl an die CPU zur Ausführung geht. Dies erlaubt die vollständige Interpretation und Vorbearbeitung des Gesprochenen durch den DSP, ohne dass die CPU hierfür gebraucht wird. Die Template der geltenden Befehlswörter kann im Speicher des DSP resident sein oder kann alternativ in den DSP-Speicher aus der Host-CPU je nach Kontext und Anwendung geladen werden, was eine Vielzahl von Bibliotheken unterschiedlicher Steuerungsbefehle je nach der zum Einsatz kommenden Anwendung ermöglicht. Auf diese Weise braucht der DSP keinen übermäßig großen Speicher, weil das Vokabular an Steuerungsworten klein ist und die kontextabhängigen Worttemplates jederzeit o der bei sich änderndem Kontext in den DSP-Speicher unmittelbar geladen werden können. Die Anforderungen an die Speicherkapazität im Befehlseingabemode sind bei effizienterem Betrieb wesentlich geringer. Ein Speicher von vierundsechzig Kilobytes müsste für eine Bibliothek im Befehlsmode ausreichen, was leicht der Speicherkapazität derzeitiger DSP entspricht. Mit zunehmend größeren und sicheren Speichern der DSP kann es nützlich und erfolgreich sein, mehr oder alle Worttemplates mit den gesprochenen Befehlen im DSP Speicher abzulegen. Das Spracherkennungssystem selbst kann individuell ausgelegt werden, so dass der Nutzer den Wortbefehl für eine Aktion selbst definieren kann. Hierdurch kommt es nicht zu dem Problem, dass ähnlich klingende Wörter unterschiedliche Befehle auslösen. Gibt es beispielsweise zwei phonetisch ähnliche Befehle, die aber zu unterschiedlichen Ergebnissen führen, kann ein anderer Sprachbefehl gewählt werden, der zum gleichen Ergebnis führt oder die nach Kontext und Umgebung geeignete Befehlsfolge kann die richtige Bedeutung liefern.
  • Für die Erkennung eines fortlaufenden Textes bietet der Einsatz eines DSP zur Unterstützung der CPU bei der Sprachverarbeitung ebenfalls bedeutende Vorteile. Sobald in der CPU ein digital abgetasteter Bitstrom eingeht, der die gesprochenen Wörter aus dem CODEC A/D-Wandler wiedergibt, muss diese sie in Phoneme oder akustische Signale umwandeln, die Buchstabengruppen oder Wortteile darstellen, und muss dann das am zutreffendste Wort oder den Satz erkennen, das bzw. welcher der Lautfolge entspricht. Dieser Vorgang der Umwandlung des Bitstroms in Phoneme erfordert eine hohe Rechenkapazität und die Logik einer Universal-CPU ist für diese Art der Verarbeitung nicht optimiert. Der DSP-Chip kann auch als Datenstationsrechner (FEP) für ein softwarebasiertes Erkennungssystem für diktierten Text dienen. Da für diese Art Spracherkennung das Wörterbuch sehr umfangreich ist und der DSP nur eine eingeschränkte Speicherkapazität besitzt, ist es aussichtsreicher, die CPU und ein softwarebasiertes Spracherkennungssystem als Nachrechner einzusetzen. Der DSP nimmt den der Spracheingabe entsprechenden Bitstrom auf und wandelt ihn in Phoneme um, die an die CPU weitergeleitet und dort mit dem softwarebasierten Spracherkennungssystem abgeglichen werden. Phoneme sind die kleinsten nichtteilbaren Lauteinheiten, aus denen Wörter bestehen, beispielsweise eine einsilbige Buchstabenkombination. Diese Vorbearbeitung, üblicherweise von der CPU vorgenommen, verringert die zur Verarbeitung einer vorgegebenen Anzahl von Wörtern erforderliche Gesamtzahl der Ausführungszyklen in der CPU beträchtlich, als wenn die CPU nach der herkömmlichen Methode die Sprachverarbeitung allein ausführte. Es ist nämlich die Umwandlung des Bitstroms in Phoneme, die enorm viele FFT Rechenoperationen erfordert. Der leistungsstarke DSP-Chip nimmt also der CPU viel Arbeit ab und entlastet sie damit, so dass sie frei für die Bearbeitung der Programmanweisungen für die Umwandlung der Phoneme in richtige Wörter und Sätze ist. Dies führt wiederum zu einer genaueren Erkennung des Gesprochenen, zu schnellerer Systemfunktion, geringerer Wärmeentwicklung und einen günstigeren Stromverbrauch. Eventuell muss ein neues softwarebasiertes Spracherkennungssystem für die Verarbeitung von fortlaufend Gesprochenem entwickelt werden, damit der DSP für die Frontend-Bearbeitung die neue Architektur bestmöglich nutzen kann. Alternativ kann der Quellkode von handelsüblichen Texteingabe-Spracherkennungssystemen wie ViaVoiceR und Naturally SpeakingR abgeändert werden, damit der DSP die Front-end-Bearbeitung des Gesprochenen vornehmen kann, was bisher Aufgabe der CPU ist.
  • Ein weiterer Vorteil dieser Erfindung ist die Fähigkeit, Rauschen auszufiltern und zu reduzieren. Der DSP-Chip eignet sich gut zur Bearbeitung von Algorithmen zur Filterung und Rauschunterdrückung, denn er nimmt den das Gesprochene verkörpernden digitalen Bitstrom auf, ob fortlaufend oder extern beeinflusst, filtert die Rauschsignale aus und setzt ihn dann in verständliche Phoneme um. Im Befehlseingabemodus wird der Befehl von ihm extrahiert und an die CPU weitergeleitet. Im Texteingabemodus werden die Phoneme an die CPU zur Verarbeitung mit dem softwarebasierten Spracherkennungssystem weitergeleitet. Die Fähigkeit, Rauschen im Gesprochenen zu unterdrücken, ermöglicht es dem Nutzer von Computern mit dieser Architektur auch in sehr lauter Umwelt mit größerer Genauigkeit zu arbeiten. Wenn beispielsweise an einer Turbine eines Kraftwerkes Wartungsarbeiten auszuführen sind oder an einem Montageband für Flugzeuge, wo durch Werkzeuge und Roboter und das Vernieten starker Lärm entsteht, kann der Nutzer seinen Computer immer noch exakt einsetzen, weil die Leistung sich kaum oder gar nicht verschlechtert. Besonders günstig wirkt sich dies bei sprachgesteuerten, am Körper zu tragenden und hand-held Computern aus, wie sie unter diesen Bedingungen häufig verwendet werden, wobei die Nutzer eine Hand oder beide Hände frei haben können, während sie die Informationen im Bildlauf verfolgen. Typische Anwendungen sind hier das Lesen von interaktiven elektronischen technischen Handbüchern, in denen ein Techniker über den Bildlauf eine Information aus rechnergestützten Fachanweisungen, Stücklisten oder Plänen während seiner Wartungs- oder Montagearbeiten finden muss. Diese Betriebsart wird häufig bei großen oder nicht leicht bewegbaren Baugruppen oder Endprodukten eingesetzt. Hierdurch erhöht sich der Nutzen, den der am Körper zu tragende Computer für den Techniker hat, wenn er sich seiner unterbrechungsfrei bedienen und in Lärm intensiver Umgebung durch sein Handbuch blättern kann, Bedingungen, die in Fabriken, Kraftwerken, bei Montagebändern usw. üblich sind.
  • Die Erfindung bietet noch andere bedeutende Vorteile für traditionelle und am Körper zu tragende PCs. Der DSP kann die Umwandlung von Text in Gesprochenes erleichtern und/oder unterstützen. Dieser Vorgang verläuft umgekehrt wie bei der Spracherkennung, denn hier müssen die Wörter im Text selbst in ihre Lauteinheiten aufgebrochen werden, ehe sie an einem Tonwiedergabegerät ausgegeben werden. Handelt es sich um einen on-board DSP in einem am Körper zu tragenden Computer oder einem hand-held Gerät und sind diese mit Funkverbindung ausgestattet, beispielsweise einem Funkmodem oder einer anderen Kommunikationseinrichtung, dann kann der DSP Funktionen eines Mobiltelefons übernehmen wie Digitalisierung von Sprache und Einzelbefehlen, um beispielsweise sprachgesteuertes Anwählen, gesprochene Einzelbefehle, Rauschreduzierung, Umwandlung von Sprache in Signale usw. zu erleichtern.
  • Nach einer bevorzugten Ausführung sind softwarebasierte Bedienungselemente für die Auswahl des jeweiligen Betriebsmodes des DSP vorgesehen, d.h. Befehlseingabemode oder Texteingabemode. Hierfür steht jeweils eine aus mehreren Methoden zur Verfügung. Nach einer Methode kann der Nutzer durch Betätigen von softwarebasierten Bedienungs elementen den Mode des DSP entweder auf Systemstart oder auf Modeanwahl einstellen, wenn das System eingeschaltet ist. Dieser Mode bleibt bis zu einer etwaigen Änderung Standardeinstellung. Alternativ kann das System im Befehlseingabemodus eingeschaltet werden, so dass der Nutzer in das Betriebssystem einsteigen und es steuern und eine spezielle Anwendung auswählen kann. Sobald die Anwendung jedoch aufgerufen ist und diese die fortlaufende Texteingabe erfordert, beispielsweise ein Wordprozessor, dann wird der Mode automatisch auf fortlaufend eingestellt. Zweckmäßig ist, einen Modeunterbrechungsbefehl vorzusehen, über den der Nutzer einen Modewechsel auch während einer laufenden Anwendung vornehmen kann. Wenn ein Nutzer beispielsweise einen Text in seine Anwendung diktiert und dann eine Datei abspeichern oder andere Aufgaben ausführen will, für die im Anwendungsprogramm in Menüs auszuwählen ist, werden seine gesprochenen Wörter als Befehle interpretiert und nicht einfach als diktierte Sprache. Des Weiteren gibt es bestimmte Anwendungen, die ein spezifisches Vokabular für Steuerungsworte unterstützen, die in den DSP Speicher beim Aufrufen der Anwendung geladen werden können. Wird beispielsweise ein Web Browser aufgerufen, dann werden alle Befehle für das Navigieren und die Ausführung von Standardfunktionen eines Browsers in den DSP Speicher geladen. Die vielseitige Einsetzbarkeit der Erfindung lässt sich durch einige anwendungsspezifische Befehle zusätzlich zu den elementaren Befehlen zur Steuerung des Betriebssystems steigern.
  • Nach einer weiteren Ausführungsform kann die Erfindung zur Unterstützung einer direkten Übersetzung natürlicher Sprache in eine andere Sprache eingesetzt werden. Beim Ablauf eines Übersetzungsprogramms in einem Spracherken nungssystem kann beispielsweise jemand in einer Sprache in den Computer sprechen und sie in eine andere Sprache entweder als Texteingabe oder zur Anzeige oder Audiowiedergabe übersetzt haben. Der DSP würde als FEP für die CPU und das Programm dienen und würde die Vorbearbeitung für eine Fremdsprache ausführen. Außerdem können spezielle Filter, die für das Erkennen eines bestimmten Dialektes optimiert sind, in den DSP geladen werden, damit dieser eine genauere Übersetzung der Spracheingabe liefern kann. Aufgrund der konstruktiven Auslegung des DSP kann dieser auch hier diese Aufgabe besser lösen als die CPU.
  • Nach einer weiteren Ausführungsform kann die Erfindung zur Integration von Sprache in andere Rechenvorrichtungen herangezogen werden wie tragbare Rechen- und Kommunikationsvorrichtungen. Beispielsweise können sich PDAs, private Kommunikationsvorrichtungen (z.B. Mobiltelefone für den Empfang und die Anzeige von Internetinhalten) und sogar Palms oder hand-held Computer die Erfindung zu Nutze machen. Nach der erfindungsgemäßen Lehre können diese Vorrichtungen die Spracherkennung auf robuste Weise und mit äußerst geringem Stromverbrauch ausführen. Da tragbare Rechen- und Kommunikationsvorrichtungen meist nur batteriegespeist sind, ist möglichst geringer Stromverbrauch beim Ablauf von Anwendungsprogrammen eminent wichtig. Da ferner die Prozessoren in dieser Art von Vorrichtungen meist nicht so leistungsfähig sind wie bei am Körper zu tragenden oder Tischcomputern, können sie DSP Funktionen noch in weit geringerem Maße ausführen als die bekannten CPUs. Die größere Vielseitigkeit und Zweckmäßigkeit für den Benutzer ist hier ebenfalls eindeutig. In einem Telefon kann der Nutzer beispielsweise den DSP für das sprachgesteuerte Anwählen nutzen, entweder durch Nennung der Nummer oder des Namens des Teilnehmers in das Telefon, wobei dann die Signale im DSP mit einer im Speicher abgelegten Nummer abgeglichen werden. In einem PDA oder einem PALM kann der DSP für die Steuerung spezieller Anwendungen herangezogen werden, beispielsweise ein E-Mail Programm oder einen Web Browser oder er kann das Betriebssystem selbst steuern. Der Nutzer brauchte einfach nur den Befehl aussprechen, um nach E-Mail zu sehen oder den Browser zu öffnen, ohne dass hierfür ein Kontaktbildschirm, eine Maus oder eine andere manuelle Ansteuerung eingesetzt werden muss.
  • Nach einer noch anderen Ausführungsform kann die erfindungsgemäße Lehre zur Steuerung durch gesprochene Einzelbefehle in einem hand-held, am Körper zu tragenden oder sonst wie tragbaren oder nicht tragbaren Spielecomputer umgesetzt werden. Der DSP auf der Systemplatine könnte die Sprachsteuerung der Spielmaschine übernehmen, ohne dass der Nutzer für Entscheidungen Tasten zu drücken brauchte. Er könnte auch zusammen mit manuellen Bedienelementen eingesetzt werden, die weniger komplex sein müssten, wenn einige Entscheidungen durch Sprechen getroffen werden. Bei einem Spiel, in dem beispielsweise das Zeichen (Figur, deren Bewegung, Position und/oder Aktionen durch den Spieler gesteuert werden) sich sowohl bewegt als auch Handlungen vornimmt, etwa Abfeuern einer Waffe oder Werfen eines Balls könnten die manuellen Bedienelemente für die Bewegung eingesetzt werden, während die Spracheingabe eine Aktion auslöst wie feuern, werfen oder Auswahl oder Nachladen einer Waffe. Hierdurch erhielte das Spiel eine weitere Realitätsdimension und der Spieler könnte sich bei freien Händen mehr auf die elementaren Befehle konzentrieren. Dies ist besonders be deutsam bei den gängigen Videospielen, etwa die von Sony Corporation oder Nintendo Corporation, die Bedienelemente für zehn oder mehr unterschiedliche gleichzeitige Befehle aufweisen. Durch Abladen einiger dieser Befehle auf die Sprachsteuerung ist eine weniger ausgeprägte Fingerfertigkeit vonnöten.
  • In den Figuren sind Ausführungsbeispiele der Erfindung dargestellt.
  • 1 zeigt eine Standard Systemplatine 1 eines Computers. Die Systemplatine kann zu einem PC, einem mobilen Computer, einer Rechen- und Kommunikationseinrichtung oder einer anderen elektronischen Recheneinrichtung gehören. Diese Systemplatine ist standardmäßig mit den wichtigsten Systemkomponenten ausgerüstet, wie eine CPU 2, einem Speicher 3, einem Datenbus, einer Interfacekarte für die Stromversorgung 5, die Ein-/Ausgabe-Schnittstelle 4, Videoausgang 6 und Audioausgang und wahlweise einem Eingangsport ausgerüstet.
  • 2 zeigt einen typischen Systemaufbau eines für den Sprachempfang ausgelegten PC. Die Anlage umfasst einen Monitor 10, einen Rechner 9, eine Tastatur 11, die Maus 12 und das Mikrofon 8. Das Mikrofon 8 ist bei allen Anwendungen die direkte Quelle für die Eingabe des Gesprochenen in den Computer.
  • 3 zeigt einen Ablaufplan für die Spracheingabe im Kontext dieser Erfindung. Die Sprache gelangt über den das Gesprochene in elektrische Signale umwandelnden Mikrofoneingang 13 in das System. Über den Datenpfad gelangt das Signal in den A/D Wandler 14 (CODEC) oder äquivalenten Chip, der die A/D-Wandlung des Signals vornimmt. Das digitale Signal wird dann dem DSP 15 zur Verarbeitung zugeführt. An diesem Punkt 16 hat das System eine Entscheidung über den Betriebsmode des DSP 15 zu fällen, ob im Befehleingabemode oder Texteingabemode. Im Befehlseingabemode, wird der Befehl in 17 extrahiert und an die CPU zur Verarbeitung 19 geleitet. Wird dagegen für den DSP 15 der Texteingabemode gewählt, muss dieser die Textsignale in Schritt 18 in Phoneme umwandeln und diese dann der CPU zur Verarbeitung 19 in Verbindung mit einem softwarebasierten Spracherkennungssystem zuführen.
  • 4 zeigt einen Ablaufplan des Prozesses im DSP, wenn ein Sprache repräsentierendes Signal eingeht. Das Sprachsignal 20 kommt im DSP 15 an, der entweder auf den Texteingabemode oder den Befehleingabemode eingestellt ist. Im Texteingabemode wird das Signal gefiltert und etwaige Rauschsignale werden in Schritt 24 ausgefiltert. Dieser Prozess kann auf die spezifische Arbeitsumgebung oder den sprachlichen Kontext abgestimmt werden. Anschließend wird das Signal in Schritt 25 in Phoneme umgewandelt und der CPU zugeführt, welche mit dem softwarebasierten spezifischen Spracherkennungssystem in Schritt 26 die Erkennung vornimmt. Bei Einstellung des DSP auf den Befehlseingabemode wird das Signal ebenfalls einer Filterung und Rauschunterdrückung in Schritt 21 unterzogen. Auch dieser Vorgang kann auf das Rauschen in einer bestimmten Umwelt und die Art einer Steuerbibliothek optimiert werden. Das Signal des nunmehr rauschfreien Befehls wird dann vom DSP mit in einem Speicher abgelegten Signalen abgeglichen, auf den der DSP in Schritt 22 zugreifen kann. Sobald der Befehl extrahiert worden ist, geht er an die CPU in Schritt 23.
  • 5 zeigt ein Ausführungsbeispiel eines eingebauten DSP auf einer Systemplatine 200 eines mobilen Computers. Der Baustein 103 ist ein TMS5000 Serien DSP-Chip. Er ist in die Systemplatine als Brücke zwischen dem Audioeingang 101 und CODEC 102 und der CPU 108 und der integrierten Intel-Brücke 1905 82443MX100 N&S integriert. Der DSP 103 kommuniziert mit dem parallelen PCI-Bus 106 über ein TI PCI2040 PCI zur DSP-Brücke 104, so dass die Ausgangssignale des DSP 103 die Schnittstelle zum Bus 106 bilden. Die CPU 108 ist in diesem Beispiel ein 600 MHz mobile PentiumR -Chip von Intel Corporation; Für einen Fachmann ist jedoch klar, dass jede geeignete Computer CPU in Frage kommt, ohne den Erfindungsgedanken dieser Erfindung zu verlassen. In diesem Beispiel ist eine Benutzer-Schnittstelle PCB 100 gezeigt. Diese weist mehrere typische Eingangs- und Ausgangsschnittstellen auf, wie einen Benutzer Interfaceport 101, USB Port 110, 1394 Port 111 und Display Port 109.
  • Der typische Pfad des Datenstroms bei der Verarbeitung im Befehlseingabe- und Texteingabemode ist wie folgt. Das Gesprochene wird von dem analogen Audioeingang 101, dem Benutzer Interfaceport, als analoges elektrisches Signal von einem Mikrofon empfangen. Die analogen Akustiksignale gelangen zum CODEC 102, wo ein A/D-Wandler sie in einen digitalen Bitstrom umsetzt. Dieser Bitstrom gelangt zum DSP-Chip 103. Der DSP 103 übernimmt die erforderlichen Funktionen hinsichtlich Beseitigung der Störsignale und Verarbeitung des Gesprochenen in Phoneme. Arbeitet der Computer im Befehlseingabemode nimmt der DSP 103 die Zuordnung der Phoneme zum eingegebenen Befehl über sein eigenes Spracherkennungssystem vor. Arbeitet er im Texteingabemode bedarf es lediglich der Umwandlung in Phoneme.
  • In einem nächsten Schritt werden die Ausgangssignale, entweder ein von der CPU 108 abzuarbeitender Befehl oder eine Lautfolge über den Datenpfad zur Weiterverarbeitung an die CPU 108 geleitet. Hierzu wird das Ausgangssignal durch einen den DSP mit PCI verbindenden Brückenchip 104 geleitet, in dem das Ausgangssignal in ein mit dem PCI-Bus 106 kompatibles Bitformat umgesetzt wird. Das Signal gelangt nunmehr durch den Baustein 105 Intel 82443X100 unmittelbar zur CPU 108. Steht das Signal für Befehlseingabe wird es durch die CPU 108 ausgeführt. Die CPU 108 ist bis zu diesem Zeitpunkt hinsichtlich der Sprachverarbeitung nicht eingeschaltet. Handelt es sich um einen aus Phonemen bestehenden Signalstrom, wie bei der Texteingabe, dann greift die CPU 108 auf das softwarebasierte Spracherkennungssystem zu, um die Phoneme zu verarbeiten und sie in Text umzusetzen (TTS= Sprachsynthese), je nachdem für welchen Zweck die jeweilige Anwendung bestimmt ist. Für einen Fachmann ist klar, dass das gezeigte Ausführungsbeispiel der Erläuterung dient und dass die Erfindung selbst auf jede Systemplatine eines Computers unabhängig von ihrer Konfiguration anwendbar ist, und dass etwaige Permutationen und Abwandlungen unter den in den beigefügten Ansprüchen definierten Schutzumfang fallen, sofern der Grundgedanke der Erfindung erhalten bleibt, nämlich die Verwendung eines DSP im Datenpfad des Akustikeingangs als Spracherkennungssystem für gesprochene Text- und Befehlseingabe und/oder als Front-End-Prozessor für Texteingabe, für die Verarbeitung und Unterstützung von Menüauswahlen oder Einzelbefehlen aus einem Mobiltelefon und zur Umwandlung von Text in Sprache.
  • Die hier beschriebenen und dargestellten bevorzugten Ausführungsbeispiele der Erfindung geben den Grundgedanken der Erfindung an, doch können Abänderungen und Erweiterungen vorgenommen werden, ohne vom Umfang der Erfindung abzuweichen.
  • 1
    Computer Systemplatine
    2
    CPU
    3
    Speicher
    4
    I/0 Interface
    5
    Stromversorgungsinterface
    6
    Videoausgang
    7
    Audio Aus- und Eingang
    8
    Mikrofon
    9
    CPU
    10
    Display
    11
    Tastatur
    12
    Maus
    13
    Mikrofoneingang
    14
    CODEC
    15
    DSP
    16
    Entscheidungszustand
    17
    Extraktion des Befehls
    18
    Wandlungsstufe
    19
    Befehlsverarbeitung / CPU
    20
    Sprachsignal
    21
    Filterung und Rauschunterdrückung
    22
    Anpassung
    23
    Weiterleitung
    24
    Filterung und Subtraktion
    25
    Umwandlung
    26
    Erkennung
    101
    Audioeingang
    102
    CODEC
    103
    DSP Baustein
    104
    Chip
    105
    Brücke
    106
    PCI-Bus
    108
    CPU
    109
    Display Port
    110
    USB Port
    111
    Port 1394
    200
    Systemplatine eines mobilen Computers

Claims (16)

  1. Architektur einer Computer-Systemplatine (1), mit einer CPU (2), einem Datenbus, einem Stromversorgungsinterface (5) und einem Datenpfad eines Audioeingangs (101), wobei der Datenpfad des Audioeingangs (101) den Audioeingang (101) der Computer-Systemplatine (1) mit der CPU (2) verbindet; einem DSP-Chip (Digitaler Signal-Prozessor) (15, 104) im Datenpfad des Audioeingangs (101); einer Brücke (105) als Schnittstelle zwischen dem DSP-Chip und dem Bus auf der Computer-Systemplatine (1); einem mit dem DSP-Chip (15, 104) elektrisch verbundenen Speicher und ein im Speicher residentes Spracherkennungssystem, dadurch gekennzeichnet, dass das Spracherkennungssystem gesprochene Einzelbefehle erkennt, dass die Brücke (105) den Übergang zwischen PCI und DSP bildet und dass der DSP-Chip (15, 104) die Spracherkennung im Befehlseingabemode und im Texteingabemode als Front-end-Prozessor für ein softwarebasiertes gesprochene Texte erfassendes Spracherkennungssystem in der CPU (2) vornehmen kann.
  2. Architektur einer Computer-Systemplatine nach Anspruch 1, dadurch gekennzeichnet, dass der DSP-Chip (15, 104) ein Präprozessor für alle gesprochenen Eingaben ist, ehe die CPU Anweisungen zur Verarbeitung der eingehenden Sprachsignale abarbeitet.
  3. Architektur einer Computer-Systemplatine nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der DSP-Chip (15, 104) benutzergeführt auf den fortlaufenden Texteingabemode oder den Befehlseingabemode einstellbar ist.
  4. Architektur einer Computer-Systemplatine nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Datenpfad des Audioeingangs (101) einen Mikrofoneingang, Mittel zur Digitalisierung eines Audio-Eingangssignals im Audio-Datenpfad, ein DSP-Chip und eine Brücke als Übergang PCI /DSP aufweist, die mit dem Bus kommuniziert.
  5. Architektur einer Computer-Systemplatine nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der DSP-Chip (15, 104) im Texteingabemode die Audio-Eingangssignale in Phoneme umsetzt.
  6. Architektur einer Computer-Systemplatine, dadurch gekennzeichnet, dass das im Befehlseingabemode arbeitende Spracherkennungssystem ein Vokabular von Wörtern enthält, die spezifischen Anweisungen oder einem Kontext zugeordnet sind.
  7. Architektur einer Computer-Systemplatine nach Anspruch 6, dadurch gekennzeichnet, dass das Vokabular permanent im Speicher des DSP-Chip (15, 104) abgelegt ist.
  8. Architektur einer Computer-Systemplatine nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, dass das Vokabular vom Benutzer entweder statisch oder aktiv definiert werden kann.
  9. Architektur einer Computer-Systemplatine nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Vokabular von der CPU anhand des Kontextes einer in einem Host-Prozessor laufenden Anwendung überarbeitet/erweitert werden kann.
  10. Architektur einer Computer-Systemplatine nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der DSP-Chip (15, 104) als Präprozessor für ein an anderer Stelle im Computer vorgesehenes softwarebasiertes Spracherkennungssystem arbeitet, eine Menüauswahl vornimmt, beispielsweise Akustikfunktionen eines Mobiltelefons, nämlich sprachgesteuerte Anwahl, Steuerung durch gesprochene Einzelbefehle, Rauschunterdrückung und Umwandlung von Sprache in – computerlesbare – Signale und Rauschunterdrückungsfunktionen.
  11. Architektur einer Computer-Systemplatine nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der DSP-Chip (15, 104) sowohl im Befehlseingabemode als auch im Texteingabemode arbeitet, als Mobiltelefon oder zur Übersetzung einer Sprache arbeiten kann.
  12. Architektur einer Computer-Systemplatine nach Anspruch 1, dadurch gekennzeichnet, dass die Computer-Systemplatine (1) in einem am Benutzer getragenen Computer, insbesondere in einem sprachgesteuerten, einsetzbar ist.
  13. Architektur einer Computer-Systemplatine nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Computer-Systemplatine (1) eine Systemplatine für einen tragbaren Computer, einen PDA (Personal Digital Assistant), einen Tischcomputer, einen Handheld-Computer, einen Computer für Videospiele und/oder für Rechen- und Kommunikationseinrichtungen ist.
  14. Architektur einer Computer-Systemplatine, dadurch gekennzeichnet, dass die Computer-Systemplatine (1) eine Komponente von Einrichtungen ist, die zur Gruppe von am Benutzer getragenen Computern, Laptops, Tischcomputer, tragbaren Computer und etwaiger Kombinationen gehören.
  15. Architektur einer Computer-Systemplatine, dadurch gekennzeichnet, dass die Computer-Systemplatine (1) eine Komponente von Einrichtungen ist, die zur Gruppe von Handys, schnurlosen Telefonen, tragbaren Computern, drahtgebundenen und drahtlosen Kommunikationsmitteln und etwaige Kombinationen gehören.
  16. Verfahren zur Sprachverarbeitung in einem Computer, insbesondere Computer mit einer Computer-Systemplatine (1) der in einem der vorgehenden Ansprüche definierten Architektur und den folgenden Verfahrensschritten: – Bestimmung eines Verarbeitungsmodes für gesprochene Einzelbefehle; – Bestimmung eines Verarbeitungsmodes für Texteingabe; – Anordnung eines DSP-Chips (15, 104) auf der Computer-Systemplatine (1) im Datenpfad eines Audioeingangs (101); – Serielle Anordnung einer Brücke als Übergang DSP/PCI oder einer äquivalenten Schaltung stromab vom DSP-Chip (15, 104) zur Kommunikation mit dem PCI-Bus des Computers; – Empfangen eines gesprochenen Eingangssignals aus dem Datenpfad des Audioeingangs (101); – bei Einstellung auf den Befehlseingabemode Umwandlung des Gesprochenen in Phoneme durch den DSP-Chip (15, 104) und deren Abgleich mit dem DSP residenten Speicher zwecks Erzeugung einer Anweisung an die CPU (2); – bei Einstellung auf den Texteingabemode Umwandlung des Gesprochenen in Phoneme durch den DSP-Chip (15, 104); – Weitergabe der Anweisung oder der Phoneme an eine CPU (2) vermittels des DSP mit PCI verbindenden Brückenchips oder einem äquivalenten Pfad auf der Computer-Systemplatine (1).
DE60102993T 2000-10-02 2001-07-10 Architektur einer Rechnergrundplatine Expired - Fee Related DE60102993T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US677569 1984-12-03
US09/677,569 US7162426B1 (en) 2000-10-02 2000-10-02 Computer motherboard architecture with integrated DSP for continuous and command and control speech processing

Publications (2)

Publication Number Publication Date
DE60102993D1 DE60102993D1 (de) 2004-06-03
DE60102993T2 true DE60102993T2 (de) 2005-05-04

Family

ID=24719254

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60102993T Expired - Fee Related DE60102993T2 (de) 2000-10-02 2001-07-10 Architektur einer Rechnergrundplatine

Country Status (9)

Country Link
US (1) US7162426B1 (de)
EP (1) EP1193690B1 (de)
JP (1) JP4132737B2 (de)
KR (1) KR20020026804A (de)
AT (1) ATE265730T1 (de)
DE (1) DE60102993T2 (de)
ES (1) ES2220630T3 (de)
PT (1) PT1193690E (de)
TW (1) TW541470B (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100554249B1 (ko) 2004-07-06 2006-02-24 주식회사 현대오토넷 Mgt5200의 psc포트를 이용한 외부소자 인터페이스장치
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US9256396B2 (en) * 2011-10-10 2016-02-09 Microsoft Technology Licensing, Llc Speech recognition for context switching
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
TWI577193B (zh) * 2015-03-19 2017-04-01 陳光超 耳膜助聽器
US20220097960A1 (en) * 2015-09-16 2022-03-31 Simplehuman, Llc Containers with multiple sensors
KR102081335B1 (ko) 2018-06-25 2020-02-25 주식회사 소비코프로페셔널 듀얼코어를 이용한 디지털 오디오 시스템 및 그 제어 방법
US10983842B2 (en) 2019-07-08 2021-04-20 Microsoft Technology Licensing, Llc Digital signal processing plug-in implementation
JP7410684B2 (ja) * 2019-10-21 2024-01-10 シャープ株式会社 マイクシステム
CN111145752B (zh) * 2020-01-03 2022-08-02 百度在线网络技术(北京)有限公司 智能音频装置、方法、电子设备及计算机可读介质
CN111261169A (zh) * 2020-01-08 2020-06-09 上海齐网网络科技有限公司 基于多路数据处理器的语音识别芯片
CN112164389B (zh) * 2020-09-18 2023-06-02 国营芜湖机械厂 一种多模式语音识别送话装置及其控制方法
US20220091707A1 (en) 2020-09-21 2022-03-24 MBTE Holdings Sweden AB Providing enhanced functionality in an interactive electronic technical manual
US20220261530A1 (en) 2021-02-18 2022-08-18 MBTE Holdings Sweden AB Providing enhanced functionality in an interactive electronic technical manual
US11445148B1 (en) 2021-05-06 2022-09-13 Microsoft Technology Licensing, Llc Video teleconference curated user profile picture
US11947906B2 (en) 2021-05-19 2024-04-02 MBTE Holdings Sweden AB Providing enhanced functionality in an interactive electronic technical manual

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR890016480A (ko) * 1988-04-27 1989-11-29 안시환 실시간 음성인식 보드장치
US6230255B1 (en) 1990-07-06 2001-05-08 Advanced Micro Devices, Inc. Communications processor for voice band telecommunications
JP2662120B2 (ja) * 1991-10-01 1997-10-08 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置および音声認識用処理ユニット
US5353376A (en) * 1992-03-20 1994-10-04 Texas Instruments Incorporated System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment
IT1256823B (it) * 1992-05-14 1995-12-21 Olivetti & Co Spa Calcolatore portatile con annotazioni verbali.
US5915236A (en) 1992-11-13 1999-06-22 Dragon Systems, Inc. Word recognition system which alters code executed as a function of available computational resources
KR970005830B1 (ko) * 1993-12-27 1997-04-21 재단법인 한국전자통신연구소 오디오 코덱 보드
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
JPH09114543A (ja) 1995-10-02 1997-05-02 Xybernaut Corp ハンドフリーコンピュータ装置
TW439380B (en) * 1995-10-09 2001-06-07 Hitachi Ltd Terminal apparatus
US5754807A (en) * 1995-11-20 1998-05-19 Advanced Micro Devices, Inc. Computer system including a multimedia bus which utilizes a separate local expansion bus for addressing and control cycles
US5794164A (en) * 1995-11-29 1998-08-11 Microsoft Corporation Vehicle computer system
US5797043A (en) * 1996-03-13 1998-08-18 Diamond Multimedia Systems, Inc. System for managing the transfer of data between FIFOs within pool memory and peripherals being programmable with identifications of the FIFOs
US6085314A (en) 1996-03-18 2000-07-04 Advnced Micro Devices, Inc. Central processing unit including APX and DSP cores and including selectable APX and DSP execution modes
US5794068A (en) 1996-03-18 1998-08-11 Advanced Micro Devices, Inc. CPU with DSP having function preprocessor that converts instruction sequences intended to perform DSP function into DSP function identifier
US5987590A (en) 1996-04-02 1999-11-16 Texas Instruments Incorporated PC circuits, systems and methods
US6182203B1 (en) * 1997-01-24 2001-01-30 Texas Instruments Incorporated Microprocessor
US6324592B1 (en) * 1997-02-25 2001-11-27 Keystone Aerospace Apparatus and method for a mobile computer architecture and input/output management system
US5983073A (en) * 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
JP4067063B2 (ja) 1997-11-14 2008-03-26 松下電器産業株式会社 マイクロプロセッサ
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6330247B1 (en) * 1999-02-08 2001-12-11 Qualcomm Incorporated Communication protocol between a communication device and an external accessory
US6233557B1 (en) * 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6192340B1 (en) * 1999-10-19 2001-02-20 Max Abecassis Integration of music from a personal library with real-time information
KR100316696B1 (ko) * 1999-11-12 2001-12-12 송문섭 Imt-2000 단말기용 플랫폼 보드

Also Published As

Publication number Publication date
PT1193690E (pt) 2004-09-30
TW541470B (en) 2003-07-11
JP4132737B2 (ja) 2008-08-13
KR20020026804A (ko) 2002-04-12
US7162426B1 (en) 2007-01-09
DE60102993D1 (de) 2004-06-03
EP1193690A1 (de) 2002-04-03
EP1193690B1 (de) 2004-04-28
JP2002132285A (ja) 2002-05-09
ATE265730T1 (de) 2004-05-15
ES2220630T3 (es) 2004-12-16

Similar Documents

Publication Publication Date Title
DE60102993T2 (de) Architektur einer Rechnergrundplatine
DE69910928T2 (de) Spracherkennungsverfahren mit mehreren anwendungsprogrammen
US7624018B2 (en) Speech recognition using categories and speech prefixing
DE102019122180A1 (de) Verfahren und system zur schlüsselausdruckserkennung auf der grundlage eines neuronalen netzes
US8150699B2 (en) Systems and methods of a structured grammar for a speech recognition command system
US20190156826A1 (en) Interactive representation of content for relevance detection and review
GB9322137D0 (en) A system and method for defining a process structure for performing a task
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
JPH11119791A (ja) 音声感情認識システムおよび方法
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
DE102020202489A1 (de) Verfahren und system zur sehr genauen schlüsselausdruckserkennung für vorrichtung mit geringen ressourcen
CN109830229A (zh) 音频语料智能清洗方法、装置、存储介质和计算机设备
CN110808032A (zh) 一种语音识别方法、装置、计算机设备及存储介质
US20060089834A1 (en) Verb error recovery in speech recognition
DE60202857T2 (de) Verfahren und prozessorsystem zur audiosignalverarbeitung
WO2019169722A1 (zh) 快捷键识别方法、装置、设备以及计算机可读存储介质
Nakatani et al. Sound ontology for computational auditory scence analysis
DE69333762T2 (de) Spracherkennungssystem
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN111345016A (zh) 一种智能终端的启动控制方法及启动控制系统
Yankelovich et al. Designing speech user interfaces
DE102022128593A1 (de) Verfahren und system zur automatischen kontextgebundenen domänenspezifischen spracherkennung
Franzke et al. Is speech recognition usable? An exploration of the usability of a speech-based voice mail interface
Tian et al. Embarc mli based design and implementation of real-time keyword spotting
CN116935834A (zh) 语音唤醒方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee