DE4212907A1

DE4212907A1 - Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w.

Info

Publication number: DE4212907A1
Application number: DE19924212907
Authority: DE
Inventors: Des Erfinders Auf Nennung Verzicht
Original assignee: Individual
Current assignee: Individual
Priority date: 1992-04-05
Filing date: 1992-04-17
Publication date: 1993-10-07

Description

Spracherkennungsverfahren für Datensysteme und Computer bezeichnet die Möglichkeit, menschliche Sprache beliebiger Art, von einem Rechnersystem, also vorzugsweise einem elektronischen (oder anderem z. B. optischen) Computer, welcher bestehend aus der Hardware (Microchips) und einem Rechner/Computerprogramm, welches z. B. über eine Software gespeist wird.

Es soll dabei möglich sein, die gesprochenen Worte des Menschen (beliebiger Art, also auch aufgezeichnete Worte od.) von den/den Rechner/n zunächst als Buchstaben und Worte so erkannt werden, wie diese Worte und Sprache auch (gedruckt) geschrieben würde. Sodann/zudem besteht auch die Möglichkeit, daß der Inhalt dieser Worte vom Rechner oder dessen Programm erkannt wird.

Zudem sollen Verfahren gefunden werden, welche dieses System als "automatische Sekretärin", also einem drucken/tippen und verwalten und erkennen von gesprochenen Worten; sowie einem "automatischen" Dolmetsch- und -Übersetzungssystem, welches die menschliche Sprache in andere menschliche Sprachen z. B. simultan übersetzen kann.

Bekannt sind hierzu Versuche, dies mittels Software vom rein akustisch gesprochenen Wort zu verwerten. Dies ist auch die sinnvollste Möglichkeit, da damit auch Sprache vom Radio oder Telefon mühelos verwertbar ist. Doch ergab sich bisher bei all diesen Systemen das Problem der mangelhaften Software, die nur auf den Zweck der akustischen Verarbeitung ausgerichtet war/ist, und deshalb sehr kompliziert sein müßte, was bis heute nicht gelang, denn eine Spracherkennung ohne Fehler ist bis heute nicht möglich, da z. B. noch das nießen, oder räuspern eines Menschen zu Erkennungsfehlern führt. Zudem hat jeder Mensch ein typisches, eigentümliches individuelles Sprachmuster, worauf die Software individuell abgestimmt sein müßte.

Dieses Defizit wird mit diesem Verfahren ausgeräumt. Dieses Verfahren verwendet deshalb zwei Komponenten, zum einen eine Software, also ein Softwareprogramm, welches außer den akustischen Informationen zusätzlich (oder auch aus schließlich) Informationen über die Lage und Bewegungen, der menschlichen Sprachorgane, sowie deren Intensität oder Impuls und Veränderungen erkennt und verarbeitet. Unter Sprachorgane werden alle Körperteile und ihre Veränderungen, welche meßbar sind gemeint. Hierzu zähle ich nicht nur die bekannten, wie Kiefer, Zähne, Zunge, Rachen, Lunge, Brustkorb usw. sondern auch alle dazugehörigen Muskeln, sowie die in der Haut ablaufenden elektro/chemischen Veränderungen, sowie das Gehirn und seine meßbaren Impulse. Zum anderen besteht dieses Verfahren aus Geräten, welche die Messungen vornehmen, oder nur die Bilder und Ausgangsdaten liefern, welche dann von dem Computer/Programm verarbeitet werden.

Im Zusammenwirken, all dieser Komponenten besteht nun die Möglichkeit aufgrund solcher parallelen einzelner Meß-und- Bilddaten (und den akustischen Sprachdaten) zu den Buchstaben und Worte der Sprache eine eindeutige Zuordnung zu ermöglichen, welches in der Software geschieht (die Zuordnung). Es genügt hierbei nicht, nur einzelne Meßdaten, wie z. B. nur die Gehirnwellen mit den akustischen Worten zu verknüpfen (denn sollte es z. B. jemals solche Versuche gegeben haben, so sind diese auch gescheitert.) Vielmehr werden viele Parameter des menschlichen Körpers herangezogen, so insbesondere die Art der Ausdehnung und Bewegung des Unterkiefers, der Lippenformen und Bewegungen (welche von einer Videocamera/s aufgenommen werden) usw. wobei auch über Drucksensoren an einer Art Halsmanschette relevante Daten zur Stimmvibration, und Lage von Sprachbeeinflussern wie Stimmbänder, Kehlkopf usw. erkannt werden, sowie deren Sprachrelevante Intensität. Zur Gewinnung relevanter Daten dienen Muskelspannungen und -Entspannungen, sowie an verschiedenen Stellen befindliche Mikrofone. Somit kann (mittels Drucksensoren usw.) auch Brustbewegungen, Husten, Nießen usw. leicht als solches vom danach ausgerichteten Programm erkannt werden. Bei einem Voranschreiten der Softwareentwicklung, mag es möglich sein, daß einzelne Bereiche dieser Meßdaten überflüssig werden, und nur die Kieferbewegungsdaten genügen. Das Funktionsschema ist folgendermaßen aufgebaut. Die Meßgeräte werden am Körper befestigt (wobei befestigt alle dafür in Frage kommenden Befestigungsverfahren meint, auch diese, wo diverse Geräte erst auf einer beliebigen Halterung befestigt sind, ist erfindungsgemäß vorgesehen). Außerhalb des Körpers befindliche Datenlieferanten werden auf den Menschen ausgerichtet (was nach andere bekannter Arten auch automatisch geschehen kann); wobei der Rechner/Programm zur Vereinfachung, vorgegebene Symbolhafte Markierungen am menschlichen Körper als solche leicht erkennen kann, wenn sie in Größe und Form dem Rechner/Progamm als solche Identifizierungsbilder bekannt sind, und diese Symbole am Sprechapparat des Menschen befestigt sind (wobei für Videocameras erkennungsymbolhafte Lichtquellen am Menschen befestigt werden.).

Die Datenlieferanten und Meßgeräte (welche in den Schutzrechten genannt sind) werden mit dem Rechner auf bekannte Art und Weise verbunden (Kabel, Funk), dort werden die Daten vorzugsweise digitalisiert.

Die Weiterverarbeitung erfolgt nun in dem Rechner/Computer, welcher in seinem Programm, welches er bekommen hat (durch die neue Software), findet ein Vergleich zwischen den Daten statt; und aufgrund dem Programm bekannter Parameter, wie z. B. daß bei einer bestimmten Neigungslänge nach unten in Millimeter des Unterkiefers in Kombination mit einer bestimmten Druckverstärkung, oder Bewegung eines Halsmuskels an einer bestimmten Stelle, und in Kombination bestimmter Lippenformen, in Kombination mit akustischen Werten (nur als Beisp.) kann das Programm diesen Daten einen bestimmten Buchstaben zuordnen, und in Abfolge auch Worte und Sprechpausen und Sätze.

Dadurch, daß das Programm Übereinstimmungen zwischen diesen verschiedenen Daten der verschiedenen Datenquellen sucht , und zwar derart, wie es aufgrund eindeutiger Versuche bekannt ist, daß bei einer bestimmten Anzahl, oder einer bestimmten vorgegebenen Höhe von Übereinstimmungen der verschiedenen Daten zu einem Buchstaben dieser Buchstabe als erkannt gilt (Ebenso wird verfahren, um Worte und Sprechpausen zu erkennen). Das Programm kann somit diese Zuordnung aufgrund eingegebener Parameter eindeutig und richtig zwischen den Eingabedaten und dem gemeinten Text (des Sprechers) vollziehen.

Eine Abstimmung auf eine bestimmte individuelle Person kann möglich sein (das je nach Größe und Beschaffenheit der Sprachorgane des Sprechers oder seines Charakters (Lautstärke), jedoch ist diese Abstimmung dann einfach und mit wenigen vorgegebenen Worten des "neuen" Sprechers getan, und von dem Programm erkannt, da die grundlegenden Bewegungen der Sprachorgane für bestimmte Worte und Sätze bei jedem Menschen gleich sind, und kleinere Unterschiede von dem Programm auf grund vorgegebener Parameter aufgehoben werden (z. B. unter Zuhilfenahme von Fuzzy-Logic odg.); der Sprecher sagt hierzu vorgegebene Worte, welche dann meßtechnisch erfaßt werden). Vorgesehen ist, daß das Programm bestimmte Worte als Befehle erkennt, und diese ausführt (also nicht nur für "Komma" ein "," macht, sondern auch alle Computerbefehle, wie z. B. "Ablegen in Speicher xy", und somit etwas in diesem Speicher abgelegt ist; das Programm kann so mit einem bestimmten Wort für verschiedenste Befehle aktiviert werden.

Dann werden die erkannten Worte entweder als Text ausgegeben, oder vorzugsweise weiterbearbeitet, so z. B. interkommunikativ, daß der Rechner mit einen Bildschirm verbunden ist, und dort der Text ausgegeben wird, und vom Menschen bearbeitet oder zugeordnet werden kann.

Generell sind an dem Rechner verschiedenste Drucker und Druckverfahren zur Textausgabe anschließbar.

Die Texte können auch in den bekannten Verfahren gespeichert, übertragen (Telefon), chiffriert, komprimiert, usw. werden. Besondere Verfahren der Anwendung sind als Übersetzungssystem in eine andere Sprache, wobei die Textausgabe akustisch mittels eines Sprachmoduls und Lautsprechern erfolgt. Mehrere Menschen können hierbei (auch über Telefon) einen gemeinsamen Rechner benutzen, so daß bei Reisen in fremde Länder dem Gesprächspartner nur die Meßdaten/Bilder mittels entsprechender Geräte abgenommen werden, und in dem eigenen Rechner verarbeitet werden, wobei die Sprachausgabe bereits für den anderen akustisch hörbar in der anderen Sprache erfolgt.

Claims

1. Spracherkennungsverfahren für Datenverarbeitungssysteme, Computer, Textsysteme, Übersetzungscomputer, Schreib- und Verwaltungs-Systeme u.d.g., und deren Apparate und Software; zum Erkennen und Verarbeiten und Wiedergeben in beliebiger Art von menschlicher Sprache; dadurch gekennzeichnet, daß dem verarbeitendem Rechner, außer Impulse/Informationen der akustischen Art - von Mikrofonen -, zusätzlich oder aussch ließlich Informationen optischer, mechanischer, oder sonstiger Art - wie in den Unteransprüchen genannt - sowie deren Apparate und Anordnungen zur Lieferung und Verwertung dieser Informat ionen, wie Kameras; verschiedenster Meßsysteme zum ermitteln von Muskelspannungen, Hautströme, Lippen-, Gaumen-, Zungen-, Kiefer-, Stimmbänder-Lage und -Bewegungen erhält, sowie deren Anordnungen zur praktischen Anwendung in der Alltagswelt wie Schreib- und Übersetzungsgeräte auch über große Distanzen und Verwendung zur Interkommunikation verschiedener Menschen.

2. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1, dadurch gekennzeichnet daß, an sprechenden Menschen Elektroden und/oder andere Meßsysteme angebracht werden, welche ermitteln Gesamt- oder Einzelwerte von PH-Werten der Haut, sowie von elektrischen Strömen an bestimmten Körperregionen, der Haut, und der Gehirnströme, mittels beispielsweise eines EEG, sowie Niederstrommesser und ähnliches.

3. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 2, dadurch gekennzeichnet daß, eine Sensormanschette, oder eine beliebige andere Anordnung von Sensoren - in Gruppen oder einzeln - an dem sprechenden Menschen angebracht werden, bevorzugterweise am Hals oder Kieferbereich des Menschen (mittels beliebiger Befestigungs methoden, wie Klettverschlüsse, Bänder, elastische Formen) wobei die Sensoranordnungen aus bekannten Sensoren zur Ermittlung von Druckstärke und -Druckveränderungen, sowie von Bewegungen (des Kiefers, der verschiedenen Muskeln) und Bewegungsänderungen, sowie von Muskelanspannungen; sowie deren genaue Lokalisation mittels Drucksensoren, Bewegungssenso ren, oder entsprechende Anordnungen besteht.

4. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 3, dadurch gekennzeichnet daß, an dem menschlichen Körper oder - Haut Erfassungsgeräte/- Sensoren zur Bestimmung der kontinuierlichen Muskelanspannung und Muskelentspannung verschiedener Muskelpartien; so auch zur Erfassung weiterer Parameter wie der Atemerfassung; dies alles auch in Kombination mit Ansprüchen 2 und 3.

5. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 4, dadurch gekennzeichnet daß, aus beliebigen Material (z. B. Kunststoffe) eine Kombination aus Halter/Träger und Meßgeräten/Sensoren vorzugsweise am Unterkiefer oder Hals des Menschen getragen wird, wobei der Aufbau/ die Formgebung dieser durchaus vergleichbar sein kann mit der eines Maulkorbes, oder einer Art Halskrause, sowie, daß an den Haltern (nach 2 bis 6) auch beliebig viele Mikrofone befestigt sind.

6. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 5, dadurch gekennzeichnet daß, im Mund, (oder an der Zunge) Meßgeräte oben genannter Art sind, oder Mikrofone usw; zur Erfassung der Lage und der Veränderung von Zungenstellungen und -Bewegungen und Lippenbewegungen, Stimmvibration, Lage und Bewegung der Zahnreihen und Gaumensegel.

7. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 6, dadurch gekennzeichnet daß, an beliebiger Stelle Sender und Empfänger angebracht sind, so Ultraschallsender oder Sender elektromagnetischer Wellen, und andere, sowie deren Empfangsgeräte; wobei diese Sender zwei verschiedene Anwendungen haben, zum einen eine Erfassung innerkörperlicher Vorgänge wie z. B. im Kehlkopf, zum anderen aber vor allem daß durch die Befestigung des Senders an beweglichem Körperteil (Unterkiefer) durch die Lageveränderung des Senders, welche von Empfängern (und EDV) erkannt wird, kann somit auch die Bewegung des Kiefers odg. erfaßt werden, zudem kann der Sender gewonnene andere Körperdaten drahtlos an den Rechner übertragen.

8. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 7, dadurch gekennzeichnet daß, außerhalb des Körpers Systeme zur Erfassung von Gesichtskonturen, Lippenbewegungen, Zungenstellungen, Gaumen- und -Kieferbewegungen, Stimmvibration udg. vorhanden sind, welche keinen direkten Körperkontakt haben, und von Distanz dies erfassen; so optische Kameras, wie eine oder mehrere Videokameras, welche dann an verschiedenen Orten positioniert sind, z. B. von vorne und der Seite (bezüglich des Kopfes), oder eine Stereokamera usw.; aber auch eine Infrarotkamera; sowie Ultraschall oder Mikrowellen- (Distanz)-Sensor und Sender und Empfänger dazu; sowie beliebige weitere bekannte Anordnungen, die dieses Verfahren der Distanzerkennung ermöglichen.
Dazu können am menschl. Körper auch Reflektoren angebracht werden (z. B. an bewegten Stellen) die die oben genannten Strahlen reflektieren, oder aber aufrund ihres speziellen Materials oder einer speziellen Form (wie ein Symbol) von den og. Geräten besonders gut erfaßt werden; wobei für die Erfassung durch Videocameras auch Lichtquellen am Körper getragen werden können (Glühbirnen in symbolhafter Form angeordnet am Kopf usw.) - auch zur Atemerfassung (Ein- und Ausatemzeitpunkt).

9. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 8, dadurch gekennzeichnet daß, daß einzelne Komponenten von 2 bis 8 beliebig untereinander kombiniert werden können.
Und daß der Gesamtaufbau und die Anordnungen der Einzelkomponenten des Verfahrens je nach Bedarf verschiedene Ergebnisse liefern kann, und beliebig anordenbar ist. So im einzelnen wie folgt:
Verbindung von den Meßstellen beliebig, über Datenleitungen, oder drahtlos zu einem Zwischenrechner oder einem Hauptrechner, welche in verschiedenen Schritten unter Anwendung eines Rechnerprogrammes aus den verschiedenen Einzeldaten und Informationen über den Zustand und die Bewegungen der menschlichen Sprachorgane, einen eindeutigen Zusammenhang zwischen diesen Informationen und dem Text der gesprochenen Sprache in Form von Buchstaben herstellt, das heißt ein erkennen der Silben und Wortbestandteile. Diese Daten oder der Text sind beliebig verarbeitbar, so z. B. speicherbar, über Telefonleitungen oder alle anderen Übertragungswege übertragbar (auch verschlüsselt oder kompriemiert).
Die Eingabe der Meßdaten in den Rechner erfolgt über bekannte Systeme, ebenso deren Speicherung oder Transport. Die Ausgabe der ermittelten Sprache schließlich erfolgt auf alle zur Sprachdarstellung bekannten Geräten wie: einem Drucker auf Papier, Bildschirmen (zur z. B. Weiterbearbeitung auf einem dafür entworfenen Bildschirmprogamm/Software); oder aber auch als syntetische Sprache oder Worte mit Hilfe eines Sprachgenerators und Lautsprechers.
Es werden hierfür bekannte Verbindungssystem untereinander verwendet wie Kabel von Rechner zu Drucker (welcher ebenso beliebig sein kann wie Laserdrucker, usw.) Der Rechner kann auch die Informationen von beliebig plazierten Mikrofonen erhalten, und diese gleichzeitig (parallel) mit den Körperdaten zur Interpretation der Sprache heranziehen.

10. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 9, dadurch gekennzeichnet daß, dieses Verfahren auch zur Sprachenübersetzung dient, wobei der Rechner über ein spezielles Übersetzungsprogramm die Sprachausgabe in einer anderen Sprache gestalten kann; wobei verschiedene Gesprächspartner jeweils solche Erfassungssysteme (nach 1 bis 8) erhalten, welche entweder mit einem eigenen Rechner verbunden sind, oder aber mit einem Zentralrechner. So können auch Gesprächspartner, welche räumlich getrennt und nur über Telefon verbunden sind, diese Meßdaten gleichzeitig über die Telefonleitung z. B. zu einem Zentralrechner übertragen, der dann die Ausgabe der Worte in einer anderen Sprache vornimmt (Dolmetschfunktion).

11. Spracherkennungsverfahren für Datenverarbeitungssysteme udg., nach Anspruch 1 bis 10, dadurch gekennzeichnet daß, die verschiedensten praktischen Ausführungsmöglichkeiten dieses Verfahrens gegeben ist, so daß ein Tragen des Rechners am Hinterkopf eines Menschen, wobei an den Ohren Lautsprecher angebracht sind, und die Meßeinrichtungen (Sensoren) von dort über den Kiefer zum Mund führen, wo sich Mikrofon(e) befindet/ befinden; über eine Verbindung zu einer anderen Meßeinrichtung nach dieser Art, jedoch ohne Rechner, bei einem Gesprächspartner, ist direktes sprechen und hören des gesagten in einer anderen Sprache als der eigenen möglich. Wobei solche Rechner in jedem Falle zusätzlich auch andere bekannte Funktionen erfüllen wie Terminkalender Informations speicher usw., die in Verbindung mit diesem Verfahren auch einen Lerncomputer ergeben;
bei der Verwendung einer Videocamera als Datenliefereinheit (wobei der Rechner mit dem Programm diese Bilder interpretiert) kann diese Kamera so angeordnet sein, daß sie gleichzeitig auch als Bildtelefon verwendbar ist, oder zum einlesen von geschriebenen Text (Zeitungsartikel-Bilder);
wobei die Verwendung umgekehrt auch gegeben ist, also eine Bildtelefoncamera als Bildlieferant für das Spracherkennungsverfahren dient usw.; wobei wenn die Kamera z. B. in Front zum Kopf positioniert ist, ein Spiegel an der Seite des Kopfes gleichzeitig mit einem Kamerabild (einer Kamera) zwei Perspektiven des sprechenden Kopfes zeigt.