DE4212907A1 - Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w. - Google Patents
Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w.Info
- Publication number
- DE4212907A1 DE4212907A1 DE19924212907 DE4212907A DE4212907A1 DE 4212907 A1 DE4212907 A1 DE 4212907A1 DE 19924212907 DE19924212907 DE 19924212907 DE 4212907 A DE4212907 A DE 4212907A DE 4212907 A1 DE4212907 A1 DE 4212907A1
- Authority
- DE
- Germany
- Prior art keywords
- sensors
- computer
- speech recognition
- udg
- systems
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 210000003205 muscle Anatomy 0.000 title claims abstract description 6
- 238000001514 detection method Methods 0.000 title claims description 7
- 210000004556 brain Anatomy 0.000 title claims description 4
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000013519 translation Methods 0.000 claims abstract description 7
- 230000033001 locomotion Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 241000282414 Homo sapiens Species 0.000 claims description 13
- 238000005259 measurement Methods 0.000 claims description 7
- 210000000056 organ Anatomy 0.000 claims description 5
- 206010049816 Muscle tightness Diseases 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 206010021118 Hypotonia Diseases 0.000 claims description 2
- 210000000867 larynx Anatomy 0.000 claims description 2
- 210000001260 vocal cord Anatomy 0.000 claims description 2
- 210000001847 jaw Anatomy 0.000 claims 6
- 230000006870 function Effects 0.000 claims 2
- 239000000463 material Substances 0.000 claims 2
- 210000003254 palate Anatomy 0.000 claims 2
- 241001517013 Calidris pugnax Species 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000013461 design Methods 0.000 claims 1
- 210000005069 ears Anatomy 0.000 claims 1
- 230000003203 everyday effect Effects 0.000 claims 1
- 230000001815 facial effect Effects 0.000 claims 1
- 150000002500 ions Chemical class 0.000 claims 1
- 210000000088 lip Anatomy 0.000 claims 1
- 230000004807 localization Effects 0.000 claims 1
- 230000036640 muscle relaxation Effects 0.000 claims 1
- 229920003023 plastic Polymers 0.000 claims 1
- 239000004033 plastic Substances 0.000 claims 1
- 210000001584 soft palate Anatomy 0.000 claims 1
- 210000002105 tongue Anatomy 0.000 claims 1
- 238000002604 ultrasonography Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract 1
- 230000001755 vocal effect Effects 0.000 abstract 1
- 241000894007 species Species 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 206010041232 sneezing Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
Spracherkennungsverfahren für Datensysteme und Computer
bezeichnet die Möglichkeit, menschliche Sprache beliebiger
Art, von einem Rechnersystem, also vorzugsweise einem
elektronischen (oder anderem z. B. optischen) Computer,
welcher bestehend aus der Hardware (Microchips) und einem
Rechner/Computerprogramm, welches z. B. über eine Software
gespeist wird.
Es soll dabei möglich sein, die gesprochenen Worte des
Menschen (beliebiger Art, also auch aufgezeichnete Worte od.)
von den/den Rechner/n zunächst als Buchstaben und Worte so
erkannt werden, wie diese Worte und Sprache auch (gedruckt)
geschrieben würde. Sodann/zudem besteht auch die Möglichkeit,
daß der Inhalt dieser Worte vom Rechner oder dessen Programm
erkannt wird.
Zudem sollen Verfahren gefunden werden, welche dieses System
als "automatische Sekretärin", also einem drucken/tippen und
verwalten und erkennen von gesprochenen Worten; sowie einem
"automatischen" Dolmetsch- und -Übersetzungssystem, welches
die menschliche Sprache in andere menschliche Sprachen z. B.
simultan übersetzen kann.
Bekannt sind hierzu Versuche, dies mittels Software vom rein
akustisch gesprochenen Wort zu verwerten.
Dies ist auch die sinnvollste Möglichkeit, da damit auch
Sprache vom Radio oder Telefon mühelos verwertbar ist. Doch
ergab sich bisher bei all diesen Systemen das Problem der
mangelhaften Software, die nur auf den Zweck der akustischen
Verarbeitung ausgerichtet war/ist, und deshalb sehr
kompliziert sein müßte, was bis heute nicht gelang, denn eine
Spracherkennung ohne Fehler ist bis heute nicht möglich, da
z. B. noch das nießen, oder räuspern eines Menschen zu
Erkennungsfehlern führt. Zudem hat jeder Mensch ein
typisches, eigentümliches individuelles Sprachmuster, worauf
die Software individuell abgestimmt sein müßte.
Dieses Defizit wird mit diesem Verfahren ausgeräumt.
Dieses Verfahren verwendet deshalb zwei Komponenten, zum einen
eine Software, also ein Softwareprogramm, welches außer den
akustischen Informationen zusätzlich (oder auch aus
schließlich) Informationen über die Lage und Bewegungen, der
menschlichen Sprachorgane, sowie deren Intensität oder Impuls
und Veränderungen erkennt und verarbeitet.
Unter Sprachorgane werden alle Körperteile und ihre
Veränderungen, welche meßbar sind gemeint. Hierzu zähle ich
nicht nur die bekannten, wie Kiefer, Zähne, Zunge, Rachen,
Lunge, Brustkorb usw. sondern auch alle dazugehörigen Muskeln,
sowie die in der Haut ablaufenden elektro/chemischen
Veränderungen, sowie das Gehirn und seine meßbaren Impulse.
Zum anderen besteht dieses Verfahren aus Geräten, welche die
Messungen vornehmen, oder nur die Bilder und Ausgangsdaten
liefern, welche dann von dem Computer/Programm verarbeitet
werden.
Im Zusammenwirken, all dieser Komponenten besteht nun die
Möglichkeit aufgrund solcher parallelen einzelner Meß-und-
Bilddaten (und den akustischen Sprachdaten) zu den Buchstaben
und Worte der Sprache eine eindeutige Zuordnung zu
ermöglichen, welches in der Software geschieht (die Zuordnung).
Es genügt hierbei nicht, nur einzelne Meßdaten, wie z. B. nur
die Gehirnwellen mit den akustischen Worten zu verknüpfen
(denn sollte es z. B. jemals solche Versuche gegeben haben, so
sind diese auch gescheitert.) Vielmehr werden viele Parameter
des menschlichen Körpers herangezogen, so insbesondere die Art
der Ausdehnung und Bewegung des Unterkiefers, der Lippenformen
und Bewegungen (welche von einer Videocamera/s aufgenommen
werden) usw. wobei auch über Drucksensoren an einer Art
Halsmanschette relevante Daten zur Stimmvibration, und Lage
von Sprachbeeinflussern wie Stimmbänder, Kehlkopf usw. erkannt
werden, sowie deren Sprachrelevante Intensität. Zur Gewinnung
relevanter Daten dienen Muskelspannungen und -Entspannungen,
sowie an verschiedenen Stellen befindliche Mikrofone.
Somit kann (mittels Drucksensoren usw.) auch Brustbewegungen,
Husten, Nießen usw. leicht als solches vom danach
ausgerichteten Programm erkannt werden.
Bei einem Voranschreiten der Softwareentwicklung, mag es
möglich sein, daß einzelne Bereiche dieser Meßdaten
überflüssig werden, und nur die Kieferbewegungsdaten genügen.
Das Funktionsschema ist folgendermaßen aufgebaut.
Die Meßgeräte werden am Körper befestigt (wobei befestigt
alle dafür in Frage kommenden Befestigungsverfahren meint,
auch diese, wo diverse Geräte erst auf einer beliebigen
Halterung befestigt sind, ist erfindungsgemäß vorgesehen).
Außerhalb des Körpers befindliche Datenlieferanten werden auf
den Menschen ausgerichtet (was nach andere bekannter Arten
auch automatisch geschehen kann); wobei der Rechner/Programm
zur Vereinfachung, vorgegebene Symbolhafte Markierungen am
menschlichen Körper als solche leicht erkennen kann, wenn
sie in Größe und Form dem Rechner/Progamm als solche
Identifizierungsbilder bekannt sind, und diese Symbole
am Sprechapparat des Menschen befestigt sind (wobei für
Videocameras erkennungsymbolhafte Lichtquellen am Menschen
befestigt werden.).
Die Datenlieferanten und Meßgeräte (welche in den
Schutzrechten genannt sind) werden mit dem Rechner auf
bekannte Art und Weise verbunden (Kabel, Funk), dort werden die
Daten vorzugsweise digitalisiert.
Die Weiterverarbeitung erfolgt nun in dem Rechner/Computer,
welcher in seinem Programm, welches er bekommen hat (durch
die neue Software), findet ein Vergleich zwischen den Daten
statt; und aufgrund dem Programm bekannter Parameter, wie z. B. daß
bei einer bestimmten Neigungslänge nach unten in Millimeter
des Unterkiefers in Kombination mit einer bestimmten
Druckverstärkung, oder Bewegung eines Halsmuskels an einer
bestimmten Stelle, und in Kombination bestimmter Lippenformen,
in Kombination mit akustischen Werten (nur als Beisp.) kann
das Programm diesen Daten einen bestimmten Buchstaben
zuordnen, und in Abfolge auch Worte und Sprechpausen und
Sätze.
Dadurch, daß das Programm Übereinstimmungen zwischen diesen
verschiedenen Daten der verschiedenen Datenquellen sucht , und
zwar derart, wie es aufgrund eindeutiger Versuche bekannt ist,
daß bei einer bestimmten Anzahl, oder einer bestimmten
vorgegebenen Höhe von Übereinstimmungen der verschiedenen
Daten zu einem Buchstaben dieser Buchstabe als erkannt gilt
(Ebenso wird verfahren, um Worte und Sprechpausen zu erkennen).
Das Programm kann somit diese Zuordnung aufgrund eingegebener
Parameter eindeutig und richtig zwischen den Eingabedaten
und dem gemeinten Text (des Sprechers) vollziehen.
Eine Abstimmung auf eine bestimmte individuelle Person kann
möglich sein (das je nach Größe und Beschaffenheit der
Sprachorgane des Sprechers oder seines Charakters (Lautstärke),
jedoch ist diese Abstimmung dann einfach und mit wenigen
vorgegebenen Worten des "neuen" Sprechers getan, und von dem
Programm erkannt, da die grundlegenden Bewegungen der
Sprachorgane für bestimmte Worte und Sätze bei jedem Menschen
gleich sind, und kleinere Unterschiede von dem Programm auf
grund vorgegebener Parameter aufgehoben werden (z. B. unter
Zuhilfenahme von Fuzzy-Logic odg.); der Sprecher sagt hierzu
vorgegebene Worte, welche dann meßtechnisch erfaßt werden).
Vorgesehen ist, daß das Programm bestimmte Worte als Befehle
erkennt, und diese ausführt (also nicht nur für "Komma" ein
"," macht, sondern auch alle Computerbefehle, wie z. B.
"Ablegen in Speicher xy", und somit etwas in diesem
Speicher abgelegt ist; das Programm kann so mit einem
bestimmten Wort für verschiedenste Befehle aktiviert werden.
Dann werden die erkannten Worte entweder als Text ausgegeben,
oder vorzugsweise weiterbearbeitet, so z. B. interkommunikativ,
daß der Rechner mit einen Bildschirm verbunden ist, und dort
der Text ausgegeben wird, und vom Menschen bearbeitet oder
zugeordnet werden kann.
Generell sind an dem Rechner verschiedenste Drucker und
Druckverfahren zur Textausgabe anschließbar.
Die Texte können auch in den bekannten Verfahren gespeichert,
übertragen (Telefon), chiffriert, komprimiert, usw. werden.
Besondere Verfahren der Anwendung sind als Übersetzungssystem
in eine andere Sprache, wobei die Textausgabe akustisch
mittels eines Sprachmoduls und Lautsprechern erfolgt.
Mehrere Menschen können hierbei (auch über Telefon) einen
gemeinsamen Rechner benutzen, so daß bei Reisen in fremde
Länder dem Gesprächspartner nur die Meßdaten/Bilder mittels
entsprechender Geräte abgenommen werden, und in dem eigenen
Rechner verarbeitet werden, wobei die Sprachausgabe bereits
für den anderen akustisch hörbar in der anderen Sprache
erfolgt.
Claims (11)
1. Spracherkennungsverfahren für Datenverarbeitungssysteme,
Computer, Textsysteme, Übersetzungscomputer, Schreib- und
Verwaltungs-Systeme u.d.g., und deren Apparate und Software;
zum Erkennen und Verarbeiten und Wiedergeben in beliebiger Art
von menschlicher Sprache; dadurch gekennzeichnet, daß
dem verarbeitendem Rechner, außer Impulse/Informationen
der akustischen Art - von Mikrofonen -, zusätzlich oder aussch
ließlich Informationen optischer, mechanischer, oder sonstiger
Art - wie in den Unteransprüchen genannt - sowie deren Apparate
und Anordnungen zur Lieferung und Verwertung dieser Informat
ionen, wie Kameras; verschiedenster Meßsysteme zum ermitteln
von Muskelspannungen, Hautströme, Lippen-, Gaumen-, Zungen-,
Kiefer-, Stimmbänder-Lage und -Bewegungen erhält,
sowie deren Anordnungen
zur praktischen Anwendung in der Alltagswelt wie Schreib- und
Übersetzungsgeräte auch über große Distanzen und Verwendung
zur Interkommunikation verschiedener Menschen.
2. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1, dadurch gekennzeichnet daß,
an sprechenden Menschen Elektroden
und/oder andere Meßsysteme angebracht werden, welche ermitteln
Gesamt- oder Einzelwerte von PH-Werten der Haut, sowie von
elektrischen Strömen an bestimmten Körperregionen, der Haut,
und der Gehirnströme, mittels beispielsweise eines EEG, sowie
Niederstrommesser und ähnliches.
3. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 2, dadurch gekennzeichnet daß,
eine Sensormanschette, oder eine beliebige andere Anordnung
von Sensoren - in Gruppen oder einzeln - an dem sprechenden
Menschen angebracht werden, bevorzugterweise am Hals oder
Kieferbereich des Menschen (mittels beliebiger Befestigungs
methoden, wie Klettverschlüsse, Bänder, elastische Formen)
wobei die Sensoranordnungen aus bekannten Sensoren zur
Ermittlung von Druckstärke und -Druckveränderungen, sowie
von Bewegungen (des Kiefers, der verschiedenen Muskeln)
und Bewegungsänderungen, sowie von Muskelanspannungen; sowie
deren genaue Lokalisation mittels Drucksensoren, Bewegungssenso
ren, oder entsprechende Anordnungen besteht.
4. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 3, dadurch gekennzeichnet daß,
an dem menschlichen Körper oder - Haut Erfassungsgeräte/-
Sensoren zur Bestimmung der kontinuierlichen Muskelanspannung
und Muskelentspannung verschiedener Muskelpartien; so auch
zur Erfassung weiterer Parameter wie der Atemerfassung; dies
alles auch in Kombination mit Ansprüchen 2 und 3.
5. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 4, dadurch gekennzeichnet daß,
aus beliebigen Material (z. B. Kunststoffe) eine Kombination
aus Halter/Träger und Meßgeräten/Sensoren vorzugsweise
am Unterkiefer oder Hals des Menschen getragen wird, wobei
der Aufbau/ die Formgebung dieser durchaus vergleichbar sein
kann mit der eines Maulkorbes, oder einer Art Halskrause,
sowie, daß an den Haltern (nach 2 bis 6) auch beliebig viele
Mikrofone befestigt sind.
6. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 5, dadurch gekennzeichnet daß,
im Mund, (oder an der Zunge) Meßgeräte oben genannter Art
sind, oder Mikrofone usw; zur Erfassung der Lage und der
Veränderung von Zungenstellungen und -Bewegungen und
Lippenbewegungen, Stimmvibration, Lage und Bewegung der
Zahnreihen und Gaumensegel.
7. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 6, dadurch gekennzeichnet daß,
an beliebiger Stelle Sender und Empfänger angebracht sind,
so Ultraschallsender oder Sender elektromagnetischer Wellen,
und andere, sowie deren Empfangsgeräte; wobei diese Sender
zwei verschiedene Anwendungen haben, zum einen eine Erfassung
innerkörperlicher Vorgänge wie z. B. im Kehlkopf, zum anderen
aber vor allem daß durch die Befestigung des Senders an
beweglichem Körperteil (Unterkiefer) durch die Lageveränderung
des Senders, welche von Empfängern (und EDV) erkannt wird,
kann somit auch die Bewegung des Kiefers odg. erfaßt werden,
zudem kann der Sender gewonnene andere Körperdaten drahtlos
an den Rechner übertragen.
8. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 7, dadurch gekennzeichnet daß,
außerhalb des Körpers Systeme zur Erfassung von
Gesichtskonturen, Lippenbewegungen, Zungenstellungen, Gaumen-
und -Kieferbewegungen, Stimmvibration udg. vorhanden sind,
welche keinen direkten Körperkontakt haben, und von Distanz
dies erfassen;
so optische Kameras, wie eine oder mehrere Videokameras,
welche dann an verschiedenen Orten positioniert sind,
z. B. von vorne und der Seite (bezüglich des Kopfes), oder eine
Stereokamera usw.; aber auch eine Infrarotkamera;
sowie Ultraschall oder Mikrowellen- (Distanz)-Sensor und
Sender und Empfänger dazu; sowie beliebige weitere bekannte
Anordnungen, die dieses Verfahren der Distanzerkennung
ermöglichen.
Dazu können am menschl. Körper auch Reflektoren angebracht werden (z. B. an bewegten Stellen) die die oben genannten Strahlen reflektieren, oder aber aufrund ihres speziellen Materials oder einer speziellen Form (wie ein Symbol) von den og. Geräten besonders gut erfaßt werden; wobei für die Erfassung durch Videocameras auch Lichtquellen am Körper getragen werden können (Glühbirnen in symbolhafter Form angeordnet am Kopf usw.) - auch zur Atemerfassung (Ein- und Ausatemzeitpunkt).
Dazu können am menschl. Körper auch Reflektoren angebracht werden (z. B. an bewegten Stellen) die die oben genannten Strahlen reflektieren, oder aber aufrund ihres speziellen Materials oder einer speziellen Form (wie ein Symbol) von den og. Geräten besonders gut erfaßt werden; wobei für die Erfassung durch Videocameras auch Lichtquellen am Körper getragen werden können (Glühbirnen in symbolhafter Form angeordnet am Kopf usw.) - auch zur Atemerfassung (Ein- und Ausatemzeitpunkt).
9. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 8, dadurch gekennzeichnet daß,
daß einzelne Komponenten von 2 bis 8 beliebig untereinander
kombiniert werden können.
Und daß der Gesamtaufbau und die Anordnungen der Einzelkomponenten des Verfahrens je nach Bedarf verschiedene Ergebnisse liefern kann, und beliebig anordenbar ist. So im einzelnen wie folgt:
Verbindung von den Meßstellen beliebig, über Datenleitungen, oder drahtlos zu einem Zwischenrechner oder einem Hauptrechner, welche in verschiedenen Schritten unter Anwendung eines Rechnerprogrammes aus den verschiedenen Einzeldaten und Informationen über den Zustand und die Bewegungen der menschlichen Sprachorgane, einen eindeutigen Zusammenhang zwischen diesen Informationen und dem Text der gesprochenen Sprache in Form von Buchstaben herstellt, das heißt ein erkennen der Silben und Wortbestandteile. Diese Daten oder der Text sind beliebig verarbeitbar, so z. B. speicherbar, über Telefonleitungen oder alle anderen Übertragungswege übertragbar (auch verschlüsselt oder kompriemiert).
Die Eingabe der Meßdaten in den Rechner erfolgt über bekannte Systeme, ebenso deren Speicherung oder Transport. Die Ausgabe der ermittelten Sprache schließlich erfolgt auf alle zur Sprachdarstellung bekannten Geräten wie: einem Drucker auf Papier, Bildschirmen (zur z. B. Weiterbearbeitung auf einem dafür entworfenen Bildschirmprogamm/Software); oder aber auch als syntetische Sprache oder Worte mit Hilfe eines Sprachgenerators und Lautsprechers.
Es werden hierfür bekannte Verbindungssystem untereinander verwendet wie Kabel von Rechner zu Drucker (welcher ebenso beliebig sein kann wie Laserdrucker, usw.) Der Rechner kann auch die Informationen von beliebig plazierten Mikrofonen erhalten, und diese gleichzeitig (parallel) mit den Körperdaten zur Interpretation der Sprache heranziehen.
Und daß der Gesamtaufbau und die Anordnungen der Einzelkomponenten des Verfahrens je nach Bedarf verschiedene Ergebnisse liefern kann, und beliebig anordenbar ist. So im einzelnen wie folgt:
Verbindung von den Meßstellen beliebig, über Datenleitungen, oder drahtlos zu einem Zwischenrechner oder einem Hauptrechner, welche in verschiedenen Schritten unter Anwendung eines Rechnerprogrammes aus den verschiedenen Einzeldaten und Informationen über den Zustand und die Bewegungen der menschlichen Sprachorgane, einen eindeutigen Zusammenhang zwischen diesen Informationen und dem Text der gesprochenen Sprache in Form von Buchstaben herstellt, das heißt ein erkennen der Silben und Wortbestandteile. Diese Daten oder der Text sind beliebig verarbeitbar, so z. B. speicherbar, über Telefonleitungen oder alle anderen Übertragungswege übertragbar (auch verschlüsselt oder kompriemiert).
Die Eingabe der Meßdaten in den Rechner erfolgt über bekannte Systeme, ebenso deren Speicherung oder Transport. Die Ausgabe der ermittelten Sprache schließlich erfolgt auf alle zur Sprachdarstellung bekannten Geräten wie: einem Drucker auf Papier, Bildschirmen (zur z. B. Weiterbearbeitung auf einem dafür entworfenen Bildschirmprogamm/Software); oder aber auch als syntetische Sprache oder Worte mit Hilfe eines Sprachgenerators und Lautsprechers.
Es werden hierfür bekannte Verbindungssystem untereinander verwendet wie Kabel von Rechner zu Drucker (welcher ebenso beliebig sein kann wie Laserdrucker, usw.) Der Rechner kann auch die Informationen von beliebig plazierten Mikrofonen erhalten, und diese gleichzeitig (parallel) mit den Körperdaten zur Interpretation der Sprache heranziehen.
10. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 9, dadurch gekennzeichnet daß,
dieses Verfahren auch zur Sprachenübersetzung dient, wobei der
Rechner über ein spezielles Übersetzungsprogramm die
Sprachausgabe in einer anderen Sprache gestalten kann; wobei
verschiedene Gesprächspartner jeweils solche Erfassungssysteme
(nach 1 bis 8) erhalten, welche entweder mit einem eigenen
Rechner verbunden sind, oder aber mit einem Zentralrechner.
So können auch Gesprächspartner, welche räumlich getrennt und
nur über Telefon verbunden sind, diese Meßdaten gleichzeitig
über die Telefonleitung z. B. zu einem Zentralrechner
übertragen, der dann die Ausgabe der Worte in einer anderen
Sprache vornimmt (Dolmetschfunktion).
11. Spracherkennungsverfahren für Datenverarbeitungssysteme
udg., nach Anspruch 1 bis 10, dadurch gekennzeichnet daß,
die verschiedensten praktischen Ausführungsmöglichkeiten
dieses Verfahrens gegeben ist, so daß ein Tragen des Rechners
am Hinterkopf eines Menschen, wobei an den Ohren Lautsprecher
angebracht sind, und die Meßeinrichtungen (Sensoren) von dort
über den Kiefer zum Mund führen, wo sich Mikrofon(e) befindet/
befinden; über eine Verbindung zu einer anderen Meßeinrichtung
nach dieser Art, jedoch ohne Rechner, bei einem
Gesprächspartner, ist direktes sprechen und hören des gesagten
in einer anderen Sprache als der eigenen möglich.
Wobei solche Rechner in jedem Falle zusätzlich auch andere
bekannte Funktionen erfüllen wie Terminkalender Informations
speicher usw., die in Verbindung mit diesem Verfahren auch
einen Lerncomputer ergeben;
bei der Verwendung einer Videocamera als Datenliefereinheit (wobei der Rechner mit dem Programm diese Bilder interpretiert) kann diese Kamera so angeordnet sein, daß sie gleichzeitig auch als Bildtelefon verwendbar ist, oder zum einlesen von geschriebenen Text (Zeitungsartikel-Bilder);
wobei die Verwendung umgekehrt auch gegeben ist, also eine Bildtelefoncamera als Bildlieferant für das Spracherkennungsverfahren dient usw.; wobei wenn die Kamera z. B. in Front zum Kopf positioniert ist, ein Spiegel an der Seite des Kopfes gleichzeitig mit einem Kamerabild (einer Kamera) zwei Perspektiven des sprechenden Kopfes zeigt.
bei der Verwendung einer Videocamera als Datenliefereinheit (wobei der Rechner mit dem Programm diese Bilder interpretiert) kann diese Kamera so angeordnet sein, daß sie gleichzeitig auch als Bildtelefon verwendbar ist, oder zum einlesen von geschriebenen Text (Zeitungsartikel-Bilder);
wobei die Verwendung umgekehrt auch gegeben ist, also eine Bildtelefoncamera als Bildlieferant für das Spracherkennungsverfahren dient usw.; wobei wenn die Kamera z. B. in Front zum Kopf positioniert ist, ein Spiegel an der Seite des Kopfes gleichzeitig mit einem Kamerabild (einer Kamera) zwei Perspektiven des sprechenden Kopfes zeigt.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19924212907 DE4212907A1 (de) | 1992-04-05 | 1992-04-17 | Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w. |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4211501 | 1992-04-05 | ||
DE19924212907 DE4212907A1 (de) | 1992-04-05 | 1992-04-17 | Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w. |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4212907A1 true DE4212907A1 (de) | 1993-10-07 |
Family
ID=25913700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19924212907 Withdrawn DE4212907A1 (de) | 1992-04-05 | 1992-04-17 | Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w. |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4212907A1 (de) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19752612A1 (de) * | 1997-11-27 | 1999-06-02 | Helge Zwosta | Verfahren zur Manipulation von Geräten und Programmen durch Steuer- und Manualfunktionen des Hand-Arm-Komplexes |
DE19752907A1 (de) * | 1997-11-28 | 1999-06-10 | Egon Prof Dr Stephan | Verfahren zur Führung eines Dialogs zwischen einem einzelnen oder mehreren Nutzern und einem Computer |
EP1341159A1 (de) * | 2002-02-28 | 2003-09-03 | NTT DoCoMo, Inc. | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale |
EP1345210A2 (de) * | 2002-03-04 | 2003-09-17 | NTT DoCoMo, Inc. | Spracherkennungssystem, Spracherkennungsverfahren, Sprachsynthesesystem, Sprachsyntheseverfahren, und Rechnerprogramm |
GB2396421A (en) * | 2002-12-16 | 2004-06-23 | Orange Personal Comm Serv Ltd | Head-worn device measuring brain and facial muscle activity |
EP1517298A1 (de) * | 2003-09-19 | 2005-03-23 | NTT DoCoMo, Inc. | Sprachperiodenerkennung basierend auf Elektromyographie |
WO2010070552A1 (en) * | 2008-12-16 | 2010-06-24 | Koninklijke Philips Electronics N.V. | Speech signal processing |
CN101111886B (zh) * | 2005-01-28 | 2011-11-16 | 京瓷株式会社 | 发声内容识别装置与发声内容识别方法 |
EP2691954A1 (de) * | 2011-03-28 | 2014-02-05 | Nokia Corp. | Verfahren und vorrichtung zur erkennung von gesichtsveränderungen |
EP2980788A1 (de) * | 2014-07-28 | 2016-02-03 | Ching-Feng Liu | Spracherkennungsvorrichtung, spracherkennungssystem und verfahren zur spracherkennung |
US10134226B2 (en) | 2013-11-07 | 2018-11-20 | Igt Canada Solutions Ulc | Methods and apparatus for controlling casino game machines |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3383466A (en) * | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
US3524932A (en) * | 1968-09-10 | 1970-08-18 | Lockheed Aircraft Corp | Physiological communications system |
EP0254409A1 (de) * | 1986-07-25 | 1988-01-27 | Smiths Industries Public Limited Company | Vorrichtung und Verfahren zur Spracherkennung |
DE3742929C1 (de) * | 1987-12-18 | 1988-09-29 | Daimler Benz Ag | Verfahren zur Verbesserung der Zuverlaessigkeit von Sprachsteuerungen von Funktionselementen und Vorrichtung zu dessen Durchfuehrung |
DE8804750U1 (de) * | 1988-04-12 | 1989-02-09 | Weber, Siegfried, 7590 Achern | Kommunikations- und Umweltkontrollgerät |
GB2220089A (en) * | 1988-06-17 | 1989-12-28 | Brian Edwards | Brain-wave-controlled computer interface |
US4892432A (en) * | 1987-01-24 | 1990-01-09 | Eaton Corporation | Clip for securing rotating parts |
DE3032693C2 (de) * | 1980-08-29 | 1990-05-17 | Siemens Ag, 1000 Berlin Und 8000 Muenchen, De |
-
1992
- 1992-04-17 DE DE19924212907 patent/DE4212907A1/de not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3383466A (en) * | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
US3524932A (en) * | 1968-09-10 | 1970-08-18 | Lockheed Aircraft Corp | Physiological communications system |
DE3032693C2 (de) * | 1980-08-29 | 1990-05-17 | Siemens Ag, 1000 Berlin Und 8000 Muenchen, De | |
EP0254409A1 (de) * | 1986-07-25 | 1988-01-27 | Smiths Industries Public Limited Company | Vorrichtung und Verfahren zur Spracherkennung |
US4892432A (en) * | 1987-01-24 | 1990-01-09 | Eaton Corporation | Clip for securing rotating parts |
DE3742929C1 (de) * | 1987-12-18 | 1988-09-29 | Daimler Benz Ag | Verfahren zur Verbesserung der Zuverlaessigkeit von Sprachsteuerungen von Funktionselementen und Vorrichtung zu dessen Durchfuehrung |
DE8804750U1 (de) * | 1988-04-12 | 1989-02-09 | Weber, Siegfried, 7590 Achern | Kommunikations- und Umweltkontrollgerät |
GB2220089A (en) * | 1988-06-17 | 1989-12-28 | Brian Edwards | Brain-wave-controlled computer interface |
Non-Patent Citations (3)
Title |
---|
GRILLO, Michael: Computer freihändig bedienen. In: Elektronik 25/1990, S.42-45 * |
Mouth-Interpreter Via Optical Fibres and Infrared Link. In: IBM Technical Disclosure Bulletin, Vol.32, No. 4B, Sept. 1989, S.10-13 * |
NASSIMBENE,E.: Clustered Multiple Speech AttributeDetector. In: IBM Technical Disclosure Bulletin, Vol. 24, No. 7B, Dec. 1981, S.3652 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19752612A1 (de) * | 1997-11-27 | 1999-06-02 | Helge Zwosta | Verfahren zur Manipulation von Geräten und Programmen durch Steuer- und Manualfunktionen des Hand-Arm-Komplexes |
DE19752907A1 (de) * | 1997-11-28 | 1999-06-10 | Egon Prof Dr Stephan | Verfahren zur Führung eines Dialogs zwischen einem einzelnen oder mehreren Nutzern und einem Computer |
DE19752907C2 (de) * | 1997-11-28 | 2002-10-31 | Egon Stephan | Verfahren zur Führung eines Dialogs zwischen einem einzelnen oder mehreren Nutzern und einem Computer |
US7480616B2 (en) | 2002-02-28 | 2009-01-20 | Ntt Docomo, Inc. | Information recognition device and information recognition method |
EP1341159A1 (de) * | 2002-02-28 | 2003-09-03 | NTT DoCoMo, Inc. | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale |
EP1345210A2 (de) * | 2002-03-04 | 2003-09-17 | NTT DoCoMo, Inc. | Spracherkennungssystem, Spracherkennungsverfahren, Sprachsynthesesystem, Sprachsyntheseverfahren, und Rechnerprogramm |
EP1345210A3 (de) * | 2002-03-04 | 2005-08-17 | NTT DoCoMo, Inc. | Spracherkennungssystem, Spracherkennungsverfahren, Sprachsynthesesystem, Sprachsyntheseverfahren, und Rechnerprogramm |
US7680666B2 (en) | 2002-03-04 | 2010-03-16 | Ntt Docomo, Inc. | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product |
US7369991B2 (en) | 2002-03-04 | 2008-05-06 | Ntt Docomo, Inc. | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy |
GB2396421A (en) * | 2002-12-16 | 2004-06-23 | Orange Personal Comm Serv Ltd | Head-worn device measuring brain and facial muscle activity |
EP1517298A1 (de) * | 2003-09-19 | 2005-03-23 | NTT DoCoMo, Inc. | Sprachperiodenerkennung basierend auf Elektromyographie |
US7627470B2 (en) | 2003-09-19 | 2009-12-01 | Ntt Docomo, Inc. | Speaking period detection device, voice recognition processing device, transmission system, signal level control device and speaking period detection method |
CN100361197C (zh) * | 2003-09-19 | 2008-01-09 | 株式会社Ntt都科摩 | 说话时段检测设备及方法、语音识别处理设备 |
CN101111886B (zh) * | 2005-01-28 | 2011-11-16 | 京瓷株式会社 | 发声内容识别装置与发声内容识别方法 |
WO2010070552A1 (en) * | 2008-12-16 | 2010-06-24 | Koninklijke Philips Electronics N.V. | Speech signal processing |
US9830507B2 (en) | 2011-03-28 | 2017-11-28 | Nokia Technologies Oy | Method and apparatus for detecting facial changes |
EP2691954A4 (de) * | 2011-03-28 | 2014-12-10 | Nokia Corp | Verfahren und vorrichtung zur erkennung von gesichtsveränderungen |
EP2691954A1 (de) * | 2011-03-28 | 2014-02-05 | Nokia Corp. | Verfahren und vorrichtung zur erkennung von gesichtsveränderungen |
US10134226B2 (en) | 2013-11-07 | 2018-11-20 | Igt Canada Solutions Ulc | Methods and apparatus for controlling casino game machines |
EP2980788A1 (de) * | 2014-07-28 | 2016-02-03 | Ching-Feng Liu | Spracherkennungsvorrichtung, spracherkennungssystem und verfahren zur spracherkennung |
CN105321519A (zh) * | 2014-07-28 | 2016-02-10 | 刘璟锋 | 话语辨识系统与单元 |
JP2016031534A (ja) * | 2014-07-28 | 2016-03-07 | リウ チン フォンChing−Feng LIU | 発話認識システム、発話認識装置、および発話認識方法 |
JP2018028681A (ja) * | 2014-07-28 | 2018-02-22 | リウ チン フォンChing−Feng LIU | 発話認識システム、発話認識装置、および発話認識方法 |
CN105321519B (zh) * | 2014-07-28 | 2019-05-14 | 刘璟锋 | 话语辨识系统与单元 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rosenblum et al. | An audiovisual test of kinematic primitives for visual speech perception. | |
US9424842B2 (en) | Speech recognition system including an image capturing device and oral cavity tongue detecting device, speech recognition device, and method for speech recognition | |
Weintraub et al. | Disturbances in prosody: A right-hemisphere contribution to language | |
US5982853A (en) | Telephone for the deaf and method of using same | |
DE4212907A1 (de) | Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w. | |
CN107301863A (zh) | 一种聋哑儿童言语障碍康复方法及康复训练系统 | |
Gentilucci et al. | Automatic audiovisual integration in speech perception | |
Gennari et al. | Orthogonal neural codes for speech in the infant brain | |
Freitas et al. | An introduction to silent speech interfaces | |
WO2020128999A1 (en) | System and method for reading and analysing behaviour including verbal, body language and facial expressions in order to determine a person's congruence | |
CN109166629A (zh) | 失语症评价与康复辅助的方法及系统 | |
Derrick et al. | Three speech sounds, one motor action: Evidence for speech-motor disparity from English flap production | |
EP0360909B1 (de) | Sprachübungsgerät | |
Gentner | Temporal scales of auditory objects underlying birdsong vocal recognition | |
CN109785196A (zh) | 一种教师版英语学习管理系统 | |
DE60315907T2 (de) | Lernverfahren und -vorrichtung, mobiles Kommunikationsterminal und Informations-Erkennungssystem, basierend auf der Analyse von Bewegungen der Sprachorgane eines sprechenden Benutzers | |
Werner | The phonetics of speech breathing: pauses, physiology, acoustics, and perception | |
Ranjan et al. | Design of sign language system; using APR9600 and glove technology | |
DE202008012183U1 (de) | Sprechmonitoring | |
Malaia et al. | What sign languages show | |
DE102020114165A1 (de) | Headset, headset-system, verfahren zum trainieren eines headsets und verfahren zum verwenden eines headsets | |
DE102020210748A1 (de) | System und Verfahren zur emotionalen Erkennung | |
DE102010012427B4 (de) | Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern | |
Koppensteiner et al. | Speaking through the body: Do people associate the body movements of politicians with their speech? | |
Alhinti | Dysarthric speech emotion classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8141 | Disposal/no request for examination |