DE69730705T2 - Vorrichtung und verfahren zur mustererkennung und zur adaption - Google Patents

Vorrichtung und verfahren zur mustererkennung und zur adaption Download PDF

Info

Publication number
DE69730705T2
DE69730705T2 DE69730705T DE69730705T DE69730705T2 DE 69730705 T2 DE69730705 T2 DE 69730705T2 DE 69730705 T DE69730705 T DE 69730705T DE 69730705 T DE69730705 T DE 69730705T DE 69730705 T2 DE69730705 T2 DE 69730705T2
Authority
DE
Germany
Prior art keywords
input data
parameter
classification
classifier
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69730705T
Other languages
English (en)
Other versions
DE69730705D1 (de
Inventor
Tetsujiro Kondo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of DE69730705D1 publication Critical patent/DE69730705D1/de
Application granted granted Critical
Publication of DE69730705T2 publication Critical patent/DE69730705T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und auf ein Verfahren zum Erkennen und auf eine Vorrichtung und auf ein Verfahren zum Lernen. Insbesondere bezieht sich die vorliegende Erfindung auf eine Vorrichtung und auf ein Verfahren zum Erkennen und auf eine Vorrichtung und ein Verfahren zum Lernen, wobei beim Erkennen beispielsweise von Tönen und Objekten andere Daten sowie Audio- und Videodaten verwendet werden, um die Erkennungsgenauigkeit zu steigern.
  • Technischer Hintergrund
  • Bei einer herkömmlichen Stimmenerkennungsvorrichtung zum Erkennen von Tönen von Stimmen werden Stimmendaten, welche durch ein Mikrofon aufgenommen werden, (akustisch) analysiert, und das analysierte Ergebnis wird dazu verwendet, die Stimme, die durch einen Benutzer emittiert wird, zu erkennen.
  • Eine derartige herkömmliche Stimmenerkennungsvorrichtung nutzt jedoch das analysierte Ergebnis von den Stimmendaten, welche durch das Mikrofon aufgenommen wurden, zur Stimmenerkennung, wodurch deren Erkennungsgenauigkeit bis zu einen gewissen Grad beschränkt ist.
  • Es sei angemerkt, dass nicht nur die Stimmendaten, die durch ein Mikrofon aufgenommen werden, sondern auch andere Faktoren, beispielsweise der Ausdruck und Bewegung des Mundes eines Subjekts, bemerkenswert sind und somit betroffen sind, die Stimme des Subjekts zu erkennen.
  • Ein Beispiel einer bekannten Stimmenerkennungsvorrichtung, bei der Stimmendaten und visuelle Information verwendet wird, ist in Silsbee: "Sensory Integration in Audiovisual Automatic Speech Recognition", Asilomar Conference on Signals, Systems and Computers, Los Alamitos (USA), Band Conf. 28, 1995, Seite 561–565 offenbart.
  • Die Stimmenerkennungsvorrichtung wird normalerweise unter feindlichen Bedingungen verwendet, wo unterschiedliche Arten von Geräuschen empfangen werden, jedoch nicht bei einem besonderen Umstand, beispilsweise in einer tondichten Kammer, wo die Stimme eines Subjekts lediglich durch ein Mikrofon aufgenommen werden kann. Insbesondere kann ein renoviertes Navigationssystem mit einer derartigen Stimmenerkennungsvorrichtung ausgestattet sein, wobei jedoch diese unerwünschte Geräusche empfängt, einschließlich Töne eines CD-Wiedergabegeräts, eines Motors und einer Klimaanlage, die in einem Fahrzeug angebracht ist, anders als die Stimme eines Subjekts, die erkannt werden soll. Da es sehr schwierig ist, Geräusche von den Stimmendaten zu beseitigen, muss sich die Stimmenerkennung mit den Geräuschen befassen, um ihre Genauigkeit zu verbessern.
  • Bei der üblichen Stimmenerkennungsvorrichtung ist es außerdem üblich, dass die Stimmendaten, die durch ein Mikrofon aufgenommen werden, durch eine spezielle Art und Weise verarbeitet werden, um charakteristische Parameter zu bestimmen, und die Stimmenerkennung wird durch Berechnung des Abstandes zwischen charakteristischen Parametern ausgeführt, welche in einem Parameterraum grafisch dargestellt sind. Als Regel werden die charakteristischen Parameter, welche für die Stimmenerkennung wesentlich sind, in Abhängigkeit von dem Zuständen variiert, wo die Stimmenerkennungsvorrichtung angeordnet ist.
  • Offenbarung der Erfindung
  • Die vorliegende Erfindung, wie diese in den angehängten Patentansprüchen beansprucht ist, richtet sich auf das Überwinden der obigen Nachteile und hat die Aufgabe, die Erkennungsgenauigkeit einer Erkennungsvorrichtung zum Erkennen einer Stimme oder anderer Faktoren zu verbessern.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm, welches eine Anordnung eines Navigationssystems gemäß der vorliegenden Erfindung zeigt;
  • 2 ist ein Blockdiagramm einer Anordnung einer ersten Ausführungsform einer Stimmenerkennungsvorrichtung gemäß der vorliegenden Erfindung;
  • 3 ist ein Diagramm, welches einen Prozess in einer Vorprozessoreinheit erläutert;
  • 4 ist ein Blockdiagramm einer Anordnung einer ersten Ausführungsform einer Lernvorrichtung nach der vorliegenden Erfindung;
  • 5 ist ein Diagramm, welches einen Parameterraum zeigt;
  • 6 ist ein Blockdiagramm einer Anordnung einer zweiten Ausführungsform der Stimmenerkennungsvorrichtung nach der vorliegenden Erfindung;
  • 7 ist ein Blockdiagramm einer Anordnung einer zweiten Ausführungsform der Lernvorrichtung nach der vorliegenden Erfindung;
  • 8 ist ein Blockdiagramm einer Anordnung einer dritten Ausführungsform der Stimmenerkennungsvorrichtung nach der vorliegenden Erfindung; und
  • 9 ist ein Blockdiagramm einer Anordnung einer dritten Ausführungsform der Lernvorrichtung nach der vorliegenden Erfindung.
  • Bevorzugtes Ausführungsbeispiel der Erfindung
  • 1 zeigt eine Anordnung eines Navigationssystems nach der vorliegenden Erfindung.
  • Das Navigationssystem, welches in einem Fahrzeug vorgesehen werden kann, besitzt eine Systemsteuerung 1, eine Positionsmesseinrichtung 2, eine Datenbank 3, eine Eingabeeinrichtung 4 und eine Ausgabeeinrichtung 5 und kann durch Betätigen beispielsweise von Tastenschaltern oder über Spracheingaben in einem Dialogmodus gesteuert werden. Das Navigationssystem kann als tragbare Einrichtung verwendet werden.
  • Die Systemsteuerungseinheit 1 empfängt und überträgt Daten mit jedem Block im System, um die gesamte Handlung des Systems zu steuern. Die Positionsmesseinrichtung 2 empfängt eine elektrische Welle von einem GPS-Satelliten (Global Positioning System-Satelliten) und misst die laufende Position mit einer Messeinrichtung, beispielsweise einem Gyroskop oder einem Fahrzeuggeschwindigkeitssensor. Die Datenbank 3 hält (speichert) Karteninformation in einem elektronischen Format und andere relevante Daten, welche für die Navigation erforderlich sind, die als Antwort auf einen Befehl von der Systemsteuerung 1 wiedergewonnen werden können und die zur Systemsteuerung 1 geliefert werden können.
  • Die Eingabeeinrichtung 4 besitzt Tastenschalter oder einen Joystick zum Betätigen des Navigationssystems, ein Mikrofon zum Eingeben von Stimmendaten, eine CCD-Kamera (Carge Coupled Device-Kamera) zum Abbilden eines Benutzers, einen Beschleunigungssensor zum Ermitteln von Vibration des Fahrzeugs, Sensoren zum Messen der Feuchtigkeit und der Temperatur und andere relevante Sensoren. Ein Ausgangssignal der Eingabeeinrichtung 4, die durch die Tastenschalter oder den Joystick betätigt wird, wird zur Systemsteuerung 1 übertragen. Die Eingabeeinrichtung 4 besitzt außerdem eine Stimmenerkennungseinrichtung zum Erkennen von Stimmenkomponenten in einem Eingabeton und zum Liefern von ihren resultierenden Daten zur Systemsteuerung 1.
  • Die Ausgabeeinrichtung 5 besitzt beispielsweise einen Flüssigkristall-Anzeigemonitor oder eine CRT (Kathodenstrahlröhre) zum Anzeigen eines Bilds oder dgl., einen Lautsprecher (mehrere Lautsprecher) zum Emittieren von Sprache und dgl., und eine Stimmenmischeinrichtung zum Erzeugen eines zusammengesetzten Tons von Textdaten und kann eine Karteninformationsanzeige oder die laufende Position steuern und Sprache ausgeben. Die Ausgabeeinrichtung 5 kann, wenn sie Textdaten von der Systemsteuerung 1 empfängt, diese mit entsprechender Sprache in der Sprachmischeinrichtung kombinieren.
  • Im Navigationssystem, welches den obigen Aufbau hat, wird, wenn der Benutzer den Namen eines Ortes als Bestimmungsort spricht, seine Sprache durch die Stimmenerkennungseinrichtung erkannt, die in der Eingabeeinrichtung 4 angeordnet ist, und seine Stimmendaten werden zur Systemsteuerung 1 übertragen. Die Systemsteuerung 1 erkennt beim Empfang der Stimmendaten des Bestimmungsorts die laufende Position von einer Ausgabe der Positionsmesseinrichtung 2 und greift auf die Karteninformation zu, die in der Datenbank 3 gespeichert ist, um eine Route von der laufenden Position zum Bestimmungsort zu bestimmen. Die Systemsteuerung 1 überträgt die Route zusammen mit deren relevanter Karteninformation zur Ausgabeeinrichtung 5 zur Anzeige und liefert simultan zur Stimmenmischeinrichtung der Ausgabeeinrichtung 5 Stimmendaten zum Instruieren der Route.
  • Dies erlaubt es dem Benutzer, am Bestimmungsort ohne Schwierigkeit anzukommen.
  • 2 zeigt eine Anordnung einer ersten Ausführungsform der Stimmenerkennungseinrichtung, die in der Eingabeeinrichtung 4, welche in 1 gezeigt ist, angeordnet ist.
  • Eine Eingabeeinheit 10 besitzt ein Mikrofon 11, eine CCD-Kamera 12, ein weiteres Mikrofon 13, einen Sensor 14, einen Verstärker 15, einen A/D-Umsetzer 16, einen weiteren Verstärker 17 sowie A/D-Umsetzer 18 und 19, und kann verschiedene Eingangsdaten, die zur Erkennung der Stimmen des Benutzers beispielsweise eines Fahrers verwendet werden, freigeben.
  • Insbesondere kann das Mikrofon 11 ein Richtmikrofon sein und auf den Benutzer ausgerichtet sein, der der Fahrer ist. Die Stimme des Benutzers wird hauptsächlich durch das Mikrofon 11 aufgenommen. Die durch das Mikrofon 11 aufgenommene Stimme wird in ein Audiosignal umgesetzt, welches dann durch den Verstärker 15 verstärkt und zum A/D-Umsetzer 18 übertragen wird. Im A/D-Umsetzer 18 wird das Audiosignal einer analogen Form, welches vom Verstärker 15 geliefert wird, mit einem vorgegebenen Abtasttakt abgetastet und zu bestimmten Quantisierungsschritten quantisiert, so dass es in ein Digitalsignal von Audiodaten umgesetzt werden kann. Die Audiodaten vom A/D-Umsetzer 18 werden zu einem Vorprozessor 20 übertragen.
  • Die CCD-Kamera 12 ist so angeordnet, den Mund des Benutzers abzubilden. Der Mund des Benutzers, der durch die CCD-Kamera 12 abgebildet wird, wird in ein Videosignal umgesetzt, welches zum A/D-Umsetzer 16 übertragen wird. Der A/D-Umsetzer 16 setzt wie der A/D-Umsetzer 18 das Videosignal analoger Form in Bilddaten um, die dann zu einem Vorprozessor 21 übertragen werden.
  • Das Mikrofon 13 braucht nicht ein Richtmikrofon sein, um Töne zu empfangen, die nicht die Stimme des Benutzers sind. Beispielsweise werden Umgebungstöne von einem Motor, von einem Rundfunkempfänger oder einem CD-Wiedergabegerät, welches im Fahrzeug angeordnet ist, und von einer Klimaanlage aufgenommen, und, wenn ein Fenster geöffnet ist, externes Geräusch. Die Töne, welche durch das Mikrofon 13 aufgenommen werden, werden durch den Verstärker 17 und den A/D-Umsetzer 19 in der gleichen Weise wie im Verstärker 15 und im A/D-Umsetzer 18 verarbeitet. Als Folge davon werden die Töne in Audiodaten umgesetzt und zu einem Vorprozessor 22 geliefert.
  • Der Sensor 14 kann ein Beschleunigungssensor zum Ermitteln von Vibration des Fahrzeugs sein oder ein Sensor zum Messen von Feuchtigkeit oder der Temperatur, und dessen Ausgangssignal wird zu einem Vorprozessor 23 übertragen. Ein Ausgangssignal des Beschleunigungssensors zeigt den Geräuschpegel (oder Amplitudenpegel), der durch die Vibration des Fahrzeugs verursacht wird. Ein Ausgangssignal des Sensors zum Messen der Feuchtigkeit oder der Temperatur bestimmt, ob es regnet oder nicht. Wenn es regnet, wird der Pegel von seinem Ton berechnet.
  • In den Vorprozessoren 20 bis 23 werden ihre entsprechende Daten, die empfangen werden, analysiert, um charakteristische Parameter zu bestimmen, die für die Charakteristik der Daten bezeichnend sind.
  • Insbesondere berechnen die Vorprozessoren 20 und 22 von den Audiodaten Nulldurchgangswerte, Leistungspegel bei jedem Frequenzband, lineare Vorhersagekoeffizienten, Cepstrum-Faktoren und weitere Parameter auf der Basis eines jeden Audiorahmens als Zeiteinheit. Diese werden wie die charakteristischen Parameter zu einer Klassifikationsdaten-Konstruktionseinheit 24 und einer Integrationsparameter-Konstruktionseinheit 26 übertragen.
  • Im Vorprozessor 21 kann die horizontale Länge L1 und die vertikale Länge L2 des Mundes, der in 2 gezeigt ist, von den Videodaten berechnet werden, die den Mund des Benutzers darstellen, und ein L1/L2 Verhältnis wird als charakteristischer Parameter zur Klassifikationsdaten-Konstruktionseinheit 24 und zur integrierten Parameterkonstruktionseinheit 26 geliefert. Alternativ kann der Vorprozessor 21 von den Videodaten des Mundes des Benutzers einen Bewegungsvektor, Randwerte, und DCT-Koeffizienten (diskrete Cosinus-Transformationskoeffizienten) berechnen, die dann als charakteristische Parameter zur Klassifikationsdaten-Konstruktionseinheit 24 und zur integrierten Parameter Konstruktionseinheit 26 übertragen werden.
  • Im Vorprozessor 23 können die charakteristischen Parameter einschließlich des Geräuschpegels (oder Amplitudenpegels), der durch die Vibration des Fahrzeugs erzeugt wird, und der Regentonpegel durch Analysieren des Ausgangssignals des Sensors 14 bestimmt werden. Diese Parameter werden ebenfalls zur Klassifikationsdaten-Konstruktionseinheit 24 und zur integrierten Parameter-Konstruktionseinheit 26 übertragen.
  • Von der Klassifikationsdaten-Konstruktionseinheit 24 werden zumindest einige der charakteristischen Parameter, welche von den Vorprozessoren 20 bis 24 empfangen werden, als Klassifikationsdaten, die zur Klassifikation verwendet werden, zu einer Klassifikationseinheit 25 geliefert. In der Klassifikationseinheit 25 werden die Klassifikationsdaten, welche von der Klassifikationsdaten-Konstruktionseinheit 24 empfangen werden, in Abhängigkeit von ihren sachdienlichen Charakteristiken klassifiziert.
  • Insbesondere liefert die Klassifikationseinheit 25 einen Wert, der einem Muster der charakteristischen Parameter der Klassifikationsdaten zugeteilt ist, als Klassifikationsdatenklasse zu einer Adaptivitätsbestimmungseinheit 27.
  • Wenn man annimmt, dass ein charakteristischer Parameter durch A Bits ausgedrückt wird und Klassifikationsdaten aus einer Anzahl B der charakteristischen Parameter bestehen, beträgt die Anzahl von Mustern der charakteristischen Parameter der Klassifikationsdaten (2A)B. Wenn somit entweder A oder B groß ist, wird die Anzahl von Klassen enorm, und deren Handhabung wird daher mit großer Schwierigkeit erhöht.
  • Um die Anzahl von Bits der charakteristischen Parameter aller Klassifikationsdaten zu reduzieren, wird ein geeignetes Verfahren, beispielsweise ADRC (Adaptive Dynamic Range Coding) als Verfahren vor der Klassifikation verwendet.
  • Der ADRC-Prozess beginnt mit dem Ermitteln des höchsten Parameters (als maximaler charakteristischer Parameter anschließend bezeichnet) und des niedrigsten Parameters (anschließend als minimaler charakteristischer Parameter bezeichnet) der B-Charakteristik-Parameter der Klassifikationsdaten. Dann wird eine Differenz DR zwischen dem maximalen charakteristischen Parameter MAX und dem minimalen charakteristischen Parameter MIN berechnet (= MAX – MIN) und wie ein lokaler dynamischer Bereich in den Klassifikationsdaten behandelt. Gemäß dem dynamischen Bereich DR werden alle charakteristischen Parameter der Klassifikationsdaten auf eine Anzahl von C Bits quantisiert, die kleiner ist als A Bits. Insbesondere wird der minimale charakteristische Parameter MIN von jedem charakteristischen Parameter der Klassifikationsdaten subtrahiert, und eine resultierende Differenz wird durch DR/2C geteilt.
  • Folglich werden alle charakteristischen Parameter der Klassifikationsdaten mit C Bits bezeichnet. Wenn C = 1, beträgt die Anzahl von Mustern der B charakteristischen Parameter (21)B, die beträchtlich kleiner ist als die Anzahl ohne den ADRC-Prozess.
  • In bezug auf das Minimieren der Anzahl von Mustern der charakteristischen Parameter der Klassifikationsdaten ist es wünschenswert, dass B, die Anzahl der charakteristischen Parameter, welche die Klassifikationsdaten bestimmt, keine große Anzahl ist. Wenn B jedoch zu klein ist, ist das Ergebnis der Klassifikation ungünstig. Es ist somit wesentlich, B über einen Ausgleich der relevanten Zahlen zu bestimmen.
  • Die integrierte Parameterkonstruktionseinheit 26 erlaubt zumindest, dass einige der charakteristischen Parameter, welche von den Vorprozessoren 20 bis 24 empfangen werden, als integriert (oder gesammelt) werden und als ein integrierter Parameter zur adaptiven Bestimmungseinheit 27 geliefert werden.
  • Der integrierte Parameter kann eine Gruppe der charakteristischen Parameter sein, die identisch mit denjenigen der Klassifikationsdaten sind, oder eine Gruppe anderer charakteristischer Daten als die charakteristischen Parameter der Klassifikationsdaten.
  • Die Adaptivitätsbestimmungseinheit 27 besitzt ein Standardparameterspeicher 28 und einen Übereinstimmungsblock, und, wenn sie wie eine Klasse von der Klassifikationseinheit 25 oder einen integrierten Parameter von der integrierten Parameterkonstruktionseinheit 26 empfängt, extrahiert sie selektiv von dem Standardparameterspeicher 28 eine Standardparametertabelle, welche die entsprechenden Standardparameter zu der Klasse führt, die von der Klassifikationseinheit 25 empfangen wird.
  • Insbesondere hält der Standardparameterspeicher 28 eine entsprechende Anzahl der Standardparametertabellen für die Klassen, wobei jede Standardparametertabelle eine Gruppe von Standardparametern enthält, beispielsweise für Tonelemente, die durch Lernen einer Lernvorrichtung bestimmt werden können (4), die später beschrieben wird. In dem Übereinstimmungsblock 29 wird eine entsprechende Tabelle der Standardparametertabellen für die Klasse, welche von der Klassifikationseinheit 25 empfangen wird, ausgewählt.
  • Der Übereinstimmungsblock 29 berechnet dann eine Euklid-Entfernung von allen Standardparametern, welche in der ausgewählten Standardparametertabelle aufgelistet sind und den integrierten Parameter von der integrierten Parameter-Konstruktionseinheit 26 und gibt als Ergebnis der Stimmenerkennung ein Tonelement frei, welches dem Standardparameter zugeteilt ist, der die kleinste der Euklid-Entfernung liefert.
  • Folglich erlaubt die Stimmenerkennungsvorrichtung der Ausführungsform, dass die Stimme eines Benutzers nicht nur von den Stimmendaten erkannt wird, die durch das Mikrofon 11 hauptsächlich als Sprache des Benutzers aufgenommen wird, sondern auch von den Bilddaten, welche durch die CCD-Kamera 12 aufgenommen werden, beispielsweise von der Bewegung des Munds des Benutzers, den Audiodaten, die durch das Mikrofon 13 aufgenommen wurden und anderen Daten, welche durch den Sensor 14 ermittelt wurden, beispielsweise unterschiedlichen Arten von Geräusch und unterschiedlichen Frequenzbändern, wodurch die Erkennungsrate gesteigert wird.
  • Außerdem erlaubt die Vorrichtung, dass ein entsprechendes Standardparametermuster entsprechend der Klasse, die durch zwei oder mehrere Daten bestimmt wird, die zur Eingabeeinheit 10 geliefert werden, aus einer Gruppe der Standardparametertabellen ausgewählt werden kann, die ihren entsprechenden Klassen zugeteilt sind. Da die optimale Standardmustertabelle zum Erkennen der Stimme des Benutzers aus zwei oder mehreren Daten, die von der Eingabeeinheit 10 geliefert werden, erhalten wird, kann die Erkennungsrate weiter gesteigert werden.
  • 4 zeigt eine Anordnung einer Lernvorrichtung zum Verwenden eines Lernprozesses, um die Standardparameter zu bestimmen, welche in der Standardparametertabelle jeder Klasse im Standardparameterspeicher 28, der in 2 gezeigt ist, registriert sind.
  • Es sind eine Eingabeeinheit 30 (einschließlich eines Mikrofons 31, einer CCD-Kamera 32, eines Mikrofons 33, eines Verstärkers 34, eines Verstärkers 35, eines A/D-Umsetzers 35, eines Verstärkers 37 und A/D-Umsetzern 38 und 39), Vorprozessoren 40 bis 43, eine Klassifikationsdaten-Konstruktionseinheit 44, eine Klassifikationseinheit 45 und eine integrierte Parameter-Konstruktionseinheit 46 vorgesehen, die einen identischen Aufbau wie die Eingabeeinheit 10 (einschließlich des Mikrofons 11, der CCD-Kamera 12, des Mikrofons 13, des Sensors 14, des Verstärkers 15, des A/D-Umsetzers 16, des Verstärkers 17, und der A/D-Umsetzern 18 und 19), die Vorprozessoren 20 bis 23, die Klassifikationsdaten-Konstruktionseinheit 24, die Klassifikationseinheit 25 und die integrierte Parameter-Konstruktionseinheit 26, entsprechend in der Stimmenerkennungsvorrichtung, die in 2 gezeigt ist, haben. Ein Speicher 47 ist mit einem Adressanschluss (AD) versehen, um die Klasse als Adresse von der Klassifikationseinheit 45 zu empfangen und kann den integrierten Parameter, der von der integrierten Parameter-Konstruktionseinheit 46 geliefert wird, speichern.
  • In der Lernvorrichtung, die den obigen Aufbau hat, werden Lerndaten für den Lernprozess in die Eingabeeinheit 30 eingegeben. Insbesondere wird die Stimme eines Sprechers durch das Mikrofon 31 aufgenommen. In diesem Zeitpunkt wird der Mund des Sprechers durch die CCD-Kamera 32 aufgenommen wird. Insbesondere nimmt das Mikrofon 33 beispielsweise den Motorton von Fahrzeugen, den Musikton von einem CD-Wiedergabegerät, den Ton des Regens, den Betriebston einer Klimaanlage und weiteres Umgebungsgeräusch auf. Der Sensor 34 kann Pegel der Vibration, und, wenn das Mikrofon 33 den Ton des Regens aufnimmt, Grade der Temperatur und der Feuchtigkeit beim Regnen ermitteln.
  • Die Lerndaten, welche durch die Eingabeeinheit 30 empfangen werden, werden dann in den Vorprozessoren 40 bis 43, der Klassifikationsdaten-Konstruktionseinheit 44, der Klassifikationseinheit 45 und der integrierten Parameter-Konstruktionseinheit 45 in der gleichen Weise wie die durch die Vorprozessoren 20 bis 23, die Klassifikationsdaten-Konstruktionseinheit 24, die Klassifikationseinheit 25 und die integrierte Parameter-Konstruktionseinheit 26, die in 2 gezeigt sind, verarbeitet. Als Ergebnis wird der Speicher 47 mit einer Klasse von der Klassifikationseinheit 45 und einem integrierten Parameter von der integrierten Parameter-Konstruktionseinheit 46 beliefert.
  • Der Speicher 47 speichert den integrierten Parameter von der integrierten Parameter-Konstruktionseinheit 46 als einen Standardparameter in einer Adresse, welche der Klasse von der Klassifikationseinheit 45 zugeteilt ist.
  • Ein solcher Prozess wird für jedes Tonelement durchgeführt, welches durch den Sprecher erzeugt wird, mit Variationen von Geräusch und Daten, die geliefert werden, die durch das Mikrofon 33 und den Sensor 34 aufgenommen werden.
  • Folglich wird eine Gruppe integrierter Parameter jeder Klasse in der entsprechenden Adresse des Speichers 47 gespeichert.
  • Die integrierten Parameter (der Gruppe), die jeder Adresse des Speichers 47 zugeteilt sind, werden dann im Standardparameterspeicher 28, der in 2 gezeigt ist, wie Standardparameter in einer Standardparametertabelle der Klasse gespeichert.
  • Bei der Lernvorrichtung werden Daten, die mit dem Mikrofon 33 erzeugt werden, welches Geräusch empfängt, und Daten, die ohne ein derartiges Geräusch erzeugt werden, in verschiedene Klassen durch die Klassifikationseinheit 45 klassifiziert. Als Ergebnis werden eine optimale Standardparametertabelle mit dem Geräusch und eine optimale Standardparametertabelle ohne das Geräusch hergestellt. Dies erlaubt, dass die in 2 gezeigte Stimmenerkennungsvorrichtung, welche eine Klasse von der Klassifikationseinheit 25 freigibt, die identisch mit der Klasse von der Klassifikationseinheit 45 ist, die optimale Standardparametertabelle auswählen kann, wenn das Geräusch eingegeben wird, oder die andere optimale Standardparametertabelle, wenn das Geräusch nicht eingegeben wird.
  • Auch in der Lernvorrichtung können die Standardparameter in Klassen in Abhängigkeit von nicht lediglich dem Vorhandensein oder Nichtvorhandensein von Geräusch klassi fiziert werden, sondern auch von der Art den Pegeln des Geräusches, den Arten des Tonelements, welches durch den Sprecher erzeugt wird, der Sexualität, der Männlichkeit oder Weiblichkeit des Sprechers. Die Art und Weise der Klassifikation über die Standardparameter ist jedoch kein kritisches Problem. Wenn die Eingangsdaten in der Eingangseinheit 10 in der Stimmenerkennungsvorrichtung identisch mit denen der Eingangseinrichtung 30 in der Lernvorrichtung sind, ist das Ergebnis der Klassifikation durch die Klassifikationseinheit 25 in der Stimmenerkennungsvorrichtung identisch mit dem durch die Klassifikationseinheit 45 in der Lernvorrichtung. Folglich können die Standardparameter, die durch die Eingangsdaten der Eingangseinheit 10 bestimmt werden, oder die optimalen Standardparameter zu den Eingangsdaten zur Stimmenerkennung in der Stimmenerkennungsvorrichtung verwendet werden.
  • Es kann in der Lernvorrichtung, welche in 4 gezeigt ist, erlaubt sein, dass eine Gruppe der integrierten Parameter jeder Klasse über ein Tonelement im Speicher 47 gespeichert wird. Insbesondere können beim Lernen mit einer Sprecherlieferung jedes Tonelements unter unterschiedlichen Geräuschzuständen und mehrerer Sprecher, welche das gleiche tun, die resultierenden integrierten Parameter über spezielle Bereiche in einem Parameterraum streuen.
  • So zeigt beispielsweise 5(A) einen dreidimensionalen Parameterraum, wo der integrierte Parameter durch drei Komponenten P1, P2 und P3 ausgedrückt wird, um die Erläuterung zu erleichtern. Wenn die integrierten Parameter von Tonelementen <P("a") und ("i)"> in einer Klasse grafisch dargestellt werden, werden diese in spezielle Bereiche des Parameterraums gruppiert.
  • Obwohl alle Punkte im Bereich wie Standardparameter jedes Tonelements angesehen werden können, ist es vorzuziehen, ein Baryzentrum in dem Bereich zu bestimmen, der dann wie der Standardparameter des Tonelements behandelt wird, wie in 5(B) gezeigt ist.
  • 6 zeigt eine Anordnung einer zweiter Ausführungsform der Stimmenerkennungsvorrichtung, welche mit der Eingangseinheit 4, welche in 1 gezeigt ist, versehen ist. In der Figur sind gleiche Komponenten mit den gleichen Bezugszeichen wie die bezeichnet, die in 2 gezeigt sind, so dass auf deren Erläuterung verzichtet wird. Kurz ausgedrückt ist die Stimmerkennungsvorrichtung der zweiten Ausführungsform im Wesentlichen identisch mit dem Aufbau der Stimmenerkennungsvorrichtung, welche in 2 gezeigt ist, mit der Ausnahme, dass der Standardparameterspeicher 28 durch eine Gruppe von Standardparameterspeichern 281 bis 28M ersetzt ist und eine Klassifikationsdaten-Konstruktionseinheit 51 und eine Klassifikationseinheit 52 hinzugefügt sind.
  • Die Klassifikationsdaten-Konstruktionseinheit 51 bildet Klassifikationsdaten von mehreren Daten, die durch die Eingangseinheit 10 geliefert werden, und liefert diese zur Klassifikationseinheit 52. Die Klassifikationseinheit 52 klassifiziert die Klassifikationsdaten von der Klassifikationsdaten-Konstruktionseinheit 51 zu einer entsprechenden Klasse, die dann als Ergebnis der Klassifikation zu den Vorprozessoren 20 bis 23 übertragen werden.
  • In den Vorprozessoren 20 bis 23 finden Vorprozessaktionen, welche für die Klasse von der Klassifikationseinheit 52 geeignet sind, statt. Wenn insbesondere die Stimmendaten, die durch das Mikrofon 11 aufgenommen wurden, mehrere Vokaltöne, beispielsweise Vokale enthalten, werden lineare Vorhersagekoeffizienten und die Cepstrum-Koeffizienten, um die Stimme zu identifizieren, als die Nulldurchgangswerte mehr bevorzugt. Wenn die Stimmendaten, die durch das Mikrofon 11 aufgenommen werden, mehrere stimmlose Töne, beispielsweise Konsonanten enthalten, sind die Nulldurchgangswerte und die Leistungspegel in den verschiedenen Frequenzbändern und die Dauer des Konsonanten günstiger als die lineare Vorhersagekoeffizienten und die Cepstrum-Koeffizienten. Wenn der Pegel des Geräusches, welches durch das Mikrofon 13 empfangen wird, niedrig ist, wird dessen Wirkung außeracht gelassen. Wenn jedoch der Pegel des Geräusches hoch ist, sollte dieser Effekt bei der Stimmenerkennung in betracht gezogen werden. Wenn der Mund eines Benutzers weniger oder mehr Bewegung zeigt, kann dessen Bewegungsvektor nicht notwendig sein. Wenn der Mund einen Grad an Bewegung bildet, sollte dessen Bewegungsvektor bei der Stimmenerkennung in betracht gezogen werden. Wenn keine oder weniger Vibration des Fahrzeugs erzeugt wird, oder wenn es nicht regnet, kann das Ausgangssignal des Sensors 14 vernachlässigbar sein. In dem entgegengesetzten Fall sollte das Ausgangssignal des Sensors 14 bei der Stimmenerkennung zählen.
  • Es ist folglich zutreffend, dass die charakteristischen Parameter, welche für die Stimmenerkennung optimal sind (um ein Erkennungsergebnis mit einer höheren Genauigkeit zu erhalten) in Abhängigkeit von anderen Faktoren variiert werden, um nicht zu sagen, von der Stimme selbst, die zu erkennen ist.
  • In der in 6 gezeigten Stimmenerkennungsvorrichtung bestehen die Klassifikationsdaten aus Datenausgangssignalen der Eingangseinheit 10 und werden dann in Klassen klassifiziert. Dann können die optimalen charakteristischen Parameter für jede Klasse durch die Vorprozessoren 20 bis 23 bestimmt werden.
  • Gemäß der in 6 gezeigten Ausführungsform wird der Parameterraum zum Berechnen eines Abstands in der Adaptivitätsbestimmungseinheit 27 (der Übereinstimmungseinheit 29) gemäß der Klasse, welche durch die Klassifikationseinheit 52 bestimmt wird, modifiziert. Der Abstand im Parameterraum entsprechend der Klasse, die von der Klassifikationseinheit 52 geliefert wird, wird durch die Adaptivitätsbestimmungseinheit 27 berechnet, und ein Ergebnis der Stimmenerkennung wird aus dem Abstand erzeugt.
  • Es sei hier angenommen, dass die Klassifikationsdaten von der Klassifikationsdaten-Konstruktionseinheit 51 durch die Klassifikationseinheit 52 in eine M Anzahl von Klassen klassifiziert sind.
  • Die Vorprozessoren 20 bis 23, welche die charakteristischen Parameter in Abhängigkeit von den Klassen bestimmen, die durch die Klassifikationseinheit 52 bestimmt werden, können so angepasst sein, um den Grad der charakteristischen Parameter (beispielsweise einem linearen Vorhersagekoeffizienten des achten oder zwölften Grads) zu variieren oder um das Ausgangssignal der charakteristischen Parameter (beispielsweise, wenn das Fahrzeug an einem ruhigen Ort stillsteht und somit Ausgangssignale des Mikrofons 13 und des Sensors 14 vernachlässigbar sind, können die Vorprozessoren 22 und 23 nicht aktiviert verbleiben).
  • Die Klasse, die durch die Klassifikationseinheit 52 definiert wird, wird ebenfalls zur Adaptivitätsbestimmungseinheit 27 wie zu den Vorprozessoren 20 bis 23 geliefert. Die Adaptivitätsbestimmungseinheit 27 besitzt die M Standardparameterspeicher 281 bis 28M , wie oben beschrieben wurde, welche die Standardparameter in ihren entsprechenden Parameterstellen entsprechend den M Klassen halten, die durch die Klassifikationseinheit 52 bestimmt werden.
  • Die Standard-Parameter-Speicher 28m (m = 1, 2, ... M) speichern wie der Standardparameterspeicher 28, der in 2 gezeigt ist, ebenfalls die Standardparametertabellen ihrer entsprechenden Klassen, die durch die Klassifikationseinheit 25 angegeben werden.
  • Die Standardparametertabellen, welche in den Standardparameterspeichern 281 bis 28M gespeichert sind, können durch den Lernprozess einer anderen Lernvorrichtung (7), die später beschrieben wird, berechnet werden.
  • Die Adaptivitätsbestimmungseinheit 27 wählt beim Empfang der Klasse von der Klassifikationseinheit 52 einen der Standardparameterspeicher 281 bis 28M aus, der der Klasse entspricht (und wird somit als Standardparameterspeicher 28ms bezeichnet).
  • Die charakteristischen Parameter von den Vorprozessoren 20 bis 23 werden über die Klassifikationsdaten-Konstruktionseinheit 24 zur Klassifikationseinheit 25 übertragen, wo sie klassifiziert werden. Die Klasse wird als Ergebnis der Klassifikation dann zur Adaptivitätsbestimmungseinheit 27 geliefert. Außerdem werden die charakteristischen Parameter von den Vorprozessoren 20 bis 23 zu der integrierten Parameter-Konstruktionseinheit 26 übertragen, wo sie zu einem integrierten Parameter verschoben werden. Der integrierte Parameter wird durch die integrierte Parameter-Konstruktionseinheit 26 von den charakteristischen Parametern gebildet, welche im Parameterraum zugeteilt sind, der identisch dem der Standardparameter ist, der in der Standardparametertabelle aufgelistet ist, die im Standardparameterspeicher 28ms gespeichert ist, der durch die Adaptivitätsbestimmungseinheit 27 ausgewählt wird.
  • Der integrierte Parameter, der durch die integrierte Parameter-Konstruktionseinheit 26 gebildet ist, wird zur Adaptivitätsbestimmungseinheit 27 übertragen. In der Adaptivitätsbestimmungseinheit 27 wird eine der Standardparametertabellen, die im Standardparameterspeicher 28ms gespeichert ist, gemäß der Klasse ausgewählt, welche durch die Klassifikationseinheit 25 bestimmt wird, und dem Abstand zwischen allen Standardparametern, welche in der ausgewählten Standardparametertabelle aufgelistet sind, und der integrierte Parameter, der von der integrierten Parameter-Konstruktionseinheit 26 empfangen wird, wird durch die Übereinstimmungseinheit 29 berechnet. Das Tonelement des Standardparameters, bei dem der Abstand der kleinste zum integrierten Parameter ist, wird somit als Ergebnis der Stimmenerkennung freigegeben.
  • Damit wird der Vorverarbeitungsbetrieb gemäß der Klasse ausgeführt, welche durch die Klassifikationseinheit 52 definiert ist, um einen optimalen charakteristischen Parameter zu bestimmen. Dies erlaubt, dass das Ergebnis der Stimmenerkennung mit einer höhe ren Genauigkeit von einem Abstand des optimalen charakteristischen Parameters im Parameterraum berechnet werden kann.
  • 7 zeigt eine Anordnung einer Lernvorrichtung zum Durchführen eines Lernprozesses, um die Standardparameter zu bestimmen, die in der Standardparametertabelle jeder Klasse aufzulisten sind, welche in jedem der Standardparameterspeicher 28m bis 28M , die in 6 gezeigt sind, gespeichert ist.
  • In der Figur sind gleiche Komponenten mit den gleichen Bezugszeichnen wie die, die in 4 gezeigt sind, bezeichnet, so dass auf deren Erläuterung verzichtet wird. Die Lernvorrichtung ist im Wesentlichen identisch der, welche in 4 gezeigt ist, mit der Ausnahme, dass der Speicher 47 durch eine Gruppe von Speichern 471 bis 47M ersetzt ist, und ein zusätzlicher Satz aus einer Klassifikationsdaten-Konstruktionseinheit, einer Klassifikationseinheit 62 und einem Auswahlorgan 63 vorgesehen sind.
  • Die Klassifikationsdaten-Konstruktionseinheit 61 und die Klassifikationseinheit 62 führen die gleichen Verarbeitungsaktionen wie die Klassifikationsdaten-Konstruktionseinheit 51 bzw. die Klassifikationseinheit 52 durch. Die Klasse, welche durch die Klassifikation bestimmt wird, wird zu den Vorprozessoren 40 bis 43 und zum Auswahlorgan 63 übertragen. Die Vorverarbeitungsaktion der Vorprozessoren 40 bis 43 ist identisch der der Vorprozessoren 20 bis 23, die in 6 gezeigt sind, wodurch ein optimaler charakteristischer Parameter entsprechend der Klasse, die durch die Klassifikationseinheit 62 bestimmt wird, bestimmt wird und freigegeben wird.
  • Die Klassifikationsdaten-Konstruktionseinheit 44, die Klassifikationseinheit 45 und die integrierte Parameter-Konstruktionseinheit 46 führen sämtlich die gleichen Verarbeitungsaktionen wie die Klassifikationsdaten-Konstruktionseinheit 24, die Klassifikationseinheit 25 und die integrierte Parameter-Konstruktionseinheit 26 durch. Folglich werden die Klasse von der Klassifikationseinheit 25 und der integrierte Parameter von der integrierten Parameter-Konstruktionseinheit 46 freigegeben.
  • Das Auswahlorgan 63 liefert als Antwort auf die Klasse, welche durch die Klassifikationseinheit 62 bestimmt wird, ein Auswahlsignal zu allen Chip-Auswahl-Anschlüssen (CS) der Speicher 471 bis 47M . Ein entsprechender Speicher von den Speichern 471 bis 47M zu der Klasse, welche von der Klassifikationseinheit 62 geliefert wird, wird somit ausgewählt.
  • Außerdem wird die Klasse, welche durch die Klassifikationseinheit 45 bestimmt wird, zu den Adressanschlüssen (AD) der Speicher 471 bis 47M geliefert. Dies erlaubt, dass alle integrierten Parameter von der integrierten Parameter-Konstruktionseinheit 46 in einer entsprechenden Adresse der Klasse, welche durch die Klassifikationseinheit 45 definiert ist, in einem der Speicher 471 bis 47M gespeichert werden können, der gemäß der Klasse ausgewählt wird, die durch die Klassifikationseinheit 62 definiert ist.
  • Folglich werden die integrierten Parameter (einer Gruppe), welche jeder Adresse von einem der Speicher 471 bis 47M zugeteilt wurden, in einem entsprechenden der Standardparameterspeicher 281 bis 28M , die in 6 gezeigt sind, als Standardparameter in einer Standardparametertabelle der Klasse gespeichert (definiert durch die Klassifikationseinheit 25).
  • Es ist außerdem möglich, dass, wie mit 5 beschrieben wurde, dass das Baryzentrum der Gruppe der integrierten Parameter, die im Raum grafisch dargestellt sind, als Standardparameter in jedem der Standardparameterspeicher 281 bis 28M , die in 6 gezeigt sind, gespeichert ist.
  • 8 zeigt eine Anordnung einer dritten Ausführungsform der Stimmenerkennungsvorrichtung, die mit der Eingabeeinrichtung 4 versehen ist, die in 1 gezeigt ist. In der Figur sind gleiche Komponenten mit den gleichen Bezugszeichen wie die, welche in 6 gezeigt sind, bezeichnet, so dass auf deren Erläuterung verzichtet wird. Die Stimmenerkennungsvorrichtung dieser Ausführungsform ist im Wesentlichen identisch der, welche in 6 gezeigt ist, mit der Ausnahme, dass besondere Vorprozessoren 71 bis 74 vorgesehen sind und deren Ausgangssignale, welche die Ausgangssignale der Vorprozessoren 20 bis 23 ersetzen, zu der integrierten Parameter-Konstruktionseinheit 26 geliefert werden.
  • Die Vorprozessoren 71 bis 74 empfangen die gleichen Daten, die durch die Vorprozessoren 20 und 23 empfangen wurden. Die Klasse, welche durch die Klassifikationseinheit 52 definiert wurde, wird ebenfalls zu den Vorprozessoren 71 bis 74 geliefert.
  • Die Vorprozessoren 71 und 74 führen als Antwort auf die Klasse, welche von der Klassifikationseinheit 52 empfangen wurde, die Vorverarbeitungsaktion durch, um optimale charakteristische Parameter zu bestimmen, welche zur integrierten Parameter-Konstruktionseinheit 26 übertragen werden. Es sei angemerkt, dass die Vorverarbeitungsaktion der Vorprozessoren 71 bis 74 wesentlich verschieden gegenüber der der Vorprozessoren 20 bis 23 ist. Insbesondere, obwohl die Ausgangssignale der Vorprozessoren 20 bis 23 dazu verwendet werden, um schließlich die Klasse in der Klassifikationseinheit 25 zu bestimmen, werden die Ausgangssignale der Vorprozessoren 71 bis 74 zum integrierten Parameter verschoben, der von der integrierten Parameter-Konstruktionseinheit 26 freigegeben wird. Es ist somit zutreffend, dass die optimale charakteristischen Parameter, welche zur Klassifizierung der Klassifizierungseinheit 25 verwendet werden, durch die Vorprozessoren 20 und 23 gemäß der Klasse berechnet werden, die durch die Klassifikationsinheit 52 definiert ist, und simultan die optimalen charakteristischen Parameter, die zur Stimmenerkennung verwendet werden, durch die Vorprozessoren 71 und 74 gemäß der Klasse berechnet werden, die durch die Klassifikationseinheit 52 definiert ist.
  • 9 zeigt eine Anordnung einer Lernvorrichtung zum Durchführen eines Lernprozesses, um die Standardparameter zu bestimmen, welche in der Standardparametertabelle jeder Klasse aufzulisten sind, die in allen Standardparameterspeichern 281 bis 28M , die in 8 gezeigt sind, gespeichert werden sollen.
  • In der Figur sind gleiche Komponenten mit gleichen Bezugszeichen wie die bezeichnet, die in 7 gezeigt sind, so dass auf deren Erläuterung verzichtet wird. Die Lernvorrichtung ist im Wesentlichen identisch der, welche in 7 gezeigt ist, mit der Ausnahme, dass ein Extrasatz von Prozessoren 81 bis 84 vorgesehen ist und dass deren Ausgangssignale, welche die Ausgangssignale der Vorprozessoren 40 bis 43 ersetzen, zur integrierten Parameter-Konstruktionseinheit 46 geliefert werden.
  • Beim Betrieb werden die optimalen charakteristischen Parameter, welche zur Klassifizierung der Klassifikationseinheit 45 verwendet werden, durch die integrierten Parameter, durch den Vorprozessoren 40 und 43 berechnet, wie durch die Vorprozessoren 20 und 23, welche in 8 gezeigt ist, gemäß der Klasse, welche durch die Klassifikationseinheit 62 definiert ist, während die optimalen charakteristischen Parameter, welche zur Stimmenerkennung verwendet werden, durch die Vorprozessoren 81 bis 84 berechnet werden, wie durch die Vorprozessoren 71 und 74, die in 8 gezeigt ist, gemäß der Klasse, die durch die Klassifikationseinheit 62 angegeben ist.
  • Obwohl die integrierten Parameter, welche durch den Lernprozess der Lernvorrichtung, welche in 9 gezeigt ist, bestimmt werden, in den Standardparameterspeichern 281 bis 28M , die in 8 gezeigt sind, gespeichert sind, brauchen diese überhaupt nicht gespeichert zu werden. Es ist auch möglich, wie mit Hilfe von 5 beschrieben wurde, dass das Baryzentrum der Gruppe der integrierten Parameter, die in dem Raum grafisch gezeigt sind, als ein Standardparameter gespeichert wird.
  • Obwohl die vorliegende Erfindung oben von der Stimmenerkennungsvorrichtung beschrieben wurde, ist diese auch bei einer ähnlichen Vorrichtung anwendbar, um andere Subjekte als die sprach-umfassenden Bilder, Zeichen und Menschen zu erkennen.
  • Obwohl die Ausgangssignale der CCD-Kamera 32, des Mikrofons 33 und des Sensors 34 anders als die Stimme eines Benutzers verwendet werden, der zu erkennen ist, bilden sie keine Einschränkungen.
  • Bei der in 2 gezeigten Ausführungsform sind die Klassifikationsdaten von Daten konstruiert, die von den Vorprozessoren 20 bis 23 ausgegeben werden, und sie werden zur Klassifikation in der Klassifikationseinheit 25 verwendet. Die Klassifikationsdaten können unmittelbar von den Ausgangssignalen der Eingangseinheit 10 aufgebaut sein und zur Klassifizierung in der Klassifikationseinheit 25 verwendet werden. Obwohl die Vorprozessoren 20 bis 23, 40 bis 43, 71 bis 73 und 81 bis 83 der Ausführungsformen, welche in 6 bis 9 gezeigt sind, mit der Klasse beliefert werden, um eine Vorprozessoraktion gemäß der Klasse durchzuführen, können sie mit einer Funktion beliefert werden, welche sich auf die Klasse bezieht, so dass sie einen arithmetischen Betrieb unter Verwendung der Funktion ausführen können, um die Vorverarbeitungsaktion gemäß der Klasse auszuführen.
  • Um die Beschreibung der Ausführungsformen zu vereinfachen basiert die Stimmenerkennung in der Zugehörigkeitseinheit 29 auf dem Abstand zwischen dem integrierten Parameter und dem Standardparameter in einem anwendbaren Parameterraum. Es ist für die Übereinstimmungseinheit 29 auch möglich, den Abstand zwischen dem Standardparameter und dem integrierten Parameter, der in einer Zeitsequenz angegeben wird, zu berechnen, und die Wahrscheinlichkeit des Auftretens einer derartigen Zeitsequenz, welche dann dazu verwendet werden, um das Ergebnis der Stimmenerkennung zu bestimmen. Außerdem kann die Übereinstinmungseinheit 29 mit einer Vielzahl von Stimmenerkennungsalgorithmen versehen sein, die den entsprechenden Pegeln der Klasse zugeteilt sind, die durch die Klassifikationseinheiten 25 und 52 für die Stimmenerkennung definiert ist.
  • Es sei auch verstanden, dass die Stimmenerkennungsvorrichtung, welche in 2, 6 und 8 gezeigt sind, und die Lernvorrichtung, welche in 4, 7 und 9 gezeigt ist, in Form von Software-Anwendungen für einen Mikrocomputer ausgeführt werden können, der eine CPU und Speicher hat, wie auch durch Hardware-Installationen.
  • Gemäß der Erkennungsvorrichtung, welche im Anspruch 1 definiert ist, und einem Erkennungsverfahren, welches im Anspruch 6 definiert ist, werden unterschiedliche Eingangsdatenarten in Klassen in Abhängigkeit von ihrer Charakteristik klassifiziert, und außerdem zu integrierten Parametern integriert. Dann wird ein Gegenstand unter Verwendung einer Kombination des integrierten Parameters und einer Tabelle erkannt, welcher die Standardparameter ausführt, welcher jeder Klasse zugeteilt ist, welche durch die Klassifikation bestimmt ist. Da die optimale Tabelle für jeden Fall verwendet wird, wird die Erkennung bezüglich der Genauigkeit gesteigert.
  • Gemäß der Lernvorrichtung, die im Patentanspruch 7 definiert ist, und einem Lernverfahren, welches im Anspruch 10 definiert ist, werden unterschiedliche Eingangsdatenarten in Klassen in Abhängigkeit von ihren Charakteristiken klassifiziert, und außerdem zu integrierten Parametern integriert, die dann gemäß jeder Klasse, welche durch die Klassifizierung bestimmt wird, klassifiziert werden. Dies erlaubt, dass optimale Parameter zur Erkennung konstruiert werden können.

Claims (10)

  1. Erkennungsgerät zum Erkennen eines gelieferten Objekts aus unterschiedlichen Eingangsdatenarten heraus, welches aufweist: eine erste Klassifizierungseinrichtung (25) zum Klassifizieren der unterschiedlichen Eingangsdatenarten in Klassen in Abhängigkeit von ihrer Charakteristik; eine Integrations-Parameterkonstruktionseinrichtung (26) zum Konstruieren eines integrierten Parameters durch Integrieren der unterschiedlichen Eingangsdatenarten; eine Standardparameter-Sicherungseinrichtung (28) zum Sichern von Tabellen, wobei jede Tabelle Standardparameter führt und einer der Klassen zugeordnet ist, welche durch die erste Klassifizierungseinrichtung (25) bestimmt wird; und eine Erkennungseinrichtung (29) zum Erkennen des gelieferten Objekts unter Verwendung des integrierten Parameters und der Standardparameter, welche in der Tabelle aufgelistet sind, die der Klasse zugeordnet ist, die durch die erste Klassifizierungseinrichtung (25) bestimmt wird; wobei die unterschiedlichen Eingangsdatenarten Daten auf der Basis des gelieferten Objekts und Daten auf der Basis von einem oder mehreren Umgebungs-Raumfaktoren, wo die Daten auf der Basis des gelieferten Objekts erhalten werden, aufweisen.
  2. Erkennungsgerät nach Anspruch 1, welches außerdem aufweist: eine Analysierungseinrichtung (24) zum Analysieren der unterschiedlichen Eingangsdatenarten, um Charakteristik-Parameter zu bestimmen; und die erste Klassifizierungseinrichtung (25) betriebsfähig ist, die Klassifizierung gemäß den charakteristischen Parametern durchzuführen.
  3. Erkennungsgerät nach Anspruch 1, welches außerdem aufweist: eine Analysierungseinrichtung (24) zum Analysieren der unterschiedlichen Eingangsdatenarten mit der Klasse, welche durch die Klassifizierungseinrichtung bestimmt wird, um charakteristische Parameter zu bestimmen; eine zweite Klassifizierungseinrichtung (52), um die Klassifizierung mit den charakteristischen Parametern aller unterschiedlichen Eingangsdatenarten durchzuführen; die integrierte Parameterkonstruktionseinrichtung (26) betriebsfähig ist, die charakteristischen Parameter aller unterschiedlichen Eingangsdatenarten zu integrieren, um den integrierten Parameter zu bestimmen; wobei die Standardparameter-Sicherungseinrichtung (28) betriebsfähig ist, die Tabellen zu sichern, wobei jede Tabelle einer der Klassen zugeordnet ist, welche durch die erste Klassifizierungseinrichtung (25) bestimmt wird, und die Standardparameter führt, die der Klasse zugeordnet sind, welche durch die zweite Klassifizierungseinrichtung (52) bestimmt werden; und die Erkennungseinrichtung (29) betriebsfähig ist, das gegebene Objekt unter Verwendung des integrierten Parameters und der Standardparameter, die in der Tabelle aufgelistet sind, die der Klasse zugeteilt ist, welche durch die erste Klassifizierungseinrichtung (25) bestimmt werden, und der Klasse, welche durch die zweite Klassifizierungseinrichtung (52) bestimmt werden, aufgelistet sind.
  4. Erkennungsgerät nach Anspruch 1, wobei die Daten auf der Basis eines gelieferten Objekts Sprachdaten eines Sprachtons sind, der durch einen Sprecher von Interesse emittiert wird und/oder Bilddaten sind, welche durch Abbilden des Mundes des Sprechers erzeugt werden.
  5. Erkennungsgerät nach Anspruch 1, wobei der Umgebungsfaktor des Raums, wo Daten auf der Basis des gelieferten Objekts erhalten werden, Fahrzeugmotorton, Ton von einem CD-Wiedergabegerät, Ton des Regens, Betriebston einer Klimaanlage, Pegel von Vibration, Temperatur und/oder Feuchtigkeit, welche durch Regen verursacht wird, ist.
  6. Erkennungsverfahren zum Erkennen eines gelieferten Objekts aus unterschiedlichen Eingangsdatenarten heraus, welches folgende Schritte aufweist: Klassifizieren der verschiedenen Eingangsdatenarten in Klassen in Abhängigkeit von ihrer Charakteristik und Konstruieren eines integrierten Parameters durch Integrieren der unterschiedlichen Eingangsdatenarten; und Erkennen des gelieferten Objekts unter Verwendung des integrierten Parameters und einer Tabelle, welche Standardparameter führt und die zu einer der Klassen zugeordnet ist, welche durch die Klassifikation bestimmt wird; wobei die unterschiedlichen Eingangsdatenarten Daten auf der Basis des gelieferten Objekts und Daten auf der Basis von einem oder mehreren Umgebungsraumfaktoren aufweisen, wo die Daten auf der Basis des gelieferten Objekts erhalten werden.
  7. Lerngerät zum Bestimmen von Standardparametern, die verwendet werden, ein gegebenes Objekt aus unterschiedlichen Eingangsdatenarten heraus zu erkennen, welches aufweist: eine erste Klassifizierungseinrichtung (45) zum Klassifizieren der unterschiedlichen Eingangsdatenarten in Klassen in Abhängigkeit von ihrer Charakteristik; eine integrierte Parameterkonstruktionseinrichtung (46) zum Konstruieren eines integrierten Parameters durch Integrieren der unterschiedlichen Eingangdatenarten; und eine Klassifizierungseinrichtung (47) zum Klassifizieren der integrierten Parameter gemäß der Klasse, die durch die erste Klassifizierungseinrichtung (45) bestimmt wird; wobei die unterschiedlichen Eingangsdatenarten Daten auf der Basis des gelieferten Objekts und Daten auf der Basis von einem oder mehreren Umgebungsraumfaktoren umfassen, wo die Daten auf der Basis des gelieferten Objekts erhalten werden.
  8. Lerngerät nach Anspruch 7, welches außerdem aufweist: eine Analysierungseinrichtung (44) zum Analysieren der unterschiedlichen Eingangsdatenarten, um charakteristische Parameter zu bestimmen; und die erste Klassifizierungseinrichtung (45) betriebsfähig ist, die Klassifizierung gemäß den charakteristischen Parametern durchzuführen.
  9. Lerngerät nach Anspruch 7, welches außerdem aufweist: eine Analysierungseinrichtung (44) zum Analysieren der unterschiedlichen Eingangsdatenarten mit der Klasse, welche durch die erste Klassifizierungseinrichtung bestimmt wird, um charakteristische Parameter zu bestimmen; eine zweite Klassifizierungseinrichtung (42), um die Klassifizierung mit den charakteristischen Parametern aller unterschiedlichen Eingangsdatenarten durchzuführen; und die integrierte Parameterkonstruktionseinrichtung (46) betriebsfähig ist, die charakteristischen Parameter aller unterschiedlichen Eingangsdatenarten zu integrieren, um den integrierten Parameter zu bestimmen; und die Klassifizierungseinrichtung (47) betriebsfähig ist, die integrierten Parameter gemäß der Klasse zu klassifizieren, die durch die erste Klassifizierungseinrichtung (45) bestimmt wird, und der Klasse, welche durch die zweite Klassifizierungseinrichtung (62) bestimmt wird.
  10. Lernverfahren zum Bestimmen von Standardparametern, die verwendet werden, ein gegebenes Objekt aus unterschiedlichen Eingangsdaten heraus zu erkennen, welches folgende Schritte aufweist: Klassifizieren der unterschiedlichen Eingangsdatenarten in Klassen in Abhängigkeit ihrer Charakteristik und Konstruieren eines integrierten Parameters durch Integrieren der unterschiedlichen Eingangsdatenarten; und Klassifizieren der integrierten Parameter gemäß der Klasse, welche durch die Klassifikation bestimmt wird; wobei die unterschiedlichen Eingangsdatenarten Daten auf der Basis des gelieferten Objekts und Daten auf der Basis von einem oder mehreren Umgebungsraumfaktoren umfassen, wo die Daten auf der Basis des gelieferten Objekts erhalten werden.
DE69730705T 1996-12-26 1997-12-22 Vorrichtung und verfahren zur mustererkennung und zur adaption Expired - Lifetime DE69730705T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP34731296 1996-12-26
JP34731296A JP3702978B2 (ja) 1996-12-26 1996-12-26 認識装置および認識方法、並びに学習装置および学習方法
PCT/JP1997/004755 WO1998029864A1 (fr) 1996-12-26 1997-12-22 Appareil et procede de reconnaissance, et appareil et procede d'apprentissage

Publications (2)

Publication Number Publication Date
DE69730705D1 DE69730705D1 (de) 2004-10-21
DE69730705T2 true DE69730705T2 (de) 2005-09-29

Family

ID=18389374

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69730705T Expired - Lifetime DE69730705T2 (de) 1996-12-26 1997-12-22 Vorrichtung und verfahren zur mustererkennung und zur adaption

Country Status (7)

Country Link
US (1) US6396954B1 (de)
EP (1) EP0896319B1 (de)
JP (1) JP3702978B2 (de)
KR (1) KR100578260B1 (de)
CN (1) CN1119795C (de)
DE (1) DE69730705T2 (de)
WO (1) WO1998029864A1 (de)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6688888B1 (en) * 1996-03-19 2004-02-10 Chi Fai Ho Computer-aided learning system and method
US5944530A (en) * 1996-08-13 1999-08-31 Ho; Chi Fai Learning method and system that consider a student's concentration level
GB2330679B (en) * 1997-10-21 2002-04-24 911 Emergency Products Inc Warning signal light
JP3884160B2 (ja) * 1997-11-17 2007-02-21 富士通株式会社 用語付きデータを扱うデータ処理方法,データ処理装置およびプログラム記憶媒体
USRE38432E1 (en) * 1998-01-29 2004-02-24 Ho Chi Fai Computer-aided group-learning methods and systems
US9792659B2 (en) * 1999-04-13 2017-10-17 Iplearn, Llc Computer-aided methods and apparatus to access materials in a network environment
US6398556B1 (en) * 1998-07-06 2002-06-04 Chi Fai Ho Inexpensive computer-aided learning methods and apparatus for learners
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
EP1863014B1 (de) * 1998-10-09 2009-09-30 Sony Corporation Vorrichtungen und Verfahren zum Lernen und Anwenden eines Abstand-Transition-Modelles
DE19921488A1 (de) * 1999-05-08 2000-11-16 Bosch Gmbh Robert Verfahren und Vorrichtung zur Überwachung des Innenraums und des Umfeldes eines Fahrzeugs
US6547410B1 (en) * 2000-07-28 2003-04-15 911 Emergency Products, Inc. LED alley/take-down light
US7468677B2 (en) * 1999-08-04 2008-12-23 911Ep, Inc. End cap warning signal assembly
JP3895892B2 (ja) 1999-09-22 2007-03-22 株式会社東芝 マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体
KR100447667B1 (ko) * 2000-04-12 2004-09-08 이경목 음성 인식 기능을 갖는 컴퓨터와 학습용 인형들을 이용한 상호 대화 언어 학습 시스템
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
JP4645867B2 (ja) * 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2002062894A (ja) * 2000-08-17 2002-02-28 Daiichikosho Co Ltd 音声認識リモコン機能付きワイヤレスマイクロホン
US7439847B2 (en) 2002-08-23 2008-10-21 John C. Pederson Intelligent observation and identification database system
US8188878B2 (en) 2000-11-15 2012-05-29 Federal Law Enforcement Development Services, Inc. LED light communication system
US7171042B2 (en) * 2000-12-04 2007-01-30 Intel Corporation System and method for classification of images and videos
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP4080843B2 (ja) * 2002-10-30 2008-04-23 株式会社東芝 不揮発性半導体記憶装置
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7634063B2 (en) * 2003-01-02 2009-12-15 Technology Patents, Llc System and method for monitoring individuals
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US7377233B2 (en) * 2005-01-11 2008-05-27 Pariff Llc Method and apparatus for the automatic identification of birds by their vocalizations
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
KR100808775B1 (ko) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법
US9100124B2 (en) 2007-05-24 2015-08-04 Federal Law Enforcement Development Services, Inc. LED Light Fixture
US9258864B2 (en) 2007-05-24 2016-02-09 Federal Law Enforcement Development Services, Inc. LED light control and management system
US9455783B2 (en) 2013-05-06 2016-09-27 Federal Law Enforcement Development Services, Inc. Network security and variable pulse wave form with continuous communication
US9414458B2 (en) 2007-05-24 2016-08-09 Federal Law Enforcement Development Services, Inc. LED light control assembly and system
US9294198B2 (en) 2007-05-24 2016-03-22 Federal Law Enforcement Development Services, Inc. Pulsed light communication key
US11265082B2 (en) 2007-05-24 2022-03-01 Federal Law Enforcement Development Services, Inc. LED light control assembly and system
US20090129782A1 (en) 2007-05-24 2009-05-21 Federal Law Enforcement Development Service, Inc. Building illumination apparatus with integrated communications, security and energy management
US8077022B2 (en) * 2008-06-11 2011-12-13 Flextronics Automotive Inc. System and method for activating vehicular electromechanical systems using RF communications and voice commands received from a user positioned locally external to a vehicle
CN102124458B (zh) * 2008-07-17 2015-02-18 卢米耐克斯公司 用于配置分析系统的分类矩阵中的分类区域以及对测定的粒子进行分类的方法、存储介质和系统
US8890773B1 (en) 2009-04-01 2014-11-18 Federal Law Enforcement Development Services, Inc. Visible light transceiver glasses
WO2010126321A2 (ko) * 2009-04-30 2010-11-04 삼성전자주식회사 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법
CN102063903B (zh) * 2010-09-25 2012-07-04 中国科学院深圳先进技术研究院 言语交互训练系统及方法
EP2663969B1 (de) 2011-01-14 2020-04-15 Federal Law Enforcement Development Services, Inc. Verfahren zur bereitstellung von lumen und zur verfolgung eines lumenverbrauchs
JP5849761B2 (ja) * 2012-02-22 2016-02-03 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
US9265112B2 (en) 2013-03-13 2016-02-16 Federal Law Enforcement Development Services, Inc. LED light control and management system
JP2013164863A (ja) * 2013-04-24 2013-08-22 Sony Corp 情報処理装置、情報処理方法、およびプログラム
CN104715753B (zh) * 2013-12-12 2018-08-31 联想(北京)有限公司 一种数据处理的方法及电子设备
US20150198941A1 (en) 2014-01-15 2015-07-16 John C. Pederson Cyber Life Electronic Networking and Commerce Operating Exchange
US20170046950A1 (en) 2015-08-11 2017-02-16 Federal Law Enforcement Development Services, Inc. Function disabler device and system
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
JP7299587B2 (ja) * 2019-02-05 2023-06-28 株式会社リコー 情報処理装置、発話認識システム及び発話認識プログラム
CN111251307B (zh) * 2020-03-24 2021-11-02 北京海益同展信息科技有限公司 应用于机器人的语音采集方法和装置、一种机器人
KR102302029B1 (ko) * 2020-11-23 2021-09-15 (주)펜타유니버스 인공지능 기반 복합 입력 인지 시스템

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
JPS60181798A (ja) * 1984-02-28 1985-09-17 電子計算機基本技術研究組合 音声認識装置
JPS62151903A (ja) * 1985-12-25 1987-07-06 Nippon Denso Co Ltd 車両に搭載される電子制御装置
US4975969A (en) * 1987-10-22 1990-12-04 Peter Tal Method and apparatus for uniquely identifying individuals by particular physical characteristics and security system utilizing the same
US4965725B1 (en) * 1988-04-08 1996-05-07 Neuromedical Systems Inc Neural network based automated cytological specimen classification system and method
JPH02262199A (ja) * 1989-04-03 1990-10-24 Toshiba Corp 環境モニタ付音声認識装置
JPH03129400A (ja) * 1989-10-13 1991-06-03 Seiko Epson Corp 音声認識装置
GB9201006D0 (en) * 1992-01-17 1992-03-11 Philip Electronic And Associat Classifying faces
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
JPH06301393A (ja) 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
NO941999L (no) * 1993-06-15 1994-12-16 Ontario Hydro Automatisert intelligent overvåkingssystem
JPH0728490A (ja) 1993-06-25 1995-01-31 Canon Inc 情報処理方法及び装置
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
JPH08187368A (ja) 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
US5749072A (en) * 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
IL111039A (en) * 1994-09-22 1998-08-16 Advanced Recognition Tech Handwriting recognition system
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
US5859925A (en) * 1995-08-08 1999-01-12 Apple Computer, Inc. Classifying system having a single neural network architecture for multiple input representations
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP2907079B2 (ja) * 1995-10-16 1999-06-21 ソニー株式会社 ナビゲーション装置,ナビゲート方法及び自動車
JPH09134193A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
US5761329A (en) * 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes

Also Published As

Publication number Publication date
JPH10187186A (ja) 1998-07-14
KR100578260B1 (ko) 2006-11-07
EP0896319A4 (de) 2000-03-08
EP0896319B1 (de) 2004-09-15
CN1214141A (zh) 1999-04-14
CN1119795C (zh) 2003-08-27
US6396954B1 (en) 2002-05-28
EP0896319A1 (de) 1999-02-10
DE69730705D1 (de) 2004-10-21
KR19990087263A (ko) 1999-12-15
JP3702978B2 (ja) 2005-10-05
WO1998029864A1 (fr) 1998-07-09

Similar Documents

Publication Publication Date Title
DE69730705T2 (de) Vorrichtung und verfahren zur mustererkennung und zur adaption
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60023517T2 (de) Klassifizierung von schallquellen
DE60318990T2 (de) Lernvorrichtung, lernverfahren und robotervorrichtung
DE60115653T2 (de) Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE112014007015B4 (de) Spracherkennungssystem
DE10134908B4 (de) Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden
DE60000403T2 (de) Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung
DE69634740T2 (de) System zur Spracherkennung und Übersetzung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE112012006997B4 (de) Navigationsvorrichtung
WO2005013261A1 (de) Verfahren zur spracherkennung und kommunikationsgerät
DE102013214334A1 (de) Fahrtvideoaufzeichnungsvorrichtung und -verfahren, fahrtvideoaufzeichnungssystem und erzeugungsvorrichtung für ein zusammengefasstes bewegtbild
DE102007044578A1 (de) Vorrichtung zur Erkennung eines beobachteten Objekts und Verfahren zur Erkennung eines beobachteten Objekts
DE102014118450A1 (de) Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext
DE112013007617T5 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE60213155T2 (de) Verfahren und System zur Schallbearbeitung
DE112017008305T5 (de) Spracherkennungsvorrichtung, Spracherkennungssystem und Spracherkennungsverfahren
DE4010028A1 (de) Spracherkennungsverfahren
DE69906569T2 (de) Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
DE60037486T2 (de) Vorrichtung und Verfahren zur Mustererkennung und Bereitstellungsmedium

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)