DE60318990T2

DE60318990T2 - Lernvorrichtung, lernverfahren und robotervorrichtung

Info

Publication number: DE60318990T2
Application number: DE60318990T
Authority: DE
Inventors: Hideki Shimomura; Kazumi Aoyama; Keiichi Yamada; Yasuharu Asano; Atsushi Okubo
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-03-06
Filing date: 2003-03-05
Publication date: 2009-02-05
Anticipated expiration: 2023-03-06
Also published as: US20050004710A1; WO2003075261A1; KR20040094289A; DE60318990D1; EP1482480A1; US7720775B2; JP2003255989A; CN1241168C; JP3529049B2; EP1482480B1; CN1507617A; EP1482480A4; KR100988708B1

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf eine Lernvorrichtung und Lernverfahren sowie auf eine Robotervorrichtung, und wird beispielsweise bevorzugt bei Unterhaltungsrobotern angewandt.
Technischer Hintergrund
Eine Anzahl von Unterhaltungsrobotern für den Heimgebrauch wurde in den vergangenen Jahren für kommerzielle Zwecke entwickelt. Mit verschiedenen externen Sensoren, beispielsweise einer CCD-Kamera und einem Mikrophon installiert sind einige dieser Unterhaltungsroboter ausgebildet, äußere Umstände auf Basis von Ausgangssignalen dieser externen Sensoren zu erkennen, und sie verhalten sich autonom auf Basis der Erkennungsergebnisse.
Wenn sich diese Unterhaltungsroboter an Namen neuer Objekte (danach auch einschließlich an Menschen) in Verbindung mit diesen Objekten erinnern können, können sie mit Benutzern reibungsloser kommunizieren, und können zusätzlich in der Lage sein, flexibel auf eine Vielzahl von Befehlen in Bezug auf ein Objekt zu reagieren, welches von Objekten abweicht, deren Namen vorher registriert wurden, beispielsweise "tritt den Ball", ausgegeben durch den Benutzer. Es sei angemerkt, dass das Erinnern an den Namen eines Objekts in Verbindung mit dem gleichen Objekt wie oben beschrieben ausgedrückt wird als "den Namen zu erlernen", und danach diese Funktion als "Namenerlernfunktion" bezeichnet wird.
Wenn außerdem ein Unterhaltungsroboter den Namen eines neuen Objekts über Dialog mit einer normalen Person erlernen kann, wobei diese Namenerlernfunktion im Unterhaltungsroboter, wie es Menschen tun, bereitgestellt wird, kann dies höchst wünschenswert vom Standpunkt deren Natürlichkeit sein, und es kann erwartet werden, dass Unterhaltungseigenschaft des Unterhaltungsroboters viel mehr ansteigen kann.
Es gibt jedoch ein Problem mit herkömmlichen Verfahren, dass es schwierig ist, einem Unterhaltungsroboter beurteilen zu lassen, ob der Name eines neuen Objekts, welches sich vor ihm selbst zeigt, erlernt werden sollte.
Aus diesem Grund gibt bei den herkömmlichen Verfahren ein Benutzer einen deutlichen Sprachbefehl aus oder betätigt einen bestimmten Berührungssensor, um einen Betriebsmodus auf einen Registrierungsmodus zu ändern, um zuzulassen, dass ein Objekt erkannt wird und dass dessen Name registriert wird. Wenn die natürliche Interaktion zwischen dem Benutzer und dem Unterhaltungsroboter in betracht gezogen wird, besteht jedoch ein Problem dahingehend, dass die Registrierung eines Namens als Antwort auf diese klare Anzeige ziemlich unnatürlich ist.
Dagegen ist eine Personenbeglaubigung auf Basis einer Fusion von Audio- und Videoinformation bekannt aus "Fusion of audio and video 2 information for multi modal Person authentication" Fei Huang et al., Konferenz gesprochener Sprachverarbeitung, 16. 10.00, Peking, China.
Beschreibung der Erfindung
Die Erfindung wurde in Abwägung der obigen Punkte getätigt, und beabsichtigt, eine Lernvorrichtung und Lernverfahren sowie eine Robotervorrichtung vorzuschlagen, welche die Unterhaltungseigenschaft wesentlich verbessern können.
Um die obigen Probleme zu lösen, umfasst bei der vorliegenden Erfindung, wie beansprucht, die Lernvorrichtung eine Dialogeinrichtung zum Erlangen eines Namens eines Ziel-Objekts über Dialog; mehrere Erkennungseinrichtungen zum Erfassen mehrerer Kenndaten des Ziel-Objekts und zum Erkennen des Ziel-Objekts auf Basis des Erfassungsergebnisses und entsprechender Kenndaten eines bekannten Objekts; eine Speichereinrichtung zum Speichern verknüpfter Information in Bezug auf Erkennungsergebnisse der mehreren Erkennungseinrichtungen zu einem Namen des bekannten Objekts; eine Beurteilungseinrichtung zum Beurteilen auf Basis des Namens des Ziel-Objekts, der durch die Dialogeinrichtung erlangt wird, von Erkennungsergebnissen der mehreren Erkennungseinrichtungen für das Ziel-Objekt, und der verknüpften Information, welche in der Speichereinrichtung gespeichert ist, ob oder nicht das Ziel-Objekt ein neues Objekt ist; und eine Steuereinrichtung zum Speichern der mehreren Kenndaten bezüglich des Ziel-Objekts wie durch die Erkennungseinrichtung erfasst und zum Speichern verknüpfter Information bezüglich des Ziel-Objekts in der Speichereinrichtung, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt ein neues Objekt ist.
Als Ergebnis kann diese Lernvorrichtung die Namen neuer Personen, Objekte usw. natürlich und über Dialog mit üblichen Leuten, wie mit Menschen es üblicherweise tun, erlernen, ohne eine Namenregistrierung als Antwort auf klare Anzeigen von Benutzern zu benötigen, beispielsweise vorgegebenen Tonbefehlen oder durch Betätigen eines Berührungssensors.
Gemäß der vorliegenden Erfindung umfasst das Lernverfahren einen Dialogschritt zum Erlangen eines Namens eines Ziel-Objekts über Dialog; mehrere Erkennungsschritte zum Erfassen mehrerer Kenndaten des Ziel-Objekts und zum Erkennen des Ziel-Objekts auf Basis des Erfassungsergebnisses und entsprechender Kenndaten eines bekannten Objekts; einen Speicherschritt zum Speichern verknüpfter Information bezüglich Erkennungsergebnissen der mehreren Erkennungsschritte zu einem Namen des bekannten Objekts; einen Beurteilungsschritt zum Beurteilen auf Basis des Namens des Ziel-Objekts, der durch die Dialogeinrichtung erlangt wird, von Erkennungsergebnissen der mehreren Erkennungsschritte über das Ziel-Objekt, und der verknüpften Information, welche in der Speichereinrichtung gespeichert ist, ob das Ziel-Objekt ein neues Objekt ist oder nicht; und einen Steuerschritt zum Speichern der mehreren Kenndaten bezüglich des Ziel-Objekts wie durch die Erkennungsschritte erfasst und zum Speichern verknüpfter Information bezüglich des Ziel-Objekts in der Speichereinrichtung, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt ein neues Objekt ist.
Als Ergebnis ist es gemäß diesem Lernverfahren möglich, die Namen neuer Personen, Objekte usw. zu erlernen, und zwar natürlich und über Dialog mit üblichen Leuten, beispielsweise, wie es Menschen üblicherweise tun, ohne die Notwendigkeit einer Namenregistrierung als Antwort aufklare Anzeichen von Benutzern beispielsweise vorgegebenen Tonbefehlen oder durch Betätigen eines Drucksensors.
Außerdem weist bei der vorliegenden Erfindung eine Robotervorrichtung auf: eine Dialogeinrichtung zum Erlangen eines Namens eines Ziel-Objekts über Dialog; mehrere Erkennungseinrichtungen zum Erfassen mehrerer Kenndaten des Ziel-Objekts und zum Erkennen des Ziel-Objekts auf Basis des Erfassungsergebnisses und entsprechender Kenndaten eines bekannten Objekts; eine Speichereinrichtung zum Speichern verknüpfter Information in Bezug auf Erkennungsergebnisse der mehreren Erkennungseinrichtungen zu einem Namen des bekannten Objekts; eine Beurteilungseinrichtung zum Beurteilen auf Basis des Namens des Ziel-Objekts, der durch die Dialogeinrichtung erlangt wird, von Erkennungsergebnissen der mehreren Erkennungseinrichtungen für das Ziel-Objekt, und der verknüpften Information, welche in der Speichereinrichtung gespeichert ist, ob oder nicht das Ziel-Objekt ein neues Objekt ist; und eine Steuereinrichtung zum Speichern der mehreren Kenndaten bezüglich des Ziel-Objekts wie durch die Erkennungseinrichtung erfasst und zum Speichern verknüpfter Information bezüglich des Ziel-Objekts in der Speichereinrichtung, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt ein neues Objekt ist.
Als Ergebnis kann diese Robotervorrichtung die Namen neuer Personen, Objekte usw. natürlich und über Dialog mit üblichen Leuten, wie es Menschen üblicherweise tun, erlernen, ohne die Notwendigkeit einer Namenregistrierung als Antwort auf klare Anzeichen von Benutzern, beispielsweise vorgegebenen Tonbefehlen, oder durch Betätigen eines Berührungssensors.
Kurzbeschreibung der Zeichnungen
1 ist ein perspektivisches Diagramm, welches den äußeren Aufbau eines Roboters bei dieser Ausführungsform zeigt;
2 ist ein perspektivisches Diagramm, welches den äußeren Aufbau eines Roboters bei dieser Ausführungsform zeigt;
3 ist ein schematisches Diagramm, welches verwendet ist, um den äußeren Aufbau eines Roboters bei dieser Ausführungsform zu erläutern;
4 ist ein schematisches Diagramm, welches zur Erläuterung des Innenaufbaus eines Roboters bei dieser Ausführungsform verwendet wird;
5 ist ein schematisches Diagramm, welches zum Erläutern des Innenaufbaus eines Roboters bei dieser Ausführungsform verwendet wird;
6 ist ein Blockdiagramm, welches zur Erläuterung der Verarbeitung des Hauptsteuerabschnitts 40 in Bezug die Namenerlernfunktion verwendet wird;
7 ist ein Konzeptdiagramm, welches zur Erläuterung einer Verknüpfung des FID und SID mit Namen im Speicher verwendet wird;
8 ist ein Flussdiagramm, welches eine Namenerlernverarbeitungsroutine zeigt;
9 ist ein Flussdiagramm, welches eine Namenerlernverarbeitungsroutine zeigt;
10 ist ein schematisches Diagramm, welches ein Beispiel eines Dialogs bei der Namenerlernverarbeitung zeigt;
11 ist ein schematisches Diagramm, welches ein Beispiel eines Dialogs bei der Namenerlernverarbeitung zeigt;
12 ist ein Konzeptdiagramm, welches bei der Erläuterung neuer Registrierung von FID und SID sowie des Namens verwendet wird;
13 ist ein schematisches Diagramm, welches ein Beispiel eines Dialogs beim Namenerlernen zeigt;
14 ist ein schematisches Diagramm, welches ein Beispiel des Dialogs bei der Namenlernverarbeitung zeigt;
15 ist ein Blockdiagramm, welches den Aufbau eines Tonerkennungsabschnitts zeigt;
16 ist ein Blockdiagramm, welches bei der Erläuterung eines Wörterbuchs verwendet wird;
17 ist Konzeptdiagramm, welches bei der Erläuterung von grammatikalischen Regeln verwendet wird;
18 ist ein Konzeptdiagramm, welches bei der Erläuterung von Inhalten verwendet wird, welche im Kenndaten-Vektor-Puffer gespeichert sind;
19 ist ein Konzeptdiagramm, welches bei der Erläuterung eines Trefferbogens verwendet wird;
20 ist ein Flussdiagramm, welches eine Tonerkennungs-Verarbeitungsroutine zeigt;
21 ist ein Flussdiagramm, welches eine Nichtregistrierungs-Wortverarbeitungsroutine zeigt;
22 ist ein Flussdiagramm, welches eine Gruppen-Aufspalt-Verarbeitungsroutine zeigt;
23 ist ein Konzeptdiagramm, welches Simulationsergebnisse zeigt;
24 ist ein Blockdiagramm, welches den Aufbau eines Gesichtserkennungsabschnitts beim Erlernen zeigt; und
25 ist ein Blockdiagramm, welches den Aufbau eines Gesichterkennungsabschnitts bei Erkennung zeigt.
Bevorzugtes Ausführungsbeispiel der Erfindung
Eine ausführliche Beschreibung wird hinsichtlich eines Modus zum Ausführen der Erfindung anschließend unter Bezug auf die Zeichnungen angegeben.
(1) Aufbau eines Roboters bei diesem Ausführungsmodus
In 1 und 2 zeigt das Bezugszeichen 1 einen gesamten zweibeinigen laufenden Roboter bei dieser Ausführungsform, wobei eine Kopfeinheit 3 auf einer Körpereinheit 2 angeordnet ist, und Armeinheiten 4a und 4b dieser gleichen Konstruktion an der oberen linken und rechten Seite der Körpereinheit 2 entsprechend angeordnet sind, sowie Fußeinheiten 5a, 5b der gleichen Konstruktion an einer Stelle der unteren linken und rechten Seite der Körpereinheit 2 entsprechend angebracht sind.
Die Körpereinheit 2 besteht aus einem Rahmen 10, der den oberen Körper bildet, und einer Taillenbasis 11, welche auf dem unteren Körper gebildet ist, wobei beide über einen Taillenverbindungsmechanismus 12 verbunden sind, und ist ausgebildet, dass der obere Körper unabhängig rund um jede Rollachse 13 und eine Neigungsachse 14 orthogonal zueinander gedreht werden kann, wie in 3 gezeigt ist, wobei jedes Betätigungsglied A₁, A₂ des Taillenverbindungsmechanismus 12, welches auf der Taillenbasis 11 des unteren Körpers fixiert ist, angesteuert wird.
Außerdem ist die Köpfeinheit 3 auf dem mittleren oberen Teil einer Schulterbasis 15 fixiert, welche auf dem oberen Ende des Rahmens 10 über einen Halsverbindungsmechanismus 16 fixiert ist, und ist ausgebildet, in der Lage zu sein, unabhängig rund um eine Neigungsachse 17 und eine Gierachse 18 gedreht zu werden, orthogonal zueinander, wie in 3 gezeigt ist, wobei jedes Betätigungsglied A₃, A₄ des Halsverbindungsmechanismus 16 angetrieben wird.
Außerdem sind die Armeinheiten 4A, 4B auf der linken und rechten Seite der Schulterbasis 15 entsprechend über einen Schulterverbindungsmechanismus 19 fixiert, und sind ausgebildet, in der Lage zu sein, unabhängig um eine Neigungsachse 20 und eine Rollachse 21 zu drehen, orthogonal zueinander, wie in 3 gezeigt ist, wobei jedes der Betätigungsglieder A5, A6 des entsprechenden Schulterverbindungsmechanismus 19 angetrieben wird.
In diesem Fall ist, wie jede der Armeinheiten 4A, 4B, die Ausgangsachse eines Betätigungsglieds A₇, welche einen oberen Arm bildet, mit einem Betätigungsglied A₈ verknüpft, welches einen Vorderarm bildet, über einen Ellbogenverbindungsmechanismus 22, und eine Handeinheit 23 ist am vorderen Ende des Vorderarms angebracht.
Wie die Armeinheit 4A, 4B ist dieser so ausgebildet, dass der Vorderarm rundum die Gierachse 24 drehen kann, wie in 3 gezeigt ist, wobei das Betätigungsorgan A₇ angetrieben wird, und rundum eine Neigungsachse 25, welche in 3 gezeigt ist, wobei das Betätigungsorgan A₈ angetrieben wird.
Dagegen ist jede Fußeinheit 5A, 5B an der Taillenbasis 11 des unteren Körpers über einen Hüftenverbindungsmechanismus 26 angebracht, und ist so ausgebildet, dass jede Fußeinheit 5A, 5B unabhängig um die Gierachse 27, die Rollachse 28 und eine Neigungsachse 29 drehen kann, die in 3 gezeigt sind, und zwar orthogonal zueinander, wobei jedes Betätigungsorgan A₉ bis A₁₁ des entsprechenden Hüftenverbindungsmechanismus 26 angetrieben wird.
In diesem Fall ist der Aufbau so ausgebildet, dass wie bei jeder Fußeinheit 5A, 5B ein Rahmen 32, welcher den unteren Fuß bildet, mit dem unteren Ende des Rahmens 30 verknüpft ist, der den Schenkelknochen über einen Knieverbindungsmechanismus 31 bildet, und eine Fußeinheit 34 mit dem unteren Ende des Rahmens 32 über einen Knöchelverbindungsmechanismus 33 verbunden ist.
Daher ist wie bei der Beineinheit 5A, 5B dieser so ausgebildet, dass das untere Bein rundum eine Neigungsachse 35 drehen kann, wie in 3 gezeigt ist, wobei ein Betätigungsorgan A₁₂, welches den Knieverbindungsmechanismus 31 bildet, angetrieben wird, und dass die Fußeinheit 34 unabhängig rundum eine Neigungsachse 36 und eine Rollachse 37, die in 3 gezeigt sind, drehen kann, orthogonal zueinander, indem die Betätigungsorgane A₁₃–A₁₄ des Knöchelverbindungsmechanismus 33 angetrieben werden.
Auf der anderen Seite ist, wie in 4 gezeigt ist, auf der Rückseite der Taillenbasis 11, welche den unteren Körper der Körpereinheit 2 bildet, eine Box einer Steuereinheit 42, welche eine Hauptsteuereinheit 40 beherbergt, um den Gesamtbetrieb des gesamten Roboters 1 zu steuern, eine periphere Schaltungseinheit 41, einschließlich der Leistungsschaltungen und Kommunikationsschaltungen, eine Batterie 45 (5) usw. angeordnet.
Diese Steuereinheit 42 ist mit Hilfssteuereinheiten 43A–43D verbunden, welche innerhalb jeder bestandteils-bildenden Einheit angeordnet sind (der Körpereinheit 2, der Kopfeinheit 3, der Armeinheit 4A, 4B und der Fußeinheit 5A, 5B), und ausgebildet ist, in der Lage zu sein, einen Betrieb auszuführen, beispielsweise notwendige Spannungen zu diesen Hilfssteuereinheiten 43A–43D zu liefern und mit diesen Hilfssteuereinheiten 43A–43D zu kommunizieren.
Verbunden mit jedem Betätigungsorgan A₁–A₁₄ der entsprechenden bestandteils-bildenden Einheit ist jede Hilfssteuereinheit 43A–43D so ausgebildet, in der Lage zu sein, jedes Betätigungsorgan A₁–A₁₄ der entsprechenden bestandteilsbildenden Einheit in einer Weise anzusteuern, welche spezifiziert ist, über verschiedene Befehle, welche von der Hauptsteuereinheit 40 abgegeben werden, anzusteuern.
Außerdem sind, wie in 5 gezeigt ist, an vorgegebenen Positionen auf der Kopfeinheit 3 Komponenten angeordnet, beispielsweise eine externe Sensoreinheit 53, welche aus einer CCD-Kamera 50 besteht, die als "Augen" funktioniert, und ein Mikrofon 51 als "Ohren" des Roboters 1, und ein Berührungssensor 52 und ein Lautsprecher 53 als "Mund", und innerhalb der Steuereinheit 42 ist eine Innensensoreinheit 57 angeordnet, welche aus einem Batteriesensor 55 und einem Beschleunigungssensor 56 besteht.
Die CCD-Kamera 50 der externen Sensoreinheit 53 fängt die umgebende Landschaft ein, und ein eingefangenes Videosignal S1A wird zur Hauptsteuereinheit geliefert, während das Mikrofon 51 die Benutzerstimme aufnimmt, welche für verschiedene Befehle bezeichnend ist, beispielsweise "Laufen", "lege dich nieder", und "jage den Ball", zugeführt als Audiosignale und sendet ein Audiosignal S1B, welches erlangt wird, zur Hauptsteuereinheit 40.
Außerdem ist der Berührungssensor 52 auf dem Kopf der Kopfeinheit 53 angeordnet, wie aus 1 und 2 ersichtlich ist, und ermittelt empfangene Drücke, welche als Ergebnis des körperlichen Einflusses erzeugt werden, beispielsweise "Schlag", und "Streicheln", ausgeführt durch den Benutzer, und das Ermittlungsergebnis wird zur Hauptsteuereinheit 40 als Druckermittlungssignal SIC geliefert.
Außerdem ermittelt der Batteriesensor 55 in der internen Sensoreinheit 57 den Energiepegel der Batterie 45 in vorher festgelegten Intervallen, und das Ermittlungsergebnis wird zur Hauptsteuereinheit 40 als Batteriepegel-Ermittlungssignal S2A geliefert, während der Beschleunigungssensor 56 die Beschleunigung in der Richtung der drei Achsen (x-Achse, y-Achse und z-Achse) in vorgegebenen Intervallen ermittelt, und das Ermittlungsergebnis zur Hauptsteuereinheit 40 als Beschleunigungsermittlungssignal S2B geliefert wird.
Die Hauptsteuereinheit 40 beurteilt die Umgebungs- und Internsituationen des Roboters 1, Befehle vom Benutzer, die Existenz eines Einflusses vom Benutzer, usw., auf Basis des Videosignals S1A, des Audiosignals S1B, des Druckermittlungssignals S1C, usw., (diese werden zusammengelegt und als "externes Sensorsignal S1" anschließend bezeichnet), welche entsprechend von der CCD-Kamera 50, dem Mikrofon 51, dem Berührungssensor 52 usw. der externen Sensoreinheit 53 geliefert werden, des Batteriepegel-Ermittlungssignals S2A, des Beschleunigungsermittlungssignals S2B, usw. (diese werden zusammengelegt und als "interne Sensorsignal S2" anschließend bezeichnet), die jeweils entsprechend von dem Batteriesensor 55, dem Beschleunigungssensor usw. der internen Sensoreinheit 57 zugeführt werden.
Danach bestimmt die Hauptsteuereinheit 40 als nachfolgende Aktion auf Basis der Beurteilungsergebnisse ein Steuerprogramm, welches vorher in einem internen Speicher 40A gespeichert ist, und verschiedene Steuerparameter, welche in einem externen Speicher 58 gespeichert sind, die installiert sind, und sendet die Steuerbefehle auf Basis der bestimmten Ergebnisse zu den relevanten Hilfssteuereinheiten 43A–43D. Als Ergebnis werden die entsprechenden Betätigungsorgane A₁–A₁₄ in Bewegung versetzt, auf Basis der Steuerbefehle und unter der Steuerung der Hilfssteuereinheiten 43A–43D, um somit zu veranlassen, dass der Roboter 1 in Aktion tritt, beispielsweise die Kopfeinheit 3 nach oben und nach unten, links nach rechts, die Armeinheiten 4A, 4B zu bewegen, und zu laufen.
In diesem Zusammenhang liefert die Hauptsteuereinheit 40 außerdem ein vorgegebenes Audiosignal S3 zum Lautsprecher 54, wenn erforderlich, um Töne auf Basis des Audiosignals S3 auszugeben, oder liefert ein Ansteuersignal zu LEDs, die als "Augen" beim Erscheinen funktionieren, welche an den vorher festgelegten Positionen in der Kopfeinheit 3 angeordnet sind, um zu bewirken, dass die LEDs aufblitzen.
Damit ist der Roboter 1 so ausgebildet, um in der Lage zu sein, auf Basis der umgebenden und internen Situationen, Befehle, und der Existenz des Einflusses vom Benutzer sich autonom zu verhalten.
(2) Verarbeitung der Hauptsteuereinheit 40 in Bezug auf die Namen-Erlernungsfunktion
Anschließend wird eine Erläuterung hinsichtlich der Namen-Erlernungsfunktion, die im Roboter 1 installiert ist, angegeben.
Dieser Roboter 1 ist mit einer Namenerlernungsfunktion ausgestattet, um den Namen einer Person in Verbindung mit einer Person zu erlangen und zu erlernen (dieser Prozess wird anschließend als "Namenerlernung" bezeichnet) in einer Weise, dass dieser den Namen einer Person über Dialog mit dieser Person erlangt und diesen Namen in Verbindung mit den Daten jeder der akustischen Kenndaten der Sprache und der morphologischen Kenndaten der Person, die ermittelt wurden, auf Basis der Ausgangssignale vom Mikrofon 51 und der CCD-Kamera 50 erlangt, und dann eine neue Person findet, deren Name noch nicht erlangt wurde, auf Basis der gespeicherten Daten, und den Namen, die akustischen Kenndaten der Sprache und morphologischen Kenndaten der neuen Person in der gleichen Weise wie oben erlangt und speichert. Es sollte angemerkt sein, dass danach eine Person, deren Name in Verbindung mit den akustischen Kenndaten der Sprache der morphologischen Kenndaten dieser Person gespeichert ist, als "bekannte Person", und eine Person, deren Name noch nicht als "neue Person" gespeichert ist, bezeichnet wird.
Die Namenerlernfunktion wird durch eine Vielzahl von Prozessen in der Hauptsteuereinheit 40 realisiert.
Die Verarbeitungsinhalte der Hauptsteuereinheit 40 in Bezug auf diese Namenerlernfunktion kann hier funktionell wie folgt unterteilt werden, wie in 6 gezeigt ist: einen Tonerkennungsabschnitt 60 zum Erkennen von Wörtern, die durch eine Person ausgesprochen werden; einen Lautsprechererkennungsabschnitt 61 zum Ermitteln akustischer Kenndaten der Sprache einer Person und zum Identifizieren und Erkennen der Person auf Basis der ermittelten akustischen Kenndaten; einen Gesichtserkennungsabschnitt 62 zum Ermitteln der morphologischen Kenndaten des Gesichts einer Person und zum Identifizieren und Erkennen dieser Person auf Basis der ermittelten morphologischen Kenndaten; einen Dialogsteuerabschnitt 63 verantwortlich für verschiedene Steuerungen für das Namenlernen einer neuen Person einschließlich des Steuerns des Dialogs mit einer Person und zur Speicherverwaltung des Namens, der akustischen Kenndaten der Sprache und der morphologischen Kenndaten des Gesichts einer bekannten Person; und einen Audio-Synthesizer 64 zum Erzeugen und Senden – zum Lautsprecher 54 (5) – eines Audiosignals S3 für eine Vielzahl von Dialogen unter der Steuerung des Dialogsteuerabschnitts 63.
In diesem Fall hat der Tonerkennungsabschnitt 60 eine Funktion, Wörter, welche im Audiosignal S1B enthalten sind, Wort für Wort zu erkennen, wobei ein vorgegebener Tonerkennungsprozess durchgeführt wird, auf Basis des Audiosignals S1B vom Mikrofon 51 (5), und er ist so ausgebildet, dass die erkannten Wörter zum Dialogsteuerabschnitt 63 als Persönlichkeits-Zeichenfolgedaten D1 gesendet werden.
Der Lautsprechererkennungsabschnitt 61 hat außerdem eine Funktion, die akustischen Kenndaten der Stimme einer Person vom Audiosignal S1B zu ermitteln, welches vom Mikrophon 51 geliefert wird, über vorgegebene Signalverarbeitung unter Nutzung dieses Verfahrens wie beispielsweise beschrieben in: "Segregation of Speakers for Recognition and Speaker Identification (CH2977-7/91/0000-0873 S1.00 991 IEEE").
In normalen Zeiten vergleicht der Lautsprechererkennungsabschnitt 61 die Daten der ermittelten akustischen Kenndaten sequentiell mit den Daten der akustischen Kenndaten aller gespeicherten bekannten Personen, und, wenn die akustischen Kenndaten, die in diesem Zeitpunkt ermittelt werden, mit denen einer bekannten Person übereinstimmen, teilt der Lautsprechererkennungsabschnitt 61 dies dem Dialogsteuerabschnitt 63 eines spezifischen Identifizierers mit (dieser wird anschließend als "SID" bezeichnet), der mit dem akustischen Kenndaten in Verbindung mit den akustischen Kenndaten dieser bekannten Person verknüpft ist, während, wenn die ermittelten akustischen Kenndaten nicht mit den akustischen Kenndaten einer bekannten Person übereinstimmen, wird SID (= –1), was zeigt, dass die Erkennung unmöglich ist, zum Dialogsteuerabschnitt 63 geliefert.
Wenn weiter der Dialogsteuerabschnitt 63 beurteilt, dass diese Person eine neue Person ist, ermittelt der Lautsprechererkennungsabschnitt 61 die akustischen Kenndaten der Sprache dieser Person während einer Zeitperiode auf Basis des Startbefehls und des Endbefehls zum neuen Erlernen, der vom Dialogsteuerabschnitt 63 geliefert wird, und die Daten der ermittelten akustischen Kenndaten werden in Verbindung mit einem neuen spezifischen SID gespeichert, und dieser SID wird zum Dialogsteuerabschnitt 63 geliefert.
Es sollte angemerkt sein, dass der Lautsprechererkennungsabschnitt 61 ausgebildet ist, in der Lage zu sein, zusätzliches Erlernen durchzuführen, d. h. zusätzliches Erfassen der Daten der akustischen Kenndaten der Stimme dieser Person, sowie Korrekturerlernen, nämlich das Korrigieren der Daten der akustischen Kenndaten der Stimme dieser Person als Antwort auf Start- und Endbefehle, welche vom Dialogsteuerabschnitt 63 abgegeben werden, zum zusätzlichen Erlernen oder Korrekturerlernen, so dass diese Person korrekt erkannt werden kann.
Der Gesichtserkennungsabschnitt 62 hat eine Funktion, immer das Videosignal S1A, welches durch die CCD-Kamera 50 (5) geliefert wird, zu beobachten und um die morphologischen Kenndaten des Gesichts einer Person zu ermitteln, welches im Bild enthalten ist, auf Basis des Videosignals S1A, mit vorgeschriebener Signalverarbeitung.
In normalen Zeiten vergleicht dann der Gesichtserkennungsabschnitt 62 die Daten der ermittelten morphologischen Kenndaten sequentiell mit den Daten der morphologischen Kenndaten der Gesichter aller gespeicherten bekannten Personen, und, wenn die morphologischen Kenndaten, welche in diesem Zeitpunkt ermittelt werden, mit denjenigen irgendeiner bekannten Person übereinstimmen, teilt der Gesichterkennungsabschnitt 62 dem Dialogsteuerabschnitt 63 einen spezifischen Identifizierer mit (dieser wird anschließend als "FID" bezeichnet), der an die morphologischen Kenndaten angehängt ist, in Verbindung mit den morphologischen Kenndaten dieser bekannten Person, während, wenn die ermittelten morphologischen Kenndaten nicht mit den morphologischen Kenndaten des Gesichts einer bekannten Person übereinstimmen, wird FID (= –1), welches bezeichnet, dass die Erkennung unmöglich ist, an den Dialogsteuerabschnitt 63 weitergeleitet.
Wenn darüber hinaus der Dialogsteuerabschnitt 63 beurteilt, dass die Person eine neue Person ist, ermittelt der Gesichterkennungsabschnitt 62 die morphologischen Kenndaten des Gesichts dieser Person, welches im Bild enthalten ist, auf Basis des Videosignals S1A, welches von der CCD-Kamera 50 zugeführt wird, während einer Zeitperiode auf Basis eines Erlernstartbefehls und einer Erlernendbefehls, welche vom Dialogsteuerabschnitt 63 zugeführt werden, und die Daten der ermittelten morphologischen Kenndaten werden in Verbindung mit einem neuen spezifischen FID gespeichert, und dieser FID wird zum Dialogsteuerabschnitt 63 weiter geleitet.
Es sollte angemerkt sein, dass der Gesichterkennungsabschnitt 62 ausgebildet ist, in der Lage zu sein, zusätzliches Erlernen durchzuführen, nämlich zusätzliches Erfassen der Daten der morphologischen Kenndaten des Gesichts dieser Person, sowie Korrekturerlernen, nämlich das Korrigieren der Daten der morphologischen Kenndaten des Gesichts dieser Person als Antwort auf Start- und Endbefehle, welche vom Dialogsteuerabschnitt 63 zugeführt werden, zum zusätzlichen Erlernen oder zum Korrekturerlernen, so dass diese Person korrekt erkannt werden kann.
Der Audiosynthesizer 64 hat eine Funktion, die Persönlichkeits-Zeichenfolgedaten D2, welches vom Dialogsteuerabschnitt 63 zugeführt werden, in ein Audiosignal S3 umzusetzen, und das somit erlangte Audiosignal S3 wird zum Lautsprecher 54 geliefert (5). Daher ist er so ausgebildet, dass Ton auf Basis des Audiosignals S3 vom Lautsprecher 54 ausgegeben werden kann.
Wie in 7 gezeigt ist, hat der Dialogsteuerabschnitt 63 einen Speicher 65 (6), um den Namen einer bekannten Person zu speichern, und den SID in Verbindung mit den Daten der akustischen Kenndaten der Sprache dieser Person, welche im Lautsprechererkennungsabschnitt 61 gespeichert sind, in Bezug auf den FID in Verbindung mit den Daten der morphologischen Kenndaten des Gesichts dieser Person, welche im Gesichtserkennungsabschnitt 62 gespeichert sind.
Dann ist dieser ausgebildet, so dass der Dialogsteuerabschnitt 63 vorgegebene Persönlichkeits-Zeichenfolgedaten D2 zum Audiosynthesizer 64 mit einem geeigneten Zeitablauf abgibt, um Ton vom Lautsprecher 64 auszugeben, um somit nach einem Namen eines Gesprächspartners zu fragen oder diesen Namen zu bestätigen, und dass er beurteilt, ob oder nicht diese Person eine neue Person ist, auf Basis jedes Erkennungsergebnisses, welches durch den Tonerkennungsabschnitt 60 und den Lautsprechererkennungsabschnitt 61 auf Basis der Antwort erzeugt wird, beispielsweise von dieser Person in diesem Zeitpunkt, und des Erkennungsergebnisses dieser Person, welches durch den Gesichtserkennungsabschnitt 62 erzeugt wird, und der Namen der oben erwähnten bekannten Personen und der damit verknüpften Information des SID und des FID, welche im Speicher 65 gespeichert sind.
Wenn nachfolgend beurteilt wird, dass diese Person eine neue Person ist, veranlasst der Dialogsteuerabschnitt 63, dass der Lautsprechererkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 die Daten der akustischen Kenndaten der Sprache und die morphologischen Kenndaten des Gesichts dieser neuen Person erfasst und speichert, wobei ein Startbefehl und ein Endbefehl für neues Erlernen an den Lautsprechererkennungsabschnitt 61 und den Gesichtserkennungsabschnitt 62 abgegeben wird, mit dem Ergebnis, dass der SID und FID in Verbindung mit den Daten der akustischen Kenndaten der Sprache und der morphologischen Kenndaten des Gesichts dieser neuen Person, welche entsprechend vom Lautsprechererkennungsabschnitt 61 und dem Gesichtserkennungsabschnitt 62 abgegeben werden, im Speicher 65 in Bezug auf den Namen dieser Person gespeichert werden, welche vom Dialog erlangt werden.
Wenn weiter diese Person als eine bekannte Person beurteilt wird, veranlasst der Dialogsteuerabschnitt 63, dass der Lautsprechererkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 zusätzliches Erlernen und Korrekturerlernen durchführen, wobei ein Startbefehl für zusätzliches Erlernen und für Korrekturerlernen wenn erforderlich abgegeben wird, während er so ausgebildet ist, dass der Dialogsteuerabschnitt 63 Dialogsteuerung durchführt, so dass sich die Plauderei mit dieser Person in die Länge zieht, bis der Lautsprechererkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 eine passende Datenmenge erfassen können, die für das Zusatzerlernen und Korrekturerlernen notwendig ist, wobei eine vorgegebene Persönlichkeits-Zeichenfolge D2 sequentiell mit einem geeigneten zeitlichen Ablauf zum Audiosynthesizer 64 geliefert wird.
(3) Konkrete Verarbeitung des Dialogsteuerabschnitts 63 in Bezug auf die Namenerlernungsfunktion
Anschließend wird eine Erläuterung für konkrete Inhalte angegeben, welche durch den Dialogsteuerabschnitt 63 verarbeitet werden, in Bezug auf die Namenerlernungsfunktion.
Der Dialogsteuerabschnitt 63 führt verschiedene Verarbeitungen durch, um die Namen neuer Personen, um gemäß der Namenerlernungs-Verarbeitungsroutine RT1, welche in 8 und 9 beschrieben ist, auf Basis eines Steuerprogramms, welches im externen Speicher 58 gespeichert ist (5), zu erlernen.
Das heißt, wenn der FID vom Gesichtserkennungsabschnitt 62 abgegeben wird, beginnt, da der Gesichtserkennungsabschnitt 62 das Gesicht einer Person auf Basis eines Videosignals S1A erkennt, welches von der CCD-Kamera 50 herkommt, der Dialogsteuerabschnitt 63 die Namenerlernungs-Verarbeitungsroutine RT1 im SP0, und beurteilt im folgenden Schritt SP1, ob oder nicht es möglich ist, nach dem Namen entsprechend dem FID zu suchen (d. h., es wird beurteilt, ob oder nicht der FID "–1" ist, was bedeutet, dass Erkennung unmöglich ist), auf Basis der Information, welche im Speicher 65 gespeichert ist, in Bezug auf die Namen der bekannten Personen mit dem entsprechenden SID und FID (dies wird anschließend als "Umgangsinformation" bezeichnet).
Das Erlangen eines bejahenden Ergebnisses in diesem Schritt SP1 bedeutet, dass diese Person eine bekannte Person ist, und mit den Daten der morphologischen Kenndaten des Gesichts dieser Person, welche im Gesichtserkennungsabschnitt 62 und mit dem FID entsprechend den Daten gespeichert sind, welche im Speicher 65 gespeichert sind, in Bezug auf den Namen dieser Person. Auch in diesem Fall jedoch könnte man sich denken, dass der Gesichtserkennungsabschnitt 62 eine neue Person als eine bekannte Person fehlerhaft erkennt.
Wenn dann ein bejahendes Ergebnis im Schritt SP1 erlangt wird, läuft die Verarbeitung weiter zum Schritt SP2, wo der Dialogsteuerabschnitt 63 die vorgegebenen Persönlichkeits-Zeichenfolgedaten D2 zum Audiosynthesizer 64 liefert, wodurch veranlasst wird, dass der Lautsprecher 54 einen Ton für Fragen ausgibt, beispielsweise "du bist oo-san, nicht wahr ?", wie in 10 gezeigt ist, um bestätigen, ob oder nicht der Name dieser Person mit dem Namen (entsprechend oo-san im obigen Beispiel) übereinstimmt, der unter Verwendung der FIDs ermittelt wird.
Anschließend geht die Verarbeitung weiter zum Schritt SP3, wo der Dialogsteuerabschnitt 63 auf das Tonerkennungsergebnis der Antwort dieser Person auf die Fragen wartet, beispielsweise "Ja, ich bin", oder "Nein, ich bin nicht", von denen erwartet wird, vom Tonerkennungsabschnitt 60 herzukommen. Wenn dann dieses Tonerkennungsergebnis vom Tonerkennungsabschnitt 60 abgegeben wird, oder der SID eines Lautsprechererkennungsergebnisses in diesem Zeitpunkt vom Lautsprechererkennungsabschnitt 61 abgegeben wird, geht die Verarbeitung weiter zum Schritt SP4, wo der Dialogsteuerabschnitt 63 auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 63 beurteilt, ob oder nicht die Antwort dieser Person bejahend ist.
Das Erlangen eines bejahenden Ergebnisses im Schritt SP4 bedeutet, dass der Name, der abgerufen wird, auf Basis des FID, der vom Gesichtserkennungsabschnitt 62 im Schritt SP1 abgegeben wird, mit dem Namen dieser Person übereinstimmt, und dass nun gefolgert wird, dass diese Person die reale Person, die in Frage steht, ist, welche den gleichen Namen hat, den der Dialogsteuerabschnitt 63 abgerufen hat.
Somit folgert der Dialogsteuerabschnitt 63 in diesem Moment, dass diese Person die in Frage stehende Person ist, welche den Namen hat, den der Dialogsteuerabschnitt 63 abgerufen hat, und der Prozess geht weiter zum Schritt SP5, wo ein Startbefehl für zusätzliches Erlernen an den Lautsprechererkennungsabschnitt 61 abgegeben wird. In diesem Zeitpunkt gibt, wenn der SID, der zunächst vom Lautsprechererkennungsabschnitt 61 abgegeben wird, mit dem abrufbaren SID übereinstimmt, der verwendet wird, dass der Name auf Basis der verknüpften Information im Speicher 65 gespeichert ist, der Dialogstartabschnitt 63 einen Befehl zum zusätzlichen Erlernen an den Lautsprechererkennungsabschnitt 61 aus, während, wenn er nicht übereinstimmt, ein Startbefehl für das Korrekturerlernen abgegeben wird.
Nachfolgend geht die Verarbeitung weiter zum Schritt SP6, wo der Dialogsteuerabschnitt 63 zum Audiosynthesizer 64 sequentiell Persönlichkeits-Zeichenfolgedaten D2 sendet, um ein kleines Gespräch fortlaufend zu tätigen, um den Dialog mit dieser Person in die Länge zu ziehen, beispielsweise "heute ist ein schöner Tag, nicht wahr ?", wie in 10 beispielsweise gezeigt ist, und wenn eine vorgegebene Zeitperiode, welche für das zusätzliche Erlernen oder das Korrekturerlernen genug ist, verstrichen ist, geht die Verarbeitung weiter zum Schritt SP7, wo ein Endbefehl für das zusätzliche Erlernen oder das Korrekturerlernen an den Lautsprechererkennungsabschnitt 61 und den Gesichtserkennungsabschnitt 62 ausgegeben wird, mit der Verarbeitung, welche dem Schritt SP20 vorhergeht, wodurch der Prozess zum Erlernen des Namens für diese Person endet.
Dagegen bedeutet das Erlangen eines negativen Ergebnisses im Schritt SP1, dass eine Person, deren Gesicht durch den Gesichtserkennungsabschnitt 62 erkannt wird, eine neue Person ist, oder dass der Gesichtserkennungsabschnitt 62 eine bekannte Person als neue Person fehlerhaft erkannt hat. Das Erlangen eines negativen Ergebnisses im Schritt SP4 bedeutet außerdem, dass der abgerufene Name unter Verwendung der FIDs, die zunächst vom Gesichtserkennungsabschnitt 62 abgegeben werden, nicht mit dem Namen dieser Person übereinstimmt. In jedem Fall wird angenommen, dass der Dialogsteuerabschnitt 63 nicht in einem Zustand ist, diese Person korrekt zu erfassen.
Wenn dann ein negatives Ergebnis im Schritt SP1 erlangt wird, oder wenn ein negatives Ergebnis im Schritt SP4 erlangt wird, geht die Verarbeitung weiter zum Schritt SP8, wo der Dialogsteuerabschnitt 63 die Persönlichkeits-Zeichenfolgedaten D2 zum Audiosynthesizer liefert, wodurch bewirkt wird, dass der Lautsprecher 54 Ton auf eine Frage ausgibt, beispielsweise "Uh, kann ich ihren Namen wissen, bitte ?", wie beispielsweise in 11 gezeigt ist, um den Namen dieser Person zu bekommen.
Dann geht die Verarbeitung weiter zum Schritt SP9, wo der Dialogsteuerabschnitt 63 auf ein Tonerkennungsergebnis (nämlich einen Namen) von der Antwort auf die Frage dieser Person wartet, beispielsweise "ich bin oo", und ein Lautsprechererkennungsergebnis (beispielsweise eine SID) des Lautsprechererkennungsabschnitts 61 in diesem Antwortzeitpunkt, der vom Tonerkennungsabschnitt 60 bzw. dem Lautsprechererkennungsabschnitt 61 zugeführt wird.
Wenn dann ein Tonerkennungsergebnis vom Tonerkennungsabschnitt 60 und der SID vom Lautsprechererkennungsabschnitt 61 abgegeben wird, läuft die Verarbeitung weiter zum Schritt SP10, wo der Dialogsteuerabschnitt 63 beurteilt, ob oder nicht diese Person eine neue Person ist, auf Basis des Tonerkennungsergebnisses und des SID sowie des FID, der zunächst vom Gesichtserkennungsabschnitt 62 geliefert wird.
In diesem Fall dieser Ausführungsform wird die obige Beurteilung durch eine Majoritätsentscheidung von drei Erkennungsergebnissen getroffen: des Namens, der als Ergebnis der Tonerkennung durch den Tonerkennungsabschnitt 60 erlangt wird, des SID vom Lautsprechererkennungsabschnitt 61, und des FID vom Gesichtserkennungsabschnitt 62.
Wenn beispielsweise der SID vom Lautsprechererkennungsabschnitt 61 und der FID vom Gesichtserkennungsabschnitt 62 "–1" mitteilen, was bedeutet, dass die Erkennung unmöglich ist, und wenn der Name dieser Person, welcher im obigen Schritt erlangt wird, auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60 nicht in Verbindung ist mit dem SID oder FID im Speicher 65, wird beurteilt, dass die Person eine neue Person ist. Die Beurteilung kann im Licht der Situation getroffen werden, wo eine Person, welche weder vom Gesicht noch der Sprache her mit einer bekannten Person ähnlich ist, einen ziemlich neuen Namen besitzt.
Wenn dagegen der SID vom Lautsprechererkennungsabschnitt 61 und der FID vom Gesichtserkennungsabschnitt 62 in Verbindung sind mit einem anderen Namen im Speicher 65 oder jeder von diesen "–1" bezeichnet, was bedeutet, dass Erkennung unmöglich ist, und wenn der Name dieser Person, der erlangt wird, auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60 im Schritt SP9 nicht im Speicher 65 gespeichert ist, beurteilt der Dialogsteuerabschnitt 63, dass die Person eine neue Person ist. Das heißt, dass wegen der Schritte verschiedener Erkennungsprozesse diese Person beurteilt werden kann, eine neue Person zu sein, mit einem ziemlich hohen Vertraulichkeitsgrad, da es einfach ist, dass eine neue Kategorie falsch erkannt wird für irgendeine der bekannten Kategorien und in Abwägung der Tatsache, dass der Name, der hörbar erkannt wurde, nicht registriert ist.
Dagegen beurteilt, wenn der SID vom Lautsprechererkennungsabschnitt 61 und der FID vom Gesichtserkennungsabschnitt 62 mit dem gleichen Namen im Speicher 65 verknüpft sind und wenn der Name dieser Person, der auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60 im Schritt SP9 der Name ist, der mit dem SID und dem FID verknüpft ist, der Dialogsteuerabschnitt 63, dass die Person eine bekannte Person ist.
Wenn außerdem der SID vom Lautsprechererkennungsabschnitt 61 und der FID vom Gesichtserkennungsabschnitt 62 mit verschiedenen Namen im Speicher 65 verknüpft sind, und wenn der Name dieser Person, der auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60 im Schritt SP9 erlangt wird, ein Name ist, der entweder mit SID oder FID verknüpft ist, beurteilt der Dialogsteuerabschnitt 63, dass die Person eine bekannte Person ist. In diesem Fall wird die Beurteilung durch Majoritätsentscheidung getroffen, da sowohl die Erkennungsergebnisse durch den Lautsprechererkennungsabschnitt 61 als auch durch den Gesichtserkennungsabschnitt 62 als falsch angenommen werden können.
Wenn in der Zwischenzeit der SID vom Lautsprechererkennungsabschnitt 61 und der FID vom Gesichtserkennungsabschnitt 62 mit verschiedenen Namen im Speicher 65 verknüpft sind, und wenn der Name dieser Person, welche auf Basis des Erkennungsergebnisses vom Tonerkennungsabschnitt 60 im Schritt SP9 erlangt wird, ein Name ist, der mit entweder dem SID noch dem FID im Speicher 65 nicht verknüpft ist, trifft der Dialogsteuerabschnitt 63 keine Beurteilung, ob diese Person eine bekannte Person ist oder nicht. In diesem Fall könnte man sich denken, dass irgendeiner oder der gesamte Tonerkennungsabschnitt 60, der Lautsprechererkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 eine falsche Erkennung tätigten, wobei es jedoch unmöglich ist, zu beurteilen, welche in diesem Stadium falsch ist. In diesem Fall wird daher die Beurteilung angehalten.
Im Anschluss an einen derartigen Beurteilungsprozess läuft, wenn beurteilt wird, dass diese Person eine neue Person ist, im Schritt S10 die Verarbeitung weiter zum Schritt SP11, wo der Dialogsteuerabschnitt 63 einen Startbefehl für neues Erlernen an den Lautsprechererkennungsabschnitt 61 und den Gesichtserkennungsabschnitt 62 abgibt, wonach die Verarbeitung weiter zum Schritt SP12 geht, wo der Dialogsteuerabschnitt 63 zum Audiosynthesizer 64 Persönlichkeits-Zeichenfolgedaten D2 sendet, um eine Unterhaltung zu haben, die am Laufen gehalten wird, um somit die Plauderei mit dieser Person in die Länge zu ziehen, beispielsweise "ich bin ein Roboter, ich bin glücklich, dich zu treffen" oder "oo-san, es ist heute ein schöner Tag, nicht wahr ?", wie in 11 gezeigt ist.
Im Anschluss daran läuft die Verarbeitung weiter zum Schritt SP13, wo der Dialogsteuerabschnitt 63 beurteilt, ob oder nicht das Erfassen von sowohl der Daten der akustischen Kenndaten im Lautsprechererkennungsabschnitt 61 als auch der Daten der morphologischen Kenndaten des Gesichts im Gesichtserkennungsabschnitt 62 eine ausreichende Menge erreicht hat, und wenn ein negatives Ergebnis erlangt wird, die Verarbeitung zum Schritt SP12 zurückkehrt, und nachfolgend eine Schleife an Schritten SP12-SP13-SP12 wiederholt wird, bis ein zustimmendes Ergebnis im Schritt SP13 erlangt wird.
Wenn ein bejahendes Ergebnis im Schritt SP13 mit sowohl dem Erfassen der Daten der akustischen Kenndaten im Lautsprechererkennungsabschnitt 61 als auch mit den morphologischen Kenndaten des Gesichts im Gesichtserkermungsabschnitt 62 erlangt wird, welche einen ausreichenden Betrag erlangen, läuft die Verarbeitung weiter zum Schritt SP14, wo der Dialogsteuerabschnitt 63 einen Endbefehl für neues Erlernen an den Lautsprechererkennungsabschnitt 61 und den Gesichtserkennungsabschnitt 62 abgibt. Als Ergebnis werden die Daten der akustischen Kenndaten im Lautsprechererkennungsabschnitt 61 in Verbindung mit einem neuen SID gespeichert, und die Daten der morphologischen Kenndaten im Gesichtserkennungsabschnitt 62 mit einem neuen FID.
Nachfolgend läuft die Verarbeitung weiter zum Schritt SP15, wo der Dialogsteuerabschnitt 63 auf den SID und FID wartet, die entsprechend vom Lautsprechererkennungsabschnitt 61 und dem Gesichtserkennungsabschnitt 62 geliefert werden, und wenn sie in einem angemessenen Verlauf abgegeben werden, wie beispielsweise in 12 gezeigt ist, werden sie im Speicher 65 in Verbindung mit dem Namen dieser Person registriert, der im Schritt SP9 erlangt wird, auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60. Dann läuft die Verarbeitung im Dialogsteuerabschnitt 63 weiter zum Schritt SP20, und die Verarbeitung zum Namenerlernen für diese Person endet.
Wenn dagegen beurteilt wird, dass diese Person eine bekannte Person ist, im Schritt SP10, läuft die Verarbeitung weiter zum Schritt SP16, und wenn der Lautsprechererkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 diese Person als korrekt beurteilen konnten (d. h., wenn der Lautsprechererkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 als Erkennungsergebnis den gleichen SID oder FID als den SID oder SID ausgegeben haben, der dieser bekannten Person entspricht, welche in der verknüpften Information im Speicher 65 gespeichert sind), liefert der Dialogsteuerabschnitt 63 einen Startbefehl für zusätzliches Erlernen an den Lautsprechererkennungsabschnitt 61 oder den Gesichtserkennungsabschnitt 62, und, wenn der Lautsprechererkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 diese bekannte Person nicht korrekt erkennen konnten (wenn der Lautsprechererkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 als Erkennungsergebnis den gleichen SID oder den SID als Erkennungsergebnis ausgegeben haben, entsprechend dieser bekannten Person, welche als Verknüpfungsinformation im Speicher 65 gespeichert ist), gibt der Dialogsteuerabschnitt 63 einen Startbefehl zum Korrekturerlernen an den Lautsprechererkennungsabschnitt 61 oder den Gesichtserkennungsabschnitt 62 aus.
Genauer ausgedrückt liefert, wenn der SID, der im Schritt SP9 vom Lautsprechererkennungsabschnitt 61 erlangt wird, und der FID, der zunächst vom Gesichtserkennungsabschnitt 62 geliefert wird, mit dem gleichen Namen im Speicher 65 verknüpft sind, und, wenn im gleichen Zeitpunkt beurteilt wird, dass diese Person eine bekannte Person ist, im Schritt SP10, im Hinblick auf die Tatsache, dass der Name, der erlangt wird, auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60 im Schritt SP9 ein Name ist, der mit dem SID und dem FID verknüpft ist, der Dialogsteuerabschnitt 63 einen Startbefehl für zusätzliches Erlernen sowohl zum Lautsprechererkennungsabschnitt 61 als auch zum Gesichtserkennungsabschnitt 62.
Wenn außerdem der SID, der im Schritt SP9 des Lautsprechererkennungsabschnitts 61 erlangt wird, und der FID, der zunächst vom Gesichtserkennungsabschnitt 62 abgegeben wird, mit unterschiedlichen Namen im Speicher 65 verknüpft sind, und, wenn im gleichen Zeitpunkt beurteilt wird, dass diese Person eine bekannte Person ist, im Schritt SP10, im Hinblick auf die Tatsache, dass der Name, der auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60 im Schritt SP9 ein Name ist, der mit einem vom SID und FID verknüpft ist, liefert der Dialogsteuerabschnitt 63 einen Startbefehl für zusätzliches Erlernen entweder zum Lautsprechererkennungsabschnitt 61 oder zum Gesichtserkennungsabschnitt 62, der ein Ausgangssignal des SID oder FID erzeugt hat, in Verbindung mit dem Namen, der auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60 erlangt wird, und liefert einen Startbefehl für Korrekturerlernen zu entweder dem Lautsprechererkennungsabschnitt 61 oder zum Gesichtserkennungsabschnitt 62, der ein Ausgangssignal des SID oder FID erzeugt hat, welches nicht mit dem Namen verknüpft ist, der auf Basis des Tonerkennungsergebnisses vom Tonerkennungsabschnitt 60 erlangt wird.
Nachfolgend läuft die Verarbeitung weiter zum Schritt SP17, wo der Dialogsteuerabschnitt 63 eine Reihe von Persönlichkeits-Zeichenfolgedaten D2 nacheinander zum Audiosynthesizer 64 abgibt, um eine Plauderei zu haben, die gehalten wird, um somit den Dialog dieser Person in die Länge zu ziehen, beispielsweise "Uh, du bist oo-san, nicht wahr?, ich erinnere dich. Heute ist ein schöner Tag, nicht wahr ?", oder "wann trafen wir uns das letzte Mal ?", wie in 13 gezeigt ist, und, nachdem eine vorgegebene und auseichende Zeitperiode für zusätzliches Erlernen und Korrekturlernen abgelaufen ist, läuft die Verarbeitung weiter zum Schritt SP18, wo ein Endbefehl für zusätzliches Erlernen oder Korrekturerlernen an den Lautsprechererkennungsabschnitt 61 oder den Gesichtserkennungsabschnitt 62 ausgegeben wird, wonach sich die Verarbeitung weiter zum Schritt SP20 verschiebt, um die Namenerlernungsverarbeitung für diese Person zu beenden.
Wenn in der Zwischenzeit der Dialogsteuerabschnitt 63 im Schritt SP10 beurteilt, dass es unmöglich ist, zu bestimmen, ob diese Person eine bekannte Person oder eine neue Person ist, geht die Verarbeitung weiter zum Schritt SP19, und es wird eine Reihe an Persönlichkeits-Zeichenfolgedaten D2 nacheinander an den Audiosynthesizer 64 ausgesandt, damit die Plauderei gehalten wird, beispielsweise: "Oh, nicht wahr ? wie geht es dir ?", wie beispielsweise in 14 gezeigt ist.
In diesem Fall gibt der Dialogsteuerabschnitt 63 keinen Startbefehl oder einen Endbefehl für neues Erlernen, zusätzliches Erlernen oder Korrekturerlernen an den Lautsprechererkennungsabschnitt 61 oder den Gesichtserkennungsabschnitt 62 aus (d. h., weder an den Lautsprechererkennungsabschnitt 61 noch an den Gesichtserkennungsabschnitt 62, um jegliches neues Erlernen, zusätzliches Erlernen oder Korrekturerlernen durchführen zu lassen), und in einer vorgegebenen Zeitperiode läuft die Verarbeitung weiter zum Schritt SP20, um die Namenerlernungsverarbeitung für diese Person zu beenden.
Auf diese Weise ist der Dialogsteuerabschnitt 63 so ausgestaltet, um in der Lage zu sein, die Namen neuer Personen nacheinander durch Steuern des Dialogs mit einer Person zu erlernen und um den Betrieb des Lautsprechererkennungsabschnitts 61 und des Gesichtserkennungsabschnitts 62 auf Basis der Erkennungsergebnisse durch den Tonerkennungsabschnitt 60, den Lautsprechererkennungsabschnitt 61 und den Gesichtserkennungsabschnitt 62 zu steuern.
(4) Konkrete Ausbildung des Tonerkennungsabschnitt 60 und des Gesichtserkennungsabschnitts 62.
Anschließend wird eine Erläuterung des konkreten Aufbaus des Tonerkennungsabschnitts 50 und des Gesichtserkennungsabschnitts 62 angegeben, um die Namenerlernungsfunktion wie oben beschrieben auszuführen.
(4-1) Konkreter Aufbau des Tonerkennungsabschnitts 60
15 zeigt den konkreten Aufbau des Tonerkennungsabschnitts 60. Bei diesem Tonerkennungsabschnitt 60 wird ein Audiosignal S1B vom Mikrofon 61 einem AD-Umsetzer (Analog-Digital-Umsetzer) 70 zugeführt. Der AD-Umsetzer 70 tastet das gelieferte Audiosignal S1B eines analogen Signals ab und quantisiert dieses, welches in Tondaten eines Digitalsignals A/D-umgesetzt ist. Diese Tondaten werden einem Kenndatenextraktionsabschnitt 71 zugefügt.
Der Kenndatenextraktionsabschnitt 71 führt beispielsweise MFCC-Analyse (Mel Frequency Cepstrum Coefficient) in Bezug auf Tondaten, die zugeführt werden, auf Basis eines passenden Rahmens durch, und gibt als einen charakteristischen Vektor (einen charakteristischen Parameter) den MFCC, der als Ergebnis dieser Analyse erlangt wird, an einen Übereinstimmungsabschnitt 72 und einen Nichtregistrierungswort-Abschnitt-Verarbeitungsabschnitt 76 aus. Es sei angemerkt, dass es später für den Kenndatenextraktionsabschnitt 71 möglich ist, als charakteristischen Vektor beispielsweise einen linearen Vorhersagekoeffizienten, einen Cepstrum-Koeffizienten, ein Zeilenspektralpaar, Leistung für jede vorgegebene Frequenz (Ausgangssignal der Filterbank) usw. zu extrahieren.
Der Zuordnungsabschnitt 72 erkennt den Audioton (zugeführten Ton, der dem Mikrofon 51 zugeführt wird, unter Verwendung eines charakteristischen Vektors vom Kenndatenextraktionsabschnitt 71 auf Basis von beispielsweise des stetigen Verteilungs-HMM-Verfahrens (Hidden Markov Model), bezugnehmend, wenn notwendig auf einen akustischen Modellspeicherabschnitt 73, einen Wörterbuchspeicherabschnitt 74 und einen Grammatikspeicherabschnitt 75.
Das heißt, der akustische Modell-Speicherabschnitt 73 speichert akustische Modelle (beispielsweise HMM, andere, einschließlich eines Standardmusters, welches für DP-Zuordnung (Dynamic Programming) verwendet wird, usw.), welche akustische Kenndaten von Hilfswörtern zeigen, beispielsweise individuellen Nehmen, Silben, und Phonemen in einer Sprache eines Tons, welche zu erkennen sind. Das HMM (Hidden Markov Modell) wird als akustisches Modell verwendet, da die Tonerkennung hier auf Basis des stetigen Verteilungs-HMM-Verfahrens durchgeführt wird.
Der Wörterbuchspeicherabschnitt 74 erkennt ein Wörterbuch, in welchem Information (akustische Information im Hinblick auf die Betonung eines Worts, welches durch Gruppenbildung jeder Einheit zur Erkennung erlangt wird, und der Eintrag des Worts miteinander verknüpft sind.
16 zeigt nun ein Wörterbuch, welches im Wörterbuch-Speicherabschnitt 74 gespeichert ist.
Wie in 16 gezeigt ist, wird bei den Einträgen von Wörtern und der Phonem-Serie in Verbindung mit dem Wörterbuch das Gruppenbilden in der Phonemreihe für jedes entsprechende Wort eingerichtet. Im Wörterbuch in 16 entspricht ein Eintrag (eine Zeile in 16) einer Gruppe.
Es sei angemerkt, dass in 16 die Einträge sowohl in römischen Buchstaben als auch in japanischen Zeichen (Kana und chinesische Zeichen) dargestellt sind, und die Phonem-Serie in römischen Buchstaben. "N" in der Phonem-Serie jedoch bezeichnet "N(λ)", einen syllabischen Nasal in japanisch. Außerdem ist in 16 eine Phonem-Reihe für einen Eintrag beschrieben, und es ist möglich, mehrere Phonem-Reihen auf einen Eintrag zu beschreiben.
Kehrt man zu 4 zurück, so speichert der Grammatikspeicherabschnitt 26 grammatikalische Regeln, welche beschreiben, wie jedes Wort, welches im Wörterbuch des Wörterbuch-Speicherabschnitts 25 registriert ist, verkettet (verknüpft) ist.
17 zeigt die grammatikalischen Regeln, welche im Grammatikspeicherbereich 75 gespeichert sind. Es sei angemerkt, dass die grammatikalischen Regeln in 17 in EBNF (Extended Backus Naur Form) beschrieben sind.
In 17 drückt ein Abschnitt vom Beginn einer Zeile bis zum Auftreten von ";" eine grammatische Regel aus. Außerdem zeigt ein Satz alphabetischer Buchstaben (Reihe), wobei "$", welches am Anfang angehängt ist, eine Variable, während ein Satz an alphabetischer Buchstaben (Reihe) ohne "$" den Eintrag eines Worts zeigt (die Einträge, die in römischen Buchstaben in 16 beschrieben sind). Ein Bereich jedoch, der mit zwei [] mit Klammern versehen ist, kann weggelassen werden, und die Markierung [|] bedeutet, dass jedes der Kopfwörter (Variable), welche vor und nach diesem angeordnet sind, ausgewählt werden sollte.
Daher zeigt in 17 beispielsweise in der grammatikalischen Regel "Scol = [Kono|sono] iro wa;" auf der ersten Zeile (die erste Zeile unmittelbar unter der Kopfzeile) die Variable $col eine Wortreihe von "konoiro (color) wa" oder "sonoiro (color) wa".
In den grammatikalischen Regeln, welche in 17 gezeigt sind, sind die Variable $sil und $garbage nicht definiert, jedoch zeigt die Variable $sil ein stummes akustisches Modell (stummes Modell), und die Variable $garbage grundsätzlich ein Garbage-Modell, welches einen freien Übergang unter Phonemen zulässt.
Kehrt man wiederum zu 15 zurück, so bildet der Zuordnungsabschnitt 72 ein akustisches Modell (Wortmodell) eines Worts, wobei akustische Modelle, welche im akustischen Modellspeicherabschnitt 73 gespeichert sind, verbunden werden, wobei ein Bezug auf das Wörterbuch des Wörterbuch-Speicherbereichsabschnitts 74 genommen wird. Außerdem verbindet der Zuordnungsabschnitt 73 mehrere Wortmodelle unter Bezug auf die grammatikalischen Regeln, welche im Grammatikspeicherabschnitt 75 gespeichert sind, und erkennt den Ton, der dem Mikrofon 51 zugeführt wird, unter Verwendung dieser verbundenen Wortmodelle mittels der stetigen Verteilungs-HMM-Verfahrens auf Basis eines kennzeichnenden Vektors. Das heißt, der Zuordnungsabschnitt 72 ermittelt die Reihe eines Wortmodells, dessen kennzeichnender Vektor der Zeitreihe, der von den Kenndatenextraktionsabschnitt 71 ausgegeben wird, der am höchsten beobachteten Treffer (Wahrscheinlichkeit) zeigt, und gibt als Erkennungsergebnis des Tons den Eintrag einer Wortreihe entsprechend der Reihe dieses Wortmodells aus.
Insbesondere verknüpft der Zuordnungsabschnitt 72 die verbundenen Wortmodelle mit dem entsprechenden Wort und erkennt einen Ton, der dem Mikrofon 51 zugeführt wird, unter der Verwendung dieser verbundenen Wortmodelle mittels des stetigen Verteilungs-HMM-Verfahrens auf Basis eines kennzeichnenden Vektors. Das heißt, der Zuordnungsabschnitt 72 ermittelt die Reihe eines Wortmodells, deren charakteristischer Vektor der Zeitreihe, welche von dem Kenndatenextraktionsabschnitt 71 ausgegeben wird, den höchsten beobachteten Treffer zeigt (Wahrscheinlichkeit), und gibt als das Erkennungsergebnis des Tons den Eintrag einer Wortreihe entsprechend der Reihe dieses Wortmodells aus.
Insbesondere sammelt der Zuordnungsabschnitt 72 die Ereigniswahrscheinlichkeiten (Ausgabewahrscheinlichkeiten) jedes kennzeichnenden Vektors wie eine Wortreihe entsprechend den verbundenen Wortmodellen, und gibt mit dem gesammelten Wert als Treffer als Tonerkennungsergebnis den Eintrag einer Wortreihe aus, der den Treffer zum höchsten macht.
Das Tonerkennungsergebnis, welches wie oben ausgegeben wird und dem Mikrofon 51 zugeführt wird, wird an Dialogsteuerabschnitt 63 als Persönlichkeits-Zeichenfolgedaten D1 ausgegeben.
Bei dieser Ausführungsform in 17 gibt es eine grammatikalische Regel "$pat1=$color1 $garbage $color 2; (dies wird als "nicht registrierte Wortregel" bezeichnet, wo auch immer es geeignet danach anwendbar ist), unter Verwendung der Variablen $garbage, welche ein Garbage-Modell auf der neunten Zeile (neunte Zeile unterhalb der obersten Zeile) zeigt, und wenn, diese nicht registrierte Wortregel angewandt wird, ermittelt der Zuordnungsabschnitt 72 einen Tonabschnitt, der der Variablen $garbage entspricht, als Tonabschnitt eines nicht registrierten Worts. Außerdem ermittelt der Zuordnungsabschnitt 72 als Phonem-Reihe des nicht registrierten Worts eine Phonem-Reihe, da der Übergang von Phonemen in einem Garbage-Modell die Variable $garbage bezeichnet, wenn die nicht registrierte Wortregel angewandt wird. Dann liefert der Zuordnungsabschnitt 72 zum nicht registrierten Wortabschnitt-Verarbeitungsabschnitt 76 den Tonabschnitt und die Phonem-Reihe eines nicht registrierten Worts, die zu ermitteln sind, wenn ein Tonerkennungsergebnis erlangt wird, als ein Ergebnis der Anwendung der nicht registrierten Wortregel.
Es sei angemerkt, dass gemäß der oben erwähnten nicht registrierten Wortregel "$pat1=$color1 $garbage $color 2" ein registriertes Wort zwischen der Phonem-Reihe eines Worts (Reihe) ermittelt wird, welches durch die Variable #color1 bezeichnet wird, welche im Wörterbuch registriert ist, und die Phonem-Reihe eines Worts (Reihe), welche durch die Variable $color2 bezeichnet wird, welche im Wörterbuch registriert ist, wobei es jedoch bei dieser Ausführung auch möglich ist, diese nicht registrierte Wortregel anzuwenden, sogar auf den Fall einer Sprache, welche mehrere nicht registrierte Wörter enthält, sowie für den Fall eines nicht registrierten Worts, welches nicht zwischen Wörtern (Reihen) liegt, welche im Wörterbuch registriert sind.
Der Nichtregistierungswortabschnitt-Verarbeitungsabschnitt 76 hält die Reihe eines kennzeichnenden Vektors (eine Kennzeichenvektorreihe), welche vorübergehend vom charakteristischen Extraktionsabschnitt 71 zugeführt wird. Wenn weiter der Tonabschnitt und die Phonemreihe des nicht registrierten Worts vom Zuordnungsabschnitt 72 empfangen werden, ermittelt der Nichtregistrierungswortabschnitt-Verarbeitungsabschnitt 76 die charakteristische Vektorreihe des Tons in diesem Tonabschnitt von der charakteristischen Vektorreihe, welche vorübergehend gehalten wird. Dann teilt der Nichtregistrierungswortabschnitt-Verarbeitungsabschnitt 76 eine einmalige ID (Identifikation) der Phonemreihe (nicht registriertes Wort) vom Zuordnungsabschnitt 72 zu, welche zur einem kennzeichnenden Vektorpuffer 77 geliefert wird, gemeinsam mit der Phonemreihe des nicht registrierten Worts und der charakteristischen Vektorreihe im Tonabschnitt.
Der Kenndatenvektorpuffer 77 speichert vorübergehend die Nichtregistrierungswort-ID, die Phonemreihe, und die charakteristische Vektorreihe, welche vom Nichtregistrierungswortabschnitt-Verarbeitungsabschnitt 76 geliefert werden, welche miteinander verknüpft sind, wie als Beispiel in 18 gezeigt ist.
In 18 sind sequentielle Zeichen beginnend mit 1 an die nicht registrierten Wörter als Identifizierer angehängt. Daher wird beispielsweise in dem Fall von IDs von N Abschnitten nicht registrierter Wörter, wobei die Phonem-Reihe und die charakteristische Vektorreihe im Kenndatenvektorpuffer 77 gespeichert sind, und, wenn der Zuordnungsabschnitt 72 den Tonabschnitt eines nicht registrierten Worts und die Phonem-Reihe ermittelt, die Zahl N + 1 an das nicht registrierte Wort als die ID im Nichtregistrierungswortabschnitt-Verarbeitungsabschnitt 76 angehängt, und die ID des nicht registrierten Worts und die Phonem-Reihe und die Kenndatenvektorreihen werden im Kenndatenvektorpuffer 77 gespeichert, wie durch eine unterbrochene Linie in 18 gezeigt ist.
Kehrt man nun wiederum zu 15 zurück, so berechnet ein Gruppenbildungsabschnitt 78 den Treffer jedes der anderen nicht registrierten Wörter (sie werden als "neue nicht registrierte Wörter" bezeichnet, wenn immer dies passend anwendbar ist), welche schon im Kenndatenvektorpuffer 77 gespeichert sind (sie werden als "schon gespeicherte nicht registrierte Wörter" bezeichnet, wenn sie passend anwendbar sind), als nicht registrierte Wörter, welche schon im Kenndatenvektorpuffer 77 gespeichert sind (sie werden als "schon gespeicherte nicht registrierte Wörter" bezeichnet, wenn sie danach passend anwendbar sind).
Das heißt, mit den neuen nicht registrierten Wörter als zugeführte Töne und mit den schon gespeicherten nicht registrierten Wörtern bezogen auf Wörter, welche im Wörterbuch registriert sind, wie dies im Fall bei dem Zuordnungsabschnitt 72 geschah, berechnet der Gruppenbildungsabschnitt 78 den Treffer des neuen nicht registrierten Worts in Bezug auf jedes der schon gespeicherten nicht registrierten Wörter. Insbesondere erkennt der Gruppenbildungsabschnitt 78 die Kenndatenvektorreihe der neuen nicht registrierten Wörter, wobei auf den Kenndatenvektorpuffer 77 bezuggenommen wird, und verbindet akustische Modelle gemäß der Phonem-Reihe der schon gespeicherten nicht registrierten Wörter, und mit diesen verbundenen akustischen Modellen wird der Treffer als die Wahrscheinlichkeit berechnet, mit der die Kenndatenvektorserie der neuen nicht registrierten Wörter beobachtet wird.
Es sollte angemerkt sein, dass die akustischen Modelle, welche im akustischen Modellspeicherabschnitt 73 gespeichert sind, für den Verwendungszweck verwendet werden.
In gleicher Weise berechnet der Gruppenbildungsabschnitt 78 eine Gruppe jedes neuen nicht registrierten Worts in Bezug auf jedes der schon gespeicherten nicht registrierten Wörter, und aktualisiert das Trefferblatt, welches in einem Trefferblattspeicherabschnitt 79 gespeichert ist, mit diesem Treffer.
Unter Bezug auf das aktualisierte Trefferblatt ermittelt außerdem der Gruppenbildungsabschnitt 78, wem ein neues nicht registriertes Wort hinzugefügt ist, als ein neues Mitglied von Gruppen, bei dem die Gruppenbildung in Bezug auf ein schon erlangtes nicht registriertes Wort durchgeführt wird (ein schon gespeichertes nicht registriertes Wort). Außerdem unterteilt der Gruppenbildungsabschnitt 78 die Gruppe auf Basis der Mitglieder dieser gleichen Gruppe als ein neues Mitglied der Gruppe, in welcher das nicht registrierte Wort ermittelt wird, und auf Basis der unterteilten Ergebnisse wird das Trefferblatt, welches im Trefferblatt-Speicherabschnitt 79 gespeichert ist, aktualisiert.
Der Trefferblatt-Speicherbereich 79 speichert den Treffer des neuen nicht registrierten Worts in Bezug auf das schon gespeicherte nicht registrierte Wort, und das Trefferblatt, dem der Treffer und weiteres des schon gespeicherten nicht registrierten Worts hinzugefügt ist, werden in Bezug auf das neue nicht registrierte Wort registriert.
Hier zeigt 19 ein Trefferblatt.
Das Trefferblatt besteht aus Einträgen, welche beschreiben die: "IDs", "Phonem-Reihe", "Gruppennummern", "repräsentative Mitglieder-IDs", und "Treffer" nicht registrierter Wörter.
Die gleichen Dinge, wie die, welche im Kennzeichnungsvektorpuffer 77 gespeichert sind, werden registriert als die "ID" und "die Phonem-Reihe" eines nicht registrierten Worts durch den Gruppenbildungsabschnitt 78. Der "Gruppennummer" ist eine Nummer, welche eine Gruppe spezifiziert, von welcher ein nicht registriertes Wort dieses Eintrags ein Mitglied ist, und diese Nummer wird durch den Gruppenbildungsabschnitt 78 bezeichnet und im Trefferblatt registriert. Die "repräsentative Mitglieder-ID" ist die ID eines nicht registrierten Worts als repräsentatives Mitglied, welches eine Gruppe zeigt, von der das nicht registrierte Wort dieses Eintrags ein Mitglied ist, und es ist dieses repräsentative Mitglied-ID, welche es ermöglicht, das repräsentative Mitglied einer Gruppe zu erkennen, von der das nicht registrierte Wort ein Mitglied ist. Das repräsentative Mitglied einer Gruppe wird durch den Gruppenbildungsabschnitt 29 erlangt, und die ID des repräsentativen Mitglieds wird in der repräsentativen Mitglieds-ID auf dem Trefferblatt registriert. Der "Treffer" ist ein Treffer jedes der anderen nicht registrierten Wörter in Bezug auf die nicht registrierten Wörter in Bezug auf diesen Eintrag, und wird durch den Gruppenbildungsabschnitt 78 wie oben beschrieben berechnet.
Unter der Annahme nun beispielsweise, dass die IDs, die Phonem-Reihe und die Kenndatenvektorreihe von N Abschnitten nicht registrierter Wörter im Kenndatenvektorpuffer gespeichert sind, sind diese, welche auf dem Trefferblatt registriert sind, die IDs, die Phonem-Reihe, die Gruppenummern, die entsprechenden IDs und die Gruppen der N Abschnitt nicht registrierter Wörter.
Wenn die IDs, die Phonem-Reihe und die Kenndatenvektorreihe neuer nicht registrierte Wörter Kenndatenvektorpuffer 77 gespeichert sind, wird das Trefferblatt im Gruppenbildungsabschnitt 78 aktualisiert, wie durch die unterbrochene Linie in 19 gezeigt ist.
Das heißt, zugefügt zum Trefferblatt sind die ID, eine Phonem-Reihe, eine Gruppennummer und eine entsprechende Mitglieder-ID eines neuen nicht registrierten Worts, und ein Treffer von jedem schon gespeicherten nicht registrierten Wort in Bezug auf das neue nicht registrierte Wort (Treffer s(N + 1, 1), s(2, N + 1), ... s(N + 1, N) in 19). Außerdem sind hinzugefügt zum Trefferblatt ein Treffer eines neuen nicht registrierten Worts in Bezug auf jedes der schon gespeicherten nicht registrierten Wörter (Treffer s(N + 1, 1), s(2, N + 1), ... s(N + 1, N) in 19). Noch weiter wird, wie später beschrieben, eine Änderung durchgeführt, wenn es notwendig ist, hinsichtlich der Gruppennummern und der entsprechenden Mitglieder-IDs der nicht registrierten Wörter auf dem Trefferblatt.
Bei dieser Ausführungsform in 19 wird der Treffer von (die Sprache von) eines nicht registrierten Worts mit der ID i in Bezug auf (die Phonem-Reihe von) eines nicht registrierten Worts mit der ID j ausgedrückt als s(i, j).
Auf dem Trefferblatt (19) ist außerdem der Treffer s(i, j) jedes (die Sprache von) nicht registrierten Worts in Bezug auf die ID i in Bezug auf (die Phonem-Reihe von) ein nicht registriertes Wort mit der ID j registriert. Da dieser Treffer s(i, j) im Zuordnungsabschnitt 72 berechnet wird, wenn die Phonem-Reihe eines nicht registrierten Worts ermittelt wird, ist es nicht notwendig, Berechnungen im Gruppenbildungsabschnitt 78 auszuführen.
Wiederum zurückkehrend zu 15 aktualisiert ein Erhaltungsabschnitt 80 das Wörterbuch, welches im Wörterbuchspeicherabschnitt 74 gespeichert ist, auf Basis des Trefferblatts, welches im Trefferblattabschnitt 79 aktualisiert wurde.
Nun wird das repräsentative Mitglied einer Gruppe in der folgenden Weise bestimmt. Das heißt, beispielsweise, welches das repräsentative Mitglied der Gruppe von nicht registrierten Wörtern sein soll, welche Mitglieder der Gruppe sind, ein nicht registriertes Wort ist, welches die größte Gesamtsumme der Treffer des Rests der anderen registrierten Wörter ausmacht (weitere Alternativen können den Durchschnittswert aufweisen, der durch Unterteilen der Gesamtsumme unterteilt durch die Anzahl des Rests der anderen nicht registrierten Wörter beispielsweise erzeugt). Daher muss in diesem Fall unter der Annahme, dass die Mitglieds-ID eines Mitglieds, welches zu der Gruppe gehört, als k ausgedrückt wird, das repräsentative Mitglied ein Mitglied sein, welches einen Wert k(∊ k) als die ID hat, ausgedrückt in der folgenden Gleichung:
Es sei angemerkt, dass in der obigen Gleichung (1) max_k {} bedeutet k, welches den Wert innerhalb von {} zum größten macht. Außerdem bedeutet k³ wie dies k tut, wobei die ID eines Mitglieds zur Gruppe gehört. Außerdem bedeutet die Gesamtsumme, welche durch Variieren von k³ erzeugt wird, über alle IDs der Mitglieder, welche zur Gruppe gehören.
In dem Fall, wo das repräsentative Mitglied in der obigen Weise bestimmt wird, ist es nicht notwendig, die Gruppe beim Bestimmen des repräsentativen Mitglieds zu berechnen, wenn die Mitglieder der Gruppe von einem oder zwei nicht registrierten Wörtern sind. Das heißt, wenn ein Mitglied der Gruppe ein einzelnes nicht registriertes Wort ist, muss dieses einzelne nicht registrierte Wort das repräsentative Mitglied sein, und wenn die Mitglieder der Gruppe zwei nicht registrierte Wörter sind, kann jedes der beiden nicht registrierten Wörter als das repräsentative Mitglied bestimmt werden.
Mittels keiner Einrichtung ist ein Verfahren, um das repräsentative Mitglied zu bestimmen, welches auf das oben erwähnte eine beschränkt ist, wobei es jedoch auch möglich ist, als das repräsentative Mitglied der Gruppe beispielsweise ein nicht registriertes Wort zu bestimmen, welches unter den Mitgliedern der Gruppe erfasst wird, welche die Gesamtsumme des Abstandes im Kenndatenvektorraum in Bezug auf jeden Rest anderer nicht registrierter Wörter zum kleinsten macht.
Im Tonerkennungsabschnitt 60, der wie oben beschrieben aufgebaut ist, werden ein Tonerkennungsprozess, um einen Ton zu erkennen, der dem Mikrofon 51 zugeführt wird, und ein Nichtregistrierungswortprozess in Bezug auf die nicht registrierten Wörter gemäß der Tonerkennungs-Verarbeitungsroutine RT2, welche in 20 gezeigt ist, durchgeführt.
In der Praxis wird, wenn ein Audiosignal S1B, welches als Ergebnis einer Person, die spricht, erlangt wird, vom Mikrofon 51 zum Kenndatenextraktionsabschnitt 71 als Tondaten über den AD-Umsetzer 70 geliefert wird, im Tonerkennungsabschnitt 60 diese Tonerkennungs-Verarbeitungsroutine RT2 im Schritt SP30 in Bewegung versetzt.
Im nachfolgenden Schritt SP31 extrahiert der Kenndatenextraktionsabschnitt 71 einen charakteristischen Vektor durch akustisches Analysieren der Tondaten mit einer vorgegebenen Rahmeneinheit, und die Reihe dieses charakteristischen Vektors wird dem Zuordnungsabschnitt 72 und dem Nichtregistrierungswortabschnitt-Verarbeitungsabschnitt 76 zugeführt.
Im nachfolgenden Schritt S32 führt der Zuordnungsabschnitt 76 die Trefferberechnung wie oben beschrieben bei der Kenndatenvektorreihe durch, welche von dem Kenndatenextraktionsabschnitt 71 geliefert wird, und erlangt im folgenden Schritt S33 den Eintrag einer Wortreihe und gibt diese aus, welche das Tonerkennungsergebnis ist, auf Basis des Treffers, welcher als Ergebnis der Trefferberechnung erlangt wird.
Weiter beurteilt der Zuordnungsabschnitt 72 im nachfolgenden Schritt S34, ob oder nicht ein nicht registriertes Wort im Ton des Benutzers enthalten ist.
Wenn in diesem Schritt S34 beurteilt wird, dass kein nicht registriertes Wort in dem Ton des Benutzers enthalten ist, d. h., in dem Fall, dass ein Tonerkennungsergebnis ohne die oben erwähnte Nichtregistrierungswortregel "$pat1=$color1 $garbage $color 2;" erlangt wird, welche angewandt wird, geht die Verarbeitung weiter zum Schritt S35, was die Beendigung zur Folge hat.
Gegenüber oben ermittelt im Schritt S34, wenn beurteilt wird, dass ein nicht registriertes Wort im Ton des Benutzers enthalten ist, d. h., in dem Fall, dass ein Tonerkennungsergebnis mit der Nichtregistrierungswortregel "$pat1=$color1 $garbage $color 2;" angewandt wird, im nachfolgenden Schritt S35 der Zuordnungsabschnitt 23 einen Tonabschnitt entsprechend der Variablen $garbage in der Nichtregistrierungswortregel als den Tonabschnitt des nicht registrierten Worts, und ermittelt im gleichen Zeitpunkt als Phonem-Reihe des nicht registrierten Worts die Phonem-Reihe als den Übergang eines Phonems in einem Garbage-Modell, den die Variable $garbage zeigt, und der Tonabschnitt und der Phonem-Abschnitt des nicht registrierten Worts werden zum Nichtregistrierungswortabschnitt-Verarbeitungsabschnitt 76 geliefert, wodurch der Prozess beendet wird (Schritt SP36).
In der Zwischenzeit, wenn die Kenndatenvektorreihe vorübergehend gespeichert wird, welche vom Kenndatenextraktionsabschnitt 71 geliefert wird, wenn der Tonabschnitt und die Phonem-Reihe des nicht registrierten Worts vom Zuordnungsabschnitt 72 zugeführt wird, ermittelt der Nichtregistrierungswortabschnitt-Verarbeitungsabschnitt 76 die Kenndatenvektorreihe des Tons in diesem Tonabschnitt. Außerdem hängt der Nichtregistrierungswortabschnitt-Verarbeitungsabschnitt 76 eine ID an das nicht registrierte Wort (die Phonem-Reihe von) vom Zuordnungsabschnitt 72 an, welche zum Kenndatenvektorpuffer 77 geliefert wird, gemeinsam mit der Phonem-Reihe des nicht registrierten Worts und der Kenndatenvektorreihe in diesem Tonabschnitt.
In der obigen Weise wird, wenn die ID des neu gefundenen nicht registrierten Worts (neues Nichtregistrierungswort), die Phonemreihe und der Kenndatenvektorreihe im Kenndatenvektorpuffer 77 gespeichert sind, wird die Verarbeitung des nicht registrierten Worts nachfolgend in Bewegung versetzt gemäß der Nichtregistrierungswort-Verarbeitungsroutine RT3, welche in 21 gezeigt ist.
Das heißt, im Tonerkennungssektor 60, wie oben beschrieben, wird, wenn die ID, die Phonem-Reihe und die Kenndatenvektorreihe des neu gefundenen nicht registrierten Worts im Kenndatenvektorpuffer 77 gespeichert sind, diese Nichtregistrierungswort-Verarbeitungsroutine RT3 im Schritt SP40 in Bewegung versetzt, zunächst gefolgt durch den Schritt SP41, wo der Gruppenbildungsabschnitt 78 die ID und die Phonem-Reihe des neuen nicht registrierten Worts vom Kenndatenvektorpuffer 77 liest.
Im folgenden Schritt SP42 beurteilt der Gruppenbildungsabschnitt 78, ob eine schon erlangte (erzeugte) Gruppe existiert oder nicht, wobei auf das Trefferblatt im Trefferblatt-Speicherabschnitt 30 bezuggenommen wird. Wenn in diesem Schritt SP42 beurteilt wird, dass eine erlangte Gruppe nicht existiert, d. h., in dem Fall, wo ein neues nicht registriertes Wort das erste nicht registrierte Wort ist und wo kein Eintrag eines schon gespeicherten nicht registrierten Worts auf diesem Trefferblatt existiert, läuft die Verarbeitung weiter zum Schritt S43, wo der Gruppenbildungsabschnitt 78 eine Gruppe neu erzeugt, von der das neue nicht registrierte Wort das repräsentative Mitglied ist, und das Trefferblatt aktualisiert, wobei die Information in Bezug auf die neue Gruppe registriert wird, und die Information in Bezug auf das neue nicht registrierte Wort hinsichtlich des Trefferblatts im Trefferblatt-Speicherabschnitt 79.
Das heißt, der Gruppenbildungsabschnitt 78 registriert die ID und die Phonem-Reihe des neuen nicht registrierten Worts, welches vom Kenndatenvektorpuffer 77 gelesen wird, im Trefferblatt (19). Außerdem erzeugt der Gruppenbildungsabschnitt 78 eine einmalige Gruppennummer, welche im Trefferblatt registriert wird, als die Gruppennummer des neuen nicht registrierten Worts. Außerdem hat der Gruppenabschnitt 78 die ID des neuen nicht registrierten Worts, welches im Trefferblatt registriert ist, als die repräsentative Nummern-ID des neuen nicht registrierten Worts. In diesem Fall wird daher das neue nicht registrierte Wort zum repräsentativen Mitglied der neuen Gruppe.
Es sei angemerkt, dass die Trefferberechnung in diesem Beispiel nicht ausgeführt wird, da es kein schon gespeichertes nicht registriertes Wort gibt, mit dem die Trefferberechnung in Bezug auf das neue nicht registrierte Wort durchgeführt wird.
Nach dem Prozess im Schritt S43 läuft die Verarbeitung weiter zum Schritt S52, wo der Erhaltungsabschnitt 80 das Wörterbuch im Wörterbuchspeicherbereich 74 auf Basis des Trefferblatts aktualisiert, welches im Schritt S43 aktualisiert wurde, wonach die Verarbeitung endet (Schritt SP54).
Das heißt, in diesem Fall, da eine neue Gruppe erzeugt wird, erkennt der Erhaltungsabschnitt 31 die neu erzeugte Gruppe bezugnehmend auf die Gruppennummer im Trefferblatt. Dann fügt der Erhaltungsabschnitt 80 einen Eintrag entsprechend der Gruppe dem Wörterbuch des Wörterbuch-Speicherabschnitt 74 hinzu, und registriert – als Phonem-Reihe des Eintrags – die Phonem-Reihe des repräsentativen Mitglieds der neuen Gruppe, nämlich die Phonem-Reihe des neuen nicht registrierten Worts in diesem Fall.
Wenn dagegen im Schritt S42 beurteilt wird, dass eine schon erlangte Gruppe existiert, d. h., in dem Fall, wo das neue nicht registrierte Wort nicht das erste nicht registrierte Wort ist, ein Eintrag (Reihe) eines schon gespeicherten nicht registrierten Worts im Trefferblatt (19) existiert, geht die Verarbeitung weiter zum Schritt S44, wo der Gruppenbildungsabschnitt 78 den Treffer jedes der schon gespeicherten nicht registrierten Wörter in Bezug auf das neue nicht registrierte Wort berechnet, und berechnet im gleichen Zeitpunkt den Treffer des neuen nicht registrierten Worts in Bezug auf jedes von schon gespeicherten nicht registrierten Wörtern.
Anders ausgedrückt unter der Annahme beispielsweise, dass schon gespeicherte nicht registrierte Wörter existieren, deren IDs von 1 bis N laufen, wobei die ID eines neuen nicht registrierten Worts N + 1 ist, wird die Berechnung im Gruppenbildungsabschnitt 78 hinsichtlich der Treffers (N + 1, 1)s(N + 1, 2), ... s(N N + 1), jedes von N Abschnitten der schon gespeicherten nicht registrierten Wörter in Bezug auf das neue nicht registrierte Wort in dem Bereich ausgeführt, der durch die unterbrochene Linien in 19 gezeigt ist, und hinsichtlich der Gruppen s(1, N + 1), s(2, N + 1) ... s(N, N + 1) des neuen nicht registrierten Worts in Bezug auf jedes von N Abschnitten schon gespeicherter nicht registrierter Wörter. Es sei angemerkt, dass, wenn man diese Gruppe, welche im Gruppenbildungsabschnitt 78 berechnet wurden, hat, die Kenndatenvektorreihe des neuen nicht registrierten Worts und jedes der N Abschnitte der schon gespeicherten nicht registrierten Wörter erforderlich sind, wobei diese Kenndatenvektorreihe durch Bezug auf den Kenndatenvektorpuffer 28 erkannt werden.
Dann fügt der Gruppenbildungsabschnitt 78 die berechneten Treffer dem Trefferblatt (19) gemeinsam mit dem IDs der neuen nicht registrierten Wörter und der von Phonem-Reihe hinzu, und die Verarbeitung geht weiter zum Schritt S45.
Im Schritt S45 ermittelt durch Bezugnahme auf das Trefferblatt (19) der Gruppenbildungsabschnitt 78 eine Gruppe, welche das entsprechende Mitglied hat, welches die höchsten (größten) Treffer s(N + 1, i)(i = 1, 2, ... N) macht, in Bezug auf das neue nicht registrierte Wort. Das heißt, der Gruppenbildungsabschnitt 78 erkennt ein schon gespeichertes nicht registriertes Wort, welches das repräsentative Mitglied ist, wobei bezuggenommen wird auf die ID des repräsentativen Mitglieds auf dem Trefferblatt, und außerdem unter Bezugnahme auf die Treffer auf dem Trefferblatt ein schon gespeichertes nicht registriertes Wort als das repräsentative Mitglied ermittelt, welches den Treffer des nicht registrierten Worts zum höchsten macht. Der Gruppenbildungsabschnitt 78 ermittelt eine Gruppe, welche die Gruppennummer eines schon gespeicherten nicht registrierten Worts hat, als ermitteltes repräsentatives Mitglied.
Nachfolgend geht die Verarbeitung weiter zum Schritt S46, wo der Gruppenbildungsabschnitt 29 das neue nicht registrierte Wort den Mitgliedern der Gruppen hinzufügt, welche im Schritt S45 ermittelt wurden (sie werden anschließend als "ermittelte Gruppen" bezeichnet, wenn dies geeignet anwendbar ist). Das heißt, der Gruppenbildungsabschnitt 78 schreibt die Gruppennummer des repräsentativen Mitglieds der ermittelten Gruppen als Gruppennummer des neuen nicht registrierten Worts auf das Trefferblatt.
Im Schritt S47 führt der Gruppenbildungsabschnitt 78 einen Gruppenunterteilungsprozess durch, um die ermittelte Gruppe in zwei zu unterteilen, beispielsweise, und die Verarbeitung geht weiter zum Schritt S48. Im Schritt S48 beurteilt der Gruppenbildungsabschnitt 78, ob oder nicht die ermittelte Gruppe erfolgreich in zwei unterteilt wurde mit dem Gruppenbildungsunterteilungsprozess im Schritt S47, und wenn beurteilt wird, dass die Unterteilung erfolgreich ist, geht die Verarbeitung weiter zum Schritt S49. Im Schritt S49 berechnet der Gruppenbildungsabschnitt 78 den Gruppenabstand zwischen zwei Gruppen, der durch Unterteilen der ermittelten Gruppe erzeugt wird (diese beiden Gruppen werden anschließend als "erste Hilfsgruppe und als zweite Hilfsgruppe" bezeichnet, wenn dies geeignet anwendbar ist).
Hier wird der Gruppenabstand zwischen der ersten Hilfsgruppe und der zweiten Hilfsgruppe wie folgt beispielsweise definiert.
Es wird angenommen, dass die ID eines beliebigen Mitglieds (ein nicht registriertes Wort) von sowohl der ersten Hilfsgruppe als auch der zweiten Hilfsgruppe durch K dargestellt wird, und jedes der repräsentativen Mitglieder (nicht registrierte Wörter) des ersten Hilfsclusters und der zweiten Hilfsgruppe durch k1 oder k2, in der folgenden Gleichung: D(k1, k2) = maxvalk{abs(log(s(k, k1)) – log(s(k, k2)))} (2)
Der Wert D(k1, k2) ist als Intergruppenabstand zwischen der ersten Hilfsgruppe und der zweiten Hilfsgruppe definiert.
Es sei angemerkt, dass in der Gleichung 2 abs () den Absolutwert eines Werts in () bezeichnet. Außerdem bezeichnet maxval_k {} den Maximalwert eines Werts in {}, der durch Variieren von k erlangt wird. Und log drückt den natürlichen Logarithmus oder den gemeinsamen Logarithmus aus.
Es sei nun angenommen, dass die ID ein Mitglied i als das Mitglied #1 zeigt, der Reziprokwert 1/s (k, k1) des Treffers in der Gleichung (2) dem Abstand zwischen dem Mitglied #k und dem repräsentativen Mitglied k1 entspricht, und der Reziprokwert 1/s (k, k2) des Treffers in der Gleichung (2) dem Abstand zwischen dem Mitglied #k und dem repräsentativen Mitglied k2 entspricht. Gemäß der Gleichung (2) muss daher der Maximalwert einer Differenz zwischen einem Abstand zwischen dem repräsentativen Mitglied #k1 und irgendeinem Mitglied der ersten Hilfsgruppe und ein Abstand zwischen repräsentativ ein Mitglied #k2 und irgendein Mitglied der zweiten Hilfsgruppe ein Intergruppenabstand zwischen der ersten und der zweiten Hilfsgruppe sein.
Der Intergruppenabstand ist nicht auf das, was oben beschrieben wurde, begrenzt, und es ist auch möglich, als Intergruppenabstand den aufsummierten Wert des Abstands im charakteristischen Vektorraum auszugestalten, der durch DP-zuordnen des repräsentativen Mitglieds der ersten Hilfsgruppe und des repräsentativen Mitglieds der zweiten Hilfsgruppe beispielsweise erlangt wird.
Nach dem Prozess im Schritt S49 geht die Verarbeitung weiter zum Schritt S50, wo der Gruppenbildungsabschnitt 78 beurteilt, ob oder nicht der Intergruppenabstand zwischen den ersten und zweiten Hilfsgruppen größer ist als ein vorgegebener Schwellenwert ξ (oder der vorgegebene Schwellenwert ξ oder höher).
Wenn im Schritt S50 beurteilt wird, dass der Intergruppenabstand größer ist als der vorgegebene Schwellenwert ξ, d. h., in dem Fall, wo angenommen wird, dass mehrere nicht registrierte Wörter als Mitglieder der ermittelten Gruppe in zwei Gruppen hinsichtlich der akustischen Eigenschaft gruppiert sind, geht die Verarbeitung weiter zum Schritt S51, wo der Gruppenbildungsabschnitt 78 die erste und die zweite Hilfsgruppe im Trefferblatt im Trefferblatt-Speicherabschnitt 76 registriert.
Das heißt, mit einmaligen Gruppennummern, welche den ersten und zweiten Hilfsgruppen zugeteilt sind, aktualisiert der Gruppenbildungsabschnitt 78 das Trefferblatt, so dass die Gruppennummern der Mitglieder, welche in die erste Hilfsgruppe gruppiert sind, als Gruppennummern der ersten Hilfsgruppe bestimmt werden, und die Gruppennummern der Mitglieder, welche in die zweite Hilfsgruppe gruppiert sind, als Gruppennummern der zweiten Hilfsgruppe bestimmt sind.
Außerdem aktualisiert der Gruppenbildungsabschnitt 78 das Trefferblatt, so dass die repräsentative Mitglieds-ID der Mitglieder, welche in die erste Hilfsgruppe gruppiert sind, als die ID des repräsentativen Mitglieds der ersten Hilfsgruppe bestimmt sind, und die repräsentative Mitglieds-ID der Mitglieder, welche in die zweite Hilfsgruppe gruppiert sind, als die ID des repräsentativen Mitglieds der zweiten Hilfsgruppe definiert sind.
Es sei angemerkt, dass es möglich ist, die Gruppennummer der ermittelten Gruppe sowohl der ersten als auch zweiten Hilfsgruppe zuzuordnen.
Wenn die erste und die zweite Hilfsgruppe im Trefferblatt in der obigen Weise durch den Gruppenbildungsabschnitt 78 registriert sind, verschiebt sich die Verarbeitung vom Schritt S51 zu S52, wo der Erhaltungsabschnitt 80 das Wörterbuch im Wörterbuch-Speicherabschnitt 74 auf Basis des Treffers aktualisiert, wonach die Verarbeitung beendet wird (Schritt SP54).
Das heißt, in diesem Fall, da die ermittelte Gruppe in die erste und die zweite Hilfsgruppe unterteilt ist, löscht der Erhaltungsabschnitt 80 zunächst die Einträge im Wörterbuch entsprechend der ermittelten Gruppe. Außerdem fügt der Erhaltungsabschnitt 80 dem Wörterbuch die beiden Einträge entsprechend der ersten bzw. zweiten Hilfsgruppe hinzu und registriert die Phonem-Reihe des entsprechenden Mitglieds der ersten Hilfsgruppe als die Phonem-Reihe des Eintrags entsprechend der ersten Hilfsgruppe, und im gleichen Zeitpunkt die Phonem-Reihe des repräsentativen Mitglieds der zweiten Hilfsgruppe als die Phonem-Reihe des Eintrags entsprechend der zweiten Hilfsgruppe.
Wenn dagegen im Schritt S48 beurteilt wird, dass der Gruppenunterteilungsprozess im Schritt S47 die ermittelte Gruppe in zwei Gruppen nicht unterteilen konnte, oder, wenn im Schritt S50 beurteilt wird, dass der Intergruppenabstand zwischen der ersten und der zweiten Hilfsgruppe kleiner ist als ein vorgegebener Schwellenwert ξ, (anders ausgedrückt in dem Fall, wo die akustische Eigenschaft mehrerer nicht registrierter Wörter als Mitglieder der ermittelten Gruppe nicht der ersten und zweiten Hilfsgruppe bis zu einem Ausmaß ähneln, um Gruppenbildung zu veranlassen), läuft die Verarbeitung weiter zum Schritt S53, wo der Gruppenbildungsabschnitt 78 ein neues repräsentatives Mitglied der ermittelten Gruppe erlangt, mit dem das Trefferblatt aktualisiert wird.
Das heißt, der Gruppenbildungsabschnitt 78 erkennt einen Treffer s(k³, k), der für die Berechnung der Gleichung (1) notwendig ist, wobei auf das Trefferblatt im Trefferblatt-Speicherabschnitt 79 bezuggenommen wird, im Hinblick auf jedes Mitglied der ermittelten Gruppe, dem die neuen nicht registrierten Wörter hinzugefügt sind. Außerdem erlangt der Gruppenbildungsabschnitt 78 die ID eines Mitglieds, welche das neue repräsentative Mitglied der ermittelten Gruppe ist, auf Basis der Gleichung (1) unter Verwendung des erkannten Treffers s(k³, k). Dann überschreibt der Gruppenbildungsabschnitt 78 die repräsentative Mitglieder-ID jedes Mitglieds der ermittelten Gruppe im Trefferblatt (19) mit der ID des neuen repräsentativen Mitglieds der ermittelten Gruppe.
Danach geht die Verarbeitung weiter zum Schritt S52, wo der Erhaltungsabschnitt 80 das Wörterbuch im Wörterbuch-Speicherabschnitt 74 auf Basis des Trefferblatts aktualisiert, wonach die Verarbeitung endet (Schritt SP54).
Anders ausgedrückt erkennt in diesem Fall der Erhaltungsabschnitt 80 das neue repräsentative Mitglied der ermittelten Gruppe unter Bezug auf das Trefferblatt, und erkennt außerdem die Phonem-Reihe des repräsentativen Mitglieds. Danach ändert der Erhaltungsabschnitt 80 die Phonem-Reihe eines Eintrags entsprechend der ermittelten Gruppe im Wörterbuch auf die Phonem-Reihe des neuen repräsentativen Mitglieds der ermittelten Gruppe.
Nun wird der Gruppenunterteilungsprozess im Schritt SP47 in 21 gemäß der Gruppenunterteilungs-Prozessroutine RT4, welche in 22 gezeigt ist, durchgeführt.
Das heißt, im Tonerkennungs-Verarbeitungsabschnitt 60, wobei die Verarbeitung vom Schritt SP46 zum Schritt SP47 in 22 weiterläuft, beginnt die Gruppenunterteilungs-Prozessroutine RT4 im Schritt SP60, und zunächst wählt im Schritt S61 der Gruppenbildungsabschnitt 78 eine Kombination von zwei beliebigen Mitgliedern aus, welche von der ermittelten Gruppe ausgewählt werden, der die neuen nicht registrierten Wörter als Mitglieder hinzugefügt sind, wobei jedes davon ein vorläufiges repräsentatives Mitglied ist. Es sei hier angemerkt, dass diese beiden vorläufigen repräsentativen Mitglieder bezeichnet werden als "erstes vorläufiges repräsentatives Mitglied" und "zweites vorläufiges repräsentatives Mitglied", immer dann, wenn dies anschließend passend anwendbar ist.
Danach beurteilt im folgenden Schritt S62 der Gruppenbildungsabschnitt 78, ob oder nicht das Mitglied der ermittelten Gruppe in zwei Gruppen unterteilt werden kann, so dass das erste vorläufige repräsentative Mitglied und das zweite vorläufige repräsentativ Mitglied entsprechend zum repräsentativen Mitglied gemacht werden können.
In diesem Stadium ist es notwendig, die Berechnung der Gleichung (1) durchzuführen, um zu bestimmen, ob oder nicht das erste oder das zweite vorläufige repräsentative Mitglied zum repräsentativen Mitglied gemacht werden kann, und der Treffer s(K', k), welcher für diese Berechnung verwendet werden kann, unter Bezugnahme auf das Trefferblatt erkannt werden.
Wenn im Schritt S62 beurteilt wird, dass es unmöglich ist, das Mitglied in der ermittelten Gruppe in zwei Gruppen zu unterteilen, so dass das erste vorläufige repräsentative Mitglied und das zweite vorläufige repräsentative Mitglied entsprechend zum repräsentativen Mitglied gemacht werden können, geht die Verarbeitung weiter zum Schritt S64, wobei der Schritt S62 übersprungen wird.
Wenn dagegen im Schritt S62 beurteilt wird, dass es möglich ist, das Mitglied der ermittelten Gruppe in zwei Gruppen zu unterteilten, so dass das erste vorläufige repräsentative Mitglied und das zweite vorläufige repräsentative Mitglied entsprechend zum repräsentativen Mitglied gemacht werden können, geht die Verarbeitung weiter zum Schritt S63, danach unterteilt der Gruppenbildungsabschnitt 78 das Mitglied der ermittelten Gruppe in zwei Gruppen, so dass das erste vorläufige repräsentative Mitglied und das vorläufige repräsentative Mitglied entsprechend zum repräsentativen Mitglied gemacht werden können, wobei ein Paar der unterteilten beiden Gruppen zu Kandidaten für die erste und die zweite Hilfsgruppe gemacht werden, als Ergebnis der Unterteilung der ermittelten Gruppe (sie werden anschließend, wenn geeignet als "Paar von Kandidatengruppen" bezeichnet), wonach die Verarbeitung zum Schritt S64 weitergeht.
Im Schritt S64 beurteilt der Gruppenbildungsabschnitt 78, ob oder nicht es noch ein Paar von zwei Mitgliedern, gibt, welche nicht als Paar der ersten und zweiten vorläufigen Mitglieder in den Mitgliedern der ermittelten Gruppe sind, und, wenn beurteilt wird, kehrt die Verarbeitung zurück zum Schritt S61, wo die Auswahl eines Paars von zwei Mitgliedern der ermittelten Gruppe gemacht wird, welche noch nicht als Paar der ersten und zweiten vorläufigen repräsentativen Mitglieder ausgewählt wurden, wonach eine ähnliche Verarbeitung danach wiederholt wird.
Wenn außerdem im Schritt S64 beurteilt wird, dass es kein Paar von zwei Mitgliedern der ermittelten Gruppe gibt, welche noch nicht als ein Paar der ersten und zweiten vorläufigen repräsentativen Mitglieder ausgewählt wurde, geht die Verarbeitung weiter zum Schritt S65, wo der Gruppenbildungsabschnitt 78 beurteilt, ob oder nicht es ein Paar von Kandidatengruppen gibt.
Wenn im Schritt S65 beurteilt wird, dass es kein Paar von Kandidatengruppen gibt, kehrt die Verarbeitung zurück, wobei der Schritt S66 übersprungen wird. In diesem Fall wird im Schritt S48 in 21 beurteilt, dass die ermittelte Gruppe nicht unterteilt werden konnte.
Wenn dagegen im Schritt S65 beurteilt wird, dass ein Paar von Kandidatengruppen existiert, läuft die Verarbeitung weiter zum Schritt S66, wo der Gruppenbildungsabschnitt 78 den Intergruppenabstand zwischen zwei Gruppen jedes Paars von Kandidatengruppen erlangt, wo es mehrere Paare an Kandidatengruppen gibt. Danach erlangt der Gruppenbildungsabschnitt 78 ein Paar von Kandidatengruppen, bei denen der Intergruppenabstand der kleinste ist, und das Paar an Kandidatengruppen wird unterteilt, um die erste und zweite Hilfsgruppe zu erzeugen, wonach die Verarbeitung zurückkehrt. Es sei angemerkt, dass in dem Fall, wo es lediglich das eine Paar von Kandidatengruppen gibt, diese zur ersten und zweiten Hilfsgruppe unverändert gemacht werden.
In diesem Fall wird im Schritt S48 in 21 beurteilt, dass das Unterteilen der ermittelten Gruppe erfolgreich durchgeführt wurde.
Da wie oben im Gruppenbildungsabschnitt 78 eine Gruppe (eine ermittelte Gruppe), der ein nicht registriertes Wort ein neues Mitglied hinzugefügt ist, von den Gruppen ermittelt wird, für welche die Gruppenbildung des schon erlangten nicht registrierten Worts durchgeführt wird, und mit dem neuen nicht registrierten Wort als neues Mitglied der ermittelten Gruppe die ermittelte Gruppe auf Basis der Mitglieder der ermittelten Gruppe unterteilt wird, ist es einfach, das nicht registrierte Wort in diejenigen (Gruppen) zu gruppieren, bei denen akustische Eigenschaften analog eng zueinander sind.
Da außerdem das Wörterbuch auf Basis der Ergebnisse dieser Gruppenbildung im Erhaltungsabschnitt 80 aktualisiert werden muss, ist es einfach, das Registrieren eines nicht registrierten Worts im Wörterbuch durchzuführen, um somit zu verhindern, dass dieses allzu groß wird.
Wenn außerdem beispielsweise der Tonabschnitt eines nicht registrierten Worts im Zuordnungsabschnitt 72 falsch ermittelt wurde, wird dieses nicht registrierte Wort in eine andere Gruppe separat vom nicht registrierten Wort gruppiert, bei dem der Tonabschnitt korrekt ermittelt wurde, wobei die ermittelte Gruppe unterteilt wird. Dann muss ein Eintrag entsprechend dieser Gruppe im Wörterbuch registriert werden, jedoch, da die Phonem-Reihe dieses Eintrags des Tonabschnitts, der nicht korrekt ermittelt wurde, entspricht, kommt es niemals vor, dass es einen großen Treffer im in der zukünftigen Tonerkennung gibt. Daher, sollte beispielsweise der Tonabschnitt eines nicht registrierten Worts falsch ermittelt worden sein, gibt dieser Fehler fast keinen Einfluss auf die zukünftige Tonerkennung.
Nun zeigt 23 das Ergebnis der Gruppenbildung, welches durch Aussprechen eines nicht registrierten Worts erlangt wird. Es sei angemerkt, dass jeder Eintrag (jede Reihe) in 23 eine Gruppe zeigt. Außerdem zeigt die linke Spalte von 23 die Phonem-Reihe der repräsentativen Gruppe (eines nicht registrierten Worts) jeder Gruppe und die rechte Spalte von 23 den Inhalt und die Nummer nicht registrierter Wörter, welche mit Mitglieder jeder Gruppe sind.
Das heißt, dass in 23 der Eintrag auf der ersten Reihe beispielsweise eine Gruppe zeigt, bei der das Mitglied die einzige Äußerung eines nicht registrierten Wortes "furo (bath)" ist, und dass sie die Phonem-Reihe dieses repräsentativen Mitglieds "doroa:" zeigt. Außerdem zeigt der Eintrag auf der zweiten Reihe beispielsweise eine Gruppe, bei der Mitglieder drei Äußerungen eines nicht registrierten Worts "furo" sind, und die Phonem-Reihe dieses repräsentativen Mitglieds ist "kuro".
Weiter zeigt der Eintrag auf beispielsweise der siebten Reihe eine Gruppe, von der Mitglieder vier Äußerungen eines nicht registrierten Worts "hon (Buch)" sind, und die Phonem-Reihe dieses repräsentative Mitglied ist "NhoNde: su

Außerdem zeigt der Eintrag auf beispielsweise der achten Reihe eine Gruppe, von welcher Mitglieder einer Äußerung eines nicht registrierten Worts sind "orenji (orange)" und neunzehn (19) Äußerungen eines nicht registrierten Worts "hon (Buch)", und dass die Phonem-Reihe dieses repräsentativen Mitglieds ist "ohoN"
Die anderen Einträge zeigen ähnliche Dinge.
Gemäß 23 kann man ersehen, dass das Gruppenbilden passend zur Äußerung des gleichen nicht registrierten Worts durchgeführt wird.
Wie der Eintrag in der achten Reihe in 23 sind eine Äußerung eines nicht registrierten Worts "orenji (orange)" und neunzehn Äußerungen eines nicht registrierten Wortes hon (Buch)" in die gleiche Gruppe gruppiert. Im Hinblick auf die Äußerung wird angenommen, ein Mitglied der Gruppe zu sein, dass diese Gruppe die Gruppe des nicht registrierten Worts "hon" sein sollte, jedoch, die Äußerung des nicht registrierten Worts "orenji" ist ebenfalls ein Mitglied dieser Gruppe. Da die Äußerung des nicht registrierten Worts "hon" weiterhin zugeführt gehalten wird, wird diese Gruppe ebenfalls unterteilt, durch Gruppenbildung, was zu einer ID führt, dass die Gruppenbildung in einer Weise durchgeführt werden kann, um eine Gruppe zu erzeugen, bei der das Mitglied die Äußerung des nicht registrierten Worts "hon" ist, und eine Gruppe, von der das Mitglied die Äußerung des nicht registrierten Worts "orenji" ist.
(4-2) Konkreter Aufbau des Gesichtserkennungsabschnitts 62
Anschließend wird eine Erläuterung hinsichtlich des konkreten Aufbaus des Gesichtserkennungsabschnitts 62 angegeben.
Wie in 24 und 25 gezeigt ist, um in der Lage zu sein, innerhalb einer vorher festgelegten Zeitperiode unter einer dynamisch sich variierenden Umgebung zu antworten, umfasst der Gesichtserkennungsabschnitt 62 einen Gesichtsextraktions-Verarbeitungsabschnitt 90, um ein Gesichtsmuster von einem Bild zu extrahieren, auf Basis eines Videosignals S1A, welches von der CCD-Kamera (5) geliefert wird, und einen Gesichtserkennungs-Verarbeitungsabschnitt 91, um ein Gesicht auf Basis des extrahierten Gesichtsmusters zu erkennen. Bei dieser Ausführungsform wird das "Gaborfiltern" für die Gesichtsextraktions-Verarbeitung verwendet, um ein Gesichtsmuster zu extrahieren, und die "Unterstützungsvektormaschine: SVM" für den Gesichtserkennungsverarbeitung, um ein Gesicht vom Gesichtsmuster zu erkennen.
Dieser Gesichtserkennungsabschnitt 62 ist mit einer Lernstufe versehen, wo der Gesichtserkennungs-Verarbeitungsabschnitt 91 ein Gesichtsmuster erlernt, und einer Erkennungsstufe, um ein Gesichtsmuster zu erkennen, welches vom Videosignal S1A extrahiert wird, auf Basis der erlernten Daten.
24 zeigt die Aufbau der Lernstufe des Gesichtserkennungsabschnitts 62, und 25 den Aufbau der Erkennungsstufe des Gesichtserkennungsabschnitts 62.
Wie in 24 gezeigt ist, wird in der Erlernungsstufe das Ergebnis eines Gesichtes, welches von den eingefangenen Benutzerbildern extrahiert wird, welche von der CCD-Kamera (5) im Gesichtsextraktions-Verarbeitungsabschnitt 90 zugeführt werden, welches aus Gabor-Filtern besteht, dem Gesichtserkennungs-Verarbeitungsabschnitt 91 zugeführt, der aus der Unterstützungsvektormaschine zusammengesetzt ist. Im Gesichtserkennungs-Verarbeitungsabschnitt 91 wird eine temporäre Unterscheidungsfunktion unter Verwendung der Daten erlangt, zum Erlernen, welche von außerhalb zugeführt werden, d. h. Lehrer-Daten.
Wie außerdem in 25 gezeigt ist, wird in der Unterscheidungsstufe das Ergebnis einer Gesichtsextraktion im Gesichtsextraktions-Verarbeitungsabschnitt 90 von dem Gesicht einer Person innerhalb eines Bilds auf Basis des Videosignals S1A, welches von der CCD-Kamera 50 zugeführt wird, dem Gesichtserkennungs-Verarbeitungsabschnitt 91 zugeführt. Im Gesichtserkennungs-Verarbeitungsabschnitt 91 wird ein Gesicht ermittelt, wobei die temporäre erlangte Unterscheidungsfunktion mit Bildern hinsichtlich einer Variation der Datenbank getestet wird. Dann wird das, was erfolgreich ermittelt wurde, als Gesichtsdaten ausgegeben. Wenn die Ermittlung fehlgegangen ist, werden den Lerndaten als Nichtgesichtdaten hinzugefügt, und es wird weiteres Erlernen durchgeführt.
Eine ausführliche Erläuterung wird anschließend hinsichtlich des Gabor-Filterprozesses im Gesichtsextraktions-Verarbeitungsabschnitt 90 angegeben, und die Unterstützungsvektormaschine im Gesichtserkennungsabschnitt 91.
(4-2-1) Gaborfilterprozess
Es ist bereits bekannt, dass bei den optischen Zellen eines Menschen Zellen existieren, welche Selektivität in Richtung einer bestimmten spezifischen Richtung haben. Diese selektiven Zellen bestehen aus Zellen, welche auf eine vertikale Zeile ansprechen und Zellen, welche auf eine horizontale Zeile ansprechen. Somit ist das Gabor-Filtern ein räumliches Filtern, welches aus mehreren Filtern zusammengesetzt ist, welche Richtungsselektivität haben.
Das Gabor-Filtern wird räumlich durch Gabor-Funktionen ausgedrückt. Eine Gabor-Funktion g(x, y) ist, wie in der folgenden Gleichung gezeigt ist, aus einem Träger s(x, y) gebildet, der aus einer Kosinuskomponente und einer zweidimensionalen analytischen Gauss-Hüllkurve W_r(a, y) zusammengesetzt ist. g(x, y) = s(x, y)wr(x, y) (3)
Der Träger s(x, y) wird ausgedrückt, wie in der folgenden Gleichung 84), unter Verwendung mehrerer Funktion. Hier zeigt der Koordinatenwert (u₀, v₀) die räumliche Frequenz, und der Wert P die Phase der Kosinuskomponente.
Hier kann der Träger, wie in der folgenden Gleichung gezeigt ist s(x, y) = exp(j(2π(u0x + v0y) + P)) (4)wie in der folgenden Gleichung gezeigt ist Re(s(x, y)) = cos(2π(u0x + v0y) + P) Im(s(x, y)) = sin(2π(u0x + v0y) + P) (5)in eine reale Komponente Re (s(x, y) und in eine imaginäre Komponente Im (s(x, y) getrennt werden.
Dagegen kann unter Verwendung der folgenden Gleichung die Hüllkurve, welche aus der zweidimensionalen Gauss-Verteilung zusammengesetzt ist, wie nachstehend ausgedrückt werden: Wr(x, y) = K exp(–π(a2(x – x0)r 2 + b2(y – y0)r 2)) (6)
Hier ist die Koordinatenachse (x₀, y₀) der Spitzenwert der Funktion, die Konstanten a und b die Skalierungsparameter der Gauss-Verteilung. Wie außerdem in der folgenden Gleichung gezeigt ist, bezeichnet das tiefgestellte Zeichen _r die Drehoperation. (x – x0)r = (x – x0)cos θ + (y – y0)sin θ (y – y0)r = –(x – x0)sin θ + (y – y0)cos θ (7)
Daher kann gemäß den oben erwähnten Gleichungen (4) und (6) das Gabor-Filter als räumliche Funktionen ausgedrückt werden, wie in der folgenden Gleichung gezeigt ist: g(x, y) = K exp(–π(a2(x – x0)r 2 + b2(y – y0)r 2)) exp(j(2π(u0x + u0y) + P)) (8)
Der Gesichtsextraktions-Verarbeitungsabschnitt 90 führt bei dieser Ausführungsform den Gesichtsextraktionsprozess unter Verwendung einer Gesamtzahl von 24 Gabor-Filtern unter Verwendung von acht Richtungsarten und drei Arten von Frequenzen durch.
Die Antwort des Gabor-Filters wird in der folgenden Gleichung dargestellt, wobei G_i das i-te Gabor-Filter ist, das Ergebnis (Gabor-Strahl) des i-ten Gabor j_i ist, und ein zugeführtes Bilds I ist: Ji(x, y) = Gi(x, y) ⊕ I(x, y) (9)
In der Praxis kann die Arbeitsweise der Gleichung (9) unter Verwendung der Hochgeschwindigkeits-Fourier-Transformation beschleunigt werden.
Die Leistung des hergestellten Gabor-Filters kann dadurch geprüft werden, dass die Pixel, welche als Ergebnis des Filters erlangt werden, rekonfiguriert werden. Die folgende Gleichung:
zeigt das rekonfigurierte Bild H.
Ein Fehler E, der zwischen dem zugeführten Bild I und dem rekonfigurierten Bild H auftritt, wird durch die folgende Gleichung zum Ausdruck gebracht:
Die Rekonfiguration kann verfügbar sein, indem das geeignetste a erlangt wird, um diesen Fehler E zum geringsten zu machen.
(4-2-2) Unterstützungsvektormaschine
Bei dieser Ausführungsform wird wie bei der Gesichtserkennung im Gesichtserkennungs-Verarbeitungsabschnitt 91 die Gesichtserkennung unter Verwendung einer Unterstützungsvektormaschine (SVM) durchgeführt, von welcher die universelle Erlemungsleistung die höchste auf dem Gebiet der Mustererkennung sein soll.
Wie für die SVM selbst kann Referenz gemacht werden in Bezug auf die Berichte von B. Sholkopf et al beispielsweise. (B. Sholkoph, C. Burges, A. Smola, "Advance in Kernel Support Vector Learning", The MIT Press, 1999). Gemäß den Ergebnissen vorbereitender Versuche, die durch die Anmelderin der vorliegenden Erfindung durchgeführt wurden, wurde es deutlich, dass das Gesichtserkennungsverfahren unter Verwendung des SVM bessere Ergebnisse zeigt im Vergleich zu den Verfahren, wobei hauptsächlich Komponentenanalyse (PCA) und neurale Netzwerke verwendet werden.
Bei einer Erlernungsmaschine unter Verwendung einer linearen Unterscheidungsschaltung (Perseptron) kann die SVM auf einen nicht linearen Raum unter Verwendung von Kernel-Funktionen erweitert werden. Außerdem wird das Erlernen von Unterscheidungsfunktionen in einer Weise durchgeführt, um die maximale Grenze der Trennung unter Klassen herzunehmen, wodurch es ermöglicht wird, die Lösung zu erlangen, durch Lösen von zweidimensionaler mathematischer Programmierung, welche theoretisch den Erhalt der globalen Lösung sicherstellt.
Üblicherweise ist das Problem einer Mustererkennung, eine Unterscheidungsfunktion f(x) zu erlangen, die in der folgenden Gleichung angegeben wird, in Bezug auf eine Testprobe x = (x1, x2 ..., xn):
Hier wird die Lehrersignatur für SVM-Erlernen wie in der folgenden Gleichung ausgedrückt: y = (y1, y2, ..., yn) (13)
Dann kann die Erkennung eines Gesichtsmusters mit SVM als ein Problem erfasst werden, das Quadrat des Wichtungsfaktors w unter dem Beschränkungszustand zu minimieren, der in der folgenden Gleichung gezeigt ist. y1(wrxi + b)z1 (14)
Dieses Problem, welches Beschränkungen hat, kann unter Verwendung des nicht definierten Lagrangian-Konstant-Verfahren gelöst werden. Das heißt, zunächst wird ein Lagrangian (Funktion) in die folgende Gleichung eingeführt:
Nachfolgend sollte, wie in der folgenden Gleichung:
gezeigt ist, partielle Differenzierung für jeweils von b und w durchgeführt werden.
Als Ergebnis kann die Unterscheidung eines Gesichtsmusters bei SVM als ein sekundäres Ebenenproblem eingefangen werden, wie in der folgenden Gleichung gezeigt ist: max Σai – ¹ Σiaiyiyir xj einschränkende Bedingung: ai ≧ 0, Σaiyi = 0 (17)
Wenn die Anzahl an Dimensionen des kennzeichnenden Raums kleiner ist als die Anzahl von Übungsbeispielen, unter Einführung einer Kratzvariablen ξ ≥ 0, sollte die Einschränkungsbedingung geändert werden, wie in der folgenden Gleichung: yi(wrxi + b) ≧ 1 – ξi (18)
Wie bei der Optimierung wird in der folgenden Gleichung:
die objektive Funktion minimiert.
In dieser Gleichung (19) ist C ein Koeffizient, mit dem zu spezifizieren ist, bis zu welchem Ausmaß der Einschränkungszustand gelöst werden sollte, und dieser Wert muss experimentell bestimmt werden.
Das Problem hinsichtlich einer Lagranrian Konstante a wird in die folgende Gleichung abgeändert:
Mit dieser Gleichung (20), wenn sie unverändert ist, ist es unmöglich, das nicht lineare Problem zu lösen. Wenn dies der Fall ist, wird bei dieser Ausführungsform mit der Einführung einer Kernel-Funktion K(x, x³) diese einmal auf einen hochdimensionalen Raum (Kernel-Trick) abgebildet, der linear zu trennen ist. Daher ist dies gleich bedeutend, um nicht linear in den ursprünglichen Raum getrennt zu werden.
Die Kernel-Funktion wird wie in der folgenden Gleichung ausgedrückt, unter Verwendung einer bestimmten Karte ϕ: K(x, y) = Φ(x)r Φ(x1) (21)
Außerdem kann die Unterscheidungsfunktion, welche in der Gleichung (12) gezeigt ist, so wie in der folgenden Gleichung ausgedrückt werden: f(Φ(x)) = wrΦ(x) + b = ΣaiyiK(x, xi) + b (22)
Außerdem kann das Erlernen auch als sekundäres Ebenenproblem erfasst werden, wie in der folgenden Gleichung gezeigt ist:
Als Kernel kann ein Gauss-Kernel (RBF (Radius-Basis-Funktion)) usw., wie in der folgenden Gleichung gezeigt ist, verwendet werden:
Wie bei der Gabor-Filterung kann die Art eines Filters gemäß einer Erkennungsaufgabe geändert werden.
Es ist überflüssig, dass alle Bilder nach Filterung mit einem Vektor bei einer Tieffrequenzfilterung ausgestattet werden. Somit kann die Dimension eines Vektors durch Abwärtsabtastung vermindert werden. Die 24 Arten von Vektoren können abwärtsabgetastet werden, indem diese zu einem langen Vektor gemacht werden, der in einer Linie gebildet ist.
Bei dieser Ausführungsform, da der SVM, der bei der Kennung von Gesichtsmustern angewandt wird, ein Unterscheidungsorgan ist, welches einen charakteristischen Raum in zwei Räume unterteilt, wird außerdem das Erlernen in einer Weise durchgeführt, um zu beurteilen, ob ein zuprüfendes Gesicht eine "Person A", oder "keine Person A" ist. Daher werden die ersten Gesichtsbilder der Person A aus den Bildern in der Datenbank ausgesammelt, und dann wird ein Etikett "keine Person A" an den Vektor nach Gabor-Filterung angehängt. Allgemein ist es besser, dass die Anzahl von Gesichtsbildern, welche aufgesammelt werden, größer ist als die Abmessungen des charakteristischen Raums. In gleicher Weise ist bei einer Notwendigkeit einer Kennung der Gesichter von zehn Personen ein Unterscheidungsorgan für jede Person in einer Weise "Person B", "keine Person B", usw. angeordnet.
Dieses Erlernen trägt dazu bei, einen Unterstützungsvektor zu finden, der beispielsweise eine Trennung zwischen der "Person A" und einer "Person A" ausführt. Bei einem Unterscheidungsorgan, welches den kennzeichnenden Raum in zwei Räume unterteilt, erzeugt der SVM, wenn ein neues Gesichtsbild zugeführt wird, ein Ausgangssignal von Erkennungsergebnissen in Abhängigkeit davon, auf welcher Seite der Grenzfläche, welche den erhaltenen Unterstützungsvektor bildet, der Vektor der Gabor-Filterung existiert. Daher, wenn dies in dem Bereich der "Person A" in Bezug auf die Grenze ist, wird dies als "Person A" erkannt. In gleicher Weise, wenn diese im "Nichtperson A"-Bereich ist, wird dies als "Nicht-Person A" erkannt.
Ein Bereich wie ein Gesichtsbereich, der von Bildern herausgeschnitten ist, ist auf Basis des Videosignals S1A von der CCD-Kamer 50 nicht fixiert. Somit ist es möglich, dass das Gesicht an einem Punkt weg von der Kategorie projiziert werden kann, von der gewünscht wird, im kennzeichnenden Raum erkannt zu werden. Folglich ist es möglich, die Erkennungsrate zu verbessern, durch Ableiten von Teilen, die Kenndaten von Augen, Geräusch und des Munds haben, und durch Gestalten von diesen mittels ähnlicher Transformation.
Es ist auch möglich, das Laden des Urladeprogramms zu verwenden, um die Erkennungsfähigkeit zu steigern. Ein anderes Bild, welches separat von den Bildern aufgenommen wird, welches zum Erlernen verwendet wird, wird zum Laden des Urladeprogramms verwendet. Dies bedeutet, dass, wenn das Unterscheidungsorgan, welches beim Erlernen ein Ausgangssignal von falschen Erkennungsergebnissen erzeugt, das Erlernen durchgeführt wird, indem wiederum das zugeführte Bild in den Erlernungssatz eingegeben wird.
Ein anderes Verfahren, die Erkennungsleistung zu verbessern, besteht darin, die Zeit zu beobachten, welche bei Erkennungsergebnissen variiert. Das einfachste Verfahren kann sein, eine "Person A" zu erkennen, wenn die Person "Person A" achtmal von zehnmal erkannt wird. Weitere Vorhersageverfahren wurden vorgeschlagen, beispielsweise unter Verwendung von Kalman-Filtern.
(5) Arbeitsweisen und Effekte der vorliegenden Ausführungsform
Gemäß der obigen Ausbildung erlangt dieser Roboter 1 den Namen einer neuen Person über Dialog mit dieser neuen Person und speichert den Namen in Verbindung mit den Daten der akustischen Kenndaten der Sprache und den morphologischen Kenndaten des Gesichts dieser Person, welche ermittelt wurde, auf Basis des Ausgangssignals vom Mikrofon 51 und der CCD-Kamera 50, und erlernt im gleichen Zeitpunkt den Namen einer Person auf Basis verschiedener Abschnitt gespeicherter Daten, welche gespeichert wurden, wobei der Eintritt einer anderen neuen Person erkannt wird, deren Name noch nicht erlangt wurde, und wobei der Name erlangt und gespeichert wird, die akustischen Kenndaten der Sprache und der morphologischen Kenndaten des Gesichts der neuen Person in der gleichen Weise wie oben beschrieben werden.
Daher kann dieser Roboter 1 die Namen neuer Personen und Objekte usw. natürlich und über Dialog mit üblichen Personen, beispielsweise Menschen, wie es üblicherweise tun, erlernen, ohne die Notwendigkeit einer Namenregistrierung mit deutlichen Anzeichen von einem Benutzer mittels der Zuführung von Tonbefehlen und Betätigen von Berührungssensoren, usw..
Gemäß der obigen Ausbildung ist es möglich, den Namen einer neuen Person über Dialog mit dieser neuen Person zu erlangen und um den Namen in Verbindung mit den Daten der akustischen Kenndaten der Sprache und den morphologischen Kenndaten des Gesichts dieser Person, die ermittelt wurde, zu erlangen, auf Basis der Ausgangssignals vom Mikrofon 51, und der CCD-Kamera 50, und im gleichen Zeitpunkt den Namen einer Person auf Basis verschiedener Abschnitte gespeicherter Daten zu erlernen, wobei der Eintritt einer anderen neuen Person erkannt wird, deren Name noch nicht erlangt wurde, und wobei durch Erlangen und Speichern des Namens der akustischen Kenndaten der Sprache und der morphologischen Kenndaten des Gesichts der neuen Person, insoweit wie oben beschrieben, was erfolgreiches Erlernen der Namen der Personen zur Folge hat, wodurch es ermöglicht wird, Roboter zu realisieren, welche die Namen neuer Personen und Objekte erlernen können usw., natürlich über die Dialog mit üblichen Personen, wodurch deren Unterhaltungseigenschaft bemerkenswert verbessert wird.
(6) Moden anderer Ausführungsformen
Bei der obigen Ausführungsform wurde eine Erläuterung angegeben für den Fall, wo die vorliegende Erfindung bei einem zweibeinigen laufenden Roboter 1 angewandt wird, der wie in 1 aufgebaut ist, wobei die vorliegende Erfindung nicht darauf beschränkt ist, und breit auf verschiedene Arten anderer Robotervorrichtungen und Nicht-Robotervorrichtungen angewandt werden kann.
Bei der obigen Ausführungsform wurde eine Erläuterung für den Fall angegeben, wo der Name einer Person über Tondialog mit dieser Person über eine Dialogeinrichtung erlangt werden kann, welche eine Funktion hat, um mit einem Menschen einen Dialog zu führen und um den Namen eines Objekts, welches studiert werden soll, vom Menschen über den Dialog zu erlangen, wobei die Dialogeinrichtung den Tonerkennungsabschnitt 60, den Dialogsteuerabschnitt 63 und den Audiosynthesizer 64 aufweist, wobei die vorliegende Erfindung nicht darauf beschränkt ist, und die Dialogeinrichtung so aufgebaut sein kann, dass der Name einer Person über einen Persönlichkeitsdialog mittels Tastatureingabe beispielsweise erlangt werden kann.
Außerdem wird bei der obigen Ausführungsform eine Erläuterung für den Fall angegeben, wo ein Objekt zum Erlernen eines Namens ein Mensch ist, wobei die vorliegende Erfindung jedoch nicht darauf beschränkt ist, und eine Vielzahl anderer Dinge als Objekte zum Namenerlernen betrachtet werden kann, anstelle von und in Hinzufügung zu einem Menschen.
Wenn die obige Ausführungsform ausgeführt wird, wird die Erläuterung für den Fall angegeben, wo eine Person über die akustischen Kenndaten der Sprache und der morphologischen Kenndaten des Gesichts dieser Person und das Studium erkannt wird, und auf Basis der Ergebnisse davon, wie beurteilt wird, ob oder nicht diese Person eine neue Person ist, wobei die vorliegende Erfindung nicht darauf beschränkt ist, und anstelle davon in zuzüglich dazu diese Person durch mehrere andere Arten an Kenndaten erkannt werden kann, einschließlich Körperarten und Gerüchen beispielsweise, wodurch es ermöglicht wird, einen biologischen festen Körper zu erkennen, und auf Basis der Ergebnisse davon beurteilt werden kann, ob oder nicht diese Person eine neue Person ist. Auch, wenn ein unter Studium bestehendes Objekt zum Erlernen eines Namens ein fester Körper anders als ein Mensch ist, kann es ermöglicht sein, zu beurteilen, ob oder nicht dieses Objekt ein neues ist, auf Basis der Ergebnisse, welche als Ergebnis zum Erkennen dieses Körpers erlangt wird, von mehreren Arten von Kenndaten, beispielsweise Farben, Formen, Muster und Größen usw., wodurch es ermöglicht wird, diese von anderen Dingen zu unterscheiden. In diesem Fall können mehrere Erkennungseinrichtungen bereitgestellt sein, welche unterschiedliche und spezifische Kenndaten jedes Objekts ermitteln, und welche ein unter Studium bestehendes Objekt erkennen auf Basis der Ermittlungsergebnisse und der Kenndaten entsprechend der bekannten Objekte, welche vorher gespeichert sind.
Außerdem wird bei der obigen Ausführungsform eine Erläuterung für den Fall angegeben, wo der Speicher die Speichereinrichtung bildet, um verknüpfende Information in Bezug auf die Namen der bekannten Objekte und der Erkennungsergebnisse für die Objekte, welche durch jede der Erkennungseinrichtungen erlangt werden, wobei jedoch die vorliegende Erfindung nicht darauf beschränkt ist und eine Vielzahl an Speichereinrichtungen abweichend von dem Speicher breit verwendet werden können, um Information zu speichern, beispielsweise plattenförmige Aufzeichnungsmedien, welche Information speichern können.
Außerdem wird bei der obigen Ausführungsform eine Erläuterung für den Fall angegeben, wo der Lautsprecher-Erkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 Erkennungsprozesse durchführen, um eine Person unter Studium lediglich einmal zu erkennen, wobei die vorliegende Erfindung nicht darauf beschränkt ist, und in dem Fall wo die Erkennung unmöglich ist (SID= –1) können beispielsweise die Kennungsprozesse noch einmal durchgeführt werden, und in anderen Fällen auch können die Erkennungsprozesse mehrere Male durchgeführt werden. Die Genauigkeit von Erkennungsergebnissen kann durch diese Ausführung verbessert werden.
Außerdem wird bei der obigen Ausführungsform eine Erläuterung für den Fall angegeben, wo der Dialogsteuerabschnitt 63 beurteilt ob oder nicht eine Person unter Studium eine neue Person ist, über die Entscheidung einer Majorität von Erkennungsergebnissen, welche durch mehreren Erkennungseinrichtungen erzeugt werden (Tonerkennungsabschnitt 60, Lautsprecher-Erkennungsabschnitt 61 und Gesichtserkennungsabschnitt 62, wobei die vorliegende Erfindung jedoch nicht darauf beschränkt ist, und eine Beurteilung durchführt werden kann oder nicht, ob diese Person eine Person ist, auf Basis jedes Erkennungsergebnisses, welches durch mehrere Erkennungseinrichtungen erzeugt wird, unter Verwendung irgendeines Verfahrens abweichend von der Entscheidung einer Majorität.
In diesem Fall kann eine breite Vielfalt an Verfahren angewandt werden, beispielsweise ein Verfahren, wo Wichtung jedem Erkennungsergebnis der mehreren Erkennungseinrichtungen hinzugefügt wird, gemäß der Erkennungsfähigkeit einer jeden der Erkennungseinrichtungen und auf Basis der gewichteten Ergebnisse beurteilt werden kann, ob ein Zielobjekt ein neues ist oder nicht, und, wenn beurteilt wird, dass dies ein neue Person ist, auf Basis der Erkennungsergebnisse, welche durch eine Erkennungseinrichtung der höchsten Erkennungsfähigkeit und eine andere Erkennungseinrichtung erzeugt werden, verschiedene andere Verfahren angewandt werden können, wobei die Erkennungsergebnisse, welche durch andere Erkennungseinrichtungen erzeugt werden, nicht verwendet werden können.
Bei der obigen Ausführungsform wird eine Erläuterung für den Fall angegeben, bei dem, wenn der Lautsprecher-Erkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 eine Person korrekt erkennen können, ein Versuch durchgeführt wird, die Erkennungsgenauigkeit zu verbessern aufgrund von statistischer Stabilität, wobei zugelassen wird, dass der Lautsprecher-Erkennungsabschnitt 61 und der Gesichtserkennungsabschnitt 62 Zusatzlernen durchführen, wobei die vorliegende Erfindung nicht darauf beschränkt ist, und in gleicher Weise wie für verknüpfte Information, welche auch im Speicher 65 zu speichern ist, eine Funktion eingebaut sein kann, welche die Verlässlichkeit der verknüpften Information verbessern kann, indem veranlasst wird, dass diese die gleiche Kombination mit irgendeiner beliebigen Häufigkeit erlernen können. In der Praxis kann ein Verfahren unter Verwendung von neuralen Netzwerken als Verfahrensbeispiels dieser Funktionen verwendet werden, welche beschrieben ist in "Theses for the Academic Society for Electronic Information and Communication D-II, Band J82-DII, Nr. 6 Seite 1072 bis 1081".
Gemäß der obigen vorliegenden Erfindung umfasst die Erlernungseinrichtung: eine Dialogeinrichtung, welche die Fähigkeit hat, einen Dialog mit einem Menschen zu führen, um den Namen eines Zielobjekts vom Menschen über Dialog zu erlangen; mehrere Erkennungseinrichtungen, jede von diesen, um vorgeschriebene separate Kenndaten des Zielobjekts zu ermitteln und simultan das Zielobjekt auf Basis des Ermittlungsergebnisses und der Daten der Kenndaten entsprechend dem bekannten Objekt, welches vorher gespeichert ist, zu erkennen; eine Speichereinrichtung, um verknüpfende Information zu speichern, wobei der Name des bekannten Objekts und die Erkennungsergebnisse hinsichtlich des Objekts, welche durch die Erkennungseinrichtungen erlangt werden, miteinander verknüpft sind; eine Beurteilungseinrichtung, um zu beurteilen, ob oder nicht das Zielobjekt das neue Objekt ist, auf Basis des Namens des Zielobjekts, welches durch die Dialogeinrichtung erlangt wird, Erkennungsergebnissen in Bezug auf das Zielobjekt, welche durch jede der Erkennungseinrichtungen erlangt wird, und verknüpfender Information, welche in der Speichereinrichtung gespeichert ist; und eine Steuereinrichtung, um zu zulassen, dass Erkennungseinrichtung die Daten der Kenndaten entsprechend dem Zielobjekt speichern, wenn die Beurteilungseinrichtung beurteilt, dass das Zielobjekt das neue Objekt ist, und um simultan zu zulassen, dass die Speichereinrichtung die verknüpfte Information auf dem Zielobjekt speichert, wodurch es ermöglicht wird, zu realisieren, dass die Lerneinrichtung die Namen neuer Personen und Objekte erlernen kann, usw., natürlich über die Dialog mit üblichen Personen wie Menschen es normalerweise tun, wodurch deren Unterhaltungseigenschaft bemerkenswert verbessert wird.
Gemäß der vorliegenden Erfindung umfasst das Lernverfahren außerdem: den ersten Schritt einer Dialogführung mit einem Menschen und zum Erlangen des Namens eines Zielobjekts vom Menschen über den Dialog, und zum Ermitteln mehrerer vorgeschriebener separater Kenndaten des Zielobjekts und gleichzeitigen Erkennen des Zielobjekts auf Basis des Ermittlungsergebnisses und der Daten der Kenndaten des bekannten Objekts, welches vorher gespeichert wurde; den dritten Schritt zum Beurteilen, ob oder nicht das Zielobjekt das neue Objekt ist, auf Basis des Namens des Zielobjekts, welches erlangt wurde, von Erkennungsergebnissen auf Basis jeder der Kenndaten des Zielobjekts, und der verknüpften Information, wobei der Name des bekannten Objekts, der vorher gespeichert wurde, und die Erkennungsergebnisse eines Objekts, welche durch jede der Erkennungseinrichtungen erzeugt wurde miteinander verknüpft sind; und den vierten Schritt zum Speichern der Daten der Kenndaten des Zielobjekts und der verknüpftenden Information hinsichtlich des Zielobjekts, wenn beurteilt wird, dass das Zielobjekt das neue Objekt ist, wodurch es ermöglicht wird, Lernverfahren zu realisieren, welche die Namen neuer Personen und Objekte erlernen können, usw., natürlich über Dialog mit üblichen Personen wie Menschen es üblicherweise tun, wodurch deren Unterhaltungseigenschaft bemerkenswert verbessert werden kann.
Gemäß der vorliegenden Erfindung weist eine Robotervorrichtung außerdem auf: einen Dialogeinrichtung, die die Fähigkeit zum Führen eines Dialogs mit einem Menschen hat, um den Namen eines Zielobjekts vom Menschen über den Dialog zu erlangen; mehrere Erkennungseinrichtungen, wobei jede von diesen dazu ist, vorgeschriebene separate Kenndaten des Zielobjekts zu ermitteln, und simultan, um das Zielobjekt auf Basis des Ermittlungsergebnisses und der Daten der Kenndaten zu erkennen, welche dem bekannten Objekt, welches vorher gespeichert ist, entsprechen; eine Speichereinrichtung zum Speichern verknüpfender Information, wobei der Name des bekannten Objekts und die Erkennungsergebnisse hinsichtlich des Objekts, welche durch jede der Erkennungseinrichtungen erlangt werden, miteinander verknüpft sind; eine Beurteilungseinrichtung, um zu beurteilen, ob das Zielobjekt das neue Objekt ist oder nicht, auf Basis des Namens des Zielobjekts, welches durch die Dialogeinrichtung erlangt wird, der Erkennungsergebnisse hinsichtlich des Zielobjekts, welches durch jede der Erkennungseinrichtungen erlangt wird, und der verknüpften Information, welche in der Speichereinrichtung gespeichert ist; und wobei veranlasst ist, dass die Steuereinrichtung jeder der Erkennungseinrichtung die Daten der Kenndaten entsprechend dem Zielobjekt speichert, wenn die Beurteilungseinrichtung beurteilt, dass das Zielobjekt das neue Objekt ist, und um simultan zu zulassen, dass die Speichereinrichtung die verknüpfende Information hinsichtlich des Zielobjekts speichert, wodurch es ermöglicht ist, eine Robotervorrichtung zu realisieren, welche die Namen neuer Personen und Objekte usw. natürlich erlernen kann, über Dialog üblichen Personen, wie es Menschen normalerweise tun, wodurch die Unerhaltungseigenschaft bemerkenswert verbessert werden kann.
Industrielle Verwertbarkeit
Die vorliegende Erfindung wird für verschiedene Roboter angewandt, beispielsweise einen Unterhaltungsroboter, einen Personalcomputer ein Sicherheitssystem usw..

1: Roboter
40: Hauptsteuerabschnitt
50: CCD-Kamera
51: Mikrofon
54: Lautsprecher
60: Tonerkennungsabschnitt
61: Lautsprecher-Erkennungsabschnitt
62: Gesichtserkennungsabschnitt
63: Dialogsteuerabschnitt
64: Audiosynthesizer
65: Speicher
S1A: Videosignal
S1B3, S3: Audiosignal
D1, D2: Persönlichkeits-Zeichenfolgedaten
RT1: Namenlern-Verarbeitungsroutine

Claims

Lernvorrichtung, welche aufweist: eine Dialogeinrichtung (63, 64) zum Erlangen eines Namens eines Ziel-Objekts über Dialog; mehrere Erkennungseinrichtungen (60, 61, 62) zum Erfassen mehrerer Kenndaten des Ziel-Objekts und zum Erkennen des Ziel-Objekts auf Basis des Erfassungsergebnisses und entsprechender Kenndaten eines bekannten Objekts; eine Speichereinrichtung (65) zum Speichern verknüpfter Information in Bezug auf Erkennungsergebnisse der mehreren Erkennungseinrichtungen zu einem Namen des bekannten Objekts; eine Beurteilungseinrichtung (63) zum Beurteilen auf Basis des Namens des Ziel-Objekts, der durch die Dialogeinrichtung erlangt wird, von Erkennungsergebnissen der mehreren Erkennungseinrichtungen für das Ziel-Objekt, und der verknüpften Information, welche in der Speichereinrichtung gespeichert ist, ob oder nicht das Ziel-Objekt ein neues Objekt ist; und eine Steuereinrichtung (63) zum Speichern der mehreren Kenndaten bezüglich des Ziel-Objekts wie durch die Erkennungseinrichtung erfasst und zum Speichern verknüpfter Information bezüglich des Ziel-Objekts in der Speichereinrichtung, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt ein neues Objekt ist.
Lernvorrichtung nach Anspruch 1, wobei die Steuereinrichtung die Erkennungseinrichtung steuert, welche das Ziel-Objekt korrekt erkannt hat, um Zusatzlernen durchzuführen, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt das bekannte Objekt ist.
Lernvorrichtung nach Anspruch 1, wobei die Steuereinrichtung die Erkennungseinrichtung steuert, welche das Ziel-Objekt nicht korrekt erkannt hat, um Korrekturlernen durchzuführen, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt das bekannte Objekt ist.
Lernvorrichtung nach Anspruch 1, wobei die Beurteilungseinrichtung unter Bezugnahme auf die verknüpfte Information beurteilt, welche in der Speichereinrichtung gespeichert ist, ob das Ziel-Objekt ein neues Objekt ist oder nicht, durch eine Majoritätsentscheidung des Namens des Ziel-Objekts, der durch die Dialogeinrichtung erlangt wird, und Erkennungsergebnissen der Erkennungseinrichtung für das Objekt.
Lernvorrichtung nach Anspruch 1, wobei die Steuereinrichtung die Dialogeinrichtung steuert, den Dialog nach Bedarf in die Länge zu ziehen.
Lernverfahren, welches aufweist: einen Dialogschritt zum Erlangen eines Namens eines Ziel-Objekts über Dialog; mehrere Erkennungsschritte zum Erfassen mehrerer Kenndaten des Ziel-Objekts und zum Erkennen des Ziel-Objekts auf Basis des Erfassungsergebnisses und entsprechender Kenndaten eines bekannten Objekts; einen Speicherschritt zum Speichern verknüpfter Information bezüglich Erkennungsergebnissen der mehreren Erkennungsschritte zu einem Namen des bekannten Objekts; einen Beurteilungsschritt zum Beurteilen auf Basis des Namens des Ziel-Objekts, der durch die Dialogeinrichtung erlangt wird, von Erkennungsergebnissen der mehreren Erkennungsschritte über das Ziel-Objekt, und der verknüpften Information, welche in der Speichereinrichtung gespeichert ist, ob das Ziel-Objekt ein neues Objekt ist oder nicht; und einen Steuerschritt zum Speichern der mehreren Kenndaten bezüglich des Ziel-Objekts wie durch die Erkennungsschritte erfasst und zum Speichern verknüpfter Information bezüglich des Ziel-Objekts in der Speichereinrichtung, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt ein neues Objekt ist.
Lernverfahren nach Anspruch 6, wobei im Steuerschritt – wenn das Ziel-Objekt als das bekannte Objekt beurteilt wird – Zusatzlernen für die Kenndaten des Ziel-Objekts, welche als korrekt erkannt wurden, durchgeführt wird.
Lernverfahren nach Anspruch 6, wobei im Steuerschritt – wenn das Ziel-Objekt als das bekannte Objekt beurteilt wird – Korrekturlernen für die Kenndaten des Ziel-Objekts, welche nicht korrekt erkannt wurden, durchgeführt wird.
Lernverfahren nach Anspruch 6, wobei im Beurteilungsschritt unter Bezugnahme auf die verknüpfte Information beurteilt wird, ob das Ziel-Objekt ein neues Objekt ist oder nicht, durch eine Majoritätsentscheidung des Namens des Ziel-Objekts und Erkennungsergebnissen in Bezug auf die Kenndaten des Objekts.
Lernverfahren nach Anspruch 6, wobei im Dialogschritt der Dialog nach Bedarf in die Länge gezogen wird.
Robotervorrichtung (1), welche aufweist: eine Dialogeinrichtung (63, 64) zum Erlangen eines Namens eines Ziel-Objekts über Dialog; mehrere Erkennungseinrichtungen (60, 61, 62) zum Erfassen mehrerer Kenndaten des Ziel-Objekts und zum Erkennen des Ziel-Objekts auf Basis des Erfassungsergebnisses und entsprechender Kenndaten eines bekannten Objekts; eine Speichereinrichtung (65) zum Speichern verknüpfter Information in Bezug auf Erkennungsergebnisse der mehreren Erkennungseinrichtungen zu einem Namen des bekannten Objekts; eine Beurteilungseinrichtung (63) zum Beurteilen auf Basis des Namens des Ziel-Objekts, der durch die Dialogeinrichtung erlangt wird, von Erkennungsergebnissen der mehreren Erkennungseinrichtungen für das Ziel-Objekt, und der verknüpften Information, welche in der Speichereinrichtung gespeichert ist, ob oder nicht das Ziel-Objekt ein neues Objekt ist; und eine Steuereinrichtung (63) zum Speichern der mehreren Kenndaten bezüglich des Ziel-Objekts wie durch die Erkennungseinrichtung erfasst und zum Speichern verknüpfter Information bezüglich des Ziel-Objekts in der Speichereinrichtung, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt ein neues Objekt ist.
Robotervorrichtung nach Anspruch 11, wobei die Steuereinrichtung die Erkennungseinrichtung steuert, welche das Ziel-Objekt korrekt erkannt hat, um Zusatzlernen durchzuführen, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt das bekannte Objekt ist.
Robotervorrichtung nach Anspruch 11, wobei die Steuereinrichtung die Erkennungseinrichtung steuert, welche das Zielobjekt nicht korrekt erkannt hat, um Korrekturlernen durchzuführen, wenn die Beurteilungseinrichtung beurteilt, dass das Ziel-Objekt das bekannte Objekt ist.
Robotervorrichtung nach Anspruch 11, wobei die Beurteilungseinrichtung unter Bezugnahme auf die verknüpfte Information beurteilt, welche in der Speichereinrichtung gespeichert ist, ob das Ziel-Objekt ein neues Objekt ist oder nicht, durch eine Majoritätsentscheidung des Namens des Ziel-Objekts, der durch die Dialogeinrichtung erlangt wird, und Erkennungsergebnissen der Erkennungseinrichtung für das Objekt.
Robotervorrichtung nach Anspruch 11, wobei die Steuereinrichtung die Dialogeinrichtung steuert, um den Dialog nach Bedarf in die Länge zu ziehen.