DE60115653T2 - Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten - Google Patents

Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten Download PDF

Info

Publication number
DE60115653T2
DE60115653T2 DE60115653T DE60115653T DE60115653T2 DE 60115653 T2 DE60115653 T2 DE 60115653T2 DE 60115653 T DE60115653 T DE 60115653T DE 60115653 T DE60115653 T DE 60115653T DE 60115653 T2 DE60115653 T2 DE 60115653T2
Authority
DE
Germany
Prior art keywords
emotions
features
emotional
feature
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60115653T
Other languages
English (en)
Other versions
DE60115653D1 (de
Inventor
Raquel Heinrich-Hertz-Str. 1 Tato
Thomas Heinrich-Hertz-Str. 1 Kemp
Krzysztof Heinrich-Hertz-Str. 1 Marasek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Deutschland GmbH filed Critical Sony Deutschland GmbH
Application granted granted Critical
Publication of DE60115653D1 publication Critical patent/DE60115653D1/de
Publication of DE60115653T2 publication Critical patent/DE60115653T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Description

  • Die Erfindung bezieht sich auf ein Verfahren zum Erfassen von Emotionen und insbesondere auf ein Verfahren zum Erfassen von Emotionen aus einem Spracheingang durch das Einbeziehen von sogenannten Unterraum-Spezialisten.
  • In vielen Anwendungen ist es erwünscht, den momentanen emotionalen Zustand eines menschlichen Sprechers, z. B. eines Anwenders einer Ausrüstung oder dergleichen, zu erfassen. Viele Verfahren, um den emotionalen Zustand eines Menschen zu erfassen, sind beschrieben worden. Viele dieser bekannten Verfahren verwenden und evaluieren verschiedene Quellen der Merkmale, visuelle Quellen, akustische Quellen und andere physiologische Quellen, z. B. die Spannung, die Feuchtigkeit und die Temperatur der Haut, den Blutdruck, die Rate des Herzschlags und/oder dergleichen.
  • In dem Fall des akustischen Spracheingangs ist jedoch die Erfassung der Emotionen ein sehr schwieriges Problem, weil die Varianz zwischen den Sprechern der emotionalen Sprache sehr hoch ist. Deshalb könnte die Evaluierung einer einzelnen Merkmalsklasse des Spracheingangs nicht ausreichend sein, um einen momentanen emotionalen Zustand eines menschlichen Sprechers in einer sicheren Weise zu erfassen.
  • "Describing the emotional states expressed in speech" von Roddy Cowie, ISCA Workshop on Speech and Emotion, Belfast 2000, S. 1 bis 8, betrifft die Beschreibung emotionaler Zustände, die in Sprache ausgedrückt sind. Um den emotionalen Zustand zu beschreiben, wird vorgeschlagen, einen Aktivierungs-Evaluierungs-Raum zu verwenden. Das zitierte Dokument lehrt jedoch nicht, wie dieser Aktivierungs-Evaluierungs-Raum verwendet werden kann, um Emotionen aus akustischer Sprache in einer effizienten Weise zu erfassen und folglich eine niedrige Fehlerrate für die Erfassung von Emotionen zu erhalten.
  • Ferner ist ein Überblick über Sprache und Emotion in Cowie u. a., "Emotion Recognition in Human-Computer Interaction", IEEE Signal Processing Maga zine, Jan. 2001, S. 32–80, dargestellt.
  • Es ist eine Aufgabe der Erfindung, ein Verfahren zum Erfassen von Emotionen aus akustischer Sprache zu schaffen, bei dem der Fehler einer derartigen Erfassung besonders niedrig ist und die Erfassung selbst genauer und verfeinerter ist.
  • Diese Aufgabe wird durch ein Verfahren zum Erfassen von Emotionen mit den kennzeichnenden Merkmalen des Anspruchs 1 gelöst. Die Aufgabe wird außerdem sowohl durch ein System, um das Verfahren auszuführen, gemäß den Merkmalen des Anspruchs 7 als auch durch ein Computerprogrammprodukt gemäß den Merkmalen des Anspruchs 8 gelöst. Bevorzugte Ausführungsformen des Verfahrens der Erfindung zum Erfassen von Emotionen liegen innerhalb des Umfangs der entsprechenden abhängigen Unteransprüche.
  • Die Erfindung basiert auf der Feststellung und der Annahme, dass die verschiedenen menschlichen Emotionen und Affekte in einem mehrdimensionalen Raum – insbesondere in zwei Dimensionen – dargestellt werden können und dass jede oder beide Dimensionen für die Klassifizierung und Erkennung relevant sind.
  • Gemäß der Erfindung werden beim Verfahren zum Erfassen von Emotionen aus einem Spracheingang – insbesondere von wenigstens einem Sprecher – wenigstens eine erste Merkmalsklasse und eine zweite Merkmalsklasse von Merkmalen wenigstens teilweise aus einem gegebenen Spracheingang evaluiert, abgeleitet und/oder extrahiert. Aus den Merkmalen und/oder den Parametern hiervon werden ein momentaner emotionaler Zustand eines momentanen Sprechers und/oder Parameter hiervon abgeleitet. Die ersten und zweiten Merkmalsklassen werden mit insbesondere unterschiedlichen Dimensionen einer zugrundeliegenden emotionalen Mannigfaltigkeit oder eines zugrundeliegenden emotionalen Raums und/oder Unterräumen hiervon identifiziert und/oder insbesondere unterschiedlichen Dimensionen einer zugrundeliegenden emotionalen Mannigfaltigkeit oder eines zugrundeliegenden emotionalen Raums und/oder Unterräumen hiervon zugeordnet, insbesondere bei Aktivierung oder Erregung bzw. Evaluierung oder Freude.
  • Es ist deshalb eine Schlüsselidee der Erfindung, die unterschiedlichen ersten und zweiten Merkmalsklassen mit den Dimensionen einer gegebenen emotionalen Mannigfaltigkeit, eines gegebenen emotionalen Raums und/oder Unterräumen hiervon zu identifizieren und/oder den Dimensionen einer gegebenen emotionalen Mannigfaltigkeit, eines gegebenen emotionalen Raums und/oder Unterräumen hiervon zuzuordnen. Im Gegensatz zu den Verfahren des Standes der Technik, um Emotionen aus Sprache zu erfassen, umfasst die Erfindung nicht nur mehrere Merkmalsklassen, sondern sie identifiziert außerdem diese Merkmalsklassen mit den Dimensionen der emotionalen Mannigfaltigkeit oder des emotionalen Raums und bildet deshalb diese Merkmalsklassen auf die Dimensionen der emotionalen Mannigfaltigkeit oder des emotionalen Raums ab, um eine Verfeinerung der Beschreibung der Merkmale und deshalb eine Verfeinerung des Erfassungsprozesses der emotionalen Zustände des Sprechers zu liefern. Dies kann anhand der verschiedenen Grade der Komplexität für jede Dimension ausgeführt werden.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung wird vorgeschlagen, für jede Merkmalsklasse, für jede Dimension/jeden Unterraum der emotionalen Mannigfaltigkeit und/oder für Gruppen hiervon in jedem Fall einen separaten und/oder unterschiedlichen Spezialisten – insbesondere Unterraum-Spezialisten oder dergleichen – oder ein spezialisiertes Klassifizierersystem zu verwenden und/oder zu konstruieren. Jedes der spezialisierten Klassifizierersysteme ist insbesondere beschaffen, um Merkmale im Prinzip aus einer zugewiesen Merkmalsklasse und/oder aus einer zugewiesen Dimension oder einem zugewiesen Unterraum der Emotionen zu erhalten, zu erzeugen, zu evaluieren und/oder zu klassifizieren. Im Allgemeinen gibt es Merkmale, die nur für einen einzelnen Klassifizierer notwendig sind. Außerdem könnte es Merkmale geben, die durch mehrere oder alle Klassifizierer verwendet werden. Hier wird eine Merkmalsklasse für einen gegebenen Klassifizierer als die vollständige Menge der Merkmale bezeichnet, die für den bestimmten Klassifizierer notwendig ist.
  • In einer weiteren vorteilhaften Ausführungsform des Verfahrens der Erfindung zum Erfassen von Emotionen aus Sprache werden die unterschiedlichen spezialisierten Klassifizierersysteme auf unterschiedliche Merkmalsklassen, die bereits aus dem Spracheingang extrahiert worden sind, und/oder auf den Spracheingang direkt angewendet. Ferner werden die dadurch evaluierten, abgeleiteten und/oder extrahierten Merkmale, Emotionen und/oder Parameter hiervon, insbesondere aus verschiedenen Merkmals-Unterräumen, gesammelt und/oder gespeichert, insbesondere um eine endgültige Klassifizierung durch die Kombination der Ergebnisse zu erhalten.
  • Es ist bevorzugt, dass die Merkmale, Emotionen und/oder Parameter hiervon, die insbesondere aus verschiedenen Merkmals-Unterräumen evaluiert, abgeleitet und/oder extrahiert worden sind, kombiniert werden, insbesondere um den momentanen emotionalen Zustand des momentanen Anwenders und/oder Parameter hiervon zu beschreiben.
  • In einer weiteren bevorzugten Ausführungsform des Verfahrens der Erfindung zum Erfassen von Emotionen aus Sprache werden unterschiedliche spezialisierte Klassifizierersysteme und/oder die Merkmale oder Ausgänge hiervon kombiniert, vereinigt und/oder verschmolzen, insbesondere um ein globales Klassifizierersystem zu bilden – im Fall nicht orthogonaler Unterräume oder Klassifizierersysteme – insbesondere mittels eines empirischen Gewichtungsalgorithmus oder dergleichen. Dies wird ausgeführt, um mit dem häufigen menschlichen Sprechverhalten und der Abhängigkeit davon vom zugrundeliegenden emotionalen Zustand umzugehen und das häufige menschliche Sprechverhalten und die Abhängigkeit davon vom zugrundeliegenden emotionalen Zustand zu berücksichtigen.
  • Es ist von Vorteil, eine Klasse von Prosodie-Merkmalen wenigstens als ein Teil der ersten Merkmalsklasse zu verwenden, die insbesondere wenigstens teilweise mit einer Aktivierungs- und/oder Erregungsdimension der Emotionen oder der emotionalen Mannigfaltigkeit identifiziert wird.
  • Alternativ oder zusätzlich ist es von weiterem Vorteil, eine Klasse der Sprachund/oder Stimmqualitätsmerkmale wenigstens als ein Teil der zweiten Merkmalsklasse zu verwenden, die insbesondere wenigstens teilweise mit einer Freude- und/oder Evaluierungsdimension der Emotionen oder der emotionalen Mannigfaltigkeit identifiziert wird.
  • Es ist ferner bevorzugt, ein – insbesondere eindimensionales – Klassifizierersystem mit einer niedrigen Komplexität zu verwenden, insbesondere als ein Klassifizierersystem für Prosodie-Merkmale oder für eine Prosodie-Merkmalsklasse.
  • Alternativ oder zusätzlich ist es bevorzugt, ein – insbesondere eindimensiona les – Klassifizierersystem mit hoher Komplexität zu verwenden, insbesondere als ein Klassifizierersystem für Sprach- und/oder Stimmqualitätsmerkmale oder für eine Stimm- und/oder Sprachqualitätsmerkmalsklasse.
  • Eindimensionale oder 1dimensionale Klassifizierersysteme werden die hier als Klassifizierersysteme bezeichnet, die ihre Ausgänge nicht vermischen.
  • Insbesondere das Klassifizierersystem mit hoher Komplexität kann mehrere einzelne Klassifizierer enthalten, insbesondere durch Implementierung der Sprecherabhängigkeiten. Diese Sprecherabhängigkeiten können Alter, Geschlecht und/oder dergleichen enthalten.
  • Gemäß einem weiteren Aspekt der Erfindung können die verschiedenen Klassifizierer in Abhängigkeit von den Merkmalsunterräumen, die sie als einen Eingang haben, als einen Ausgang nicht nur geeignete Emotionen liefern, sondern auch einen Grad von Emotionen, insbesondere einen Grad der Freude und/oder Aktivierung, die anschließend kombiniert werden können, um einen momentanen emotionalen Zustand des Sprechers zu erhalten.
  • Als Prosodie-Merkmale können die Merkmale der Tonhöhe, des Tonhöhenbereichs, der Intonationsart, der Lautstärke, der Sprechgeschwindigkeit, der Einzellautdauer, der Sprachelementdauer und/oder dergleichen verwendet werden.
  • Als die Sprach- oder Stimmqualitätsmerkmale können Lautbildungstyp, Artikulationsweise, Klangfarbenmerkmale der Sprache, Spektralneigung, Amplitudendifferenz zwischen Harmonischen und Formanten, Formantenbandbreite, Zittern, Merkmale bezüglich des Verhältnisses der Harmonischen zum Rauschen und/oder dergleichen verwendet werden.
  • Es ist ein weiterer Aspekt der Erfindung, ein System, eine Vorrichtung, eine Einrichtung und/oder dergleichen zu schaffen, um Emotionen aus einer Eingangssprache zu erfassen, das bzw. die in jedem Fall das Verfahren der Erfindung zum Erfassen von Emotionen aus einem Spracheingang und/oder seine Schritte ausführen und/oder verwirklichen kann.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Computerprogrammpro dukt geschaffen, das Computerprogrammittel enthält, die so beschaffen sind, um das Verfahren der Erfindung zum Erfassen von Emotionen aus einem Spracheingang und/oder seine Schritte auszuführen und/oder zu verwirklichen, wenn es auf einem Computer, einem digitalen Signalverarbeitungsmittel und/oder dergleichen ausgeführt wird.
  • Weiterer Aspekte der Erfindung werden aus den folgenden Bemerkungen offensichtlich:
    Es ist eine Grundidee der Erfindung, die emotionalen Dimensionen zu verwenden, um einen Klassifizierer für die automatische Erkennung oder Erfassung von Emotionen zu konstruieren. Die verschiedenen menschlichen Emotionen und Affekte können in einem mehrdimensionalen Raum oder einer mehrdimensionalen Mannigfaltigkeit dargestellt werden, insbesondere in zwei Dimensionen. Eine Dimension bezieht sich z. B. auf die Aktivierung oder Erregung. Die andere Dimension bezieht sich auf die Evaluierung oder Freude. Die Emotionen, die im selben Bereich der emotionalen Mannigfaltigkeit oder des emotionalen Raumes angeordnet sind, besitzen ähnliche Merkmale hinsichtlich der Akustik, wobei sie schwieriger zu klassifizieren sind. Deshalb kann die Anwendung von Unterraum-Spezialisten und einer Technik hierfür, die auf der Zuordnung der emotionalen Dimensionen und des Merkmalsraumes basiert, bessere Erkennungsraten liefern und die Erfassungsfehler verringern.
  • Übliche und bekannte Schemata für die Klassifizierung von Emotionen verwenden verschiedene Klassifizierer, wie z. B. neuronale Netze, die lernende Vektorquantisierung, die lineare Diskriminantenanalyse, CART-Regressionsbäume, nächster Nachbar, K-nächster Nachbar und/oder dergleichen.
  • Die Erkennung von Emotionen aus einem Sprachsignal ist keine leichte Aufgabe. Bis jetzt machen die meisten der bekannten Klassifizierer von den prosodischen Merkmalen oder Prosodie-Merkmalen gebraucht. Diese Prosodie-Merkmale sind leicht zu handhaben, sie liefern aber nur Informationen über eine sogenannte Aktivierungs- oder Erregungsdimension der Emotionen.
  • Es ist ein Aspekt der Erfindung, wenigstens eine zweite Dimension des emotionalen Raumes zu berücksichtigen. Es wird insbesondere vorgeschlagen, die Freude- oder Evaluierungsdimension des emotionalen Raumes oder der emoti onalen Mannigfaltigkeit zu evaluieren. Eine derartige Dimension wird durch die Qualitätsmerkmale der Sprache oder der Stimme außerordentlich beeinflusst, d.h. von den Hörmerkmalen, die sich aus den Variationen im Quellsignal und den Eigenschaften des Stimmenapparats ergeben. Diese Qualitätsmerkmale sind sehr sprecherabhängig.
  • Eines der Hauptprobleme, wenn ein Klassifizierer für die Erkennung von Emotionen oder die Erfassung von Emotionen aus der Sprache konstruiert wird, ist die Tatsache, dass dieselbe Emotion abhängig vom Sprecher durch verschiedene Merkmale ausgedrückt oder auf verschiedene Merkmale abgebildet werden kann. Einige Sprecher machen in nur einer der möglichen emotionalen Dimensionen im emotionalen Raum Unterschiede. Für Sprecher, die von mehreren derartigen emotionalen Dimensionen Gebrauch machen, ist es schwierig, einen gemeinsamen Bereich der Emotionen zu definieren.
  • Vorausgesetzt, dass mehrere Dimensionen des emotionalen Raumes – im obenerwähnten Fall werden zwei Dimensionen verwendet – für eine genaue emotionale Klassifizierung relevant sind und dass sich diese Emotionen auf verschiedene Merkmale der Sprache mit einem verschiedenen Grad der Komplexität beziehen, ist es ein Vorschlag gemäß der Erfindung, beide Konzepte zu verwenden, um eine optimale Konstruktion für den Klassifizierer zu erhalten.
  • Es ist eine Idee hinter der Erfindung, von mehreren emotionalen Dimensionen Gebrauch zu machen, um einen Klassifizierer für die automatische Erkennung und Erfassung von Emotionen zu konstruieren. Diese Idee ist mit einer weiteren Idee kombiniert, um eine Technik eines Unterraum-Spezialisten anhand der Zuordnung der emotionalen Dimensionen und des Merkmalsraumes anzuwenden. Im Grunde würde es gemäß einem Aspekt der Erfindung ausreichend sein, die Anwendung verschiedener Klassifizierer für jeden der Merkmals-Unterräume einzubeziehen, die den Prosodie-Merkmalen und den Qualitätsmerkmalen zugewiesen sind, und die Ergebnisse von den verschiedenen Klassifizierern zu kombinieren.
  • Es ist ein weiterer Aspekt der Erfindung, diese Schlüsselidee durch einen der folgenden zwei Zugänge oder durch eine Kombination von ihnen zu verbessern.
    • (a) Weil sich beide Dimensionen des emotionalen Raumes auf der Grundlage eines zweidimensionalen Konzepts auf verschiedene Merkmale der Sprache mit einem anderen Grad der Komplexität beziehen, ist es sinnvoll, das Problem zu teilen und zwei Klassifizierungstechniken zu konstruieren. Jede dieser Klassifizierungstechniken betrachtet einen Unterraum der emotionalen Mannigfaltigkeit oder des emotionalen Unterraums und betrachtet deshalb verschiedene Merkmale. Für den problematischsten Fall, d. h. für den Unterraum der Qualitätsmerkmale, kann es vorgesehen sein, mehr als einen Klassifizierer für diesen Unterraum zu verwenden, wobei sogar irgendeine Art der Sprecherabhängigkeit, wie z. B. Alter, Geschlecht und dergleichen, einbezogen werden kann. Ein endgültiger Klassifizierungsalgorithmus wird dann anschließend implementiert, um die Ergebnisse der Unterraum-Spezialisten zu verschmelzen.
    • (b) Andererseits ist es ziemlich leicht, für eine gegebene Emotion den Grad der Freude und Aktivierung zu bestimmen. Deshalb ist es anhand dieser Kenntnis möglich, die Klassifizierung einer derartigen Emotion mit einer Menge von Kandidaten zu folgern. Für diesen Zweck ist es notwendig, entweder eine Trainingsdatenbank, die mit verschiedenen Niveaus der Aktivierung und der Freude geeignet bezeichnet ist, oder eine Datenbank, die mit Emotionen bezeichnet ist, zu besitzen und dann jede dieser Emotionen festen Koordinaten in beiden Dimensionen, der Aktivierung und der Freude, zuzuordnen. Die Klassifizierung wird hinsichtlich derartiger Niveaus ausgeführt, wobei es eine Abbildung von bestimmten Bereichen des emotionalen Raumes auf verschiedene Emotionen gibt.
  • Im Folgenden werden weitere vorteilhafte Aspekte der Erfindung unter Bezugnahme auf die beigefügten Figuren beschrieben.
  • 1 ist eine schematische graphische Darstellung, die die Verbindung zwischen einem gegebenen emotionalen Raum und einem entsprechenden Merkmalsraum zeigt.
  • 2 ist ein schematischer Blockschaltplan, der eine bevorzugte Ausführungsform des Verfahrens der Erfindung zum Erfassen von Emotionen beschreibt.
  • Im Vorangehenden und im Folgenden werden für die Kürze die Merkmalsklassen für die unterschiedlichen emotionalen Dimensionen A und E außerdem durch A bzw. E bezeichnet.
  • In der schematischen graphischen Darstellung nach 1 ist ein emotionaler Raum ES als eine mehr oder weniger abstrakte Entität gegebenen, die mögliche momentane emotionale Zustände CES eines Sprechers per se widerspiegelt. Jeder Punkt des emotionalen Raumes ES stellt deshalb einen möglichen momentanen emotionalen Zustand CES eines gegebenen Sprechers dar. Durch das Analysieren des Spracheingangs SI und das Extrahieren der Merkmale f1, f2, f3 oder der Merkmalswerte davon auf der Grundlage einer gegebenen Menge der Merkmalsklassen E, A wird eine Abbildung M vom sogenannten Merkmalsraum FS in den emotionalen Raum ES definiert. Jeder Punkt FCES im Merkmalsraum FS wird durch ein n-Tupel <f1, f2, f3> der Parameterwerte oder Merkmalswerte der extrahierten Merkmale f1, f2, f3 dargestellt, wobei er deshalb eine Parameterdarstellung und/oder Approximation eines möglichen momentanen emotionalen Zustands CES ist.
  • Die Abszisse und die Ordinate des emotionalen Raumes ES sind unterschiedlichen Merkmalsklassen E und A zugewiesen, während die Achsen des Merkmalsraums FS unterschiedlichen Merkmalen zugewiesen sind, die aus einem Spracheingang SI zu extrahieren sind. Der Wert der unterschiedlichen Merkmalsparameter wird mittels der Spracheingangsanalyse bestimmt. Der Wert oder der Grad der unterschiedlichen emotionalen Dimensionen im emotionalen Raum – d. h. die Grade von z. B. der Erregung A und der Evaluierung E – sind durch die unterschiedlichen zugewiesenen Klassifizierer CE und CA bestimmt.
  • Im Allgemeinen gibt es Merkmale, die nur für den CA oder nur für den CE notwendig sind. Außerdem könnte es Merkmale geben, die durch beide Klassifizierer CE und CA verwendet werden. In dem Fall der eindimensionalen oder 1dimensionalen Klassifizierer mischen CA und CE ihre Ausgänge in Bezug auf die Dimensionen A bzw. E nicht, d. h., CA klassifiziert nur für A, während CE nur für E klassifiziert.
  • Jeder mögliche emotionale Zustand CES wird deshalb als ein Bild bezeichnet, das durch die Abbildung M eines unterschiedlichen Punktes FCES oder n-Tupels der Parameter im Merkmalsraum FS erhalten wird. Die Achsen des emotionalen Raums ES und deshalb seine Dimensionen E und A sind den gegebenen Merkmalsklassen für E und A innerhalb des emotionalen Raumes ES zugewiesen. Diese Dimensionen definieren das Bild CES der Parameterdarstellung FCES, wobei sie deshalb den momentanen emotionalen Zustand CES eines gegebenen momentanen Sprechers als aktiv oder passiv und/oder als ablehnend oder zustimmend klassifizieren.
  • In Bezug auf jede Dimension des emotionalen Raumes ES wird ein eindeutiger und anderer Klassifizierer CA, CE angewendet, der als einen Eingang die entsprechende Merkmalsklasse A, E und als einen Ausgang die Position des Punktes CES im emotionalen Raum ES hinsichtlich der zugewiesenen Achse oder Dimension besitzt. Deshalb könnte innerhalb der Dimensionen der Aktivierung/Erregung und Evaluierung/Freude ein gegebener Sprecher als traurig, gelangweilt, zufrieden, entspannt, erfreut, glücklich, aufgeregt, ärgerlich, ängstlich und/oder dergleichen klassifiziert werden, wobei jede Eigenschaft durch unterschiedliche Grade innerhalb der entsprechenden emotionalen Dimensionen A und E dargestellt wird.
  • 2 erklärt mittels eines schematischen Blockschaltplans eine bevorzugte Ausführungsform des Verfahrens der Erfindung, um Emotionen aus einem Spracheingang zu erfassen. Das Verfahren beginnt mit einem ersten und einleitenden Schritt S0, in dem vorbereitende Daten bereitgestellt und evaluiert werden. In einem ersten Schritt S1 – der im Folgenden wiederholt werden könnte – wird ein Spracheingang SI empfangen.
  • Das Verfahren der Ausführungsform nach 2 ist hauptsächlich in einen ersten Abschnitt S10 und einen zweiten Abschnitt S20 unterteilt, die der Evaluierung des Spracheingangs SI in Bezug auf eine erste Merkmalsklasse, die einer ersten emotionalen Dimension der Erregung/Aktivierung A zugewiesen ist, bzw. eine zweite Merkmalsklasse, die einer zweiten emotionalen Dimension der Evaluierung/Freude im emotionalen Raum ES zugewiesen ist, zugewiesen sind. Die Abschnitte S10 und S20 können aufeinanderfolgend oder parallel ausgeführt werden, da sie im Wesentlichen unabhängig sind.
  • Im ersten Schritt S11 des ersten Abschnitts S10 innerhalb einer ersten Merkmalsklasse A der Prosodie-Merkmale werden die Prosodie-Merkmale oder -Parameter hiervon aus der Analyse des gegebenen Spracheingangs SI erzeugt und extrahiert. Die Prosodie-Merkmale können die Tonhöhe, den Tonhöhenbereich, die Lautstärke, die Sprechgeschwindigkeit und/oder dergleichen umfassen.
  • Im folgenden Schritt S12 des ersten Abschnitts S10 werden aus den Prosodie-Merkmalen die Merkmalsvektoren konstruiert, wobei sie auf den Unterraum der Aktivierung/Erregung entsprechend der ersten Merkmalsklasse A abgebildet werden, um einen passiven oder aktiven Zustand des momentanen Sprechers zu klassifizieren. Für die Klassifizierung des emotionalen Zustands CES des momentanen Sprechers innerhalb des Unterraums der Aktivierung/Erregung bestimmt der Klassifizierer CA mit verhältnismäßig niedriger Komplexität den Grad der Erregung/Aktivierung A.
  • Andererseits werden im zweiten Abschnitt S20 in einem ersten Schritt S21 die Merkmale einer zweiten Merkmalsklasse E erzeugt, die zu einer Menge von Stimm- und/oder Sprachqualitätsmerkmalen gehören. Diese Qualitätsmerkmale können die Spektralneigung, die Amplitudendifferenz zwischen Harmonischen und Formanten, die Formantenbandbreite, das Zittern, das Verhältnis der Harmonischen zum Rauschen und/oder dergleichen enthalten.
  • Im Schritt S22 werden aus diesen Merkmalen Merkmalsvektoren konstruiert und dann in den Unterraum oder die Dimension der Evaluierung/Freude entsprechend der zweiten Merkmalsklasse E abgebildet, um einen momentanen Sprecher zu klassifizieren, der negativ oder positiv spricht. In die Klassifizierung des emotionalen Zustands CES des Sprechers im Unterraum der Evaluierung/Freude ist der Klassifizierer CE mit relativ hoher Komplexität einbezogen, wobei er den Grad der Evaluierung/Freude E bestimmt. Diese Komplexität des Klassifizierers kann in der Tat ein Mehrfachklassifizierersystem, Sprecherabhängigkeiten und/oder dergleichen enthalten.
  • Die aus diesen Klassifizierungsschemata der Schritte S12 und S22 herauskommenden Ergebnisse können durch Evaluierung in einem endgültigen Klassifizierungsalgorithmus entsprechend Schritt S30 verschmolzen und vereinigt werden.
  • Schließlich wird im Schritt S40 ein momentaner emotionaler Zustand CES des momentanen Sprechers als ein Ergebnis des Verfahrens erfasst und/oder ausgegeben.
  • Das Konzept der Unterraum-Spezialisten basiert im Wesentlichen auf der Verwendung von Klassifizierern, die in jedem Fall in Bezug auf einen bestimmten Unterraum der Merkmale oder in einem bestimmten Unterraum der Merkmale spezialisiert sind. Die Identifikation und Zuordnung der Merkmalsklassen zu bestimmten Dimensionen des emotionalen Raums oder Unterräumen hiervon basiert im Wesentlichen sowohl auf der phonetischen Theorie und Phonologie-Theorie als auch auf psychologischen und physiologischen Untersuchungen. Jedes Verfahren, um die Merkmalsvektoren zu klassifizieren, kann verwendet werden, um Klassifizierer oder Klassifizierersysteme aufzubauen. Diese Verfahren können neuronale Netze, Unterstützungsvektormaschinen, Gaußsche Mischungen, K-nächste Nachbarn oder dergleichen enthalten.
  • Die Kombination der Ergebnisse von den verschiedenen Klassifizierern oder Spezialisten für jeden der Merkmalsunterräume kann mit einem dritten endgültigen Klassifizierer ausgeführt werden, dessen Eingänge entweder die Grade jeder Dimension oder die bedingten Emotionen für jede Dimension sein können, und dessen Ausgang die klassifizierte Emotion ist.

Claims (8)

  1. Verfahren zum Erfassen von Emotionen aus einem Spracheingang, bei dem – wenigstens eine erste Merkmalsklasse (A) und eine zweite Merkmalsklasse (E) von Merkmalen wenigstens teilweise aus einem gegebenen Spracheingang (SI) extrahiert werden, – aus den Merkmalen ein momentaner emotionaler Zustand (CES) des momentanen Sprechers oder Parameter (CFS) hiervon abgeleitet werden, – der ersten und der zweiten Merkmalsklasse (A, E) Dimensionen einer zu Grunde liegenden emotionalen Mannigfaltigkeit (EM) oder Unterräume hiervon zugeordnet werden, – für jede Dimension oder für jeden Unterraum ein unterschiedliches, spezielles Klassifizierersystem (CA, CE) verwendet wird, wovon jedes so beschaffen ist, dass es Merkmale einer zugewiesenen Merkmalsklasse (A, E) klassifiziert, – die Ausgänge der unterschiedlichen, speziellen Klassifizierersysteme (CA, CE) für jede Merkmalsklasse (A, E) kombiniert werden, um ein globales Klassifizierersystem zu bilden, um den momentanen emotionalen Zustand (CES) zu erhalten, – eine Klasse von Prosodie-Merkmalen, die wenigstens teilweise mit einer Aktivierungs- oder Erregungsdimension von Emotionen oder der emotionalen Mannigfaltigkeit (EM) identifiziert wird, wenigstens als ein Teil der ersten Merkmalsklasse (A) verwendet wird, – eine Klasse von Sprach- oder Stimmqualitätsmerkmalen, die wenigstens teilweise mit einer Freude- oder Evaluierungsdimension von Emotionen oder der emotionalen Mannigfaltigkeit (EM) identifiziert wird, wenigstens als ein Teil der zweiten Merkmalsklasse (E) verwendet wird, – ein eindimensionales Klassifizierersystem (CA) mit niedriger Komplexität als ein Klassifizierersystem (CA) für die Prosodie-Merkmale verwendet wird, – ein eindimensionales Klassifizierersystem (CE) mit hoher Komplexität als ein Klassifizierersystem (CE) für die Sprach- oder Stimmqualitätsmerkmale verwendet wird, wobei das Klassifizierersystem für Sprach- oder Stimmqualitätsmerkmale mehrere Klassifizierer enthält, indem Sprecherabhängigkeiten wie etwa Alter oder Geschlecht implementiert werden.
  2. Verfahren nach Anspruch 1, bei dem die unterschiedlichen, speziellen Klassifizierersysteme (CA, CE) auf die verschiedenen Merkmalsklassen (A, E), die bereits aus dem Spracheingang (SI) extrahiert worden sind, und/oder direkt auf den Spracheingang (SI) angewendet werden und bei dem dadurch abgeleitete Parameter von Emotionen aus unterschiedlichen Merkmalsunterräumen gesammelt oder gespeichert werden, um eine endgültige Klassifizierung durch eine Kombination der Ergebnisse zu erhalten.
  3. Verfahren nach Anspruch 2, bei dem die aus verschiedenen Merkmalsunterräumen abgeleiteten Emotionsparameter kombiniert werden, um einen momentanen emotionalen Zustand (CES) des momentanen Sprechers zu beschreiben.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die verschiedenen Klassifizierer als einen Ausgang nicht nur geeignete Emotionen angeben können, sondern auch einen Grad von Emotionen in Abhängigkeit von den Merkmalsunterräumen, die sie als einen Eingang haben, die anschließend kombiniert werden können, um einen momentanen emotionalen Zustand (CES) des Sprechers zu erhalten.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Merkmale der Tonhöhe, des Tonhöhenbereichs, der Intonationsart, der Lautstärke, der Sprechgeschwindigkeit, der Einzellautdauer und/oder der Sprachelementdauer als Prosodie-Merkmale verwendet werden.
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei der Lautbildungstyp, Artikulationsweise, Klangfarbenmerkmale der Sprache, Spektralneigung, Amplitudendifferenz zwischen Harmonischen und Formanten, Formantenbandbreite, Zittern und/oder Merkmale bezüglich des Verhältnisses der Harmonischen zum Rauschen als Sprach- oder Stimmqualitätsmerkmale verwendet werden.
  7. System zum Erfassen von Emotionen aus einem Spracheingang, das Mittel enthält, um die Schritte eines Verfahrens zum Erfassen von Emotionen nach einem der Ansprüche 1 bis 7 auszuführen.
  8. Computerprogrammprodukt, das Computerprogrammmittel enthält, die so beschaffen sind, dass sie die Schritte eines Verfahrens zum Erfassen von Emotionen nach einem der Ansprüche 1 bis 7 ausführen, wenn es auf einem Computer oder einem digitalen Signalverarbeitungsmittel ausgeführt wird.
DE60115653T 2001-10-05 2001-10-05 Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten Expired - Lifetime DE60115653T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP01123867A EP1300831B1 (de) 2001-10-05 2001-10-05 Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten

Publications (2)

Publication Number Publication Date
DE60115653D1 DE60115653D1 (de) 2006-01-12
DE60115653T2 true DE60115653T2 (de) 2006-08-10

Family

ID=8178859

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60115653T Expired - Lifetime DE60115653T2 (de) 2001-10-05 2001-10-05 Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten

Country Status (4)

Country Link
US (1) US7729914B2 (de)
EP (1) EP1300831B1 (de)
JP (1) JP2003162294A (de)
DE (1) DE60115653T2 (de)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040032451A (ko) * 2002-10-09 2004-04-17 삼성전자주식회사 생체신호 기반의 건강 관리 기능을 갖는 모바일 기기 및이를 이용한 건강 관리 방법
EP1531458B1 (de) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
JP4641389B2 (ja) * 2004-06-03 2011-03-02 キヤノン株式会社 情報処理方法、情報処理装置
DE102004050785A1 (de) * 2004-10-14 2006-05-04 Deutsche Telekom Ag Verfahren und Anordnung zur Bearbeitung von Nachrichten im Rahmen eines Integrated Messaging Systems
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
KR20060066416A (ko) * 2004-12-13 2006-06-16 한국전자통신연구원 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법
EP1703491B1 (de) * 2005-03-18 2012-02-22 Sony Deutschland GmbH Verfahren zur Klassifizierung von Audiodaten
US7457753B2 (en) * 2005-06-29 2008-11-25 University College Dublin National University Of Ireland Telephone pathology assessment
JP4987282B2 (ja) * 2005-10-25 2012-07-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
WO2007072485A1 (en) * 2005-12-22 2007-06-28 Exaudios Technologies Ltd. System for indicating emotional attitudes through intonation analysis and methods thereof
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
JP4941966B2 (ja) * 2006-09-22 2012-05-30 国立大学法人 東京大学 感情の判別方法、感情判別装置、雰囲気情報通信端末
EP2115737B1 (de) * 2007-01-31 2017-11-01 Telecom Italia S.p.A. Verfahren und system zur verbesserung der automatisierten emotionalen erkennung
EP2122610B1 (de) 2007-01-31 2018-12-26 Telecom Italia S.p.A. Individualisierbares verfahren und system zur emotionserkennung
EP1981021A1 (de) 2007-04-13 2008-10-15 France Telecom Einschätzverfahren des geistigen Zustands einer Person
US8721554B2 (en) 2007-07-12 2014-05-13 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
US20090157625A1 (en) * 2007-12-13 2009-06-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for identifying an avatar-linked population cohort
US20090157660A1 (en) * 2007-12-13 2009-06-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems employing a cohort-linked avatar
US20090171164A1 (en) * 2007-12-17 2009-07-02 Jung Edward K Y Methods and systems for identifying an avatar-linked population cohort
US20090164458A1 (en) * 2007-12-20 2009-06-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems employing a cohort-linked avatar
US20090157813A1 (en) * 2007-12-17 2009-06-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for identifying an avatar-linked population cohort
US8615479B2 (en) 2007-12-13 2013-12-24 The Invention Science Fund I, Llc Methods and systems for indicating behavior in a population cohort
US9211077B2 (en) * 2007-12-13 2015-12-15 The Invention Science Fund I, Llc Methods and systems for specifying an avatar
US20090157751A1 (en) * 2007-12-13 2009-06-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for specifying an avatar
US20090157481A1 (en) * 2007-12-13 2009-06-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for specifying a cohort-linked avatar attribute
US8356004B2 (en) * 2007-12-13 2013-01-15 Searete Llc Methods and systems for comparing media content
US9418368B2 (en) * 2007-12-20 2016-08-16 Invention Science Fund I, Llc Methods and systems for determining interest in a cohort-linked avatar
US20090164503A1 (en) * 2007-12-20 2009-06-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for specifying a media content-linked population cohort
US20090164131A1 (en) * 2007-12-20 2009-06-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for specifying a media content-linked population cohort
US9775554B2 (en) * 2007-12-31 2017-10-03 Invention Science Fund I, Llc Population cohort-linked avatar
CN102077236A (zh) * 2008-07-03 2011-05-25 松下电器产业株式会社 印象度提取装置和印象度提取方法
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US9015046B2 (en) * 2010-06-10 2015-04-21 Nice-Systems Ltd. Methods and apparatus for real-time interaction analysis in call centers
EP2659486B1 (de) * 2010-12-30 2016-03-23 Nokia Technologies Oy Verfahren, vorrichtung und computerprogramm zur emotionserkennung
JP5906071B2 (ja) * 2011-12-01 2016-04-20 キヤノン株式会社 情報処理方法、情報処理装置、および記憶媒体
GB2501062B (en) * 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system
TWI473080B (zh) * 2012-04-10 2015-02-11 Nat Univ Chung Cheng The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals
TWI500023B (zh) 2013-04-11 2015-09-11 Univ Nat Central 透過視覺的聽覺輔助裝置
KR101621774B1 (ko) * 2014-01-24 2016-05-19 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621778B1 (ko) * 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9916844B2 (en) * 2014-01-28 2018-03-13 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
US9600743B2 (en) 2014-06-27 2017-03-21 International Business Machines Corporation Directing field of vision based on personal interests
US9471837B2 (en) 2014-08-19 2016-10-18 International Business Machines Corporation Real-time analytics to identify visual objects of interest
US20160086088A1 (en) * 2014-09-24 2016-03-24 Raanan Yonatan Yehezkel Facilitating dynamic affect-based adaptive representation and reasoning of user behavior on computing devices
WO2016057781A1 (en) 2014-10-08 2016-04-14 The University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
CN105609116B (zh) * 2015-12-23 2019-03-05 东南大学 一种语音情感维度区域的自动识别方法
JP6306071B2 (ja) * 2016-02-09 2018-04-04 Pst株式会社 推定装置、推定プログラム、推定装置の作動方法および推定システム
EP3392884A1 (de) * 2017-04-21 2018-10-24 audEERING GmbH Verfahren zur automatischen inferenz des affektischen zustands und system zur automatischen inferenz des affektischen zustands
JP7073640B2 (ja) * 2017-06-23 2022-05-24 カシオ計算機株式会社 電子機器、感情情報取得システム、プログラム及び感情情報取得方法
CN107578775B (zh) * 2017-09-07 2021-02-12 四川大学 一种基于深度神经网络的多分类语音方法
JP6337362B1 (ja) 2017-11-02 2018-06-06 パナソニックIpマネジメント株式会社 認知機能評価装置、及び、認知機能評価システム
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108806667B (zh) * 2018-05-29 2020-04-17 重庆大学 基于神经网络的语音与情绪的同步识别方法
EP3811245A4 (de) 2018-06-19 2022-03-09 Ellipsis Health, Inc. Systeme und verfahren zur beurteilung des mentalen gesundheitszustands
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
CN109697472B (zh) * 2018-12-28 2021-05-04 泰州市津达电子科技有限公司 一种子情绪划归方法
CN111413874B (zh) * 2019-01-08 2021-02-26 北京京东尚科信息技术有限公司 用于控制智能设备的方法、装置和系统
CN110033029A (zh) * 2019-03-22 2019-07-19 五邑大学 一种基于多模态情感模型的情感识别方法和装置
JP7290507B2 (ja) * 2019-08-06 2023-06-13 本田技研工業株式会社 情報処理装置、情報処理方法、認識モデルならびにプログラム
JP7001126B2 (ja) * 2020-06-17 2022-01-19 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6157913A (en) * 1996-11-25 2000-12-05 Bernstein; Jared C. Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions
US6006188A (en) * 1997-03-19 1999-12-21 Dendrite, Inc. Speech signal processing for determining psychological or physiological characteristics using a knowledge base
US6173260B1 (en) * 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
IL122632A0 (en) * 1997-12-16 1998-08-16 Liberman Amir Apparatus and methods for detecting emotions
US6480826B2 (en) * 1999-08-31 2002-11-12 Accenture Llp System and method for a telephonic emotion detection that provides operator feedback

Also Published As

Publication number Publication date
US7729914B2 (en) 2010-06-01
US20030069728A1 (en) 2003-04-10
EP1300831A1 (de) 2003-04-09
EP1300831B1 (de) 2005-12-07
JP2003162294A (ja) 2003-06-06
DE60115653D1 (de) 2006-01-12

Similar Documents

Publication Publication Date Title
DE60115653T2 (de) Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE60030920T2 (de) Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs
DE60023517T2 (de) Klassifizierung von schallquellen
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE60124225T2 (de) Verfahren und Vorrichtung zur Erkennung von Emotionen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE102019209565A1 (de) Verfahren und Vorrichtung zum Überprüfen der Robustheit eines künstlichen neuronalen Netzes
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69730811T2 (de) Anlage zur Bilderkennung
DE69819438T2 (de) Verfahren zur Spracherkennung
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
EP1193687A2 (de) Sprecheradaption für die Spracherkennung
EP3940692B1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
WO2020260016A1 (de) Verfahren und vorrichtung zum trainieren eines maschinellen lernsystems
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE602004007223T2 (de) Verfahren zur kontinuierlichwertigen Vokaltraktresonanzverfolgung unter Verwendung von stückweisen linearen Annäherungen
WO2005003368A2 (de) Verfahren, computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur analyse eines regulatorischen genetischen netzwerks einer zelle
EP3425460A1 (de) Vorrichtung und verfahren zur bestimmung des zustands einer spindel einer werkzeugmaschine
DE102020208828A1 (de) Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems
DE102020208309A1 (de) Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems
WO2015188964A1 (de) Ganzkörperbildaufnahme- und bildverarbeitungssystem sowie verfahren zu dessen betrieb
DE60309191T2 (de) System zum fuzzy-assoziativen beschreiben von multimedia-gegenständen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition