DE60210295T2 - Verfahren und vorrichtung zur sprachanalyse - Google Patents

Verfahren und vorrichtung zur sprachanalyse Download PDF

Info

Publication number
DE60210295T2
DE60210295T2 DE60210295T DE60210295T DE60210295T2 DE 60210295 T2 DE60210295 T2 DE 60210295T2 DE 60210295 T DE60210295 T DE 60210295T DE 60210295 T DE60210295 T DE 60210295T DE 60210295 T2 DE60210295 T2 DE 60210295T2
Authority
DE
Germany
Prior art keywords
speech
pitch
emotional
segments
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60210295T
Other languages
English (en)
Other versions
DE60210295D1 (de
Inventor
Yoav Degani
Yishai Zamir
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceSense Ltd
Original Assignee
VoiceSense Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VoiceSense Ltd filed Critical VoiceSense Ltd
Application granted granted Critical
Publication of DE60210295D1 publication Critical patent/DE60210295D1/de
Publication of DE60210295T2 publication Critical patent/DE60210295T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Description

  • Die vorliegende Erfindung bezieht sich auf das Gebiet der Stimm- und Sprechanalyse und insbesondere auf die Analyse von akustischen und prosodischen Sprechcharakteristiken.
  • Hintergrund der Erfindung
  • Es ist seit langem bekannt, daß bestimmte Stimm-Charakteristiken Informationen über den emotionalen Zustand des Sprechers geben. Bereits 1934 stellte Lynch Unterschiede hinsichtlich Timing- und Tonhöhencharakteristiken zwischen sachlicher und emotionaler Sprechweise fest (Lynch, G.E. (1934). A Phonophotographic Study of Trained and Untrained Voices Reading Factual and Dramatic Material, Arch. Speech, 1,9-25.)
  • Seither haben zahlreiche Studien Korrelationen zwischen verschiedenen nonverbalen Sprechcharakteristiken und bestimmten emotionalen Zuständen gezeigt, und Forschungsbemühungen wurden auf unterschiedliche Aspekte des Phänomens der emotionalen Sprechweise gerichtet. Eine Forschungsrichtung konzentriert sich auf die Identifikation der Träger von Emotionen im Sprechsignal, und Studien haben komplexe Korrelationsmuster zwischen Tonhöhe (Grundton der Stimme, abhängig von der Schwingungszahl der Stimmbänder pro Sekunde), Amplitude, Timing, Dauer, Tempo, Hüllkurven und anderen Sprechvariablen und dem emotionalen Zustand des Sprechers gezeigt. In einem zweiten Forschungsbereich wird versucht, den Ausdruck unterschiedlicher emotionaler Dimensionen beim Sprechen zu erforschen, und die Studien legen Korrelationen zwischen konstituierenden Elementen der Sprechweise und Dimensionen, die den emotionalen Zustand des Probanden kennzeichnen, nahe. Ein weiterer Forschungsansatz konzentriert sich auf die Offenlegung der unterschiedlichen Korrelationen zwischen Teilen der Sprechweise und verschiedenen emotionalen Zuständen, einschließlich primärer Emotionen, wie Wut, sekundärer Emotionen, wie z.B. Langeweile, und spezifischer Streßsituationen, wie z.B. Angst, Arbeitsbelastung und Lügen. Noch ein weiterer Forschungsbereich versucht, die Unterschiede hinsichtlich der emotionalen Sprechmuster zwischen verschiedenen Personen, verschiedenen Gruppen von Personen, die z.B. nach Geschlecht, Alter, Kultur und Persönlichkeitstyp unterteilt sind, und auch zwischen den Stimmustern, die unterschiedlichen physiologischen Zuständen derselben Personen entsprechen, aufzuzeigen.
  • Drei ausführliche Übersichtsartikel, welche die verschiedenen Erkenntnisse hinsichtlich des stimmlichen Ausdrucks von Emotionen zusammenfassen, wurden veröffentlicht von Murray, I. R. and Arnott, J.L., (1993), Towards the Simulation of Emotion in Synthetic Speech: A Review of the Literature on Human Vocal Emotion, Journal of the Acoustical Society of America, Nr. 93 (2), 1097-1108; von Frick, R. W. (1985), Communicating Emotion: The Role of Prosodic Features, Psychology Bulletin, 97, 412-429, und von Scherer, K. R. (1986), Vocal Affect Expression: A Review and a Model for Future Research, Psychology Bulletin, 99, 143-165. Alle diese Autoren betonen die Bruchstückhaftigkeit der Forschung auf diesem Gebiet und weisen darauf hin, daß die Stimmemotionsforschung nur einen sehr kleinen und isolierten Teil der allgemeinen Literatur über Emotionen und der allgemeinen Sprechanalyseliteratur bildet. Diese Besprechungen stützen zwar die Ansicht, daß Charakteristiken der menschlichen Stimme abhängig vom Ausdruck von Emotion variieren, betonen aber die Komplexität des Zusammenspiels zwischen Physiologie, Psychologie und Sprechweise hinsichtlich Emotionen. Ebenso betonen sie den Bedarf an verallgemeinerten Modellen für ein durchgängigeres Verständnis dieser Phänomene.
  • In den letzten Jahren haben sich mehrere Studien mit der Aufgabe einer automatischen Klassifikation des stimmlichen Ausdrucks unterschiedlicher emotionaler Zustände mittels Modellen zur Erkennung von statistischen Mustern befaßt. Dabei wurde ein gewisser Erfolg erzielt, siehe beispielsweise Dellaert, F., Polzin, T.S. und Waibel, A. (1996), Recognizing emotions in speech, Proc. ICSLP, Philadelphia PA, USA, 1996, und Amir, N. und Ron, S. (1998), Towards an automatic classification of emotions in speech, Proc. ICSLP, Sydney, 1998.
  • Das Gebiet der Emotionen beim Sprechen zieht zunehmendes Interesse auf sich, und im September 2001 fand in Belfast ein spezieller Workshop statt, der sich diesem Thema widmete (ISCA-Workshop: Sprache und Emotionen – vorgelegte Arbeiten: http://www.qub.ac.uk/en/isca/proceedings/index.html). Diese theoretischen wie auch empirischen Arbeiten zeigen einmal mehr die Komplexität des Phänomens, das Fehlen von Daten und die verschiedenen Aspekte, die beteiligt sind.
  • Bezüglich der Detektion von Emotionen durch Sprechanalyse stellt die Literatur mehrere noch zu lösende Probleme heraus. Zwei der Hauptprobleme seien hier hervorgehoben:
    Das erste Problem ist das Fehlen eines vereinheitlichten Modells für emotional-akustische Korrelationen, welches das Herangehen an unterschiedlichen emotionalen Sprechgehalt mit einem allgemeinen Indikator ermöglicht; der aktuelle Forschungsstand läßt nur den Hinweis auf isolierte akustische Korrelationen mit spezifischen emotionalen Zuständen zu.
  • Das zweite Problem besteht in der Schwierigkeit, die unterschiedlichen Sprechausdrucksmuster unterschiedlicher Sprecher zu überwinden, welche die emotionalen Unterschiede meist maskieren. Frühere Forschungen versuchten dieses letztere Problem durch Gewinnen von Referenz-Sprechcharakteristiken der Testperson oder spezifischer Gruppen von Personen anzugehen. Dabei waren die Referenzen frühere Messungen des (nicht-emotionalen) Grundzustands eines spezifischen Probanden oder die spezifischen Profile emotionaler Sprechweise bei relativ homogenen Gruppen von Probanden, die z.B. alle unter Depressionen litten.
  • Mit den Jahren wurden auf diesem Gebiet mehrere Patente angemeldet. Diese Patente sind hauptsächlich dadurch gekennzeichnet, daß sie die gleichen Unzulänglichkeiten aufweisen, wie sie oben im Zusammenhang mit der akademischen Forschung beschrieben sind, nämlich, daß sie sich auf spezifische emotionale Zustände konzentrieren und sich auf vorherige Referenzmessungen stützen. Die Patente unterscheiden sich auch merklich in ihren Meßverfahren und -parametern.
  • In drei US-Patenten von 1974 ( US 3,855,416 ; US 3,855,417 und US 3,855,418 ) schlägt Fuller ein Verfahren vor zum Anzeigen von Streß anhand der Sprechweise und zur Feststellung, ob ein Proband lügt oder die Wahrheit sagt. Das vorgeschlagene Verfahren mißt den Vibrato-Anteil (rasche Modulation der Phonation) und die normalisierte Spitzenamplitude des Sprechsignals und ist insbesondere auf die Analyse der Sprechweise eines Probanden bei einer Befragung gerichtet.
  • Bell et. al. schlug 1976 (US-Patent Nr. 3,971,034) ebenfalls ein Verfahren zum Detektieren von psychologischem Streß anhand der Sprechweise vor. Das beschriebene Verfahren beruht hauptsächlich auf der Messung von Infraschall-Modulationsänderungen der Stimme.
  • In zwei Patenten von 1978 und 1979 ( US 4,093,821 und US 4,142,067 ) beschreibt Williamson ein Verfahren zum Bestimmen des emotionalen Zustandes einer Person mittels Analyse von Frequenzstörungen im Sprechmuster. Die Analyse beruht in erster Linie auf Messungen der ersten Formantenfrequenz der Sprache, wobei jedoch die Unterschiede, die den verschiedenen emotionalen Zuständen entsprechen, nicht eindeutig angegeben sind: Im ersten Patent zeigt die Vorrichtung in erster Linie Streß als Funktion der Entspannung an, während im zweiten Patent der Benutzer der Vorrichtung eine „visuelle Integration und Interpretation des angezeigten Ausgangssignals" anwenden sollte, um „gewisse Entscheidungen bezüglich des emotionalen Zustandes zu treffen".
  • Jones schlug 1984 (US-Patent Nr. 4,490,840) ein Verfahren zum Bestimmen von Mustern des Stimmklangs (Resonanz, Qualität), der Sprechweise (variabel/monoton, abgehackt/glatt usw.) und der Art des Eindrucks (sensorisch, intern, Haß/Liebe usw.) vor, die auf unterschiedlichen Stimm-Charakteristiken, einschließlich sechs spektraler Peaks und Pausen innerhalb des Sprechsignals, beruhen. Der Erfinder stellt jedoch fest, daß „das Vorliegen von spezifischem emotionalem Gehalt für die hier offenbarte Erfindung nicht von Interesse ist".
  • In zwei US-Patenten von 1987 und 1992 ( US 4,675,904 und US 5,148,483 ) schlägt Silverman ein Verfahren zum Detektieren einer suizidalen Prädisposition anhand der Sprechmuster einer Person vor, bei dem ein merklicher Abfall zum Schluß einer Äußerung und eine geringe Amplitudenmodulation während der Äußerung festzustellen sind.
  • 1997 beschrieb Ron (US-Patent Nr. 5,647,834) ein sprachbasiertes Biofeedback-Regulierungssystem, mit dem ein Proband seinen emotionalen Zustand überwachen und verändern kann. Aus der Sprechweise des Probanden wird ein Emotionsindikatorsignal gewonnen (das Meßverfahren ist im Patent nicht beschrieben) und mit physiologischen Online-Messungen am Probanden verglichen, die als Referenz für seinen emotionalen Zustand dienen. Der Proband kann dann versuchen, das Indikatorsignal zu verändern, um seinen emotionalen Zustand unter Kontrolle zu bringen.
  • Bogdashevsky, et. al. schlagen in einem US-Patent von 1999 ( US 6,006,188 ) ein Verfahren zum Bestimmen der psychologischen oder physiologischen Merkmale eines Probanden aufgrund der Erzeugung eines spezifischen Wissensschatzes für gewisse psychologische und physiologische Zustände vor. Das beschriebene Verfahren umfaßt die Bildung homogener Gruppen von Testpersonen aufgrund ihrer psychologischen Beurteilung (z.B. Persönlichkeitsdiagnosegruppen gemäß psychologischen Gemeinsamkeiten), die Analyse ihrer unverwechselbaren Sprechmuster (aufgrund von Cepstral-Koeffizienten) und Erstellen spezifischer Wissensbasen für diese Gruppen. Die Zuordnung zu bestimmten psychologischen und physiologischen Gruppen kann durch Vergleichen der Sprechmuster einer Person (die aufgefordert wird, einen 30 Sätze langen Text ähnlich dem von der Referenzgruppe verwendeten Text zu sprechen) mit den Charakteristiken aus dem Wissensschatz der Gruppe erreicht werden. Das Patent beansprucht, eine verbalpsychologische Diagnose relativ stabiler Zustände zu ermöglichen, z.B. den mentalen Zustand vor und nach der Therapie, und das Persönlichkeitsprofil zu vergleichen.
  • Pertrushin beschrieb 2000 (US-Patent Nr. 6,151,571) ein Verfahren zur Überwachung eines Gesprächs zwischen einem Sprecherpaar, zur Detektion einer Emotion mindestens eines der Sprecher, zur Feststellung, ob die Emotion eine von drei negativen Emotionen (Wut, Trauer oder Angst) ist, und zum anschließenden Berichten der negativen Emotion an einen Dritten. Bezüglich des Emotionserkennungsprozesses gibt das Patent die für diese Ergebnisse erforderlichen Schritte näher an: Zunächst empfiehlt es die Durchführung eines Experimentes mit den Ziel-Probanden, um „zu bestimmen, welche Teile der Stimme besonders zuverlässig als Indikatoren von Emotionen sind". Es wird vorgeschlagen, eine Gruppe der zuverlässigsten Äußerungen dieses Experimentes als „Trainings- und Testdaten für die Mustererkennungsalgorithmen zu verwenden, die von einem Computer durchgeführt werden". Der zweite Schritt ist die Merkmalsextraktion für die emotionalen Zustände aufgrund der gesammelten Daten. Das Patent schlägt mehrere mögliche Merkmalsextraktionsverfahren unter Verwendung verschiedener Sprechcharakteristiken vor. Der dritte Schritt besteht in der Erkennung der Emotionen, ausgehend von den extrahierten Charakteristiken. Es werden zwei Ansätze angeboten – neurale Netzwerke und Gruppen von Klassifikatoren. Die zuvor gesammelten Datensätze (welche die Emotionen darstellen) können dazu verwendet werden, den Algorithmus auf die korrekte Bestimmung der Emotionen zu trainieren. Es werden beispielhafte Vorrichtungen sowie Verfahren zur verbesserten Emotionserkennung vorgestellt.
  • In einem US-Patent von 2001 ( US 6,173,260 ) beschreibt Slaney ein System zur Klassifikation von emotionaler Sprechweise. Das beschriebene System beruht auf einem empirischen Verfahren, mit welchem die beste Kombination von Sprechcharakteristiken (unterschiedliche Meßwerte für Tonhöhe und spektrale Hüllkurve) extrahiert wird, die eine bestimmte Gruppe von sprachlichen Äußerungen charakterisiert, welche gemäß vordefinierten Klassen von Emotionen bezeichnet werden. Nachdem das System auf die vorgegebene Gruppe von Äußerungen „trainiert" wurde, kann es die extrahierten Charakteristiken zur weiteren Klassifikation anderer Äußerungen nach diesen Klassen von Emotionen verwenden. Das Verfahren stellt jedoch keinen allgemeinen emotionalen Indikator bereit und geht nur davon aus, daß unterschiedliche emotionale Charakteristiken für unterschiedliche emotionale Situationen empirisch extrahiert werden können.
  • Zwei veröffentlichte PCT-Anmeldungen von Liberman beziehen sich ebenfalls auf Emotionen beim Sprechen. Liberman schlug 1999 (WO 99/31653) ein Verfahren zum Bestimmen gewisser emotionaler Zustände, einschließlich Zuständen, die mit emotionalem Streß und Lügen zusammenhängen, wie z.B. Unaufrichtigkeit, Verwirrung und Unsicherheit, psychologische Dissonanz, Sarkasmus, Übertreibung, anhand der Sprechweise bereit. Das Verfahren beruht auf der Messung von Sprechbetonungsinformationen, insbesondere Plateaus und Zacken der Sprechsignal-Hüllkurve, unter Verwendung früherer Äußerungen des Sprechers als Grundzustandsreferenz.
  • Liberman beschrieb 2000 (WO 00/62270) eine Vorrichtung zur Überwachung unbewußter emotionaler Zustände einer Person anhand von Sprechmustern, die einem Stimmanalysator per Telefon zugeführt wurden. Die Emotionsindikatoren umfassen einen Pegel unterbewußter kognitiver Aktivität, einen Pegel unterbewußter emotionaler Aktivität, einen Antizipationspegel, einen Aufmerksamkeitspegel, einen „Love Report" und sexuelle Erregung. Das verwendete Verfahren beruht auf einer Frequenzspektralanalyse der Sprechweise, bei der das Frequenzspektrum in vier Frequenzbereiche unterteilt ist, und es wird beansprucht, daß ein höherer Prozentsatz von Frequenzen in einem der Bereiche eine Dominanz eines der obigen emotionalen Zustände widerspiegelt. Es wird nahegelegt, daß die kognitive Aktivität mit den niedrigsten Frequenzen korreliert, die Aufmerksamkeit/Konzentration mit den Hauptspektralfrequenzen, die emotionale Aktivität mit hohen Frequenzen und der Antizipationspegel mit den höchsten Frequenzen korrelieren.
  • Die meisten der oben erwähnten Patente (Fuller, Bell, Jones, Silverman und Liberman) identifizieren spezifische emotionale Zustände, wie Streß, Lügen oder eine Suizidneigung durch Korrelation spezifischer Sprechcharakteristiken mit diesen emotionalen Zuständen. Zwei dieser Patente (Williamson, Ron) gehen davon aus, daß die entsprechenden Sprechkorrelationen der emotionalen Zustände als Eingangsgrößen vorgegeben sind, und lassen dabei die Aufgabe der Beschreibung eines allgemeinen Indikators für emotionale Sprechcharakteristiken völlig außer acht. Drei der Patente (Bogdashevsky, Petrushin und Slaney) schlagen Verfahren zur Extraktion spezifischer Sprechkorrelationen durch „Erlernen" bestimmter emotionaler Klassen von Sprachäußerungen vor. Somit schlägt keines der zuvor erwähnten Patente einen verallgemeinerten, auf der Sprechweise basierenden Indikator emotionaler Erregung an sich vor, der den sprachlichen Ausdruck der emotionalen Reaktion beschreibt, die durch eine große Vielzahl unterschiedlicher emotionaler Zustände erzeugt wird.
  • Ferner muß bei manchen dieser Patente (Fuller, Williamson) ein qualifizierter Fachmann die Ergebnisse manuell analysieren, um die Unterschiede zwischen einzelnen Personen zu überwinden. Andere Patente (Ron, Liberman) erfordern einen Vergleich der Sprachmeßwerte des Probanden vor den Grundzustandsmessungen derselben Person als Referenz. Bei anderen Patenten (Bogdashevsky, Petrushin und Slaney) ist ein vorheriger Lernprozeß für die Sprechcharakteristiken spezifischer Gruppen von Personen oder spezifischer psychologischer Phänomene, die als Referenz verwendet werden sollen, erforderlich.
  • Somit legt keines der oben besprochenen Patente dieses dicht gedrängten Standes der Technik einen emotionalen Sprechindikator nahe, der robust ist und über unterschiedliche Emotionen und über die Unterschiede zwischen spezifischen Einzelpersonen und spezifischen Gruppen hinweg Gültigkeit hat. Die vorliegende Erfindung ist auf die Schaffung eines solchen robusten, allgemeinen Indikators für emotionale Erregung mittels Sprechanalyse gerichtet, der unabhängig von den Unterschieden zwischen Testpersonen und besonderen Emotionstypen ist, aber auf emotionale Erregung an sich anspricht.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung ist auf die Bereitstellung eines allgemeinen Indikators für die emotionale Erregung eines Probanden mittels Sprechanalyse gerichtet, der bei einer breiten Vielfalt unterschiedlicher emotionaler Zustände anwendbar ist. Dieser emotionale Sprechindikator ist über die Sprechmusterunterschiede zwischen bestimmten Personen oder Personengruppen hinaus gültig und erfordert keinen Vergleich einer Sprechprobe eines Probanden mit einer zuvor erhaltenen Referenz-Sprechprobe desselben Probanden.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1 bereitgestellt, zum Feststellen emotionaler Erregung eines Probanden durch Sprechanalyse, das die Schritte umfaßt: Gewinnen eines Sprechmusters; Vorverarbeiten des Sprechmusters zu stillen und zu aktiven Sprachsegmenten und Unterteilen der aktiven Sprachsegmente in Sequenzen gleichlanger Blöcke; wobei die Blöcke primäre Sprechparameter aufweisen, die Tonhöhen- und Amplitudenparameter einschließen; Herleiten mehrerer ausgewählter sekundärer Sprechparameter, die Charakteristiken von Tendenzen gleichbleibender Tonhöhe, steigender Tonhöhe und fallender Tonhöhe in den Sequenzen von Blöcken anzeigen; Vergleichen der sekundären Sprechparameter mit vordefinierten, vom Probanden unabhängigen Werten, die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, und Ausgabe des erzeugten Verarbeitungsergebnisses an eine Ausgabevorrichtung, wobei die mehreren ausgewählten sekundären Sprechparameter aus der folgenden Liste ausgewählt sind: durchschnittliche Pausenlänge und/oder Pausenfrequenz; durchschnittliche Länge kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte; durchschnittliche Länge von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; durchschnittliche Länge von Segmenten steigender Tonhöhe und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche Länge von Segmenten fallender Tonhöhe und/oder Frequenz von Segmenten fallender Tonhöhe und Durchschnittsamplitudenstreuung innerhalb von Sprachsegmenten gleichbleibender Tonhöhe. Vorzugsweise umfaßt das Herleitungsverfahren ferner das Herleiten einer Vielzahl ausgewählter sekundärer Sprechparameter, die Pausen- und Stillecharakteristiken der zu analysierenden Sprechprobe anzeigen, gegebenenfalls einschließlich des Analysierens von Unregelmäßigkeiten von Tempo und Rhythmus, Tonhöhe und Amplitude der zu analysierenden Sprechprobe.
  • Der Schritt des Gewinnens einer Sprechprobe umfaßt gegebenenfalls den Schritt der Eingabe einer digitalen Stimmdatei. Alternativ dazu umfaßt der Schritt des Gewinnens einer Sprechprobe den Schritt des Erfassens von Sprechproben und des Abtastens und Digitalisierens der Sprechproben in einer Stimmabtast- und -digitalisiereinheit zum Erzeugen einer digitalisierten Stimmdatei.
  • Der Schritt des Vorverarbeitens umfaßt gegebenenfalls: Gewinnen digitalisierter Stimmuster, Normalisieren der Stimmuster, Datenfilterung, Rauschunterdrückung, Segmentieren der Stimmuster in Stille- und Sprachsegmente, Unterteilen der Sprachsegmente in Blöcke und Verarbeiten der Blöcke durch Autokorrelation, um Tonhöhen- und Amplituden-Sprechparameter blockweise zu berechnen.
  • In einer Ausführungsform kann das oben beschriebene Verfahren dazu eingerichtet sein, ein Sprechsignal zu analysieren, das mehrere interagierende Stimmen enthält, wobei das Verfahren ferner die folgenden zusätzlichen Schritte umfaßt: Trennen der interagierenden Stimmen in separate Stimmkanäle; Durchführen einer Muster-Normalisierung für jeden interessierenden Kanal; Durchführen einer Datenfilterung für jeden interessierenden Kanal; Durchführen einer Rauschunterdrückung für jeden interessierenden Kanal; Durchführen einer Stille- und Sprachsegmentierung und Unterteilen der Sprachsegmente in Blöcke für jeden interessierenden Kanal, sowie eine Autokorrelations-Verarbeitung, um Tonhöhen- und Amplituden-Sprechparameter blockweise für jeden interessierenden Kanal zu berechnen.
  • Gegebenenfalls umfaßt der Herleitungsschritt das Markieren eines Sprachsegmentes einer vordefinierten Länge zum Verarbeiten; das Berechnen von auf Pausen bezogenen Parametern für das Sprachsegment; das Berechnen von auf Stille bezogenen Parametern für das Sprachsegment; das Zusammenfügen von Blöcken zu Sequenzen von Blöcken, die als Sequenzen von Blöcken mit Tendenzen steigender Tonhöhe, Sequenzen von Blöcken mit Tendenzen fallender Tonhöhe und Sequenzen von Blöcken mit Tendenzen gleichbleibender Tonhöhe kategorisiert werden; das Berechnen von auf die Tonhöhe bezogenen Parametern innerhalb des Sprachsegmentes, wobei die auf die Tonhöhe bezogenen Parameter aus der Liste von Frequenz und durchschnittlicher Länge von Sequenzblöcken, die dadurch gekennzeichnet sind, daß sie Tendenzen steigender, fallender oder gleichbleibender Tonhöhe haben, und Durchschnittsamplitudenstreuung von Sequenzen von Blöcken mit gleichbleibender Tonhöhe ausgewählt sind, und Einteilen des Sprachsegmentes in eine von mehreren Kategorien eines typischen Parameterbereichs.
  • Der Schritt des Vergleichens der sekundären Sprechparameter mit vordefinierten, vom Probanden unabhängigen Werten, die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, umfaßt gegebenenfalls das Vergleichen wenigstens zweier sekundärer Stimmparameter-Kategorien mit vordefinierten Werten, die eine nicht-emotionale Sprechweise darstellen, wobei die Kategorien aus der folgenden Liste ausgewählt sind: durchschnittliche Länge von Pausen und/oder Frequenz von Pausen; durchschnittliche Länge kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte; durchschnittliche Länge von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; durchschnittliche Länge von Segmenten steigender Tonhöhe und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche Länge von Segmenten fallender Tonhöhe und/oder Frequenz von Segmenten fallender Tonhöhe und Durchschnittsamplitudenstreuung innerhalb von Sprachsegmenten gleichbleibender Tonhöhe.
  • Gegebenenfalls umfaßt das Verfahren ferner das Berechnen eines Zuverlässigkeitsgrades auf Basis wenigstens eines Faktors, der aus der folgenden Liste ausgewählt ist: Qualität des Stimmsegments; Signifikanz der Entscheidung über emotionale Erregung und Übereinstimmung spezifischer Segmentergebnisse mit Ergebnissen früherer Sprachsegmente.
  • Die Qualität des Stimmsegmentes wird vorzugsweise anhand des Rauschpegels, der Größe der abgetasteten Daten und der Qualität der abgetasteten Daten bestimmt.
  • Vorzugsweise wird die Signifikanz der Entscheidung über emotionale Erregung auf Basis einer Anzahl beteiligter Parameter und eines Grades der Abweichung innerhalb jedes Parameters bestimmt.
  • Gegebenenfalls gibt es einen zusätzlichen Schritt der Musterverarbeitung, um emotionale Muster zu erfassen, die entlang einer Zeitachse deutlich werden.
  • Gemäß einem zweiten Aspekt ist die vorliegende Erfindung auf eine Vorrichtung mit Mitteln zum Ausführen des Sprechanalyseverfahrens gemäß Anspruch 1 gerichtet, wobei die Vorrichtung umfaßt: eine Stimmeingabeeinheit; eine Vorverarbeitungseinheit, die Stimmuster von der Stimmeingabeeinheit vorverarbeitet; eine Hauptverarbeitungseinheit, die die vorverarbeiteten Stimmuster verarbeitet und emotionale Erregung daraus erfaßt, und eine Hauptindikatoren-Ausgabeeinheit, die eine Anzeige emotionaler Erregung ausgibt.
  • Die Stimmeingabeeinheit enthält gegebenenfalls eine Stimmerfassungseinheit und eine Stimmabtast- und -digitalisiereinheit, die mit der Stimmerfassungseinheit gekoppelt ist, um erfaßte Stimmeingaben abzutasten und zu digitalisieren.
  • Wahlweise enthält die Stimmeingabeeinheit ein Mikrofon, eine Schnittstelle zu einer Audio-Wiedergabeeinrichtung, eine Schnittstelle zu einem Schnurtelefon, einem schnurlosen Telefon oder einem Mobiltelefon, eine Schnittstelle zum Internet oder einem anderen Netzwerk, eine Schnittstelle zu einem Computer, eine Schnittstelle zu einem elektronischen Personal Organizer oder zu jedem beliebigen anderen elektronischen Gerät oder eine Schnittstelle zu einem Spielzeug.
  • Die Stimmabtast- und -digitalisiereinheit ist vorzugsweise aus einer Soundkarte oder einer Stimmabtast- und -digitalisiereinrichtung auf Basis eines DSP-Chips ausgewählt.
  • Vorzugsweise ist die Hauptindikatoren-Ausgabeeinheit aus einer lokalen Ausgabeeinrichtung, einer Anzeigeeinrichtung, einem Lautsprecher, einer Datei, einer Speichereinheit oder einer Überwachungseinrichtung oder einer Schnittstelle zu einem entfernten Computer, zum Internet, zu einem anderen Netzwerk, zu einem Schnurtelefon, einem schnurlosen Telefon oder einem Mobiltelefon, zu einem Computerspiel, zu einem Spielzeug, zu einem elektronischen Personal Organizer oder zu jedem beliebigen anderen elektrischen Ausgabegerät ausgewählt.
  • Alle der vorgenannten Einheiten sind wahlweise auf einer kleinen mobilen Einheit auf Basis eines DSP-Chips installiert. Alternativ dazu kann ein Teil der Einheiten physisch von anderen Einheiten entfernt sein und die Vorrichtung des weiteren eine Schnittstelle umfassen, die eine Datenkommunikation zwischen den Einheiten ermöglicht.
  • Die Vorverarbeitungs- und die Verarbeitungseinheit können alternativ in einem Softwarewerkzeug enthalten sein, das in eine externe Quelle für digitalisierte Stimmeingabe und in eine externe Ausgabeeinrichtung integrierbar ist.
  • Mit primären Sprechparametern sind, so wie der Begriff hier verwendet wird, absolute Werte von Parametern, wie Tonhöhe oder Intensität, gemeint. Unter sekundären Sprechparametern ist die Veränderung der absoluten Werte der hier verwendeten Parameter zu verstehen. Somit sind sekundäre Sprechparameter abgeleitete Statistiken, die allgemein weniger Kultur-, Alters- und Geschlechtsunterschieden, Hintergrundinterferenz, der Qualität des analysierten Signals und anderen Verzerrungsfaktoren unterliegen, und die sekundären Sprechparameter, die zum Anzeigen von emotionaler Erregung bei bevorzugten Ausführungsformen der vorliegenden Erfindung verwendet werden, sind so gewählt, daß sie besonders robust sind, wobei sie geringe Sensibilität gegenüber Unterschieden zwischen Personen und gegenüber Hintergrundinterferenz aufweisen.
  • Kurze Beschreibung der Zeichnungen
  • Die vorliegende Erfindung ist anhand der folgenden detaillierten Beschreibung noch besser zu verstehen und zu würdigen. Es zeigen:
  • 1 ein Blockschema einer Vorrichtung, die gemäß einer Ausführungsform der vorliegenden Erfindung gebaut und betreibbar ist;
  • 2 ein Ablaufschema einer Vorverarbeitungseinheit, die gemäß einer Ausführungsform der vorliegenden Erfindung gebaut und betreibbar ist; und
  • 3 ein Ablaufschema einer Hauptverarbeitungseinheit, die gemäß einer Ausführungsform der vorliegenden Erfindung gebaut und betreibbar ist.
  • Detaillierte Beschreibung der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Detektion von emotionaler Erregung mittels Sprechanalyse. Der Begriff emotionale Sprechweise" wird hier im Zusammenhang mit einem Sprachsegment verwendet, in dem der Sprecher sich in einer emotionalen Weise ausdrückt. Eine nicht-emotionale Sprechweise bezieht sich auf ein Sprachsegment, in dem der Sprecher sich nicht-emotional ausdrückt. Frühere Beschreibungen von Erfahrungen oder Gefühlen oder künftige Erwartungen erwünschter oder unerwünschter Ereignisse können nur dann als emotionale Sprechweise betrachtet werden, wenn das tatsächliche beschriebene oder gewünschte Gefühl oder Ereignis aktuell emotional ausgedrückt wird. Die oben besprochenen Druckschriften und Patente untermauern eindeutig das Phänomen, daß unterschiedliche emotionale Zustände, wenn sie stimmlich ausgedrückt werden, die Sprechcharakteristiken eines Probanden im Vergleich zu den Charakteristiken einer nicht-emotionalen Sprechweise verändern. Allerdings ist die Bereitstellung eines allgemeines Indikators, der den Grad der emotionalen Erregung einer Person mittels Sprechanalyse bestimmen kann, noch immer eine sehr schwierige Aufgabe, was hauptsächlich durch drei Faktoren bedingt ist:
    • 1. unterschiedliche emotionale Zustände beeinflussen die Sprechcharakteristiken einer Person in unterschiedlicher Weise;
    • 2. Stimm- und Sprechcharakteristiken unterscheiden sich von einer Person zur anderen merklich;
    • 3. eine unterschiedliche emotionale Intensität (derselben Emotion) beeinflußt unterschiedliche Elemente der Sprechweise in unterschiedlichem Maße.
  • Um den Effekt dieser Faktoren zu überwinden, folgen die meisten bestehenden Forschungsarbeiten und Patente zwei Richtlinien: Sie trennen die Messung unterschiedlicher Arten von Emotionen und verwenden frühere Proben, um einen vergleichbaren Referenz-Grundzustand zu erhalten.
  • Die vorliegende Erfindung schlägt ein Verfahren zur automatischen Echtzeit-Sprechanalyse vor, um das Vorliegen eines Grades allgemeiner emotionaler Erregung eines Probanden zu einem bestimmten Zeitpunkt, jenseits spezifischer emotionaler Zustände und spezifischer Unterschiede zwischen einzelnen Personen, ohne Verwendung eines für den Probanden selbst spezifischen Referenz-Sprechgrundzustandes, anzuzeigen.
  • Der Wegfall des Erfordernisses eines spezifischen Referenz-Grundzustandes, die Verallgemeinerung von Stimm-Charakteristiken bei emotionaler Erregung jenseits spezifischer emotionaler Zustände, und das Emotionsdetektionsverfahren auf der Grundlage von Tonhöhen-Trends innerhalb des Sprachsegmentes sind drei neue Merkmale der vorliegenden Erfindung.
  • 1. Emotionale Erregung jenseits spezifischer emotionaler Zustände
  • Eine zentrale Annahme, die der vorliegenden Erfindung zugrunde liegt, besteht darin, daß eine nicht-emotionale Sprechweise einen Gleichgewichtszustand und eine emotionale Sprechweise eine Abweichung von diesem Gleichgewicht reflektiert. Emotionale Erregung ist bekanntlich eine Abweichung von einem physiologischen Gleichgewicht bei gewissen emotionalen Zuständen, wie z.B. Streß. Sie drückt sich in Veränderungen autonomer Systemvariablen, wie Herzfrequenz, Muskelaktivität, galvanischer Hautwiderstand, Blutdruck und Bluttemperatur, aus. Entsprechend wird vorgeschlagen, daß die Änderungen der Sprechmuster bei emotionaler Erregung eine Abweichung vom ausgeglichenen, geordneten, nicht-emotionalen Zustand wiederspiegeln, und die vorliegende Erfindung beruht auf dem Prinzip, daß die Sprechcharakteristiken bei emotionaler Erregung weniger systematisch und ungeordneter sind als die Charakteristiken einer nicht-emotionalen Sprechweise. Die Abweichung vom geordneten Sprechrhythmus, die extremer emotionaler Erregung oder Aufregung entspricht, wie z.B. Weinen oder Schreien, ist für die meisten Zuhörer deutlich. Es gibt ähnliche, entsprechende Veränderungen der geordneten Sprechmuster, die ebenfalls geringfügige Erregungsniveaus ausdrücken.
  • Obwohl unterschiedliche emotionale Zustände unterschiedliche Sprechcharakteristiken erzeugen können, liegt es nahe, daß ein gemeinsamer Faktor von Sprechcharakteristiken vieler unterschiedlicher, emotional erregter Zustände in der Unregelmäßigkeit der Sprechmuster im Vergleich zur systematischeren Natur einer nicht-emotionalen Sprechweise liegt. Gleichermaßen wird, wenn gleich unterschiedliche Personen, die emotional erregt oder aufgeregt sind, unterschiedliche Sprechcharakteristiken aufweisen können, nichtsdestotrotz davon ausgegangen, daß all diesen emotional erregten Personen im Vergleich zu ihren allgemeinen, nicht emotional erregten Sprechmustern weniger geordnete Sprechmuster gemeinsam sind. Die vorliegende Erfindung konzentriert sich auf die Bestimmung dieses gemeinsamen Faktors als Indikator, der die allgemeine emotionale Erregung einer Person herausstellt.
  • Wie in der Literatur berichtet wurde, stellte man fest, daß der Ausdruck unterschiedlicher emotionaler Zustände mit spezifischen Sprechcharakteristiken korreliert. Wir hingegen gehen hier davon aus, daß zwei Arten von Variablen, nicht aber spezifische emotionale Zustände, eine „emotionale Erregung" selbst allgemein charakterisieren. Die erste Variable, die hier als Vorliegen konstanter Tonhöhe bezeichnet wird, ist der Grad des Vorliegens von Zeiträumen mit gleichbleibender Tonhöhe innerhalb des Sprachsegmentes, und die zweite Variable ist der Übereinstimmungsgrad unterschiedlicher Sprechcharakteristiken, der ein Maß für den Ordnungszustand des Sprechmusters ist.
  • Vorliegen einer konstanten Tonhöhe: Als Faustregel wird hier davon ausgegangen, daß eine emotionale Sprechweise durch ein selteneres Vorliegen von Perioden mit gleichbleibender Tonhöhe und durch ein häufigeres Vorliegen von Perioden mit sich verändernder (steigender oder fallender Tonhöhe) gekennzeichnet ist, was bedeutet, daß eine emotionale Sprechweise eine kleinere Anzahl pro Sekunde und eine kürzere mittlere Länge von Perioden mit gleichbleibender Tonhöhe innerhalb des Sprachsegmentes im Vergleich zur regulären, nicht-emotionalen Sprechweise zeigt. Es sei angemerkt, daß wir nicht davon ausgehen, daß eine emotionale Sprechweise stets durch eine höhere Tonhöhenvariation/einen höheren Tonhöhenbereich oder durch eine größere Häufigkeit von Tonhöhen-Richtungsänderungen (steigend/fallend) innerhalb des Sprachsegmentes gekennzeichnet ist, da diese letzteren Variablen mehr durch spezifische emotionale Zustände, durch individuelle Unterschiede und durch die Sprechlautstärke beeinflußt werden. Im Gegensatz dazu legen wir nahe, daß die Parameter für das Vorliegen einer konstanten Tonhöhe weniger durch die zuvor erwähnten Einflußfaktoren beeinflußt werden, als die Parameter für eine größere Tonhöhenänderung/einen größeren Tonhöhenbereich/eine größere Häufigkeit von Veränderungen. Folglich sind sie deutliche Anzeichen für emotionale Erregung.
  • Übereinstimmungsgrad unterschiedlicher Sprechcharakteristiken: Wie zuvor erwähnt, wird davon ausgegangen, daß eine Unregelmäßigkeit bei Sprechmustern sich auf einen emotionalen Ausdruck bezieht.
  • Das allgemeine, weniger geordnete Verhalten von Sprechcharakteristiken zeigt sich anhand einer geringeren Übereinstimmung mehrerer Sprechvariablen, wie der Länge und Verteilung von Abständen zwischen aufeinanderfolgenden Pausen und stillen Abschnitten, die Länge der Pausen und der stillen Abschnitte selbst und die Länge, Häufigkeit und Verteilung unterschiedlicher nicht-stiller Abschnitte (z.B. die Länge der Zeiträume mit steigender bzw. fallender Tonhöhe). Wie bei der Messung des Vorliegens von gleichbleibender Tonhöhe liegt die Betonung auf der Messung von Ereignissen auf der Zeitskala – Anzahl pro Sekunde, Längen, Abstände und Verteilung spezifischer Sprechvariablen oder gruppierter Perioden innerhalb des Sprachsegmentes. Diese Zeit-basierten Variablen werden allgemein weniger durch Einfluß- und Störfaktoren beeinflußt, als die Variablen der Tonhöhe und Amplitude. Die Erkennung einer Kombination von Abweichungen einiger dieser Variablen gegenüber einer geordneten Sprachstruktur kann die Unregelmäßigkeit von Sprechmustern aufdecken, die im Zusammenhang mit emotionaler Erregung steht.
  • 2. Überwindung des Effektes individueller Sprechmuster
  • Wie hier zuvor erwähnt, unterscheiden sich Stimm- und Sprechmuster von einer Person zur anderen deutlich. Einige dieser Unterschiede sind allgemeiner Art. Beispielsweise hat die Sprechweise von Frauen statistisch gesehen eine höhere Tonhöhe als die Sprechweise von Männern. Andere Unterschiede sind spezifischer. Beispielsweise hat die Sprechweise einer Person eine typische Tonhöhen-Charakteristik dieser Person, und es gibt zahlreiche andere Sprachtendenzen, welche die Sprechweise bestimmter Personen charakterisieren, wie z.B. eine monotone Sprechweise, eine stockende Sprechweise usw.
  • Bei den Ausführungsformen der vorliegenden Erfindung macht die Bestimmung des allgemeinen Niveaus emotionaler Erregung des Probanden, um die Abweichungseffekte aufgrund der allgemeinen Charakteristiken der Sprechmuster der Person zu überwinden, selektiven Gebrauch von sekundären Stimm-Tonhöhenparametern und selektiven Gebrauch von sekundären Stimm-Amplitudenparametern.
  • Verwendung sekundärer und nicht primärer Sprechparameter: Bei der Sprechanalyse gemäß Ausführungsformen der vorliegenden Erfindung werden vorwiegend sekundäre Stimm- und Sprechparameter verwendet und primäre Parameter außer acht gelassen.
  • Für die Zwecke dieser Anmeldung impliziert der Begriff sekundäre Stimmparameter solche Parameter, wie sie von den primären Tonhöhen- und Amplitudenparametern hergeleitet sind, nicht aber die primären Parameter selbst. Primäre Parameter werden durch die Unterschiede zwischen Personen deutlich beeinflußt und daher bei gemäß der vorliegenden Erfindung durchgeführten Analysen nicht oder zumindest nicht ins Gewicht fallend berücksichtigt. Somit wird der Stimmfrequenzwert oder die Tonhöhe selbst allgemein nicht als Parameter verwendet, da er/sie zwischen unterschiedlichen Menschen merklich variiert. Tonhöhenänderungen innerhalb der Sprachsegmente werden jedoch betont, da sie keine absoluten Werte, sondern relative Werte beisteuern und daher weniger durch die Unterschiede zwischen einzelnen Personen beeinflußt sind.
  • Selektive Verwendung sekundärer Stimm-Tonhöhenparameter: Sekundäre Stimmparameter sprechen ebenfalls bis zu einem gewissen Grad auf die Unterschiede zwischen Sprechmustern unterschiedlicher Personen an. Die Sprechverarbeitung der vorliegenden Erfindung läßt den Großteil der sekundären Parameter außer acht, die von diesen Unterschieden am meisten betroffen sind.
  • Ein Beispiel für einen sekundären Stimm-Tonhöhenparameter, der nicht verwendet wird, ist der Bereich der Tonhöhenveränderung. Dieser wird als sekundärer Parameter betrachtet, da er nur die relativen Veränderungen der Tonhöhe des Sprechers, nicht aber die Tonhöhe selbst wiedergibt. Da dieser Parameter jedoch stark mit dem tatsächlichen Tonhöhenwert korreliert, wird er häufig von den Unterschieden zwischen Personen, nicht aber vom Zustand der emotionalen Erregung selbst, deutlich beeinflußt. Folglich läßt die Sprachverarbeitung gemäß der vorliegenden Erfindung typischerweise diesen Parameter und ebenso andere sekundäre Parameter, die je nach Individuum stark variieren, außer acht.
  • Selektive Verwendung sekundärer Stimm-Amplitudenparameter: Zahlreiche Stimmamplituden-Parameter, und zwar sowohl primäre wie auch sekundäre, werden mehr durch Sprachunterschiede zwischen einzelnen Personen beeinflußt als die Tonhöhen-Parameter. Amplitudenparameter unterliegen auch stark der allgemeinen Qualität des analysierten Stimmsignals und werden durch Umwelteinflüsse, wie Interferenz, akustisches Rauschen und elektronisches Rauschen im Zusammenhang mit den verschiedenen Bauteilen der Analysegeräte, nachteilig beeinflußt. Folglich wird bei der Feststellung des Vorliegens von emotionaler Erregung gemäß der vorliegenden Erfindung wenig Gewicht auf primäre wie auch sekundäre Amplitudenparameter gelegt.
  • 3. Überwinden der Intensitätseffekte
  • Zwar wird die Intensität der emotionalen Erregung eines Probanden manchmal durch die Intensität (Lautstärke) des Sprechens selbst angezeigt, doch ist dies nicht immer der Fall. Wenn eine Person beispielsweise wütend schreit, nehmen üblicherweise Stimm-Tonhöhe, Stimmamplitude und Sprechgeschwindigkeit zu, was auch zu einer entsprechenden Zunahme der zahlreichen sekundären Sprechparameter führt, wobei das Sprechprofil einer Person, die wütend schreit, sich jedoch sehr stark vom Sprechprofil einer Person unterscheiden kann, die eine weniger aufgeregte Form von Wut zeigt, obwohl beide eine emotionale Erregung wiedergeben. Beispielsweise gibt es Menschen, die ihre Wut dadurch zeigen, daß sie ruhig und bedacht sprechen.
  • Die vorliegende Erfindung konzentriert sich auf die Detektion emotionaler Erregung an sich, und nicht nur intensiver emotionaler Erregung oder emotionaler Erregung, die einer bestimmten Emotion entspricht. Da Unterschiede in der Sprechlautstärke, die nicht mit einer emotionalen Erregung im Zusammenhang stehen, zudem die Sprechcharakteristiken störend beeinflussen können, beispielsweise dadurch, daß sie den Flüchtigkeitsgrad bestimmter Sprechparameter beeinflussen, ist es wichtig, die Effekte der Sprechlautstärke auf die Sprachverarbeitung möglichst zu minimieren. Dies kann dadurch erreicht werden, daß man den gleichen Richtlinien folgt, wie sie oben im Zusammenhang mit dem Überwinden der Effekte individueller Sprechmuster angegeben sind, einschließlich der wahlweisen Verwendung von in erster Linie sekundären Tonhöhen- und Amplitudenparametern. Dennoch wird, um die Empfindlichkeit der Verarbeitung gegenüber der Wirkung der Stimmlautstärke noch weiter zu verringern, vorzugsweise eine zusätzliche Verarbeitung durchgeführt. Der Haupteinfluß, den die hörbare Sprechlautstärke auf das Sprechen hat, besteht darin, die Bereiche ihrer Parameter zu vergrößern oder zu verkleinern. Folglich wird bei der Sprachverarbeitung der vorliegenden Erfindung allgemein eine Anfangsklassifikation jedes verarbeiteten Sprachsegmentes gemäß einer von mehreren typischen Parameterbereichs-Verhaltensklassen durchgeführt. Diese anfängliche Klassifikation ermöglicht die Anwendung unterschiedlicher Kriterien zur Bestimmung des Vorliegens von emotionaler Erregung in unterschiedlichen Parameter-Bereichsklassen bei der Verarbeitung.
  • 4. Bestimmung des Vorliegens von emotionaler Erregung
  • Wie zuvor erwähnt, wurde festgestellt, daß nach Minimierung der unterschiedlichen verfälschenden Effekte die Sprechcharakteristiken, die am unmittelbarsten mit einer emotionalen Erregung zusammenhängen, der Grad des Vorliegens einer konstanten Tonhöhe, die Unregelmäßigkeit des Tempos, des Rhythmus und anderer Sprechmusterindikatoren sind.
  • Insbesondere verwendet der Algorithmus der vorliegenden Erfindung eine Kombination von mindestens zwei und vorzugsweise mehr der folgenden Sprechparameter-Kategorien:
    • • Mittlere Pausenlänge und/oder Pausenfrequenz
    • • Kurze mittlere Länge von stillen Abschnitten und/oder Frequenz von kurzen stillen Abschnitten
    • • Mittlere Länge von Segmenten mit gleicher Tonhöhe und/oder Frequenz von Segmenten mit gleicher Tonhöhe
    • • Mittlere Länge von Segmenten mit steigender Tonhöhe und/oder Frequenz von Segmenten mit steigender Tonhöhe und/oder mittlere Länge von Segmenten mit fallender Tonhöhe und/oder Frequenz von Segmenten mit fallender Tonhöhe.
    • • Amplitudendispersion innerhalb von Sprachsegmenten mit gleicher Tonhöhe
  • Mit „Pausen" sind relativ lange stille Abschnitte beim Sprechen gemeint, wobei die Pausen beispielsweise Unterbrechungen beim Sprechen von typischerweise etwa 0,25 bis 1,25 Sekunden sind, die üblicherweise zwischen Sätzen auftreten.
  • Mit „kurze stille Abschnitte" sind Unterbrechungen mit einer Dauer von weniger als etwa 0,25 Sekunden gemeint. Kurze stille Abschnitte sind die stillen Abschnitte, die typischerweise zwischen Worten und Silben auftreten.
  • „Abschnitte gleicher Tonhöhe" sind kontinuierliche Sprachsegmente, die dadurch gekennzeichnet sind, daß sie eine relativ stabile Tonhöhe aufweisen, d.h. daß die Tonhöhe innerhalb vorgegebener Toleranzen variiert.
  • Im Gegensatz dazu sind „Segmente mit steigender und fallender Tonhöhe" Segmente, die durch einen kontinuierlichen und definierten Anstiegs- oder Abfallstrend der Tonhöhe gekennzeichnet sind.
  • Die Bestimmung emotionaler Erregung mit einem hohen Gewißheitsgrad macht es erforderlich, daß eine Kombination von mindestens zwei (vorzugsweise mehr) der obigen Parameter gleichzeitig von nicht-emotionalen Werten abweicht. Die Entscheidung, ob der Proband tatsächlich emotionale Erregung zeigt, kann jedoch vorzugsweise auch vom Grad der Abweichung jedes Parameters abhängig gemacht werden, wobei Bereich und Werte, die eine Regelmäßigkeit kennzeichnen, für jeden Parameter mittels Analyse großer Proben von Sprachdaten ermittelt werden, die von der allgemeinen Bevölkerung stammen.
  • 1 zeigt ein Blockschema einer Vorrichtung zum Detektieren emotionaler Erregung, die gemäß einer Ausführungsform der vorliegenden Erfindung gebaut und betätigbar ist. Die Vorrichtung umfaßt eine Stimmeingabeeinheit 10, eine Stimmabtast- und -digitalisiereinheit 12, eine Vorverarbeitungseinheit 14, eine Hauptverarbeitungseinheit 16 und eine Hauptindikatoren-Ausgabeeinheit 18. Die Stimmeingabeeinheit 10 kann jede Vorrichtung sein, die Daten der menschlichen Stimme in beliebiger Form trägt – ein Mikrofon, ein Schnurtelefon, ein schnurloses Telefon oder ein Mobiltelefon, eine beliebige Audiowiedergabevorrichtung (wie z.B. ein Tonbandgerät, ein CD-Spieler), digitalisierte Stimmdateien, eine Internet-Verbindung (Voice over IP, Kabel, Satellit oder jedes andere Verfahren). Die Stimmabtast- und -digitalisiereinheit 12 kann eine Computer-Soundkarte, ein Spezial-DSP-Chip oder eine andere Abtast- und Digitalisiervorrichtung sein.
  • Das Verfahren zur Feststellung von emotionaler Erregung gemäß der vorliegenden Erfindung ist folgendes (mit gewissen Variationen zwischen unterschiedlichen Ausführungsformen der Vorrichtung): Das Ablaufschema in 2 zeigt den Vorverarbeitungsschritt im Detail, und das Fließschema in 3 zeigt den Hauptverarbeitungsschritt im Detail.
  • (a) Vorverarbeitung:
  • Die Vorverarbeitungsfunktion dient zur Vorbereitung der Rohdaten für die eigentliche Verarbeitung. Insbesondere dient sie dazu, Tonhöhen- und Amplitudenparameter für jeden Sprachblock einer vordefinierten Länge zu gewinnen. Der Prozessor ist eine CPU-Einheit, bei der es sich um die CPU eines PC handeln kann, oder er kann ein spezieller DSP-Chip oder tatsächlich jede andere geeignete Verarbeitungsvorrichtung sein. Die Vorverarbeitung umfaßt die folgenden Verfahrensschritte, die von Fachleuten auf dem Gebiet der Signalverarbeitung weitgehend anerkannt sind (2):
    • • Gewinnen digitalisierter Stimmproben (Block 20);
    • • bei Bedarf Trennung eines Gruppengesprächs in einzelne Proben von Stimmkanälen. Wenn die Stimmeingabe beispielsweise ein Telefongespräch ist, wird dieses vorzugsweise in zwei Stimmkanäle aufgeteilt, deren jeder einen anderen Sprecher wiedergibt, möglicherweise durch getrenntes Abtasten mit einem Signal, das zum Beispiel über die Sprechmuschel eines der Telefone erhalten wird (Block 22). Offensichtlich unterscheiden sich die Pausen und die Längen von Phrasen im Dialog merklich von denen beim Monolog, und diese Unterschiede sind gewürdigt und berücksichtigt;
    • • Normalisierung der Werte für die Muster – für beide Kanäle durchgeführt (Block 24);
    • • Datenfilterung – für beide Kanäle durchgeführt (Block 26);
    • • Rauschminderung – für beide Kanäle durchgeführt (Block 28);
    • • Einleitung der Segmentierung und Berechnung der Basisparameter für den ersten Kanal (Block 30);
    • • für den ersten Kanal werden eine Segmentierung nach Stille und Sprache sowie eine Unterteilung der Sprachsegmente in Blöcke (Block 32) durchgeführt;
    • • eine Autokorrelation (Block 34) zur Berechnung von Tonhöhe und Amplitude wird für den ersten Kanal durchgeführt;
    • • Wenn es zwei Sprecher gibt, werden die Schritte der Segmentierung und der Autokorrelation (Blöcke 30, 32, 34 oben) nun für den zweiten Stimmkanal durchgeführt, sofern dieser vorhanden ist (Blöcke 36 und 38).
  • Die Ausgangssignale der Vorverarbeitungsschritte sind Sequenzen von Sprachsegment-Blöcken, die dadurch gekennzeichnet sind, daß sie Tonhöhen- und Amplitudenwerte pro Block sowie Längen für Stille- und Pausensegmente aufweisen.
  • (b) Verarbeitung:
  • Das Hauptverarbeitungsverfahren liefert einen Hinweis auf emotionale Erregung. Es kann mit demselben CPU-Prozessor durchgeführt werden, in dem die Vorverarbeitung durchgeführt wurde, oder alternativ auf einer anderen CPU-Einheit. Die Verarbeitungseinheit kann die CPU eines PC, ein Spezial-DSP-Chip oder jede andere geeignete Verarbeitungsvorrichtung sein. Das Verarbeitungsverfahren umfaßt für jeden Kanal die folgenden Verarbeitungsschritte (3):
    • • Auswählen eines kurzen Sprachsegmentes, typischerweise drei bis sechs Sekunden Sprache, zur Verarbeitung (Block 40).
    • • Berechnen pausenbezogener Parameter des Sprachsegmentes, einschließlich der durchschnittlichen Anzahl von Pausen pro Sekunde und der durchschnittlichen Pausenlänge (Block 42).
    • • Berechnen Stille-bezogener Parameter des Sprachsegmentes, einschließlich der durchschnittlichen Anzahl von stillen Abschnitten pro Sekunde und der durchschnittlichen Länge der stillen Abschnitte (Block 43).
    • • Bestimmen, welche Segmentsequenzen von Blöcken Segmentsequenzen sind, die Blöcke mit gleicher Tonhöhe aufweisen, durch Markieren der aufeinanderfolgenden Blöcke, die eine relativ (d.h. innerhalb akzeptabler Toleranzen) konstante Tonhöhe aufweisen (Block 44).
    • • Bestimmen, welche Segmentsequenzen von Blöcken Tendenzen steigender oder fallender Tonhöhe zeigen (Block 46).
    • • Berechnen der sekundären Tonhöhenparameter des Sprachsegments, wie der durchschnittlichen Anzahl pro Sekunde und der durchschnittlichen Länge von Perioden mit steigender, fallender und gleichbleibender Tonhöhe und der Amplitudenverteilung von Perioden mit gleicher Tonhöhe (Block 47).
    • • Klassifizieren des verarbeiteten Sprachsegmentes in eine von mehreren Kategorien typischer Parameterbereiche, um Segmente mit unterschiedlichen Sprachgrößen zu differenzieren (Block 48).
    • • Bestimmen des Indikators für emotionale Erregung im Sprachsegment. Dieser Indikator beruht auf dem Vergleich der berechneten Stimmparameter mit vordefinierten Werten, die nicht-emotionale Sprache wiedergeben, und der Bewertung der Kombination von Unregelmäßigkeiten (Block 50). Wenn ein zweiter Kanal vorhanden ist, d.h. Proben von zwei Teilnehmern in einem Gespräch (Blöcke 52 und 54) genommen werden, werden die gleichen Verfahrensschritte 40 bis 50 an der Probe des zweiten Kanals durchgeführt.
    • • Das Verfahren umfaßt vorzugsweise auch eine Berechnung eines Zuverlässigkeitsgrades – basierend auf einer Kombination mehrerer Faktoren, typischerweise einschließlich der Qualität des Stimmsegmentes (Rauschpegel, Größe der erfaßten Daten, Qualität der erfaßten Daten), der Signifikanz der Entscheidung über emotionale Erregung (Anzahl beteiligter Parameter, Abweichungsgrad jedes Parameters), der Übereinstimmung der spezifischen Segmentergebnisse mit den vorhergehenden Sprachsegmenten (emotionale Änderungen sollten hinsichtlich der Anzahl der Änderungen, ihrer Intensität, ihrer Länge und dem Wechsel zwischen Emotionen in einem bestimmten Zeitraum vernünftigen Mustern folgen).
    • • Musterverarbeitung: Die Verarbeitung kann eine weitere Schicht umfassen, die gewisse emotionale Muster detektiert, welche sich im Laufe der Zeit oder im Vergleich mit anderen Ergebnissen zeigen. Beispielsweise ermöglicht beim Analysieren eines Gesprächs ein Vergleich der emotionalen Zustände der beiden Sprecher die Detektion von Mustern in der zwischenmenschlichen Kommunikation, wie z.B. Zuneigung, Gleichgültigkeit, Höflichkeit, Gesprächsatmosphäre und Verlauf.
  • (c) Ausgang:
  • (1, Block 18): Die Emotionsmeßergebnisse können je nach der verwendeten spezifischen Gerätekonfiguration und gemäß der jeweiligen Anwendung an verschiedene Ausgänge gesendet werden. Normalerweise wird das Ausgangssignal an die Echtzeit-Anzeige eines Benutzers (visuell, stimmlich oder textlich) gesendet. Es kann einem Fernnutzer über jede Art von Netzwerk berichtet und in jeder) Art von Ausgabe- oder Speichergerät oder Datei protokolliert oder gespeichert werden.
  • 5. Vorrichtung und mögliche Anwendungen
  • Beispielshalber werden zwei Grundmodelle für Vorrichtungen zur Durchführung des Patentes vorgestellt, wobei jedoch auch andere geeignete Vorrichtungen alternativ dazu eingesetzt werden können:
  • (a) Eine kleine, mobile DSP-Chip-basierte Einheit:
  • Diese Vorrichtung kann als kleine mobile Einheit zur Echtzeit-Detektion oder Offline-Analyse emotionaler Erregung dienen. Sie kann als Einzelgerät bei direkten zwischenmenschlichen Wechselwirkungen verwendet werden. Alternativ dazu kann sie an Eingabe- oder Ausgabegeräte, wie z.B. Computer, Audiowiedergabegeräte, Schnurtelefone oder schnurlose Telefone oder Mobiltelefone, elektronische Personal Organizer, Internet oder jedes andere Netzwerk, angeschlossen werden, um verschiedene lokale oder entfernte Stimmeingaben zu erhalten und verschiedene lokale oder entfernte Ausgangssignale anzuzeigen oder zu berichten. Sie kann auch als Hardware in andere Geräte, wie z.B. Schnurtelefone, schnurlose Telefone oder Mobiltelefone, Computerspiele, Spielzeuge, Computer oder jedes andere elektronische Gerät, integriert werden. Die Vorrichtung umfaßt ein Mikrofon (oder eine andere Eingabeschnittstelle), einen digitalen Abtaster, einen Prozessor und eine Anzeige (oder eine andere Ausgabeschnittstelle).
  • (b) Ein Software-basiertes Werkzeug.
  • Diese Vorrichtung kann als computerbasiertes Werkzeug zur Echtzeit-Detektion oder zur Offline-Analyse von emotionaler Erregung dienen. Sie kann als unabhängiges Software-Werkzeug zur Analyse digitaler Stimmdateien verwendet werden. Alternativ dazu kann sie über die Computer-Schnittstellen mit einem beliebigen Eingabe-/-Ausgabegerät verbunden werden, um ein lokales oder entferntes Stimmeingabesignal zu gewinnen und auf verschiedenen lokalen oder entfernten Ausgabegeräten, wie Mikrofonen, Audio-Wiedergabegeräten, Schnurtelefonen oder schnurlosen Telefonen oder Mobiltelefonen, über das Internet oder ein anderes Netzwerk, andere Computer oder ein anderes elektronisches Gerät anzuzeigen oder zu melden. Das Software-Werkzeug kann auch als Untersystem in ein anderes System integriert werden. Solche Systeme enthalten beispielsweise Call Center-/Kontakt-Center-Software oder -Hardware, die Gespräche überwacht, aufzeichnet oder analysiert, verschiedene Situations- und Personentrainer oder jedes Überwachungs-, Lehr- oder Feedback-System. Das Emotions-Softwarewerkzeug wird typischerweise in einer Computerumgebung installiert, die typischerweise ein Mikrofon (oder eine andere Eingabeschnittstelle), eine Abtast- und -digitalisiereinheit, einen Prozessor, eine Anzeige (oder eine andere Ausgabe-Schnittstelle) und jede andere relevante externe Schnittstelle enthält.
  • Es versteht sich, daß die vorliegende Erfindung einen sehr breiten Bereich möglicher Anwendungen und Einsätze hat. Einige der Möglichkeiten sind nachfolgend lediglich beispielhalber aufgeführt. Die Verwendung der vorliegenden Erfindung ist jedoch nicht auf die hier beschriebenen Anwendungen beschränkt.
  • Die Emotionsüberwachung kann dazu verwendet werden, Marketing, Verkäufe, Dienstleistungen und Beziehungen mit Kunden, insbesondere in der Umgebung eines Call-Centers, zu verbessern. Überprüfung, Feedback und Überwachung der Emotionen bei Interaktionen bezüglich Dienstleistungen/Verkäufen können in einer Echtzeitumgebung sowie mittels Offline-Analyse implementiert werden. Die Überwachung kann mit beiden oben beschriebenen Geräten implementiert werden: Sie kann als Software-Tool in andere Call-Center-Produkte, wie z.B. Aufzeichnungs-Tools, CRM (Customer Relation Management)-Produkte, Trainings-Tools oder E-Commerce-Software, integriert werden. Sie kann als unabhängiges Software-Tool im Call-Center, in CRM- oder E-Commerce-Umgebungen installiert und auch in verschiedene Hardwarevorrichtungen in diesen Umgebungen als DSP-Chip-basierte Einheit integriert werden. Eine kleine DSP-Chip-basierte Einheit kann auch als unabhängige kleine Einheit zur Überwachung von direkten Wechselwirkungen zwischen Verkäufer und Kunden verwendet werden.
  • Die Emotionsüberwachung kann dazu verwendet werden, das Ausbildungsverfahren für verschiedenes berufliches Personal zu verbessern, indem das Bewußtsein für emotionale sowie nicht-emotionale verbale Muster, wie sie über die Stimme eines Sprechers ausgedrückt werden, verbessert wird. Zusätzlich kann das Überwachungs-Werkzeug zu Demonstrationszwecken (Analyse von Sprachsegmenten mit unterschiedlichen Emotionen und unterschiedlichen Emotions-Ausdrucksmustern) und zum Trainieren der Kontrolle des Emotionsausdrucks (Feedback über die Emotionen eines Benutzers plus Belohnung für das Ändern der Emotion oder des Ausdrucksmusters) verwendet werden.
  • Die emotionale Überwachung kann als unterstützendes Werkzeug bei verschiedenen Personalführungsaufgaben, wie Vorstellungsgesprächen oder Verhandlungen, in Meetings oder einfach auch im Gespräch und am Telefon verwendet werden.
  • Das Überwachen von Emotionen kann als zusätzliches Werkzeug für psychologische Tests und zur Diagnose und Behandlung bestimmter Erkrankungen, einschließlich beispielsweise psychischer Erkrankungen, nützlich sein. Diese Überwachung kann während Echtzeit-Gesprächen oder bei einer Offline-Analyse eines aufgezeichneten Gesprächs durchgeführt und bei direkten Interaktionen, oder wenn eine Interaktion über das Telefon oder mittels Sprachtelekommunikation über das Internet erfolgt, eingesetzt werden.
  • Auch in der Werbung kann man von der emotionalen Überwachung profitieren, da sie das Verfahren zur Messung und zur Bewertung des Verhaltens von Personen mittels Fragebögen, Fokussiergruppen und anderen Verfahren, deutlich aufwertet.
  • Die emotionale Überwachung kann zur Unterstützung einer Sprachtherapie und dazu verwendet werden, die Entspannung zu erhöhen und größere Kontrolle über positive und negative Gefühlszustände zu erreichen. Die Änderung des Gefühlszustandes kann entweder als direktes Ergebnis eines verstärkten Bewußtseins oder durch ein Verfahren, das einem Biofeedback-Mechanismus entspricht, erreicht werden. Eine wichtige Anwendung kann darin bestehen, die zahlreichen Programme zu unterstützen, die auf eine Verringerung von gewalttätigem Verhalten bei Kindern und Erwachsenen abzielen, wobei die Überwachung dazu beitragen kann, Muster verbal ausgedrückter Wut zu zeigen und zu ändern.
  • Der Einsatz der Emotionsüberwachung kann Computer- und Elektronikspielen, und zwar sowohl Lehr- wie auch Freizeitprogrammen, eine zusätzliche Qualität verleihen. Die Emotionsüberwachung kann auch Teil von Spielwaren und Spielen sein, die mit einem Kind interagieren und ihm seinen emotionalen Zustand wiederspiegeln.
  • Die Emotionsüberwachung gemäß der vorliegenden Erfindung kann auch dazu eingesetzt werden, die Spracherkennung bei verschiedenen Anwendungen zu verbessern und die Interaktion zwischen einem Computer oder Roboter und seinem Benutzer zu verstärken, indem das elektrische Gerät auf die Gefühlszustände der Menschen in seiner Umgebung reagieren kann.
  • Die Emotionsüberwachung kann auch als Werkzeug zum Erkennen gewisser mentaler Zustände mit deutlichen Stimm-Charakteristiken, wie z.B. Ermüdung, eingesetzt werden.
  • Es versteht sich, daß die Erfindung nicht auf die oben lediglich beispielhalber gegebene Beschreibung beschränkt ist. Vielmehr ist die Erfindung ausschließlich durch die nachfolgenden Ansprüche eingeschränkt.

Claims (22)

  1. Verfahren zum Feststellen emotionaler Erregung eines Probanden durch Sprechanalyse, das die folgenden Schritte umfaßt: Gewinnen eines Sprechmusters; Vorverarbeiten des Sprechmusters zu stillen und aktiven Sprachsegmenten und Unterteilen der aktiven Sprachsegmente in Sequenzen gleichlanger Blöcke, wobei die Blöcke primäre Sprechparameter haben, die Tonhöhen- und Amplitudenparameter einschließen; Herleiten mehrerer ausgewählter sekundärer Sprechparameter, die Charakteristiken von Tendenzen gleichbleibender Tonhöhe, steigender Tonhöhe und fallender Tonhöhe in den Sequenzen von Blöcken anzeigen; Vergleichen der sekundären Sprechparameter mit vordefinierten, Probandenunabhängigen Werten, die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, und das erzeugte Verarbeitungsergebnis an eine Ausgabevorrichtung auszugeben, wobei die mehreren ausgewählten sekundären Sprechparameter aus der folgenden Liste ausgewählt sind: (a) durchschnittliche Länge kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte; (b) durchschnittliche Länge von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; (c) durchschnittliche Länge von Segmenten steigender Tonhöhe und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche Länge von Segmenten fallender Tonhöhe und/oder Frequenz von Segmenten fallender Tonhöhe und (d) Durchschnittsamplitudenstreuung innerhalb von Sprachsegmenten gleichbleibender Tonhöhe.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Herleitens des weiteren das Herleiten mehrerer ausgewählter sekundärer Sprechparameter einschließt, die Pausen- und Stille-Charakteristiken des zu analysierenden Sprechmusters anzeigen.
  3. Verfahren nach Anspruch 1 oder 2, welches das Analysieren von Unregelmäßigkeiten hinsichtlich Tempo und Rhythmus, Tonhöhe und Amplitude des zu analysierenden Sprechmusters einschließt.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die mehreren ausgewählten sekundären Sprechparameter weiterhin die durchschnittliche Pausenlänge und/oder Pausenfrequenz einschließen.
  5. Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt des Gewinnens eines Sprechmusters den Schritt des Eingebens einer digitalisierten Stimmdatei umfaßt.
  6. Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt des Gewinnens eines Sprechmusters den Schritt des Erfassens von Sprechproben und des Abtastens und Digitalisierens der Sprechproben in einer Stimmabtast- und -digitalisiereinheit zum Erzeugen einer digitalisierten Stimmdatei umfaßt.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei der Schritt des Vorverarbeitens einschließt: Gewinnen digitalisierter Stimm-Muster, Normalisieren der Stimm-Muster, Datenfilterung, Rauschunterdrückung, Segmentieren der Stimm-Muster in Stille- und Sprachsegmente, Unterteilen der Sprachsegmente in Blöcke und Verarbeiten der Blöcke durch Autokorrelation, um Tonhöhen- und Amplituden-Sprechparameter blockweise zu berechnen.
  8. Verfahren nach einem der Ansprüche 1 bis 7, das zum Analysieren eines Sprechsignals eingerichtet ist, das mehrere in Wechselwirkung stehende Stimmen enthält, wobei es des weiteren umfaßt: Trennen der in Wechselwirkung stehenden Stimmen in separate Stimmkanäle; Durchführen einer Muster-Normalisierung für jeden interessierenden Kanal; Durchführen einer Datenfilterung für jeden interessierenden Kanal; Durchführen einer Rauschunterdrückung für jeden interessierenden Kanal; Durchführen einer Stille- und Sprach-Segmentierung und Unterteilen der Sprachsegmente in Blöcke für jeden interessierenden Kanal, und Autokorrelationsverarbeitung, um Tonhöhen- und Amplituden-Sprechparameter blockweise für jeden interessierenden Kanal zu berechnen.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Herleitens umfaßt: Markieren eines Sprachsegmentes einer vordefinierten Länge zum Verarbeiten; Berechnen von auf Pausen bezogenen Parametern für das Sprachsegment; Berechnen von auf Stille bezogenen Parametern für das Sprachsegment; Zusammenfügen von Blöcken zu Sequenzen von Blöcken, die als Sequenzen von Blöcken mit Tendenzen steigender Tonhöhe und Sequenzen von Blöcken mit Tendenzen fallender Tonhöhe und Sequenzen von Blöcken mit Tendenzen gleichbleibender Tonhöhe kategorisiert werden; Berechnen von auf die Tonhöhe bezogenen Parametern innerhalb des Sprachsegmentes, wobei die auf die Tonhöhe bezogenen Parameter aus der Liste von Frequenz und durchschnittlicher Länge von Sequenzen von Blöcken, die dadurch gekennzeichnet sind, daß sie Tendenzen steigender, fallender oder gleichbleibender Tonhöhe haben, und Durchschnittsamplitudenstreuung von Sequenzen von Blöcken, die gleichbleibende Tonhöhen haben, ausgewählt sind, und Einteilen des Sprachsegmentes in eine von mehreren Kategorien eines typischen Parameterbereichs.
  10. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Vergleichens der sekundären Sprechparameter mit vordefinierten, Probandenunabhängigen Werten, die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, das Vergleichen wenigstens zweier sekundärer Stimmparameter-Kategorien mit vordefinierten Werten einschließt, die eine nicht-emotionale Sprechweise darstellen, wobei die Kategorien aus der folgenden Liste ausgewählt sind: (a) durchschnittliche Länge von Pausen und/oder Frequenz von Pausen; (b) durchschnittliche Länge kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte; (c) durchschnittliche Länge von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; (d) durchschnittliche Länge von Segmenten steigender Tonhöhe und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche Länge von Segmenten fallender Tonhöhe und/oder Frequenz von Segmenten fallender Tonhöhe und (e) Durchschnittsamplitudenstreuung innerhalb von Sprachsegmenten gleichbleibender Tonhöhe.
  11. Verfahren nach einem der vorhergehenden Ansprüche, das des weiteren das Berechnen eines Zuverlässigkeitsgrades auf Basis wenigstens eines Faktors umfaßt, der aus der folgenden Liste ausgewählt ist: Qualität des Sprachsegments; Signifikanz der Entscheidung über emotionale Erregung und Übereinstimmung spezifischer Segmentergebnisse mit Ergebnissen früherer Sprachsegmente.
  12. Verfahren nach Anspruch 11, wobei die Qualität des Sprachsegments auf Basis von Rauschpegel, Größe der abgetasteten Daten und Qualität der abgetasteten Daten bestimmt wird.
  13. Verfahren nach Anspruch 11, wobei die Signifikanz der Entscheidung über emotionale Erregung auf Basis einer Anzahl beteiligter Parameter und eines Grades der Abweichung innerhalb jedes Parameters bestimmt wird.
  14. Verfahren nach einem der vorhergehenden Ansprüche, das des weiteren eine Musterverarbeitung umfaßt, um emotionale Muster zu erfassen, die entlang einer Zeitachse deutlich werden.
  15. Vorrichtung mit Mitteln, die zum Ausführen des Sprechanalyseverfahrens nach Anspruch 1 eingerichtet sind, wobei die Vorrichtung umfaßt: eine Stimmeingabeeinheit; eine Vorverarbeitungseinheit, die Stimm-Muster von der Stimmeingabeeinheit vorverarbeitet; eine Hauptverarbeitungseinheit, die die vorverarbeiteten Stimm-Muster verarbeitet und daraus emotionale Erregung erfaßt, und eine Hauptindikatoren-Ausgabeeinheit, die eine Anzeige emotionaler Erregung ausgibt.
  16. Vorrichtung nach Anspruch 15, wobei die Stimmeingabeeinheit eine Stimmerfassungseinheit und eine Stimmabtast- und -digitalisiereinheit enthält, die mit der Stimmerfassungseinheit gekoppelt ist, um erfaßte Stimmeingabe abzutasten und zu digitalisieren.
  17. Vorrichtung nach Anspruch 15 oder 16, wobei die Stimmeingabeeinheit wenigstens eine der folgenden Einrichtungen enthält: ein Mikrofon, eine Schnittstelle zu einer Audio-Wiedergabeeinrichtung, eine Schnittstelle zu einem Schnurtelefon, einem schnurlosen Telefon oder einem Mobiltelefon, eine Schnittstelle zum Internet oder einem anderen Netzwerk, eine Schnittstelle zu einem Computer, eine Schnittstelle zu einem elektronischen Personal Organizer oder zu jedem beliebigen anderen elektronischen Gerät oder eine Schnittstelle zu einem Spielzeug.
  18. Vorrichtung nach Anspruch 16, wobei die Stimmabtast- und -digitalisiereinheit unter einer Soundkarte oder einer Stimmabtast- und -digitalisiereinheit auf Basis eines DSP-Chips ausgewählt ist.
  19. Vorrichtung nach Anspruch 15, wobei die Hauptindikatoren-Ausgabeeinheit unter einer lokalen Ausgabeeinrichtung, einer Anzeigeeinrichtung, einem Lautsprecher, einer Datei, einer Speichereinheit oder einer Überwachungseinrichtung oder einer Schnittstelle zu einem entfernten Computer, zum Internet, zu einem anderen Netzwerk, zu einem Schnurtelefon, einem schnurlosen Telefon oder einem Mobiltelefon, zu einem Computerspiel, zu einem Spielzeug, zu einem elektronischen Personal Organizer oder zu jedem beliebigen anderen elektronischen Ausgabegerät ausgewählt ist.
  20. Vorrichtung nach einem der Ansprüche 15 bis 19, wobei alle Einheiten auf einer kleinen mobilen Einheit auf Basis eines DSP-Chips installiert sind.
  21. Vorrichtung nach einem der Ansprüche 15 bis 20, wobei einige der Einheiten physisch von anderen Einheiten entfernt sind und die Vorrichtung des weiteren eine Schnittstelle umfaßt, die eine Datenkommunikation zwischen den Einheiten ermöglicht.
  22. Vorrichtung nach einem der Ansprüche 15 bis 21, wobei die Vorverarbeitungs- und die Verarbeitungseinheit in einem Softwarewerkzeug enthalten sind, das in eine externe Quelle für digitalisierte Stimmeingabe und in eine externe Ausgabeeinrichtung integrierbar ist.
DE60210295T 2001-08-09 2002-08-07 Verfahren und vorrichtung zur sprachanalyse Expired - Lifetime DE60210295T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IL144818A IL144818A (en) 2001-08-09 2001-08-09 Method and apparatus for speech analysis
IL14481801 2001-08-09
PCT/IL2002/000648 WO2003015079A1 (en) 2001-08-09 2002-08-07 Method and apparatus for speech analysis

Publications (2)

Publication Number Publication Date
DE60210295D1 DE60210295D1 (de) 2006-05-18
DE60210295T2 true DE60210295T2 (de) 2006-12-07

Family

ID=11075679

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60210295T Expired - Lifetime DE60210295T2 (de) 2001-08-09 2002-08-07 Verfahren und vorrichtung zur sprachanalyse

Country Status (8)

Country Link
US (1) US7606701B2 (de)
EP (1) EP1423846B1 (de)
AT (1) ATE322067T1 (de)
CA (1) CA2456625C (de)
DE (1) DE60210295T2 (de)
ES (1) ES2261706T3 (de)
IL (1) IL144818A (de)
WO (1) WO2003015079A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011116937A1 (de) 2010-03-23 2011-09-29 Zoobe Gmbh Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern
US10748644B2 (en) 2018-06-19 2020-08-18 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11120895B2 (en) 2018-06-19 2021-09-14 Ellipsis Health, Inc. Systems and methods for mental health assessment

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917366B1 (en) 2000-03-24 2011-03-29 Exaudios Technologies System and method for determining a personal SHG profile by voice analysis
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法
AU2003276661A1 (en) * 2003-11-05 2005-05-26 Nice Systems Ltd. Apparatus and method for event-driven content analysis
US8687792B2 (en) * 2004-04-22 2014-04-01 Hewlett-Packard Development Company, L.P. System and method for dialog management within a call handling system
US7945006B2 (en) * 2004-06-24 2011-05-17 Alcatel-Lucent Usa Inc. Data-driven method and apparatus for real-time mixing of multichannel signals in a media server
US20080045805A1 (en) * 2004-11-30 2008-02-21 Oded Sarel Method and System of Indicating a Condition of an Individual
WO2006132159A1 (ja) * 2005-06-09 2006-12-14 A.G.I. Inc. ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
JP2007041988A (ja) * 2005-08-05 2007-02-15 Sony Corp 情報処理装置および方法、並びにプログラム
US20070094270A1 (en) * 2005-10-21 2007-04-26 Callminer, Inc. Method and apparatus for the processing of heterogeneous units of work
WO2008041881A1 (fr) * 2006-10-03 2008-04-10 Andrey Evgenievich Nazdratenko Procédé permettant de déterminer l'état de stress d'un individu en fonction de sa voix et dispositif de mise en oeuvre de ce procédé
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
US8721554B2 (en) 2007-07-12 2014-05-13 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
WO2009086033A1 (en) 2007-12-20 2009-07-09 Dean Enterprises, Llc Detection of conditions from sound
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US8031075B2 (en) 2008-10-13 2011-10-04 Sandisk Il Ltd. Wearable device for adaptively recording signals
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
US8943394B2 (en) * 2008-11-19 2015-01-27 Robert Bosch Gmbh System and method for interacting with live agents in an automated call center
WO2010148141A2 (en) * 2009-06-16 2010-12-23 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
US8676172B2 (en) * 2009-06-29 2014-03-18 Nokia Solutions And Networks Oy Generating relational indicators based on analysis of telecommunications events
US20120116186A1 (en) * 2009-07-20 2012-05-10 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US20110082698A1 (en) * 2009-10-01 2011-04-07 Zev Rosenthal Devices, Systems and Methods for Improving and Adjusting Communication
US20110294099A1 (en) * 2010-05-26 2011-12-01 Brady Patrick K System and method for automated analysis and diagnosis of psychological health
US20110295597A1 (en) * 2010-05-26 2011-12-01 Brady Patrick K System and method for automated analysis of emotional content of speech
EP2418643A1 (de) 2010-08-11 2012-02-15 Software AG Computerimplementiertes Verfahren und System zur Analyse digitaler Sprachdaten
EP2438863A1 (de) * 2010-10-05 2012-04-11 Phibio Science AB System und Verfahren zur Analyse von Pausenzeitdauern in gesprochener Sprache
US9711137B2 (en) 2011-11-10 2017-07-18 At&T Intellectual Property I, Lp Network-based background expert
US20140095402A1 (en) * 2012-09-28 2014-04-03 Hireiq Solutions, Inc. System and Method of Scoring Candidate Audio Responses for a Hiring Decision
US9535899B2 (en) 2013-02-20 2017-01-03 International Business Machines Corporation Automatic semantic rating and abstraction of literature
US9311294B2 (en) * 2013-03-15 2016-04-12 International Business Machines Corporation Enhanced answers in DeepQA system according to user preferences
US20140297551A1 (en) * 2013-04-02 2014-10-02 Hireiq Solutions, Inc. System and Method of Evaluating a Candidate Fit for a Hiring Decision
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
WO2015105994A1 (en) 2014-01-08 2015-07-16 Callminer, Inc. Real-time conversational analytics facility
US9894405B2 (en) 2014-03-11 2018-02-13 Amazon Technologies, Inc. Object discovery and exploration in video content
US10939175B2 (en) 2014-03-11 2021-03-02 Amazon Technologies, Inc. Generating new video content from pre-recorded video
US9892556B2 (en) 2014-03-11 2018-02-13 Amazon Technologies, Inc. Real-time exploration of video content
US9747727B2 (en) 2014-03-11 2017-08-29 Amazon Technologies, Inc. Object customization and accessorization in video content
US10375434B2 (en) 2014-03-11 2019-08-06 Amazon Technologies, Inc. Real-time rendering of targeted video content
US9393486B2 (en) 2014-06-27 2016-07-19 Amazon Technologies, Inc. Character simulation and playback notification in game session replay
US9409083B2 (en) 2014-06-27 2016-08-09 Amazon Technologies, Inc. Spawning new timelines during game session replay
US10092833B2 (en) 2014-06-27 2018-10-09 Amazon Technologies, Inc. Game session sharing
WO2016035069A1 (en) * 2014-09-01 2016-03-10 Beyond Verbal Communication Ltd System for configuring collective emotional architecture of individual and methods thereof
US11051702B2 (en) 2014-10-08 2021-07-06 University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US11100557B2 (en) 2014-11-04 2021-08-24 International Business Machines Corporation Travel itinerary recommendation engine using inferred interests and sentiments
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
US10300394B1 (en) 2015-06-05 2019-05-28 Amazon Technologies, Inc. Spectator audio analysis in online gaming environments
US10293260B1 (en) 2015-06-05 2019-05-21 Amazon Technologies, Inc. Player audio analysis in online gaming environments
US10970843B1 (en) 2015-06-24 2021-04-06 Amazon Technologies, Inc. Generating interactive content using a media universe database
US10363488B1 (en) 2015-06-29 2019-07-30 Amazon Technologies, Inc. Determining highlights in a game spectating system
US10864447B1 (en) 2015-06-29 2020-12-15 Amazon Technologies, Inc. Highlight presentation interface in a game spectating system
US10376795B2 (en) 2015-06-30 2019-08-13 Amazon Technologies, Inc. Game effects from spectating community inputs
US10390064B2 (en) 2015-06-30 2019-08-20 Amazon Technologies, Inc. Participant rewards in a spectating system
US11071919B2 (en) 2015-06-30 2021-07-27 Amazon Technologies, Inc. Joining games from a spectating system
US10345897B2 (en) 2015-06-30 2019-07-09 Amazon Technologies, Inc. Spectator interactions with games in a specatating system
US10632372B2 (en) 2015-06-30 2020-04-28 Amazon Technologies, Inc. Game content interface in a spectating system
US10484439B2 (en) 2015-06-30 2019-11-19 Amazon Technologies, Inc. Spectating data service for a spectating system
US9665567B2 (en) * 2015-09-21 2017-05-30 International Business Machines Corporation Suggesting emoji characters based on current contextual emotional state of user
CN105632486B (zh) * 2015-12-23 2019-12-17 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置
CN107193841B (zh) * 2016-03-15 2022-07-26 北京三星通信技术研究有限公司 媒体文件加速播放、传输及存储的方法和装置
US10244113B2 (en) * 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
WO2018111066A1 (es) * 2016-12-15 2018-06-21 Pacheco Navarro Diana Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes
WO2018136043A1 (en) * 2017-01-18 2018-07-26 Hewlett-Packard Development Company, L.P. Stress management through voice data analysis
EP3392884A1 (de) 2017-04-21 2018-10-24 audEERING GmbH Verfahren zur automatischen inferenz des affektischen zustands und system zur automatischen inferenz des affektischen zustands
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
US11887622B2 (en) * 2018-09-14 2024-01-30 United States Department Of Veteran Affairs Mental health diagnostics using audio data
US11132993B1 (en) 2019-05-07 2021-09-28 Noble Systems Corporation Detecting non-verbal, audible communication conveying meaning
US10878800B2 (en) * 2019-05-29 2020-12-29 Capital One Services, Llc Methods and systems for providing changes to a voice interacting with a user
US10896686B2 (en) 2019-05-29 2021-01-19 Capital One Services, Llc Methods and systems for providing images for facilitating communication
CN112349266A (zh) * 2019-08-09 2021-02-09 深圳Tcl数字技术有限公司 一种语音编辑方法及相关设备
DE102019133684A1 (de) * 2019-12-10 2021-06-10 Sennheiser Electronic Gmbh & Co. Kg Vorrichtung zur Konfiguration einer Drahtlos-Funkverbindung und Verfahren zur Konfiguration einer Drahtlos-Funkverbindung
US11074926B1 (en) 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal
CA3174526A1 (en) 2020-03-03 2021-09-10 Vrbl Llc Verbal language analysis
US20230096357A1 (en) * 2021-09-30 2023-03-30 Sony Interactive Entertainment Inc. Emotion detection & moderation based on voice inputs
US11775739B2 (en) 2021-10-26 2023-10-03 Sony Interactive Entertainment LLC Visual tagging and heat-mapping of emotion
US20230154487A1 (en) * 2021-11-15 2023-05-18 Chu-Ying HUANG Method, system and device of speech emotion recognition and quantization based on deep learning
US11573635B1 (en) 2022-01-04 2023-02-07 United Arab Emirates University Face mask for accurate location of sensors relative to a users face, a communication enabling face mask and a communication system including the face mask

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642466A (en) * 1993-01-21 1997-06-24 Apple Computer, Inc. Intonation adjustment in text-to-speech systems
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
IL108401A (en) 1994-01-21 1996-12-05 Hashavshevet Manufacture 1988 Method and apparatus for indicating the emotional state of a person
US5995924A (en) * 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US6173260B1 (en) * 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
IL122632A0 (en) * 1997-12-16 1998-08-16 Liberman Amir Apparatus and methods for detecting emotions
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6275806B1 (en) 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011116937A1 (de) 2010-03-23 2011-09-29 Zoobe Gmbh Verfahren zur zuordnung von sprachmerkmalen zu bewegungsmustern
DE102010012427A1 (de) 2010-03-23 2011-09-29 Zoobe Gmbh Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern
DE102010012427B4 (de) * 2010-03-23 2014-04-24 Zoobe Gmbh Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern
US10748644B2 (en) 2018-06-19 2020-08-18 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11120895B2 (en) 2018-06-19 2021-09-14 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11942194B2 (en) 2018-06-19 2024-03-26 Ellipsis Health, Inc. Systems and methods for mental health assessment

Also Published As

Publication number Publication date
ES2261706T3 (es) 2006-11-16
EP1423846B1 (de) 2006-03-29
DE60210295D1 (de) 2006-05-18
WO2003015079A1 (en) 2003-02-20
IL144818A0 (en) 2002-06-30
US7606701B2 (en) 2009-10-20
CA2456625C (en) 2012-03-06
IL144818A (en) 2006-08-20
US20040249634A1 (en) 2004-12-09
ATE322067T1 (de) 2006-04-15
EP1423846A1 (de) 2004-06-02
CA2456625A1 (en) 2003-02-20

Similar Documents

Publication Publication Date Title
DE60210295T2 (de) Verfahren und vorrichtung zur sprachanalyse
DE60031432T2 (de) System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern
DE60020865T2 (de) System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener
DE60320414T2 (de) Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
DE60033132T2 (de) Detektion von emotionen in sprachsignalen mittels analyse einer vielzahl von sprachsignalparametern
DE60014063T2 (de) Vorrichtung und verfahren zur erkennung von gefühlen in der menschlichen stimme
DE602005001142T2 (de) Nachrichtenübertragungsgerät
KR101248353B1 (ko) 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
US6697457B2 (en) Voice messaging system that organizes voice messages based on detected emotion
Van Zuijen et al. Implicit, intuitive, and explicit knowledge of abstract regularities in a sound sequence: an event-related brain potential study
Hartelius et al. Long-term phonatory instability in individuals with multiple sclerosis
Dromey Spectral measures and perceptual ratings of hypokinetic dysarthria
JP2006267465A (ja) 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE10254612A1 (de) Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
Priego-Valverde et al. “Cheese!”: a Corpus of Face-to-face French Interactions. A Case Study for Analyzing Smiling and Conversational Humor
EP3291234A1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
Kelly et al. Orofacial muscle activity of children who stutter: A preliminary study
Cannito et al. Disfluency in spasmodic dysphonia: A multivariate analysis
Hird et al. The effect of right cerebral hemisphere damage on collaborative planning in conversation: an analysis of intentional structure
Wallbridge et al. It's not what you said, it's how you said it: discriminative perception of speech as a multichannel communication system
Neubauer et al. The relationship between task-induced stress, vocal changes, and physiological state during a dyadic team task
Alhinti et al. Recognising emotions in dysarthric speech using typical speech data
Tao et al. Cuempathy: A counseling speech dataset for psychotherapy research
Karakoç et al. Visual and auditory analysis methods for speaker recognition in digital forensic

Legal Events

Date Code Title Description
8364 No opposition during term of opposition