-
BEREICH DER ERFINDUNG
-
Die
vorliegende Erfindung betrifft Vorrichtungen und Verfahren zum Beobachten
von Gefühlszuständen.
-
HINTERGRUND
DER ERFINDUNG
-
Die
PCT-Offenlegungsschrift WO 97/01984 (PCT/IL96/00027) beschreibt
ein Verfahren zum Bewirken einer Biofeedback-Regulierung von wenigstens
einer physiologischen, variablen Eigenschaft des Gefühlszustandes
einer Person, enthaltend die Schritte, wenigstens einen für den Gefühlszustand der
Person charakteristischen Sprachparameter zu beobachten, so dass
ein Anzeigesignal erzeugt wird, und das Anzeigesignal dazu zu verwenden,
der Person die wenigstens eine physiologische Variable anzuzeigen.
Ein System ermöglicht
die Durchführung des
Verfahrens im selbständigen
Modus oder über die
Telefonleitung, wobei dann das Anzeigesignal an einem von der Person
entfernt gelegenen Standort abgeleitet werden kann. Informationen
bezüglich
des Gefühlszustandes
der Person können
einem Fernteilnehmer mündlich
oder textlich über
das Internet übermittelt
und dann entsprechend verarbeitet werden.
-
Die
Europäische
Offenlegungsschrift Nr. 94850185.3 (Veröffentlichungsnummer 306 664
537 A2) beschreibt ein Verfahren und eine Anordnung zum Ermitteln
von Betonungen/Anspannung (stresses) in einer gesprochenen Sequenz.
Aus einer in der gesprochenen Sprache erkannten Sequenz wird ein
Modell der Sprache erzeugt. Durch Vergleichen der gesprochenen Sequenz
mit der modellierten Sprache erhält
man eine Differenz zwischen den beiden.
-
Das
US-Patent 1,384,721 beschreibt ein Verfahren und eine Vorrichtung
zur physiologischen Reaktionsanalyse.
-
Das
US-Patent 3,855,416 von Fuller beschreibt ein Verfahren und eine
Vorrichtung zur Phonationsanalyse mit dem Ergebnis gültiger Wahrheit/Lüge-Entscheidungen
durch Beurteilung grundlegender, nach Sprechenergie gewichteter "Vibratto"-Komponenten.
-
Das
US-Patent 3,855,417 von Fuller beschreibt ein Verfahren und eine
Vorrichtung zur Phonationsanalyse mit dem Ergebnis gültiger Wahrheit/Lüge-Entscheidungen
durch Spektralenergie-Regionsvergleich.
-
Das
US-Patent 3,855,418 von Fuller beschreibt ein Verfahren und eine
Vorrichtung zur Phonationsanalyse mit dem Ergebnis gültiger Wahrheit/Lüge-Entscheidungen
durch "Vibratto"-Komponenten-Beurteilung.
-
Die
Offenbarungen aller in der Beschreibung erwähnten Veröffentlichungen und der darin
zitierten Veröffentlichungen
werden hierin durch Verweis aufgenommen.
-
Das
US-Patent 4,093,821 von Williamson beschreibt ein Verfahren und
eine Vorrichtung zum Bestimmen des Gefühlszustandes einer Person durch
Bestimmen von Plateaus in ihrem frequenz-demodulierten Sprachsignal.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
vorliegende Erfindung soll eine verbesserte Einrichtung und verbesserte
Verfahren zum Beobachten von Gefühlszuständen zur
Verfügung
stellen, wie in den unabhängigen
Ansprüchen
des vorliegenden Patentes definiert.
-
Bevorzugte
Ausführungsformen
der Erfindung sind in den abhängigen
Ansprüchen
spezifiziert.
-
Dementsprechend
wird gemäß einer
bevorzugten Ausführungsform
der vorliegenden Erfindung eine Einrichtung zum Erkennen eines Gefühlszustandes
einer Person zur Verfügung
gestellt, wobei die Einrichtung einen Stimmanalysator aufweist,
der dafür
funktionsfähig
ist, eine von der Person erzeugte Sprechprobe einzugeben und daraus
Intonationsinformationen abzuleiten, und einen Gefühlsanzeiger (emotion
reporter), der dafür
funktionsfähig
ist, auf Basis der Intonationsinformationen eine Ausgabeanzeige
des Gefühlszustandes
der Person zu generieren.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung wird die Sprechprobe dem Stimmanalysator
telefonisch zugeführt.
-
Wiederum
gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthält
der Bericht über
den Gefühlszustand
der Person einen Lügenerkennungsbericht
auf Basis des Gefühlszustandes
der Person.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die Intonationsinformationen
mehrdimensionale Intonationsinformationen.
-
Wiederum
gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die mehrdimensionalen Informationen
wenigstens dreidimensionale Informationen.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die mehrdimensionalen Informationen
wenigstens vierdimensionale Informationen.
-
Wiederum
gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die Intonationsinformationen
Informationen bezüglich
Spitzen (Dornen).
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die auf Spitzen bezogenen Informationen
die Anzahl Spitzen in einem vorgegebenen Zeitraum.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die auf Spitzen bezogenen Informationen
die zeitliche Verteilung von Spitzen.
-
Gemäß einer
zusätzlichen
bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die Intonationsinformationen
Informationen bezüglich Plateaus.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die auf Plateaus bezogenen
Informationen die Anzahl Plateaus in einem vorgegebenen Zeitraum.
-
Wiederum
gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die auf Plateaus bezogenen
Informationen Informationen bezüglich
der Länge
von Plateaus.
-
Gemäß einer
zusätzlichen
bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die Informationen bezüglich der
Länge von
Plateaus eine mittlere Plateaulänge
für einen
vorgegebenen Zeitraum.
-
Wiederum
gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthalten die Informationen bezüglich der
Länge von Plateaus
den Standardfehler der Plateaulänge
für einen
vorgegebenen Zeitraum.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung wird außerdem ein Lügenerkennungssystem
zur Verfügung
gestellt, enthaltend einen mehrdimensionalen Stimmanalysator, der
so funktioniert, dass eine von einer Person erzeugte Sprechprobe
eingegeben wird und mehrere Eigenschaften der Sprechprobe quantifiziert werden,
sowie einen Glaubwürdigkeitsbewertungsanzeiger,
der so funktioniert, dass eine Ausgabeanzeige der Glaubwürdigkeit
der Person generiert wird, einschließlich Erkennung von Lügen und basierend auf
den mehreren quantifizierten Eigenschaften.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung wird außerdem ein Erkennungsverfahren
zur Verfügung
gestellt, enthaltend das Empfangen einer von einer Person erzeugten
Sprechprobe und das Quantifizieren mehrerer Eigenschaften der Sprechprobe
sowie das Generieren einer Ausgabeanzeige der Glaubwürdigkeit
der Person, einschließlich
der Erkennung von Lügen,
auf Basis der mehreren quantifizierten Eigenschaften.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung enthält
die Sprechprobe eine Hauptsprachwelle mit einer Periode, wobei der
Stimmanalysator so funktioniert, dass er die Sprechprobe analysiert,
um die Auftrittsrate von Plateaus zu bestimmen, wobei jedes Plateau
anzeigt, dass die Hauptsprachwelle mit einer eine lokalen, relativ
niederfrequenten Welle überlagert
wird, und der Gefühlsanzeiger
so funktioniert, dass eine geeignete Ausgabeanzeige auf Basis der
Auftrittsrate von Plateaus geliefert wird. Beispielsweise kann der
Gefühlsanzeiger
eine entsprechende Ausgabeanzeige liefern, wenn festgestellt wird,
dass die Auftrittsrate von Plateaus sich ändert.
-
In ähnlicher
Weise zeigt jede Spitze an, dass die Hauptsprachwelle mit einer
lokalen, relativ hochfrequenten Welle überlagert wird. Ein besonderer Vorteil
der Analyse von Plateaus und Spitzen, wie vorliegend dargestellt
und beschrieben, besteht darin, dass im Wesentlichen alle Frequenzen
der Sprachwelle analysiert werden können.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung wird außerdem ein Verfahren zum Erkennen
von Gefühlszuständen zur
Verfügung
gestellt, das folgendes beinhaltet: Feststellen eines mehrdimensionalen,
charakteristischen Bereiches, der den Gefühlsbereich einer Person im
Ruhezustand charakterisiert, indem die Person während einer ersten Periode,
während
derer die Person sich in emotional neutralem Zustand befindet, hinsichtlich
mehrerer gefühlsbezogener
Parameter beobachtet wird, und Definieren des mehrdimensionalen,
charakteristischen Bereiches als Funktion des Bereiches der mehreren
gefühlsbezogenen Parameter
während
der ersten Periode sowie Beobachten der Person hinsichtlich der
mehreren gefühlsbezogenen
Parameter während
einer zweiten Periode, während
derer der Gefühlszustand
der Person erkannt werden soll, um so eine Messung der mehreren
gefühlsbezogenen
Parameter zu erlangen, und Anpassen der Messung, so dass der Bereich
berücksichtigt
wird.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung wird außerdem ein Verfahren zum Erkennen
des Gefühlszustandes
einer Person zur Verfügung
gestellt, wobei das Verfahren folgendes beinhaltet: Empfangen einer
von der Person erzeugten Sprechprobe und Ableiten von Intonationsinformationen
daraus sowie Generieren einer Ausgabeanzeige des Gefühlszustandes
der Person auf Basis der Intonationsinformationen.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Die
vorliegende Erfindung wird aus der folgenden detaillierten Beschreibung
in Verbindung mit den Zeichnungen verständlich und deutlich, wobei
-
1A eine
bildliche Darstellung eines Systems zur Online-Beobachtung des Gefühlszustandes eines
Sprechers ist,
-
1B eine
vereinfachte Flussdiagramm-Darstellung eines bevorzugten Verfahrens zur
Online-Beobachtung
des Gefühlszustandes
eines Sprechers ist,
-
2 eine
grafische Darstellung eines Stimmsegmentes einschließlich einer
Anzahl Spitzen ist,
-
3 eine
grafische Darstellung eines Stimmsegmentes einschließlich einer
Anzahl Plateaus ist,
-
4 eine
vereinfachte Flussdiagrammdarstellung eines bevorzugten Verfahrens
zur Durchführung
von Schritt 40 aus 1B ist,
-
5 eine
vereinfachte Flussdiagrammdarstellung eines bevorzugten Verfahrens
zum Implementieren des Schrittes des Aufbaus eines Wahrheit/Neutral-Profils
aus 1B ist,
-
6 eine
vereinfachte Flussdiagrammdarstellung eines bevorzugen Verfahrens
zur Durchführung
von Schritt 90 aus 1B auf
einem bestimmten Segment ist,
-
7 eine
vereinfachte Flussdiagrammdarstellung eines bevorzugten Verfahrens
zur Durchführung
von Schritt 100 aus 1B ist,
-
8 eine
vereinfachte Flussdiagrammdarstellung eines bevorzugten Verfahrens
zur Durchführung
von Schritt 105 aus 1B ist,
-
9 eine
bildliche Darstellung einer Bildschirmanzeige ist, die das Formular
im Entwurfsmodus kurz vor dem Start der Anwendung aus Anlage A zeigt,
-
10 eine
bildliche Darstellung einer Bildschirmanzeige ist, die das Formular
im Ausführungsmodus
des Systems aus Anlage A während
der Kalibrierung auf eine bestimmte Person hin zeigt,
-
11 eine
bildliche Darstellung einer Bildschirmanzeige ist, die das Formular
im Ausführungsmodus
des Systems aus Anlage A während
des Testens einer Person zeigt und
-
12 eine
vereinfachte Blockdiagrammdarstellung eines bevorzugten Systems
zum Durchführen
des Verfahrens aus 1B ist.
-
Folgende
Anlage ist beigefügt,
die zum Verständnis
und zur Verdeutlichung einer bevorzugten Ausführungsform der vorliegend gezeigten
und beschriebenen Erfindung dient:
Anlage A ist ein Computer-Listing
einer bevorzugten Software-Implementierung einer bevorzugten Ausführungsform
der vorliegend gezeigten und beschriebenen Erfindung.
-
DETAILLIERTE
BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
-
Ein
Teil der Offenbarung des vorliegenden Patentdokumentes enthält urheberrechtlich
geschütztes
Material. Der Urheberrechtsinhaber hat keine Einwände gegen
die von beliebiger Seite vorgenommene Wiedergabe des Patentdokumentes oder
der Patentoffenlegung als Kopie in der Form, wie sie in der Patentakte
oder anderen Akten des Patent- und Markenamtes erscheint, behält sich
aber ansonsten alle urheberrechtsbezogenen Rechte vor.
-
1A ist
eine bildliche Darstellung eines Systems zur Online-Beobachtung
des Gefühlszustandes
eines Sprechers. Wie dargestellt, wird in der gezeigten Ausführungsform
von dem System eine Spracheingabe empfangen, die über eine
Telefonleitung eintrifft. Das System analysiert die Spracheingabe,
um eine Anzeige des Gefühlszustandes
des Sprechers zu erhalten, die dem Nutzer vorzugsweise in Echtzeit
zur Verfügung
gestellt wird, z.B. wie dargestellt auf dem Bildschirm.
-
1B ist
eine vereinfachte Flussdiagramm-Darstellung eines bevorzugten Verfahrens zur
Online-Beobachtung des Gefühlszustandes
eines Sprechers. Das Verfahren aus 1B enthält vorzugsweise
die folgenden Schritte:
Initialisierungsschritt 10:
Konstanten werden definiert, beispielsweise die Schwellenwerte verschiedener
Parameter, wobei Bereiche definiert werden, die als Indikatoren
für verschiedene
Gefühle
angesehen werden, wie unten detailliert beschrieben.
-
Schritt 20:
Aufnehmen einer Stimme, periodisch oder auf Anforderung. Beispielsweise
können kontinuierlich,
z.B. alle 0,5 Sekunden, Stimmsegmente von 0,5 Sekunden aufgezeichnet
werden. Alternativ kommen Segmente von jeder anderen geeigneten
Länge in
Betracht, die sich überlagern
können oder
auch nicht. Beispielsweise können
benachbarte Segmente sich bis auf eine oder einige Abtastungen (samples)
nahezu völlig überlagern.
-
Digitalisieren der Stimmaufnahme.
-
Zusätzlich oder
alternativ können
einander überlagernde
Segmente der Aufnahme abgetastet werden.
-
Schritt 30:
Analysieren des Stimmsegmentes, um den relevanten Abschnitt des
Stimmsegmentes zu markieren; d.h. den Abschnitt des Stimmsegmentes,
von dem angenommen wird, dass er tatsächlich Sprachinformationen
im Gegensatz zum Grundgeräusch
enthält.
Ein geeignetes Kriterium für die
Erkennung von Sprachinformationen ist die Amplitude; z.B. wird das
erste Auftreten einer Amplitude, die einen Schwellenwert übersteigt,
als der Anfang der Sprachinformationen angesehen, und als das Ende
der Sprachinformationen wird der Punkt angesehen, ab dem während einer
vorgegebenen Zeit kein schwellenüberschreitendes
Geräusch
mehr festgestellt wird.
-
Vorzugsweise
werden die Abtastungen in dem relevanten Abschnitt normalisiert,
indem z.B. die Abtastungen verstärkt
werden, um den gesamten Amplitudenbereich auszunutzen, der in Speicher
untergebracht werden kann, z.B. +/– 127 Amplitudeneinheiten bei
Verwendung eines 8-Bit-Speichers.
-
Schritt 40:
Zählen
der Spitzen und Plateaus im relevanten Abschnitt. Berechnen der
Länge jedes identifizierten
Plateaus sowie Berechnen der mittleren Plateaulänge für den relevanten Abschnitt
und des Standardfehlers für
die Plateaulänge.
-
Eine "Spitze" ist ein schartenförmiges Merkmal.
Beispielsweise kann der Ausdruck "Spitze" definiert werden als
- a.
eine Abfolge von 3 nebeneinander liegenden Abtastungen, wobei die
erste und die dritte Abtastungen höher sind als die mittlere Abtastung,
oder
- b. eine Abfolge von 3 nebeneinander liegenden Abtastungen, wobei
die erste und die dritte Abtastung niedriger sind als die mittlere
Abtastung.
-
Vorzugsweise
wird das Vorliegen einer Spitze auch dann festgestellt, wenn die
erste und die dritte Abtastung nur sehr geringfügig von der mittleren Abtastung
abweichen, d.h. vorzugsweise gibt es keinen minimalen Schwellenwert
für die
Differenz zwischen Abtastungen. Jedoch gibt es vorzugsweise einen
minimalen Schwellenwert für
die Basis (baseline) der Spitze; d.h. Spitzen, die bei sehr niedrigen Amplituden
auftreten, werden nicht beachtet, weil angenommen wird, dass sie
eher zum Grundgeräusch als
zur Stimme gehören.
-
2 ist
eine grafische Darstellung eines Stimmsegmentes 32 einschließlich einer
Anzahl Spitzen 34.
-
Ein "Plateau" ist eine lokale
Flachheit in der Stimmwelle. Beispielsweise lässt sich ein Plateau als flache
Sequenz definieren, deren Länge über einem vorgegebenen
minimalen Schwellenwert liegt und unter einem vorgegebenen maximalen
Schwellenwert liegt. Der maximale Schwellenwert soll eine lokale
Flachheit von einer Stilleperiode unterscheiden. Eine Sequenz lässt sich
als flach ansehen, wenn die Amplitudendifferenz zwischen aufeinander
folgenden Abtastungen geringer ist als ein vorgegebener Schwellenwert
wie z.B. 5 Amplitudeneinheiten bei Verwendung eines 8-Bit-Speichers.
-
3 ist
eine grafische Darstellung eines Stimmsegmentes 36, das
eine Anzahl Plateaus 38 enthält. In Anlage A werden Plateaus
als "Sprünge" (jumps) bezeichnet.
-
Das
erfindungsgemäße System
funktioniert typischerweise in einem von zwei Modi:
- a. Kalibrierung – Aufbau
eines Profils des Wahrheit/Neutral-Gefühlzustandes der Person durch Beobachten
einer Person, während
die Person nicht lügt
und/oder sich in neutralem Gefühlszustand
befindet.
- b. Testen – Vergleich
der Sprache einer Person mit dem Profil des während der Kalibrierung festgestellten
Wahrheit/Neutral-Gefühlszustandes der
Person, um den Gefühlszustand
festzustellen und/oder festzustellen, ob die Person die Wahrheit
sagt oder nicht.
-
Wenn
das System im Kalibrierungsmodus verwendet werden soll, wird das
Verfahren von Schritt 50 aus mit Schritt 60 fortgesetzt.
Wenn das System im Testmodus verwendet werden soll, wird das Verfahren
von Schritt 50 aus mit Schritt 80 fortgesetzt.
-
Schritt 60:
Wenn Schritt 60 erreicht wird, so zeigt dies an, dass das
aktuelle Segment zu Kalibrierungszwecken verarbeitet worden ist.
Daher werden die in Schritt 40 abgeleiteten Spitzen- und
Plateau-Informationen in einer Kalibrierungstabelle gespeichert.
-
Die
Prozesse aus den Schritten 20–50 werden hier als "Stimmaufnahmen-Eingabeprozesse" bezeichnet. Wenn
weitere Stimmaufnahmen zu Kalibrierungszwecken eingegeben werden
sollen, kehrt das Verfahren zu Schritt 20 zurück. Wenn
die Eingabe aller Stimmaufnahmen zu Kalibrierungszwecken beendet
ist (Schritt 70), wird das Verfahren mit Schritt 80 fortgesetzt.
-
Schritt 80:
Aufbau eines Profils des Wahrheit/Neutral-Gefühlszustandes für die Person,
die gerade getestet wird. Damit wird der Betrieb im Kalibrierungsmodus
abgeschlossen. Anschließend
tritt das System in den Testmodus ein, in dem die Stimmaufnahmen
der Person mit deren Wahrheit/Neutral-Gefühlsprofil verglichen wird,
um das Auftreten von Unwahrhaftigkeit oder erhöhter Emotion zu identifizieren.
Das Profil der Person spiegelt typischerweise zentrale Tendenzen
der Spitzen-/Plateau-Informationen wider und wird typischerweise
so angepasst, dass Artefakte der Kalibrierungssituation berücksichtigt
werden. Beispielsweise sind aufgrund der natürlichen Anspannung zu Beginn
des Kalibrierungsprozesses die ersten Stimmaufnahmen möglicherweise weniger
zuverlässig
als darauffolgende Stimmaufnahmen. Vorzugsweise können zur
Erlangung einer zuverlässigen
Anzeige zentraler Tendenzen extreme Einträge in der Kalibrierungstabelle
verworfen werden.
-
Die
Schritte ab 90 beziehen sich auf den Testmodus.
-
Schritt 90:
Vergleichen von Spitzen-/Plateau-Informationen des aktuellen Segmentes
mit dem in Schritt 80 errechneten Wahrheit/Neutral-Gefühlsprofil.
-
Schritt 100:
Schwellenwertabgleich der Ergebnisse des Vergleichsprozesses aus
Schritt 90, um das aktuelle Segment danach zu kategorisieren, ob
es verschiedene Gefühle
und/oder Unwahrhaftigkeit anzeigt.
-
Schritt 105:
optionales Ausgleichen von Nachwirkung (carryover). Der Ausdruck "Nachwirkung" bezieht sich auf
einen Rest eines Gefühlszustandes,
der aus einem "tatsächlichen", durch eine erste
wahrgenommene Situation hervorgerufenen Gefühlszustand übertragen wird, wobei der Rest
des Gefühlszustandes
noch anhält,
nachdem die erste wahrgenommene Situation bereits beendet ist. Ein Beispiel
einer geeigneten Implementierung für Schritt 105 wird
vorliegend in dem Flussdiagramm aus 8 beschrieben.
-
Schritt 110:
Anzeigen einer Nachricht, die die in Schritt 100 bestimmte
Kategorie anzeigt.
-
Schritt 120:
Rückkehr
zu Schritt 20, wenn noch weitere Stimmsegmente zu analysieren
sind. Sonst Abbruch. Für
die Kalibrierung kann jede geeignete Segmentanzahl m verwendet werden,
z.B. 5 Segmente.
-
4 ist
eine vereinfachte Flussdiagramm-Darstellung eines bevorzugten Verfahrens zur
Durchführung
von Schritt 40 aus 1B. Wie oben
beschrieben, werden in Schritt 40 Spitzen-/Plateau-Informationen
für den
relevanten Abschnitt eines aktuellen Stimmaufnahme-Segmentes generiert.
-
Die
aktuelle Länge
des Plateaus wird mit "jj" bezeichnet.
-
"Jjmap(jj)" ist die Anzahl der
Plateaus, deren Länge
genau jj ist.
-
"Plat" ist der Zähler, mit
dem die Anzahl Plateaus unabhängig
von der Länge
gezählt
wird.
-
"Thorn" ist der Zähler, mit
dem die Anzahl Spitzen gezählt
wird.
-
n
ist die Anzahl Abtastungen in einem relevanten Abschnitt im Test.
-
In
Schritt 150 werden der Spitzen- und der Plateauzähler zurückgesetzt.
-
In
Schritt 160 beginnt die Schleife für alle Abtastungen des relevanten
Abschnitts. Die Schleife beginnt mit der ersten relevanten Abtastung
und endet mit der letzten relevanten Abtastung minus 2.
-
In
Schritt 164 werden die Amplituden der in der Schleife befindlichen
Abtastungen aufgezeichnet.
-
In
Schritt 170 und 180 werden die Spitzen erkannt,
und in Schritt 190, 195, 200 und 210 werden die
Plateaus erkannt.
-
In
Schritt 200 wird, wenn die Länge des Kandidaten-Plateaus
innerhalb angemessener Grenzen liegt, z.B. zwischen 3 und 20, die
Zahl der Plateaus von der Länge
jj inkrementiert und Plat, die Gesamtzahl Plateaus, ebenfalls inkrementiert.
Andernfalls, d.h. wenn die Länge
des Kandidaten-Plateaus unter 3 oder über 20 liegt, wird das Kandidaten-Plateau nicht
als Plateau angesehen.
-
Gleichgültig ob
das Kandidaten-Plateau als "echtes" Plateau angesehen
wird, wird die Plateaulänge
jj auf Null gesetzt (Schritt 210).
-
Schritt 220 ist
das Schleifenende, d.h. der Punkt, an dem alle Abtastungen in der
Sequenz geprüft
sind.
-
In
Schritt 230 wird der Mittelwert (AVJ) und der Standardfehler
(JQ) der Plateaulängenvariable Jjmap
errechnet.
-
In
Schritt 240 werden SPT und SPJ berechnet. SPT ist die mittlere
Anzahl Spitzen pro Abtastung, vorzugsweise entsprechend normalisiert.
SPJ ist die mittlere Anzahl Plateaus pro Abtastung, vorzugsweise
entsprechend normalisiert.
-
Gemäß der dargestellten
Ausführungsform ist
die Gefühlszustandserkennung
mehrdimensional, d.h. der Gefühlszustand
wird aus der Sprachinformation über
mehrere, vorzugsweise unabhängige
Zwischenvariablen abgeleitet.
-
5 ist
eine vereinfachte Flussdiagramm-Darstellung eines bevorzugten Verfahrens zum
Implementieren des Schrittes zum Aufbau des Wahrheit/Neutral-Gefühlsprofiles
aus 1B.
-
In 5 ist
SPT(i) der SPT-Wert für
das Segment i.
-
MinSPT
ist der minimale SPT-Wert, der in einem der m Segmente gemessen
wurde.
-
MaxSPT
ist der maximale SPT-Wert, der in einem der m Segmente gemessen
wurde.
-
MinSPJ
ist der minimale SPJ-Wert, der in einem der m Segmente gemessen
wurde.
-
MaxSPJ
ist der maximale SPJ-Wert, der in einem der m Segmente gemessen
wurde.
-
MinJQ
ist der minimale JQ-Wert, der in einem der m Segmente gemessen wurde.
-
MaxJQ
ist der maximale JQ-Wert, der in einem der m Segmente gemessen wurde.
-
ResSPT
ist die Größe des Bereiches
der während
der Kalibrierung aufgetretenen SPT-Werte. Allgemeiner kann ResSPT jede
geeignete Anzeige der Variationsbreite in der Anzahl Spitzen umfassen, die
zu erwarten ist, wenn die Person sich in einem Wahrheit/Neutral-Gefühlszustand
befindet. Wenn also die Anzahl der Spitzen in einem Sprachsegment bezüglich ResSPT
nicht der Norm entspricht, lässt sich
sagen, dass die Person sich in einem nicht-neutralen Gefühlszustand befindet, beispielsweise
einem durch Erregung bzw. Anregung gekennzeichneten Gefühlszustand.
ResSPT ist daher typischerweise eine Eingabe in den Prozess der
Beurteilung von SPT-Werten, die während unbekannter emotionaler Umstände entstehen.
-
ResSPJ
ist die Größe des Bereiches
der während
der Kalibrierung aufgetretenen SPJ-Werte. Allgemeiner kann ResSPJ jede
geeignete Anzeige der Variationsbreite in der Anzahl Plateaus umfassen,
die zu erwarten ist, wenn die Person sich in einem Wahrheit/Neutral-Gefühlszustand
befindet. Wenn also die Anzahl Plateaus in einem Sprachsegment bezüglich ResSPJ
nicht der Norm entspricht, lässt
sich sagen, dass sich die Person in einem nicht-neutralen Gefühlszustand befindet, beispielsweise
einem durch ein Gefühl
inneren Widerspruchs oder kognitiver Dissonanz gekennzeichneten
Gefühlszustand.
Daher ist ResSPJ typischerweise eine Eingabe in den Prozess der
Beurteilung von SPJ-Werten, die während unbekannter emotionaler Umstände entstehen.
-
ResJQ
ist die Größe des Bereiches
von während
der Kalibrierung aufgetretenen JQ-Werten, die als Basiswert für die Beurteilung
von JQ-Werten dient, die während
unbekannter emotionaler Umstände
entstehen.
-
Es
versteht sich, dass die Basis nicht unbedingt eine 4-dimensionale
Basis wie in 5 sein muss, sondern alternativ
sogar eindimensional sein oder weit mehr als 4 Dimensionen aufweisen
kann.
-
6 ist
eine vereinfachte Flussdiagramm-Darstellung eines bevorzugten Verfahrens zum
Ausführen
von Schritt 90 aus 1B auf
einem bestimmten Segment. Wie oben beschrieben, werden in Schritt 90 Spitzen-/Plateau-Informationen
eines aktuellen Segmentes mit der Wahrheit/Neutral-Gefühls-Basis
verglichen, die in Schritt 80 errechnet wurde.
-
Schritt 400 ist
ein Initialisierungsschritt.
-
Schritt 410 berechnet
die Abweichung eines aktuellen relevanten Abschnitts von dem zuvor
errechneten Wahrheit/Neutral-Gefühlszustandsprofil der
Person. In der dargestellten Ausführungsform umfasst die Abweichung
einen vierdimensionalen Wert mit einer ersten Komponente, die sich
auf die Anzahl Spitzen bezieht, einer zweiten Komponente, die sich
auf die Anzahl Plateaus bezieht, einer dritten Komponente, die sich
auf den Standardfehler in der Plateaulänge bezieht, und einer vierten
Komponente, die sich auf die mittlere Plateaulänge bezieht. Es versteht sich
jedoch, dass in anderen Anwendungen andere Komponenten verwendet
werden können.
In manchen Anwendungen kann zum Beispiel die Verteilung von Spitzen
(gleichmäßig, erratisch
usw.) über
ein Zeitintervall nützlich
sein, um Informationen hinsichtlich des Gefühlszustandes der Person abzuleiten.
-
"BreakpointT" (Haltepunkt)
ist ein Schwellenwert, der den akzeptablen Bereich von Verhältnissen zwischen
der mittleren Anzahl Spitzen unter Wahrheit/Neutral-Gefühlsumständen und
der bestimmten Anzahl Spitzen in dem aktuellen relevanten Abschnitt kennzeichnet.
-
"BreakpointJ" ist
ein Schwellenwert, der den akzeptablen Bereich von Verhältnissen
zwischen der mittleren Anzahl Plateaus unter Wahrheit/Neutral-Gefühlsumständen und
der bestimmten Anzahl Plateaus in dem aktuellen relevanten Abschnitt
kennzeichnet.
-
"BreakpointQ" ist
ein Schwellenwert, der den akzeptablen Bereich von Verhältnissen
zwischen einem mittleren Standardfehler der Anzahl Plateaus unter
Wahrheit/Neutral-Gefühlsumständen und
dem bestimmten Standardfehler in der Anzahl Plateaus im aktuellen
relevanten Abschnitt kennzeichnet.
-
"BreakpointA" ist
ein Schwellenwert, der den akzeptablen Bereich von Verhältnissen
zwischen der mittleren Plateaulänge
unter Wahrheit/Neutral-Gefühlsumständen und
der bestimmten mittleren Plateaulänge im aktuellen relevanten
Abschnitt kennzeichnet.
-
In
den Schritten 420–470 wird
das Profil der Person unter Berücksichtigung
der neuen, aus dem aktuellen Segment gewonnenen Informationen aktualisiert.
In der dargestellten Ausführungsform
werden nur die Werte von ResSPT und ResSPJ aktualisiert, und dies
nur dann, wenn die Abweichung eines aktuellen relevanten Abschnitts
von dem zuvor errechneten Wahrheit/Neutral-Gefühlszustandsprofil der Person
entweder sehr groß ist
(z.B. vorgegebene obere Grenzwerte (ceiling values) überschreitet)
oder sehr gering ist (z.B. unter bestimmte, typischerweise negative,
vorgegebene untere Grenzwerte (floor values) fällt). Wenn die Abweichung des
aktuellen relevanten Abschnittes von dem Wahrheit/Neutral-Profil weder
sehr groß noch
sehr gering ist (z.B. wenn sie zwischen den oberen und den unteren
Grenzwert fällt),
bleibt das Profil der Person zu diesem Zeitpunkt typischerweise
unverändert.
-
In
den Schritten 460 und 470 wird, wenn zzSPT bzw.
zzSPJ sehr nahe bei Null liegen, die Empfindlichkeit des Systems
erhöht,
indem ResSPT bzw. ResSPJ dekrementiert werden.
-
Schritt 480 erzeugt
geeignete, typischerweise anwendungsspezifische Kombinationen aus
den in Schritt 410 errechneten Abweichungskomponenten.
Diese Kombinationen werden als Basis für geeignete Gefühlsklassifikationskriterien
verwendet, z.B. die in 7 spezifizierten Gefühlsklassifikationskriterien.
Die Gefühlsklassifikationskriterien
aus 7 bestimmen, ob eine Person dahingehend klassifiziert
wird, dass sie gerade übertreibt,
unwahrhaftig ist, ausweicht, verwirrt oder unsicher ist, aufgeregt
ist oder sarkastisch ist. Es versteht sich jedoch, dass in anderen
Situationen andere Gefühlsklassifikationen verwendet
werden können.
-
In
der dargestellten Ausführungsform
werden die SPT-Informationen hauptsächlich dazu verwendet, den
Erregungsgrad zu bestimmen. Im Einzelnen wird zzSPT zur Bestimmung
des Wertes von crEXCITE verwendet, der auch von zusätzlichen
Parametern abhängen
kann, etwa crSTRESS. Zum Beispiel kann ein crEXCITE-Wert zwischen
70 und 120 als normal angesehen werden, während Werte zwischen 120 und
160 als Indikatoren für
mittlere Erregung angesehen werden können und Werte von über 160
als Indikatoren für
hochgradige Erregung angesehen werden können.
-
In
der dargestellten Ausführungsform
wird die SPJ-Information hauptsächlich
dazu verwendet, Gefühle
psychischer Dissonanz zu bestimmen. Zum Beispiel kann ein zzSPJ-Wert
zwischen 0,6 und 1,2 als normal angesehen werden, während ein
Wert zwischen 1,2 und 1,7 als Indikator für Verwirrung oder Unsicherheit
angesehen werden kann. Ein Wert von über 1,7 kann als Indikator
dafür angesehen
werden, dass die Person sich ihrer Stimme bewusst ist und/oder versucht,
ihre Stimme zu kontrollieren.
-
In
der dargestellten Ausführungsform
werden die Werte zzJQ und crSTRESS hauptsächlich dazu verwendet, den
Grad der Anspannung zu bestimmen. Beispielsweise kann ein crSTRESS-Wert zwischen
70 und 120 als normal angesehen werden, während Werte von über 120
als Indikatoren für hochgradige
Anspannung angesehen werden können.
-
In
der dargestellten Ausführungsform
werden die AVJ-Informationen dazu verwendet, die Menge an Nachdenken
zu bestimmen, das für
gesprochene Wörter
oder Sätze
aufgewendet wird. Zum Beispiel ist, wenn crTHINK einen Wert von
100 übersteigt,
die Menge des für
einen zuletzt gesprochenen Satz aufgewendeten Nachdenkens größer als
die während
der Kalibrierungsphase aufgewendete Menge. Das bedeutet, dass die
Person mehr darüber nachdenkt,
was sie sagt, als in der Kalibrierungsphase. Wenn der Wert unter
100 liegt, denkt die Person weniger darüber nach, was sie sagt, als
in der Kalibrierungsphase.
-
In
der dargestellten Ausführungsform
wird der Parameter crLIE verwendet, um die Wahrhaftigkeit zu bestimmen.
Ein crLIE-Wert bis 50 kann als Indikator für Unwahrhaftigkeit angesehen
werden, Werte zwischen 50 und 60 können als Indikatoren für Sarkasmus
oder Humor angesehen werden, Werte zwischen 60 und 130 können als
Indikatoren für Wahrhaftigkeit
angesehen werden, Werte zwischen 130 und 170 können als Indikatoren für Ungenauigkeit
oder Übertreibung
angesehen werden, und Werte über
170 können
als Indikatoren für
Unwahrhaftigkeit angesehen werden.
-
Unter
Rückbezug
auf 6 können
die oben genannten Parameter folgende Werte annehmen:
BreakpointT = BreakpointJ =
BreakpointQ = BreakpointA =
1,1
CeilingT = CeilingJ =
1,1
FloorJ = FloorT = –0,6
IncrementT = IncrementJ =
DecrementT = DecrementJ =
0,1
MinimalT = MinimalJ =
0,1
-
Es
versteht sich, dass alle Zahlenwerte lediglich Beispiele und typischerweise
anwendungsabhängig
sind.
-
7 stellt
das Verfahren dar, um die verschiedenen Parameter in Meldungen umzuwandeln, die
angezeigt werden können,
wie z.B. in 1 gezeigt.
-
8 stellt
ein Verfahren zur Feineinstellung des Wahrheit/Neutral-Gefühlszustandes
dar.
-
Anlage
A ist ein Computer-Listing einer Software-Implementierung einer
bevorzugten Ausführung
der vorliegend gezeigten und beschriebenen Erfindung, die von der
vorliegend mit Bezugnahme auf die Zeichnungen gezeigten und beschriebenen
Ausführungsform
leicht abweicht.
-
Ein
geeignetes Verfahren zum Erstellen der Software-Implementierung
ist folgendes:
- a. Erstellen eines neuen Projektes
auf einem PC, der mit einem Mikrofon, einer Soundkarte und der Software
Visual BasicTM, Version 5, ausgestattet ist.
Die Aufnahmeeinstellung der Soundkarte kann folgenden Parametern
entsprechen: 11 KHz, 8 Bit, Mono, PCM.
- b. Positionieren eines Timer-Objektes auf dem Standardformular,
das in dem neuen Projekt erscheint. Das Timer-Objekt ist mit "timer1" bezeichnet.
- c. Positionieren eines MCI-Multimedia-Steuerobjektes auf dem
Formular. Dieses Objekt ist mit "mmcontroll" bezeichnet.
- d. Positionieren von 5 Bezeichnungs-Objekten auf dem Formular.
Diese Bezeichnungen sind mit "Bezeichnung1", "Bezeichnung2", "Bezeichnung3", "Bezeichnung4" und "Bezeichnung6" bezeichnet.
- e. Erstellen von 4 Bezeichnungs-Arrays auf dem Formular. Diese
Arrays werden wie folgt umbenannt: SPT(0..4), SPJ(0..4), JQ(0..4),
AVJ(0..4).
- f. Positionieren einer Befehlsschaltfläche auf dem Formular und Ändern der "Caption"-Eigenschaft zu "Ende".
Die Befehlsschaltfläche
ist mit "command1" bezeichnet.
- g. Erstellen von Code für
das Formular durch Eingabe der Seiten aus Anlage A, die mit "form1" betitelt sind.
- h. Hinzufügen
eines Moduls zu dem Projekt. Erstellen von Code für das Modul
durch Eingabe der Seiten aus Anlage A, die mit "Feelings_detector" betitelt sind.
- i. Anschließen
eines Mikrofons an den PC.
- j. Drücken
von (F5) oder "Ausführung", um die Anwendung
zu starten.
-
9 ist
eine bildliche Darstellung einer Bildschirmanzeige, auf der das
Formular im Entwurfsmodus kurz vor dem Start der Anwendung abgebildet
ist.
-
10 ist
eine bildliche Darstellung einer Bildschirmanzeige, auf der das
Formular im Ausführungsmodus
während
der Kalibrierung auf eine bestimmte Person abgebildet ist.
-
11 ist
eine bildliche Darstellung einer Bildschirmanzeige, auf der das
Formular im Ausführungsmodus
abgebildet ist, während
eine Person getestet wird.
-
Die
Variable CoR_msgX in Anlage A hat folgende Werte:
1 – Wahrhaftigkeit,
2 – Sarkasmus,
3 – Erregung,
4 – Verwirrung/Unsicherheit,
5 – hochgradige
Erregung, 6 – Stimmmanipulation,
7 – Lüge/unwahre
Aussage, 8 – Übertreibung/Ungenauigkeit.
-
Variablen,
die Daten aus dem aktuellen relevanten Abschnitt enthalten, haben
Namen, die mit folgenden Zeichen beginnen: cor_.
-
Basisfaktoren
haben Namen, die mit folgenden Zeichen beginnen: cal_.
-
Haltepunktfaktoren
(breakpoint factors) haben Namen, die mit folgenden Zeichen beginnen: bp_.
-
ResSPT
und resSPJ werden mit ResT bzw. ResJ benannt.
-
12 ist
eine vereinfachte Funktionsblockdiagrammdarstellung eines Systems
zum Erkennen von Gefühlszuständen, das
gemäß einer
bevorzugten Ausführungsform
der vorliegenden Erfindung aufgebaut ist und funktioniert, und das
dafür funktionsfähig ist,
das Verfahren aus 1B auszuführen. Wie dargestellt, enthält das System
aus 12 eine Stimmeingabeeinrichtung wie z.B. ein Bandaufzeichnungsgerät 700,
ein Mikrofon 710 oder Telefon 720, das Sprache
erzeugt, die über
einen A/D-Wandler 740 in eine Gefühlserkennungs-Workstation 735 eingegeben
wird. Typischerweise unterteilt eine Stimmfenster-Aufzeichnungsvorrichtung
(voice window recorder) 750 die eingehenden, Sprache repräsentierenden
Signale in Stimmfenster bzw. -segmente, die von einem Stimmfenster-Analysator 760 analysiert werden.
Der Stimmfenster-Analysator vergleicht die Stimmfenster bzw. -segmente
mit in der Einheit 770 gespeicherten Kalibrierungsdaten.
Die Kalibrierungsdaten werden typischerweise individuell für jede individuelle
Person abgeleitet, wie oben detailliert beschrieben. Eine Anzeigeeinheit
bzw. ein Drucker 780 ist zum Anzeigen bzw. Ausdrucken eines
Gefühlsstatusberichts,
vorzugsweise online, für
den Anwender des Systems vorgesehen.
-
Es
versteht sich, dass die Software-Komponenten der vorliegenden Erfindung
falls gewünscht
in ROM-(Festspeicher)-Form implementiert sein können. Die Software-Komponenten können generell, falls
gewünscht,
unter Verwendung gängiger
Techniken in Hardware implementiert sein.
-
Es
versteht sich, dass die besondere, in der Anlage beschriebene Ausführungsform
nur eine äußerst detaillierte
Offenbarung der vorliegenden Erfindung bieten soll und nicht als
einschränkend
zu verstehen ist.
-
Es
versteht sich, dass verschiedene Merkmale der Erfindung, die aus
Gründen
der Klarheit im Zusammenhang mit separaten Ausführungsformen beschrieben werden,
auch in Kombination in einer einzigen Ausführungsform vorgesehen sein
können. Umgekehrt
können
verschiedene Merkmale der Erfindung, die der Kürze halber im Zusammenhang
mit einer einzigen Ausführungsform
beschrieben werden, auch separat oder in jeder geeigneten Unter-Kombinationen vorgesehen
werden.
-
Dem
Fachmann wird ersichtlich sein, dass die vorliegende Erfindung nicht
auf das oben Dargestellte und Beschriebene beschränkt ist.
Vielmehr wird der Umfang der vorliegenden Erfindung nur durch die
folgenden Ansprüche
definiert.