DE60030920T2 - Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs - Google Patents
Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs Download PDFInfo
- Publication number
- DE60030920T2 DE60030920T2 DE60030920T DE60030920T DE60030920T2 DE 60030920 T2 DE60030920 T2 DE 60030920T2 DE 60030920 T DE60030920 T DE 60030920T DE 60030920 T DE60030920 T DE 60030920T DE 60030920 T2 DE60030920 T2 DE 60030920T2
- Authority
- DE
- Germany
- Prior art keywords
- user
- data
- attribute
- additional
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000002996 emotional effect Effects 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims description 50
- 238000001914 filtration Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 23
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 206010044565 Tremor Diseases 0.000 claims description 2
- 238000011160 research Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims 4
- 230000004048 modification Effects 0.000 claims 4
- 238000004590 computer program Methods 0.000 claims 1
- 238000007670 refining Methods 0.000 claims 1
- 238000007418 data mining Methods 0.000 abstract description 4
- 230000008451 emotion Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 208000003028 Stuttering Diseases 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 235000014214 soft drink Nutrition 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 206010048909 Boredom Diseases 0.000 description 1
- 241000723298 Dicentrarchus labrax Species 0.000 description 1
- 206010016825 Flushing Diseases 0.000 description 1
- 241000269799 Perca fluviatilis Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- WABPQHHGFIMREM-AKLPVKDBSA-N lead-210 Chemical compound [210Pb] WABPQHHGFIMREM-AKLPVKDBSA-N 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
- GEBIET DER ERFINDUNG
- Die vorliegende Erfindung betrifft Sprachverarbeitungssysteme und insbesondere ein akustisch ausgerichtetes Verfahren und eine Vorrichtung zum Ermöglichen der Datenfilterung und ein akustisch ausgerichtetes Verfahren und eine Vorrichtung, um eine passende Antwort eines Sprachsystems auf einen akustisch ermittelten Status eines Benutzer des Sprachsystems zu ermitteln.
- KURZBESCHREIBUNG DES STANDES DER TECHNIK
- Datenfilterung ist ein interdisziplinäres Fachgebiet, das sich in letzter Zeit zunehmend an Bekanntheit gewinnt. Die Datenfilterung beruht auf Verfahren zum Gewinnen von Informationen aus Daten ohne bzw. mit nur geringfügiger Kontrolle. „Unkontrolliert" bezieht sich auf Verfahren, bei denen im Vorfeld keine Markierung erfolgt; Klassen können sich von selbst entwickeln. Man fasst Töne zu Gruppen zusammen und verfolgt, wie sich die Klassen entwickeln. Datenfilterung wird bei der Marktforschung, im Risikomanagement und bei der Betrugsbekämpfung eingesetzt.
- Bei der Datenfilterung lautet ein allgemein anerkannter Grundsatz, dass große Datenmengen von Vorteil sind. Deshalb erstellen oder erwerben mit der Datenfilterung befasste Unternehmen häufig Kundendatenbanken. Diese Datenbanken können auf dem bisherigen Bestellverhalten, der Vorgeschichte des Kunden, seiner bisherigen Kreditwürdigkeit und Ähnlichem beruhen. Man erwartet, dass der elektronische Handel und das Internetverhalten der Kunden bald eine Grundlage für Kundendatenbanken liefern werden. Das Wesen der gespeicherten Daten kann sich aus der manuellen oder automatischen Codierung einer Transaktion oder eines Ereignisses ergeben. Ein Beispiel einer Transaktion kann darin bestehen, dass eine bestimmte Person ein bestimmtes Produkt unter bestimmten Bedingungen zu einem bestimmten Preis erworben hat oder dass eine bestimmte Person auf eine bestimmte Werbesendung geantwortet hat. Ein Beispiel für ein Ereignis kann auch darin bestehen, dass eine Person an einem bestimmten Tag einen Verkehrsunfall hatte oder dass eine bestimmte Familie im Vormonat umgezogen ist.
- Die Daten, mit denen die Datenfilterung durchgeführt wird, sind üblicherweise in einem Data-Warehouse (Datenreservoir) gespeichert. Nach der Festlegung der Geschäftsziele wird das Data-Warehouse durchsucht, um brauchbare Merkmale auszuwählen, die Qualität der Daten zu bewerten und die Daten in analytische Modelle umzusetzen, die für die gewünschte Analyse geeignet sind. Dann können Verfahren wie die prädiktive Modellierung, die Datenbanksegmentierung, die Verknüpfungsanalyse und die Ermittlung von Abweichungen angewendet werden, um Ziele, Vorhersagen oder Ermittlungen auszugeben. Nach der Bewertung können die sich daraus ergebenden Modelle eingeführt werden.
- Gegenwärtig ist es üblich, eine Vielzahl von Transaktionen per Telefon über einen Servicemitarbeiter oder über ein interaktives Sprachdialogsystem (Interactive Voice Response, IVR) abzuwickeln. Es ist bekannt, dass die Stimme, die bei solchen Transaktionen das Verständigungsmittel darstellt, Informationen über eine Vielzahl von Benutzerattributen beinhaltet, zum Beispiel das Geschlecht, das Alter, die Muttersprache, den Akzent, den Dialekt, den sozialen Status, das Bildungsniveau und die emotionale Einstellung. Einer oder mehrere dieser Parameter können für die mit der Datenfilterung befassten Personen von Nutzen sein. Gegenwärtig geht der in diesen Transaktionen enthaltene Datenschatz für die Datenfilterung entweder ganz verloren oder müsste vor einer effektiven Nutzung erst manuell geordnet werden.
- Deshalb besteht beim Stand der Technik ein Bedarf an einem Verfahren zum Sammeln von Daten in einem Data-Warehouse, die mit der Stimme eines Benutzers eines Sprachsystems verbunden sind, das die bei Transaktionen mittels Sprachsystemen über Telefone, Fernsprechzellen und Ähnliches dargebotenen Daten effektiv und automatisch nutzen kann. Wünschenswert wäre es, wenn das Verfahren auch in Echtzeit, mit oder ohne Speicherung in einem Data-Warehouse, realisiert werden könnte, um dynamische Anpassungen von Sprachsystemen zuzulassen, zum Beispiel interaktive Sprachdialogsysteme und Ähnliches.
- ZUSAMMENFASSUNG DER ERFINDUNG
- Gemäß einem ersten Aspekt stellt die vorliegende Erfindung ein in den beiliegenden Ansprüchen beanspruchtes Verfahren zum Sammeln der mit der Stimme eines Benutzers eines Sprachsystems verknüpften Daten bereit. Das Verfahren umfasst die folgenden Schritte: Führen eines Dialogs mit einem Benutzer des Sprachsystems, Erfassen eines Sprachsignal-Verlaufs, Digitalisieren des Sprachsignal-Verlaufs, Extrahieren mindestens eines akustischen Merkmals aus dem digitalisierten Sprachsignal-Verlauf und anschließend Speichern der dem akustischen Merkmal entsprechenden Attributdaten im Data-Warehouse. Der Dialog kann durch den Benutzer des Sprachsystems mit einem Servicemitarbeiter und/oder mittels eines maschinellen Sprachsystems geführt werden. Als zu erfassender Sprachsignal-Verlauf kommen die Äußerungen des Benutzers des Sprachsystems während des Dialogs infrage. Die Digitalisierung des Sprachsignal-Verlaufs ergibt einen digitalisierten Sprachsignal-Verlauf. Das mindestens eine akustische Merkmal wird aus dem digitalisierten Sprachsignal-Verlauf extrahiert und ist mit mindestens einem Benutzerattribut verknüpft, zum Beispiel dem Geschlecht, dem Alter, dem Akzent, der Muttersprache, dem Dialekt, der sozialen Stellung, dem Bildungsniveau oder der emotionalen Einstellung des Benutzers. Die im Data-Warehouse gespeicherten Attributdaten entsprechen dem akustischen Merkmal, das mit dem mindestens einen Benutzerattribut verknüpft ist und das zusammen mit einem der kennzeichnenden Merkmale gespeichert wird. Die Daten werden im Data-Warehouse in einer Form gespeichert, in der die Datenfilterung der Daten durchgeführt werden kann.
- Gemäß einem dritten Aspekt beinhaltet die vorliegende Erfindung ferner ein Programm von Befehlen, das durch die Maschine ausgeführt werden kann, um eines der oben erörterten Verfahren durchzuführen. Das Programm ist vorzugsweise in einer maschinenlesbaren Speichereinheit gespeichert.
- Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung eine Vorrichtung zum Sammeln der der Stimme eines Benutzers entsprechenden Daten bereit. Die Vorrichtung umfasst eine Dialogsteuereinheit, ein Audioerfassungsmodul, eine akustische Empfangseinheit, ein Verarbeitungsmodul und ein Data-Warehouse. Die Dialogsteuereinheit wickelt den Dialog mit dem Benutzer ab. Das Audioerfassungsmodul ist mit der Dialogsteuereinheit verbunden und erfasst einen den Äußerungen des Benutzers während des Dialogs entsprechenden Sprachsignal-Verlauf.
- Die akustische Empfangseinheit ist mit dem Audioerfassungsmodul verbunden und so konfiguriert, dass sie den Sprachsignal-Verlauf empfängt und digitalisiert, um einen digitalisierten Sprachsignal-Verlauf zu erzeugen und aus dem digitalisierten Sprachsignal-Verlauf mindestens ein akustisches Merkmal zu extrahieren, das mindestens einem Benutzerattribut zugeordnet werden kann. Zu dem mindestens einen Benutzerattribut kann mindestens eines der oben im Zusammenhang mit den Verfahren erörterten Benutzerattribute gehören.
- Das Verarbeitungsmodul ist mit der akustischen Empfangseinheit verbunden und analysiert das mindestens eine akustische Merkmal, um das mindestens eine Benutzerattribut zu ermitteln. Das Data-Warehouse ist mit dem Verarbeitungsmoduls verbunden und speichert das mindestens eine Benutzerattribut in einer für die nachfolgende Datenfilterung geeigneten Form.
- KURZBESCHREIBUNG DER ZEICHNUNGEN
- Im Folgenden werden anhand von Beispielen Ausführungsarten der Erfindung unter Bezug auf die beiliegenden Zeichnungen ausführlich beschrieben, wobei:
-
1 ein Schaubild einer Vorrichtung zum Sammeln der mit einer Stimme eines Benutzers verknüpften Daten gemäß einer Ausführungsart der vorliegenden Erfindung ist; -
2 ein Schaubild eines in Echtzeit anpassungsfähigen Sprachsystems für das Zusammenwirken mit einem Benutzer gemäß einer Ausführungsart der vorliegenden Erfindung ist; -
3 ein Flussdiagramm eines Verfahrens zum Sammeln der mit einer Stimme eines Benutzers des Sprachsystems verknüpften Daten in einem Data-Warehouse gemäß einer Ausführungsart der vorliegenden Erfindung ist; -
4 bestimmte Einzelheiten des in3 gezeigten Verfahrens darstellt, die auch auf5 angewendet werden können; -
5 ein Flussdiagramm eines Verfahrens gemäß der vorliegenden Erfindung ist, um eine passende Reaktion eines Sprachsystems auf einen akustisch ermittelten Status eines Benutzers des Sprachsystems zu erzeugen; und -
6 bestimmte Einzelheiten des Verfahrens von5 darstellt. - DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSARTEN
-
1 zeigt eine Vorrichtung gemäß der vorliegenden Erfindung zum Sammeln mit einer Stimme es Benutzers verknüpfter Daten. Die Vorrichtung wird durch die Bezugsnummer100 bezeichnet. Die Vorrichtung beinhaltet eine Dialogsteuereinheit102 , die einen Dialog mit dem Benutzer104 abwickelt. Die Vorrichtung100 beinhaltet ferner ein mit der Dialogverwaltungseinheit verbundenes Audioerfassungsmodul106 , das einen Sprachsignal-Verlauf von Äußerungen erfasst, die der Benutzer104 während des Dialogs von sich gibt. Im Sinne der vorliegenden Erfindung ist unter einem Dialog jedes Zusammenwirken zwischen einer ersten Person und einer zweiten Person und/oder einer Maschine zu verstehen, bei der gesprochene Sprache zumindest teilweise eine Rolle spielt. - Die Vorrichtung
100 beinhaltet ferner eine akustische Empfangseinheit108 , die mit dem Audioerfassungsmodul106 verbunden und so konfiguriert ist, dass sie den Sprachsignal-Verlauf empfängt und digitalisiert, um einen digitalisierten Sprachsignal-Verlauf zu erzeugen. Ferner ist die akustische Empfangseinheit108 so konfiguriert, dass sie aus dem digitalisierten Sprachsignal-Verlauf mindestens ein akustisches Merkmal extrahiert, das auf mindestens ein Benutzerattribut, d.h. ein Attribut des Benutzers104 zurückgeführt wird. Zu dem mindestens einen Benutzerattribut kann mindestens eines der folgenden Attribute gehören: das Geschlecht des Benutzers, das Alter des Benutzers, der Akzent des Benutzers, die Muttersprache des Benutzers, der Dialekt des Benutzers, die soziale Stellung des Benutzers, das Bildungsniveau des Benutzers und die emotionale Einstellung des Benutzers. Die Dialogsteuereinheit102 kann akustische Merkmale, zum Beispiel die von der akustischen Empfangseinheit108 erhaltene MEL-Cepstra, verwenden und kann deshalb bei Bedarf mit dieser direkt verbunden sein. - Die Vorrichtung
100 beinhaltet ferner ein Verarbeitungsmodul110 , das mit der akustischen Empfangseinheit108 verbunden ist und das mindestens eine akustische Merkmal analysiert, um das mindestens eine Benutzerattribut zu ermitteln. Darüber hinaus beinhaltet die Vorrichtung100 ein Data-Warehouse112 , das mit dem Verarbeitungsmodul110 verbunden ist und das mindestens ein Benutzerattribut zusammen mit mindestens einem kennzeichnenden Merkmal in einer Form speichert, die eine spätere Datenfilterung gestattet. Kennzeichnende Merkmale werden später erörtert. - Das Geschlecht des Benutzers kann aus der Höhe der Benutzerstimme oder einfach durch Zusammenfassung von Merkmalen zu Gruppen ermittelt werden. Beim letzteren Verfahren werden Sprachmuster einer großen Anzahl von Sprechern eines Geschlechts erzeugt und dann ein Sprecher mittels der beiden Modelle klassifiziert. Das Alter des Benutzers kann ähnlich wie bei der Ermittlung des Geschlechts ebenfalls durch die Klassifizierung von Altersgruppen ermittelt werden. Obwohl diese Verfahren nicht sehr treffsicher sind, erlauben sie eine grobe Einteilung in Alterklassen, zum Beispiel Kinder, Jugendliche, Erwachsene und Senioren.
- Die Ermittlung des Akzents aus akustischen Merkmalen ist in der Technik bekannt. Zum Beispiel beschreiben Lincoln et al. in dem Artikel „A Comparison of Two Unsupervised Approaches to Accent Identification", International Conference on Spoken Language Processing, 1998, Sidney, Australien (im Folgenden als ICSLP'98 bezeichnet) geeignete Verfahren. Die Muttersprache des Benutzers kann im Wesentlichen ähnlich wie der Akzent ermittelt werden. Zum Definieren jedes einzelnen Akzent-/Muttersprache-Modells können Metadaten über die Muttersprache des Benutzers hinzugefügt werden.
- Das heißt, bei der Erstellung der Modelle für jede Muttersprache werden ein oder mehrere Sprecher eingesetzt, denen diese Sprache als ihre Muttersprache zugeordnet ist. In dem ebenfalls auf der ICSLP'98 vorgelegten Artikel „Language Identification Incorporating Lexical Information" von Matrouf et al. werden verschiedene Techniken zur Spracherkennung erörtert.
- Der Dialekt des Benutzers kann aus dem Akzent und aus der Verwendung von Schlüsselwörtern oder Redensarten ermittelt werden, die für einen bestimmten Dialekt kennzeichnend sind. Zum Beispiel ist in der französischen Sprache der Gebrauch des Begriffs „nonante" für die Zahl 90 anstelle von „quatre-vingt-dix" für einen belgischen oder einen schweizerischen Sprecher kennzeichnend, nicht aber für einen französischen oder kanadischen Sprecher. Wird jedoch für die Zahl 80 anstelle von „octante" oder „huitante" ständig der Begriff „quatre-vingt" gebraucht, wäre dies kennzeichnend für einen belgischen, nicht aber für einen schweizerischen Sprecher. Im amerikanischen Englisch weist der Gebrauch des Begriffs „grocery sack" anstelle von „grocery bag" eher auf eine Person aus dem mittleren Westen als von der mittleren Atlantikküste hin. Ein anderes Beispiel für den Unterschied zwischen dem amerikanischen Englisch im mittlerem Westen und an der mittleren Atlantikküste ist der Gebrauch des Begriffes „pop" für ein alkoholfreies Getränk im mittleren Westen und des Begriffes „soda" für das gleiche alkoholfreie Getränk an der mittleren Atlantikküste. International kann der Gebrauch des Begriffes „holiday" auf eine Person britischer Herkunft und der Gebrauch des Begriffes „vacation" eher auf eine Person aus den Vereinigten Staaten hinweisen. Die in diesem Kapitel beschriebenen Arbeitsschritte können mittels einer Spracherkennungseinheit ausgeführt werden, die im Folgenden erörtert wird.
- Die soziale Stellung des Benutzer kann Faktoren wie Rassenzugehörigkeit des Benutzers, ethnische Herkunft des Benutzers und Berufsstand des Benutzers beinhalten, zum Beispiel gewerblicher Arbeitnehmer, Mittelklasse-Angestellter oder wohlhabende Oberklasse. Solche Feststellungen können anhand definierter Akzente und Dialekte, die während des Sprachtrainings erfasst wurden, sowie durch Untersuchung der Wortwahl des Benutzers getroffen werden. Diese Techniken sind zwar nicht besonders treffsicher, vermitteln jedoch so viel Hintergrundwissen über den Benutzer, dass sie für die Datenfilterung von Nutzen sind.
- Das Bildungsniveau des Benutzers kann ähnlich wie bei der Ermittlung der sozialen Stellung aus der Wortwahl und dem Akzent ermittelt werden; auch hier darf nur eine bedingte Treffsicherheit erwartet werden, die jedoch für die Datenfilterung ausreichend ist.
- Die Ermittlung der emotionalen Einstellung des Benutzers aus akustischen Merkmalen ist in der Technik allgemein bekannt. Als erfassbare Gefühle kommen unter anderem folgende Kategorien infrage: Zorn, Wut, Panik, Angst, Furcht, Trauer, freudige Erregung, Verzweiflung, Glück, Interessiertheit, Langeweile, Schamgefühl, Überheblichkeit, Verwirrtheit, Widerwille und Stolz. Beispielhafte Verfahren zur Ermittlung der emotionalen Einstellung aus zutreffenden akustischen Merkmalen sind in den folgenden Artikeln dargelegt: „Some Acoustic Characteristics of Emotion" von Pereira und Watson, „Towards an Automatic Classification of Emotions in Speech" von Amir und Ron, „Simulated Emotions: An Acoustic Study of Voice and Perturbation Measures" von Whiteside, die sämtlich auf der ICSLP'98 vorgelegt wurden, und „Recognizing Emotion in Speech" von Dellaert et al., ICSLP'96, Philadelphia, USA, S. 1970 bis 1973.
- Das Audioerfassungsmodul
106 kann zum Beispiel mindestens eine Analog/Digitalwandler-Leiterplatte, ein interaktives Sprachdialogsystem und ein Mikrofon beinhalten. Die Dialogsteuereinheit102 kann ein interaktives telefonisches Sprachdialogsystem beinhalten, zum Beispiel dasselbe System, das zur Audioerfassung eingesetzt wird. Alternativ kann als Dialogsteuereinheit einfach eine akustische Schnittstelle für einen Servicemitarbeiter verwendet werden. Die Dialogsteuereinheit102 kann das Verstehen natürlicher Sprache (Natural Language Understanding, NLU), das Erzeugen natürlicher Sprache (Natural Language Generation, NLG), eine finite Grammatik (Finite State Grammar, FSG) und/oder Sprache-aus-Text-Synthese (Text-To-Speech Syntheses, TTS) beinhalten, damit der Benutzer anstelle eines Servicemitarbeiters oder gemeinsam mit diesem automatisch zur Spracheingabe aufgefordert werden kann. Das Verarbeitungsmodul110 kann sich im Prozessorteil der IVR oder mit geeigneter Software in einem getrennten Universalcomputer befinden. Außerdem kann das Verarbeitungsmodul in Form einer anwendungsspezifischen Schaltung wie beispielsweise einer anwendungsspezifischen integrierten Schaltung (Application Specific Integrated Circuit, ASIC) oder in Form einer anwendungsspezifischen Schaltung mit diskreten Bauelementen oder in Form einer Kombination aus diskreten und integrierte Bauelementen realisiert werden. - Das Verarbeitungsmodul
110 kann eine Emotionenklassifizierungseinheit114 beinhalten. Die Klassifizierungseinheit114 wiederum kann ein Emotionenklassifizierungsmodul116 und eine Emotionenprototypen-Datenbank118 beinhalten. - Das Verarbeitungsmodul
110 kann ferner ein Sprechergruppierungs- und Sprecherklassifizierungselement120 beinhalten. Das Element120 kann ferner ein Sprechergruppierungs- und -klassifizierungsmodul122 und eine Sprecherklassen-Datenbank124 beinhalten. - Das Verarbeitungsmodul
110 kann ferner eine Spracherkennungseinheit126 beinhalten, die ihrerseits wiederum ein Spracherkennungsmodul128 und eine Sprachprototypen-, Sprachenmodell- und Grammatikdatenbank130 beinhalten kann. Die Spracherkennungseinheit126 kann Teil der Dialogsteuereinheit102 oder zum Beispiel ein separates Element innerhalb der Ausführung des Verarbeitungsmoduls110 sein. Zusätzlich kann das Verarbeitungsmodul110 eine Akzenterkennungseinheit132 beinhalten, die wiederum ein Akzenterkennungsmodul134 und eine Akzentdatenbank136 beinhaltet. - Das Verarbeitungsmodul
110 kann entweder eines der Elemente114 ,120 ,126 und132 oder alle Elemente zusammen oder eine beliebige Kombination aus diesen Elementen beinhalten. - Die Vorrichtung
100 kann ferner einen Postprozessor138 beinhalten, der mit dem Data-Warehouse verbunden und so konfiguriert ist, dass es Äußerungen des Benutzers in eine Schriftform umsetzt und darin nach Schlüsselwörtern sucht. Obwohl der Postprozessor in1 als separates Objekt dargestellt ist, kann er Teil des Verarbeitungsmoduls110 oder einer seiner Komponenten sein. Zum Beispiel kann der Postprozessor einen Teil der Spracherkennungseinheit126 bilden. Der Postprozessor138 kann als Teil des Prozessors einer IVR, als anwendungsspezifische Schaltung oder mit geeigneten Softwaremodulen in einem Universalcomputer realisiert werden. Der Postprozessor138 kann die Spracherkennung126 nutzen. Der Postprozessor138 kann auch ein (nicht gezeigtes) Semantikmodul zur Deutung von Ausdrücken beinhalten. Das Semantikmodul kann von der Spracherkennungseinheit126 verwendet werden, um anzuzeigen, dass bestimmte Decodierungsobjekte in einer Liste keine Bedeutung haben und entweder gelöscht oder durch sinnvolle Objekte ersetzt werden sollten. - Die akustische Empfangseinheit
108 kann eine in der Technik bekannte achtdimensionale Empfangseinheit mit Energieversorgung sein. Es ist jedoch klar, dass 13, 24 oder eine andere beliebige Anzahl von Dimensionen verwendet werden kann. Zum Beispiel können MEL-Cepstra für 25-ms-Rahmen mit 10 ms Überlappung zusammen mit den Delta- und Delta-Delta-Parametern, d.h. den ersten und zweiten finiten Ableitungen berechnet werden. Solche akustischen Merkmale können der Sprechergruppierung und -klassifizierung120 , der Spracherkennung126 und der Akzenterkennung132 in1 zugeführt werden. - Die akustische Empfangseinheit
108 kann auch andere akustische Merkmale extrahieren. Diese können als Emotionsmerkmale bezeichnet werden, zum Beispiel als laufende mittlere Tonhöhe, als laufende Tonhöhenschwankung, Tonhöhenzittern, laufende Energiedichteschwankung, Sprechgeschwindigkeit, Stottern, Grundfrequenz und Grundfrequenzschwankung. Das Tonhöhenzittern bezieht sich auf die Anzahl der Vorzeichenwechsel der ersten Ableitung der Tonhöhe. Das Stottern ist ein Energiedichtezittern. Diese Merkmale können von der akustischen Empfangseinheit108 der Emotionsklassifizierung114 zugeliefert werden. Die oben erwähnten akustischen Merkmale, einschließlich der MEL-Cepstra und der Merkmale der emotionalen Einstellung können als Rohmerkmale, d.h. als unverarbeitete Merkmale angesehen werden. - Benutzerabfragen können durch eine IVR oder auf andere Weise umgesetzt werden. Die Sprachmerkmale können zuerst durch ein textunabhängiges Sprecherklassifizierungssystem, zum Beispiel in dem Sprechergruppierungs- und -klassifizierungselement
120 , verarbeitet werden. Damit kann die Klassifizierung der Sprecher anhand von akustischen Ähnlichkeiten in ihren Stimmen durchgeführt werden. Die Einrichtung und die Anwendung eines solchen Systems werden in der US-Patentanmeldung 60/011 058, eingereicht am 2. Februar 1996; in der US-Patentanmeldung 08/787 031, eingereicht am 28. Januar 1997 (jetzt als US-Patentschrift 5 895 447, erteilt am 20. April 1999); in der US-Patentanmeldung 08/788 471, eingereicht am 28. Januar 1997; und der US-Patentanmeldung 08/787 029, eingereicht am 28. Januar 1997, beschrieben, die sämtlich der International Business Machines Corporation übertragen wurden. Die Klassifizierung der Sprecher kann kontrolliert oder unkontrolliert erfolgen. Bei der kontrollierten Klassifizierung sind die Klassen zuvor bereits anhand externer Daten festgelegt worden. Üblicherweise kann eine solche Klassifizierung zwischen männlich und weiblich, Erwachsenen und Kindern, Muttersprachlern und verschiedenen Klassen von Nichtmuttersprachlern und dergleichen unterscheiden. Als Indizes für diesen Klassifizierungsprozess dienen bereits verarbeitete Merkmale. Die Ergebnisse dieses Prozesses können der Emotionsklassifizierungseinheit114 zugestellt und dazu verwendet werden, die Emotionsmerkmale in Bezug auf einen während des Trainings für eine bestimmte Klasse beobachteten Durchschnitt (Mittelwert) als neutrale emotionale Einstellung zu normalisieren. Die normalisierten Merkmale der emotionalen Einstellung werden dann von der Emotionsklassifizierungseinheit114 verwendet, die dann einen Schätzwert für die emotionale Einstellung ausgibt. Dieses Ergebnis wird dann als Teil der verarbeiteten Merkmale angesehen. Zusammenfassend kann gesagt werden, dass die Emotionsmerkmale durch die Emotionsklassifizierungseinheit114 in Bezug auf jede durch das Sprachgruppierungs- und -klassifizierungselement120 erzeugte Klasse normalisiert werden können. Ein Merkmal kann wie folgt normalisiert werden. Angenommen, X0 ist die Normalfrequenz und xi die gemessene Frequenz. Somit ergibt sich das normalisierte Merkmal aus der Differenz Xi minus X0. Dieser Wert kann ein positives oder negatives Vorzeichen haben und ist im Allgemeinen nicht dimensionslos. - Die Spracherkennungseinheit
126 kann die Anfragen vom Benutzer in eine Schriftform umsetzen. Dies kann eine sprecherunabhängige oder klassenabhängige kontinuierliche Spracherkennung mit großem Wortschatz oder ein einfaches System zur Suche nach Schlüsselwörtern zum Erkennen von (zum Beispiel) Schimpfwörtern oder Ähnlichem sein. Solche Systeme sind in der Technik allgemein bekannt. Als Ergebnis können ganze Sätze oder auch kleinere Einheiten ausgegeben werden; zum Beispiel die zeitliche Verteilung der erkannten Wörter. Die mit Zeitmarken versehenen Umwandlungen in eine Schriftform können als Teil der verarbeiteten Merkmale angesehen werden und werden später unter Bezug auf Verfahren gemäß der vorliegenden Erfindung beschrieben. Somit kann der Dialog in jedem Stadium der Transaktion in eine Schriftform umgewandelt und gespeichert werden.1 zeigt, wie entsprechende Daten von dem Sprechergruppierungs- und -klassifizierungselement120 zur Emotionsklassifizierungseinheit114 und zur Spracherkennungseinheit126 übertragen werden. Wie bereits erwähnt, kann in der vom Benutzer104 eingegebenen Sprache Akzent, Dialekt und Sprache erkannt werden. Eine kontinuierliche Spracherkennung kann mit der Sprache von verschiedenen Sprechern trainiert werden, die unterschiedliche zu erkennende Dialekte sprechen. Jedem der Trainingssprecher wird auch ein Akzentvektor zugeordnet, dessen jede Dimension die wahrscheinlichste Mischungskomponente darstellt, die jedem Zustand jedes Lefems zugeordnet ist. Die Sprecher können anhand des Abstands zwischen diesen Akzentvektoren in Gruppen eingeteilt und die Gruppen wiederum zum Beispiel anhand des Akzentes der beteiligten Sprecher erkannt werden. Der Akzent kann dadurch erkannt werden, dass aus der Sprache des Benutzers ein Akzentvektor extrahiert und klassifiziert wird. Wie oben erwähnt, können der Dialekt, die soziale Stellung und Ähnliches anhand des vom Benutzer104 verwendeten Wortschatzes oder verwendeter Wortfolgen näherungsweise ermittelt werden. Ausgehend von linguistischem Spezialwissen können entsprechende zu erkennende Schlüsselwörter, Sätze oder Grammatikfehler gesammelt werden. Der Akzent, die soziale Stellung, das Geschlecht, das Alter und Ähnliches sind Teil der verarbeiteten Merkmale.1 zeigt, dass jedes der verarbeiteten Merkmale, die mit durchgezogenen Pfeilen gekennzeichnet sind, im Data-Warehouse112 gespeichert werden können. Außerdem können im Data-Warehouse112 auch Rohmerkmale, die mit gestrichelten Linien gekennzeichnet sind, gespeichert werden. - Jedes der verarbeiteten oder Rohmerkmale kann im Data-Warehouse
112 gespeichert und dann nach Abschluss der Transaktion anderen gesammelten Daten zugeordnet werden. Dann können klassische Datenfilterungstechniken angewendet werden. Solche Techniken werden zum Beispiel in den Monografien „Data Warehousing, Data Mining and OAAP" von Alex Berson und Stephen J. Smith, McGraw Hill, 1997, und „Discovering Data Mining" von Cabena et al., Prentice Hall, 1998, beschrieben. Für ein bestimmtes Geschäftsziel, zum Beispiel für gezielte Marketingmaßnahmen, werden automatisch prognostische Modelle oder Klassifikationen gewonnen, indem geeignete Datenfilterungsansätze realisiert werden. Alle im Data-Warehouse112 gespeicherten Daten können in einem Format gespeichert werden, das anschließend eine Datenfilterung erlaubt. Dem Fachmann sind geeignete Datenformate bekannt, die sich zur Datenfilterung eignen und in den beiden angegebenen Monografien dargelegt werden. Geschäftsziele können zum Beispiel sein, Benutzer zu erkennen, die einem Angebot zum Kauf eines bestimmten Erzeugnisses oder einer bestimmten Dienstleistung offen gegenüber stehen, Benutzer zu erkennen, die mit dem automatischen System nicht klar kommen und an einen Servicemitarbeiter verwiesen werden sollten, und Benutzer zu erkennen, die über die Dienstleistung verärgert sind und an einen Vorgesetzten weiterzuleiten sind. Als Benutzer104 kann ein Kunde eines Geschäftes infrage kommen, der sich der Vorrichtung100 bedient, oder ein Großkunde oder eine andere Einrichtung wie beispielsweise eine gemeinnützige Einrichtung, eine Regierungsbehörde oder Ähnliches. - Merkmale können extrahiert und Entscheidungen dynamisch durch die Modelle zurückgegeben werden. Dies wird im Folgenden erörtert.
-
2 zeigt ein in Echtzeit anpassungsfähiges Sprachsystem gemäß der vorliegenden Erfindung zum Zusammenwirken mit einem Benutzer, das allgemein mit der Bezugsnummer200 bezeichnet wird. Elemente in2 , die denen in1 ähnlich sind, tragen dieselben um100 erhöhten Bezugsnummern. Das System200 kann eine Dialogsteuereinheit202 beinhalten, die der oben erörterten ähnlich ist. Insbesondere zeigt2 , dass als Einheit202 ein Servicemitarbeiter oder ein Vorgesetzter, eine IVR oder eine Benutzersprachschnittstelle (Voice User Interface, VUI) in Frage kommen kann. Das System200 kann auch ein dem oben beschriebenen ähnliches Audioerfassungsmodul206 und eine ebenfalls der oben beschriebenen ähnliche akustische Empfangseinheit208 beinhalten. Ebenso wie bei der Vorrichtung100 kann die Einheit202 bei Bedarf direkt mit der akustischen Empfangseinheit208 verbunden werden, damit sie MEL-Cepstra oder andere durch die Empfangseinheit208 ermittelte akustische Merkmale nutzen kann. Ferner beinhaltet das System200 ein dem oben beschriebenen ähnliches Verarbeitungsmodul210 , das jedoch bestimmte weitere Merkmale aufweist, die im Folgenden erörtert werden. Das Verarbeitungsmodul210 kann ein dynamisches Klassifizierungsmodul240 beinhalten, das eine dynamische Klassifizierung des Benutzers204 vornimmt. Demzufolge wird das Verarbeitungsmodul210 so konfiguriert, dass es das Verhalten des Sprachsystems200 anhand mindestens eines Benutzerattributes anpasst, das anhand mindestens eines aus der Sprache des Benutzers extrahierten akustischen Merkmals ermittelt wurde. Das System200 kann außerdem noch eine Geschäftslogikeinheit242 beinhalten, die mit der Dialogsteuereinheit202 , dem dynamischen Klassifizierungsmodul240 und wahlweise mit der akustischen Empfangseinheit208 verbunden ist. Die Geschäftslogikeinheit kann als Verarbeitungsteil der IVR oder der VUI ausgeführt werden, aber auch Teil eines entsprechenden programmierten Universalcomputers oder eine anwendungsspezifische Schaltung sein. Gegenwärtig wird das Verarbeitungsmodul110 ,210 (einschließlich des Moduls240 ) vorzugsweise als Universalcomputer und die Geschäftslogik242 in einem Prozessorbereich eines interaktiven Sprachdialogsystems realisiert. Das dynamische Klassifizierungsmodul240 kann so konfiguriert werden, dass es eine Rückmeldung zur Geschäftslogikeinheit242 und zur Dialogsteuereinheit202 sendet, beispielsweise in Echtzeit, was mit der durchgezogenen Linie244 angezeigt wird. - Wahlweise können gemäß der Figur ein Data-Warehouse
212 und ein Postprozessor238 bereitgestellt werden, deren Funktion bereits in Bezug auf die Datensammelvorrichtung100 erörtert wurde. Es muss jedoch darauf hingewiesen werden, dass die Speicherung im Data-Warehouse bei dem in Echtzeit anpassungsfähigen Sprachsystem wahlweise möglich ist und das System auf die in Bezug auf die Elemente240 ,242 und202 erörterte Rückmeldung in Echtzeit beschränkt werden kann, die durch die Linie244 angezeigt wird. - Das Verarbeitungsmodul
210 kann das Verhalten des Systems200 zumindest insofern anpassen, als es einen Servicemitarbeiter durch eine Rückmeldung über die mit der Dialogsteuereinheit202 verbundene Leitung244 aufmerksam macht. Wenn zum Beispiel beim Benutzer204 eine Verärgerung erkannt wird, kann ein Servicemitarbeiter davon in Kenntnis gesetzt und aufgefordert werden, beschwichtigende Worte für den Benutzer204 zu finden oder diesen an einen Vorgesetzten weiterzugeben. Darüber hinaus kann das Verarbeitungsmodul210 die Geschäftslogik242 des Systems200 anpassen. Das ist zum Beispiel möglich, wenn sowohl das Verarbeitungsmodul210 als auch die Geschäftslogikeinheit242 Teil eines IVR-Systems sind. Beispiele zur Anpassung der Geschäftslogik werden im Folgenden erörtert, können jedoch anhand der durch das System200 erkannten Attribute des Benutzers das Erstellen eines auf den Benutzer204 zugeschnittenen Verkaufsangebots beinhalten. - Wie bereits erwähnt, führen das Verarbeitungsmodul
210 sowie deren Teilelemente im Wesentlichen dieselbe Funktion wie das Verarbeitungsmodul110 in1 aus. Zu beachten ist jedoch die wahlweise Rückmeldung des Ergebnisses des Spracherkennungsmoduls228 an die Geschäftslogik242 , die durch die gestrichelten Linien und Pfeile in2 dargestellt ist. - Es wird darauf hingewiesen, dass in der vorliegenden Patentanmeldung, einschließlich ihrer Beschreibung und Figuren, der Begriff „Stimmung" („mood") stets im Sinne des Begriffes „emotionale Einstellung" gebraucht wird.
-
3 zeigt ein Flussdiagramm300 eines Verfahrens zum Erfassen von mit der Stimme eines Benutzers des Sprachsystems verbundener Daten in einem Data-Warehouse. Nach dem Start (Kasten302 ) beinhaltet das Verfahren die Schritte zum Führen eines Dialogs mit einem Benutzer des Sprachsystems (Kasten304 ) durch einen Servicemitarbeiter und/oder ein automatisches Sprachdialogsystem. Das Verfahren beinhaltet ferner die Erfassung eines Sprachsignal-Verlaufs (Kasten306 ), der sich auf die durch den Benutzer des Sprachsystems während des Dialogs gemachten Äußerungen bezieht. Weiterhin beinhaltet das Verfahren den Schritt der Digitalisierung des Sprachsignal-Verlaufs (Kasten308 ) zur Bereitstellung eines digitalisierten Sprachsignal-Verlaufs. Darüber hinaus beinhaltet das Verfahren in Schritt310 den Schritt des Extrahierens mindestens eines akustischen Merkmals bezüglich des mindestens einen Benutzerattributes aus dem digitalisierten Sprachsignalverlauf. Das mindestens eine akustische Merkmal kann eines der oben erörterten Merkmale sein, zum Beispiel MEL-Cepstra oder eines der Emotionsmerkmale. zu den Benutzerattributen kann eines der oben erörterten Benutzerattribute gehören, zum Beispiel das Geschlecht, das Alter, der Akzent und die übrigen oben erwähnten Attribute. Schließlich kann das Verfahren den Schritt der Speicherung (Kasten316 ) der Attributdaten, die dem zu dem mindestens einen Benutzerattribut gehörenden akustischen Merkmal entsprechen, zusammen mit mindestens einem kennzeichnenden Merkmal im Data-Warehouse in einer Form beinhalten, die anschließend eine Datenfilterung gestattet. Es können beliebige Arten von kennzeichnenden Merkmalen verwendet werden; dieser Begriff ist umfassend auszulegen. Zum Beispiel kann das kennzeichnende Merkmal eine Zeitmarke sein, welche verschiedene Merkmale einem Dialog zuordnet, der zu einem bestimmten Zeitpunkt geführt wird, und dadurch die bestimmte Transaktion kennzeichnet; ferner kann das kennzeichnende Merkmal eine Kennnummer, ein Name oder Ähnliches sein, das den Benutzer kennzeichnet; oder ein anderes Datenobjekt, das dem Attributdaten zugeordnet ist und beim Datenfilterungsprozess von Nutzen ist. - Nach dem Entscheidungsschritt (Kasten
320 ) können die oben erwähnten Schritte304 ,306 ,308 ,310 und316 für eine Vielzahl zusätzlicher Dialoge wiederholt werden, um eine Sammlung gespeicherter Daten anzulegen, welche Attributdaten und kennzeichnende Merkmale beinhalten. Das kann so lange wiederholt werden, bis eine ausreichende Menge von Daten für die Datenfilterung zur Verfügung stehen. Dann kann wie im Kasten322 gezeigt die Ansammlung gespeicherter Daten gefiltert werden, um die gewünschten Informationen zu gewinnen, zum Beispiel Informationen zur Anpassung der dem Sprachsystem zugrunde liegenden Geschäftslogik. - Der Speicherungsschritt (Kasten
316 ) kann eine Speicherung umfassen, bei der das mindestens eine kennzeichnende Merkmal eine Zeitmarke ist. Die Datensammlung kann mit Anmerkungen versehen werden, möglicherweise mit einem bereits vorhandenen Satz von Klassifizierungen, die durch Training in der Lage sind, jedes Objekt zu erkennen, oder einfach mit Anmerkungen von mit der Umsetzung in eine Schriftform befassten Personen, welche die gewünschten Objekte einschätzen. Auch eine Kombination dieser beiden Techniken kann eingesetzt werden. Vorzugsweise werden die Vielzahl der oben erörterten weiteren Dialoge mit einer Vielzahl verschiedener Benutzer geführt, sodass Daten von vielen Sprechern gewonnen werden. - Der Extraktionsschritt (Kasten
310 ) kann das Extrahieren mindestens eines der folgenden Merkmale beinhalten: Grundfrequenz, Schwankungen der Grundfrequenz, laufende mittlere Tonhöhe, Schwankungen der laufenden Tonhöhe, Tonhöhenzittern, Schwankungen der Energiedichteschwankungen, Sprechgeschwindigkeit oder Stottern als mindestens ein Emotionsmerkmal beinhalten, das der emotionalen Einstellung des Benutzers zugeordnet ist. - Die extrahierten Merkmale können normalisiert werden (Kasten
312 ); das dürfte insbesondere von Vorteil sein, wenn es sich bei den Merkmalen um solche handelt, welche die emotionale Einstellung kennzeichnen. Dies ist oben bereits unter Bezug auf die Vorrichtung der vorliegenden Erfindung erörtert worden. - Das Verfahren
300 kann ferner einen zusätzlichen Schritt (Kasten314 ) der Verarbeitung des mindestens einen akustischen Merkmals zur Ermittlung des mindestens einen Benutzerattributes beinhalten. In diesem Falle erhält man verarbeitete Merkmale, und die Attributdaten können einen Wert des Attributes selbst darstellen, zum Beispiel einen Wert für die emotionale Einstellung. Dies unterscheidet sich von dem Verfahren, bei dem nur Rohdaten gespeichert werden und die Attributdaten einfach nur Rohmerkmale sein können, d.h. die oben erörterten MEL-Cepstra oder Emotionsmerkmale. Bei der Speicherung (Kasten316 ) können also entweder akustische Rohmerkmale (d.h. Sprachsignal-Verlauf, MEL-Cepstra, Emotionsmerkmale), verarbeitete akustische Merkmale (z.B. der Wert einer emotionalen Einstellung (glücklich, traurig, verwirrt), Dialog in umgewandelter Form) oder sowohl rohe als auch verarbeitete akustische Merkmale gespeichert werden. - Das im Verarbeitungsschritt (Kasten
314 ) verwendete Verarbeitungsmodul kann bei jeder Speicherung eines weiteren Attributes im Data-Warehouse automatisch verfeinert werden (Kasten318 ). Das heißt, die oben in Bezug auf die Vorrichtung erörterten Funktionen der Gruppierung, Klassifizierung und Erkennung können bei jedem neuen Datenwert verbessert werden. -
4 zeigt bestimmte wahlweise auszuführende Teilschritte, deren Ausführung in Verbindung mit dem in3 veranschaulichten Verfahren von großem Vorteil ist. Insbesondere kann der Extraktionsschritt (Kasten310 von3 ) bei Bedarf das Extrahieren mindestens von MEL-Cepstra beinhalten, was in4 in Kasten310' dargestellt ist. In diesem Falle kann das Verfahren außerdem die weiteren Schritte der Erkennung der Sprache des Benutzers anhand der MEL-Cepstra (Kasten314A ), des Umwandelns der Sprache (Kasten314B ) und der Prüfung der Sprache (Kasten314C ) umfassen. Die Sprache kann auf die Wortwahl und/oder den Wortschatz geprüft werden, um das Bildungsniveau des Benutzers, die soziale Stellung des Benutzers und/oder den Dialekt des Benutzers zu ermitteln. Bei Bedarf können auch andere mit der Wortwahl und dem Wortschatz zusammenhängende Benutzerattribute ermittelt werden. Mit anderen Worten, die Schritte314A ,314B und314C können auch als Teilschritte des Verarbeitungsschrittes (Kasten314 ) in3 aufgefasst werden. - Das Ende des Prozesses in
3 wird durch Kasten324 angezeigt. -
5 zeigt ein Flussdiagramm400 zur Darstellung eines Verfahrens gemäß der vorliegenden Erfindung, eine zu der akustisch ermittelten Einstellung eines Benutzers des Sprachsystems passende Antwort des Sprachsystems zu erzeugen. Das Verfahren beginnt mit Kasten402 und beinhaltet den Schritt des Führens eines Dialogs mit einem Benutzer des Sprachsystems über das Sprachsystem (Kasten404 ). Das Verfahren beinhaltet ferner den Schritt der Erfassung eines Sprachsignal-Verlaufs, der den Äußerungen seitens des Benutzers des Sprachsystems während des Dialogs entspricht (Kasten406 ). Weiterhin beinhaltet das Verfahren den Schritt der Digitalisierung des Sprachsignal-Verlaufs (Kasten408 ) zum Bereitstellen eines digitalisierten Sprachsignal-Verlaufs. Darüber hinaus beinhaltet das Verfahren den Schritt des Extrahierens mindestens eines akustischen Merkmals, das dem mindestens einen Benutzerattribut entspricht, aus dem digitalisierten Sprachsignal-Verlauf. Zu dem mindestens einen Benutzerattribut kann eines der oben erörterten Benutzerattribute gehören. Es ist klar, dass die Schritte von Kasten402 bis410 den Schritten von Kasten302 bis310 in3 ähnlich sind. - Und schließlich kann das Verfahren das Anpassen des Verhaltens des Sprachsystems anhand des mindestens einen Benutzerattributes beinhalten (Kasten
415 ). Das Anpassen des Verhaltens des Sprachsystems kann das Anpassen der Geschäftslogik des Sprachsystems in Echtzeit und/oder das Anpassen der Reaktion des Sprachsystems in Echtzeit gegenüber einer erwarteten Reaktion des Sprachsystems ohne Anpassung beinhalten. Hierzu sei auf die obige Erörterung der Vorrichtung verwiesen. Zum Beispiel kann die Anpassung der Reaktion des Sprachsystems in Echtzeit im Verweisen eines verwirrten Benutzers an einen Servicemitarbeiter bestehen. - Der Extraktionsschritt (Kasten
410 ) kann das Extrahieren eines der oben erwähnten Emotionsmerkmale oder eines der oben erörterten anderen Merkmale beinhalten. Wahlweise kann das Verfahren den zusätzlichen Schritt des Normalisieren des akustischen Merkmals beinhalten (Kasten412 ), insbesondere wenn es sich bei dem akustischen Merkmal um ein Emotionsmerkmal handelt. Das Verfahren kann wahlweise ferner den zusätzlichen Schritt der Speicherung von Attributdaten, die dem zu dem mindestens einen Benutzerattribut gehörenden akustischen Merkmal entsprechen, zusammen mit mindestens einem kennzeichnenden Merkmal im Data-Warehouse beinhalten (Kasten416 ). Die Speicherung kann in einer Form erfolgen, welche die nachfolgende Datenfilterung gestattet und einen Roh- und/oder einen Verarbeitungszustand beinhalten. Dieser Schritt kann im Wesentlichen den oben im Zusammenhang mit dem Verfahren des Flussdiagramms300 erörterten Schritten ähnlich sein. Es ist klar, dass das Merkmal mit einem Verarbeitungsmodul verarbeitet werden kann, um das gewünschte Attribut zu ermitteln (Kasten414 ). In diesem Falle kann für die Attributdaten das Attribut selbst infrage kommen; wenn keine Verarbeitung erfolgt, können die Attributdaten das akustische Rohmerkmal selbst sein. Obwohl das in5 dargestellte Verfahren auf die Anpassung des Verhaltens des Sprachsystems beschränkt werden kann, können der Verfeinerungsschritt (Kasten418 ), die Wiederholung der bisherigen Schritte (Entscheidungskasten420 ) und der Datenfilterungsschritt (Kasten422 ) jeweils bei Bedarf ausgeführt werden (z.B. wie bei dem in3 dargestellten Verfahren). Das Ende der Schritte des Verfahrens wird durch Kasten424 angezeigt. - Ebenso wie das durch das Flussdiagramm
300 dargestellte Verfahren kann auch das durch das Flussdiagramm400 dargestellte Verfahren aus der in eine Schriftform umgewandelten Benutzersprache bestimmte Benutzerattribute ermitteln. Entsprechend können im Extraktionsschritt (Kasten400 ) zumindest MEL-Cepstra extrahiert werden. In4 erfolgt dies in Kasten410' . Als weitere Schritte kommen infrage die Erkennung der Sprache des Benutzers anhand der MEL-Cepstra (Kasten414A ); das Umwandeln des Gesprochenen in eine Schriftform (Kasten414B ); und das Prüfen des Gesprochenen (Kasten414C ) auf die Wortwahl und/oder den Wortschatz, um das Bildungsniveau des Benutzers, die soziale Stellung des Benutzers und/oder den Dialekt des Benutzers zu ermitteln. Ebenso wie oben können auch andere mit der Wortwahl und dem Wortschatz zusammenhängende Benutzerattribute ermittelt werden. -
6 zeigt bestimmte Einzelheiten zu einzelnen Aspekten des Verfahrens des Flussdiagramms400 . Insbesondere kann der Verarbeitungsschritt414 bei einigen Ausführungsarten des Verfahrens gemäß dem Flussdiagramm400 das Prüfen eines Emotionsmerkmals (Kasten414D in6 ) beinhalten, um eine emotionale Einstellung des Benutzers zu ermitteln. Außerdem kann die Anpassung des Verhaltens (Kasten415 ) das Reagieren auf die gerade ermittelte emotionale Einstellung beinhalten (Kasten415A in6 ). Durch Prüfung des Emotionsmerkmals kann somit ermittelt werden, ob der Benutzer eine freundliche (d.h. heitere) Einstellung aufweist oder beispielsweise empört, überheblich, verängstigt und/oder verärgert wirkt. Wenn der Benutzer eine freundliche emotionale Einstellung aufweist kann die Reaktion in Kasten415A darin bestehen, dass ihm ein Erzeugnis und/oder eine Dienstleistung angeboten wird. Wenn der Benutzer eine freundliche emotionale Einstellung aufweist, kann die Reaktion in Kasten415A alternativ darin bestehen, den Benutzer in eine Kundenbefragung einzubeziehen. - Wenn die emotionale Einstellung anhand des Emotionsmerkmals ermittelt wird, kann in
6 (Kasten426 ) zur Ermittlung eines anderen Attributs als der emotionalen Einstellung ein anderes Merkmal als das Emotionsmerkmal herangezogen werden und dann als Reaktion auf dieses andere Attribut die in Schritt415A zu dem Benutzer passende Maßnahme ergriffen werden (Kasten428 ). Wenn zum Beispiel dem freundlichen Benutzer ein Erzeugnis und/oder eine Dienstleistung angeboten wird, kann das angebotene Erzeugnis oder die angebotene Dienstleistung anhand des mindestens einen anderen Benutzerattributes, das nicht auf die emotionale Einstellung Bezug nimmt, genau auf den Benutzer zugeschnitten werden. Alternativ kann, wenn der freundliche Benutzer in eine Kundenbefragung einbezogen wird, die Kundenbefragung als Reaktion auf das mindestens andere Benutzerattribut, das nicht auf die emotionale Einstellung Bezug nimmt, auf den Benutzer angepasst werden. Angenommen beispielsweise, einem freundlichen Benutzer wird ein Produkt und/oder eine Dienstleistung angeboten. Aus seinem Sprachmuster kann ermittelt werden, ob er aus einem ländlichen Gebiet im Süden der vereinigten Staaten stammt, wo das Seebarschangeln verbreitet ist, und bei Bedarf kann zusätzlich aus der Tonhöhe ermittelt werden, ob der Benutzer männlichen Geschlechts ist. Dieser Person können dann Geräte und Videos zum Barschangeln angeboten werden. In einem anderen Fall kann es sich bei der freundlichen Person, mit der die Kundenbefragung durchgeführt wird, um eine Frau mittleren Alters mit hohem Bildungsniveau aus einem wohlhabenden Stadtgebiet handeln. Dann kann die Kundenbefragung darauf gelenkt werden, dass die Frau über ihre Kaufgewohnheiten für teure Kosmetika, modische Kleidung oder beliebte Ferienorte befragt wird. - Wie bereit erwähnt, kann aus dem Emotionsmerkmal ermittelt werden, ob der Benutzer empört, überheblich, verängstigt und/oder verärgert ist. Wenn das Verfahren mittels eines IVR- Systems durchgeführt und eine solche emotionale Einstellung erkannt würde, könnte die zu ergreifende Maßnahme (Kasten
415A ) darin bestehen, den Benutzer als Reaktion auf die erkannte emotionale Einstellung zu einem Servicemitarbeiter durchzustellen. Wenn eine derartige emotionale Einstellung erkannt wird, kann bei Verwendung eines interaktiven hybriden Sprachdialogsystems die zu ergreifende Maßnahme (Kasten415A ) darin bestehen, dass der Benutzer als Reaktion auf seine emotionale Einstellung von einem Servicemitarbeiter zu einem Vorgesetzten durchgestellt wird. - Außerdem kann durch die Prüfung des Emotionsmerkmals ermittelt werden, ob der Benutzer verwirrt ist. Das kann mit Hilfe von Verfahren erfolgen, die zum Beispiel in den oben erörterten Artikeln auf der ICSLP'98 beschrieben werden. Verwirrung äußert sich z.B. durch zögerliche Beantwortung einer Frage, durch Stottern, Wiederholungen, falsche Satzanfänge und dergleichen. Insofern ist die Erkennung und Umwandlung des Gesprochenen in eine Schriftform von Nutzen. Wenn eine Verwirrung erkannt wird, kann die zu ergreifende Maßnahme (Kasten
415A ) darin bestehen, den Benutzer als Reaktion auf die erkannte Verwirrung von einem im Wesentlichen automatischen IVR-System zu einem Servicemitarbeiter durchzustellen. - Die vorliegende Erfindung kann auch eine maschinenlesbare Programmspeichervorrichtung beinhalten, die ein Programm mit durch die Maschine ausführbaren Befehlen physisch realisiert, um die Verfahrensschritte der hierarchisch beschriebenen Verfahren oder deren Teilschritte auszuführen. Wenn zum Beispiel bestimmte Teilschritte der Verfahrensschritte in geeigneter Weise durch einen Universalcomputer oder einen Prozessorbereich eines IVR-Systems ausgeführt werden sollen, können geeignete Programmbefehle auf eine Diskette, eine CD-ROM oder Ähnliches geschrieben werden. Bei dem im Flussdiagramm
300 dargestellten Verfahren können solche Verfahrensschritte das Lesen von digitalen Daten beinhalten, die einem Sprachsignal-Verlauf von Äußerungen entsprechen, die ein Benutzer des Sprachdialogsystems im Verlauf des Dialogs zwischen dem Benutzer des Sprachdialogsystems und einem Servicemitarbeiter und/oder einem automatischen Sprachdialogsystem von sich gegeben hat. Zu Programmbefehlen für zusätzliche Verfahrensschritte können bei Bedarf Befehle zur Ausführung der in Kasten310 bis Kasten316 oder einem der anderen Kästen beschriebenen Aufgaben gehören. - Desgleichen kann ein erster Schritt des im Flussdiagramm
400 dargestellten Verfahrens, der durch Programmanweisungen ausgeführt werden soll, das Schreiben digitaler Daten beinhalten, die einem Sprachsignal-Verlauf von Äußerungen entsprechen, die ein Benutzer des Sprachdialogsystems im Verlauf des Dialogs zwischen dem Benutzer des Sprachdialogsystems und einem Servicemitarbeiter und/oder einem automatischen Sprachdialogsystem von sich gegeben hat. Zusätzlich können wie oben erörtert in die Programmanweisungen zum Beispiel die Schritte410 und415 oder auch beliebige andere hier erörterte Verfahrensschritte einbezogen werden. - Es ist klar, dass gemäß der vorliegenden Erfindung Merkmale extrahiert und daraus resultierende Entscheidungen dynamisch an die Modelle zurückgegeben werden können. Zusätzlich zu dem oben bereits dargelegten Beispielen kann ein Servicemitarbeiter, wenn sich ein Benutzer, zum Beispiel ein Kunde, verängstigt anhört, den Anruf aus den verschiedensten Gründen mithören, um sicherzustellen, dass die Transaktion nicht erzwungen wird. Darüber hinaus kann die Erkennung einer Verärgerung beim Benutzer (oder gegebenenfalls bei einem Servicemitarbeiter) nicht nur zur Anpassung der Antworten eines automatischen oder hybriden IVR-Systems, sondern auch zum Zwecke der Qualitätskontrolle, z.B. als Mittel zur Bewertung und Ausbildung der Kundenbetreuer, genutzt werden.
- Die vorliegende Erfindung kann auch auf nichtakustische Informationen ausgedehnt werden. Zum Beispiel können Videodaten einbezogen werden, entweder allein oder in Verbindung mit Audiodaten. Demzufolge können Verfahrensschritte zum Führen eines Dialogs stattdessen das Durchführen einer visuellen Transaktion beinhalten. Videodaten können bei der Erkennung und Klassifizierung von Benutzerattributen hilfreich sein. Solche Daten können einfach durch Bildtelefone, Kameras in Telefonzellen, an Computern oder Ähnliches gewonnen werden. Attribute wie Lächeln, Lachen und Weinen können erkannt werden. Ferner können Sprachsegmente, die bestimmten Benutzerattributen oder emotionalen Einstellungen entsprechen und visuell erkannt werden können, markiert werden. Dadurch könnte eine Trainingsdatenbank erstellt werden, die bei der Entwicklung von automatischen Verfahren zur Erkennung von Benutzerattributen ausschließlich aus akustischen Daten von Nutzen wäre. Demzufolge könnte die Datenfilterung entweder der ausschließlich visuell ermittelten Benutzerattribute oder der ausschließlich akustisch ermittelten Benutzerattribute oder beider Attribute gemeinsam durchgeführt werden.
- Die Ermittlung von Benutzerattributen aus dem äußeren Erscheinungsbild kann nach üblichen Erfahrungswerten erfolgen, so bedeutet zum Beispiel ein gerötetes Gesicht Verärgerung oder Verlegenheit, Lächeln bedeutet Freude oder eine freundliche Stimmung, und Tränen bedeuten Niedergeschlagenheit. Darüber hinaus können in Verbindung mit den Videodaten und den akustischen Daten beliebige biometrische Daten erfasst werden. Weiterhin können gleichzeitig Daten von mehr als einer Person erfasst werden. Zum Beispiel können Eltern und Kinder oder ein Ehepaar, das nach einem Haus oder einem Auto sucht, gleichzeitig beobachtet werden. Oder es kann erkannt werden, dass Kinder von minderwertigem Essen (Junkfood) begeistert sind, während gleichzeitig ihre Eltern diese Entscheidung nicht gutheißen. Während eine Frau sich über ihre Kaufentscheidung für teuren Schmuck freut, kann ihr Ehemann darüber verärgert sein. Alternativ kann ein Ehemann sich über seinen Kauf eines teuren Satzes von Golfschlägern freuen, während sich seine Frau darüber ärgert.
- Wie bereits erwähnt können Zeitmarken als kennzeichnende Merkmale gemeinsam mit den Daten der Benutzerattribute gespeichert werden. Daraus lässt sich erkennen, wie Personen zu unterschiedlichen Tageszeiten reagieren, oder verfolgen, wie sie sich während ihres Lebens entwickeln, zum Beispiel, wie Kinder zu Jugendlichen und später zu Erwachsenen heranwachsen oder wie sich die Geschmäcker von Erwachsenen im Laufe des Älterwerdens verändern. Desgleichen können Ähnlichkeiten zwischen Verwandten verfolgt und aufgezeichnet werden. Weiterhin kann als ein Attribut die Ermüdung des Benutzers im Laufe der Zeit verfolgt werden. Ein solches System kann zum Beispiel in ein Auto, einen Zug, ein Flugzeug oder einen Fernlaster eingebaut werden, um die Ermüdung des Fahrer zu überwachen und ihn zum Anhalten und Ausruhen aufzufordern oder zum Beispiel laute Musik zu spielen, damit der Fahrer wach bleibt. Ausdrücklich wird die gleichzeitig anhängige US-Patentanmeldung 09/078 807 von Zadrozny und Kanevsky mit dem Titel „Sleep Prevention Dialog Based Car System", eingereicht am 14. Mai 1998, erwähnt.
- Es ist klar, dass die oben erörterten Sprachdialogsysteme Telefonsysteme, Telefonzellen, das Sprechen in einen Computer und Ähnliches beinhalten können. Der Begriff „akustisches Merkmal" ist im weitesten Sinne aufzufassen und kann gemäß der obigen Erörterung entweder Rohmerkmale oder verarbeitete Merkmale oder beide beinhalten. Wenn es sich bei dem akustischen Merkmal zum Beispiel um MEL-Cepstra handelt, können bestimmte verarbeitete Merkmale Schlüsselwörter, Satzteile oder Ähnliches beinhalten. Bestimmte Schlüsselwörter können zum Beispiel unzulässige Schimpfwörter sein, die übergangen werden können, die Einschaltung eines Leiters oder disziplinarische Maßnahmen gegen einen Angestellten erfordern können. Es muss darauf hingewiesen werden, dass bei der Vorrichtung und dem Verfahren zur Anpassung eines Sprachdialogsystems in Echtzeit die Speicherung eines Attributs zusammen mit einem kennzeichnenden Merkmal in einem Data-Warehouse wahlweise erfolgen kann und nicht zwingend erforderlich ist.
- Beim Trainieren der Modelle können Mitarbeiter Daten kommentieren, indem sie qualifizierte Annahmen zu verschiedenen Benutzerattributen machen. Alternativ können Kommentare automatisch anhand eines bereits vorhandenen Satzes von Klassifizierungen angebracht werden, die bereits einem Training unterzogen worden sind. Auch eine Kombination aus beiden Verfahren kann eingesetzt werden. Zu den gespeicherten kennzeichnenden Merkmale können außer einer Zeitmarke und den anderen hier erörterten Objekten auch ein Transaktionsereignis oder Transaktionsergebnisse oder andere nützliche Informationen gehören. Das im Flussdiagramm
400 dargestellte Verfahren kann auch bei einem laufenden Dialog mit einem Servicemitarbeiter mit manuellen Eingaben zur Änderung der durch den Mitarbeiter verwendeten Geschäftslogik oder zur automatischen Einschaltung eines leitenden Mitarbeiters genutzt werden, wenn eine Verärgerung oder andere unerwünschte Vorkommnisse erkannt werden.
Claims (20)
- Verfahren zum Sammeln von Daten, die einer Stimme eines Benutzers eines Sprachsystems zugeordnet sind, in Zusammenhang mit einem Data-Warehouse (Datenreservoir), wobei das Verfahren die folgenden Schritte umfasst: (a) Führen (
304 ) eines Dialogs mit dem Benutzer des Sprachsystems über einen Service-Mitarbeiter und/oder ein maschinelles Sprachverarbeitungssystem; (b) Erfassen (306 ) eines Sprachsignal-Verlaufs, der den Äußerungen des Benutzers des Sprachverarbeitungssystems während des Dialogs zugeordnet wurde; (c) Digitalisieren (308 ) des Sprachsignal-Verlaufs zum Erzeugen eines digitalisierten Sprachsignal-Verlaufs; (d) Extrahieren (310 ) mindestens eines akustischen Merkmals, das mindestens einem Benutzerattribut zugeordnet ist, aus dem digitalisierten Sprachsignal-Verlauf; und (e) Speichern (316 ) von Attributdaten, die dem dem mindestens einen Benutzerattribut zugeordneten akustischen Merkmal entsprechen, zusammen mit mindestens einem charakteristischen Kennzeichen, in dem Data-Warehouse in einer Form, die eine spätere Datenfilterung der Attributdaten gestattet. - Verfahren nach Anspruch 1, bei dem mindestens das mindestens eine Benutzerattribut mindestens eine der folgenden Eigenschaften beinhaltet: (d-1) Geschlecht des Benutzers; (d-2) Alter des Benutzers; (d-3) Akzent des Benutzers; (d-4) Muttersprache des Benutzers; (d-5) Dialekt des Benutzers; (d-6) soziale Stellung des Benutzers; (d-7) Bildungsniveau des Benutzers; und (d-8) emotionale Einstellung des Benutzers.
- Verfahren nach Anspruch 1 oder Anspruch 2, das ferner die folgenden Schritte umfasst: (f) Wiederholen der Schritte (a) bis (e) für eine Vielzahl weiterer Dialoge mit weiteren Benutzern zum Erstellen einer Sammlung gespeicherter Daten, die Attributdaten und charakteristische Kennzeichen beinhaltet; und (g) Filtern (
322 ) der Sammlung gespeicherter Daten zur Gewinnung von Daten zur Modifizierung des dem Sprachverarbeitungssystem zugrunde liegenden Geschäftsmodells. - Verfahren nach einem der vorangehenden Ansprüche, bei dem das mindestens eine Benutzerattribut die emotionale Einstellung des Benutzers und der Schritt (d) das Filtern mindestens eines der folgenden der emotionalen Einstellung des Benutzers zugeordneten Merkmale beinhaltet: Grundfrequenz, Schwankung der Grundfrequenz, mittlere Stimmhöhe, zeitliche Stimmhöhenschwankungen, Zittern der Stimmhöhe, zeitliche Intensitätsschwankungen, Sprechgeschwindigkeit und Rauigkeit.
- Verfahren nach Anspruch 4, das ferner den zusätzlichen Schritt des Normalisierens des mindestens einen Merkmals der emotionalen Einstellung umfasst.
- Verfahren nach einem der vorangehenden Ansprüche, das ferner den zusätzlichen Schritt der Verarbeitung des mindestens einen akustischen Merkmals zur Ermittlung des mindestens einen Benutzerattributs umfasst, wobei die Attributdaten in Schritt (e) mindestens einen Wert des Benutzerattributs umfassen.
- Verfahren nach Anspruch 6, das ferner den zusätzlichen Schritt der automatischen Verfeinerung des Verarbeitungsschritts als Reaktion auf die Speicherung zusätzlicher Attributdaten im Data-Warehouse umfasst.
- Verfahren nach einem der vorangehenden Ansprüche, bei dem der Schritt (e) die Speicherung der Attributdaten in Form mindestens eines im Wesentlichen unbearbeiteten akustischen Merkmals umfasst.
- Verfahren nach einem der vorangehenden Ansprüche, wobei der Schritt (d) das Extrahieren mindestens von MEL-Cepstra beinhaltet und das Verfahren die folgenden zusätzlichen Schritte umfasst: Erkennen der Sprache des Benutzers mittels der MEL-Cepstra; Umsetzen der Sprache in einen geschriebenen Text; und Untersuchen der Sprache auf Wortwahl und/oder Wortschatz, um das Bildungsniveau und/oder die soziale Stellung und/oder den Dialekt des Benutzers zu ermitteln.
- Verfahren nach Anspruch 3, das ferner den folgenden zusätzlichen Schritt umfasst: (h) Modifizieren (
415 ) des Verhaltens des Sprachverarbeitungssystems anhand des mindestens einen Benutzerattributs in Echtzeit. - Verfahren nach Anspruch 10, bei dem der Modifizierungsschritt mindestens einen der folgenden Schritte umfasst: Änderung des dem Sprachverarbeitungssystem zugrunde liegenden Geschäftsmodells in Echtzeit; und Modifizierung der Reaktion des Sprachverarbeitungssystems in Echtzeit im Vergleich zu einer ohne die Modifizierung erwarteten Reaktion des Sprachverarbeitungssystems.
- Verfahren nach Anspruch 4, das ferner den zusätzlichen Schritt des Untersuchens des mindestens einen Merkmals der emotionalen Einstellung umfasst, um zu ermitteln, ob der Benutzer eine aufgeschlossene emotionale Einstellung aufweist; wobei der Schritt (e) als Reaktion auf die aufgeschlossene emotionale Einstellung zumindest das Anbieten eines Produkts und/oder einer Dienstleistung umfasst.
- Verfahren nach Anspruch 12, das ferner die folgenden zusätzlichen Schritte umfasst: Ermitteln mindestens eines Benutzerattributs außer der emotionalen Einstellung; gezieltes Auswählen eines Produkts und/oder einer Dienstleistung als Reaktion auf das mindestens eine Benutzerattribut außer der emotionalen Einstellung.
- Verfahren nach Anspruch 4, das ferner den zusätzlichen Schritt des Untersuchens des mindestens einen Merkmals der emotionalen Einstellung umfasst, um zu ermitteln, ob der Benutzer eine aufgeschlossene emotionale Einstellung aufweist; wobei der Schritt (e) zumindest das Durchführen einer auf den Benutzer bezogenen Marktforschung als Reaktion auf die aufgeschlossene emotionale Einstellung umfasst.
- Verfahren nach Anspruch 4, bei dem das Sprachverarbeitungssystem ein im Wesentlichen automatisches interaktives Sprachbeantwortungssystem (Interactive Voice Response, IVR) ist, das ferner den zusätzlichen Schritt des Untersuchens des mindestens einen Merkmals der emotionalen Einstellung umfasst, um zu ermitteln, ob der Benutzer mindestens eine aufgebrachte, arrogante, ängstliche, verwirrte und/oder verärgerte emotionale Einstellung aufweist; wobei der Schritt (e) als Reaktion auf mindestens eine aufgebrachte, arrogante, ängstliche, verwirrte und/oder verärgerte emotionale Einstellung zumindest das Vermitteln des Benutzers vom IVR zu einem Servicemitarbeiter umfasst.
- Verfahren nach Anspruch 4, bei dem das Sprachverarbeitungssystem ein Hybridsystem zur interaktiven Sprachbeantwortung (IVR) ist, wobei das Verfahren ferner den zusätzlichen Schritt des Untersuchens der mindestens einen emotionalen Einstellung umfasst, um zu ermitteln, ob der Benutzer mindestens eine aufgebrachte, arrogante, ängstliche, verwirrte und/oder verärgerte emotionale Einstellung aufweist; wobei der Schritt (e) als Reaktion auf mindestens eine aufgebrachte, arrogante, ängstliche, verwirrte und/oder verärgerte emotionale Einstellung zumindest das Vermitteln des Benutzers von einem untergeordneten Servicemitarbeiter zu einem vorgesetzten Servicemitarbeiter umfasst.
- Vorrichtung zum Sammeln von Daten, die einer Stimme eines Benutzers zugeordnet sind, wobei die Vorrichtung Folgendes umfasst: (a) eine Dialogsteuereinheit zur Steuerung eines Gesprächs mit dem Benutzer; (b) ein mit der Dialogsteuereinheit verbundenes Audioerfassungsmodul zum Erfassen einer Sprachsignal-Verlauf, die den Äußerungen des Benutzers während des Dialogs zugeordnet wurde; (c) eine mit dem Audioerfassungsmodul verbundene akustische Empfangseinheit, die konfiguriert ist zum: Empfangen und Digitalisieren des Sprachsignal-Verlaufs zum Erzeugen eines digitalisierten Sprachsignal-Verlaufs; und Extrahieren mindestens eines dem mindestens einen Benutzerattribut zugeordneten akustischen Merkmals aus dem digitalisierten Sprachsignal-Verlauf; (d) ein mit der akustischen Empfangseinheit verbundenes Verarbeitungsmodul, welches das mindestens eine akustische Merkmal analysiert, um das mindestens eine Benutzerattribut zu ermitteln; und (e) ein mit dem Verarbeitungsmodul verbundenes Data-Warehouse, welches das mindestens eine Benutzerattribut zusammen mit dem mindestens einen charakteristischen Kennzeichen in einer Form speichert, die eine spätere Datenfilterung der Attributdaten gestattet.
- Vorrichtung nach Anspruch 17, bei der das mindestens eine Benutzerattribut mindestens eine der folgenden Eigenschaften beinhaltet: (d-1) Geschlecht des Benutzers; (d-2) Alter des Benutzers; (d-3) Akzent des Benutzers; (d-4) Muttersprache des Benutzers; (d-5) Dialekt des Benutzers; (d-6) soziale Stellung des Benutzers; (d-7) Bildungsniveau des Benutzers; und (d-8) emotionale Einstellung des Benutzers.
- Vorrichtung nach Anspruch 18, bei der: die Dialogsteuereinheit so konfiguriert ist, dass sie eine Vielzahl zusätzlicher Dialoge mit zusätzlichen Benutzern verarbeiten kann; das Audioerfassungsmodul so konfiguriert ist, dass es eine Vielzahl zusätzlicher Sprachsignal-Verläufe erfassen kann, die den Äußerungen zusätzlicher Benutzer während der Vielzahl der zusätzlichen Dialoge zugeordnet wurden; die akustische Empfangseinheit so konfiguriert ist, dass sie eine Vielzahl zusätzlicher Sprachsignal-Verläufe empfangen und digitalisieren kann, um eine Vielzahl zusätzlicher digitalisierter Sprachwellenformen zu erzeugen, und aus der Vielzahl zusätzlicher digitalisierter Sprachsignal-Verläufe eine Vielzahl zusätzlicher akustischer Merkmale extrahieren kann, die jeweils mindestens einem Attribut eines der zusätzlichen Benutzer zugeordnet sind; das Verarbeitungsmodul so konfiguriert ist, dass es die zusätzlichen akustischen Merkmale analysiert, um eine Vielzahl zusätzlicher Benutzerattribute zu ermitteln; das Data-Warehouse so konfiguriert ist, dass es die Vielzahl zusätzlicher Benutzerattribute zusammen mit mindestens einem zusätzlichen charakteristischen Kennzeichnen in einer Form speichert, die eine spätere Datenfilterung der Attributdaten gestattet; und das Verarbeitungsmodul und das Data-Warehouse so konfiguriert sind, dass sie die gespeicherten Benutzerattribute und die charakteristischen Kennzeichen filtern, um Daten zur Modifizierung des dem Sprachverarbeitungssystem zugrunde liegenden Geschäftsmodells zu erzeugen.
- Computerprogramm, das, wenn das Programm in eine Maschine geladen wurde, durch die Maschine auszuführende Befehle zum Ausführen der Schritte des Verfahrens nach einem der Ansprüche 1 bis 16 umfasst.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US371400 | 1999-08-10 | ||
US09/371,400 US6665644B1 (en) | 1999-08-10 | 1999-08-10 | Conversational data mining |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60030920D1 DE60030920D1 (de) | 2006-11-09 |
DE60030920T2 true DE60030920T2 (de) | 2007-04-05 |
Family
ID=23463836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60030920T Expired - Lifetime DE60030920T2 (de) | 1999-08-10 | 2000-07-28 | Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs |
Country Status (6)
Country | Link |
---|---|
US (1) | US6665644B1 (de) |
EP (1) | EP1076329B1 (de) |
CN (1) | CN1157710C (de) |
AT (1) | ATE341071T1 (de) |
CA (1) | CA2311439C (de) |
DE (1) | DE60030920T2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552810B2 (en) | 2015-03-31 | 2017-01-24 | International Business Machines Corporation | Customizable and individualized speech recognition settings interface for users with language accents |
EP3576084A1 (de) | 2018-05-29 | 2019-12-04 | Christoph Neumann | Effiziente dialoggestaltung |
Families Citing this family (259)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6191585B1 (en) * | 1996-05-03 | 2001-02-20 | Digital Control, Inc. | Tracking the positional relationship between a boring tool and one or more buried lines using a composite magnetic signal |
JP3842497B2 (ja) * | 1999-10-22 | 2006-11-08 | アルパイン株式会社 | 音声処理装置 |
WO2001031500A1 (en) * | 1999-10-29 | 2001-05-03 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
GB9926134D0 (en) * | 1999-11-05 | 2000-01-12 | Ibm | Interactive voice response system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7574000B2 (en) | 2000-01-13 | 2009-08-11 | Verint Americas Inc. | System and method for analysing communications streams |
GB0000735D0 (en) | 2000-01-13 | 2000-03-08 | Eyretel Ltd | System and method for analysing communication streams |
US6871140B1 (en) * | 2000-02-25 | 2005-03-22 | Costar Group, Inc. | System and method for collection, distribution, and use of information in connection with commercial real estate |
WO2003050799A1 (en) * | 2001-12-12 | 2003-06-19 | International Business Machines Corporation | Method and system for non-intrusive speaker verification using behavior models |
US7917366B1 (en) * | 2000-03-24 | 2011-03-29 | Exaudios Technologies | System and method for determining a personal SHG profile by voice analysis |
US7096185B2 (en) | 2000-03-31 | 2006-08-22 | United Video Properties, Inc. | User speech interfaces for interactive media guidance applications |
US6424935B1 (en) * | 2000-07-31 | 2002-07-23 | Micron Technology, Inc. | Two-way speech recognition and dialect system |
US7664673B1 (en) * | 2000-09-18 | 2010-02-16 | Aol Llc | Smart transfer |
US7325190B1 (en) | 2000-10-02 | 2008-01-29 | Boehmer Tiffany D | Interface system and method of building rules and constraints for a resource scheduling system |
US20090132316A1 (en) * | 2000-10-23 | 2009-05-21 | Costar Group, Inc. | System and method for associating aerial images, map features, and information |
US6728679B1 (en) * | 2000-10-30 | 2004-04-27 | Koninklijke Philips Electronics N.V. | Self-updating user interface/entertainment device that simulates personal interaction |
US6937986B2 (en) * | 2000-12-28 | 2005-08-30 | Comverse, Inc. | Automatic dynamic speech recognition vocabulary based on external sources of information |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
GB0103381D0 (en) | 2001-02-12 | 2001-03-28 | Eyretel Ltd | Packet data recording method and system |
US8180643B1 (en) * | 2001-02-15 | 2012-05-15 | West Corporation | Script compliance using speech recognition and compilation and transmission of voice and text records to clients |
US7174297B2 (en) * | 2001-03-09 | 2007-02-06 | Bevocal, Inc. | System, method and computer program product for a dynamically configurable voice portal |
EP1246164A1 (de) * | 2001-03-30 | 2002-10-02 | Sony France S.A. | Audiosignalcharakterisierung und -identifikation basierend auf prosodischen Merkmalen |
US8015042B2 (en) | 2001-04-02 | 2011-09-06 | Verint Americas Inc. | Methods for long-range contact center staff planning utilizing discrete event simulation |
US6952732B2 (en) | 2001-04-30 | 2005-10-04 | Blue Pumpkin Software, Inc. | Method and apparatus for multi-contact scheduling |
US6959405B2 (en) | 2001-04-18 | 2005-10-25 | Blue Pumpkin Software, Inc. | Method and system for concurrent error identification in resource scheduling |
JP2002366166A (ja) * | 2001-06-11 | 2002-12-20 | Pioneer Electronic Corp | コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム |
EP1280137B1 (de) * | 2001-07-24 | 2004-12-29 | Sony International (Europe) GmbH | Verfahren zur Sprecheridentifikation |
DE60108373T2 (de) | 2001-08-02 | 2005-12-22 | Sony International (Europe) Gmbh | Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation |
GB2381688B (en) * | 2001-11-03 | 2004-09-22 | Dremedia Ltd | Time ordered indexing of audio-visual data |
GB2381638B (en) * | 2001-11-03 | 2004-02-04 | Dremedia Ltd | Identifying audio characteristics |
DE10154423A1 (de) * | 2001-11-06 | 2003-05-15 | Deutsche Telekom Ag | Verfahren für einen sprachgesteuerten Zugang zu einem Informationssystem und sprachgesteuerte Benutzerschnittstelle |
US7054817B2 (en) * | 2002-01-25 | 2006-05-30 | Canon Europa N.V. | User interface for speech model generation and testing |
US7424715B1 (en) | 2002-01-28 | 2008-09-09 | Verint Americas Inc. | Method and system for presenting events associated with recorded data exchanged between a server and a user |
US7882212B1 (en) * | 2002-01-28 | 2011-02-01 | Verint Systems Inc. | Methods and devices for archiving recorded interactions and retrieving stored recorded interactions |
US7047296B1 (en) | 2002-01-28 | 2006-05-16 | Witness Systems, Inc. | Method and system for selectively dedicating resources for recording data exchanged between entities attached to a network |
US7219138B2 (en) | 2002-01-31 | 2007-05-15 | Witness Systems, Inc. | Method, apparatus, and system for capturing data exchanged between a server and a user |
US9008300B2 (en) | 2002-01-28 | 2015-04-14 | Verint Americas Inc | Complex recording trigger |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
US7277913B2 (en) * | 2002-05-09 | 2007-10-02 | Sun Microsystems, Inc. | Persistent queuing for distributed file systems |
US7092972B2 (en) * | 2002-05-09 | 2006-08-15 | Sun Microsystems, Inc. | Delta transfers in distributed file systems |
US20030212763A1 (en) * | 2002-05-09 | 2003-11-13 | Ravi Kashyap | Distributed configuration-managed file synchronization systems |
US20070260517A1 (en) * | 2006-05-08 | 2007-11-08 | Gary Zalewski | Profile detection |
US20070261077A1 (en) * | 2006-05-08 | 2007-11-08 | Gary Zalewski | Using audio/visual environment to select ads on game platform |
US20070061413A1 (en) * | 2005-09-15 | 2007-03-15 | Larsen Eric J | System and method for obtaining user information from voices |
GB0219493D0 (en) | 2002-08-21 | 2002-10-02 | Eyretel Plc | Method and system for communications monitoring |
US20040073425A1 (en) * | 2002-10-11 | 2004-04-15 | Das Sharmistha Sarkar | Arrangement for real-time automatic recognition of accented speech |
US8959019B2 (en) | 2002-10-31 | 2015-02-17 | Promptu Systems Corporation | Efficient empirical determination, computation, and use of acoustic confusability measures |
US20040107097A1 (en) * | 2002-12-02 | 2004-06-03 | General Motors Corporation | Method and system for voice recognition through dialect identification |
US7389228B2 (en) * | 2002-12-16 | 2008-06-17 | International Business Machines Corporation | Speaker adaptation of vocabulary for speech recognition |
US7275024B2 (en) * | 2003-03-12 | 2007-09-25 | Microsoft Corporation | Automatic generation of a dimensional model for business analytics from an object model for online transaction processing |
US7634478B2 (en) * | 2003-12-02 | 2009-12-15 | Microsoft Corporation | Metadata driven intelligent data navigation |
US7313561B2 (en) | 2003-03-12 | 2007-12-25 | Microsoft Corporation | Model definition schema |
US7546226B1 (en) | 2003-03-12 | 2009-06-09 | Microsoft Corporation | Architecture for automating analytical view of business applications |
US20050010415A1 (en) * | 2003-05-24 | 2005-01-13 | Hagen David A. | Artificial intelligence dialogue processor |
US7340398B2 (en) * | 2003-08-21 | 2008-03-04 | Hewlett-Packard Development Company, L.P. | Selective sampling for sound signal classification |
US7349527B2 (en) | 2004-01-30 | 2008-03-25 | Hewlett-Packard Development Company, L.P. | System and method for extracting demographic information |
US8447027B2 (en) | 2004-01-30 | 2013-05-21 | Hewlett-Packard Development Company, L.P. | System and method for language variation guided operator selection |
US7899698B2 (en) * | 2004-03-19 | 2011-03-01 | Accenture Global Services Limited | Real-time sales support and learning tool |
US7022907B2 (en) * | 2004-03-25 | 2006-04-04 | Microsoft Corporation | Automatic music mood detection |
US8086462B1 (en) * | 2004-09-09 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems |
DE102004056164A1 (de) * | 2004-11-18 | 2006-05-24 | Deutsche Telekom Ag | Verfahren zur Dialogsteuerung und danach arbeitendes Dialogsystem |
US20070189544A1 (en) | 2005-01-15 | 2007-08-16 | Outland Research, Llc | Ambient sound responsive media player |
US7562117B2 (en) | 2005-09-09 | 2009-07-14 | Outland Research, Llc | System, method and computer program product for collaborative broadcast media |
US20060184800A1 (en) * | 2005-02-16 | 2006-08-17 | Outland Research, Llc | Method and apparatus for using age and/or gender recognition techniques to customize a user interface |
KR100678212B1 (ko) * | 2005-03-11 | 2007-02-02 | 삼성전자주식회사 | 휴대단말기의 감정정보 제어방법 |
US8094803B2 (en) | 2005-05-18 | 2012-01-10 | Mattersight Corporation | Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto |
US8094790B2 (en) | 2005-05-18 | 2012-01-10 | Mattersight Corporation | Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center |
US7995717B2 (en) * | 2005-05-18 | 2011-08-09 | Mattersight Corporation | Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto |
US7912720B1 (en) * | 2005-07-20 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | System and method for building emotional machines |
WO2007017853A1 (en) * | 2005-08-08 | 2007-02-15 | Nice Systems Ltd. | Apparatus and methods for the detection of emotions in audio interactions |
US20070038633A1 (en) * | 2005-08-10 | 2007-02-15 | International Business Machines Corporation | Method and system for executing procedures in mixed-initiative mode |
US20140125455A1 (en) * | 2005-09-01 | 2014-05-08 | Memphis Technologies, Inc. | Systems and algorithms for classification of user based on their personal features |
US8122259B2 (en) * | 2005-09-01 | 2012-02-21 | Bricom Technologies Ltd | Systems and algorithms for stateless biometric recognition |
US8645985B2 (en) * | 2005-09-15 | 2014-02-04 | Sony Computer Entertainment Inc. | System and method for detecting user attention |
US8616973B2 (en) * | 2005-09-15 | 2013-12-31 | Sony Computer Entertainment Inc. | System and method for control by audible device |
US7917148B2 (en) | 2005-09-23 | 2011-03-29 | Outland Research, Llc | Social musical media rating system and method for localized establishments |
US8176101B2 (en) | 2006-02-07 | 2012-05-08 | Google Inc. | Collaborative rejection of media for physical establishments |
US20070121873A1 (en) * | 2005-11-18 | 2007-05-31 | Medlin Jennifer P | Methods, systems, and products for managing communications |
EP1791114B1 (de) * | 2005-11-25 | 2009-08-12 | Swisscom AG | Verfahren zur Personalisierung eines Dienstes |
US7396990B2 (en) | 2005-12-09 | 2008-07-08 | Microsoft Corporation | Automatic music mood detection |
US7773731B2 (en) * | 2005-12-14 | 2010-08-10 | At&T Intellectual Property I, L. P. | Methods, systems, and products for dynamically-changing IVR architectures |
US7577664B2 (en) | 2005-12-16 | 2009-08-18 | At&T Intellectual Property I, L.P. | Methods, systems, and products for searching interactive menu prompting system architectures |
US7552098B1 (en) | 2005-12-30 | 2009-06-23 | At&T Corporation | Methods to distribute multi-class classification learning on several processors |
US20070158128A1 (en) * | 2006-01-11 | 2007-07-12 | International Business Machines Corporation | Controlling driver behavior and motor vehicle restriction control |
US8670552B2 (en) | 2006-02-22 | 2014-03-11 | Verint Systems, Inc. | System and method for integrated display of multiple types of call agent data |
US8112298B2 (en) | 2006-02-22 | 2012-02-07 | Verint Americas, Inc. | Systems and methods for workforce optimization |
US9129290B2 (en) | 2006-02-22 | 2015-09-08 | 24/7 Customer, Inc. | Apparatus and method for predicting customer behavior |
US8160233B2 (en) | 2006-02-22 | 2012-04-17 | Verint Americas Inc. | System and method for detecting and displaying business transactions |
US8112306B2 (en) | 2006-02-22 | 2012-02-07 | Verint Americas, Inc. | System and method for facilitating triggers and workflows in workforce optimization |
US8108237B2 (en) | 2006-02-22 | 2012-01-31 | Verint Americas, Inc. | Systems for integrating contact center monitoring, training and scheduling |
US7864946B1 (en) | 2006-02-22 | 2011-01-04 | Verint Americas Inc. | Systems and methods for scheduling call center agents using quality data and correlation-based discovery |
US7853006B1 (en) | 2006-02-22 | 2010-12-14 | Verint Americas Inc. | Systems and methods for scheduling call center agents using quality data and correlation-based discovery |
US8117064B2 (en) | 2006-02-22 | 2012-02-14 | Verint Americas, Inc. | Systems and methods for workforce optimization and analytics |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US7961856B2 (en) * | 2006-03-17 | 2011-06-14 | At&T Intellectual Property I, L. P. | Methods, systems, and products for processing responses in prompting systems |
US8050392B2 (en) * | 2006-03-17 | 2011-11-01 | At&T Intellectual Property I, L.P. | Methods systems, and products for processing responses in prompting systems |
JP4745094B2 (ja) * | 2006-03-20 | 2011-08-10 | 富士通株式会社 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
US7734783B1 (en) | 2006-03-21 | 2010-06-08 | Verint Americas Inc. | Systems and methods for determining allocations for distributed multi-site contact centers |
US8126134B1 (en) | 2006-03-30 | 2012-02-28 | Verint Americas, Inc. | Systems and methods for scheduling of outbound agents |
US7822018B2 (en) | 2006-03-31 | 2010-10-26 | Verint Americas Inc. | Duplicate media stream |
US7852994B1 (en) | 2006-03-31 | 2010-12-14 | Verint Americas Inc. | Systems and methods for recording audio |
US8130938B2 (en) | 2006-03-31 | 2012-03-06 | Verint Americas, Inc. | Systems and methods for endpoint recording using recorders |
US7701972B1 (en) | 2006-03-31 | 2010-04-20 | Verint Americas Inc. | Internet protocol analyzing |
US8594313B2 (en) | 2006-03-31 | 2013-11-26 | Verint Systems, Inc. | Systems and methods for endpoint recording using phones |
US7995612B2 (en) | 2006-03-31 | 2011-08-09 | Verint Americas, Inc. | Systems and methods for capturing communication signals [32-bit or 128-bit addresses] |
US7826608B1 (en) | 2006-03-31 | 2010-11-02 | Verint Americas Inc. | Systems and methods for calculating workforce staffing statistics |
US8204056B2 (en) | 2006-03-31 | 2012-06-19 | Verint Americas, Inc. | Systems and methods for endpoint recording using a media application server |
US7672746B1 (en) | 2006-03-31 | 2010-03-02 | Verint Americas Inc. | Systems and methods for automatic scheduling of a workforce |
US8442033B2 (en) * | 2006-03-31 | 2013-05-14 | Verint Americas, Inc. | Distributed voice over internet protocol recording |
US7680264B2 (en) | 2006-03-31 | 2010-03-16 | Verint Americas Inc. | Systems and methods for endpoint recording using a conference bridge |
US7792278B2 (en) | 2006-03-31 | 2010-09-07 | Verint Americas Inc. | Integration of contact center surveys |
US8000465B2 (en) | 2006-03-31 | 2011-08-16 | Verint Americas, Inc. | Systems and methods for endpoint recording using gateways |
US8254262B1 (en) | 2006-03-31 | 2012-08-28 | Verint Americas, Inc. | Passive recording and load balancing |
US7774854B1 (en) | 2006-03-31 | 2010-08-10 | Verint Americas Inc. | Systems and methods for protecting information |
US8155275B1 (en) | 2006-04-03 | 2012-04-10 | Verint Americas, Inc. | Systems and methods for managing alarms from recorders |
US20070244751A1 (en) * | 2006-04-17 | 2007-10-18 | Gary Zalewski | Using visual environment to select ads on game platform |
US20070255630A1 (en) * | 2006-04-17 | 2007-11-01 | Gary Zalewski | System and method for using user's visual environment to select advertising |
US20070243930A1 (en) * | 2006-04-12 | 2007-10-18 | Gary Zalewski | System and method for using user's audio environment to select advertising |
US8331549B2 (en) | 2006-05-01 | 2012-12-11 | Verint Americas Inc. | System and method for integrated workforce and quality management |
US8396732B1 (en) | 2006-05-08 | 2013-03-12 | Verint Americas Inc. | System and method for integrated workforce and analytics |
US7817795B2 (en) | 2006-05-10 | 2010-10-19 | Verint Americas, Inc. | Systems and methods for data synchronization in a customer center |
US20080059177A1 (en) * | 2006-05-19 | 2008-03-06 | Jamey Poirier | Enhancement of simultaneous multi-user real-time speech recognition system |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US7660406B2 (en) | 2006-06-27 | 2010-02-09 | Verint Americas Inc. | Systems and methods for integrating outsourcers |
US7660407B2 (en) | 2006-06-27 | 2010-02-09 | Verint Americas Inc. | Systems and methods for scheduling contact center agents |
US7903568B2 (en) | 2006-06-29 | 2011-03-08 | Verint Americas Inc. | Systems and methods for providing recording as a network service |
US7660307B2 (en) | 2006-06-29 | 2010-02-09 | Verint Americas Inc. | Systems and methods for providing recording as a network service |
US7769176B2 (en) | 2006-06-30 | 2010-08-03 | Verint Americas Inc. | Systems and methods for a secure recording environment |
US7853800B2 (en) | 2006-06-30 | 2010-12-14 | Verint Americas Inc. | Systems and methods for a secure recording environment |
US7953621B2 (en) | 2006-06-30 | 2011-05-31 | Verint Americas Inc. | Systems and methods for displaying agent activity exceptions |
US8131578B2 (en) | 2006-06-30 | 2012-03-06 | Verint Americas Inc. | Systems and methods for automatic scheduling of a workforce |
US7966397B2 (en) | 2006-06-30 | 2011-06-21 | Verint Americas Inc. | Distributive data capture |
US7881471B2 (en) | 2006-06-30 | 2011-02-01 | Verint Systems Inc. | Systems and methods for recording an encrypted interaction |
US7848524B2 (en) | 2006-06-30 | 2010-12-07 | Verint Americas Inc. | Systems and methods for a secure recording environment |
US20080010067A1 (en) * | 2006-07-07 | 2008-01-10 | Chaudhari Upendra V | Target specific data filter to speed processing |
JP2008022493A (ja) * | 2006-07-14 | 2008-01-31 | Fujitsu Ltd | 受付支援システムとそのプログラム |
US20080027725A1 (en) * | 2006-07-26 | 2008-01-31 | Microsoft Corporation | Automatic Accent Detection With Limited Manually Labeled Data |
US20080086690A1 (en) * | 2006-09-21 | 2008-04-10 | Ashish Verma | Method and System for Hybrid Call Handling |
US7930314B2 (en) | 2006-09-28 | 2011-04-19 | Verint Americas Inc. | Systems and methods for storing and searching data in a customer center environment |
US7953750B1 (en) | 2006-09-28 | 2011-05-31 | Verint Americas, Inc. | Systems and methods for storing and searching data in a customer center environment |
US7965828B2 (en) | 2006-09-29 | 2011-06-21 | Verint Americas Inc. | Call control presence |
US8005676B2 (en) | 2006-09-29 | 2011-08-23 | Verint Americas, Inc. | Speech analysis using statistical learning |
US8837697B2 (en) | 2006-09-29 | 2014-09-16 | Verint Americas Inc. | Call control presence and recording |
US7899176B1 (en) | 2006-09-29 | 2011-03-01 | Verint Americas Inc. | Systems and methods for discovering customer center information |
US7752043B2 (en) | 2006-09-29 | 2010-07-06 | Verint Americas Inc. | Multi-pass speech analytics |
US7881216B2 (en) | 2006-09-29 | 2011-02-01 | Verint Systems Inc. | Systems and methods for analyzing communication sessions using fragments |
US8645179B2 (en) | 2006-09-29 | 2014-02-04 | Verint Americas Inc. | Systems and methods of partial shift swapping |
US8068602B1 (en) | 2006-09-29 | 2011-11-29 | Verint Americas, Inc. | Systems and methods for recording using virtual machines |
US7899178B2 (en) | 2006-09-29 | 2011-03-01 | Verint Americas Inc. | Recording invocation of communication sessions |
US8199886B2 (en) | 2006-09-29 | 2012-06-12 | Verint Americas, Inc. | Call control recording |
US7873156B1 (en) | 2006-09-29 | 2011-01-18 | Verint Americas Inc. | Systems and methods for analyzing contact center interactions |
US7920482B2 (en) | 2006-09-29 | 2011-04-05 | Verint Americas Inc. | Systems and methods for monitoring information corresponding to communication sessions |
US7991613B2 (en) | 2006-09-29 | 2011-08-02 | Verint Americas Inc. | Analyzing audio components and generating text with integrated additional session information |
US7570755B2 (en) | 2006-09-29 | 2009-08-04 | Verint Americas Inc. | Routine communication sessions for recording |
US7885813B2 (en) | 2006-09-29 | 2011-02-08 | Verint Systems Inc. | Systems and methods for analyzing communication sessions |
US8130926B2 (en) | 2006-12-08 | 2012-03-06 | Verint Americas, Inc. | Systems and methods for recording data |
US8130925B2 (en) | 2006-12-08 | 2012-03-06 | Verint Americas, Inc. | Systems and methods for recording |
US8280011B2 (en) | 2006-12-08 | 2012-10-02 | Verint Americas, Inc. | Recording in a distributed environment |
DE102006055864A1 (de) * | 2006-11-22 | 2008-05-29 | Deutsche Telekom Ag | Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung |
US20100217591A1 (en) * | 2007-01-09 | 2010-08-26 | Avraham Shpigel | Vowel recognition system and method in speech to text applictions |
CN101242452B (zh) | 2007-02-05 | 2013-01-23 | 国际商业机器公司 | 用于自动生成声音文档以及提供声音文档的方法和系统 |
US20080201158A1 (en) | 2007-02-15 | 2008-08-21 | Johnson Mark D | System and method for visitation management in a controlled-access environment |
US8542802B2 (en) | 2007-02-15 | 2013-09-24 | Global Tel*Link Corporation | System and method for three-way call detection |
US20110022395A1 (en) * | 2007-02-15 | 2011-01-27 | Noise Free Wireless Inc. | Machine for Emotion Detection (MED) in a communications device |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
US8370145B2 (en) * | 2007-03-29 | 2013-02-05 | Panasonic Corporation | Device for extracting keywords in a conversation |
US8023639B2 (en) | 2007-03-30 | 2011-09-20 | Mattersight Corporation | Method and system determining the complexity of a telephonic communication received by a contact center |
US8170184B2 (en) | 2007-03-30 | 2012-05-01 | Verint Americas, Inc. | Systems and methods for recording resource association in a recording environment |
US8437465B1 (en) | 2007-03-30 | 2013-05-07 | Verint Americas, Inc. | Systems and methods for capturing communications data |
US7869586B2 (en) | 2007-03-30 | 2011-01-11 | Eloyalty Corporation | Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics |
US8718262B2 (en) | 2007-03-30 | 2014-05-06 | Mattersight Corporation | Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication |
US9106737B2 (en) | 2007-03-30 | 2015-08-11 | Verint Americas, Inc. | Systems and methods for recording resource association for recording |
US8743730B2 (en) | 2007-03-30 | 2014-06-03 | Verint Americas Inc. | Systems and methods for recording resource association for a communications environment |
US8315901B2 (en) | 2007-05-30 | 2012-11-20 | Verint Systems Inc. | Systems and methods of automatically scheduling a workforce |
US7949526B2 (en) * | 2007-06-04 | 2011-05-24 | Microsoft Corporation | Voice aware demographic personalization |
GB2451907B (en) * | 2007-08-17 | 2010-11-03 | Fluency Voice Technology Ltd | Device for modifying and improving the behaviour of speech recognition systems |
US8312379B2 (en) * | 2007-08-22 | 2012-11-13 | International Business Machines Corporation | Methods, systems, and computer program products for editing using an interface |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
US10419611B2 (en) | 2007-09-28 | 2019-09-17 | Mattersight Corporation | System and methods for determining trends in electronic communications |
JP5171962B2 (ja) * | 2007-10-11 | 2013-03-27 | 本田技研工業株式会社 | 異種データセットからの知識移転を伴うテキスト分類 |
FR2923319B1 (fr) * | 2007-11-06 | 2012-11-16 | Alcatel Lucent | Dispositif et procede d'obtention de contextes d'utilisateurs de terminaux de communication, a partir de signaux audio captes dans leur environnement |
US8126723B1 (en) | 2007-12-19 | 2012-02-28 | Convergys Cmg Utah, Inc. | System and method for improving tuning using caller provided satisfaction scores |
CN101241699B (zh) * | 2008-03-14 | 2012-07-18 | 北京交通大学 | 一种远程汉语教学中的说话人确认方法 |
US7475344B1 (en) | 2008-05-04 | 2009-01-06 | International Business Machines Corporation | Genders-usage assistant for composition of electronic documents, emails, or letters |
CA2665014C (en) | 2008-05-23 | 2020-05-26 | Accenture Global Services Gmbh | Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto |
US8401155B1 (en) | 2008-05-23 | 2013-03-19 | Verint Americas, Inc. | Systems and methods for secure recording in a customer center environment |
CA2665055C (en) * | 2008-05-23 | 2018-03-06 | Accenture Global Services Gmbh | Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto |
CA2665009C (en) * | 2008-05-23 | 2018-11-27 | Accenture Global Services Gmbh | System for handling a plurality of streaming voice signals for determination of responsive action thereto |
US8219397B2 (en) * | 2008-06-10 | 2012-07-10 | Nuance Communications, Inc. | Data processing system for autonomously building speech identification and tagging data |
EP2172895A1 (de) * | 2008-10-02 | 2010-04-07 | Vodafone Holding GmbH | Bereitstellung von Informationen innerhalb der Reichweite einer Sprachkommunikationsverbindung |
CA2685779A1 (en) * | 2008-11-19 | 2010-05-19 | David N. Fernandes | Automated sound segment selection method and system |
US9225838B2 (en) | 2009-02-12 | 2015-12-29 | Value-Added Communications, Inc. | System and method for detecting three-way call circumvention attempts |
US8630726B2 (en) | 2009-02-12 | 2014-01-14 | Value-Added Communications, Inc. | System and method for detecting three-way call circumvention attempts |
US8719016B1 (en) | 2009-04-07 | 2014-05-06 | Verint Americas Inc. | Speech analytics system and system and method for determining structured speech |
US20110044447A1 (en) * | 2009-08-21 | 2011-02-24 | Nexidia Inc. | Trend discovery in audio signals |
US9438741B2 (en) * | 2009-09-30 | 2016-09-06 | Nuance Communications, Inc. | Spoken tags for telecom web platforms in a social network |
US10115065B1 (en) | 2009-10-30 | 2018-10-30 | Verint Americas Inc. | Systems and methods for automatic scheduling of a workforce |
US20110276326A1 (en) * | 2010-05-06 | 2011-11-10 | Motorola, Inc. | Method and system for operational improvements in dispatch console systems in a multi-source environment |
US8417530B1 (en) * | 2010-08-20 | 2013-04-09 | Google Inc. | Accent-influenced search results |
US20120155663A1 (en) * | 2010-12-16 | 2012-06-21 | Nice Systems Ltd. | Fast speaker hunting in lawful interception systems |
US8769009B2 (en) | 2011-02-18 | 2014-07-01 | International Business Machines Corporation | Virtual communication techniques |
JP5250066B2 (ja) * | 2011-03-04 | 2013-07-31 | 東芝テック株式会社 | 情報処理装置およびプログラム |
US8798995B1 (en) | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
US8825533B2 (en) | 2012-02-01 | 2014-09-02 | International Business Machines Corporation | Intelligent dialogue amongst competitive user applications |
CN103377432A (zh) * | 2012-04-16 | 2013-10-30 | 殷程 | 智能客服营销分析系统 |
WO2013184667A1 (en) | 2012-06-05 | 2013-12-12 | Rank Miner, Inc. | System, method and apparatus for voice analytics of recorded audio |
CN102802114B (zh) * | 2012-06-20 | 2015-02-18 | 北京语言大学 | 利用语音进行座席筛选的方法及系统 |
US8914285B2 (en) * | 2012-07-17 | 2014-12-16 | Nice-Systems Ltd | Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative |
US9245428B2 (en) | 2012-08-02 | 2016-01-26 | Immersion Corporation | Systems and methods for haptic remote control gaming |
US9601111B2 (en) * | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
US9558739B2 (en) * | 2012-11-13 | 2017-01-31 | GM Global Technology Operations LLC | Methods and systems for adapting a speech system based on user competance |
US9507755B1 (en) | 2012-11-20 | 2016-11-29 | Micro Strategy Incorporated | Selecting content for presentation |
US9105042B2 (en) | 2013-02-07 | 2015-08-11 | Verizon Patent And Licensing Inc. | Customer sentiment analysis using recorded conversation |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US9191510B2 (en) | 2013-03-14 | 2015-11-17 | Mattersight Corporation | Methods and system for analyzing multichannel electronic communication data |
US20150287410A1 (en) * | 2013-03-15 | 2015-10-08 | Google Inc. | Speech and semantic parsing for content selection |
CN103310788B (zh) * | 2013-05-23 | 2016-03-16 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
US20140358538A1 (en) * | 2013-05-28 | 2014-12-04 | GM Global Technology Operations LLC | Methods and systems for shaping dialog of speech systems |
US9215510B2 (en) | 2013-12-06 | 2015-12-15 | Rovi Guides, Inc. | Systems and methods for automatically tagging a media asset based on verbal input and playback adjustments |
CN103680518A (zh) * | 2013-12-20 | 2014-03-26 | 上海电机学院 | 基于虚拟仪器技术的语音性别识别方法及系统 |
CN103778917B (zh) * | 2014-01-10 | 2017-01-04 | 厦门快商通信息技术有限公司 | 一种在电话满意度调查中检测身份冒充的系统与方法 |
US9363378B1 (en) | 2014-03-19 | 2016-06-07 | Noble Systems Corporation | Processing stored voice messages to identify non-semantic message characteristics |
CN107003723A (zh) * | 2014-10-21 | 2017-08-01 | 罗伯特·博世有限公司 | 用于会话系统中的响应选择和组成的自动化的方法和系统 |
CN105744090A (zh) | 2014-12-09 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 语音信息处理方法及装置 |
US9722965B2 (en) * | 2015-01-29 | 2017-08-01 | International Business Machines Corporation | Smartphone indicator for conversation nonproductivity |
US10529328B2 (en) | 2015-06-22 | 2020-01-07 | Carnegie Mellon University | Processing speech signals in voice-based profiling |
CN105206269A (zh) * | 2015-08-14 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法和装置 |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
US10043517B2 (en) | 2015-12-09 | 2018-08-07 | International Business Machines Corporation | Audio-based event interaction analytics |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
US10572961B2 (en) | 2016-03-15 | 2020-02-25 | Global Tel*Link Corporation | Detection and prevention of inmate to inmate message relay |
US9609121B1 (en) | 2016-04-07 | 2017-03-28 | Global Tel*Link Corporation | System and method for third party monitoring of voice and video calls |
US10915819B2 (en) | 2016-07-01 | 2021-02-09 | International Business Machines Corporation | Automatic real-time identification and presentation of analogies to clarify a concept |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN107886955B (zh) * | 2016-09-29 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 一种语音会话样本的身份识别方法、装置及设备 |
CN106534598A (zh) * | 2016-10-28 | 2017-03-22 | 广东亿迅科技有限公司 | 一种基于情感识别的呼叫平台排队系统及其实现方法 |
US10096319B1 (en) * | 2017-03-13 | 2018-10-09 | Amazon Technologies, Inc. | Voice-based determination of physical and emotional characteristics of users |
US10027797B1 (en) | 2017-05-10 | 2018-07-17 | Global Tel*Link Corporation | Alarm control for inmate call monitoring |
US10225396B2 (en) | 2017-05-18 | 2019-03-05 | Global Tel*Link Corporation | Third party monitoring of a activity within a monitoring platform |
US10860786B2 (en) | 2017-06-01 | 2020-12-08 | Global Tel*Link Corporation | System and method for analyzing and investigating communication data from a controlled environment |
US9930088B1 (en) | 2017-06-22 | 2018-03-27 | Global Tel*Link Corporation | Utilizing VoIP codec negotiation during a controlled environment call |
JP6863179B2 (ja) * | 2017-08-29 | 2021-04-21 | 沖電気工業株式会社 | 顧客の苦情検知機能を備えたコールセンタシステム、コールセンタ装置、対話方法、およびそのプログラム |
CN107919137A (zh) * | 2017-10-25 | 2018-04-17 | 平安普惠企业管理有限公司 | 远程审批方法、装置、设备及可读存储介质 |
US10135977B1 (en) * | 2017-11-24 | 2018-11-20 | Nice Ltd. | Systems and methods for optimization of interactive voice recognition systems |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
JP2021529382A (ja) | 2018-06-19 | 2021-10-28 | エリプシス・ヘルス・インコーポレイテッド | 精神的健康評価のためのシステム及び方法 |
CN109147800A (zh) * | 2018-08-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 应答方法和装置 |
CN109036436A (zh) * | 2018-09-18 | 2018-12-18 | 广州势必可赢网络科技有限公司 | 一种声纹数据库建立方法、声纹识别方法、装置及系统 |
US11195507B2 (en) | 2018-10-04 | 2021-12-07 | Rovi Guides, Inc. | Translating between spoken languages with emotion in audio and video media streams |
US10770072B2 (en) | 2018-12-10 | 2020-09-08 | International Business Machines Corporation | Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning |
US11152005B2 (en) * | 2019-09-11 | 2021-10-19 | VIQ Solutions Inc. | Parallel processing framework for voice to text digital media |
CN110648670B (zh) * | 2019-10-22 | 2021-11-26 | 中信银行股份有限公司 | 欺诈识别方法、装置、电子设备及计算机可读存储介质 |
CN113257225B (zh) * | 2021-05-31 | 2021-11-02 | 之江实验室 | 一种融合词汇及音素发音特征的情感语音合成方法及系统 |
EP4202738A1 (de) * | 2021-12-22 | 2023-06-28 | Deutsche Telekom AG | Nutzeridentifikation anhand einer spracheingabe |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4093821A (en) * | 1977-06-14 | 1978-06-06 | John Decatur Williamson | Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person |
EP0574951B1 (de) * | 1992-06-18 | 2000-04-05 | Seiko Epson Corporation | Spracherkennungssystem |
IL108401A (en) * | 1994-01-21 | 1996-12-05 | Hashavshevet Manufacture 1988 | Method and apparatus for indicating the emotional state of a person |
US6052441A (en) * | 1995-01-11 | 2000-04-18 | Fujitsu Limited | Voice response service apparatus |
US5918222A (en) * | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
CA2239691C (en) * | 1995-12-04 | 2006-06-06 | Jared C. Bernstein | Method and apparatus for combined information from speech signals for adaptive interaction in teaching and testing |
US5895447A (en) | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US6026397A (en) * | 1996-05-22 | 2000-02-15 | Electronic Data Systems Corporation | Data analysis system and method |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
JP2000507021A (ja) * | 1997-01-09 | 2000-06-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | モジュール式会話構造に基づくような両面音声の形態における人間―機械会話を実行する方法および装置 |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6014647A (en) * | 1997-07-08 | 2000-01-11 | Nizzari; Marcia M. | Customer interaction tracking |
US6151601A (en) * | 1997-11-12 | 2000-11-21 | Ncr Corporation | Computer architecture and method for collecting, analyzing and/or transforming internet and/or electronic commerce data for storage into a data storage area |
JP3886024B2 (ja) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | 音声認識装置及びそれを用いた情報処理装置 |
-
1999
- 1999-08-10 US US09/371,400 patent/US6665644B1/en not_active Expired - Lifetime
-
2000
- 2000-06-13 CA CA002311439A patent/CA2311439C/en not_active Expired - Lifetime
- 2000-07-28 AT AT00306483T patent/ATE341071T1/de not_active IP Right Cessation
- 2000-07-28 EP EP00306483A patent/EP1076329B1/de not_active Expired - Lifetime
- 2000-07-28 DE DE60030920T patent/DE60030920T2/de not_active Expired - Lifetime
- 2000-08-08 CN CNB001227025A patent/CN1157710C/zh not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552810B2 (en) | 2015-03-31 | 2017-01-24 | International Business Machines Corporation | Customizable and individualized speech recognition settings interface for users with language accents |
EP3576084A1 (de) | 2018-05-29 | 2019-12-04 | Christoph Neumann | Effiziente dialoggestaltung |
WO2019228667A1 (de) | 2018-05-29 | 2019-12-05 | Christoph Neumann | Effiziente dialoggestaltung |
US11488600B2 (en) | 2018-05-29 | 2022-11-01 | Gk Easydialog | Efficient dialogue configuration |
Also Published As
Publication number | Publication date |
---|---|
EP1076329B1 (de) | 2006-09-27 |
CA2311439C (en) | 2007-05-22 |
EP1076329A2 (de) | 2001-02-14 |
ATE341071T1 (de) | 2006-10-15 |
DE60030920D1 (de) | 2006-11-09 |
US6665644B1 (en) | 2003-12-16 |
CN1283843A (zh) | 2001-02-14 |
CN1157710C (zh) | 2004-07-14 |
EP1076329A3 (de) | 2003-10-01 |
CA2311439A1 (en) | 2001-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60030920T2 (de) | Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs | |
DE60031432T2 (de) | System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern | |
DE60033132T2 (de) | Detektion von emotionen in sprachsignalen mittels analyse einer vielzahl von sprachsignalparametern | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE60317130T2 (de) | Vorrichtung und Verfahren zur Bereitstellung von Informationen mittels einer Sprachdialogschnittstelle | |
DE60115653T2 (de) | Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten | |
DE60313706T2 (de) | Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium | |
DE602006000090T2 (de) | Konfidenzmaß für ein Sprachdialogsystem | |
DE602005001142T2 (de) | Nachrichtenübertragungsgerät | |
DE60130880T2 (de) | Web-gestützte spracherkennung durch scripting und semantische objekte | |
DE60108373T2 (de) | Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation | |
DE10306599B4 (de) | Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
DE60108104T2 (de) | Verfahren zur Sprecheridentifikation | |
EP1926081A1 (de) | Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung | |
DE112013002654T5 (de) | Verfahren zum Klassifizieren von Text | |
CN111199205A (zh) | 车载语音交互体验评估方法、装置、设备及存储介质 | |
DE60302478T2 (de) | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
DE10018134A1 (de) | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
EP2962296A2 (de) | Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung | |
EP1097447A1 (de) | Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache | |
DE19654549C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
CN113139525A (zh) | 一种基于多源信息融合的情感识别方法和人机交互系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) |