DE60031432T2 - SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS - Google Patents
SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS Download PDFInfo
- Publication number
- DE60031432T2 DE60031432T2 DE60031432T DE60031432T DE60031432T2 DE 60031432 T2 DE60031432 T2 DE 60031432T2 DE 60031432 T DE60031432 T DE 60031432T DE 60031432 T DE60031432 T DE 60031432T DE 60031432 T2 DE60031432 T2 DE 60031432T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- emotion
- statistics
- voice
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 61
- 238000007619 statistical method Methods 0.000 title 1
- 230000008451 emotion Effects 0.000 claims abstract description 120
- 238000004590 computer program Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 14
- 230000009471 action Effects 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract description 2
- 239000011295 pitch Substances 0.000 description 148
- 230000008859 change Effects 0.000 description 41
- 238000004422 calculation algorithm Methods 0.000 description 32
- 230000001755 vocal effect Effects 0.000 description 29
- 230000002996 emotional effect Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 24
- 238000012360 testing method Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 19
- 230000004048 modification Effects 0.000 description 17
- 238000012986 modification Methods 0.000 description 17
- 101100537098 Mus musculus Alyref gene Proteins 0.000 description 16
- 206010029216 Nervousness Diseases 0.000 description 16
- 101150095908 apex1 gene Proteins 0.000 description 16
- 210000001260 vocal cord Anatomy 0.000 description 15
- 208000019901 Anxiety disease Diseases 0.000 description 13
- 230000036506 anxiety Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 11
- 230000008909 emotion recognition Effects 0.000 description 11
- 210000003205 muscle Anatomy 0.000 description 11
- 230000035882 stress Effects 0.000 description 11
- 230000007704 transition Effects 0.000 description 11
- 101100269674 Mus musculus Alyref2 gene Proteins 0.000 description 10
- 230000001186 cumulative effect Effects 0.000 description 10
- 230000005284 excitation Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 239000003990 capacitor Substances 0.000 description 9
- 230000001965 increasing effect Effects 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000007906 compression Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 239000012528 membrane Substances 0.000 description 5
- 230000000717 retained effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 210000004072 lung Anatomy 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000010355 oscillation Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 206010049816 Muscle tightness Diseases 0.000 description 3
- 208000003443 Unconsciousness Diseases 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000005281 excited state Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 206010016256 fatigue Diseases 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 206010002953 Aphonia Diseases 0.000 description 2
- 101100386054 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CYS3 gene Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 101150035983 str1 gene Proteins 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 206010010219 Compulsions Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 210000003403 autonomic nervous system Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 210000000845 cartilage Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003434 inspiratory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000037323 metabolic rate Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000004118 muscle contraction Effects 0.000 description 1
- 230000036640 muscle relaxation Effects 0.000 description 1
- 239000004081 narcotic agent Substances 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009894 physiological stress Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000004938 stress stimulation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000003867 tiredness Effects 0.000 description 1
- 208000016255 tiredness Diseases 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Stored Programmes (AREA)
- User Interface Of Digital Computer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
Description
Gebiet der ErfindungTerritory of invention
Die vorliegende Erfindung bezieht sich auf Spracherkennung und insbesondere auf ein Detektieren von Emotionen unter Verwendung von Statistiken, welche für Sprach- bzw. Stimmsignalparameter berechnet sind bzw. werden.The The present invention relates to speech recognition, and more particularly on detecting emotions using statistics, which for Speech or voice signal parameters are calculated or be.
Hintergrund der Erfindungbackground the invention
Obwohl die erste Monographie über einen Ausdruck von Emotionen bei Tieren und Menschen durch Charles Darwin im letzten Jahrhundert geschrieben wurde und Psychologen allmählich Kenntnis auf dem Gebiet einer Emotionsdetektion und Stimmerkennung gesammelt haben, hat es eine neue Welle von Interesse kürzlich sowohl von Psychologen wie auch Spezialisten für künstliche Intelligenz auf sich gezogen. Es gibt verschiedene Gründe für dieses erneuerte Interesse: technologischen Fortschritt beim Aufzeichnen, Speichern und Verarbeiten von audiovisueller Information; die Entwicklung von nicht-eindringenden Sensoren; die Einführung bzw. das Auftreten von tragbaren Computern; und den Zwang, die Mensch-Computer-Schnittstelle vom Zeigen und Klicken zu einem Empfinden und Fühlen zu erweitern. Weiterhin wurde ein neues Gebiet von Forschung, die in der AI bzw. künstlichen Intelligenz als gemütsbezogenes bzw. emotionales Berechnen bekannt ist, kürzlich identifiziert.Even though the first monograph about an expression of emotions in animals and humans by Charles Darwin was written in the last century and psychologists gradually Knowledge in the field of emotion detection and voice recognition There has been a new wave of interest recently both of psychologists as well as artificial intelligence specialists drawn. There are several reasons for this renewed interest: technological progress in recording, Storage and processing of audiovisual information; the development non-intrusive sensors; the introduction or occurrence of portable computers; and the compulsion, the human-computer interface of Point and click to a sensation and feel to expand. Farther became a new field of research in AI or artificial Intelligence as mind-related or emotional computation is known, recently identified.
Betreffend Forschung beim Erkennen von Emotionen in der Sprache haben einerseits Psychologen viele Experimente durchgeführt und Theorien vorgeschlagen. Andererseits trugen Al-Forscher zu den folgenden Gebieten bei: Synthese von emotionaler Sprache, Erkennung von Emotionen und die Verwendung von Agentien bzw. Mitteln zum Dekodieren und Ausdrücken von Emotionen. Ein ähnlicher Fortschritt wurde bei einer Spracherkennung gemacht.Concerning Research in recognizing emotions in the language have one hand Psychologists performed many experiments and suggested theories. On the other hand, Al researchers contributed to the following areas: Synthesis from emotional language, emotion recognition and use of agents or means for decoding and expressing Emotions. A similar one Progress has been made in speech recognition.
Trotz der Erforschung beim Erkennen von Emotionen in der Sprache war die Technik ohne Verfahren und Vorrichtungen, welche eine Emotionserkennung und Stimm- bzw. Spracherkennung für Geschäftszwecke verwenden.In spite of research into recognizing emotions in language was the Technique without methods and devices that an emotion detection and use voice recognition for business purposes.
Die Literaturstelle "Pattern Recognition in the Vocal Expression of Emotional Categories", Jimenez-Fernandez et al, Proceedings of the Ninth Annual Conference of the IEEE Engineering in Medicine and Biology Society, Band 4, 13-16, Nov. 1987, Seiten 2090-2091, offenbart die Verwendung von akustischen Parametern und Statistiken von derartigen Parametern beim Detektieren einer Emotion eines Sprechers. Die verwendeten Parameter sind: Variable, welche sich auf die "Tonkontur" beziehen; die durchschnittliche fundamentale bzw. Grundfrequenz und ihre Abweichung; Satzlänge (enthaltend betonte, nicht betonte und stille Teile); und durchschnittliche bzw. mittlere Energie des Satzes und seine Variabilität.The Reference "Pattern Recognition in the Vocal Expression of Emotional Categories ", Jimenez-Fernandez et al, Proceedings of the Ninth Annual Conference of IEEE Engineering in Medicine and Biology Society, Vol. 4, 13-16, Nov. 1987, p 2090-2091, discloses the use of acoustic parameters and Statistics of such parameters when detecting an emotion a speaker. The parameters used are: variable, which refer to the "tonal contour"; the average fundamental frequency and its deviation; Record length (containing stressed, unstressed and silent parts); and average or average energy of the sentence and its variability.
Die Literaturstelle "Emotion Recognition and Synthesis System on Speech", T Moriyana et al, Juni 1999, Seiten 840-844, Proc IEEE Int. Conf. on Multimedia Computing and Systems, offenbart ein in Bezug Setzen von statistischen Parametern von Prosodie zu dem emotionalen Inhalt von Sprache.The Reference "Emotion Recognition and Synthesis System on speech ", T. Moriyana et al., June 1999, p 840-844, Proc IEEE Int. Conf. on Multimedia Computing and Systems, reveals a in Reference Set statistical parameters of prosody to the emotional Content of language.
Gemäß eine ersten Aspekt der Erfindung wird ein Verfahren zum Detektieren von Emotion in einer Sprache bzw. Stimme gemäß Anspruch 1 zur Verfügung gestellt.According to a first Aspect of the invention is a method for detecting emotion in a language or voice according to claim 1 available posed.
Gemäß einem zweiten Aspekt der Erfindung wird ein Computerprogramm, welches auf einem computerlesbaren Medium verkörpert ist, zum Detektieren von Emotion in einer Sprache bzw. Stimme gemäß Anspruch 2 zur Verfügung gestellt.According to one second aspect of the invention is a computer program which embodied on a computer readable medium for detecting of emotion in a voice according to claim 2.
Gemäß einem dritten Aspekt der Erfindung wird ein System zum Detektieren von Emotion in einer Sprache bzw. Stimme gemäß Anspruch 3 zur Verfügung gestellt.According to one Third aspect of the invention is a system for detecting Emotion in a language or voice according to claim 3 provided.
Ausführungsformen der Erfindung stellen ein System, ein Verfahren und ein Computerprogramm zum Detektieren von Emotion unter Verwendung von Statistiken zur Verfügung. Zuerst wird eine Datenbank zur Verfügung gestellt. Die Datenbank weist Statistiken auf, beinhaltend Statistiken von menschlichen Assoziationen von Stimm- bzw. Sprachparametern mit Emotionen. Als nächstes wird ein Sprachsignal empfangen. Wenigstens ein Merkmal wird von dem Sprachsignal extrahiert bzw. entnommen. Dann wird das entnommene Sprachmerkmal mit den Sprachparametern in der Datenbank verglichen. Eine Emotion wird aus der Datenbank basierend auf dem Vergleich des extrahierten Sprachmerkmals mit den Sprachparametern ausgewählt und dann ausgegeben.Embodiments of the invention provide a system, method, and computer program for detecting emotion using statistics. First, a database is made available. The database includes statistics including statistics of human associations of voice parameters with emotions. Next, a voice signal is received. At least one feature is extracted from the speech signal. Then the extracted speech feature is compared with the speech parameters in the database. An emotion is selected from the database based on the comparison of the extracted speech feature with the speech parameters and then spent.
In einer Ausführungsform der vorliegenden Erfindung enthält das Merkmal, welches extrahiert bzw. entnommen wird, einen maximalen Wert einer fundamentalen bzw. Grundfrequenz, eine Standardabweichung der fundamentalen Frequenz, einen Bereich der fundamentalen Frequenz, einen Mittelwert der fundamentalen Frequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung einer Energie, eine Sprechrate bzw. -geschwindigkeit, eine Neigung bzw. Steigung der fundamentalen Frequenz, einen maximalen Wert des ersten Formanten, einen maximalen Wert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten und/oder einen Bereich der ersten Formanten.In an embodiment of the present invention the feature that is extracted or extracted has a maximum Value of a fundamental frequency, a standard deviation of the fundamental frequency, a range of fundamental frequency, an average of the fundamental frequency, an average of a Bandwidth of a first formant, an average of a bandwidth a second formant, a standard deviation of an energy, a speech rate, a slope the fundamental frequency, a maximum value of the first formant, a maximum value of energy, a range of energy, a Area of the second formant and / or an area of the first Formants.
In einer anderen Ausführungsform der vorliegenden Erfindung enthält die Datenbank Wahrscheinlichkeiten eines speziellen bzw. bestimmten Sprachmerkmals, welches mit einer Emotion assoziiert bzw. verknüpft ist. Vorzugsweise enthält die Auswahl der Emotion aus der Datenbank ein Analysieren der Wahrscheinlichkeiten und ein Auswählen der am meisten wahrscheinlichen Emotion basierend auf den Wahrscheinlichkeiten. Fakultativ können die Wahrscheinlichkeiten der Datenbank Leistungskonfusionsstatistiken enthalten. Ebenfalls fakultativ können die Statistiken in der Datenbank Selbsterkennungsstatistiken enthalten.In another embodiment of the present invention the database probabilities of a particular or specific Speech feature associated with an emotion. Preferably contains selecting the emotion from the database analyzing the probabilities and a selection the most probable emotion based on the probabilities. Optional can the probabilities of database performance confusion statistics contain. Also optional, the statistics in the Database self-detection statistics included.
Kurze Beschreibung der ZeichnungenShort description the drawings
Die Erfindung wird besser verstanden werden, wenn die folgende detaillierte Beschreibung davon berücksichtigt wird. Eine solche Beschreibung nimmt bezug auf die beigefügten Zeichnungen, worin:The The invention will be better understood when the following detailed Description taken into account becomes. Such a description makes reference to the attached drawings, wherein:
Detaillierte Beschreibungdetailed description
In Übereinstimmung
mit wenigstens einer Ausführungsform
der vorliegenden Erfindung ist bzw. wird ein System zum Durchführen verschiedener
Funktionen und Aktivitäten
durch Stimmanalyse und Stimmerkennung zur Verfügung gestellt. Das System kann
eingerichtet sein, indem eine Hardware-Implementierung, wie beispielsweise
jene verwendet wird, die in
HardwareüberblickHardware Overview
Eine
repräsentative
Hardwareumgebung einer bevorzugten Ausführungsform der vorliegenden
Erfindung ist in
Emotionserkennungemotion recognition
Die vorliegende Erfindung ist auf ein Verwenden einer Erkennung von Emotionen in der Sprache für Geschäftszwecke gerichtet. Einige Ausführungsformen der vorliegenden Erfin dung können verwendet werden, um die Emotion einer Person basierend auf einer Stimmanalyse zu detektieren und die detektierte Emotion der Person auszugeben. Andere Ausführungsformen der vorliegenden Erfindung können für die Detektion des emotionalen Zustands in Telefon-Call-Center-Unterhaltungen und ein Bereitstellen einer Rückkopplung bzw. eines Feedbacks für einen Betreiber oder Überwacher für Überwachungszwecke verwendet werden.The The present invention is directed to using recognition of Emotions in the language for business purposes directed. Some embodiments of the present inven tion can used to reflect the emotion of a person based on a person To detect voice analysis and the detected emotion of the person issue. Other embodiments of the present invention for the Detecting the emotional state in telephone call center conversations and providing a feedback or a feedback for an operator or supervisor for surveillance purposes be used.
Wenn die Zielsubjekte bekannt sind, wird vorgeschlagen, daß eine Studie an einigen der Zielsubjekte ausgeführt wird, um zu bestimmen, welche Abschnitte einer Stimme am verläßlichsten als Indikatoren bzw. Anzeiger einer Emotion sind. Wenn Zielsubjekte nicht verfügbar sind, können andere Subjekte bzw. Personen verwendet werden. Unter Berücksichtigung dieser Orientierung gilt für die folgende Diskussion:
- • Daten sollten von Leuten gefordert bzw. gesammelt werden, welche nicht professionelle Schauspieler oder Schauspielerinnen sind, um die Genauigkeit zu verbessern, da Schauspieler und Schauspielerinnen eine bestimmte Sprachkomponente überbetonen könnten, was einen Fehler erzeugt.
- • Daten könnten von Testsubjekten gefordert werden, welche aus einer Gruppe ausgewählt sind, von welcher erwartet wird, daß sie analysiert wird. Dies würde die Genauigkeit verbessern.
- • Auf Sprache in Telefonqualität (< 3,4 kHz) kann abgezielt werden, um eine Genauigkeit zur Verwendung mit einem Telefonsystem zu verbessern.
- • Die Erprobung kann auf nur einem Stimmsignal beruhen. Dies bedeutet, daß die modernen Spracherkennungstechniken ausgeschlossen würden, da diese eine viel bessere Qualität des Signals und Rechenleistung erfordern.
- • Data should be requested / collected by people who are not professional actors or actresses to improve accuracy, as actors and actresses could overemphasize a particular language component, creating an error.
- Data may be required from test subjects selected from a group expected to be analyzed. This would improve the accuracy.
- • Telephone grade (<3.4 kHz) voice can be targeted to improve accuracy for use with a telephone system.
- • The trial can be based on just one voice signal. This means that modern speech recognition techniques would be ruled out since they require much better signal quality and processing power.
Datensammlung & EvaluierungData Collection & Evaluation
In einem beispielhaften Test werden vier kurze Sätze von jedem von dreißig Leuten aufgezeichnet bzw. aufgenommen:
- • "Dies ist nicht, was ich erwartete."
- • "Ich werde da sein."
- • "Morgen ist mein Geburtstag."
- • "Ich werde nächste Woche heiraten."
- • "This is not what I expected."
- • "I'll be there."
- • "Tomorrow is my birthday."
- • "I will marry next week."
Jeder Satz sollte fünf mal aufgezeichnet werden; jedesmal porträtiert das Subjekt einen der folgenden emotionalen Zustände: Fröhlichkeit, Ärger, Traurigkeit, Angst/Nervosität und normal (unemotionell). Fünf Subjekte können auch die Sätze zweimal mit unterschiedlichen Aufzeichnungsparametern aufzeichnen. Somit hat jedes Subjekt 20 oder 40 Aussagen aufgezeichnet, welche einen Bestand ergeben, der 700 Aussagen mit 140 Aussagen pro emotionalen Zustand enthält. Jede Aussage kann unter Verwendung eines Nahebesprechungsmikrofons aufgezeichnet werden; die ersten 100 Aussagen bei 22-kHz/8 Bit und die verbleibenden 600 Aussagen bei 22-kHz/16 Bit.Everyone Sentence should be five times to be recorded; each time the subject portrays one of the following emotional states: Happiness, anger, sadness, Anxiety / nervousness and normal (unemotional). five Subjects can also the sentences Record twice with different recording parameters. Thus, each subject has recorded 20 or 40 statements which a stock yielding 700 statements with 140 statements per emotional State contains. Each statement can be made using a near-by microphone to be recorded; the first 100 statements at 22-kHz / 8-bit and the remaining 600 statements at 22-kHz / 16-bit.
Nach Erstellen des Bestands kann ein Experiment ausgeführt werden, um die Antworten auf die folgenden Fragen zu finden:
- • Wie gut können Leute ohne spezielles Training Emotionen in der Sprache porträtieren bzw. darstellen und erkennen?
- • Wie gut können Leute ihre eigene Emotionen erkennen, welche sie 6-8 Wochen früher aufzeichneten?
- • Welche Arten von Emotionen sind leichter/schwerer zu erkennen?
- • How well can people without special training portray or portray emotions in language?
- • How well can people recognize their own emotions that they recorded 6-8 weeks earlier?
- • Which types of emotions are easier / harder to recognize?
Ein wichtiges Ergebnis des Experiments ist eine Auswahl eines Satzes der zuverlässigsten Aussagen, d.h. Aussagen bzw. Äußerungen, die durch die meisten Leute erkannt werden. Dieser Satz kann als Trainings- und Testdaten für Musterbekennungsalgorithmen verwendet werden, die auf einem Computer laufen.One important result of the experiment is a selection of a sentence the most reliable Statements, i. Statements or statements, which are recognized by most people. This sentence can as Training and test data for Pattern recognition algorithms are used on a computer to run.
Ein interaktives Programm eines Typs, welches in der Technik bekannt ist, kann verwendet werden, um die Aussagen in zufälliger Reihenfolge auszuwählen und wiederzugeben und es einem Anwender zu gestatten, jede Aussage entsprechend ihrem emotionalen Inhalt zu klassifizieren. Beispielsweise können dreiundzwanzig Subjekte bzw. Personen an der Evaluierungsstufe und zusätzliche 20 von jenen teilnehmen, welche früher im Aufnahmezustand teilgenommen haben.One interactive program of a type known in the art is, can be used to put the statements in random order select and reproduce and allow a user to make any statement according to their emotional content. For example can twenty-three subjects or persons at the evaluation level and additional 20 of those who participated earlier in the admission state to have.
Tabelle 1 zeigt eine Leistungs-Verwirrungsmatrix, welche aus Daten resultiert, die aus der Darbietung der zuvor besprochenen Studie gesammelt hat. Die Reihen und Spalten repräsentieren jeweils wahre & bewertete Kategorien. Beispielsweise sagt die zweite Reihe aus, daß 11,9% von Aussagen, welche als glücklich porträtiert wurden, als normal (unemotional) bewertet wurden, 61,4% als wirklich glücklich, 10,1% als ärgerlich, 4,1% als traurig, und 12,5 als ängstlich. Es wird auch ersehen, daß die am leichtesten erkennbare Kategorie Ärger ist (72,2%) und die am wenig sten erkennbare Kategorie Angst ist (49,5%). Eine Menge an Verwirrung wird zwischen Traurigkeit und Angst, Traurigkeit und unemotionalem Zustand und Fröhlichkeit und Angst gefunden. Die mittlere Genauigkeit ist 63,5%, welche mit den Resultaten der anderen experimentellen Studien übereinstimmt. Tabelle 1 Leistungs-Konfusions- bzw. -Verwirrungsmatrix Table 1 shows a performance confusion matrix resulting from data gathered from the performance of the previously discussed study. The rows and columns each represent true & evaluated categories. For example, the second series states that 11.9% of statements portrayed as happy were rated normal (unemotional), 61.4% as really happy, 10.1% as annoying, 4.1% as sad , and 12.5 as anxious. It is also seen that the most obvious category is anger (72.2%) and the least recognizable category is anxiety (49.5%). A lot of confusion is found between sadness and anxiety, sadness and unemotional state, and happiness and anxiety. The mean accuracy is 63.5%, which agrees with the results of the other experimental studies. Table 1 Power Confusion Matrix
Tabelle 2 zeigt Statistiken für Bewerter für jede emotionelle Kategorie und für eine zusammengefaßte Leistung bzw. Darbietung, welche als die Summe von Darbietungen für jede Kategorie berechnet wurde. Es kann ersehen werden, daß die Varianz bzw. Abweichung für Ärger und Traurigkeit viel weniger als für die anderen emotionellen bzw. emotionalen Kategorien ist. Tabelle 2 Statistik der Bewerter Table 2 shows statistics for evaluators for each emotional category and for a combined performance, which was calculated as the sum of performances for each category. It can be seen that the variance for anger and sadness is much less than for the other emotional or emotional categories. Table 2 Statistics of the evaluators
Tabelle drei unten zeigt Statistiken für "Schauspieler", d.h., wie gut Subjekte Emotionen porträtieren. Genauer gesagt, zeigen die Zahlen in der Tabelle, welcher Abschnitt von porträtierten Emotionen einer bestimmten Kategorie als diese Kategorie durch andere Subjekte erkannt wurde. Es ist interessant zu sehen, daß bei einem Vergleich von Tabelle 2 und 3 die Fähigkeit, Emotionen zu porträtieren (Gesamtmittelwert ist 62,9%) ungefähr auf demselben Pegel bleibt wie die Fähigkeit, Emotionen zu erkennen (Gesamtmittelwert ist 63,2%), jedoch die Abweichung bzw. Varianz für ein Porträtieren viel größer ist. Tabelle 3 Statistik der Schauspieler Table three below shows statistics for "actors," ie, how well subjects portray emotions. More specifically, the numbers in the table show which portion of portrayed emotions of a particular category was recognized as this category by other subjects. It is interesting to see that in a comparison of Tables 2 and 3, the ability to portray emotions (overall mean is 62.9%) remains at approximately the same level as the ability to detect emotions (overall mean is 63.2%), however, the variance is much larger for portraying. Table 3 Statistics of the actors
Tabelle 4 zeigt Selbstbezugsstatistiken, d.h. wie gut Subjekte fähig waren, ihre eigenen Portraits bzw. Darstellungen zu erkennen. Wir können sehen, daß Leute viel besser ihre eigene Emotionen erkennen (das Mittel ist 80,0%), besonders für Ärger (98,1%), Traurigkeit (80,0%) und Angst (78,8%). Interessanterweise wurde Angst besser erkannt als Glücklichkeit bzw. Fröhlichkeit. Einige Subjekte versagten beim Erkennen ihrer eigenen Darstellungen für Fröhlichkeit und den Normalzustand. Tabelle 4 Selbstbezugsstatistik Table 4 shows self-referential statistics, ie how well subjects were able to recognize their own portraits. We can see that people are much better at recognizing their own emotions (the mean is 80.0%), especially for anger (98.1%), sadness (80.0%) and anxiety (78.8%). Interestingly, anxiety was better recognized than happiness or happiness. Some subjects failed to recognize their own portrayals of happiness and normality. Table 4 Self-referral statistics
Aus dem Bestand von 700 Aussagen bzw. Äußerungen können fünf ineinander geschachtelte Datensätze, welche Äußerungen beinhalten, die als die gegebene Emotion porträtierend durch wenigstens p Prozent der Subjekte (p = 70, 80, 90, 95 und 100%) erkannt wurden, ausgewählt werden. Für die gegenwärtige Besprechung bzw. Diskussion sollen diese Datensätze als s70, s80, s90, s95 und s100 bezeichnet werden. Tabelle 5 unten zeigt die Anzahl von Elementen in jedem Datensatz. Wir können sehen, daß nur 7,9% der Äußerungen des Bestands durch alle Subjekte erkannt wurden. Und diese Zahl nimmt geradlinig bis zu 52, 7% für den Datensatz s70 zu, welcher mit dem 70 %-Pegel einer Konkordanz bzw. Übereinstimmung bei einem Dekodieren von Emotionen in Sprache übereinstimmt. Tabelle 5 p-Pegel Übereinstimmungs-Datensätze From the inventory of 700 statements, five nested records containing utterances recognized as representing the given emotion by at least p percent of the subjects (p = 70, 80, 90, 95, and 100%) can be selected , For the current discussion, these records should be referred to as s70, s80, s90, s95 and s100. Table 5 below shows the number of elements in each record. We can see that only 7.9% of the utterances of the stock were recognized by all subjects. And this number increases in a straight line up to 52, 7% for the record s70, which agrees with the 70% level of concordance in decoding emotions in speech. Table 5 p-level match records
Die Ergebnisse bieten eine nützliche Einsicht über menschliche Darbietung bzw. Leistung und können als eine Grundlinie für einen Vergleich mit einer Computerdarbietung bzw. -leistung dienen.The Results provide a useful Insight about human performance and can be used as a baseline for one Serve comparison with a computer presentation or performance.
Merkmalsextraktionfeature extraction
Es wurde gefunden, daß die Tonhöhe der Hauptstimmhinweise zur Emotionserkennung ist. Streng gesprochen, wird die Tonhöhe durch die fundamentale bzw. Grundfrequenz (F0) repräsentiert, d.h. die Haupt- (niedrigste) Frequenz der Vibration bzw. Schwingung der Stimmlippen bzw. Stimmbänder. Die anderen akustischen Variablen, welche zur stimmlichen Emotionssignalisierung beitragen, sind:
- • Stimmenergie bzw. Vokalenergie
- • spektrale Frequenz-Merkmale
- • Formanten (üblicherweise werden nur ein oder zwei erste Formanten (F1, F2) betrachtet).
- • zeitliche Merkmale (Sprachtempo und Unterbrechung).
- • Voice energy or vocal energy
- • Spectral frequency characteristics
- • Formants (usually only one or two first formants (F1, F2) are considered).
- • temporal characteristics (speed and interruption).
Eine andere Annäherung an eine Merkmalsextraktion ist, den Satz von Merkmalen durch Betrachten einiger derivativer Merkmale, wie beispielsweise LPC (lineare, voraussagende, codierende) Parameter eines Signals oder Merkmale der geglätteten Tonhöhenkontur und ihrer Ableitungen zu betrachten.A other approach to a feature extraction is the set of features by considering some derivative features, such as LPC (linear, predictive, coding parameters) of a signal or features of the smoothed pitch contour and their derivatives.
Für diese Erfindung kann die folgende Strategie angewendet werden. Erstens, berücksichtige die Grundfrequenz F0 (d.h. die Haupt- (niedrigste) Frequenz der Vibration der Stimmbänder), Energie, Sprachgeschwindigkeit, die ersten drei Formanten (F1, F2 und F3) und ihre Bandbreiten (BW1, BW2 und BW3) und berechne für diese so viele Statistiken bzw. statistische Daten wie möglich. Dann reihe die Statistiken unter Verwendung von Merkmalsauswahltechniken, und wähle einen Satz von "wichtigsten" Merkmalen aus.For this Invention, the following strategy can be applied. First, consider the fundamental frequency F0 (i.e., the main (lowest) frequency of the Vibration of the vocal cords), Energy, speech speed, the first three formants (F1, F2 and F3) and their bandwidths (BW1, BW2 and BW3) and calculate for them as many statistics or statistical data as possible. Then rank the statistics using feature selection techniques, and choose a set of "most important" features.
Die Sprachgeschwindigkeit kann als das Umgekehrte der Durchschnittslänge des stimmhaften Teils einer Äußerung berechnet werden. Für alle anderen Parameter können die folgenden statistischen Daten berechnet werden: Mittelwert, Standardabweichung, Minimum, Maximum und Bereich. Zusätzlich kann für F0 die Steigung als eine lineare Regression für den stimmhaften Teil der Sprache berechnet werden, d.h. jene Linie, welche zu der Tonhöhenkontur paßt. Die relative stimmhafte bzw. durch Stimme geäußerte Energie kann auch als der Anteil der stimmhaften Energie zu der Gesamtenergie der Äußerung berechnet werden. Insgesamt gibt es etwa 40 Merkmale für jede Äußerung.The Speech speed can be considered the inverse of the average length of the voiced part of an utterance become. For all other parameters can the following statistical data are calculated: mean, Standard deviation, minimum, maximum and range. In addition, can for F0 the slope as a linear regression for the voiced part of the Language can be calculated, i. that line leading to the pitch contour fits. The relative voiced or voiced energy can also be called the proportion of the voiced energy to the total energy of the utterance is calculated become. In total, there are about 40 features for each utterance.
Der RELIEF-F- bzw. ENTLASTE-F-Algorithmus kann zur Merkmalsauswahl verwendet werden. Beispielsweise kann ENTLASTEF für den s70-Datensatz gelaufen werden, wobei die Anzahl der nächsten Nachbarn von 1 bis 12 variiert wird, und die Merkmale entsprechend ihrer Summe von Rängen bzw. Reihungen geordnet werden. Die obersten 14 Merkmale sind die folgenden: F0 Maximum, F0 Standardabweichung, F0 Bereich, F0 Mittelwert, BW1 Mittelwert, BW2 Mittelwert, Energie-Standardabweichung, Sprachgeschwindigkeit, F0 Steigung, F1 Maximum, Energiemaximum, Energiebereich, F2 Bereich und F1 Bereich.Of the RELIEF-F or FULL-F algorithm can be used for feature selection become. For example, ENTLASTEF can run on the s70 record be the number of the next Neighbor varies from 1 to 12, and the characteristics accordingly their sum of ranks or rows are ordered. The top 14 features are the following: F0 maximum, F0 standard deviation, F0 range, F0 average, BW1 mean, BW2 mean, energy standard deviation, speech speed, F0 Slope, F1 maximum, energy maximum, energy range, F2 range and F1 range.
Um zu untersuchen, wie Sätze von Merkmalen die Genauigkeit von Emotionserkennungs-Algorithmen beeinflussen, können drei ineinander verschachtelte Sätze von Merkmalen basierend auf ihrer Summe von Reihungen ausgebildet werden. Der erste Satz beinhaltet die oberen acht Merkmale (von F0 Maximum zur Sprechgeschwindigkeit), der zweite Satz erstreckt sich von dem ersten zu zwei weiteren Merkmalen (F0 Steigung und F1 Maximum), und der dritte Satz beinhaltet alle 14 Höchstmerkmale. Mehr Details über den RELIEF-F-Algorithmus werden in der Veröffentlichung Proc. European Conf. On Machine Learning (1994) in dem Artikel von I. Kononenko, mit dem Titel "Abschätzungsattribute: Analyse und Erweiterung von "RELIEF" bzw. "ENTLASTUNG" dargelegt und auf den Seiten 171-182 gefunden.Around to investigate how sentences of features affect the accuracy of emotion recognition algorithms, can three nested sentences formed of features based on their sum of rankings become. The first sentence contains the top eight features (from F0 maximum speech rate), the second sentence extends from the first to two more features (F0 slope and F1 maximum), and the third set contains all 14 maximum features. More details about the RELIEF-F algorithm is used in the publication Proc. European Conf. On Machine Learning (1994) in the article by I. Kononenko, entitled "Estimation Attributes: Analysis and extension of "RELIEF" or "RELIEF" set out and on found on pages 171-182.
Vorzugsweise wird das Merkmal des Stimmsignals aus der Gruppe von Merkmalen ausgewählt, welche aus dem Maximalwert der Grundfrequenz, der Standardabweichung der Grundfrequenz, dem Bereich der Grundfrequenz, dem Mittelwert der Grundfrequenz, dem Mittelwert der Bandbreite der ersten Formanten, dem Mittelwert der Bandbreite der zweiten Formanten, der Standardabweichung der Energie, und der Sprechgeschwindigkeit bestehen. Idealerweise beinhaltet das extrahierte Merkmal wenigstens eine der Steigung der Grundfrequenz und des Maximalwerts der ersten Formanten.Preferably For example, the feature of the voice signal is selected from the group of features which from the maximum value of the fundamental frequency, the standard deviation of Fundamental frequency, the range of the fundamental frequency, the mean of the Fundamental frequency, the mean of the bandwidth of the first formant, the mean of the second formant bandwidth, the standard deviation the energy, and the speech rate exist. Ideally the extracted feature includes at least one of the slopes the fundamental frequency and the maximum value of the first formants.
Optional ist bzw. wird eine Vielzahl von Merkmalen extrahiert, beinhaltend den Maximalwert der Grundfrequenz, die Standardabweichung der Grundfrequenz, den Bereich der Grundfrequenz, den Mittelwert der Grundfrequenz, den Mit telwert der Bandbreite der ersten Formanten, den Mittelwert der Bandbreite der zweiten Formanten, die Standardabweichung der Energie, und die Sprechgeschwindigkeit. Vorzugsweise beinhalten die extrahierten Merkmale die Steigung der Grundfrequenz und den Maximalwert der ersten Formanten.optional is a variety of features extracted, including the maximum value of the fundamental frequency, the standard deviation of the fundamental frequency, the range of the fundamental frequency, the mean of the fundamental frequency, the mean value of the bandwidth of the first formant, the mean the bandwidth of the second formant, the standard deviation of the Energy, and the speech rate. Preferably include the extracted features the slope of the fundamental frequency and the Maximum value of the first formants.
Als eine andere Option wird eine Vielzahl von Merkmalen extrahiert, beinhaltend den Maximalwert der Grundfrequenz, die Standardabweichung der Grundfrequenz, den Bereich der Grundfrequenz, den Mittelwert der Grundfrequenz, den Mittelwert der Bandbreite der ersten Formanten, den Mittelwert der Bandbreite der zweiten Formanten, die Standardabweichung der Energie, die Sprechgeschwindigkeit, die Steigung der Grundfrequenz, den Maximalwert der ersten Formanten, den Maximalwert der Energie, den Bereich der Energie, den Bereich der zweiten Formanten, und den Bereich der ersten Formanten.When another option will extract a variety of features including the maximum value of the fundamental frequency, the standard deviation the fundamental frequency, the range of the fundamental frequency, the mean of the Fundamental frequency, the mean of the bandwidth of the first formant, the mean of the bandwidth of the second formant, the standard deviation the energy, the speech rate, the slope of the fundamental frequency, the maximum value of the first formant, the maximum value of the energy, the area of energy, the area of the second formant, and the area of the first formant.
Computerleistungcomputer performance
Um Emotionen in einer Sprache zu erkennen, können zwei beispielhafte Annäherungen vorgenommen werden: neurale Netzwerke und Ensembles von Sortierern bzw. Klassifiziermaschinen. In der ersten Annäherung kann eine zweilagige rückwärts ausbreitende neurale Netzwerkarchitektur mit einem 8-, 10- oder 14-Element-Eingabevektor, 10 oder 20 Knoten in der versteckten sigmoidalen Schicht und fünf Knoten in der ausgegebenen linearen Schicht verwendet werden. Die Anzahl von Ausgaben stimmt mit der Anzahl von emotionalen Kategorien überein. Um die Algorithmen zu trainieren und zu testen, können Datensätze s70, s80 und s90 verwendet werden. Diese Sätze können zufällig in Training (67% an Äußerungen) und Test (33%) Untersätze aufgespalten bzw. aufgeteilt werden. Verschiedene neurale Netzwerkklassifizierer, welche mit unterschiedlichen Ausgangsgewichts-Matrizen trainiert sind, können erstellt bzw. erzeugt werden. Diese Annäherung, wenn an den s70-Datensatz und den 8-Merkmalsatz oben angewendet, ergaben die Durchschnittsgenauigkeit von etwa 55% mit der folgenden Verteilung für emotionale Kategorien. Normalzustand ist 40-50%, Fröhlichkeit ist 55-65%, Ärger ist 60-80%, Traurigkeit ist 60-70%, und Angst ist 20-40%.Around Recognizing emotions in one language can be two exemplary approaches neural networks and ensembles of sorters or classifying machines. In the first approximation can be a two-ply spreading backwards neural network architecture with an 8, 10 or 14 element input vector, 10 or 20 knots in the hidden sigmoid layer and five knots be used in the output linear layer. The number Spending matches the number of emotional categories. To train and test the algorithms, records s70, s80 and s90 are used. These sentences can happen in training (67% of utterances) and test (33%) subsets split or split. Various neural network classifiers, which trains with different starting weight matrices are, can be created or generated. This approach when connected to the s70 record and the 8-feature set applied above, gave the average accuracy of about 55% with the following distribution for emotional categories. normal state is 40-50%, cheerfulness is 55-65%, trouble is 60-80%, sadness is 60-70%, and anxiety is 20-40%.
Für die zweite Annäherung bzw. den zweiten Zugang werden Ensembles von Klassifizierern verwendet. Ein Ensemble besteht an einer ungeraden Anzahl von neuralen Netzwerkklassifizierern, welche auf unterschiedlichen Subsätzen bzw. Untersätzen des Trainingssatzes unter Verwendung der Bootstrapaggregation und kreuz- bzw. querbestätigten Ausschußtechniken trainiert wurden. Das Ensemble fällt Entscheidungen basierend auf dem Mehrheitsabstimmungsprinzip vorgeschlagene bzw. empfohlene Ensemblegrößen reichen von 7 bis 15.For the second approach or second access ensembles of classifiers are used. An ensemble consists of an odd number of neural network classifiers, which on different subsets or subsets of Training set using bootstrap aggregation and crossover or cross-confirmed Committee techniques were trained. The ensemble falls Decisions based on the majority voting principle proposed or recommended ensemble sizes range from 7 to 15.
In einem Aspekt der vorliegenden Erfindung beinhaltet die Datenbank Wahrscheinlichkeiten von besonderen Merkmalen, welche mit einer Emotion assoziiert werden. Vorzugsweise beinhaltet die Auswahl der Emotion aus der Datenbank ein Analysieren der Wahrscheinlichkeiten und ein Auswählen der wahrscheinlichsten Emotion basierend auf den Wahrschein lichkeiten. Optional können die Wahrscheinlichkeiten der Datenbank Darbietungsverwirrungs-Statistiken beinhalten, wie sie beispielsweise in der Bearbeitungs-Verwirrungs-Matrix oben gezeigt sind. Ebenfalls optional können die Statistiken in der Datenbank Selbsterkennungsstatistiken beinhalten, wie sie beispielsweise in den Tabellen oben gezeigt werden.In One aspect of the present invention includes the database Probabilities of special characteristics, which with a Emotion are associated. Preferably, the selection involves the emotion from the database analyzing the probabilities and a Choose the most likely emotion based on the probabilities. Optionally the probabilities of database performance confusion statistics include, for example, in the editing confusion matrix shown above. Also optional, the statistics in the Database include self-detection statistics, such as those shown in the tables above.
In einem anderen Aspekt der vorliegenden Erfindung beinhaltet das Merkmal, welches extrahiert wird, einen Maximalwert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Bereich der Grundfrequenz, einen Mittelwert der Grundfrequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung der Energie, eine Sprechgeschwindigkeit bzw. -rate, eine Steigung der Grundfrequenz, einen Maximalwert der ersten Formanten, einen Maximalwert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten und/oder einen Bereich der ersten Formanten.In In another aspect of the present invention, the feature includes which is extracted, a maximum value of a fundamental frequency, a standard deviation of the fundamental frequency, a range of the fundamental frequency, an average of the fundamental frequency, an average of a bandwidth a first formant, an average of a bandwidth of a second formant, a standard deviation of energy, a speech rate rate, a slope of the fundamental frequency, a maximum value of first formant, a maximum value of energy, an area of Energy, an area of the second formant, and / or an area the first formant.
Diese Ausführungsform der vorliegenden Erfindung hat eine besondere Anwendung in Geschäftsbereichen, wie beispielsweise Vertragsverhandlung, Versicherungsabwicklungen, Kundenservice, usw. Betrug in diesen Bereichen kostet Gesellschaften jedes Jahr Millionen. Glücklicherweise stellt die vorliegende Erfindung ein Werkzeug zur Verfügung, um bei der Bekämpfung eines derartigen Betrugs zu helfen. Es sollte auch beachtet werden, daß die vorliegende Erfindung Anwendungen im Strafverfolgungsbereich, wie auch in einer Gerichtssaalumgebung usw. hat.These embodiment of the present invention has a particular application in business areas, such as contract negotiations, insurance settlements, Customer service, etc. Fraud in these areas costs companies millions every year. Fortunately the present invention provides a tool to in the fight to help such fraud. It should also be noted that the present invention Law enforcement applications, such as also in a courtroom environment etc.
Vorzugsweise
wird ein Grad an Gewißheit
betreffend den Nervositätspegel
der Person ausgegeben, um jemanden bei einer Suche nach Betrug dabei
zu helfen, eine Bestimmung darüber
vorzunehmen, ob die Person in betrügerischer Absicht gesprochen
hat. Dies kann auf Statistiken basieren, wie dies oben in der Ausführungsform
der vorliegenden Erfindung unter Bezugnahme auf
Als eine andere Option kann die Anzeige des Nervositätspegels einen Alarm beinhalten, welcher ausgelöst wird, wenn der Nervositätspegel einen vorbestimmten Pegel überschreitet. Der Alarm kann eine sichtbare Benachrichtigung auf einer Computeranzeige beinhalten, einen hörbaren Klang bzw. Ton, usw., um einen Aufseher, den Zuhörer und/oder jemanden zu alarmieren, der nach Betrug sucht. Der Alarm könnte auch mit einer Aufzeichnungsvorrichtung verbunden sein, welche beginnen würde, die Konversation aufzuzeichnen, wenn der Alarm ausgelöst wurde, wenn die Konversation nicht bereits aufgezeichnet wird.When another option, the level of nervousness display may include an alarm, which triggered will if the level of nervousness exceeds a predetermined level. The alarm can be a visual notification on a computer display include, an audible Sound, etc., to alert a supervisor, the listener, and / or someone looking for fraud. The alarm could also be with a recording device which would begin to record the conversation when the alarm is triggered if the conversation is not already recorded.
Die Alarmoptionen wären besonders in einer Situation nützlich sein, wo sich viele Personen beim Sprechen abwechseln. Ein Beispiel wäre in einer Kundenserviceabteilung oder am Telefon eines Kundenservicebeauftragten. Da jeder Kunde an die Reihe kommt, um mit einem Kundenservice-Beauftragten zu sprechen, würde die vorliegende Erfindung den Nervositätspegel in der Sprache des Kunden detektieren. Wenn der Alarm ausgelöst wurde, da der Nervositätspegel eines Kunden den vorgeschriebenen Pegel überquerte, könnte der Kundenservicebeauftragte bzw. -verantwortliche durch eine visuelle bzw. sichtbare Anzeige auf seinem oder ihrem Computerbildschirm, ein blinkendes Licht, usw. benachrichtigt werden. Der Kundenservicebeauftragte, nun von dem möglichen Betrug wissend, könnte dann versuchen, den Betrug freizulegen bzw. aufzudecken, wenn er existiert. Der Alarm könnte auch verwendet werden, um genausogut einen Manager zu benachrichti gen. Darüber hinaus könnte eine Aufzeichnung der Konversation bzw. Unterhaltung beginnen, nachdem der Alarm aktiviert wurde.The Alarm options would be especially useful in a situation be where many people take turns talking. An example would be in a customer service department or on the phone of a customer service representative. As every customer's turn comes to deal with a customer service representative to speak the present invention the level of nervousness in the language of Detect customers. If the alarm was triggered because of the level of nervousness a customer crossed the prescribed level, the Customer service representative or manager through a visual or visible display on his or her computer screen, a flashing light, etc. are notified. The customer service representative, now of the possible Knowing cheating could then try to expose the fraud if he exist. The alarm could also be used to notify a manager as well. About that out could start a recording of conversation or conversation after the alarm has been activated.
In einer Ausführungsform der vorliegenden Erfindung wird wenigstens ein Merkmal der Stimmsignale extrahiert und verwendet, um den Nervositätspegel der Person zu bestimmen. Merkmale, welche extrahiert werden, können beinhalten einen Maximalwert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Bereich der Grundfrequenz, einen Mittelwert der Grundfrequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung der Energie, eine Sprechgeschwindigkeit, eine Neigung bzw. Steigung der Grundfrequenz, einen Maximalwert der ersten Formanten, einen Maximalwert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten, und einen Bereich der ersten Formanten. Somit kann beispielsweise ein Grad eines Schwankens im Ton der Stimme, wie er aus Messungen bzw. Auslesungen der Grundfrequenz bestimmt wurde, verwendet werden, um beim Bestimmen eines Nervositätspegels bzw. -niveaus zu helfen. Je größer der Grad eines Schwankens, umso höher ist der Nervositätspegel. Pausen in der Sprache der Person können ebenfalls berücksichtigt werden.In an embodiment In the present invention, at least one feature of the voice signals is extracted and used to the nervous level to determine the person. Features that are extracted may include a maximum value of a fundamental frequency, a standard deviation of Fundamental frequency, a range of the fundamental frequency, an average value the fundamental frequency, an average of a bandwidth of a first Formants, an average of a bandwidth of a second formant, a standard deviation of energy, a speech rate, a slope or slope of the fundamental frequency, a maximum value the first formant, a maximum value of energy, an area energy, an area of the second formant, and an area the first formant. Thus, for example, a degree of fluctuation in the tone of the voice, as he from measurements or readings of the fundamental frequency was determined to be used in determining a level of nervousness or levels to help. The greater the degree a waver, the higher is the level of nervousness. Breaks in the language of the person can also be considered become.
Der folgende Abschnitt beschreibt Vorrichtungen, welche verwendet werden können, um Emotion beinhaltend Nervosität, in Stimmsignalen zu bestimmen.Of the The following section describes devices that are used can, to include emotion, nervousness, in voice signals.
Beispielhafte Vorrichtungen zum Detektieren von Emotion in Sprach- bzw. StimmsignalenExemplary devices for detecting emotion in voice or voice signals
Dieser Abschnitt beschreibt verschiedene Vorrichtungen zum Analysieren von Sprache in Übereinstimmung mit der vorliegenden Erfindung.This Section describes various devices for analyzing of language in accordance with the present invention.
Eine Ausführungsform der vorliegenden Erfindung beinhaltet eine Vorrichtung zum Analysieren der Sprache einer Person, um ihren emotionalen Zustand zu bestimmen. Der Analysator arbeitet auf der Echtzeitfrequenz oder Tonhöhenkomponenten innerhalb des ersten Formantenbands von menschlicher Sprache. Beim Analysieren der Sprache analysiert die Vorrichtung Erscheinungsmuster bestimmter Werte im Hinblick auf Muster einer differentiellen ersten Formantentonlage, Rate einer Tonlagenänderung, Dauer und Zeitverteilung. Diese Faktoren beziehen sich auf eine komplexe, jedoch sehr fundamentale Weise sowohl auf vorübergehende wie auch emotionellen Langzeit-Zuständen.An embodiment of the present invention includes a device for analyzing a person's speech to determine their emotional state. The analyzer operates on the real-time frequency or pitch components within the first formant band of human speech. In analyzing the speech, the device analyzes appearance patterns of particular values with respect to patterns of differential first formant pitch, rate of pitch change, duration and time interval development. These factors relate in a complex but very fundamental way to both transient and emotional long-term states.
Die menschliche Sprache wird durch zwei grundlegende Tonerzeugungsmechanismen angeregt. Die Stimmbänder; dünne gestreckte bzw. gedehnte Membranen unter Muskelregelung bzw. -steuerung oszillieren bzw. schwingen, wenn ausgestoßene Luft von den Lungen durch sie durchtritt. Sie erzeugen einen charakteristischen "Brumm"-Klang bei einer fundamentalen bzw. Grundfrequenz zwischen 80 Hz und 240 Hz. Diese Frequenz wird über einen moderaten Bereich sowohl durch bewußte als auch unbewußte Muskelkontraktion und -entspannung variiert. Die Wellenform des grundlegenden "Brummens" beinhaltet viele Harmonische, von welchen einige eine Erregungsresonanz verschieden festgelegt ist und veränderliche Hohlräume mit dem stimmlichen Gebiet assoziiert sind. Der zweite Grundton, welcher während einer Sprache erzeugt wird, ist ein pseudozufälliges Rauschen, welches eine ziemlich breite und einheitliche bzw. gleichförmige Frequenzverteilung aufweist. Er wird durch Turbulenz verursacht, sobald ausgeatmete bzw. ausgestoßene Luft sich durch den Vokaltrakt bewegt und wird ein "Zisch"-Klang bzw. Zischlaut genannt. Er wird hauptsächlich durch Zungenbewegungen moduliert und erregt auch die festgelegten und veränderlichen Hohlräume. Es ist diese komplexe Mischung von "Brumm"- und "Zisch"-Lauten, welche durch die Resonanzhohlräume geformt und artikuliert werden, welche Sprache erzeugen.The Human speech is through two basic sound generation mechanisms stimulated. The vocal cords; thin stretched or stretched membranes under muscle control or oscillate or swing when ejected Air from the lungs passes through them. They produce a characteristic "hum" sound at one fundamental frequency between 80 Hz and 240 Hz. This frequency will over a moderate range by both conscious and unconscious muscle contraction and relaxation varies. The waveform of the basic "humming" includes many Harmonics, some of which differ in excitation resonance is fixed and changeable cavities associated with the vocal area. The second keynote, which during a language is a pseudorandom noise, which is a has fairly broad and uniform frequency distribution. It is caused by turbulence as soon as exhaled or expelled air moves through the vocal tract and is called a "hissing" sound or sibilant. He will mainly modulated by tongue movements and also excites the specified and changeable Cavities. It is this complex mix of "humming" and "hissing" sounds that are shaped by the resonant cavities and articulate which language to produce.
In einer Energieverteilungsanalyse von Sprachklängen bzw. Sprachtönen wird gefunden werden, daß die Energie in getrennte bzw. ausgeprägte Frequenzbänder, Formanten genannt, fällt. Es gibt drei signifikante Formanten. Das hier beschriebene System verwendet das erste Formantenband, welches sich von der grundlegenden "Brumm"-Frequenz bis ungefähr 1000 Hz erstreckt. Dieses Band weist nicht nur den höchsten Energiegehalt auf, sondern reflektiert einen hohen Grad an Frequenzmodulation als eine Funktion von verschiedenen Vokaltrakt- und Gesichtsmuskelspannungs-Variationen.In an energy distribution analysis of speech sounds be found that the Energy in separate or distinct frequency bands, formants called, falls. There are three significant formants. The system described here uses the first formant band, which ranges from the basic "buzz" frequency to about 1000 Hz stretches. This band not only has the highest energy content, but reflects a high degree of frequency modulation as a function of various vocal tract and facial muscle tension variations.
In Wirklichkeit wird durch ein Analysieren bestimmter Verteilungsmuster der ersten Formantenfrequenz eine qualitative Messung von sprachbezogenen Muskelspannungsvariationen und Wechselwirkungen durchgeführt. Da diese Muskel überwiegend durch sekundäre unbewußte Vorgänge vorgespannt und artikuliert werden, welche wiederum durch einen emotionalen Zustand beeinflußt sind, kann eine relative Messung einer emotionalen Aktivität unabhängig von dem Bewußtsein einer Person oder einem Mangel an Bewußtsein von diesem Zustand bestimmt werden. Die Forschung bestätigt auch eine allge meine Vermutung, daß, da die Mechanismen der Sprache äußerst komplex und weitestgehend autonom sind, sehr wenig Leute fähig sind, bewußt einen fiktiven emotionalen Zustand zu "projizieren". Tatsächlich erzeugt ein Versuch so vorzugehen, üblicherweise seinen eigenen einzigartigen psychologischen Streß-"Fingerabdruck" in dem Stimmuster.In Reality becomes by analyzing certain distribution patterns the first formant frequency is a qualitative measurement of speech-related Muscle tension variations and interactions performed. There this muscle is predominantly through secondary unconscious operations be biased and articulated, which in turn by a affects emotional state are, a relative measure of an emotional activity can be independent of the consciousness a person or a lack of consciousness determined by this condition become. The research confirms also a general conjecture that, since the mechanisms of language extremely complex and are largely autonomous, very few people are capable of consciously one to "project" fictional emotional state. Actually generated an attempt to do that, usually his own unique psychological stress "fingerprint" in the vocal pattern.
Wegen der Charakteristika bzw. Merkmale der ersten Formanten-Sprachklänge bzw. -Sprachtöne analysiert die vorliegende Erfindung ein FM-demoduliertes erstes Formanten-Sprachsignal und erzeugt eine Ausgabe, welche Nullen davon anzeigt.Because of the characteristics of the first formant speech sounds or -Signals analyzed the present invention is an FM demodulated first formant speech signal and generates an output indicating zeros thereof.
Die Frequenz oder Anzahl von Nullen oder "flachen" Punkten in dem FM-demodulierten Signal, die Länge der Nullen und das Verhältnis der Gesamtzeit, zu welcher Nullen während einer Wortperiode existieren, zur Gesamtzeit der Wortperiode sind alle für einen emotionalen Zustand des Einzelnen anzeigend bzw. indikativ. Durch ein Betrachten der Ausgabe der Vorrichtung kann der Ver- bzw. Anwender das Auftreten der Nullen sehen oder fühlen und somit durch ein Beobachten der Ausgabe der Anzahl oder Frequenz von Nullen bestimmen, der Länge der Nullen und des Verhältnisses der Gesamtzeit, während welcher Nullen während einer Wortperiode bis zur Länge der Wortperiode existieren, den emotionalen Zustand des Einzelnen bzw. Individuums.The Frequency or number of zeros or "flat" points in the FM demodulated signal, the length the zeros and the ratio the total time at which zeros exist during a word period, for Total time of the word period are all for an emotional state indicative of the individual or indicative. By looking at the Issue of the device, the user or the user's appearance to see or feel the zeros and thus by observing the output of the number or frequency of zeros determine the length zeros and ratio the total time while which zeros during a word period up to the length the word period exist, the emotional state of the individual or individual.
In der vorliegenden Erfindung ist das erste Formanten-Frequenzbad eines Sprachsignals FM-demoduliert und das FM-demodulierte Signal wird an einen Wortdetektorschaltkreis angewendet bzw. angelegt, welcher das Vorhandensein eines FM-demodulierten Signals detektiert. Das FM-demodulierte Signal wird auch an Null-Detektormittel angelegt, welche die Nullen in dem FM-demodulierten Signal detektieren, und eine Ausgabe erzeugen, welche dafür anzeigend bzw. hinweisend ist. Ein Ausgabeschaltkreis wird mit dem Wortdetektor und dem Nulldetektor gekoppelt. Der Ausgabeschaltkreis wird durch den Wortdetektor freigegeben, wenn der Wortdetektor das Vorhandensein eines FM-demodulierten Signals detektiert, und der Ausgabeschaltkreis erzeugt eine Ausgabe, welche für das Vorhandensein oder Nicht-Vorhandensein einer Null in dem FM-demodulierten Signal anzeigend ist. Die Ausgabe des Ausgabeschaltkreises wird auf eine Weise angezeigt, in welcher sie durch einen Anwender wahrgenommen wird, so daß der Ver- bzw. Anwender mit einer Anzeige des Bestehens von Nullen in dem FM-demodulierten Signal versorgt ist. Der Anwender der Vorrichtung überwacht somit die Nullen und kann dadurch den emotionalen Zustand des Individuums bestimmen, dessen Sprache analysiert wird.In the present invention, the first formant frequency bath of a speech signal is FM demodulated and the FM demodulated signal is applied to a word detector circuit which detects the presence of an FM demodulated signal. The FM demodulated signal is also applied to zero detector means which detect the zeros in the FM demodulated signal and produce an output indicative thereof. An output circuit is coupled to the word detector and the zero detector. The output circuit is enabled by the word detector when the word detector detects the presence of an FM demodulated signal, and the output circuit generates an output indicative of the presence or absence of a zero in the FM demodulated signal. The output of the output circuit is displayed in a manner in which it is perceived by a user, so that the user is provided with an indication of the existence of zeroes in the FM demodulated signal. The user of the device thus monitors the zeros and thereby can determine the emotional state of the individual, their language is analyzed.
In einer anderen Ausführungsform der vorliegenden Erfindung wird das Stimmvibrato analysiert. Das sogenannte Stimmvibrato wurde als eine halbfreiwillige Antwort erstellt, welche beim Studieren einer Irreführung zusammen mit bestimmten anderen Reaktionen von Wert sein könnte; wie beispielsweise Atmungsvolumen; Einatmungs-Ausatmungs-Verhältnisse; Stoffwechselrate; Regelmäßigkeit und Rate bzw. Geschwindigkeit einer Einatmung; Assoziation von Worten und Ideen; Gesichtsausdrücke; Bewegungsreaktionen; und Reaktionen auf bestimmte Narkotika; jedoch wurde keine verwendbare Technik zuvor entwickelt, welche eine gültige und zuverlässige Analyse von Stimmänderungen in der klinischen Bestimmung eines emotionalen Zustands, Meinungen oder Täuschungsversuche eines Subjekts bzw. einer Person gestattet.In another embodiment In the present invention, the vocal vibrato is analyzed. The so-called Voice vibrato was created as a semi-voluntary response, which while studying a misdirection could be of value along with certain other reactions; as for example, respiratory volume; Inspiratory expiratory ratios; Metabolic rate; regularity and rate of inhalation; Association of words and ideas; Facial expressions; Motor response; and reactions to certain narcotics; however No suitable technique has been previously developed which is a valid and reliable Analysis of voice changes in the clinical determination of an emotional state, opinions or deception attempts of a subject or a person.
Frühe Experimente, welche Versuche beinhalteten, Stimmqualitätsänderungen mit emotionalen Reizen zu korrelieren, haben festgestellt bzw. ergeben, daß die menschliche Sprache durch starke Emotion beeinflußt wird. Detektierbare Änderungen der Stimme treten viel rascher auf, nachfolgend auf eine Streßstimulierung, als es die klassischen Anzeigen von physiologischen Manifestationen tun, welche aus dem Funktionieren des autonomen Nervensystems resultieren.Early experiments, which included attempts to change voice quality with emotional stimuli to correlate, have established that the human Language is affected by strong emotion. Detectable changes the voice appears much more quickly, following a stress stimulation, as it is the classic indications of physiological manifestations do, which result from the functioning of the autonomic nervous system.
Zwei Typen einer Stimme ändern sich als ein Resultat von Streß. Die erste von diesen wird als die Grobänderung bezeichnet, welche üblicherweise nur als ein Ergebnis einer wesentlichen Streßsituation auftritt. Diese Änderung manifestiert sich selbst in hörbaren merklichen Änderungen der Sprechgeschwindigkeit, Lautstärke, Stimmzittern, Änderung im Abstand zwischen Silben, und einer Änderung in der Grundtonhöhe oder Frequenz der Stimme. Diese grobe Änderung ist Gegenstand der bewußten Steuerung, wenigstens bei einigen Subjekten bzw. Personen, wenn der Streßpegel unter jenem eines Totalverlusts einer Steuerung bzw. Regelung ist.Two Change types of a voice as a result of stress. The first of these is called the coarse change, which is usually only as a result of a significant stress situation. This change manifests itself in audible noticeable changes the speech rate, volume, voice shake, change in the space between syllables, and a change in pitch or frequency the voice. This rough change is the subject of the conscious Control, at least in some subjects or persons, if the stress level below that of a total loss of control.
Der zweite Typ an Stimmänderung ist jener von Stimmqualität. Dieser Typ der Änderung ist nicht für das menschliche Ohr unterscheidbar bzw. wahrnehmbar, sondern ist eine offenbar unbewußte Manifestation der leichten Spannung der Stimmbänder unter sogar geringem Streß, resultierend in einer Dämpfung ausgewählter Frequenzvariationen. Bei graphischer Darstellung wird der Unterschied leicht zwischen ungestreßter oder normaler Stimmgebung und Stimmgebung unter mildem bzw. geringem Streß, Täuschungsversuchen oder feindlichen bzw. gegnerischen Einstellungen wahrnehmbar. Diese Muster haben sich über einen weiten Bereich menschlicher Stimmen beider Geschlechter, unterschiedlicher Alter und unter verschiedenen situationalen Bedingungen als wahr bzw. zutreffend erwiesen. Dieser zweite Änderungstyp ist nicht Gegenstand einer bewußten Steuerung.Of the second type of voice change is that of voice quality. This type of change is not for that human ear distinguishable or perceptible, but is one apparently unconscious Manifestation of the slight tension of the vocal cords under even slight stress, resulting in a damping selected Frequency variations. When graphing the difference easy between unstressed or normal vocalization and vocalization under mild or low Stress, Deception attempts or hostile or opposing attitudes are perceptible. These patterns have over a wide range of human voices of both sexes, different Age and under different situational conditions as true or correctly proved. This second change type is not subject a conscious one Control.
Es gibt zwei Typen bzw. Arten von Klang bzw. Ton, welche durch die menschliche Stimmanatomie erzeugt werden. Der erste Typ an Ton ist ein Produkt aus der Vibration der Stimmbänder, welche wiederum ein Produkt eines teilweisen Schließens der Stimmritze ist und eines Zwingens von Luft durch die Stimmritze durch eine Kontraktion des Lungenhohlraums und der Lungen ist. Die Frequenzen dieser Vibrationen können im allgemeinen zwischen 100 und 300 Hertz, abhängig von Geschlecht und Alter des Sprechers und den Intonationen variieren, die der Sprecher anwendet. Dieser Ton hat eine rasche Abfall- bzw. Abklingzeit.It are two types or types of sound or sound, which by the human vocal anatomy are generated. The first type of sound is a product of the vibration of the vocal cords, which in turn is a product a partial closing of the glottis is and a forcing of air through the glottis by a contraction of the lung cavity and lungs. The Frequencies of these vibrations can generally between 100 and 300 hertz, depending on gender and age of the speaker and intonations the speaker uses. This tone has a rapid decay or cooldown.
Die zweite Art an Klang bzw. Ton beinhaltet die Formanten-Frequenzen. Diese bilden einen Klang, welcher aus der Resonanz der Hohlräume im Kopf, beinhaltend den Hals, den Mund, die Nase und die Stirnhöhlen resultiert. Dieser Klang wird durch ein Anregung der Resonanzhohlräume durch eine Tonquelle von niedrigeren Frequenzen, im Fall des durch die Stimmbänder erzeugten vokalisierten Klangs, oder durch eine teilweise Beschränkung des Durchtritts von Luft von den Lungen, wie im Fall von stimmlosen Reiblauten erzeugt. Was auch immer die Erregungsquelle ist, die Frequenz der Formanten wird durch die Resonanzfrequenzen des involvierten Hohlraums bestimmt. Die Formantenfrequenzen erscheinen im allgemeinen bei etwa 800 Hertz und erscheinen in bestimmten Frequenzbändern, welche mit der Resonanzfrequenz der individuellen Hohlräume übereinstimmen. Die erste, oder niedrigste, Formante, ist jene, die durch den Mund und Rachen- bzw. Halshohlräume gebildet wird und ist merkbar für ihre Frequenzverschiebung, sobald der Mund seine Abmessungen und Volumen bei der Bildung von verschiedenen Klängen, besonders von Vokalen ändert. Die höchsten Formanten-Frequenzen sind konstanter aufgrund des konstanteren Volumens der Hohlräume. Die Formanten-Wellenformen sind läutende Signale, im Gegensatz zu den rasch abklingenden Signalen der Stimmbänder. Wenn stimmhafte Töne bzw. Klänge geäußert werden, werden die Stimmwellenformen auf die Formanten-Wellenformen als Amplitudenmodulationen eingeprägt bzw. überlagert.The second type of sound includes the formant frequencies. These form a sound resulting from the resonance of the cavities in the head, involving the neck, mouth, nose and sinuses. This sound is through an excitation of the resonant cavities through a sound source of lower frequencies, in the case of by the vocal cords produced vocalized sound, or by a partial restriction of the Passage of air from the lungs, as in the case of unvoiced Generated friction sounds. Whatever the source of excitation, the Frequency of formants is affected by the resonance frequencies of the Cavity determined. The formant frequencies generally appear at about 800 hertz and appear in certain frequency bands, which coincide with the resonant frequency of the individual cavities. The first, or lowest, formant, is those formed by the mouth and throat or throat cavities is and is noticeable for their frequency shift once the mouth is its dimensions and Volume at the formation of different sounds, especially of vowels changes. The highest Formant frequencies are more constant due to the more constant volume the cavities. The formant waveforms are ringing signals, in contrast to the rapidly decaying vocal cord signals. If voiced sounds or sounds be voiced the voice waveforms are referred to the formant waveforms as Impressed amplitude modulations or superimposed.
Es wurde entdeckt, daß eine dritte Signalkategorie in der menschlichen Stimme existiert und daß diese dritte Signalkategorie mit der zweiten Art einer Stimmänderung verwandt ist, wie dies oben besprochen wurde. Dies ist eine Infraschall- oder Unterschall-Frequenzmodulation, welche in einem gewissen Grad sowohl in den Stimmbandklängen als auch in den Formantenklängen vorhanden ist. Dieses Signal liegt typischerweise zwischen 8 und 12 Hertz. Dementsprechend ist es nicht für das menschliche Ohr hörbar. Wegen der Tatsache, daß diese Charakteristik eine Frequenzmodulation bildet, wie sie sich von einer Amplitudenmodulation unterscheidet, ist es nicht direkt auf Zeitbasis/Amplituden-Kartenaufzeichnungen wahrnehmbar bzw. unterscheidbar. Wegen der Tatsache, daß dieses Infraschallsignal eine der signifikanteren Stimmanzeigen von psychologischem Streß ist, wird es in größerem Detail behandelt werden.It has been discovered that a third signal category exists in the human voice and that this third signal category is related to the second type of voice change, as discussed above. This is an infrasonic or subsonic frequency modulation, which is present to some degree in both vocal cord sounds and formant sounds. This signal is typically between 8 and 12 hertz. Accordingly, it is not audible to the human ear. Because of the fact that this characteristic forms a frequency modulation that differs from amplitude modulation, it is not directly perceptible on time base / amplitude map records. Because of the fact that this infrasonic signal is one of the more significant vocalizations of psychological stress, it will be treated in greater detail.
Es bestehen verschiedene Analogien, welche verwendet werden, um schematische Darstellungen des gesamten Stimmprozesses zur Verfügung zu stellen. Sowohl mechanische wie auch elektronische Analogien werden erfolgreich beispielsweise beim Entwurf von Computerstimmen verwendet bzw. ange wandt. Diese Analogien betrachten jedoch die stimmhafte Klangquelle (Stimmbänder) und die Wände der Hohlräume als harte und konstante Merkmale. Jedoch stellen sowohl die Stimmbänder als auch die Wände der grundlegenden Formantenerzeugenden Hohlräume in der Realität ein flexibles Gewebe dar, welches augenblicklich auf die komplexe Anordnung von Muskeln antwortet, welche eine Steuerung des Gewebes zur Verfügung stellen. Diese Muskel, welche die Stimmbänder durch die mechanische Verbindung von Knochen und Knorpel steuern, gestatten sowohl die gezielte als auch automatische Erzeugung von Stimmklang und Veränderung der Stimmtonhöhe durch ein Individuum. In ähnlicher Weise erlauben diese Muskel, welche die Zunge, Lippen und Hals bzw. Rachen steuern, sowohl die gezielte als auch die automatische Steuerung der ersten Formanten-Frequenzen. Andere Formanten können ähnlich zu einem begrenzteren Grad bzw. Ausmaß beeinflußt werden.It There are various analogies which are used to describe schematic Presentations of the entire voting process available put. Both mechanical and electronic analogies will be used successfully for example in the design of computer voices or applied. However, these analogies look at the voiced Sound source (vocal cords) and the walls the cavities as hard and constant features. However, both the vocal cords pose as also the walls the basic formant-generating cavities in reality a flexible one Tissue, which is instantaneous on the complex arrangement of Muscles providing a control of the tissue will respond. These Muscle, which is the vocal cords controlled by the mechanical connection of bone and cartilage both the targeted and automatic generation of vocal sound and change the voice pitch by an individual. In similar Way these muscles allow the tongue, lips and neck respectively Throat control, both targeted and automatic control the first formant frequencies. Other formants may be similar to be influenced to a more limited degree or extent.
Es ist wert zu beachten, daß während normaler Sprache diese Muskel auf einem kleinen Prozentsatz ihrer Gesamtarbeitsfähigkeit arbeiten. Aus diesem Grund verbleiben, trotz ihrer Verwendung zum Ändern der Position der Stimmbänder und der Positionen der Lippen, Zunge und inneren Halswände, die Muskeln in einem relativ entspannten Zustand. Es wurde bestimmt, daß während dieses relativ entspannten Zustands eine Muskelwellenbewegung typischerweise bei der zuvor erwähnten Frequenz von 8-12 Hertz auftritt. Diese Wellenbewegung verursacht eine leichte Variation in der Spannung der Stimmbänder und verursacht Verschiebungen bzw. Verlagerungen der grundlegenden Tonhöhenfrequenz der Stimme. Auch variiert die Wellenform leicht das Volumen des Resonanzhohlraums (besonders des mit der ersten Formanten assoziierten) und der Elastizität der Hohlraumwände, um Ver schiebungen der Formantenfrequenzen zu verursachen. Diese Verschiebungen um eine Zentralfrequenz bilden eine Frequenzmodulation der Zentral- oder Trägerfrequenz.It is worth to note that while normal Language these muscles on a small percentage of their total workability work. For this reason, despite being used to change position, they remain the vocal cords and the positions of the lips, tongue and inner neck walls, the Muscles in a relatively relaxed state. It was determined that during this relatively relaxed state a muscle wave movement typically at the aforementioned Frequency of 8-12 hertz occurs. This wave motion causes a slight variation in the tension of the vocal cords and causes shifts of the basic pitch frequency the voice. Also, the waveform slightly varies the volume of the Resonant cavity (especially that associated with the first formant) and the elasticity of the Cavity walls, to cause shifts in the formant frequencies. These Shifts about a central frequency form a frequency modulation the central or carrier frequency.
Es ist wichtig zu beachten, daß keine der Verschiebungen in der grundlegenden Tonhöhenfrequenz der Stimme oder in den Formantenfrequenzen direkt durch einen Zuhörer detektierbar ist, teilweise, da die Verschiebungen sehr klein sind, und teilweise, da sie primär in dem zuvor erwähnten unhörbaren Frequenzbereich bestehen.It is important to note that no the shifts in the basic pitch frequency of the voice or in the formant frequencies directly detectable by a listener is, partly because the shifts are very small, and partly, because they are primary in the aforementioned inaudible Frequency range exist.
Um diese Frequenzmodulation zu beobachten, kann irgendeine von verschiedenen bestehenden Techniken zur Demodulation einer Frequenzmodulation eingesetzt bzw. verwendet werden, natürlich unter Beachtung, daß die Modulationsfrequenz die nominellen 8-12 Hertz sind und der. Träger eines der Bänder innerhalb des Stimmspektrums ist.Around observing this frequency modulation can be any of several existing techniques for demodulating a frequency modulation be used, of course, taking into account that the modulation frequency the nominal 8-12 hertz and the. Wear one of the tapes inside the voice spectrum is.
Um vollständiger die obige Diskussion zu verstehen, muß das Konzept eines "Schwerpunkts" dieser Wellenform verstanden werden. Es ist möglich, ungefähr den Mittelpunkt zwischen den zwei Extremen bzw. Extremwerten von jeder einzelnen Auslenkung des Aufzeichnungsstifts zu bestimmen. Wenn die Mittelpunkte zwischen den Extremen aller Auslenkungen markiert sind und wenn diese Mittelpunkte dann ungefähr durch eine kontinuierliche Kurve verbunden sind, wird gesehen werden, daß eine Linie, die sich einem Mittelwert oder "Schwerpunkt" der gesamten Wellenform annähert, resultieren wird. Ein Verbinden aller derartigen Markierungen, mit etwas Glättung, resultiert in einer sanften gekrümmten Linie. Die Linie repräsentiert die Infraschall-Frequenzmodulation, die aus den zuvor beschriebenen Wellenformen resultiert.Around complete To understand the above discussion must have the concept of a "center of gravity" of this waveform be understood. It is possible, approximately the midpoint between the two extremes or extremes of each individual deflection of the recording pin to determine. When the midpoints are marked between the extremes of all the deflections and if these centers are then roughly through a continuous Curve, it will be seen that a line that is one Average or "center of gravity" of the entire waveform approaches, will result. A combination of all such markings, with some smoothing, results in a gentle curved Line. The line represents the infrasound frequency modulation, which from the previously described Waveforms results.
Wie oben erwähnt, wurde bestimmt, daß die Anordnung von mit den Stimmbändern assoziierten Muskeln und Hohlraumwänden Gegenstand einer sanften Muskelspannung ist, wenn leichter bis mittlerer psychologischer Streß in der individuellen Überprüfung bzw. Untersuchung erzeugt wird. Diese Spannung, die für das Subjekt bzw. die Person nicht wahrnehmbar ist, und ähnlich durch normale, nicht unterstützte Beobachtungstechniken für den Überprüfer nicht wahrnehmbar ist, ist ausreichend, um die Muskelwellenformen zu senken oder virtuell die Muskelwellenformen zu verringern oder nahezu zu entfernen, welche in dem nicht gestreßten Subjekt vorhanden sind, wodurch die Basis für die Trägerfrequenzvariationen entfernt wird, welche die Infraschall-Frequenzmodulierungen erzeugen.As mentioned above, was determined that the Arrangement of with the vocal cords Associated muscles and cavity walls subject to a gentle Muscle tension is when mild to moderate psychological Stress in the individual review or Examination is generated. This tension, for the subject or the person is imperceptible, and similar through normal, unsupported Observation techniques for not the reviser is noticeable, is sufficient to lower the muscle waveforms or virtually reduce or almost eliminate muscle waveforms, which in the non-stressed subject which removes the basis for the carrier frequency variations which produce the infrasound frequency modulations.
Während die Verwendung der Infraschallwellenform einzigartig für die Technik ist, welche Stimme als das physiologische Medium zur physiologischen Streßbewertung einsetzt, stellt die Stimme zusätzliche instrumentierte Anzeigen von durch ein Hören nicht wahrnehmbaren physiologischen Änderungen als ein Ergebnis von psychologischem Streß zur Verfügung, welche physiologischen Änderungen ähnlich durch Techniken und Vorrichtungen in gegenwärtiger Verwendung detektierbar sind. Von den vier am häufigsten verwendeten physiologischen Änderungen, welche zuvor erwähnt wurden (Hirnwellenmuster, Herzaktivität, Hautleitfähigkeit und Atmungsaktivität) beeinflussen zwei von diesen, die Atmungsaktivität und Herzaktivität, direkt und indirekt die Amplitude und das Detail einer Wellenform einer mündlichen Äußerung und stellen die Basis für eine gröbere Bewertung von psychologischem Streß, besonders, wenn die Prüfung bzw. das Testen sequentielle vokale Antworten beinhaltet bzw. involviert, zur Verfügung.While the Use of infrasound waveform unique to the technique is which voice as the physiological medium to the physiological stress evaluation uses, the voice provides additional instrumented displays of non-audible physiological changes as a result of psychological stress, which undergoes similar physiological changes Detect techniques and devices in current use are. Of the four most common used physiological changes, which previously mentioned (brain wave pattern, heart activity, skin conductivity and Breathability) affect two of these, the respiratory activity and cardiac activity, directly and indirectly the amplitude and detail of a waveform of a oral statement and provide the basis for a coarser one Evaluation of psychological stress, especially if the test or testing involves sequential vocal responses, to disposal.
Eine
andere Vorrichtung ist in
Nach
einem Filtern wird das Signal mit einem FM-Diskriminator
Eine
etwas einfachere Ausführungsform
einer Vorrichtung zum Erzeugen sichtbarer Aufzeichnungen in Übereinstimmung
mit der Erfindung ist in
Ein
Bandaufzeichnungsgerät,
welches in dieser besonderen Anordnung von Ausrüstung verwendet werden kann,
war eine Uher Modell 4000 Bandeinheit mit vier Geschwindigkeiten,
welche ihren eigenen internen Verstärker aufweist. Die Werte der
Kondensatoren
Im
Betrieb des Schaltkreises von
Telefonischer Betrieb mit Bedienerrückmeldungtelephone Operation with operator feedback
Die Konversation kann über ein Telekommunikationsnetzwerk ausgeführt werden, wie auch ein Weitverkehrsnetzwerk, wie beispielsweise das Internet, wenn es mit Internettelephonie verwendet wird. Als eine Option werden die Emotionen gerastet bzw. gesiebt und eine Rückmeldung wird nur zur Verfügung gestellt, wenn von der Emotion bestimmt wird, eine negative Emotion zu sein, ausgewählt aus der Gruppe von negativen Emotionen, welche aus Ärger, Traurigkeit und Angst bestehen. Das Gleiche könnte mit Gruppen von positiven oder neutralen Emotionen vorgenommen werden. Die Emotion kann durch ein Extrahieren eines Merkmals aus dem Stimmsignal bestimmt werden, wie dies zuvor im Detail beschrieben wurde.The Conversation can be over a telecommunications network, as well as a wide area network, such as the internet when using internet telephony is used. As an option, the emotions are rested or sieved and a feedback will only be available when it is determined by the emotion, a negative emotion to be selected from the group of negative emotions, which is anger, sadness and fear exist. The same could be done with groups of positive or neutral emotions. The emotion can be through extracting a feature from the voice signal are determined as previously described in detail.
Die vorliegende Erfindung ist besonders für einen Betrieb in Verbindung mit einem Notfallantwortsystem, wie beispielsweise dem 911-System geeignet. In einem derartigen System könnten eingehende Anrufe durch Ausführungsformen der vorliegenden Erfindung überwacht werden. Eine Emotion des Anrufers würde während der Konversation des Anrufers mit dem Techniker bestimmt werden, der den Anruf beantwortet. Die Emotion könnte dann über Funkwellen beispielsweise zu dem Notfallteam gesandt werden, d.h. Polizei, Feuerwehr und/oder Ambulanzpersonal, so daß diese über den emotionellen Zustand des Anrufers unterrichtet sind.The The present invention is particularly associated with operation with an emergency response system, such as the 911 system suitable. In such a system, incoming calls could be through embodiments of the present invention become. An emotion of the caller would be during the conversation of the Caller with the technician answering the call. The emotion could then over For example, radio waves may be sent to the emergency team, i. Police, fire and / or ambulance staff, so that these over the emotional state of the caller.
In einem anderen Szenario ist einer der Subjekte ein Kunde, ein anderes der Subjekte ist ein Angestellter, wie beispielsweise jemand, der durch ein Callcenter oder eine Kundenserviceabteilung angestellt ist, und der Dritte oder die dritte Person ist ein Manager. Die vorliegende Erfindung würde die Konversation zwischen dem Kunden und dem Angestellten überwachen, um zu bestimmen, ob der Kunde und/oder der Angestellte beispielsweise aufgeregt wird (werden). Wenn negative Emotionen detektiert werden, wird eine Rückmeldung zum Manager gesandt, der die Situation beurteilen und falls nötig, intervenieren bzw. einschreiten kann.In In another scenario, one of the subjects is a customer, another The subject is an employee, such as someone who hired by a call center or a customer service department is, and the third or third person is a manager. The present invention would monitor the conversation between the customer and the employee, to determine if the customer and / or the employee, for example being (becoming) excited. When negative emotions are detected, will be a feedback sent to the manager to assess the situation and intervene if necessary or can intervene.
Verbessern einer EmotionserkennungImprove an emotion recognition
Das Stimmsignal kann ausgesendet bzw. ausgegeben oder empfangen werden durch ein System, welches die vorliegende Erfindung verkörpert. Optional wird die mit dem Stimmsignal assoziierte Emotion identifiziert, wenn bzw. nachdem die Emotion bereitgestellt ist. In einem derartigen Fall sollte bestimmt werden, ob die automatisch bestimmte Emotion oder die anwenderbestimmte Emotion mit der identifizierten Emotion übereinstimmt. Dem Ver- bzw. Anwender kann ein Preis zuerkannt werden, wenn die anwenderbestimmte Emotion mit der identifizierten Emotion übereinstimmt bzw. zusammenpaßt. Weiterhin kann die Emotion automatisch durch ein Extrahieren von wenigstens einem Merkmal der Stimmsignale, wie beispielsweise in der oben besprochenen Weise, bestimmt werden.The Voice signal can be sent or issued or received by a system embodying the present invention. optional the emotion associated with the voice signal is identified, when or after the emotion is provided. In such a Case should be determined if the automatically determined emotion or the user-determined emotion matches the identified emotion. The user or user can be awarded a prize if the user-defined emotion matches the identified emotion or matches. Furthermore, the emotion can be automatically extracted by extracting at least one feature of the voice signals, such as in as discussed above.
Um einen Anwender beim Erkennen einer Emotion zu unterstützen, kann ein Emotionserkennungsspiel gespielt werden. Das Spiel könnte es einem Anwender gestatten, gegen einen Computer oder eine andere Person anzutreten, um zu sehen, wer am besten Emotion in aufgezeichneter Sprache erkennen kann. Eine praktische Anwendung des Spiels ist, autistischen Leuten bei einer Entwicklung einer besseren emotionalen Erfahrung beim Erkennen von Emotion in der Sprache zu helfen.Around can assist a user in recognizing an emotion an emotion recognition game to be played. The game could do it allow a user against a computer or another Person to attend, to see who best emotions in recorded Recognize language. A practical application of the game is autistic people in developing a better emotional Experience in helping to recognize emotion in the language.
In einer Anordnung kann eine Vorrichtung verwendet werden, um Daten über Stimmsignale zu erzeugen, welche verwendet werden können, um eine Emotionserkennung zu verbessern. Die Vorrichtung akzeptiert stimmlichen Klang durch einen Wandler, wie beispielsweise ein Mikrophon oder ein Klang- bzw. Tonaufzeichnungsgerät. Die physikalische Schallwelle bzw. Klangwelle, welche in elektrische Signale umgewandelt wurde, wird parallel an einer typischen, kommerziell verfügbaren Bank von elektronischen Filtern angewendet, welche den hörbaren bzw. Audio-Frequenzbereich abdecken. Ein Einstellen der zentralen bzw. Mittelfrequenz des niedrigsten Filters auf irgendeinen Wert, welcher die elektrische Energierepräsentation der Stimmsignalamplitude durchläßt, welche das niedrigste Stimmfrequenzsignal beinhaltet, errichtet die Mittenwerte aller nachfolgenden Filter bis zum letzten, welcher im allgemeinen die Energie zwischen 8 kHz bis 16 kHz oder zwischen 10 kHz und 20 kHz durchläßt, und auch die exakte Anzahl derartiger Filter bestimmt. Der spezifische Wert der Mittenfrequenz des ersten Filters ist nicht signifikant, solange die tiefsten Töne der menschlichen Stimme aufgefangen werden, ungefähr 70 Hz. Im wesentlichen ist jede kommerziell erhältliche Bank anwendbar, wenn sie an irgendeinen kommerziell erhältlichen Digitalisierer und dann Mikrocomputer angeschlossen werden kann. Der Beschreibungsabschnitt beschreibt einen spezifischen Satz von Mittenfrequenzen und Mikroprozessor in der bevorzugten Ausführungsform. Die Filterqualität ist auch nicht besonders signifikant, da ein in der Beschreibung geoffenbarter Verbesserungs- bzw. Verfeinerungsalgorithmus jeden Satz von Filtern durchschnittlicher Qualität in akzeptable Frequenz- und Amplitudenwerte bringt. Das Verhältnis 1/3 definiert natürlich die Bandbreite von allen Filtern, sobald die Mittenfrequenzen berechnet sind.In In one arrangement, a device may be used to transmit data via voice signals which can be used to provide emotion recognition to improve. The device accepts vocal sound a transducer such as a microphone or a sound recorder. The physical Sound wave or sound wave, which has been converted into electrical signals, runs parallel to a typical, commercially available bank used by electronic filters which the audible or Cover audio frequency range. A setting of the central or Center frequency of the lowest filter to any value, which the electric energy presentation the voice signal amplitude passes, which contains the lowest voice frequency signal, builds the center values all subsequent filters to the last, which in general the energy between 8 kHz to 16 kHz or between 10 kHz and 20 kHz, and also determines the exact number of such filters. The specific value the center frequency of the first filter is not significant as long as the deepest sounds of the human voice, about 70 Hz. Essentially any commercially available bank is applicable if to any commercially available digitizer and then microcomputer can be connected. The description section describes a specific set of center frequencies and microprocessor in the preferred embodiment. The filter quality is also not very significant, as one in the description revealed refinement algorithm each Set of filters of average quality in acceptable frequency and Amplitude values brings. The relationship 1/3 of course defines the bandwidth of all filters as soon as the center frequencies are calculated are.
Diesem Sequentierungs- bzw. Aufteilungsvorgang bzw. -prozeß folgend werden die Filterausgabespannungen durch einen kommerziell erhältlichen Satz von Digitalisierern oder vorzugsweise Multiplexer und Digitalisierern oder einen Digitalisierer digitalisiert, welcher in die gleiche identifizierte kommerziell erhältliche Filterbank eingebaut ist, um eine Kopplungslogik und Hardware zu entfernen. Erneut ist die Qualität eines Digitalisierers bzw. einer Digitalisiervorrichtung im Hinblick auf die Geschwindigkeit einer Umwandlung oder Diskriminierung nicht signifikant bzw. bedeutsam, da durchschnittliche gegenwärtig erhältliche kommerzielle Einheiten die hier benötigten Erfor dernisse aufgrund eines Korrekturalgorithmus (siehe Spezifikationen) und der niedrigen notwendigen Abtastrate überschreiten.this Following the sequencing process The filter output voltages are provided by a commercially available Set of digitizers or preferably multiplexers and digitizers or a digitizer digitized, which is in the same identified commercially available filter bank is installed to remove a coupling logic and hardware. Again, the quality a digitizer or a digitizer with respect to not on the speed of conversion or discrimination significant, as average currently available commercial units have the required requirements due to a correction algorithm (see specifications) and the low exceed necessary sampling rate.
Jeder komplexe Klang bzw. Ton bzw. Schall, welcher sich konstant ändernde Information trägt, kann mit einer Reduktion von Informationsbits durch ein Auffangen der Frequenz und Amplitude von Spitzen des Signals angenähert werden. Dies ist natürlich altes Wissen, wie es ein Durchführen eines derartigen Vorgangs an Sprachsignalen auch ist. Jedoch waren in der Sprachforschung verschiedene spezifische Bereiche, wo derartige Spitzen häufig auftreten, als "Formanten"-Bereiche bezeichnet. Jedoch decken sich diese Bereichsannäherungen nicht immer mit den Spitzen jedes Sprechers unter allen Umständen. Sprachforscher und der erfinderische Stand der Technik neigen zu einer großen Anstrengung, um "legitimierte" Spitzen zu messen und als solche zu benennen, welche innerhalb der typischen Formanten-Frequenzbereiche fallen, als ob ihre Definition nicht Abschätzungen involvieren würde, sondern eher Absolutheit bzw. Absolutwerte. Dies hat zahlreiche Forschung und Formanten-Meßvorrichtungen veranlaßt, künstlich entsprechende Spitzen auszuschließen, welche nötig sind, um adäquat eine komplexe, hochveränderliche Klangwelle in Echtzeit zu repräsentieren. Da die vorliegende Offenbarung entworfen ist, um für Tierstimmenklänge wie auch alle menschlichen Sprachen geeignet zu sein, sind künstliche Beschränkungen, wie beispielsweise Formanten, nicht von Interesse, und die Klang- bzw. Schallwelle wird als eine komplexe, variierende Schallwelle behandelt, welche jeden derartigen Klang bzw. Schall analysieren kann.Everyone complex sound or sound or sound, which is constantly changing Carries information, can with a reduction of information bits by a catch the frequency and amplitude of peaks of the signal are approximated. This is natural old knowledge, how to do it of such a process of speech signals as well. However, they were in linguistics different specific areas where such Tips often occur, referred to as "formant" regions. However, these range approaches do not always coincide with those Tips of each speaker under all circumstances. Linguist and the inventive prior art tend to be a great effort to measure "legitimized" peaks and as such, which are within the typical formant frequency ranges fall as if their definition did not involve estimates, but rather absolute or absolute values. This has numerous research and formant measuring devices causes artificially to exclude corresponding peaks that are necessary to be adequate a complex, highly variable Represent sound wave in real time. Since the present disclosure is designed to be useful for animal voice sounds even all human languages are suitable to be artificial restrictions such as formants, not of interest, and the sound or sound wave is called a complex, varying sound wave which analyzes each such sound can.
Um eine Spitzenidentifizierung unabhängig von einer Abweichung in Filterbandbreite, Qualität und Digitalisiererdiskriminierung zu normalisieren und zu vereinfachen, sind die tatsächlichen Werte, welche für Amplitude und Frequenz gespeichert sind, "repräsentative Werte". Dies deshalb, damit die Breite von oberen Frequenzfilter numerisch ähnlich zur Bandbreite der Filter unterer Frequenz ist. Jedem Filter werden einfach fortlaufende Werte von 1 bis 25 gegeben, und ein Klang von sanft zu laut wird von 1 bis 40 zur Vereinfachung auf einer CRT-Bildschirmanzeige skaliert. Eine Korrektur an den Frequenzrepräsentationswerten wird erreicht bzw. durchgeführt, indem die Anzahl der Filter auf einen höheren Dezimalwert zu dem nächsten ganzzahligen Wert eingestellt wird, wenn die Filterausgabe zur Rechten des Spitzenfilters eine größere Amplitude als die Filterausgabe zur Linken des Spitzenfilters aufweist. Die Details dieses Algorithmus sind in den Beschreibungen dieser Offenbarung beschrieben. Dieser Korrekturvorgang muß sich vor dem Komprimierungsvorgang ereignen, während alle Filteramplitudenwerte verfügbar sind.Around a peak identification regardless of a deviation in Filter bandwidth, quality normalize and simplify digitization discrimination, are the actual ones Values which for Amplitude and frequency are stored, "representative Values. "This is why so that the width of upper frequency filter is numerically similar to Bandwidth of the filter is lower frequency. Become a filter simply given consecutive values from 1 to 25, and a sound of soft to loud will be from 1 to 40 for ease on a CRT screen scaled. A correction to the frequency representation values is achieved or carried out, by changing the number of filters to a higher decimal value to the nearest integer value is set when the filter output to the right of the tip filter a larger amplitude as the filter output has to the left of the peak filter. The Details of this algorithm are in the descriptions of this disclosure described. This correction process must be done before the compression process happen while all filter amplitude values available are.
Statt die Abtastrate zu verlangsamen, speichert die bevorzugte Anordnung alle Filteramplitudenwerte für 10 bis 15 Abtastungen bzw. Proben pro Sekunde für eine Sprachprobe von ungefähr 10 bis 15 Sekunden vor diesem Korrektur- und Komprimierungsprozeß. Wenn der Computerspeicherplatz kritischer als die Durchlaufgeschwindigkeit ist, sollten sich die Korrekturen und Komprimierung zwischen jedem Durchlauf ereignen, um den nächsten für einen großen starken Datenspeicher auszulöschen. Da die meisten kommerziell erhältlichen Minicomputer mit durchschnittlichem Preis einen ausreichenden Speicher aufweisen, speichert die bevorzugte und hierin geoffenbarte Anordnung alle Daten und be- bzw. verarbeitet nachher die Daten.Rather than slowing the sampling rate, the preferred arrangement stores all the filter amplitude values for 10 to 15 samples per second for a speech sample of about 10 to 15 seconds prior to this correction and compression process. If the computer memory space is more critical than the throughput speed, the corrections and compression should occur between each pass, to wipe out the next one for a big strong data store. Since most commercially available average price minicomputers have sufficient memory, the preferred arrangement disclosed herein stores all the data and subsequently processes the data.
Die meisten Tierstimmensignale von Interesse, inklusive der menschlichen, beinhalten eine größte Amplitudenspitze, wahrscheinlich nicht an jedem Ende der Frequenzdomäne. Diese Spitze kann durch irgendeinen einfachen und üblichen numerischen Sortieralgorithmus bestimmt werden, wie es in dieser Erfindung vorgenommen wird. Die für Amplitude und Frequenz repräsentativen Werte werden dann in der Zahl drei von sechs Speicherstellensätzen angeordnet, um die Amplituden und Frequenzen von sechs Spitzen bzw. Peaks zu halten.The most animal sound signals of interest, including human, include a largest amplitude peak, probably not at each end of the frequency domain. These Tip can by any simple and usual numerical sorting algorithm be determined as is done in this invention. The for amplitude and frequency representative Values are then arranged in the number three out of six memory location sets, around the amplitudes and frequencies of six peaks hold.
Die höchste Frequenzspitze über 8 kHz wird in der Speicherstelle Nummer sechs angeordnet und als Hochfrequenzspitze gekennzeichnet. Die niedrigste Spitze wird in dem ersten Satz von Speicherstellen bzw. Speicherplätzen angeordnet. Die anderen drei werden aus Spitzen zwischen diesen ausgewählt. Dieser Kompressionsfunktion folgend wird das Stimmsignal durch einen für Amplitude und Frequenz repräsentativen Wert von jeder der sechs Spitzen plus einer Gesamtenergieamplitude aus dem ungefilterten Gesamtsignal für beispielsweise zehn mal pro Sekunde für eine Probe bzw. Abtastung von zehn Sekunden repräsentiert. Dies liefert eine Gesamtzahl von 1300 Werten.The highest Frequency peak over 8 kHz is placed in memory location number six and as a high frequency peak characterized. The lowest peak is in the first sentence of Storage locations or storage locations arranged. The other three are made of tips between them selected. Following this compression function, the vocal signal is replaced by a for amplitude and frequency representative Value of each of the six peaks plus a total energy amplitude from the unfiltered total signal for example ten times per Second for represents a sample or sample of ten seconds. This provides a Total number of 1300 values.
Die Algorithmen erlauben Variationen in der Abtastlänge im Fall, daß der Bediener den Abtastlängenschalter mit dem Übersteuerungsausschalter übersteuert bzw. außer Kraft setzt, um eine Fortsetzung während einer unerwarteten Geräuschunterbrechung zu verhindern. Die Algorithmen erledigen dies durch Verwendung von Durchschnitten, welche nicht signifikant empfindlich auf Änderungen in der Abtastanzahl über vier oder fünf Sekunden eines Schall- bzw. Klangsignals sind. Der Grund für eine größere Sprachabtastung, wenn möglich, ist, um den Durchschnitts-"Stil" der Sprache des Sprechers aufzufangen, welcher typischerweise innerhalb von 10 bis 15 Sekunden offensichtlich bzw. evident wird.The Algorithms allow for variations in scan length in case the operator the sample length switch override with the override switch or except Strength continues to be a continuation during an unexpected noise interruption to prevent. The algorithms do this by using Averages, which are not significantly sensitive to changes in the number of samples over four or five Seconds of a sound or sound signal. The reason for a larger speech sample, if possible, is to the average "style" of the language of the Spokesman, which typically within 10 to Becomes evident for 15 seconds.
Die Ausgabe dieser Komprimierungsfunktion wird in die Elementanordnung und einen Speicheralgorithmus eingespeist, welcher zusammenbaut (a) vier Stimmqualitätswerte, welche unten zu beschreiben sind; (b) eine Klang- bzw. Schall-"Pause" oder ein Ein-zu-Aus-Verhältnis; (c) "Variabilität" – den Unterschied zwischen der Spitze jeder Amplitude für den gegenwärtigen Durchlauf und jenen des letzten Durchlaufs; Unterschiede zwischen der Frequenzzahl einer jeden Spitze für den gegenwärtigen Durchlauf und jener des letzten Durchlaufs; und Unterschied zwischen der ungefilterten Gesamtenergie des vorliegenden bzw. gegenwärtigen Durchlaufs und jener des letzten Durchlaufs; (d) eine "Silbenänderungsannäherung" durch ein Erhalten des Verhältnisses von Malen, daß sich die zweite Spitze mehr als 0,4 zwischen Durchläufen zu der Gesamtanzahl von Durchläufen mit Ton ändert; und (e) "Hochfrequenzanalyse" – das Verhältnis der Anzahl von Klang-Ein-Durchläufen, welche einen Nicht-Nullwert in dieser Spitze für die Spitzenamplitude Nummer sechs beinhalten. Dies ist eine Gesamtzahl von 20 Elementen, die pro Durchlauf verfügbar. Diese werden dann zum Dimensionszusammenbau-Algorithmus durchgeleitet.The Output of this compression function will be in the element array and fed a memory algorithm which assembles (a) four voice quality values, which are to be described below; (b) a sound "pause" or on-to-off ratio; (c) "variability" - the difference between the peak of each amplitude for the current one Pass and those of the last pass; differences between the frequency number of each peak for the current pass and that of the last run; and difference between the unfiltered Total energy of the present or current run and that the last run; (d) a "syllable change approach" by obtaining the ratio of painting that yourself the second peak more than 0.4 between runs to the total number of runs with sound changes; and (e) "high-frequency analysis" - the ratio of the number of sound-on-runs that a nonzero value in this peak for the peak amplitude number six include. This is a total of 20 elements that available per run. These are then passed to the dimension assembly algorithm.
Die vier Stimmqualitätswerte, welche als Elemente verwendet werden, sind (1) die "Ausbreitung bzw. Verbreitung" – der Abtastmittelwert von allen Unterschieden von Durchläufen zwischen ihrem Durchschnitt der eine Frequenz repräsentierenden Werte oberhalb der Maximalamplitudenspitze und dem Durchschnitt von jenen darunter, (2) die "Balance" – der Abtastmittelwert von allen Durchschnittsamplitudenwerte der Durchläufe von Spitzen 4, 5 & 6 geteilt durch den Durchschnitt der Spitzen 1 & 2. (3) "Hüllkurvenebenheithoch" – der Abtastmittelwert von allen Durchschnitten der Durchläufe von ihren Amplituden oberhalb der größten Spitze, geteilt durch die größte Spitze, (4) "Hüllkurvenebenheit niedrig" – der Abtastmittelwert von allen Durchschnitten der Durchläufe von ihren Amplituden unterhalb der größten Spitze, geteilt durch die größte Spitze.The four voice quality values, which are used as elements are (1) the "spread" - the sample mean of all differences of runs between their average of the values representing a frequency above the maximum amplitude peak and the average of those below, (2) the "balance" - the sample mean of all average amplitude values of the runs of peaks 4, 5 & 6 divided by the average of the peaks 1 & 2. (3) "envelope level high" - the sample average of all means of runs from their amplitudes above the largest peak, divided by the biggest peak, (4) "Envelope flatness low "- the sample average from all the averages of the runs from their amplitudes below the biggest peak, divided by the largest peak.
Die Stimmenstildimensionen werden "Resonanz" und "Qualität" bezeichnet und werden durch einen Algorithmus zusammengebaut, welcher eine Koeffizientenmatrix beinhaltet, die auf ausgewählten Elementen arbeitet.The Voice Style Dimensions are and will be called "Resonance" and "Quality" assembled by an algorithm which defines a coefficient matrix includes on selected Elements works.
Die "Sprachstil"-Dimensionen werden "Variabilität monoton", "abgehackt-sanft", "Stakkato halten", "Anstieg sanft", "Affektivitätssteuerung" bezeichnet. Diese fünf Dimensionen, wobei Namen zu jedem Ende von jeder Dimension gehören, werden gemessen und durch einen Algorithmus zusammengebaut, welcher eine Koeffizientenmatrix involviert, die auf 15 von den 20 Klangelementen arbeitet, die in Tabelle 6 und dem Spezifikationsabschnitt detailliert sind.The "language style" dimensions are called "variability monotone", "choppy-soft", "staccato hold", "gently rise", "affectivity control". These five dimensions, where names belong to each end of each dimension measured and assembled by an algorithm which has a Coefficient matrix involved on 15 of the 20 sound elements detailed in Table 6 and the specification section are.
Die Wahrnehmungsstildimensionen werden "Eko-Struktur", "invariante Empfindlichkeit", "anders selbst", "sensorischintern", "Haß-Liebe", "Unabhängigkeit-Abhängigkeit" und "emotional-physisch" bezeichnet. Diese sieben Wahrnehmungsdimensionen mit Namen, die sich auf die Endbereiche der Dimensionen beziehen, werden gemessen und durch einen Algorithmus zusammengebaut bzw. zusammengestellt, welcher eine Koeffizientenmatrix involviert und auf ausgewählten Klangelementen von Stimme und Sprache (detailliert in Tabelle 7) und dem Spezifikationsabschnitt arbeitet.The perceptual dimension becomes "eco-structure", "invariant sensitivity", "different self "," sensory-internal "," hate-love "," independence-dependence "and" emotional-physical. "These seven perceptual dimensions with names referring to the end-of-dimensions are measured and assembled by an algorithm. which deals with a coefficient matrix and works on selected sound elements of voice and speech (detailed in Table 7) and the specification section.
Eine kommerziell erhältliche, typische Computertastatur oder Folientastatur gestattet es dem Anwender der vorliegenden Offenbarung, jeden und alle Koeffizienten für eine Neudefinition von irgendeiner zusammengesetzten Sprach-, Stimmen- oder Wahrnehmungsdimension für Forschungszwecke abzuändern. Auswahlschalter gestatten es, jedes oder alle Elemente oder Dimensionswerte für eine Stimmprobe eines vorgegebenen Subjekts anzuzeigen. Der digitale Prozessor regelt bzw. steuert die Analog-zu-Digital-Wandlung des Klangsignals und regelt bzw. steuert auch den Wiederzusammenbau bzw. Neuzusammenbau der Stimmklangelemente in numerische Werte der Stimmen-, Sprach- und Wahrnehmungsdimensionen.A commercially available, typical computer keyboard or membrane keyboard allows the user of the present disclosure, any and all coefficients for redefinition from any compound language, voice or perception dimension for research purposes amend. Selector switches allow any or all elements or dimension values for one To display a voice sample of a given subject. The digital one Processor controls or controls the analog-to-digital conversion of the sound signal and regulates or controls the reassembly or reassembly of the vocal sound elements into numerical values of the voice, voice and perceptual dimensions.
Der Mikrocomputer koordiniert auch die Tastatureingaben des Bedieners bzw. Betätigers und die gewählte Ausgabeanzeige von Werten, und Koeffizientenmatrixauswahl, um mit den Algorithmen zusammenzuwirken, welche die Stimmen-, Sprach- und Wahrnehmungsdimensionen zusammensetzen. Der Ausgabeauswahlschalter richtet einfach die Ausgabe zu jedem oder allen Ausgabesteckern, welche geeignet sind, um das Signal zu typischen kommerziell erhältlichen Monitoren, Modems, Druckern oder vorgegeben zu einer lichtausgebenden bordeigenen Anordnung zu richten.Of the Microcomputer also coordinates the keystrokes of the operator or actuator and the chosen one Output display of values, and coefficient matrix selection to use with to co-operate with the algorithms that govern the voice, language, and perceptual dimensions put together. The output selector simply directs the output to any or all output plugs suitable for the signal to typical commercially available Monitors, modems, printers or given to a light-emitting to be addressed on-board.
Durch ein Entwickeln von Gruppenprofilstandards unter Verwendung dieser Erfindung kann ein Forscher Ergebnisse in Veröffentlichungen durch Berufe bzw. Beschäftigungen, Fehl funktionen, Aufgabenstellungen, Hobbyinteressen, Kulturen, Sprachen, Geschlecht, Alter, Tierart, usw. auflisten. Oder der (die) Anwender in) kann seine/ihre Werte mit jenen vergleichen, welche durch andere veröffentlicht wurden, oder mit jenen, welche in die Maschine eingebaut sind.By developing group profile standards using these Invention, a researcher results in publications through occupations or occupations, Malfunctions, tasks, hobby interests, cultures, languages, List gender, age, species, etc. Or the user (s) in) can compare his / her values with those of others released or with those installed in the machine.
Bezugnehmend
nun auf
Die
Durchlaufrate pro Sekunde und die Anzahl von Durchläufen pro
Abtastung bzw. Probe wird durch den Betätiger bzw. Bediener mit den
Durchlaufraten- und Abtastzeitschalter
Die
Ausgabe des Filtertreiberverstärkers
Irgendein von verschiedenen kommerziell erhältlichen Mikroprozessoren ist geeignet, um die oben angeführte Filterbank und den Digitalisierer zu regeln bzw. zu steuern.Any of various commercially available microprocessors suitable for the above Filterbank and the digitizer to regulate or control.
Wie
bei jedem komplexen Klang bzw. Schall wird eine Amplitude über den
hörbaren
Frequenzbereich für
einen "Zeitanteil
bzw. Zeitstück" von 0,1 einer Sekunde
nicht konstant oder flach sein, sondern wird eher Spitzen und Täler sein
bzw. aufweisen. Die für
eine Frequenz repräsentativen
Werte der Spitzen dieses Signals,
Und mehr als fünf Sub-Unterteilungen von jeder Filteranzahl zu verhindern und damit fortzufahren, gleiche bewertete Schritte bzw. Stufen zwischen jeder Sub- bzw. Unterabteilung der 1 bis 25 Filterzahlen aufrechtzuerhalten, werden diese in 0,2 Schritte unterteilt und weiter zugeordnet wie folgt. Wenn die Amplitudendifferenz der zwei benachbarten Filter zu einem Spitzenfilter größer als 30 von ihrem Durchschnitt ist, dann wird von der Zahl bzw. Nummer des Spitzenfilters angenommen, näher dem Punkt auf halbem Weg zur nächsten Filterzahl zu sein, als sie es von dem Spitzenfilter ist. Dies würde die Filterzahl eines Spitzenfilters, sagen wir, Filternummer 6,0, dazu veranlassen, auf 6,4 erhöht oder auf 5,6 vermindert zu werden, wenn das größere benachbarte Filter eine höhere bzw. niedere Frequenz repräsentiert. Allen anderen Filterwerten von Spitzenfiltern wird automatisch der Wert seiner Filternummer +0,2 und –0,2 gegeben, wenn die größere der benachbarten Filteramplituden jeweils eine höhere oder niederere Frequenz repräsentiert.And more than five Sub-subdivisions of each filter number to prevent and thus continue to evaluate equal steps between each Sub- or sub-division of 1 to 25 filter numbers maintain these are subdivided into 0.2 steps and further assigned as follows. If the amplitude difference of the two adjacent filters to a top filter larger than Is 30 of their average, then is the number or number of the top filter, closer the point halfway to the next To be filter count than it is from the top filter. This would be the Filter number of a peak filter, say, filter number 6.0, to cause it to increase to 6.4 or to be reduced to 5.6 when the larger adjacent filter is one higher or lower frequency represents. All other filter values of peak filters will automatically be the Value of its filter number +0.2 and -0.2 given when the larger the adjacent filter amplitudes each have a higher or lower frequency represents.
Das
segmentierte und digital repräsentierte
bzw. dargestellte Stimmäußerungssignal
Nachfolgend
auf die Kompression des Signals, um einen Amplitudenwert eines vollständigen Bands, die
Filterzahl und Amplitudenwert von sechs Spitzen, und jeden dieser
dreizehn Werte für
10 Abtastungen für eine
10 Sekunden- Abtastung
(
Um
bei Stimmstil-"Qualitäts"-Elementen anzukommen,
verwendet dieses System Beziehungen zwischen dem niedrigen Satz
und höheren
Satz von Frequenzen in der stimmlichen Äußerung. Die Sprachstilelemente
werden andererseits durch eine Kombination von Messungen bezüglich des
Musters von Stimmenergieauftritten, wie beispielsweise Pausen und
Abklingraten bestimmt. Diese Stimmstil-"Qualitäts"-Elemente tauchen aus der Spektrumanalyse,
Die
gespeicherten Stimmstilqualitätsanalyse-Elemente
werden bezeichnet und abgeleitet als: (1) die Spektrum-"Verteilung" – der Abtastmittelwert des
Abstands in Filterzahlen zwischen dem Durchschnitt der Spitzenfilteranzahlen
oberhalb und dem Durchschnitt der Spitzenfilterzahlen unter der
maximalen Spitze, für
jeden Durchlauf,
Die
Sprachstilelemente, welche gespeichert sind, werden jeweils bezeichnet
und abgeleitet: (1) Spektrumvariabilität – die sechs Mittelwerte einer Äußerungsabtastung
bzw. -probe, der numerischen Differenzen bzw. Unterschiede zwischen
jeder Filterzahl einer Spitze, bei einem Durchlauf, zu jeder entsprechenden
Filternummer bzw. -zahl einer Spitze beim nächsten Durchlauf, und auch
die sechs Amplitudenwertdifferenzen für diese sechs Spitzen und auch
beinhaltend die vollständigen
Spektrumamplitudendifferenzen für
jeden Durchlauf, um eine Abtastsumme von 13 Mittelwerten,
Klangstile werden in die sieben Dimensionen unterteilt, wie dies in Tabelle 6 dargestellt ist. Von diesen wurde bestimmt, die am empfindlichsten für einen assoziierten Satz von sieben Wahrnehmungs- oder Erkennungsstildimensionen zu sein, welche in Tabelle 7 aufgelistet sind.sound styles are divided into the seven dimensions as shown in the table 6 is shown. These were the ones that were the most sensitive for one associated set of seven perceptual or recognition dimensions to be listed in Table 7.
Das
Verfahren zum Beziehen der Klangstilelemente auf Stimmen-, Sprach-
und Wahrnehmungsdimension zur Ausgabe,
Tabelle
7 stellt die Beziehung zwischen sieben Wahrnehmungsstildimensionen
und den Klangstilelementen,
- ##STR1##
- DS1 = Variabilität monoton
- DS2 = abgehackt sanft bzw. glatt
- DS3 = Stakkato aufrechterhalten
- DS4 = Anstieg sanft
- D55 = Affektivitätsregelung bzw. -steuerung
- (2) Nr. 1 bis 6 = Spitzenfilterunterschiede 1-6, und Amp1 bis 6 = Spitzenamplitudendifferenzen bzw. -unterschiede 1-6.
- Amp7 = Volle Bandpaßamplitudendifferenzen.
- ##STR2##
- DP1 = Eco-Struktur hoch-niedrig;
- DP2 = Invariantempfindlichkeit hoch-niedrig;
- DP3 = anders-selbst;
- DP4 = sensorisch-intern;
- DP5 = Haß-Liebe;
- DP6 Abhängigkeit-Unabhängigkeit;
- DP7 = emotionell-physisch.
- (2) Nr. 1 bis 6 = Spitzenfilterdifferenzen 1-6; Amp1 bis 6 = Spitzenamplitudendifferenzen 1-6; und Amp7 vollständige Bandpaßamplitudendifferenzen.
- ## STR1 ##
- DS1 = variability monotone
- DS2 = choppy gentle or smooth
- DS3 = Stakkato maintained
- DS4 = rise gently
- D55 = affectivity control
- (2) Nos. 1 to 6 = peak filter differences 1-6, and Amp1 to 6 = peak amplitude differences 1-6.
- Amp7 = Full bandpass amplitude differences.
- ## STR2 ##
- DP1 = Eco-structure high-low;
- DP2 = invariant sensitivity high-low;
- DP3 = different-self;
- DP4 = sensory-internal;
- DP5 = hate-love;
- DP6 dependence-independence;
- DP7 = emotional-physical.
- (2) Nos. 1 to 6 = peak filter differences 1-6; Amp1 to 6 = peak amplitude differences 1-6; and Amp7 full bandpass amplitude differences.
Die
für den
Anwender dieses Systems verfügbaren
primären
Resultate sind die Dimensionswerte,
In einer anderen beispielhaften Anordnung werden Biosignale, die von einem Anwender empfangen werden, verwendet, um dabei zu helfen, Emotionen in der Sprache des Anwenders zu bestimmen. Die Erkennungsrate eines Spracherkennungssystems wird durch ein Kompensieren von Änderungen in der Sprache des Anwenders verbessert, welche aus Faktoren, wie beispielsweise Emotion, Angst oder Ermüdung bzw. Müdigkeit resultieren. Ein von einer Äußerung eines Anwenders abgeleitetes Sprachsignal wird durch einen Vorprozessor modifiziert und einem Spracherkennungssystem bereitgestellt, um die Erkennungsrate zu verbessern. Das Sprachsignal wird basierend auf einem Biosignal modifiziert, welches für den emotionalen Zustand des Anwenders anzeigend bzw. hinweisend ist.In In another exemplary arrangement, biosignals generated by a user, used to help To determine emotions in the language of the user. The recognition rate of a speech recognition system is compensated by changes improved in the language of the user, which from factors such as For example, emotion, anxiety or fatigue or tiredness result. One of a statement of one User derived speech signal is through a preprocessor modified and provided to a speech recognition system to improve the recognition rate. The speech signal is based modified on a biosignal, representing the emotional state of the user indicating or indicative.
Detaillierter
illustriert
Es
ist auch möglich,
das Biosignal zu verwenden, um das Sprachsignal durch Regeln bzw.
Steuern des Gewinns bzw. der Verstärkung und/oder Frequenzantwort
des Mikrophons
Wenn
der Biomonitor
Die Form eines Biosignals von einem Biomonitor kann in anderen Formen als einer Serie von rampenähnlichen Signalen sein. Beispielsweise kann das Biosignal ein analoges Signal sein, welches in der Periodizität, Amplitude und/oder Frequenz basierend auf Messungen variiert, welche durch den Biomonitor vorgenommen wurden, oder es kann ein digitaler Wert basierend auf durch den Biomonitor gemessenen Bedingungen sein.The Form of a biosignal from a biomonitor can take other forms as a series of ramp-like Be signals. For example, the biosignal may be an analog signal which, in the periodicity, Amplitude and / or frequency varies based on measurements, which made by the biomonitor, or it can be a digital one Value based on conditions measured by the biomonitor.
Der
Biomonitor
Der
erste Abschnitt regelt bzw. steuert den Kollektorstrom Ic,Q1 und die Spannung Vc,Q1 des
Transistors Q1 basierend auf der Impedanz zwischen den Kontakten
Der
Abschnitt
Da bzw. wenn der Strom IL1 ansteigt bzw. zunimmt, nimmt der Strom Ic1 durch den Kondensator C1 zu. Ein Steigern des Stroms Ic1 reduziert den Basisstrom IB,Q2 vom Transistor Q2, da der Strom Ic,Q1 virtuell bzw. nahezu konstant ist. Dies reduziert wiederum die Ströme Ic,Q2, Ib,Q3 und Ic,Q3. Als ein Ergebnis tritt mehr vom Strom IL1 durch den Kondensator C1 durch und reduziert weiter den Strom Ic,Q3. Diese Rückkopplung veranlaßt den Transistor Q3 dazu, abgeschaltet zu werden. Schließlich ist der Kondensator C1 vollständig geladen und die Ströme IL1 und Ic1 fallen auf null, und erlauben es dadurch dem Strom Ic,Q1 erneut, den Basisstrom Ib,Q2 zu ziehen und die Transistoren Q2 und Q3 einzuschalten, was den Oszillationszyklus erneut startet.As the current I L1 increases, the current I c1 through the capacitor C1 increases. Increasing the current I c1 reduces the base current I B, Q2 from the transistor Q2, since the current I c, Q1 is virtually constant. This in turn reduces the currents I c, Q 2 , I b, Q 3 and I c, Q 3 . As a result, more of the current I L1 passes through the capacitor C1 and further reduces the current I c, Q3 . This feedback causes the transistor Q3 to be turned off. Finally, the capacitor C1 is fully charged and the currents I L1 and I c1 drop to zero, allowing the current I c, Q1 again to pull the base current I b, Q2 and turn on the transistors Q2 and Q3, which is the oscillation cycle starts again.
Der
Strom Ic,Q1, welcher von der Impedanz zwischen
den Kontakten
Der
Schaltkreis wird durch eine Drei-Volt-Batteriequelle
Es
ist möglich,
um den Biomonitor
Der
Mikroprozessor
Der
DSP
Es sollte beachtet werden, daß das Sprachsignal auf andere Weisen als Änderungen in der Tonhöhe modifiziert sein kann. Beispielsweise können Tonhöhe, Amplitude, Frequenz und/oder Signalspektrum modifiziert sein. Ein Abschnitt des Signalspektrums oder des Gesamtspektrums kann abgeschwächt oder verstärkt sein.It should be noted that the Speech signal modified in other ways than pitch changes can be. For example, you can Pitch, Amplitude, frequency and / or signal spectrum to be modified. One Section of the signal spectrum or the entire spectrum may be attenuated or be strengthened.
Es ist auch möglich, andere Biosignale als ein Signal zu überwachen, welches für die Impedanz zwischen zwei Punkten auf einer Haut des Anwenders hinweisend bzw. anzeigend ist. Signale, die für eine autonome Aktivität anzeigend sind, können als Biosignale verwendet werden. Signale, welche für eine autonome Aktivität anzeigend sind, wie beispielsweise Blutdruck, Pulszahl, Hirnwellen- oder andere elektrische Aktivität, Pupillengröße, Hauttemperatur, Transparenz oder Reflexionsvermögen einer bestimmten elektromagnetischen Wellenlänge, oder andere Signale, die für den emotionalen Zustand des Anwenders anzeigend sind, können verwendet werden.It is possible, too, to monitor other biosignals as a signal, which is for the impedance between two points on a user's skin indicating. Signals for an autonomous activity can indicate be used as biosignals. Signals indicative of autonomic activity such as blood pressure, heart rate, brainwave or others electrical activity, pupil size, skin temperature, Transparency or reflectivity a certain electromagnetic wavelength, or other signals that for the indicating the user's emotional state can be used become.
Nach
einem Ausführen
des Schritts
Nach
Errichten bzw. Aufbauen dieser anfänglichen Modifikationslinie
geht der Mikroprozessor
Wenn
in Schritt
Es
sollte beachtet werden, daß eine
lineare Modifikationslinie verwendet wurde; jedoch ist es möglich, nicht-lineare
Modifikationslinien zu verwenden. Dies kann vorgenommen werden,
indem die Punkte
Es
ist auch möglich,
eine festgelegte Modifikationskurve zu verwenden, wie beispielsweise
Kurve
Sprach- bzw. StimmbenachrichtigungssystemVoice or Voice Notification System
Die
Sprachnachrichten werden in Vorgang bzw. Funktion
Die Sprachnachrichten können einem Telefonanruf folgen. Optional können die Sprachnachrichten einer ähnlichen Emotion zusammen organisiert sein. Ebenfalls optional können die Sprachnachrichten in Echtzeit unmittelbar nach Erhalt über das Telekommunikationsnetzwerk organisiert sein. Vorzugsweise ist eine Weise, in welcher die Sprachnachrichten organisiert sind, identifiziert, um den Zugriff auf die organisierten Sprachnachrichten zu erleichtern. Ebenfalls vorzugsweise wird die Emotion durch ein Extrahieren von wenigstens einem Merkmal aus Sprachsignalen bestimmt, wie dies zuvor besprochen wurde.The voice messages can follow a telephone call. Optionally, the voice messages ei be organized together with a similar emotion. Also optionally, the voice messages may be organized in real-time immediately upon receipt via the telecommunications network. Preferably, a manner in which the voice messages are organized is identified to facilitate access to the organized voice messages. Also preferably, the emotion is determined by extracting at least one feature from speech signals, as previously discussed.
In einer beispielhaften Anordnung werden Tonhöhen- und LPC-Parameter (und üblicherweise auch andere Erregungsinformation) zur Übertragung und/oder Speicherung codiert, und werden decodiert, um eine nahe Nachbildung der ursprünglichen Spracheingabe zur Verfügung zu stellen.In In an exemplary arrangement, pitch and LPC parameters (and usually also other excitation information) for transmission and / or storage encoded, and are decoded to be a close replica of the original one Voice input available to deliver.
Das vorliegende System ist besonders auf lineare voraussagende Codierungssysteme (LPC) für ein Analysieren oder Codieren analer Sprachsignale (und Verfahren hiefür) bezogen. In einer LPC-Modellierung wird allgemein jede Abtastung bzw. Probe in einer Serie von Abtastungen (im vereinfachten Modell) als eine lineare Kombination von vorhergehenden Abtastungen modelliert, plus einer Erregungsfunktion: wobei uk das LPC-Restsignal ist. Das heißt, uk repräsentiert die verbleibende bzw. Restinformation in dem eingegebenen bzw. Eingabesprachsignal, welches nicht durch das LPC-Modell vorhergesagt ist. Es soll beachtet werden, daß nur N ältere bzw. frühere Signale zur Vorhersage verwendet werden. Die Modellreihenfolge (typischerweise etwa 10) kann erhöht werden, um eine bessere Voraussage zu ergeben, jedoch wird etwas Information immer in dem Restsignal uk für jede normale Sprachmodellierungsanwendung verbleiben.The present system is particularly related to linear predictive coding (LPC) systems for analyzing or encoding analog speech signals (and methods therefor). In LPC modeling, generally, each sample in a series of samples (in the simplified model) is modeled as a linear combination of previous samples, plus an excitation function: where u k is the LPC residual signal. That is, u k represents the residual information in the input speech signal which is not predicted by the LPC model. It should be noted that only N older or earlier signals are used for prediction. The model order (typically about 10) can be increased to give better prediction, but some information will always remain in the residual signal u k for any normal speech modeling application.
Innerhalb des allgemeinen Rahmenwerks der LPC-Modellierung können viele besondere Implementierungen einer Stimmanalyse ausgewählt werden. In vielen von diesen ist es notwendig, die Tonhöhe des Eingabesprachsignals zu bestimmen. D.h., zusätzlich zu den Formanten-Frequenzen, welche tatsächlich mit Resonanzen des Stimmtrakts übereinstimmen, beinhaltet die menschliche Stimme auch eine Tonhöhe, die durch den Sprecher moduliert wird, welche mit der Frequenz übereinstimmt, bei welcher der Kehlkopf den Luftstrom moduliert. D.h., die menschliche Stimme kann als eine Erregungsfunktion betrachtet werden, welche an ein akustisches passives Filter angewendet bzw. angelegt wird, und die Erregungsfunktion wird im allgemeinen in der LPC-Restfunktion erscheinen, während die Charakteristika bzw. Merkmale des passiven akustischen Filters (d.h. die Resonanzcharakteristika von Mund, Nasenhohlraum, Brustkorb, usw.) durch die LPC-Parameter geformt werden wird. Es sollte beachtet werden, daß während stimmloser Sprache die Erregungsfunktion nicht eine gut definierte Tonhöhe aufweist, sondern stattdessen als breitbandiges, weißes Rauschen oder rosa Rauschen modelliert ist.Within The general framework of LPC modeling can be many special implementations of a voice analysis are selected. In many of these, it is necessary to change the pitch of the input speech signal to determine. That is, in addition to the formant frequencies, which actually coincide with resonances of the vocal tract, The human voice also includes a pitch given by the speaker is modulated, which coincides with the frequency at which the Larynx modulates the airflow. That is, the human voice can be regarded as an excitation function, which corresponds to an acoustic passive filter is applied, and the excitation function will generally appear in the LPC residual function while the Characteristics of the passive acoustic filter (i.e. the resonance characteristics of the mouth, nasal cavity, thorax, etc.) will be shaped by the LPC parameters. It should be noted be that while voiceless Language the excitation function does not have a well-defined pitch, but instead as broadband, white noise or pink noise is modeled.
Eine Abschätzung der Tonhöhenperiode ist nicht vollständig trivial. Unter den Problemen ist die Tatsache, daß die erste Formante häufig bei einer Frequenz nahe derjenigen der Tonhöhe auftreten wird. Aus diesem Grund wird die Ton höhenabschätzung häufig an dem LPC-Restsignal durchgeführt, da der LPC-Abschätzvorgang tatsächlich Vokaltaktresonanzen aus der Erregungsinformation entfaltet, so daß das Restsignal relativ weniger der Vokaltraktresonanten (Formanten) und relativ mehr der Erregungsinformation (Tonhöhe) beinhaltet. Jedoch weisen derartige, auf einem Rest basierende Tonhöhenabschätzungstechniken ihre eigenen Schwierigkeiten auf. Das LPC-Modell selbst wird normalerweise hochfrequentes Rauschen in das Restsignal einbringen, und Abschnitte von diesem hochfrequenten Rauschen können eine höhere spektrale Dichte aufweisen als die tatsächliche Tonhöhe, welche detektiert werden sollte. Eine Lösung für diese Schwierigkeit ist einfach, das Restsignal bei etwa 1000 Hz Tiefpaß zu filtern. Dies entfernt das hochfrequente Rauschen, entfernt jedoch auch die legitimierte Hochfrequenzenergie, welche in den stimmlosen Bereichen der Sprache vorhanden ist, und macht das Restsignal nahezu nutzlos für stimmhafte Entscheidungen.A appraisal the pitch period is not complete trivial. Among the problems is the fact that the first Formant often will occur at a frequency near that of the pitch. For this Reason the sound level estimation often becomes performed the LPC residual signal, since the LPC estimation process indeed Vocal tach resonances unfolded from the excitation information, so that the residual signal relative less of the vocal tract (formants) and relatively more of the Excitation information (pitch) includes. However, such residue-based pitch estimation techniques their own difficulties. The LPC model itself usually becomes introduce high-frequency noise into the residual signal, and sections from this high-frequency noise can have a higher spectral density as the actual Pitch, which should be detected. One solution to this difficulty is simple, to filter the residual signal at about 1000 Hz lowpass. This removed the high-frequency noise, but also removes the legitimized High-frequency energy, which in the unvoiced areas of the language is present, and makes the residual signal almost useless for voiced Decisions.
Ein Hauptkriterium in Sprachnachrichtenanwendungen ist die Qualität der reproduzierten Sprache. Systeme nach dem Stand der Technik hatten in dieser Hinsicht viele Schwierigkeiten. Insbesondere beziehen sich viele dieser Schwierigkeiten auf Probleme eines genauen Detektierens der Tonhöhe und der Stimmhaftigkeit des eingegebenen bzw. Eingabesprachsignals.One Main criterion in voice messaging applications is the quality of the reproduced Language. Prior art systems had in this regard many difficulties. In particular, many of these difficulties relate to problems of accurately detecting the pitch and voicing of the input speech signal.
Es ist typischerweise sehr leicht, eine Tonhöhenperiode auf dem Doppelten oder der Hälfte ihres Werts unkorrekt abzuschätzen. Beispielsweise garantiert, wenn Korrelationsverfahren verwendet werden, eine gute Korrelation bei einer Periode P eine gute Korrelation bei einer Periode 2P, und bedeutet auch, daß es für das Signal wahrscheinlicher ist, eine gute Korrelation bei einer Periode P/2 zu zeigen. Jedoch erzeugen solche Verdopplungs- und Halbierungsfehler eine sehr lästige Verminderung der Stimm- bzw. Sprachqualität. Beispielsweise wird ein fehlerhaftes Halbieren der Tonhöhenperiode dazu neigen, eine quietschende Stimme zu erzeugen, und ein fehlerhaftes Verdoppeln der Tonhöhenperiode wird dazu neigen, eine rauhe Stimme zu erzeugen. Darüber hinaus ist es wahrscheinlich, daß ein Verdoppeln oder Halbieren einer Tonhöhenperiode intermittierend bzw. mit Unterbrechungen auftritt, so daß die synthetisierte Stimme dazu neigen wird, mit Unterbrechungen zu knacksen oder zu kratzen.It is typically very easy to incorrectly estimate a pitch period at twice or half its value. For example, when correlation methods are used, a good correlation at a period P guarantees a good correlation at a period 2P, and also means that the signal is more likely to show a good correlation at a period P / 2. However, such doubling and halving errors produce a very annoying reduction in voice quality. example for example, an erroneous halving of the pitch period will tend to produce a squeaky voice, and an erroneous doubling of the pitch period will tend to produce a rough voice. Moreover, it is likely that doubling or halving a pitch period will occur intermittently, so that the synthesized voice will tend to crack or scratch intermittently.
Bevorzugte Anordnungen verwenden ein adaptives Filter, um das Restsignal zu filtern. Durch Verwendung eines zeitveränderlichen Filters, welches einen einzelnen Pol beim ersten Reflexionskoeffizienten (k1 der Spracheingabe) aufweist, wird das hochfrequente bzw. Hochfrequenz-Rauschen aus den stimmhaften Perioden der Sprache entfernt, jedoch wird die hochfrequente Information in den stimmlosen Sprachperioden zurückgehalten. Das adaptiv gefilterte Restsignal wird dann als die Eingabe für die Tonhöhenentscheidung verwendet.Preferred arrangements use an adaptive filter to filter the residual signal. By using a time varying filter having a single pole at the first reflection coefficient (k 1 of the speech input), the high frequency noise is removed from the voiced periods of the speech, but the high frequency information is retained in the unvoiced speech periods. The adaptively filtered residual signal is then used as the input for the pitch decision.
Es ist notwendig, die hochfrequente bzw. Hochfrequenz-Information in den stimmlosen Sprachperioden zurückzuhalten bzw. beizubehalten, um bessere Stimmhaftigkeits/Stimmlosigkeits-Entscheidungen zu gestatten. D.h., die "stimmlose" Stimmhaftigkeitsentscheidung wird normalerweise vorgenommen, wenn keine starke Tonhöhe vorgefunden wird, d.h., wenn keine Korrelationsverzögerung des Restsignals einen hohen normalisierten Korrelationswert liefert. Jedoch kann, wenn nur ein tiefpaßgefilterter Abschnitt des Restsignals während stimmlosen Sprachperioden getestet wird, dieses teilweise bzw. Teilsegment des Restsignals unechte Korrelationen aufweisen. D.h., die Gefahr ist, daß das abgeschnittene Restsignal, welches durch das festgelegte Tiefpaßfilter nach dem Stand der Technik erzeugt ist, nicht genug Daten beinhaltet, um zuverlässig zu zeigen, daß keine Korrelation während stimmloser Perioden besteht, und die zusätzliche, durch die hochfrequente Energie der stimmlosen Perioden zur Verfügung gestellte Bandbreite notwendig ist, um zuverlässig die unechten Korrelationsverzögerungen auszuschließen, welche andernfalls gefunden werden könnten.It is necessary, the high-frequency or high-frequency information in the to withhold voiceless speech periods or to maintain better voicing / voicelessness decisions to allow. That is, the "voiceless" voicing decision is usually done when no strong pitch is found is, that is, when no correlation delay of the residual signal high normalized correlation value. However, if just a low-pass filtered Section of the residual signal during voiceless speech periods is tested, this partial or sub-segment of the residual signal have spurious correlations. That is, the danger is that the truncated residual signal, which passes through the fixed low-pass filter produced according to the state of the art, does not contain enough data, to be reliable to show that no Correlation during voiceless periods, and the additional, by the high-frequency Energy of unvoiced periods provided bandwidth necessary is to be reliable the spurious correlation delays ruled out which could otherwise be found.
Eine Verbesserung in Tonhöhen- und Stimmhaftigkeitsentscheidungen ist besonders kritisch für Sprachnachrichtensysteme, ist jedoch auch für andere Anwendungen wünschenswert. Beispielsweise eine Worterkennungsvorrichtung, welche Tonhöheninformation mit einbezieht, würde natürlich ein gutes Tonhöhenabschätzverfahren erfordern. In ähnlicher Weise wird eine Tonhöheninformation manchmal zur Lautsprecher- bzw. Sprecherüberprüfung verwendet, insbesondere über eine Telefonleitung, wo eine hochfrequente Information teilweise verloren ist. Darüber hinaus wäre für zukünftige Weitbereichserkennungssysteme es wünschenswert, fähig zu sein, die syntaktische Information zu berücksichtigen, welche durch die Tonhöhe angegeben ist. In ähnlicher Weise wäre eine gute Analyse der Stimmhaftigkeit für einige fortschrittliche Spracherkennungssysteme, z.B. Sprache-zu-Text-Systeme wünschenswert.A Improvement in pitch and voicing decisions are particularly critical for voice messaging systems, is also for other applications desirable. For example, a word recognition device, which pitch information involved Naturally a good pitch estimation method require. In similar Way becomes a pitch information sometimes used for speaker checking, in particular over one Telephone line, where a high-frequency information is partially lost is. About that would be out for future wide-area detection systems it desirable able to be to consider the syntactic information provided by the pitch is specified. In similar Way would be a good voicing analysis for some advanced speech recognition systems, e.g. Speech-to-text systems desirable.
Der erste Reflexionskoeffizient k1 ist ungefähr auf das hoch/niederfrequente Energieverhältnis und ein Signal bezogen. Siehe R.J. McAulay, "Entwurf eines robusten Tonhöhenabschätzers maximaler Wahrscheinlichkeit für Sprache und zusätzliches Rauschen", Technische Notiz, 1979-28, Lincoln Labs, 11. Juni 1979. Für k1 nahe zu -1 gibt es mehr niederfrequente Energie in dem Signal als hochfrequente Energie und umgekehrt für k1 nahe zu 1. Somit wird durch Verwendung von k1 zum Bestimmen des Pols eines 1-poligen Deemphasis-Filters das Restsignal in den stimmhaften Sprachperioden tiefpaßgefiltert und wird in den stimmlosen Sprachperioden hochpaßgefiltert. Dies bedeutet, daß die Formanten-Frequenzen von einer Berechnung der Tonhöhe während der stimmhaften Perioden ausgeschlossen sind, während die notwendige Hochbandbreiteninformation in den stimmlosen Perioden zur genauen Detektion der Tatsache beibehalten wird, daß keine Tonhöhenkorrelation besteht.The first reflection coefficient k 1 is approximately related to the high / low frequency energy ratio and a signal. See RJ McAulay, "Designing a Robust Maximum Likelihood Pitch Estimator for Speech and Additional Noise", Technical Note, 1979-28, Lincoln Labs, June 11, 1979. For k 1 close to -1, there is more low frequency energy in the signal than high frequency energy and vice versa close to 1. Thus, for k 1 is low pass filtered by the use of k 1 to determine the pole of a 1-pole deemphasis filter, the residual signal in the voiced speech periods and is high pass filtered in the unvoiced speech periods. This means that the formant frequencies are excluded from calculation of the pitch during the voiced periods while maintaining the necessary high-bandwidth information in the unvoiced periods for accurate detection of the fact that there is no pitch correlation.
Vorzugsweise wird eine nachverarbeitende, dynamische Programmiertechnik verwendet, und nicht nur einen optimalen Tonhöhenwert, sondern auch eine optimale Stimmhaftigkeitsentscheidung zur Verfügung zu stellen. D.h., sowohl Tonhöhe wie auch Stimmhaftigkeit werden von Rahmen zu Rahmen nachgeführt und ein kumulativer Nachteil für eine Sequenz bzw. Abfolge von Rahmentonhöhen/Stimmhaftigkeitsentscheidungen wird für verschiedene Spuren akkumuliert, um die Spur zu finden, welche optimale Tonhöhen- und Stimmhaftigkeitsentscheidungen ergibt. Der kumulative Nachteil wird erhalten, indem ein Rahmenfehler eingeführt wird, der von einem Rahmen zum nächsten geht. Der Rahmenfehler benachteiligt vorzugsweise nicht nur große Abweichungen in der Tonhöhenperiode von Rahmen zu Rahmen, sondern benachteiligt auch Tonhöhenhypothesen, welche einen relativ schlechten Korrelations-"Güte"-Wert aufweisen, und benachteiligt auch Änderungen in der Stimmhaftigkeitsentscheidung, wenn das Spektrum relativ unverändert von Rahmen zu Rahmen ist. Dieses letzte Merkmal des Rahmenübergangsfehlers erzwingt deshalb Stimmhaftigkeitsübergänge zu den Punkten von maximaler spektraler Änderung.Preferably a post-processing, dynamic programming technique is used, and not only an optimal pitch value, but also a to provide optimal voicing decision. That is, both pitch as well as voicing are tracked from frame to frame and one cumulative disadvantage for a sequence of frame pitches / voicing decisions is for accumulated various tracks to find the track which optimal pitch and voicing decisions. The cumulative disadvantage is obtained by introducing a frame error from a frame to the next goes. The frame error preferably not only disadvantages large deviations in the pitch period from frame to frame, but also penalizes pitch hypotheses, which have a relatively poor correlation "goodness" value, and also penalizes changes in the voicing decision, if the spectrum is relatively unchanged from Frame to frame is. This last feature of the frame transition error therefore enforces voucher transitions to the points of maximum spectral change.
Das
Sprachnachrichtensystem beinhaltet ein Spracheingabesignal, welches
als eine Zeitserie si gezeigt ist, welches
an einem LPC-Analyseblock zur Verfügung gestellt wird. Die LPC-Analyse
kann durch eine breite Vielzahl konventioneller Techniken vorgenommen
werden, jedoch ist das Endprodukt ein Satz von LPC-Parametern und
einem Restsignal ui. Der Hintergrund einer
LPC-Analyse im allgemeinen und verschiedener Verfahren zur Extraktion
von LPC-Parametern wird in zahlreichen allgemein bekannten Literaturstellen gefunden,
beinhaltend Markel und Gray, Linear Prediction of Speed (
In der gegenwärtig bevorzugten Anordnung wird die analoge Sprachwellenform bei einer Frequenz von 8 KHz und mit einer Genauigkeit von 16 Bits abgetastet, um die Eingabezeitserie si zu erzeugen. Natürlich ist das System überhaupt nicht von der Abtastrate oder der verwendeten Genauigkeit abhängig und ist an Sprache, welche bei einer beliebigen Rate abgetastet wurde, oder mit jedem beliebigen Grad von Genauigkeit anwendbar.In the presently preferred arrangement, the analog speech waveform is sampled at a frequency of 8 KHz and with an accuracy of 16 bits to produce the input time series s i . Of course, the system is not at all dependent on the sampling rate or the accuracy used and is applicable to speech sampled at any rate or with any degree of accuracy.
In der gegenwärtig bevorzugten Anordnung beinhaltet der Satz von LPC-Parametern, welcher verwendet wird, eine Vielzahl von Reflexionskoeffizienten ki, und ein LPC-Modell der 10. Ordnung wird verwendet (d.h., nur die Reflexionskoeffizienten k1 bis k10 werden extrahiert bzw. entnommen, und Koeffizienten höherer Ordnung werden nicht extrahiert). Jedoch können andere Modellreihenfolgen bzw. -ordnungen oder andere gleichwertige Sätze von LPC-Parametern ver wendet werden, wie es für jene mit Erfahrung in der Technik bekannt ist. Beispielsweise können die LPC-Vorhersagekoeffizienten ak verwendet werden oder die Impulsantwortabschätzungen ek. Jedoch sind die Reflexionskoeffizienten ki am bequemsten.In the presently preferred arrangement, the set of LPC parameters which is used includes a plurality of reflection coefficients k i , and a 10th-order LPC model is used (ie, only the reflection coefficients k 1 to k 10 are extracted). and higher order coefficients are not extracted). However, other model orders or other equivalent sets of LPC parameters may be used, as is known to those of skill in the art. For example, the LPC prediction coefficients a k may be used or the impulse response estimates e k . However, the reflection coefficients k i are most convenient.
In der gegenwärtig bevorzugten Anordnung werden die Reflexionskoeffizienten gemäß dem Leroux-Gueguen-Verfahren extrahiert, welches beispielsweise in den IEEE Transactions on Acoustic, Speech and Signal Processing, Seite 257 (Juni 1977), dargelegt ist.In the present preferred arrangement, the reflection coefficients according to the Leroux-Gueguen method extracted, for example, in the IEEE Transactions on Acoustic, Speech and Signal Processing, page 257 (June 1977).
Jedoch könnten andere Algorithmen, welche jenen mit Erfahrung in der Technik gut bekannt sind, wie beispielsweise Durbin's verwendet werden, um die Koeffizienten zu berechnen.however could other algorithms that are good for those with experience in engineering are known, such as Durbin's are used to the coefficients to calculate.
Ein Nebenprodukt der Berechnung der LPC-Parameter wird typischerweise ein Restsignal uk sein. Jedoch kann, wenn die Parameter durch ein Verfahren berechnet werden, welches nicht automatisch uk als ein Nebenprodukt ausgibt bzw. hervorbringt, der Rest einfach durch Verwendung der LPC-Parameter gefunden werden, um ein digitales Filter mit endlicher Impulsantwort zu konfigurieren, welches direkt die Restserie uk aus der eingegebenen bzw. Eingangsserie sk berechnet.A by-product of calculating the LPC parameters will typically be a residual signal u k . However, if the parameters are calculated by a method that does not automatically output u k as a by-product, the remainder can be found simply by using the LPC parameters to configure a finite impulse response digital filter which directly generates the residual series uk is calculated from the input or input series sk.
Die
Restsignalzeitserie uk wird nun durch einen
sehr einfachen digitalen Filtervorgang gegeben, welcher von den
LPC-Parametern für
den aktuellen Rahmen abhängig
ist. D.h., das Spracheingabesignal sk ist eine
Zeitserie, welche einen Wert aufweist, welcher sich einmal in jeder
Abtastung bei einer Abtastrate von z.B. 8 KHz ändern kann. Jedoch werden die
LPC-Parameter normalerweise nur einmal in jeder Rahmenperiode bei einer
Rahmenfrequenz von z.B. 100 Hz neu berechnet. Das Restsignal uk ebenfalls weist eine Periode gleich der
Abtastperiode auf. Somit ist bzw. wird das Digitalfilter, dessen
Wert von den LPC-Parametern abhängig
ist, vorzugsweise nicht bei jedem Restsignal uk neu
eingestellt. In der gegenwärtig
bevorzugten Anordnung treten ungefähr 80 Werte in der Restsignalzeitserie
uk durch das Filter
Insbesondere
wird der erste Reflektionskoeffizient k1 aus
dem Satz von LPC-Parametern extrahiert, welche durch den LPC-Analyseabschnitt
Das System verwendet vorzugsweise den ersten Reflexionskoeffizienten, um 1-poliges adaptives Filter zu definieren. Jedoch muß das Filter nicht ein einpoliges Filter sein, sondern kann als ein komplexeres Filter konfiguriert sein, welches einen oder mehrere Pole oder eine oder mehrere Nullen aufweist, von welchen einige oder alle adaptiv variiert werden können.The System preferably uses the first reflection coefficient, to define 1-pole adaptive filter. However, the filter has to not a single-pole filter, but can be considered a more complex Filter configured to one or more poles or a or several zeros, some or all of which are adaptive can be varied.
Es sollte auch beachtet werden, daß die adaptive Filtercharakteristik bzw. Charakteristik des adaptiven Filters nicht durch den ersten Reflexionskoeffizienten k1 bestimmt werden muß. Wie es in der Technik gut bekannt ist, gibt es zahlreiche gleichwertige Sätze von LPC-Parametern, und die Parameter in anderen LPC-Parametersätzen können ebenfalls wünschenswerte Filtercharakteristika zur Verfügung stellen. Besonders in einem beliebigen Satz von LPC-Parametern sind die Parameter der niedrigsten Ordnung am wahrscheinlichsten, Information über die grobe spektrale Form zur Verfügung zu stellen. Somit könnte ein adaptives Filter a1 oder e1 verwenden, um einen Pol zu definieren, wobei dies ein einziger oder Mehrfachpol sein kann und alleine oder in Kombination mit anderen Nullen und/oder Polen verwendet werden kann. Darüber hinaus muß der Pol (oder null), welcher adaptiv durch ein LPC-Parameter definiert ist, nicht exakt mit diesem Parameter zusammenfallen, sondern kann in Größe oder Phase verschoben sein bzw. werden.It should also be noted that the adaptive filter characteristic of the adaptive filter need not be determined by the first reflection coefficient k 1 . As is good in the art If there are many equivalent sets of LPC parameters, and the parameters in other LPC parameter sets can also provide desirable filter characteristics. Especially in any set of LPC parameters, the lowest order parameters are most likely to provide information about the coarse spectral shape. Thus, an adaptive filter could use a 1 or e 1 to define a pole, which may be a single or multiple pole, and may be used alone or in combination with other zeros and / or poles. Moreover, the pole (or zero), which is adaptively defined by an LPC parameter, does not have to coincide exactly with this parameter, but may be shifted in magnitude or phase.
Somit filtert das 1-polige adaptive Filter die Restsignalzeitserie uk, um eine gefilterte Zeitserie u'k zu erzeugen. Wie oben besprochen, wird diese gefilterte Zeitserie u'k, ihre hochfrequente Energie bedeutend während der stimmhaften Sprachsegmente reduziert aufweisen, wird jedoch nahezu die vollständige Frequenzbandbreite während der stimmlosen Sprachsegmente beibehalten. Dieses gefilterte Restsignal u'k wird dann einer weiteren Verarbeitung unterzogen, um die Tonhöhenkandidaten und die Stimmhaftigkeitsentscheidung zu extrahieren.Thus, the 1-pole adaptive filter filters the residual signal time series u k to produce a filtered time series u ' k . As discussed above, this filtered time series u ' k will have significantly reduced its high-frequency energy during the voiced speech segments, but nearly the complete frequency bandwidth will be maintained throughout the unvoiced speech segments. This filtered residual signal u ' k is then subjected to further processing to extract the pitch candidate and the voicing decision.
Eine breite Vielzahl von Verfahren zum Extrahieren der Tonhöheninformation aus einem Restsignal besteht und jede von diesen kann verwendet werden. Viele von diesen werden im allgemeinen in dem oben erwähnten Buch von Markel und Gray besprochen.A wide variety of methods for extracting the pitch information consists of a residual signal and any of these can be used become. Many of these are generally discussed in the book mentioned above discussed by Markel and Gray.
In der gegenwärtig bevorzugten Anordnung werden die Kandidatentonhöhenwerte erhalten, indem die Spitzen in der normalisierten Korrelationsfunktion des gefilterten Restsignals gefunden wird, definiert wie folgt: wo u'j das gefilterte Restsignal ist, kmin und kmax die Grenzen für die Korrelationsverzögerung k definieren, und m die Anzahl von Abtastungen in einer Rahmenperiode (80 in der bevorzugten Anordnung) ist und deshalb die Anzahl von zu korrelierenden Abtastungen definiert. Die Kandidatentonhöhenwerte sind bzw. werden durch die Verzögerungen k* definiert, bei welchem der Wert von C(k*) ein örtliches Maximum annimmt, und der skalare Wert von C(k) verwendet wird, um einen "Güte"-Wert für jeden Kandidaten k* zu definieren.In the presently preferred arrangement, the candidate pitch values are obtained by finding the peaks in the normalized correlation function of the filtered residual signal, defined as follows: where u ' j is the filtered residual signal, k min and k max define the boundaries for the correlation delay k, and m is the number of samples in a frame period (80 in the preferred arrangement) and therefore defines the number of samples to be correlated. The candidate pitch values are defined by the delays k * at which the value of C (k *) takes a local maximum and the scalar value of C (k) is used to obtain a "goodness" value for each candidate k * to define.
Optional wird ein Schwellenwert-Wert Cmin auf dem Gütemaß C(k) eingeführt, und lokale bzw. örtliche Maxima von C(k), welche nicht den Schwellwert Cmin überschreiten, werden ignoriert. Wenn kein k* existiert, für welches C(k*) größer als Cmin ist, dann ist der Rahmen notwendigerweise stimmlos.Optionally, a threshold value C min is introduced on the quality measure C (k), and local maxima of C (k) that do not exceed the threshold C min are ignored. If no k * exists for which C (k *) is greater than C min , then the frame is necessarily unvoiced.
Alternativ
kann der Güteschwellwert
Cmin entfallen und die normalisierte Autokorrelationsfunktion
In einer Anordnung ist bzw. wird überhaupt kein Schwellwert auf dem Gütewert C(k) eingeführt bzw. diesem überlagert, und keine Stimmhaftigkeitsentscheidung wird auf dieser Stufe vorgenommen. Stattdessen werden die 16 Tonhöhenperiodenkandidaten k*1, k*2 usw. zusammen mit dem entsprechenden Gütewert (C(k*i)) für jeden Einzelnen ausgewiesen. In der gegenwärtig bevorzugten Anordnung wird die Stimmhaftigkeitsentscheidung auf dieser Stufe nicht vorgenommen, selbst wenn alle der C(k)-Werte extrem niedrig sind, jedoch wird die Stimmhaftigkeitsentscheidung vorgenommen in dem nachfolgenden dynamischen Programmierschritt, welcher unten besprochen bzw. diskutiert wird.In one arrangement, no threshold is imposed on or superimposed on the quality value C (k), and no voicing decision is made at this stage. Instead, the 16 pitch period candidates k * 1 , k * 2 , etc., along with the corresponding quality value (C (k * i )) are reported for each individual. In the presently preferred arrangement, the voicing decision is not made at this stage, even if all of the C (k) values are extremely low, but the voicing decision is made in the subsequent dynamic programming step, discussed below.
In der gegenwärtig bevorzugten Anordnung ist bzw. wird eine veränderliche Anzahl von Tonhöhenkandidaten entsprechend einem Spitzenfindungsalgorithmus identifiziert. D.h., der Graph der "Güte"-Werte C(k), verglichen mit der Kandidatentonhöhenperiode k wird nachgeführt bzw. verfolgt. Jedes örtliche Maximum ist als eine mögliche Spitze identifiziert. Jedoch ist bzw. wird das Vorhandensein einer Spitze an diesem identifizierten lokalen bzw. örtlichen Maximum nicht bestätigt, bis die Funktion danach um einen konstanten Betrag abgefallen ist. Dieses bestätigte lokale Maximum stellt dann einen der Tonhöhenperiodenkandidaten zur Verfügung. Nachdem jeder Spitzenkandidat auf diese Weise identifiziert wurde, sucht der Algorithmus danach nach einem Tal. D.h., jedes lokale Minimum ist bzw. wird als ein mögliches Tal identifiziert, ist jedoch nicht als ein Tal bestätigt, bis die Funktion danach um einen vorbestimmten konstanten Wert angestiegen ist. Die Täler wer den nicht getrennt ausgezeichnet bzw. berichtet, jedoch wird ein bestätigtes Tal nötig, nachdem eine bestätigte Spitze vor einer neuen Spitze identifiziert werden wird. In der gegenwärtig bevorzugten Ausführungsform, wo die Gütewerte definiert sind, um durch +1 oder –1 begrenzt zu sein, wurde der zur Bestätigung einer Spitze oder eines Tals erforderliche konstante Wert auf 0,2 eingestellt, jedoch kann dies weitgehend geändert werden. Somit stellt diese Stufe eine variable Anzahl von Tonhöhenkandidaten als Ausgabe, von null bis 15 zur Verfügung.In the presently preferred arrangement, a variable number of pitch candidates is identified according to a peaking algorithm. That is, the graph of "goodness" values C (k) compared with the candidate pitch period k is tracked. Each local maximum is identified as a possible peak. However, the presence of a peak at this identified local or local maximum is not confirmed until after that the function has dropped by a constant amount. This confirmed local maximum will then provide one of the pitch period candidates. After identifying each leading candidate in this way, the algorithm then searches for a valley. That is, each local minimum is identified as a possible valley, but is not acknowledged as a valley until thereafter the function has increased by a predetermined constant value. The valleys who does not honor or report separately, however, a confirmed valley will be needed after a confirmed peak is identified before a new peak. In the presently preferred embodiment, where the quality values are defined to be bounded by +1 or -1, the constant value required to confirm a peak or valley has been set to 0.2, but this can be largely changed. Thus, this stage provides a variable number of pitch candidates as output, from zero to 15.
In der gegenwärtig bevorzugten Anordnung wird der Satz von Tonhöhenperiodenkandidaten, welche durch die vorangegangenen Schritte zur Verfügung gestellt werden, dann zu einem dynamischen Programmieralgorithmus zur Verfügung gestellt. Dieser dynamische Programmieralgorithmus verfolgt dann sowohl Tonhöhen- wie auch Stimmhaftigkeitsentscheidungen, um eine Tonhöhen- und Stimmhaftigkeitsentscheidung für jeden Rahmen bereitzustellen, welcher optimal im Zusammenhang seiner Nachbarn ist.In the present preferred arrangement is the set of pitch period candidates, which by the previous steps are provided, then provided to a dynamic programming algorithm. This dynamic programming algorithm then tracks both pitch and pitch also voicing decisions to make a pitch and Vocabulary decision for to provide every frame which is optimal in the context of his Neighbors is.
Angesichts der Kandidatentonhöhenwerte und ihrer Gütewerte C(k) wird nun dynamisches Programmieren verwendet, um eine optimale Tonhöhenkontur bzw. -umrißlinie zu erhalten, welche eine optimale Stimmhaftigkeitsentscheidung für jeden Rahmen beinhaltet. Das dynamische Programmieren erfordert, daß verschiedene Sprachrahmen in einem Segment von Sprache analysiert werden, bevor die Tonhöhe und Stimmhaftigkeit für den ersten Rahmen des Segments entschieden werden kann. Bei jedem Rahmen des Sprachsegments wird jeder Tonhöhenkandidat mit den zurückgehaltenen Tonhöhenkandidaten des vorhergehenden Rahmens verglichen. Jeder zurückgehaltene Tonhöhenkandidat von dem vorhergehenden Rahmen trägt mit sich einen kumulativen bzw. zunehmenden Nachteil bzw. Abzug, und jeder Vergleich zwischen einem neuen Tonhöhenkandidaten und jedem der zurückgehaltenen Tonhöhenkandidaten weist auch ein neues Distanz- bzw. Abstandsmaß auf. Somit gibt es für jeden Tonhöhenkandidaten in dem neuen Rahmen einen kleinsten Nachteil bzw. Abzug, welcher eine beste Übereinstimmung mit einem der bei- bzw. zurückgehaltenen Tonhöhenkandidaten des vorhergehenden Rahmens repräsentiert. Wenn der kleinste kumulative Nachteil für jeden neuen Kandidaten berechnet wurde, wird der Kandidat zusammen mit seinem kumulativen Nachteil und einem Rückwärtszeiger zu der besten Übereinstimmung in dem vorhergehenden Rahmen zurückgehalten. Somit definieren die Rückwärtszeiger eine Trajektorie bzw. Zustandskurve, welche einen kumulativen Abzug aufweist, wie in dem kumulativen Abzugswert des letzten Rahmens in der Projektrate aufgezeichnet wurde. Die optimale Trajektorie für jeden gegebenen Rahmen wird durch ein Auswählen der Trajektorie mit dem minimalen kumulativen Nachteil erhalten. Der stimmlose Zustand ist als ein Tonhöhenkandidat auf jedem Rahmen definiert. Die Abzugs- bzw. Nachteilsfunktion beinhaltet vorzugsweise Stimmhaftigkeitsinformation, so daß die Stimmhaftigkeitsentscheidung eine natürliche Folge der dynamischen Programmierstrategie ist.in view of the candidate pitch values and their quality values C (k) is now using dynamic programming to get an optimal pitch contour or outline to get an optimal voicing decision for each one Frame includes. Dynamic programming requires different ones Speech frames in a segment of speech are analyzed before the pitch and voicing for the first frame of the segment can be decided. At each Within the speech segment, each pitch candidate is withheld pitch candidates of the previous frame. Each withheld pitch candidate from the previous frame entails a cumulative or increasing disadvantage or deduction, and every comparison between a new pitch candidate and each of the retained pitch candidates also has a new distance or distance measure. Thus there is for everyone pitch candidates in the new frame a slight drawback or deduction, which a best match with one of the with or withheld pitch candidates of the previous frame. When calculating the smallest cumulative disadvantage for each new candidate became the candidate along with his cumulative disadvantage and a backward pointer to the best match retained in the previous frame. Thus, the backward pointers define a trajectory or state curve, which is a cumulative deduction as in the cumulative subtraction value of the last frame was recorded in the project rate. The optimal trajectory for each given frame is selected by selecting the trajectory with the receive minimal cumulative disadvantage. The unvoiced state is as a pitch candidate defined on every frame. The deduction or disadvantage function includes preferably voicing information so that the voicing decision a natural one Consequence of the dynamic programming strategy is.
In der gegenwärtig bevorzugten Anordnung ist die dynamische Programmierstrategie 16 breit und 6 tief. D.h., 15 Kandidaten (oder weniger) plus der "Stimmlosigkeits"-Entscheidung (zur Bequemlichkeit als eine Null-Tonhöhenperiode festgelegt) werden als mögliche Tonhöhenperiode auf jedem Rahmen identifiziert, und alle 16 Kandidaten zusammen mit ihren Gütewerten werden für die 6 vorhergehenden Rahmen zurückgehalten.In the present preferred arrangement is the dynamic programming strategy 16 wide and 6 deep. That is, 15 candidates (or less) plus the "voicelessness" decision (for Convenience as a zero pitch period) as possible pitch period identified on each frame, and all 16 candidates together with their quality values be for retained the 6 previous frames.
Die Entscheidungen über Tonhöhe und Stimmhaftigkeit werden endgültig nur in bezug auf den ältesten Rahmen vorgenommen, welcher in dem dynamischen Programmieralgorithmus enthalten ist. D.h., die Tonhöhen- und Stimmhaftigkeitsentscheidung würde die Kandidatentonhöhe beim Rahmen FK-5 akzeptieren, dessen gegenwärtige Trajektorien-Kosten minimal waren. D.h. von den 16 (oder weniger) Trajektorien, welche am neuesten bzw. frischesten Rahmen FK enden, identifiziert die Kandidatentonhöhe im Rahmen FK, welche die geringsten kumulativen Trajektorien-Kosten aufweist, die optimale Trajektorie. Diese optimale Trajektorie wird dann zurückverfolgt und verwendet, um die Tonhöhen/Stimmhaftigkeitsentscheidung für Rahmen FK-5 vorzunehmen. Es soll beachtet werden, daß keine endgültige Entscheidung über die Tonhöhenkandidaten in nachfolgenden Rahmen (Fk-4 usw.) vorgenommen wird, da die optimale Trajektorie nicht länger optimal erscheinen mag, nachdem mehrere Rahmen bewertet sind. Natürlich kann, wie es für jene mit Erfahrung in der Technik und der numerischen Optimierung wohl bekannt ist, eine endgültige Entscheidung in einem derartigen dynamischen Programmieralgorithmus alternativ zu anderen Zeiten bzw. Zeitpunkten vorgenommen werden, z.B. im nächsten bis letzten Rahmen, der in dem Puffer gehalten wird. Zusätzlich können die Breite und Tiefe des Puffers weitgehend variiert werden. Beispielsweise können bis zu 64 Tonhöhenkandidaten bewertet werden oder sowenig wie zwei; der Puffer könnte sowenig wie einen vorigen Rahmen zurückhalten, oder soviel wie 16 vorige Rahmen oder mehr, und andere Modifikationen und Abänderungen können eingerichtet werden, wie durch jene mit Erfahrung in der Technik erkannt werden wird. Der dynamische Programmieralgorithmus ist bzw. wird durch den Übergangsfehler zwischen einem Tonhöhenperiodenkandidaten in einem Rahmen und einem anderen Tonhöhenperiodenkandidaten in dem nachfolgenden Rahmen definiert. In der gegenwärtig bevorzugten Anordnung ist dieser Übergangsfehler als die Summe von drei Teilen definiert: einem Fehler Ep aufgrund von Tonhöhenabweichungen, einem Fehler Es aufgrund von Tonhöhenkandidaten, welche einen niedrigen "Güte"-Wert aufweisen, und einem Fehler Et aufgrund des Stimmhaftigkeitsübergangs.The pitch and voicing decisions are finally made only with respect to the oldest frame included in the dynamic programming algorithm. That is, the pitch and voicing decision would accept the candidate pitch at frame F K -5 whose current trajectory cost was minimal. That is, out of the 16 (or fewer) trajectories ending in the most recent frame F K , the candidate pitch in frame F K , which has the lowest cumulative trajectory cost, identifies the optimal trajectory. This optimal trajectory is then traced back and used to make the pitch / voicing decision for frames F K -5. It should be noted that no final decision is made about the pitch candidates in subsequent frames (F k -4, etc.) because the optimal trajectory may no longer appear optimal after multiple frames are evaluated. Of course, as is well known to those of skill in the art and numerical optimization, a final decision in such a dynamic programming algorithm may alternatively be made at other times, eg, in the next to last frame held in the buffer becomes. In addition, the width and depth of the buffer can be varied widely. For example, up to 64 pitch candidates can be rated, or as few as two; the buffer could hold back as little as a previous frame, or as many as 16 previous frames or more, and other modifications and alterations can be made as will be appreciated by those of skill in the art. The dynamic programming algorithm is defined by the transition error between a pitch period candidate in one frame and another pitch period candidate in the subsequent frame. In the presently preferred arrangement, this transient error is defined as the sum of three parts: an error E p on reason of pitch deviations, an error E s due to pitch candidates having a low "goodness" value, and an error E t due to the voicing transition.
Der Tonhöhenabweichungsfehler Ep ist eine Funktion der gegenwärtigen Tonhöhenperiode und der vorigen Tonhöhenperiode, angegeben durch: wenn beide Rahmen stimmhaft sind, und EP = BP mal DN andernfalls; wo tau die Kandidatentonhöhenperiode des gegenwärtigen Rahmens ist, tauP eine zurückgehaltene Tonhöhenperiode des vorigen Rahmens, in bezug auf welchen der Übergangsfehler berechnet wird, ist, und BP, AD und DN Konstante sind. Es soll beobachtet werden, daß die Minimumfunktion eine Vorkehrung zur Tonhöhenperiodenverdopplung und Tonhöhenperiodenhalbierung beinhaltet. Diese Vorkehrung ist nicht unbedingt notwendig, wird jedoch als vorteilhaft betrachtet. Natürlich könnte optional eine ähnliche Vorkehrung zur Tonhöhenperiodenverdreifachung beinhaltet sein, usw.The pitch deviation error E p is a function of the current pitch period and the previous pitch period, indicated by: if both frames are voiced, and E P = B P times D N otherwise; where tau is the candidate pitch period of the current frame, tau P is a retained pitch period of the previous frame with respect to which the transition error is calculated, and B P , A D and D N are constants. It should be noted that the minimum function includes provision for pitch-period doubling and pitch-period bisecting. This provision is not strictly necessary but is considered advantageous. Of course, an optional provision for pitch tripling could optionally be included, etc.
Der Stimmhaftigkeitszustandsfehler ES ist eine Funktion des "Güte"-Werts C(k) des gegenwärtig betrachteten Rahmentonhöhenkandidaten. Für den stimmlosen Kandidaten, welcher immer unter den 16 oder weniger Tonhöhenperiodenkandidaten enthalten ist, die für jeden Rahmen zu berücksichtigen sind, wird der Gütewert C(k) gleich dem Maximum von C(k) für alle anderen 15 Tonhöhenperiodenkandidaten im selben Rahmen gesetzt. Der Stimmhaftigkeitszustandsfehler ES ist gegeben durch ES=BS(Rv – C(tau), wenn der gegenwärtige Kandidat stimmhaft ist, und ES=BS (C(tau) – RU) andernfalls, wo C(tau) der "Gütewert" entsprechend dem gegenwärtigen Tonhöhenkandidaten tau ist, und BS, RV, und RU Konstante sind.The voicing state error E S is a function of the "goodness" value C (k) of the currently considered frame pitch candidate. For the unvoiced candidate which is always included among the 16 or less pitch period candidates to be considered for each frame, the quality value C (k) is set equal to the maximum of C (k) for all the other 15 pitch period candidates in the same frame. The voicing state error E S is given by E S = B S (R v - C (tau) if the current candidate is voiced, and E S = B s (C (tau) - R U ) otherwise where C (tau) is the "quality value" corresponding to the current pitch candidate tau, and B S , R V , and R U are constants.
Der Stimmhaftigkeitsübergangsfehler ET ist im Hinblick auf ein spektrales Differenzmaß T definiert. Das spektrale Differenzmaß T definierte, für jeden Rahmen, im allgemeinen, wie unterschiedlich sein Spektrum von dem Spektrum des aufnehmenden Rahmens ist. Offensichtlich könnte eine Anzahl von Definitionen für ein derartiges spektrales Differenzmaß verwendet werden, welches in der gegenwärtig bevorzugten Anordnung definiert ist wie folgt: wo E die RMS-Energie bzw. -Effektivwertenergie des gegenwärtigen Rahmens ist, EP die Energie des vorigen Rahmens ist, L(N) ist der N-te Logarithmus des Flächenverhältnisses des augenblicklichen Rahmens und LP(N) N-te Logarithmus des Flächenverhältnisses des vorigen Rahmens ist. Das logarithmische Flächenverhältnis L(N) wird direkt aus dem N-ten Reflexionskoeffizienten kN berechnet wie folgt: The voicing transition error E T is defined with respect to a spectral difference measure T. The spectral difference measure T, for each frame, generally defines how different its spectrum is from the spectrum of the receiving frame. Obviously, a number of definitions could be used for such a spectral difference measure defined in the presently preferred arrangement as follows: where E is the RMS energy of the current frame, E P is the energy of the previous frame, L (N) is the Nth logarithm of the area ratio of the current frame, and L P (N) is the Nth logarithm of the current frame Area ratio of the previous frame is. The logarithmic area ratio L (N) is calculated directly from the Nth reflection coefficient k N as follows:
Der
Stimmhaftigkeitsübergangsfehler
ET ist dann als eine Funktion des spektralen
Differenzmaßes
T definiert wie folgt:
Wenn der gegenwärtige und vorige Rahmen beide
stimmlos sind, oder wenn beide stimmhaft sind, wird ET = 0
gesetzt;
andernfalls, ET = GT + AT/T, wo T das
spektrale Differenzmaß bzw.
Maß der
spektralen Differenz des gegenwärtigen
Rahmens ist. Wieder könnte
die Definition des Stimmhaftigkeitsübergangsfehlers weitgehend
variiert werden. Das Schlüsselmerkmal
des wie hier definierten Stimmhaftigkeitsübergangsfehlers ist, daß, wann
immer eine Stimmhaftigkeitszustandsänderung (stimmhaft zu stimmlos
oder stimmlos zu stimmhaft) auftritt, ein Nachteil bzw. Abzug festgestellt
wird, welcher eine abnehmende Funktion der spektralen Differenz
zwischen den zwei Rahmen ist. D.h., eine Änderung im Stimmhaftigkeitszustand
wird mißbilligt,
außer
es tritt auch ein beträchtlicher
spektraler Wechsel auf.The voicing transition error E T is then defined as a function of the spectral difference measure T as follows:
If the current and previous frames are both unvoiced, or if both are voiced, E T = 0 is set;
otherwise, E T = G T + A T / T where T is the spectral difference measure of the spectral difference of the current frame. Again, the definition of voicing transition error could be widely varied. The key feature of the voicing transition error as defined herein is that whenever a voicing state change (voiced to unvoiced or voiceless to voiced) occurs, a penalty is found which is a decreasing function of the spectral difference between the two frames is. That is, a change in the voicing state is disfavored unless a considerable spectral change also occurs.
Eine derartige Definition eines Stimmhaftigkeitsübergangsfehlers liefert beträchtliche Vorteile, da sie die Verarbeitungszeit reduziert, die erforderlich ist, um ausgezeichnete Stimmhaftigkeitsentscheidungen zu liefern.A Such definition of voicing transition error provides considerable Benefits because it reduces the processing time required is to deliver excellent voicing decisions.
Die anderen Fehler ES und EP, welche den Übergangsfehler in der gegenwärtig bevorzugten Anordnung ausmachen, können ebenfalls verschiedenartig definiert sein. D.h., der Stimmhaftigkeitszustandsfehler kann auf jede Weise definiert sein, welche im allgemeinen Tonhöhenperiodenhypothesen, welche zu den Daten in dem gegenwärtigen Rahmen zu passen scheinen, gegenüber jenen bevorzugt, welche weniger gut zu den Daten passen. In ähnlicher Weise kann der Tonhöhenabweichungsfehler EP auf jede Weise definiert sein, welche im allgemeinen mit Änderungen in der Tonhöhenperiode übereinstimmt bzw. diesen entspricht. Es ist nicht notwendig für den Tonhöhenabweichungsfehler, eine Vorkehrung zum Verdoppeln und Halbieren zu beinhalten, wie dies hier festgelegt wurde, obwohl eine derartige Vorkehrung wünschenswert ist.The other errors E s and E p which make up the transient error in the presently preferred arrangement may also be variously defined. That is, the voicing state error may be defined in any manner which in the general pitch-period hypotheses that appear to fit the data in the current frame is preferable to those that are less suitable for the data. Similarly, the pitch deviation error E p may be defined in any manner which generally coincides with or corresponds to changes in the pitch period. It is not necessary for the pitch deviation error to include a provision for doubling and halving, as defined herein, although such provision is desirable.
Ein weiteres optionales Merkmal ist, daß, wenn der Tonhöhenabweichungsfehler Vorkehrungen zum Nachfolgen der Tonhöhe über Verdopplungen und Halbierungen beinhaltet, es wünschenswert sein kann, die Tonhöhenperiodenwerte entlang der optimalen Trajektorie zu verdoppeln (oder zu halbieren), nachdem die optimale Trajektorie identifiziert wurde, um diese so weit wie möglich konsistent bzw. einheitlich zu machen.One Another optional feature is that when the pitch deviation error Arrangements for tracking pitch over doubling and halving includes, it desirable may be the pitch period values to double (or halve) along the optimal trajectory after the optimal trajectory has been identified, so to speak as far as possible consistent or uniform.
Es sollte beachtet werden, daß es nicht notwendig ist, alle der drei identifizierten Komponenten des Übergangsfehlers zu verwenden. Beispielsweise könnte der Stimmhaftigkeitszustandsfehler ausgelassen sein, wenn einige vorige Stufen Tonhöhenhypothesen mit einem niedrigen "Güte"-Wert ausschlossen, oder wenn die Tonhöhenperioden auf nach dem "Güte"-Wert in einer gewissen Weise derart geordnet wurden, daß die Tonhöhenperioden, welche einen höheren Gütewert aufweisen, bevorzugt würden, oder auf andere Weise. In ähnlicher Weise können andere Komponenten in der Übergangsfehlerdefinition nach Wunsch beinhaltet sein.It should be noted that it not necessary, all of the three identified components of the transient error to use. For example, could the voicing state error should be omitted if some previous levels Pitch hypotheses excluded with a low "goodness" value, or if the pitch periods on the "goodness" value in a certain Were arranged such that the pitch periods, which have a higher quality value, would be preferred or otherwise. In similar Way you can other components in the transition error definition to be included as desired.
Es sollte auch beachtet werden, daß das dynamische Programmierverfahren, welches hierin gelehrt wurde, nicht notwendigerweise auf Tonhöhenperiodenkandidaten angewendet werden muß, welche aus einem adaptiv gefilterten Restsignal extrahiert wurden, noch auf Tonhöhenperiodenkandidaten, welche aus dem LPC-Restsignal abgeleitet wurden, sondern auf jeden Satz von Tonhöhenperiodenkandidaten angewendet werden kann, welche Tonhöhenperiodenkandidaten beinhalten, die direkt aus dem ursprünglichen Eingabesprachsignal extrahiert wurden.It should also be noted that the dynamic programming methods taught herein necessarily on pitch period candidates must be applied which have been extracted from an adaptively filtered residual signal, still on pitch period candidates, which were derived from the LPC residual signal, but on each Set of pitch period candidates can be applied which include pitch period candidates, directly from the original Input speech signal were extracted.
Diese drei Fehler werden dann summiert, um den Gesamtfehler zwischen irgendeinem Tonhöhenkandidaten in dem gegenwärtigen Rahmen und irgendeinem Tonhöhenkandidaten in dem vorhergehenden Rahmen zur Verfügung zu stellen. Wie oben angemerkt wurde, werden diese Übergangsfehler dann kumulativ summiert, um kumulative Nachteile bzw. Abzüge für jede Trajektorie in dem dynamischen Programmieralgorithmus zur Verfügung zu stellen.These Three errors are then summed to the total error between any one pitch candidates in the present Frame and any pitch candidate in the previous frame. As noted above became, these transitional errors then summed cumulatively, to cumulative penalty for each trajectory available in the dynamic programming algorithm put.
Dieses dynamische Programmierverfahren für ein gleichzeitiges Finden von sowohl Tonhöhe wie auch Stimmhaftigkeit ist in sich selbst neuartig, und muß nicht nur in Kombination mit den gegenwärtig bevorzugten Verfahren eines Findens von Tonhöhenperiodenkandidaten verwendet werden. Jedes Verfahren zum Finden von Tonhöhenkandidaten kann in Kombination mit diesem neuartigen dynamischen Programmieralgorithmus verwendet werden. Egal welches Verfahren verwendet wird, um Tonhöhenperiodenkandidaten zu finden, werden die Kandidaten einfach als Eingabe zu dem dynamischen Programmieralgorithmus zur Verfügung gestellt.This dynamic programming method for simultaneous finding from both pitch as well as voicing is in itself novel, and does not have to only in combination with the currently preferred methods a finding of pitch period candidates be used. Any method for finding pitch candidates Can be used in combination with this novel dynamic programming algorithm become. No matter which method is used to pitch period candidates To find the candidates are simply as input to the dynamic Programming algorithm available posed.
Insbesondere ist, während ein Verwenden eines Minicomputers und ein hochgenaues Abtasten gegenwärtig bevorzugt sind, dieses System nicht wirtschaftlich für großvolumige Anwendungen. Somit wird von dem bevorzugten System in der Zukunft erwartet, eine Anordnung zu sein, welche ein auf einem Mikrocomputer basierendes System verwendet, wie beispielsweise den TI Professional Computer.Especially is while using a minicomputer and high-precision sampling are presently preferred This system is not economical for large volume applications. Consequently is expected from the preferred system in the future, an arrangement to be using a microcomputer based system, such as the TI Professional Computer.
Dieser professionelle Computer, wenn er mit einem Mikrophon, Lautsprecher und einer Sprachverarbeitungskarte konfiguriert ist, beinhaltend einen TMS 320 numerisch verarbeitenden Mikroprozessor und Datenwandler, ist ausreichende Hardware, um das System zu realisieren.This professional computer when using a microphone, speakers and a voice processing card is configured, including a TMS 320 numeric processing microprocessor and data converter, is sufficient hardware to implement the system.
Claims (8)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US388909 | 1999-08-31 | ||
US09/388,909 US6275806B1 (en) | 1999-08-31 | 1999-08-31 | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
PCT/US2000/024267 WO2001016570A1 (en) | 1999-08-31 | 2000-08-31 | System, method, and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60031432D1 DE60031432D1 (en) | 2006-11-30 |
DE60031432T2 true DE60031432T2 (en) | 2007-08-30 |
Family
ID=23536042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60031432T Expired - Lifetime DE60031432T2 (en) | 1999-08-31 | 2000-08-31 | SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS |
Country Status (7)
Country | Link |
---|---|
US (3) | US6275806B1 (en) |
EP (1) | EP1222448B1 (en) |
AT (1) | ATE343120T1 (en) |
AU (1) | AU7111000A (en) |
DE (1) | DE60031432T2 (en) |
IL (2) | IL148388A0 (en) |
WO (1) | WO2001016570A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019110215A1 (en) | 2017-12-04 | 2019-06-13 | Siemens Mobility GmbH | Automated detection of an emergency situation of one or more persons |
Families Citing this family (550)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7207804B2 (en) * | 1996-03-27 | 2007-04-24 | Michael Hersh | Application of multi-media technology to computer administered vocational personnel assessment |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
US6766295B1 (en) | 1999-05-10 | 2004-07-20 | Nuance Communications | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
JP3514372B2 (en) * | 1999-06-04 | 2004-03-31 | 日本電気株式会社 | Multimodal dialogue device |
US6697457B2 (en) * | 1999-08-31 | 2004-02-24 | Accenture Llp | Voice messaging system that organizes voice messages based on detected emotion |
US7222075B2 (en) * | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US6598020B1 (en) * | 1999-09-10 | 2003-07-22 | International Business Machines Corporation | Adaptive emotion and initiative generator for conversational systems |
US6658388B1 (en) * | 1999-09-10 | 2003-12-02 | International Business Machines Corporation | Personality generator for conversational systems |
WO2001024162A1 (en) * | 1999-09-30 | 2001-04-05 | Buy-Tel Innovations Limited | Voice verification system |
US8049597B1 (en) | 2000-01-10 | 2011-11-01 | Ensign Holdings, Llc | Systems and methods for securely monitoring an individual |
CA2366486A1 (en) * | 2000-01-10 | 2001-07-19 | Tarian, Llc | Device using histological and physiological biometric marker for authentication and activation |
US7181693B1 (en) * | 2000-03-17 | 2007-02-20 | Gateway Inc. | Affective control of information systems |
US7844504B1 (en) | 2000-04-27 | 2010-11-30 | Avaya Inc. | Routing based on the contents of a shopping cart |
US20020010584A1 (en) * | 2000-05-24 | 2002-01-24 | Schultz Mitchell Jay | Interactive voice communication method and system for information and entertainment |
US6483929B1 (en) | 2000-06-08 | 2002-11-19 | Tarian Llc | Method and apparatus for histological and physiological biometric operation and authentication |
US7133792B2 (en) * | 2000-06-08 | 2006-11-07 | Ensign Holdings, Llc | Method and apparatus for calibration over time of histological and physiological biometric markers for authentication |
US7441123B2 (en) * | 2001-03-23 | 2008-10-21 | Ensign Holdings | Method and apparatus for characterizing and estimating the parameters of histological and physiological biometric markers for authentication |
US7536557B2 (en) * | 2001-03-22 | 2009-05-19 | Ensign Holdings | Method for biometric authentication through layering biometric traits |
US7552070B2 (en) * | 2000-07-07 | 2009-06-23 | Forethought Financial Services, Inc. | System and method of planning a funeral |
US7236932B1 (en) * | 2000-09-12 | 2007-06-26 | Avaya Technology Corp. | Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems |
US7162426B1 (en) * | 2000-10-02 | 2007-01-09 | Xybernaut Corporation | Computer motherboard architecture with integrated DSP for continuous and command and control speech processing |
SE0004221L (en) | 2000-11-17 | 2002-04-02 | Forskarpatent I Syd Ab | Method and apparatus for speech analysis |
IL146597A0 (en) * | 2001-11-20 | 2002-08-14 | Gordon Goren | Method and system for creating meaningful summaries from interrelated sets of information |
US6738743B2 (en) * | 2001-03-28 | 2004-05-18 | Intel Corporation | Unified client-server distributed architectures for spoken dialogue systems |
GB0110480D0 (en) * | 2001-04-28 | 2001-06-20 | Univ Manchester Metropolitan | Methods and apparatus for analysing the behaviour of a subject |
EP1256937B1 (en) * | 2001-05-11 | 2006-11-02 | Sony France S.A. | Emotion recognition method and device |
US7222074B2 (en) * | 2001-06-20 | 2007-05-22 | Guojun Zhou | Psycho-physical state sensitive voice dialogue system |
JP4166153B2 (en) | 2001-08-06 | 2008-10-15 | 株式会社インデックス | Apparatus and method for discriminating emotion of dog based on analysis of voice characteristics |
EP1288911B1 (en) * | 2001-08-08 | 2005-06-29 | Nippon Telegraph and Telephone Corporation | Emphasis detection for automatic speech summary |
IL144818A (en) | 2001-08-09 | 2006-08-20 | Voicesense Ltd | Method and apparatus for speech analysis |
DE60204902T2 (en) * | 2001-10-05 | 2006-05-11 | Oticon A/S | Method for programming a communication device and programmable communication device |
US6850818B2 (en) * | 2001-10-22 | 2005-02-01 | Sony Corporation | Robot apparatus and control method thereof |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
US20030134257A1 (en) * | 2002-01-15 | 2003-07-17 | Ahmed Morsy | Interactive learning apparatus |
US8265931B2 (en) * | 2002-01-22 | 2012-09-11 | At&T Intellectual Property Ii, L.P. | Method and device for providing speech-to-text encoding and telephony service |
AU2002361483A1 (en) * | 2002-02-06 | 2003-09-02 | Nice Systems Ltd. | System and method for video content analysis-based detection, surveillance and alarm management |
US7436887B2 (en) * | 2002-02-06 | 2008-10-14 | Playtex Products, Inc. | Method and apparatus for video frame sequence-based object tracking |
CN1705980A (en) * | 2002-02-18 | 2005-12-07 | 皇家飞利浦电子股份有限公司 | Parametric audio coding |
US7761544B2 (en) * | 2002-03-07 | 2010-07-20 | Nice Systems, Ltd. | Method and apparatus for internal and external monitoring of a transportation vehicle |
US7283962B2 (en) * | 2002-03-21 | 2007-10-16 | United States Of America As Represented By The Secretary Of The Army | Methods and systems for detecting, measuring, and monitoring stress in speech |
US6795404B2 (en) | 2002-06-18 | 2004-09-21 | Bellsouth Intellectual Property Corporation | Device for aggregating, translating, and disseminating communications within a multiple device environment |
US6889207B2 (en) | 2002-06-18 | 2005-05-03 | Bellsouth Intellectual Property Corporation | Content control in a device environment |
US20030233660A1 (en) * | 2002-06-18 | 2003-12-18 | Bellsouth Intellectual Property Corporation | Device interaction |
US7016888B2 (en) | 2002-06-18 | 2006-03-21 | Bellsouth Intellectual Property Corporation | Learning device interaction rules |
US7039698B2 (en) * | 2002-06-18 | 2006-05-02 | Bellsouth Intellectual Property Corporation | Notification device interaction |
WO2004027685A2 (en) * | 2002-09-19 | 2004-04-01 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
ATE338424T1 (en) * | 2002-10-24 | 2006-09-15 | Hewlett Packard Co | EVENT DETECTION DURING MULTIPLE VOICE CHANNEL COMMUNICATIONS |
WO2004043259A1 (en) * | 2002-11-11 | 2004-05-27 | Electronic Navigation Research Institute, An Independent Administrative Institution | Psychosomatic condition diagnosis system |
DE10254612A1 (en) * | 2002-11-22 | 2004-06-17 | Humboldt-Universität Zu Berlin | Method for determining specifically relevant acoustic characteristics of sound signals for the analysis of unknown sound signals from a sound generation |
KR20040058855A (en) * | 2002-12-27 | 2004-07-05 | 엘지전자 주식회사 | voice modification device and the method |
US6822969B2 (en) | 2003-04-03 | 2004-11-23 | Motorola, Inc. | Method and apparatus for scheduling asynchronous transmissions |
US9712665B2 (en) | 2003-04-09 | 2017-07-18 | Nice Ltd. | Apparatus, system and method for dispute resolution, regulation compliance and quality management in financial institutions |
US20040215453A1 (en) * | 2003-04-25 | 2004-10-28 | Orbach Julian J. | Method and apparatus for tailoring an interactive voice response experience based on speech characteristics |
US7303474B2 (en) * | 2003-06-24 | 2007-12-04 | At&T Bls Intellectual Property, Inc. | Methods and systems for establishing games with automation using verbal communication |
US20050108021A1 (en) * | 2003-07-31 | 2005-05-19 | Greg Anderson | System and method for routing and managing service requests |
US7881934B2 (en) * | 2003-09-12 | 2011-02-01 | Toyota Infotechnology Center Co., Ltd. | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
WO2005028673A1 (en) * | 2003-09-22 | 2005-03-31 | Institut Pasteur | A method for detecting nipah virus and method for providing immunoprotection against henipaviruses |
US8094804B2 (en) | 2003-09-26 | 2012-01-10 | Avaya Inc. | Method and apparatus for assessing the status of work waiting for service |
US7770175B2 (en) | 2003-09-26 | 2010-08-03 | Avaya Inc. | Method and apparatus for load balancing work on a network of servers based on the probability of being serviced within a service time goal |
US20050125792A1 (en) * | 2003-12-08 | 2005-06-09 | Che-An Chang | Software materialization platform and an artificial neuron computer system |
US7457404B1 (en) * | 2003-12-19 | 2008-11-25 | Nortel Networks Limited | Methods of monitoring communications sessions in a contact centre |
US7558736B2 (en) * | 2003-12-31 | 2009-07-07 | United States Cellular Corporation | System and method for providing talker arbitration in point-to-point/group communication |
US7660715B1 (en) | 2004-01-12 | 2010-02-09 | Avaya Inc. | Transparent monitoring and intervention to improve automatic adaptation of speech models |
US7013005B2 (en) * | 2004-02-11 | 2006-03-14 | Hewlett-Packard Development Company, L.P. | System and method for prioritizing contacts |
US8457300B2 (en) | 2004-02-12 | 2013-06-04 | Avaya Inc. | Instant message contact management in a contact center |
US7729490B2 (en) | 2004-02-12 | 2010-06-01 | Avaya Inc. | Post-termination contact management |
EP1634225A4 (en) * | 2004-03-10 | 2008-01-16 | Nice Systems Ltd | Apparatus and method for generating a content-based follow up |
US7885401B1 (en) | 2004-03-29 | 2011-02-08 | Avaya Inc. | Method and apparatus to forecast the availability of a resource |
US7158909B2 (en) * | 2004-03-31 | 2007-01-02 | Balboa Instruments, Inc. | Method and system for testing spas |
US7734032B1 (en) | 2004-03-31 | 2010-06-08 | Avaya Inc. | Contact center and method for tracking and acting on one and done customer contacts |
US8000989B1 (en) | 2004-03-31 | 2011-08-16 | Avaya Inc. | Using true value in routing work items to resources |
US7953859B1 (en) | 2004-03-31 | 2011-05-31 | Avaya Inc. | Data model of participation in multi-channel and multi-party contacts |
US10032452B1 (en) | 2016-12-30 | 2018-07-24 | Google Llc | Multimodal transmission of packetized data |
US7714878B2 (en) * | 2004-08-09 | 2010-05-11 | Nice Systems, Ltd. | Apparatus and method for multimedia content based manipulation |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US8708702B2 (en) * | 2004-09-16 | 2014-04-29 | Lena Foundation | Systems and methods for learning using contextual feedback |
US8078465B2 (en) * | 2007-01-23 | 2011-12-13 | Lena Foundation | System and method for detection and analysis of speech |
US7949121B1 (en) | 2004-09-27 | 2011-05-24 | Avaya Inc. | Method and apparatus for the simultaneous delivery of multiple contacts to an agent |
US8234141B1 (en) | 2004-09-27 | 2012-07-31 | Avaya Inc. | Dynamic work assignment strategies based on multiple aspects of agent proficiency |
US7949123B1 (en) | 2004-09-28 | 2011-05-24 | Avaya Inc. | Wait time predictor for long shelf-life work |
US7657021B2 (en) | 2004-09-29 | 2010-02-02 | Avaya Inc. | Method and apparatus for global call queue in a global call center |
US20060167859A1 (en) * | 2004-11-09 | 2006-07-27 | Verbeck Sibley Timothy J | System and method for personalized searching of television content using a reduced keypad |
US20060168297A1 (en) * | 2004-12-08 | 2006-07-27 | Electronics And Telecommunications Research Institute | Real-time multimedia transcoding apparatus and method using personal characteristic information |
US9083798B2 (en) * | 2004-12-22 | 2015-07-14 | Nuance Communications, Inc. | Enabling voice selection of user preferences |
US7892648B2 (en) * | 2005-01-21 | 2011-02-22 | International Business Machines Corporation | SiCOH dielectric material with improved toughness and improved Si-C bonding |
US20060123534A1 (en) * | 2005-01-25 | 2006-06-15 | Paar James C | Advertising method using a portable toilet unit |
AU2006211111A1 (en) * | 2005-02-07 | 2006-08-10 | Nice Systems Ltd. | Upgrading performance using aggregated information shared between management systems |
US9165280B2 (en) * | 2005-02-22 | 2015-10-20 | International Business Machines Corporation | Predictive user modeling in user interface design |
US8005675B2 (en) * | 2005-03-17 | 2011-08-23 | Nice Systems, Ltd. | Apparatus and method for audio analysis |
US20060229882A1 (en) * | 2005-03-29 | 2006-10-12 | Pitney Bowes Incorporated | Method and system for modifying printed text to indicate the author's state of mind |
US10019877B2 (en) * | 2005-04-03 | 2018-07-10 | Qognify Ltd. | Apparatus and methods for the semi-automatic tracking and examining of an object or an event in a monitored site |
US8639757B1 (en) | 2011-08-12 | 2014-01-28 | Sprint Communications Company L.P. | User localization using friend location information |
US9571652B1 (en) * | 2005-04-21 | 2017-02-14 | Verint Americas Inc. | Enhanced diarization systems, media and methods of use |
US7817796B1 (en) | 2005-04-27 | 2010-10-19 | Avaya Inc. | Coordinating work assignments for contact center agents |
US7529670B1 (en) | 2005-05-16 | 2009-05-05 | Avaya Inc. | Automatic speech recognition system for people with speech-affecting disabilities |
US7995717B2 (en) | 2005-05-18 | 2011-08-09 | Mattersight Corporation | Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto |
US8094790B2 (en) * | 2005-05-18 | 2012-01-10 | Mattersight Corporation | Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center |
US20060265088A1 (en) * | 2005-05-18 | 2006-11-23 | Roger Warford | Method and system for recording an electronic communication and extracting constituent audio data therefrom |
US8094803B2 (en) | 2005-05-18 | 2012-01-10 | Mattersight Corporation | Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto |
US7511606B2 (en) * | 2005-05-18 | 2009-03-31 | Lojack Operating Company Lp | Vehicle locating unit with input voltage protection |
US7809127B2 (en) | 2005-05-26 | 2010-10-05 | Avaya Inc. | Method for discovering problem agent behaviors |
US7386105B2 (en) | 2005-05-27 | 2008-06-10 | Nice Systems Ltd | Method and apparatus for fraud detection |
GB2427109B (en) * | 2005-05-30 | 2007-08-01 | Kyocera Corp | Audio output apparatus, document reading method, and mobile terminal |
US20060288309A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Displaying available menu choices in a multimodal browser |
US7917365B2 (en) | 2005-06-16 | 2011-03-29 | Nuance Communications, Inc. | Synchronizing visual and speech events in a multimodal application |
US8090584B2 (en) * | 2005-06-16 | 2012-01-03 | Nuance Communications, Inc. | Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency |
US7912720B1 (en) * | 2005-07-20 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | System and method for building emotional machines |
JP2007041988A (en) * | 2005-08-05 | 2007-02-15 | Sony Corp | Information processing device, method and program |
US7779042B1 (en) | 2005-08-08 | 2010-08-17 | Avaya Inc. | Deferred control of surrogate key generation in a distributed processing architecture |
WO2007017853A1 (en) * | 2005-08-08 | 2007-02-15 | Nice Systems Ltd. | Apparatus and methods for the detection of emotions in audio interactions |
US8116439B1 (en) * | 2005-08-19 | 2012-02-14 | Avaya Inc. | Call intrusion |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US7881450B1 (en) | 2005-09-15 | 2011-02-01 | Avaya Inc. | Answer on hold notification |
US8577015B2 (en) | 2005-09-16 | 2013-11-05 | Avaya Inc. | Method and apparatus for the automated delivery of notifications to contacts based on predicted work prioritization |
US7822587B1 (en) | 2005-10-03 | 2010-10-26 | Avaya Inc. | Hybrid database architecture for both maintaining and relaxing type 2 data entity behavior |
US8116446B1 (en) | 2005-10-03 | 2012-02-14 | Avaya Inc. | Agent driven work item awareness for tuning routing engine work-assignment algorithms |
US8073129B1 (en) | 2005-10-03 | 2011-12-06 | Avaya Inc. | Work item relation awareness for agents during routing engine driven sub-optimal work assignments |
US10572879B1 (en) | 2005-10-03 | 2020-02-25 | Avaya Inc. | Agent driven media-agnostic work item grouping and sharing over a consult medium |
US8411843B1 (en) | 2005-10-04 | 2013-04-02 | Avaya Inc. | Next agent available notification |
US7787609B1 (en) | 2005-10-06 | 2010-08-31 | Avaya Inc. | Prioritized service delivery based on presence and availability of interruptible enterprise resources with skills |
US7752230B2 (en) | 2005-10-06 | 2010-07-06 | Avaya Inc. | Data extensibility using external database tables |
EP1952371A2 (en) * | 2005-11-09 | 2008-08-06 | Micro Target Media Holdings Inc. | Advertising display for a portable structure |
US8478596B2 (en) * | 2005-11-28 | 2013-07-02 | Verizon Business Global Llc | Impairment detection using speech |
US8209182B2 (en) * | 2005-11-30 | 2012-06-26 | University Of Southern California | Emotion recognition system |
US8219392B2 (en) * | 2005-12-05 | 2012-07-10 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function |
US20070150281A1 (en) * | 2005-12-22 | 2007-06-28 | Hoff Todd M | Method and system for utilizing emotion to search content |
WO2007072485A1 (en) * | 2005-12-22 | 2007-06-28 | Exaudios Technologies Ltd. | System for indicating emotional attitudes through intonation analysis and methods thereof |
US20070157228A1 (en) | 2005-12-30 | 2007-07-05 | Jason Bayer | Advertising with video ad creatives |
ES2306560B1 (en) * | 2005-12-30 | 2009-09-03 | France Telecom España, S.A. | METHOD AND SYSTEM FOR THE MEASUREMENT OF DEGREE OF STRESS AND OTHER HEALTH PARAMETERS IN PEOPLE THROUGH VOICE BIOMETRY IN MOBILE DEVICES. |
ES2306561B1 (en) * | 2005-12-30 | 2009-09-03 | France Telecom España, S.A. | METHOD FOR THE MEASUREMENT OF DEGREE OF AFFINITY BETWEEN PEOPLE THROUGH BIOMETRY OF THE VOICE IN MOBILE DEVICES. |
WO2007086042A2 (en) * | 2006-01-25 | 2007-08-02 | Nice Systems Ltd. | Method and apparatus for segmentation of audio interactions |
US8238541B1 (en) | 2006-01-31 | 2012-08-07 | Avaya Inc. | Intent based skill-set classification for accurate, automatic determination of agent skills |
WO2007091182A1 (en) * | 2006-02-10 | 2007-08-16 | Koninklijke Philips Electronics N.V. | Method and apparatus for generating metadata |
US8737173B2 (en) | 2006-02-24 | 2014-05-27 | Avaya Inc. | Date and time dimensions for contact center reporting in arbitrary international time zones |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
KR100770896B1 (en) * | 2006-03-07 | 2007-10-26 | 삼성전자주식회사 | Method of recognizing phoneme in a vocal signal and the system thereof |
US7653543B1 (en) | 2006-03-24 | 2010-01-26 | Avaya Inc. | Automatic signal adjustment based on intelligibility |
US8442197B1 (en) | 2006-03-30 | 2013-05-14 | Avaya Inc. | Telephone-based user interface for participating simultaneously in more than one teleconference |
EP2012655A4 (en) * | 2006-04-20 | 2009-11-25 | Iq Life Inc | Interactive patient monitoring system using speech recognition |
US8725518B2 (en) * | 2006-04-25 | 2014-05-13 | Nice Systems Ltd. | Automatic speech analysis |
US9208785B2 (en) | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US7848314B2 (en) * | 2006-05-10 | 2010-12-07 | Nuance Communications, Inc. | VOIP barge-in support for half-duplex DSR client on a full-duplex network |
US7770221B2 (en) * | 2006-05-18 | 2010-08-03 | Nice Systems, Ltd. | Method and apparatus for combining traffic analysis and monitoring center in lawful interception |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
US7571101B2 (en) * | 2006-05-25 | 2009-08-04 | Charles Humble | Quantifying psychological stress levels using voice patterns |
US20070288898A1 (en) * | 2006-06-09 | 2007-12-13 | Sony Ericsson Mobile Communications Ab | Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic |
US8332218B2 (en) * | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
US7676371B2 (en) * | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
CN101346758B (en) * | 2006-06-23 | 2011-07-27 | 松下电器产业株式会社 | Emotion recognizer |
JP5156013B2 (en) * | 2006-07-10 | 2013-03-06 | アクセンチュア グローバル サービスィズ ゲーエムベーハー | Mobile personal service platform to provide feedback |
US7936867B1 (en) | 2006-08-15 | 2011-05-03 | Avaya Inc. | Multi-service request within a contact center |
US7962342B1 (en) | 2006-08-22 | 2011-06-14 | Avaya Inc. | Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns |
US7925508B1 (en) | 2006-08-22 | 2011-04-12 | Avaya Inc. | Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
US7620377B2 (en) * | 2006-08-30 | 2009-11-17 | General Dynamics C4 Systems | Bandwidth enhancement for envelope elimination and restoration transmission systems |
US8391463B1 (en) | 2006-09-01 | 2013-03-05 | Avaya Inc. | Method and apparatus for identifying related contacts |
US8811597B1 (en) | 2006-09-07 | 2014-08-19 | Avaya Inc. | Contact center performance prediction |
US8938063B1 (en) | 2006-09-07 | 2015-01-20 | Avaya Inc. | Contact center service monitoring and correcting |
US8855292B1 (en) | 2006-09-08 | 2014-10-07 | Avaya Inc. | Agent-enabled queue bypass to agent |
US8374874B2 (en) * | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US8145493B2 (en) * | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US7957976B2 (en) | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US8073697B2 (en) | 2006-09-12 | 2011-12-06 | International Business Machines Corporation | Establishing a multimodal personality for a multimodal application |
US8086463B2 (en) | 2006-09-12 | 2011-12-27 | Nuance Communications, Inc. | Dynamically generating a vocal help prompt in a multimodal application |
US7835514B1 (en) | 2006-09-18 | 2010-11-16 | Avaya Inc. | Provide a graceful transfer out of active wait treatment |
US7752043B2 (en) | 2006-09-29 | 2010-07-06 | Verint Americas Inc. | Multi-pass speech analytics |
US7822605B2 (en) * | 2006-10-19 | 2010-10-26 | Nice Systems Ltd. | Method and apparatus for large population speaker identification in telephone interactions |
US8036899B2 (en) * | 2006-10-20 | 2011-10-11 | Tal Sobol-Shikler | Speech affect editing systems |
US7631046B2 (en) * | 2006-10-26 | 2009-12-08 | Nice Systems, Ltd. | Method and apparatus for lawful interception of web based messaging communication |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US20080178504A1 (en) * | 2006-12-15 | 2008-07-31 | Terrance Popowich | System and method for displaying advertising |
WO2008071000A1 (en) * | 2006-12-15 | 2008-06-19 | Micro Target Media Holdings Inc. | System and method for obtaining and using advertising information |
US20080147389A1 (en) * | 2006-12-15 | 2008-06-19 | Motorola, Inc. | Method and Apparatus for Robust Speech Activity Detection |
US7577246B2 (en) * | 2006-12-20 | 2009-08-18 | Nice Systems Ltd. | Method and system for automatic quality evaluation |
US8767944B1 (en) | 2007-01-03 | 2014-07-01 | Avaya Inc. | Mechanism for status and control communication over SIP using CODEC tunneling |
US20080162246A1 (en) * | 2007-01-03 | 2008-07-03 | International Business Machines Corporation | Method and system for contract based call center and/or contact center management |
US8612230B2 (en) | 2007-01-03 | 2013-12-17 | Nuance Communications, Inc. | Automatic speech recognition with a selection list |
US8903078B2 (en) * | 2007-01-09 | 2014-12-02 | Verint Americas Inc. | Communication session assessment |
US20080260212A1 (en) * | 2007-01-12 | 2008-10-23 | Moskal Michael D | System for indicating deceit and verity |
WO2008091947A2 (en) * | 2007-01-23 | 2008-07-31 | Infoture, Inc. | System and method for detection and analysis of speech |
US20080189171A1 (en) * | 2007-02-01 | 2008-08-07 | Nice Systems Ltd. | Method and apparatus for call categorization |
US8571853B2 (en) * | 2007-02-11 | 2013-10-29 | Nice Systems Ltd. | Method and system for laughter detection |
US8069047B2 (en) * | 2007-02-12 | 2011-11-29 | Nuance Communications, Inc. | Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application |
US7675411B1 (en) | 2007-02-20 | 2010-03-09 | Avaya Inc. | Enhancing presence information through the addition of one or more of biotelemetry data and environmental data |
US7801728B2 (en) | 2007-02-26 | 2010-09-21 | Nuance Communications, Inc. | Document session replay for multimodal applications |
US8150698B2 (en) * | 2007-02-26 | 2012-04-03 | Nuance Communications, Inc. | Invoking tapered prompts in a multimodal application |
US20080208589A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Presenting Supplemental Content For Digital Media Using A Multimodal Application |
US8713542B2 (en) * | 2007-02-27 | 2014-04-29 | Nuance Communications, Inc. | Pausing a VoiceXML dialog of a multimodal application |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US7809575B2 (en) * | 2007-02-27 | 2010-10-05 | Nuance Communications, Inc. | Enabling global grammars for a particular multimodal application |
US7840409B2 (en) * | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US7822608B2 (en) * | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
US9208783B2 (en) * | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US7945851B2 (en) | 2007-03-14 | 2011-05-17 | Nuance Communications, Inc. | Enabling dynamic voiceXML in an X+V page of a multimodal application |
US8515757B2 (en) | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US8670987B2 (en) * | 2007-03-20 | 2014-03-11 | Nuance Communications, Inc. | Automatic speech recognition with dynamic grammar rules |
WO2008116073A1 (en) * | 2007-03-20 | 2008-09-25 | Biosecurity Technologies, Inc. | Method of decoding nonverbal cues in cross-cultural interactions and language impairment |
US8909532B2 (en) * | 2007-03-23 | 2014-12-09 | Nuance Communications, Inc. | Supporting multi-lingual user interaction with a multimodal application |
US8718262B2 (en) | 2007-03-30 | 2014-05-06 | Mattersight Corporation | Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication |
US7869586B2 (en) | 2007-03-30 | 2011-01-11 | Eloyalty Corporation | Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics |
US20080240374A1 (en) * | 2007-03-30 | 2008-10-02 | Kelly Conway | Method and system for linking customer conversation channels |
US8023639B2 (en) | 2007-03-30 | 2011-09-20 | Mattersight Corporation | Method and system determining the complexity of a telephonic communication received by a contact center |
US20080240404A1 (en) * | 2007-03-30 | 2008-10-02 | Kelly Conway | Method and system for aggregating and analyzing data relating to an interaction between a customer and a contact center agent |
US20080243543A1 (en) * | 2007-03-30 | 2008-10-02 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Effective response protocols for health monitoring or the like |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8788620B2 (en) | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US8862475B2 (en) * | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
US8725513B2 (en) * | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US7747705B1 (en) | 2007-05-08 | 2010-06-29 | Avaya Inc. | Method to make a discussion forum or RSS feed a source for customer contact into a multimedia contact center that is capable of handling emails |
US8041344B1 (en) | 2007-06-26 | 2011-10-18 | Avaya Inc. | Cooling off period prior to sending dependent on user's state |
US8661464B2 (en) | 2007-06-27 | 2014-02-25 | Google Inc. | Targeting in-video advertising |
US8721554B2 (en) | 2007-07-12 | 2014-05-13 | University Of Florida Research Foundation, Inc. | Random body movement cancellation for non-contact vital sign detection |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
CA2670021A1 (en) * | 2007-09-19 | 2009-03-26 | Micro Target Media Holdings Inc. | System and method for estimating characteristics of persons or things |
US8504534B1 (en) | 2007-09-26 | 2013-08-06 | Avaya Inc. | Database structures and administration techniques for generalized localization of database items |
US10419611B2 (en) | 2007-09-28 | 2019-09-17 | Mattersight Corporation | System and methods for determining trends in electronic communications |
US8856182B2 (en) | 2008-01-25 | 2014-10-07 | Avaya Inc. | Report database dependency tracing through business intelligence metadata |
KR101496876B1 (en) * | 2008-02-19 | 2015-02-27 | 삼성전자주식회사 | An apparatus of sound recognition in a portable terminal and a method thereof |
US11017428B2 (en) | 2008-02-21 | 2021-05-25 | Google Llc | System and method of data transmission rate adjustment |
US10013986B1 (en) | 2016-12-30 | 2018-07-03 | Google Llc | Data structure pooling of voice activated data packets |
US8150108B2 (en) | 2008-03-17 | 2012-04-03 | Ensign Holdings, Llc | Systems and methods of identification based on biometric parameters |
US9378527B2 (en) * | 2008-04-08 | 2016-06-28 | Hartford Fire Insurance Company | Computer system for applying predictive model to determine and indeterminate data |
US8229081B2 (en) * | 2008-04-24 | 2012-07-24 | International Business Machines Corporation | Dynamically publishing directory information for a plurality of interactive voice response systems |
US8121837B2 (en) * | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US9349367B2 (en) * | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
US8082148B2 (en) * | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US8214242B2 (en) * | 2008-04-24 | 2012-07-03 | International Business Machines Corporation | Signaling correspondence between a meeting agenda and a meeting discussion |
US8831206B1 (en) | 2008-05-12 | 2014-09-09 | Avaya Inc. | Automated, data-based mechanism to detect evolution of employee skills |
US8385532B1 (en) | 2008-05-12 | 2013-02-26 | Avaya Inc. | Real-time detective |
WO2010008722A1 (en) | 2008-06-23 | 2010-01-21 | John Nicholas Gross | Captcha system optimized for distinguishing between humans and machines |
US8223374B2 (en) * | 2008-06-27 | 2012-07-17 | Kabushiki Kaisha Toshiba | Maintenance system of image forming apparatus and maintenance method of the same |
US8752141B2 (en) * | 2008-06-27 | 2014-06-10 | John Nicholas | Methods for presenting and determining the efficacy of progressive pictorial and motion-based CAPTCHAs |
US20100010370A1 (en) | 2008-07-09 | 2010-01-14 | De Lemos Jakob | System and method for calibrating and normalizing eye data in emotional testing |
US20100027050A1 (en) * | 2008-07-29 | 2010-02-04 | Alain Regnier | Dynamic bridging of web-enabled components |
US10375244B2 (en) | 2008-08-06 | 2019-08-06 | Avaya Inc. | Premises enabled mobile kiosk, using customers' mobile communication device |
US8136944B2 (en) | 2008-08-15 | 2012-03-20 | iMotions - Eye Tracking A/S | System and method for identifying the existence and position of text in visual media content and for determining a subjects interactions with the text |
US8116237B2 (en) | 2008-09-26 | 2012-02-14 | Avaya Inc. | Clearing house for publish/subscribe of status data from distributed telecommunications systems |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8224653B2 (en) * | 2008-12-19 | 2012-07-17 | Honeywell International Inc. | Method and system for operating a vehicular electronic system with categorized voice commands |
US8654963B2 (en) | 2008-12-19 | 2014-02-18 | Genesys Telecommunications Laboratories, Inc. | Method and system for integrating an interaction management system with a business rules management system |
US8494857B2 (en) | 2009-01-06 | 2013-07-23 | Regents Of The University Of Minnesota | Automatic measurement of speech fluency |
JP2010190955A (en) * | 2009-02-16 | 2010-09-02 | Toshiba Corp | Voice synthesizer, method, and program |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8645140B2 (en) * | 2009-02-25 | 2014-02-04 | Blackberry Limited | Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device |
WO2010100567A2 (en) | 2009-03-06 | 2010-09-10 | Imotions- Emotion Technology A/S | System and method for determining emotional response to olfactory stimuli |
US8719016B1 (en) | 2009-04-07 | 2014-05-06 | Verint Americas Inc. | Speech analytics system and system and method for determining structured speech |
JP5419531B2 (en) * | 2009-04-23 | 2014-02-19 | キヤノン株式会社 | Information processing apparatus and information processing apparatus control method |
US8621011B2 (en) | 2009-05-12 | 2013-12-31 | Avaya Inc. | Treatment of web feeds as work assignment in a contact center |
US8964958B2 (en) | 2009-05-20 | 2015-02-24 | Avaya Inc. | Grid-based contact center |
WO2010148141A2 (en) * | 2009-06-16 | 2010-12-23 | University Of Florida Research Foundation, Inc. | Apparatus and method for speech analysis |
US20100332286A1 (en) * | 2009-06-24 | 2010-12-30 | At&T Intellectual Property I, L.P., | Predicting communication outcome based on a regression model |
US8463606B2 (en) * | 2009-07-13 | 2013-06-11 | Genesys Telecommunications Laboratories, Inc. | System for analyzing interactions and reporting analytic results to human-operated and system interfaces in real time |
US20110040707A1 (en) * | 2009-08-12 | 2011-02-17 | Ford Global Technologies, Llc | Intelligent music selection in vehicles |
US8644491B2 (en) | 2009-08-21 | 2014-02-04 | Avaya Inc. | Mechanism for multisite service state description |
US8139822B2 (en) * | 2009-08-28 | 2012-03-20 | Allen Joseph Selner | Designation of a characteristic of a physical capability by motion analysis, systems and methods |
US8385533B2 (en) | 2009-09-21 | 2013-02-26 | Avaya Inc. | Bidding work assignment on conference/subscribe RTP clearing house |
US8565386B2 (en) | 2009-09-29 | 2013-10-22 | Avaya Inc. | Automatic configuration of soft phones that are usable in conjunction with special-purpose endpoints |
US9516069B2 (en) | 2009-11-17 | 2016-12-06 | Avaya Inc. | Packet headers as a trigger for automatic activation of special-purpose softphone applications |
TWI413938B (en) * | 2009-12-02 | 2013-11-01 | Phison Electronics Corp | Emotion engine, emotion engine system and electronic device control method |
US8306212B2 (en) | 2010-02-19 | 2012-11-06 | Avaya Inc. | Time-based work assignments in automated contact distribution |
JP5834449B2 (en) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | Utterance state detection device, utterance state detection program, and utterance state detection method |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
US9015046B2 (en) * | 2010-06-10 | 2015-04-21 | Nice-Systems Ltd. | Methods and apparatus for real-time interaction analysis in call centers |
US8700252B2 (en) * | 2010-07-27 | 2014-04-15 | Ford Global Technologies, Llc | Apparatus, methods, and systems for testing connected services in a vehicle |
US10013978B1 (en) | 2016-12-30 | 2018-07-03 | Google Llc | Sequence dependent operation processing of packet based data message transmissions |
US10957002B2 (en) | 2010-08-06 | 2021-03-23 | Google Llc | Sequence dependent or location based operation processing of protocol based data message transmissions |
EP2418643A1 (en) | 2010-08-11 | 2012-02-15 | Software AG | Computer-implemented method and system for analysing digital speech data |
JP5494468B2 (en) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | Status detection device, status detection method, and program for status detection |
US20140025385A1 (en) * | 2010-12-30 | 2014-01-23 | Nokia Corporation | Method, Apparatus and Computer Program Product for Emotion Detection |
JP5803125B2 (en) * | 2011-02-10 | 2015-11-04 | 富士通株式会社 | Suppression state detection device and program by voice |
US8769009B2 (en) | 2011-02-18 | 2014-07-01 | International Business Machines Corporation | Virtual communication techniques |
US8694307B2 (en) * | 2011-05-19 | 2014-04-08 | Nice Systems Ltd. | Method and apparatus for temporal speech scoring |
JP6101684B2 (en) * | 2011-06-01 | 2017-03-22 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | Method and system for assisting patients |
US11087424B1 (en) | 2011-06-24 | 2021-08-10 | Google Llc | Image recognition-based content item selection |
US8688514B1 (en) | 2011-06-24 | 2014-04-01 | Google Inc. | Ad selection using image data |
US10972530B2 (en) | 2016-12-30 | 2021-04-06 | Google Llc | Audio-based data structure generation |
JP5664480B2 (en) * | 2011-06-30 | 2015-02-04 | 富士通株式会社 | Abnormal state detection device, telephone, abnormal state detection method, and program |
US8954317B1 (en) * | 2011-07-01 | 2015-02-10 | West Corporation | Method and apparatus of processing user text input information |
US9031677B2 (en) | 2011-07-22 | 2015-05-12 | Visteon Global Technologies, Inc. | Automatic genre-based voice prompts |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US8816814B2 (en) | 2011-08-16 | 2014-08-26 | Elwha Llc | Systematic distillation of status data responsive to whether or not a wireless signal has been received and relating to regimen compliance |
GB2494104A (en) * | 2011-08-19 | 2013-03-06 | Simon Mark Adam Bell | Recognizing the emotional effect a speaker is having on a listener by analyzing the sound of his or her voice |
US10630751B2 (en) | 2016-12-30 | 2020-04-21 | Google Llc | Sequence dependent data message consolidation in a voice activated computer network environment |
US10956485B2 (en) | 2011-08-31 | 2021-03-23 | Google Llc | Retargeting in a search environment |
US8650188B1 (en) | 2011-08-31 | 2014-02-11 | Google Inc. | Retargeting in a search environment |
JP2013068532A (en) * | 2011-09-22 | 2013-04-18 | Clarion Co Ltd | Information terminal, server device, search system, and search method |
US9870552B2 (en) * | 2011-10-19 | 2018-01-16 | Excalibur Ip, Llc | Dynamically updating emoticon pool based on user targeting |
US11093692B2 (en) | 2011-11-14 | 2021-08-17 | Google Llc | Extracting audiovisual features from digital components |
US10586127B1 (en) | 2011-11-14 | 2020-03-10 | Google Llc | Extracting audiovisual features from content elements on online documents |
KR20130055429A (en) * | 2011-11-18 | 2013-05-28 | 삼성전자주식회사 | Apparatus and method for emotion recognition based on emotion segment |
US20160372116A1 (en) * | 2012-01-24 | 2016-12-22 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US8825533B2 (en) | 2012-02-01 | 2014-09-02 | International Business Machines Corporation | Intelligent dialogue amongst competitive user applications |
US8675860B2 (en) | 2012-02-16 | 2014-03-18 | Avaya Inc. | Training optimizer for contact center agents |
US20130244685A1 (en) | 2012-03-14 | 2013-09-19 | Kelly L. Dempski | System for providing extensible location-based services |
US9576593B2 (en) | 2012-03-15 | 2017-02-21 | Regents Of The University Of Minnesota | Automated verbal fluency assessment |
US9069880B2 (en) * | 2012-03-16 | 2015-06-30 | Microsoft Technology Licensing, Llc | Prediction and isolation of patterns across datasets |
CN102647469A (en) * | 2012-04-01 | 2012-08-22 | 浪潮(山东)电子信息有限公司 | VoIP (Voice over Internet Phone) time shifting telephone system and method based on cloud computing |
US9922334B1 (en) | 2012-04-06 | 2018-03-20 | Google Llc | Providing an advertisement based on a minimum number of exposures |
US10776830B2 (en) | 2012-05-23 | 2020-09-15 | Google Llc | Methods and systems for identifying new computers and providing matching services |
US10152723B2 (en) | 2012-05-23 | 2018-12-11 | Google Llc | Methods and systems for identifying new computers and providing matching services |
US9529793B1 (en) | 2012-06-01 | 2016-12-27 | Google Inc. | Resolving pronoun ambiguity in voice queries |
US9037481B2 (en) | 2012-06-11 | 2015-05-19 | Hartford Fire Insurance Company | System and method for intelligent customer data analytics |
US9767479B2 (en) | 2012-06-25 | 2017-09-19 | Google Inc. | System and method for deploying ads based on a content exposure interval |
US10614801B2 (en) | 2012-06-25 | 2020-04-07 | Google Llc | Protocol based computer network exposure interval content item transmission |
CN103543979A (en) * | 2012-07-17 | 2014-01-29 | 联想(北京)有限公司 | Voice outputting method, voice interaction method and electronic device |
US9368116B2 (en) | 2012-09-07 | 2016-06-14 | Verint Systems Ltd. | Speaker separation in diarization |
US20150302866A1 (en) * | 2012-10-16 | 2015-10-22 | Tal SOBOL SHIKLER | Speech affect analyzing and training |
US10134401B2 (en) | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using linguistic labeling |
US9912816B2 (en) | 2012-11-29 | 2018-03-06 | Genesys Telecommunications Laboratories, Inc. | Workload distribution with resource awareness |
US9195649B2 (en) | 2012-12-21 | 2015-11-24 | The Nielsen Company (Us), Llc | Audio processing techniques for semantic audio recognition and report generation |
US9183849B2 (en) * | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
RU2583704C2 (en) * | 2012-12-29 | 2016-05-10 | Частное Предприятие "Артон" | Self-contained smoke detector |
US9542936B2 (en) | 2012-12-29 | 2017-01-10 | Genesys Telecommunications Laboratories, Inc. | Fast out-of-vocabulary search in automatic speech recognition systems |
US10650066B2 (en) | 2013-01-31 | 2020-05-12 | Google Llc | Enhancing sitelinks with creative content |
US10735552B2 (en) | 2013-01-31 | 2020-08-04 | Google Llc | Secondary transmissions of packetized data |
KR20240132105A (en) | 2013-02-07 | 2024-09-02 | 애플 인크. | Voice trigger for a digital assistant |
US9191510B2 (en) | 2013-03-14 | 2015-11-17 | Mattersight Corporation | Methods and system for analyzing multichannel electronic communication data |
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
US11064250B2 (en) | 2013-03-15 | 2021-07-13 | Google Llc | Presence and authentication for media measurement |
US10541997B2 (en) | 2016-12-30 | 2020-01-21 | Google Llc | Authentication of packetized audio signals |
US10719591B1 (en) | 2013-03-15 | 2020-07-21 | Google Llc | Authentication of audio-based input signals |
CN104183253B (en) * | 2013-05-24 | 2018-05-11 | 富泰华工业(深圳)有限公司 | music playing system, device and method |
US11030239B2 (en) | 2013-05-31 | 2021-06-08 | Google Llc | Audio based entity-action pair based selection |
US9953085B1 (en) | 2013-05-31 | 2018-04-24 | Google Llc | Feed upload for search entity based content selection |
US11218434B2 (en) | 2013-06-12 | 2022-01-04 | Google Llc | Audio data packet status determination |
CN103356308B (en) * | 2013-07-11 | 2015-05-20 | 山东大学 | Array fiber opto-acoustic bionic ear device and signal conversion method |
US9460722B2 (en) | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
US9984706B2 (en) | 2013-08-01 | 2018-05-29 | Verint Systems Ltd. | Voice activity detection using a soft decision mechanism |
US10204642B2 (en) * | 2013-08-06 | 2019-02-12 | Beyond Verbal Communication Ltd | Emotional survey according to voice categorization |
WO2015037073A1 (en) * | 2013-09-11 | 2015-03-19 | 株式会社日立製作所 | Voice search system, voice search method, and computer-readable storage medium |
EP3049961A4 (en) * | 2013-09-25 | 2017-03-22 | Intel Corporation | Improving natural language interactions using emotional modulation |
US10431209B2 (en) | 2016-12-30 | 2019-10-01 | Google Llc | Feedback controller for data transmissions |
US9703757B2 (en) | 2013-09-30 | 2017-07-11 | Google Inc. | Automatically determining a size for a content item for a web page |
US10614153B2 (en) | 2013-09-30 | 2020-04-07 | Google Llc | Resource size-based content item selection |
US20150095029A1 (en) * | 2013-10-02 | 2015-04-02 | StarTek, Inc. | Computer-Implemented System And Method For Quantitatively Assessing Vocal Behavioral Risk |
GB2521050B (en) * | 2013-11-21 | 2017-12-27 | Global Analytics Inc | Credit risk decision management system and method using voice analytics |
US20150142446A1 (en) * | 2013-11-21 | 2015-05-21 | Global Analytics, Inc. | Credit Risk Decision Management System And Method Using Voice Analytics |
US10410648B1 (en) * | 2013-12-31 | 2019-09-10 | Allscripts Software, Llc | Moderating system response using stress content of voice command |
WO2015111772A1 (en) * | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
KR101621774B1 (en) * | 2014-01-24 | 2016-05-19 | 숭실대학교산학협력단 | Alcohol Analyzing Method, Recording Medium and Apparatus For Using the Same |
CN105940393A (en) * | 2014-01-27 | 2016-09-14 | 诺基亚技术有限公司 | Method and apparatus for social relation analysis and management |
KR101621766B1 (en) * | 2014-01-28 | 2016-06-01 | 숭실대학교산학협력단 | Alcohol Analyzing Method, Recording Medium and Apparatus For Using the Same |
WO2015116678A1 (en) * | 2014-01-28 | 2015-08-06 | Simple Emotion, Inc. | Methods for adaptive voice interaction |
US20150234930A1 (en) | 2014-02-19 | 2015-08-20 | Google Inc. | Methods and systems for providing functional extensions with a landing page of a creative |
US9892556B2 (en) | 2014-03-11 | 2018-02-13 | Amazon Technologies, Inc. | Real-time exploration of video content |
US10375434B2 (en) | 2014-03-11 | 2019-08-06 | Amazon Technologies, Inc. | Real-time rendering of targeted video content |
US9747727B2 (en) | 2014-03-11 | 2017-08-29 | Amazon Technologies, Inc. | Object customization and accessorization in video content |
US10939175B2 (en) | 2014-03-11 | 2021-03-02 | Amazon Technologies, Inc. | Generating new video content from pre-recorded video |
US9894405B2 (en) | 2014-03-11 | 2018-02-13 | Amazon Technologies, Inc. | Object discovery and exploration in video content |
US9947342B2 (en) | 2014-03-12 | 2018-04-17 | Cogito Corporation | Method and apparatus for speech behavior visualization and gamification |
US9589566B2 (en) * | 2014-03-21 | 2017-03-07 | Wells Fargo Bank, N.A. | Fraud detection database |
KR101569343B1 (en) | 2014-03-28 | 2015-11-30 | 숭실대학교산학협력단 | Mmethod for judgment of drinking using differential high-frequency energy, recording medium and device for performing the method |
KR101621797B1 (en) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | Method for judgment of drinking using differential energy in time domain, recording medium and device for performing the method |
US9317873B2 (en) | 2014-03-28 | 2016-04-19 | Google Inc. | Automatic verification of advertiser identifier in advertisements |
KR101621780B1 (en) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | Method fomethod for judgment of drinking using differential frequency energy, recording medium and device for performing the method |
US11115529B2 (en) | 2014-04-07 | 2021-09-07 | Google Llc | System and method for providing and managing third party content with call functionality |
US20150287099A1 (en) | 2014-04-07 | 2015-10-08 | Google Inc. | Method to compute the prominence score to phone numbers on web pages and automatically annotate/attach it to ads |
US9508360B2 (en) * | 2014-05-28 | 2016-11-29 | International Business Machines Corporation | Semantic-free text analysis for identifying traits |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US20150346915A1 (en) * | 2014-05-30 | 2015-12-03 | Rolta India Ltd | Method and system for automating data processing in satellite photogrammetry systems |
US20150364146A1 (en) * | 2014-06-11 | 2015-12-17 | David Larsen | Method for Providing Visual Feedback for Vowel Quality |
US9854139B2 (en) | 2014-06-24 | 2017-12-26 | Sony Mobile Communications Inc. | Lifelog camera and method of controlling same using voice triggers |
US9393486B2 (en) | 2014-06-27 | 2016-07-19 | Amazon Technologies, Inc. | Character simulation and playback notification in game session replay |
US9409083B2 (en) | 2014-06-27 | 2016-08-09 | Amazon Technologies, Inc. | Spawning new timelines during game session replay |
US10092833B2 (en) | 2014-06-27 | 2018-10-09 | Amazon Technologies, Inc. | Game session sharing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP6721298B2 (en) | 2014-07-16 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Voice information control method and terminal device |
US9483768B2 (en) * | 2014-08-11 | 2016-11-01 | 24/7 Customer, Inc. | Methods and apparatuses for modeling customer interaction experiences |
US10178473B2 (en) | 2014-09-05 | 2019-01-08 | Plantronics, Inc. | Collection and analysis of muted audio |
US10013983B1 (en) | 2014-09-19 | 2018-07-03 | United Services Automobile Association (Usaa) | Selective passive voice authentication |
US9548979B1 (en) | 2014-09-19 | 2017-01-17 | United Services Automobile Association (Usaa) | Systems and methods for authentication program enrollment |
US10587594B1 (en) * | 2014-09-23 | 2020-03-10 | Amazon Technologies, Inc. | Media based authentication |
US11051702B2 (en) | 2014-10-08 | 2021-07-06 | University Of Florida Research Foundation, Inc. | Method and apparatus for non-contact fast vital sign acquisition based on radar signal |
US9659564B2 (en) * | 2014-10-24 | 2017-05-23 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi | Speaker verification based on acoustic behavioral characteristics of the speaker |
US10296723B2 (en) | 2014-12-01 | 2019-05-21 | International Business Machines Corporation | Managing companionship data |
US20160162807A1 (en) * | 2014-12-04 | 2016-06-09 | Carnegie Mellon University, A Pennsylvania Non-Profit Corporation | Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems |
US20160180277A1 (en) * | 2014-12-17 | 2016-06-23 | Avaya Inc. | Automated responses to projected contact center agent fatigue and burnout |
US9875742B2 (en) | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
US9722965B2 (en) * | 2015-01-29 | 2017-08-01 | International Business Machines Corporation | Smartphone indicator for conversation nonproductivity |
US20160286047A1 (en) * | 2015-03-27 | 2016-09-29 | Avaya Inc. | Pre-login agent monitoring |
US9431003B1 (en) | 2015-03-27 | 2016-08-30 | International Business Machines Corporation | Imbuing artificial intelligence systems with idiomatic traits |
JP6238246B2 (en) * | 2015-04-16 | 2017-11-29 | 本田技研工業株式会社 | Conversation processing apparatus and conversation processing method |
US9858614B2 (en) | 2015-04-16 | 2018-01-02 | Accenture Global Services Limited | Future order throttling |
US10004655B2 (en) | 2015-04-17 | 2018-06-26 | Neurobotics Llc | Robotic sports performance enhancement and rehabilitation apparatus |
US9833200B2 (en) | 2015-05-14 | 2017-12-05 | University Of Florida Research Foundation, Inc. | Low IF architectures for noncontact vital sign detection |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10997226B2 (en) | 2015-05-21 | 2021-05-04 | Microsoft Technology Licensing, Llc | Crafting a response based on sentiment identification |
US10650437B2 (en) | 2015-06-01 | 2020-05-12 | Accenture Global Services Limited | User interface generation for transacting goods |
US9239987B1 (en) | 2015-06-01 | 2016-01-19 | Accenture Global Services Limited | Trigger repeat order notifications |
US10300394B1 (en) | 2015-06-05 | 2019-05-28 | Amazon Technologies, Inc. | Spectator audio analysis in online gaming environments |
US10293260B1 (en) | 2015-06-05 | 2019-05-21 | Amazon Technologies, Inc. | Player audio analysis in online gaming environments |
US10275522B1 (en) | 2015-06-11 | 2019-04-30 | State Farm Mutual Automobile Insurance Company | Speech recognition for providing assistance during customer interaction |
US10970843B1 (en) | 2015-06-24 | 2021-04-06 | Amazon Technologies, Inc. | Generating interactive content using a media universe database |
US9596349B1 (en) | 2015-06-29 | 2017-03-14 | State Farm Mutual Automobile Insurance Company | Voice and speech recognition for call center feedback and quality assurance |
US10363488B1 (en) | 2015-06-29 | 2019-07-30 | Amazon Technologies, Inc. | Determining highlights in a game spectating system |
US10864447B1 (en) | 2015-06-29 | 2020-12-15 | Amazon Technologies, Inc. | Highlight presentation interface in a game spectating system |
US10376795B2 (en) | 2015-06-30 | 2019-08-13 | Amazon Technologies, Inc. | Game effects from spectating community inputs |
US10390064B2 (en) | 2015-06-30 | 2019-08-20 | Amazon Technologies, Inc. | Participant rewards in a spectating system |
US11071919B2 (en) | 2015-06-30 | 2021-07-27 | Amazon Technologies, Inc. | Joining games from a spectating system |
US10345897B2 (en) | 2015-06-30 | 2019-07-09 | Amazon Technologies, Inc. | Spectator interactions with games in a specatating system |
US10632372B2 (en) | 2015-06-30 | 2020-04-28 | Amazon Technologies, Inc. | Game content interface in a spectating system |
US10484439B2 (en) | 2015-06-30 | 2019-11-19 | Amazon Technologies, Inc. | Spectating data service for a spectating system |
JP6519413B2 (en) * | 2015-08-31 | 2019-05-29 | 富士通株式会社 | Nuisance call detection device, nuisance call detection method, and program |
US9865281B2 (en) | 2015-09-02 | 2018-01-09 | International Business Machines Corporation | Conversational analytics |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
WO2017048730A1 (en) | 2015-09-14 | 2017-03-23 | Cogito Corporation | Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices |
WO2017048729A1 (en) | 2015-09-14 | 2017-03-23 | Cogito Corporation | Systems and methods for managing, analyzing, and providing visualizations of multi-party dialogs |
CN106562792B (en) | 2015-10-08 | 2021-08-06 | 松下电器(美国)知识产权公司 | Control method of information presentation device and information presentation device |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CZ307289B6 (en) * | 2015-11-13 | 2018-05-16 | Vysoká Škola Báňská -Technická Univerzita Ostrava | A method of prevention of dangerous situations when gathering persons at mass events, in means of transport, using the emotional curve of people |
WO2017085743A2 (en) * | 2015-11-17 | 2017-05-26 | Rudrappa Dhuler Vijayakumar | Wearable personal safety device with image and voice processing capabilities |
CN105451066B (en) * | 2015-11-20 | 2019-03-08 | 小米科技有限责任公司 | The control processing method and processing device of resource |
JP5939480B1 (en) * | 2015-12-25 | 2016-06-22 | 富士ゼロックス株式会社 | Terminal device, diagnostic system and program |
US9812154B2 (en) | 2016-01-19 | 2017-11-07 | Conduent Business Services, Llc | Method and system for detecting sentiment by analyzing human speech |
US10404853B2 (en) * | 2016-03-09 | 2019-09-03 | Centurylink Intellectual Property Llc | System and method for implementing self learning corrections call monitoring |
JP6703420B2 (en) * | 2016-03-09 | 2020-06-03 | 本田技研工業株式会社 | Conversation analysis device, conversation analysis method and program |
US9799325B1 (en) | 2016-04-14 | 2017-10-24 | Xerox Corporation | Methods and systems for identifying keywords in speech signal |
US10244113B2 (en) * | 2016-04-26 | 2019-03-26 | Fmr Llc | Determining customer service quality through digitized voice characteristic measurement and filtering |
PL3453189T3 (en) | 2016-05-06 | 2021-11-02 | Eers Global Technologies Inc. | Device and method for improving the quality of in- ear microphone signals in noisy environments |
US10065658B2 (en) * | 2016-05-23 | 2018-09-04 | International Business Machines Corporation | Bias of physical controllers in a system |
JP6695069B2 (en) * | 2016-05-31 | 2020-05-20 | パナソニックIpマネジメント株式会社 | Telephone device |
CN106356077B (en) * | 2016-08-29 | 2019-09-27 | 北京理工大学 | A kind of laugh detection method and device |
US20180060871A1 (en) * | 2016-08-31 | 2018-03-01 | Genesys Telecommunications Laboratories, Inc. | System and method for providing secure access to electronic records |
US10706856B1 (en) * | 2016-09-12 | 2020-07-07 | Oben, Inc. | Speaker recognition using deep learning neural network |
JP6672114B2 (en) * | 2016-09-13 | 2020-03-25 | 本田技研工業株式会社 | Conversation member optimization device, conversation member optimization method and program |
JP6748965B2 (en) * | 2016-09-27 | 2020-09-02 | パナソニックIpマネジメント株式会社 | Cognitive function evaluation device, cognitive function evaluation method, and program |
US10469424B2 (en) | 2016-10-07 | 2019-11-05 | Google Llc | Network based data traffic latency reduction |
CN106448670B (en) * | 2016-10-21 | 2019-11-19 | 竹间智能科技(上海)有限公司 | Conversational system is automatically replied based on deep learning and intensified learning |
US10158758B2 (en) | 2016-11-02 | 2018-12-18 | International Business Machines Corporation | System and method for monitoring and visualizing emotions in call center dialogs at call centers |
US10135979B2 (en) | 2016-11-02 | 2018-11-20 | International Business Machines Corporation | System and method for monitoring and visualizing emotions in call center dialogs by call center supervisors |
JP6618884B2 (en) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | Recognition device, recognition method and program |
US10950275B2 (en) | 2016-11-18 | 2021-03-16 | Facebook, Inc. | Methods and systems for tracking media effects in a media effect index |
US10303928B2 (en) | 2016-11-29 | 2019-05-28 | Facebook, Inc. | Face detection for video calls |
US10122965B2 (en) | 2016-11-29 | 2018-11-06 | Facebook, Inc. | Face detection for background management |
US10554908B2 (en) * | 2016-12-05 | 2020-02-04 | Facebook, Inc. | Media effect application |
US10708313B2 (en) | 2016-12-30 | 2020-07-07 | Google Llc | Multimodal transmission of packetized data |
US10924376B2 (en) | 2016-12-30 | 2021-02-16 | Google Llc | Selective sensor polling |
US10347247B2 (en) | 2016-12-30 | 2019-07-09 | Google Llc | Modulation of packetized audio signals |
US10957326B2 (en) | 2016-12-30 | 2021-03-23 | Google Llc | Device identifier dependent operation processing of packet based data communication |
US11295738B2 (en) | 2016-12-30 | 2022-04-05 | Google, Llc | Modulation of packetized audio signals |
US10437928B2 (en) | 2016-12-30 | 2019-10-08 | Google Llc | Device identifier dependent operation processing of packet based data communication |
US10593329B2 (en) | 2016-12-30 | 2020-03-17 | Google Llc | Multimodal transmission of packetized data |
US10362269B2 (en) * | 2017-01-11 | 2019-07-23 | Ringcentral, Inc. | Systems and methods for determining one or more active speakers during an audio or video conference session |
CN107435514A (en) * | 2017-01-13 | 2017-12-05 | 湖北文理学院 | A kind of electric rolling door casualty accident self-braking device |
US10037767B1 (en) * | 2017-02-01 | 2018-07-31 | Wipro Limited | Integrated system and a method of identifying and learning emotions in conversation utterances |
DE102017205878A1 (en) * | 2017-04-06 | 2018-10-11 | Bundesdruckerei Gmbh | Method and system for authentication |
US10347244B2 (en) | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
EP3392884A1 (en) | 2017-04-21 | 2018-10-24 | audEERING GmbH | A method for automatic affective state inference and an automated affective state inference system |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | Low-latency intelligent automated assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10477024B1 (en) | 2017-05-30 | 2019-11-12 | United Services Automobile Association (Usaa) | Dynamic resource allocation |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
US10855844B1 (en) * | 2017-08-22 | 2020-12-01 | United Services Automobile Association (Usaa) | Learning based metric determination for service sessions |
EP3681678A4 (en) | 2017-09-18 | 2020-11-18 | Samsung Electronics Co., Ltd. | Method for dynamic interaction and electronic device thereof |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
JP6903380B2 (en) * | 2017-10-25 | 2021-07-14 | アルパイン株式会社 | Information presentation device, information presentation system, terminal device |
DE102017219268A1 (en) * | 2017-10-26 | 2019-05-02 | Bundesdruckerei Gmbh | Voice-based method and system for authentication |
US10867612B1 (en) | 2017-11-13 | 2020-12-15 | United Services Automobile Association (Usaa) | Passive authentication through voice data analysis |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
JP6996570B2 (en) * | 2017-11-29 | 2022-01-17 | 日本電信電話株式会社 | Urgency estimation device, urgency estimation method, program |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
JP6963497B2 (en) * | 2017-12-27 | 2021-11-10 | 株式会社日立情報通信エンジニアリング | Voice recognition system, call evaluation setting method |
CN108595406B (en) * | 2018-01-04 | 2022-05-17 | 广东小天才科技有限公司 | User state reminding method and device, electronic equipment and storage medium |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
CN108363745B (en) | 2018-01-26 | 2020-06-30 | 阿里巴巴集团控股有限公司 | Method and device for changing robot customer service into manual customer service |
JP2019159707A (en) * | 2018-03-12 | 2019-09-19 | 富士ゼロックス株式会社 | Information presentation device, information presentation method, and information presentation program |
US11545153B2 (en) * | 2018-04-12 | 2023-01-03 | Sony Corporation | Information processing device, information processing system, and information processing method, and program |
US10621991B2 (en) * | 2018-05-06 | 2020-04-14 | Microsoft Technology Licensing, Llc | Joint neural network for speaker recognition |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10896688B2 (en) * | 2018-05-10 | 2021-01-19 | International Business Machines Corporation | Real-time conversation analysis system |
US11538128B2 (en) | 2018-05-14 | 2022-12-27 | Verint Americas Inc. | User interface for fraud alert management |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | Virtual assistant operation in multi-device environments |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10715664B2 (en) | 2018-06-19 | 2020-07-14 | At&T Intellectual Property I, L.P. | Detection of sentiment shift |
US10692486B2 (en) * | 2018-07-26 | 2020-06-23 | International Business Machines Corporation | Forest inference engine on conversation platform |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
CN109036466B (en) * | 2018-08-01 | 2022-11-29 | 太原理工大学 | Emotion dimension PAD prediction method for emotion voice recognition |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US10224035B1 (en) * | 2018-09-03 | 2019-03-05 | Primo Llc | Voice search assistant |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN109287977A (en) * | 2018-09-13 | 2019-02-01 | 西华大学 | A kind of process equipment of chicken snack food |
US11349989B2 (en) | 2018-09-19 | 2022-05-31 | Genpact Luxembourg S.à r.l. II | Systems and methods for sensing emotion in voice signals and dynamically changing suggestions in a call center |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109302633B (en) * | 2018-10-16 | 2021-10-01 | 深圳Tcl数字技术有限公司 | Television program scheduled recording method and device, smart television and readable storage medium |
US10887452B2 (en) | 2018-10-25 | 2021-01-05 | Verint Americas Inc. | System architecture for fraud detection |
US11501765B2 (en) * | 2018-11-05 | 2022-11-15 | Dish Network L.L.C. | Behavior detection |
US20220044697A1 (en) * | 2018-11-11 | 2022-02-10 | Connectalk Yel Ltd | Computerized system and method for evaluating a psychological state based on voice analysis |
EP3664470B1 (en) | 2018-12-05 | 2021-02-17 | Sonova AG | Providing feedback of an own voice loudness of a user of a hearing device |
US10681214B1 (en) | 2018-12-27 | 2020-06-09 | Avaya Inc. | Enhanced real-time routing |
CN109887526B (en) * | 2019-01-04 | 2023-10-17 | 平安科技(深圳)有限公司 | Method, device, equipment and storage medium for detecting physiological state of ewe |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2020257354A1 (en) * | 2019-06-17 | 2020-12-24 | Gideon Health | Wearable device operable to detect and/or manage user emotion |
US11031013B1 (en) * | 2019-06-17 | 2021-06-08 | Express Scripts Strategic Development, Inc. | Task completion based on speech analysis |
IL303147B2 (en) | 2019-06-20 | 2024-09-01 | Verint Americas Inc | Systems and methods for authentication and fraud detection |
US10943604B1 (en) * | 2019-06-28 | 2021-03-09 | Amazon Technologies, Inc. | Emotion detection using speaker baseline |
RU2019121652A (en) * | 2019-07-11 | 2021-01-13 | Общество С Ограниченной Ответственностью "Лицом К Лицу" | A method for automatically determining a respondent's attitude to professionally important competencies based on the results of an electronic multi-level analysis of his voice and a system for implementing this method |
CN110532599B (en) * | 2019-07-18 | 2022-05-10 | 中国石油天然气股份有限公司 | Heart beach sand body parameter quantitative characterization method |
CN110858819A (en) * | 2019-08-16 | 2020-03-03 | 杭州智芯科微电子科技有限公司 | Corpus collection method and device based on WeChat applet and computer equipment |
US11663607B2 (en) | 2019-09-04 | 2023-05-30 | Optum, Inc. | Machine-learning based systems and methods for generating an ordered listing of objects for a particular user |
US11868453B2 (en) | 2019-11-07 | 2024-01-09 | Verint Americas Inc. | Systems and methods for customer authentication based on audio-of-interest |
US11074926B1 (en) | 2020-01-07 | 2021-07-27 | International Business Machines Corporation | Trending and context fatigue compensation in a voice signal |
CN111464784B (en) * | 2020-04-02 | 2021-02-09 | 中国船舶科学研究中心(中国船舶重工集团公司第七0二研究所) | Underwater self-cleaning acousto-optic monitoring device |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US12033087B2 (en) | 2020-07-24 | 2024-07-09 | Optum Services (Ireland) Limited | Categorical input machine learning models |
US12008441B2 (en) | 2020-07-24 | 2024-06-11 | Optum Services (Ireland) Limited | Categorical input machine learning models |
US20220027782A1 (en) * | 2020-07-24 | 2022-01-27 | Optum Services (Ireland) Limited | Categorical input machine learning models |
CN112230773B (en) * | 2020-10-15 | 2021-06-22 | 同济大学 | Intelligent scene pushing method and system for assisting enteroscopy and enteroscopy device |
CN112562738A (en) * | 2020-11-13 | 2021-03-26 | 江苏汉德天坤数字技术有限公司 | Speech emotion recognition algorithm |
US20220199224A1 (en) * | 2020-12-21 | 2022-06-23 | International Business Machines Corporation | De-escalating situations |
DK202070869A1 (en) * | 2020-12-22 | 2022-06-24 | Gn Audio As | Voice coaching system and related methods |
US12080286B2 (en) | 2021-01-29 | 2024-09-03 | Microsoft Technology Licensing, Llc | Determination of task urgency based on acoustic features of audio data |
WO2022226097A1 (en) * | 2021-04-22 | 2022-10-27 | Emotional Cloud, Inc. | Systems, devices and methods for affective computing |
CN113689408A (en) * | 2021-08-25 | 2021-11-23 | 东莞市春福润茶叶有限公司 | Method for identifying fermentation change degree of tea cake by training neural network, fermentation change degree identification method, quality identification method and storage medium |
US12100417B2 (en) | 2021-09-07 | 2024-09-24 | Capital One Services, Llc | Systems and methods for detecting emotion from audio files |
US20230096357A1 (en) * | 2021-09-30 | 2023-03-30 | Sony Interactive Entertainment Inc. | Emotion detection & moderation based on voice inputs |
CN113990352B (en) * | 2021-10-22 | 2023-05-30 | 平安科技(深圳)有限公司 | User emotion recognition and prediction method, device, equipment and storage medium |
US11775739B2 (en) | 2021-10-26 | 2023-10-03 | Sony Interactive Entertainment LLC | Visual tagging and heat-mapping of emotion |
WO2023102563A1 (en) * | 2021-12-03 | 2023-06-08 | Zingly Inc. | Methods and systems for a cloud-based, intelligent and interactive virtual container based customer service platform |
CN117235236B (en) * | 2023-11-10 | 2024-03-29 | 腾讯科技(深圳)有限公司 | Dialogue method, dialogue device, computer equipment and storage medium |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3971034A (en) * | 1971-02-09 | 1976-07-20 | Dektor Counterintelligence And Security, Inc. | Physiological response analysis method and apparatus |
US3691652A (en) * | 1971-06-01 | 1972-09-19 | Manfred E Clynes | Programmed system for evoking emotional responses |
US3855416A (en) * | 1972-12-01 | 1974-12-17 | F Fuller | Method and apparatus for phonation analysis leading to valid truth/lie decisions by fundamental speech-energy weighted vibratto component assessment |
US4093821A (en) * | 1977-06-14 | 1978-06-06 | John Decatur Williamson | Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person |
US4216594A (en) * | 1978-10-30 | 1980-08-12 | Cheryl Farley | Psychotherapeutic testing game |
US4602129A (en) * | 1979-11-26 | 1986-07-22 | Vmx, Inc. | Electronic audio communications system with versatile message delivery |
US4472833A (en) * | 1981-06-24 | 1984-09-18 | Turrell Ronald P | Speech aiding by indicating speech rate is excessive |
US4592086A (en) * | 1981-12-09 | 1986-05-27 | Nippon Electric Co., Ltd. | Continuous speech recognition system |
US4490840A (en) * | 1982-03-30 | 1984-12-25 | Jones Joseph M | Oral sound analysis method and apparatus for determining voice, speech and perceptual styles |
US4696038A (en) * | 1983-04-13 | 1987-09-22 | Texas Instruments Incorporated | Voice messaging system with unified pitch and voice tracking |
GB8525161D0 (en) | 1985-10-11 | 1985-11-13 | Blackwell V C | Personalised identification device |
US4931934A (en) * | 1988-06-27 | 1990-06-05 | Snyder Thomas E | Method and system for measuring clarified intensity of emotion |
US5461697A (en) * | 1988-11-17 | 1995-10-24 | Sekisui Kagaku Kogyo Kabushiki Kaisha | Speaker recognition system using neural network |
US4996704A (en) * | 1989-09-29 | 1991-02-26 | At&T Bell Laboratories | Electronic messaging systems with additional message storage capability |
US5163083A (en) * | 1990-10-12 | 1992-11-10 | At&T Bell Laboratories | Automation of telephone operator assistance calls |
CA2080862C (en) * | 1991-12-19 | 1996-11-26 | Priya Jakatdar | Recognizer for recognizing voice messages in pulse code modulated format |
US5390236A (en) * | 1992-03-31 | 1995-02-14 | Klausner Patent Technologies | Telephone answering device linking displayed data with recorded audio message |
US5410739A (en) * | 1992-09-29 | 1995-04-25 | The Titan Corporation | Variable data message communication over voice communication channel |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
US5539861A (en) * | 1993-12-22 | 1996-07-23 | At&T Corp. | Speech recognition using bio-signals |
US5704007A (en) * | 1994-03-11 | 1997-12-30 | Apple Computer, Inc. | Utilization of multiple voice sources in a speech synthesizer |
US5586171A (en) * | 1994-07-07 | 1996-12-17 | Bell Atlantic Network Services, Inc. | Selection of a voice recognition data base responsive to video data |
US5764789A (en) | 1994-11-28 | 1998-06-09 | Smarttouch, Llc | Tokenless biometric ATM access system |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5918222A (en) | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
US5734794A (en) * | 1995-06-22 | 1998-03-31 | White; Tom H. | Method and system for voice-activated cell animation |
US5647834A (en) * | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
US5903870A (en) * | 1995-09-18 | 1999-05-11 | Vis Tell, Inc. | Voice recognition and display device apparatus and method |
US5893057A (en) * | 1995-10-24 | 1999-04-06 | Ricoh Company Ltd. | Voice-based verification and identification methods and systems |
US5774591A (en) * | 1995-12-15 | 1998-06-30 | Xerox Corporation | Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images |
JP2980026B2 (en) * | 1996-05-30 | 1999-11-22 | 日本電気株式会社 | Voice recognition device |
NL1003802C1 (en) | 1996-07-24 | 1998-01-28 | Chiptec International Ltd | Identity card and identification system intended for application therewith. |
US5812977A (en) * | 1996-08-13 | 1998-09-22 | Applied Voice Recognition L.P. | Voice control computer interface enabling implementation of common subroutines |
US6292782B1 (en) | 1996-09-09 | 2001-09-18 | Philips Electronics North America Corp. | Speech recognition and verification system enabling authorized data transmission over networked computer systems |
US6263049B1 (en) * | 1996-10-10 | 2001-07-17 | Envision Telephony, Inc. | Non-random call center supervisory method and apparatus |
US5884247A (en) * | 1996-10-31 | 1999-03-16 | Dialect Corporation | Method and apparatus for automated language translation |
WO1998023062A1 (en) | 1996-11-22 | 1998-05-28 | T-Netix, Inc. | Voice recognition for information system access and transaction processing |
US6212550B1 (en) * | 1997-01-21 | 2001-04-03 | Motorola, Inc. | Method and system in a client-server for automatically converting messages from a first format to a second format compatible with a message retrieving device |
US6006188A (en) * | 1997-03-19 | 1999-12-21 | Dendrite, Inc. | Speech signal processing for determining psychological or physiological characteristics using a knowledge base |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6173260B1 (en) | 1997-10-29 | 2001-01-09 | Interval Research Corporation | System and method for automatic classification of speech based upon affective content |
US5913196A (en) * | 1997-11-17 | 1999-06-15 | Talmor; Rita | System and method for establishing identity of a speaker |
IL122632A0 (en) * | 1997-12-16 | 1998-08-16 | Liberman Amir | Apparatus and methods for detecting emotions |
US6185534B1 (en) * | 1998-03-23 | 2001-02-06 | Microsoft Corporation | Modeling emotion and personality in a computer user interface |
US5936515A (en) * | 1998-04-15 | 1999-08-10 | General Signal Corporation | Field programmable voice message device and programming device |
IL129399A (en) | 1999-04-12 | 2005-03-20 | Liberman Amir | Apparatus and methods for detecting emotions in the human voice |
US6151571A (en) * | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US7181693B1 (en) * | 2000-03-17 | 2007-02-20 | Gateway Inc. | Affective control of information systems |
US6795808B1 (en) | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
-
1999
- 1999-08-31 US US09/388,909 patent/US6275806B1/en not_active Expired - Lifetime
-
2000
- 2000-08-31 EP EP00959863A patent/EP1222448B1/en not_active Expired - Lifetime
- 2000-08-31 AT AT00959863T patent/ATE343120T1/en not_active IP Right Cessation
- 2000-08-31 DE DE60031432T patent/DE60031432T2/en not_active Expired - Lifetime
- 2000-08-31 WO PCT/US2000/024267 patent/WO2001016570A1/en active Application Filing
- 2000-08-31 IL IL14838800A patent/IL148388A0/en unknown
- 2000-08-31 AU AU71110/00A patent/AU7111000A/en not_active Abandoned
-
2001
- 2001-04-10 US US09/833,301 patent/US7940914B2/en active Active
-
2008
- 2008-09-03 IL IL193875A patent/IL193875A/en active IP Right Grant
-
2011
- 2011-03-29 US US13/074,844 patent/US8965770B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019110215A1 (en) | 2017-12-04 | 2019-06-13 | Siemens Mobility GmbH | Automated detection of an emergency situation of one or more persons |
Also Published As
Publication number | Publication date |
---|---|
EP1222448B1 (en) | 2006-10-18 |
US7940914B2 (en) | 2011-05-10 |
DE60031432D1 (en) | 2006-11-30 |
US8965770B2 (en) | 2015-02-24 |
US20110178803A1 (en) | 2011-07-21 |
WO2001016570A1 (en) | 2001-03-08 |
AU7111000A (en) | 2001-03-26 |
ATE343120T1 (en) | 2006-11-15 |
US20030033145A1 (en) | 2003-02-13 |
EP1222448A1 (en) | 2002-07-17 |
IL148388A0 (en) | 2002-09-12 |
IL193875A (en) | 2009-11-18 |
US6275806B1 (en) | 2001-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60031432T2 (en) | SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS | |
DE60020865T2 (en) | System, method and computer program for a telephone emotion detector with feedback to an operator | |
DE60210295T2 (en) | METHOD AND DEVICE FOR LANGUAGE ANALYSIS | |
US6697457B2 (en) | Voice messaging system that organizes voice messages based on detected emotion | |
US6427137B2 (en) | System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud | |
US6353810B1 (en) | System, method and article of manufacture for an emotion detection system improving emotion recognition | |
DE60033132T2 (en) | DETECTION OF EMOTIONS IN LANGUAGE SIGNALS BY ANALYSIS OF A VARIETY OF LANGUAGE SIGNAL PARAMETERS | |
DE602005001142T2 (en) | Messaging device | |
DE69427083T2 (en) | VOICE RECOGNITION SYSTEM FOR MULTIPLE LANGUAGES | |
DE60320414T2 (en) | Apparatus and method for the automatic extraction of important events in audio signals | |
DE60014063T2 (en) | DEVICE AND METHOD FOR DETECTING FEELINGS IN THE HUMAN VOICE | |
DE60108373T2 (en) | Method for detecting emotions in speech signals using speaker identification | |
DE3687815T2 (en) | METHOD AND DEVICE FOR VOICE ANALYSIS. | |
WO2001016892A1 (en) | System, method, and article of manufacture for a border crossing system that allows selective passage based on voice analysis | |
DE2918533A1 (en) | VOICE RECOGNITION SYSTEM | |
WO2001016940A1 (en) | System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the internet | |
DE60302478T2 (en) | Apparatus and method for speech information recognition using analysis of myoelectric signals | |
DE60108104T2 (en) | Method for speaker identification | |
DE69421704T2 (en) | METHOD AND DEVICE FOR TESTING A TELECOMMUNICATION SYSTEM USING A TEST SIGNAL WITH REDUCED REDUNDANCY | |
EP1097447A1 (en) | Method and device for recognizing predetermined key words in spoken language | |
DE2921012A1 (en) | METHOD AND DEVICE FOR DETERMINING LANGUAGE SKILLS (FLOWING THE LANGUAGE) OF A HUMAN PERSON, EXAMPLE FOR DIAGNOSIS OF HEART DISEASES | |
Nwe et al. | Stress classification using subband based features | |
Karakoc et al. | Visual and auditory analysis methods for speaker recognition in digital forensic | |
Alimuradov et al. | A method to Determine Speech Intelligibility for Estimating Psycho-Emotional State of Control System Operators with a High Degree of Responsibility | |
DE102021132936A1 (en) | Method for generating normal speech signal features, computer program, storage medium and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |