DE60031432T2 - SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS - Google Patents

SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS Download PDF

Info

Publication number
DE60031432T2
DE60031432T2 DE60031432T DE60031432T DE60031432T2 DE 60031432 T2 DE60031432 T2 DE 60031432T2 DE 60031432 T DE60031432 T DE 60031432T DE 60031432 T DE60031432 T DE 60031432T DE 60031432 T2 DE60031432 T2 DE 60031432T2
Authority
DE
Germany
Prior art keywords
speech
emotion
statistics
voice
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60031432T
Other languages
German (de)
Other versions
DE60031432D1 (en
Inventor
A. Valery PETRUSHIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture LLP
Original Assignee
Accenture LLP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23536042&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60031432(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Accenture LLP filed Critical Accenture LLP
Application granted granted Critical
Publication of DE60031432D1 publication Critical patent/DE60031432D1/en
Publication of DE60031432T2 publication Critical patent/DE60031432T2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Stored Programmes (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

A computer system monitors a conversation between an agent and a customer. The system extracts a voice signal from the conversation and analyzes the voice signal to detect a voice characteristic of the customer. The system identifies an emotion corresponding to the voice characteristic and initiates an action based on the emotion. The action may include communicating the emotion to an emergency response team, or communicating feedback to a manager of the agent, as examples.

Description

Gebiet der ErfindungTerritory of invention

Die vorliegende Erfindung bezieht sich auf Spracherkennung und insbesondere auf ein Detektieren von Emotionen unter Verwendung von Statistiken, welche für Sprach- bzw. Stimmsignalparameter berechnet sind bzw. werden.The The present invention relates to speech recognition, and more particularly on detecting emotions using statistics, which for Speech or voice signal parameters are calculated or be.

Hintergrund der Erfindungbackground the invention

Obwohl die erste Monographie über einen Ausdruck von Emotionen bei Tieren und Menschen durch Charles Darwin im letzten Jahrhundert geschrieben wurde und Psychologen allmählich Kenntnis auf dem Gebiet einer Emotionsdetektion und Stimmerkennung gesammelt haben, hat es eine neue Welle von Interesse kürzlich sowohl von Psychologen wie auch Spezialisten für künstliche Intelligenz auf sich gezogen. Es gibt verschiedene Gründe für dieses erneuerte Interesse: technologischen Fortschritt beim Aufzeichnen, Speichern und Verarbeiten von audiovisueller Information; die Entwicklung von nicht-eindringenden Sensoren; die Einführung bzw. das Auftreten von tragbaren Computern; und den Zwang, die Mensch-Computer-Schnittstelle vom Zeigen und Klicken zu einem Empfinden und Fühlen zu erweitern. Weiterhin wurde ein neues Gebiet von Forschung, die in der AI bzw. künstlichen Intelligenz als gemütsbezogenes bzw. emotionales Berechnen bekannt ist, kürzlich identifiziert.Even though the first monograph about an expression of emotions in animals and humans by Charles Darwin was written in the last century and psychologists gradually Knowledge in the field of emotion detection and voice recognition There has been a new wave of interest recently both of psychologists as well as artificial intelligence specialists drawn. There are several reasons for this renewed interest: technological progress in recording, Storage and processing of audiovisual information; the development non-intrusive sensors; the introduction or occurrence of portable computers; and the compulsion, the human-computer interface of Point and click to a sensation and feel to expand. Farther became a new field of research in AI or artificial Intelligence as mind-related or emotional computation is known, recently identified.

Betreffend Forschung beim Erkennen von Emotionen in der Sprache haben einerseits Psychologen viele Experimente durchgeführt und Theorien vorgeschlagen. Andererseits trugen Al-Forscher zu den folgenden Gebieten bei: Synthese von emotionaler Sprache, Erkennung von Emotionen und die Verwendung von Agentien bzw. Mitteln zum Dekodieren und Ausdrücken von Emotionen. Ein ähnlicher Fortschritt wurde bei einer Spracherkennung gemacht.Concerning Research in recognizing emotions in the language have one hand Psychologists performed many experiments and suggested theories. On the other hand, Al researchers contributed to the following areas: Synthesis from emotional language, emotion recognition and use of agents or means for decoding and expressing Emotions. A similar one Progress has been made in speech recognition.

Trotz der Erforschung beim Erkennen von Emotionen in der Sprache war die Technik ohne Verfahren und Vorrichtungen, welche eine Emotionserkennung und Stimm- bzw. Spracherkennung für Geschäftszwecke verwenden.In spite of research into recognizing emotions in language was the Technique without methods and devices that an emotion detection and use voice recognition for business purposes.

Die Literaturstelle "Pattern Recognition in the Vocal Expression of Emotional Categories", Jimenez-Fernandez et al, Proceedings of the Ninth Annual Conference of the IEEE Engineering in Medicine and Biology Society, Band 4, 13-16, Nov. 1987, Seiten 2090-2091, offenbart die Verwendung von akustischen Parametern und Statistiken von derartigen Parametern beim Detektieren einer Emotion eines Sprechers. Die verwendeten Parameter sind: Variable, welche sich auf die "Tonkontur" beziehen; die durchschnittliche fundamentale bzw. Grundfrequenz und ihre Abweichung; Satzlänge (enthaltend betonte, nicht betonte und stille Teile); und durchschnittliche bzw. mittlere Energie des Satzes und seine Variabilität.The Reference "Pattern Recognition in the Vocal Expression of Emotional Categories ", Jimenez-Fernandez et al, Proceedings of the Ninth Annual Conference of IEEE Engineering in Medicine and Biology Society, Vol. 4, 13-16, Nov. 1987, p 2090-2091, discloses the use of acoustic parameters and Statistics of such parameters when detecting an emotion a speaker. The parameters used are: variable, which refer to the "tonal contour"; the average fundamental frequency and its deviation; Record length (containing stressed, unstressed and silent parts); and average or average energy of the sentence and its variability.

Die Literaturstelle "Emotion Recognition and Synthesis System on Speech", T Moriyana et al, Juni 1999, Seiten 840-844, Proc IEEE Int. Conf. on Multimedia Computing and Systems, offenbart ein in Bezug Setzen von statistischen Parametern von Prosodie zu dem emotionalen Inhalt von Sprache.The Reference "Emotion Recognition and Synthesis System on speech ", T. Moriyana et al., June 1999, p 840-844, Proc IEEE Int. Conf. on Multimedia Computing and Systems, reveals a in Reference Set statistical parameters of prosody to the emotional Content of language.

Gemäß eine ersten Aspekt der Erfindung wird ein Verfahren zum Detektieren von Emotion in einer Sprache bzw. Stimme gemäß Anspruch 1 zur Verfügung gestellt.According to a first Aspect of the invention is a method for detecting emotion in a language or voice according to claim 1 available posed.

Gemäß einem zweiten Aspekt der Erfindung wird ein Computerprogramm, welches auf einem computerlesbaren Medium verkörpert ist, zum Detektieren von Emotion in einer Sprache bzw. Stimme gemäß Anspruch 2 zur Verfügung gestellt.According to one second aspect of the invention is a computer program which embodied on a computer readable medium for detecting of emotion in a voice according to claim 2.

Gemäß einem dritten Aspekt der Erfindung wird ein System zum Detektieren von Emotion in einer Sprache bzw. Stimme gemäß Anspruch 3 zur Verfügung gestellt.According to one Third aspect of the invention is a system for detecting Emotion in a language or voice according to claim 3 provided.

Ausführungsformen der Erfindung stellen ein System, ein Verfahren und ein Computerprogramm zum Detektieren von Emotion unter Verwendung von Statistiken zur Verfügung. Zuerst wird eine Datenbank zur Verfügung gestellt. Die Datenbank weist Statistiken auf, beinhaltend Statistiken von menschlichen Assoziationen von Stimm- bzw. Sprachparametern mit Emotionen. Als nächstes wird ein Sprachsignal empfangen. Wenigstens ein Merkmal wird von dem Sprachsignal extrahiert bzw. entnommen. Dann wird das entnommene Sprachmerkmal mit den Sprachparametern in der Datenbank verglichen. Eine Emotion wird aus der Datenbank basierend auf dem Vergleich des extrahierten Sprachmerkmals mit den Sprachparametern ausgewählt und dann ausgegeben.Embodiments of the invention provide a system, method, and computer program for detecting emotion using statistics. First, a database is made available. The database includes statistics including statistics of human associations of voice parameters with emotions. Next, a voice signal is received. At least one feature is extracted from the speech signal. Then the extracted speech feature is compared with the speech parameters in the database. An emotion is selected from the database based on the comparison of the extracted speech feature with the speech parameters and then spent.

In einer Ausführungsform der vorliegenden Erfindung enthält das Merkmal, welches extrahiert bzw. entnommen wird, einen maximalen Wert einer fundamentalen bzw. Grundfrequenz, eine Standardabweichung der fundamentalen Frequenz, einen Bereich der fundamentalen Frequenz, einen Mittelwert der fundamentalen Frequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung einer Energie, eine Sprechrate bzw. -geschwindigkeit, eine Neigung bzw. Steigung der fundamentalen Frequenz, einen maximalen Wert des ersten Formanten, einen maximalen Wert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten und/oder einen Bereich der ersten Formanten.In an embodiment of the present invention the feature that is extracted or extracted has a maximum Value of a fundamental frequency, a standard deviation of the fundamental frequency, a range of fundamental frequency, an average of the fundamental frequency, an average of a Bandwidth of a first formant, an average of a bandwidth a second formant, a standard deviation of an energy, a speech rate, a slope the fundamental frequency, a maximum value of the first formant, a maximum value of energy, a range of energy, a Area of the second formant and / or an area of the first Formants.

In einer anderen Ausführungsform der vorliegenden Erfindung enthält die Datenbank Wahrscheinlichkeiten eines speziellen bzw. bestimmten Sprachmerkmals, welches mit einer Emotion assoziiert bzw. verknüpft ist. Vorzugsweise enthält die Auswahl der Emotion aus der Datenbank ein Analysieren der Wahrscheinlichkeiten und ein Auswählen der am meisten wahrscheinlichen Emotion basierend auf den Wahrscheinlichkeiten. Fakultativ können die Wahrscheinlichkeiten der Datenbank Leistungskonfusionsstatistiken enthalten. Ebenfalls fakultativ können die Statistiken in der Datenbank Selbsterkennungsstatistiken enthalten.In another embodiment of the present invention the database probabilities of a particular or specific Speech feature associated with an emotion. Preferably contains selecting the emotion from the database analyzing the probabilities and a selection the most probable emotion based on the probabilities. Optional can the probabilities of database performance confusion statistics contain. Also optional, the statistics in the Database self-detection statistics included.

Kurze Beschreibung der ZeichnungenShort description the drawings

Die Erfindung wird besser verstanden werden, wenn die folgende detaillierte Beschreibung davon berücksichtigt wird. Eine solche Beschreibung nimmt bezug auf die beigefügten Zeichnungen, worin:The The invention will be better understood when the following detailed Description taken into account becomes. Such a description makes reference to the attached drawings, wherein:

1 ein schematisches Diagramm einer Hardware-Implementierung von einer Ausführungsform der vorliegenden Erfindung ist; 1 Fig. 12 is a schematic diagram of a hardware implementation of an embodiment of the present invention;

2 ein Flußdiagramm ist, welches eine Ausführungsform der vorliegenden Erfindung darstellt, welche Emotion unter Verwendung einer Stimm- bzw. Sprachanalyse detektiert; 2 Fig. 10 is a flowchart illustrating an embodiment of the present invention which detects emotion using a voice analysis;

3 ein Graph ist, welcher die durchschnittliche bzw. Durchschnittsgenauigkeit einer Erkennung für einen s70-Datensatz zeigt; 3 Fig. 10 is a graph showing the average accuracy of recognition for a s70 record;

4 eine Karte ist, welche die Durchschnittsgenauigkeit einer Erkennung für einen s80-Datensatz illustriert; 4 is a map illustrating the average accuracy of recognition for an s80 record;

5 ein Graph ist, welcher die Durchschnittsgenauigkeit einer Erkennung für einen s90-Datensatz darstellt; 5 Fig. 10 is a graph illustrating the average accuracy of recognition for a s90 record;

6 ein Flußdiagramm ist, welches eine Ausführungsform der vorliegenden Erfindung illustriert, welche eine Emotion unter Verwendung von Statistik detektiert; 6 Fig. 10 is a flowchart illustrating an embodiment of the present invention which detects emotion using statistics;

7 ein Flußdiagramm ist, welches ein Verfahren zum Detektieren von Nervosität in einer Stimme in einer Geschäftsumgebung illustriert, um zu helfen, einen Betrug zu verhindern; 7 Fig. 10 is a flowchart illustrating a method for detecting nervousness in a voice in a business environment to help prevent fraud;

8 ein Flußdiagramm ist, welches eine Vorrichtung zum Detektieren von Emotion aus einer Stimmprobe in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung darstellt; 8th Fig. 10 is a flow chart illustrating an apparatus for detecting emotion from a voice sample in accordance with an embodiment of the present invention;

9 ein Flußdiagramm ist, welches eine Vorrichtung zum Erzeugen sichtbarer Aufzeichnungen von Schall in Übereinstimmung mit einer Ausführungsform der Erfindung illustriert; 9 Fig. 10 is a flow chart illustrating an apparatus for producing visible recordings of sound in accordance with an embodiment of the invention;

10 ein Flußdiagramm ist, welches eine Ausführungsform der vorliegenden Erfindung illustriert, welche Emotionen in Stimmsignalen überwacht und eine Rückkopplung basierend auf den detektierten Emotionen zur Verfügung stellt; 10 Fig. 10 is a flow chart illustrating an embodiment of the present invention which monitors emotions in voice signals and provides feedback based on the detected emotions;

11 ein Flußdiagramm ist, welches ein System illustriert, welches Anwender- gegen Computeremotionsdetektion von Stimmsignalen vergleicht, um eine Emotionserkennung von entweder einer Ausführungsform der Erfindung, einem Anwender, oder beiden zu verbessern; 11 Fig. 10 is a flow chart illustrating a system that compares user vs. computer emotion detection of voice signals to enhance emotion recognition of either an embodiment of the invention, a user, or both;

12 ein schematisches Diagramm in Blockform einer Spracherkennungsvorrichtung ist; 12 is a schematic diagram in block form of a speech recognition device;

13 ein schematisches Diagramm in Blockform der Elementanordnung und eines Speicherblocks in 12 ist; 13 a schematic diagram in block form of the element arrangement and a memory block in 12 is;

14 ein Spracherkennungssystem mit einem Biomonitor und einem Vorprozessor illustriert; 14 a speech recognition system with a biomonitor and a preprocessor illustrated;

15 ein Biosignal illustriert, welches durch den Biomonitor von 14 erzeugt wurde; 15 a biosignal illustrated by the biomonitor of 14 was generated;

16 einen Schaltkreis innerhalb des Biomonitors illustriert; 16 illustrates a circuit within the biomonitor;

17 ein Blockdiagramm des Vorprozessors ist; 17 is a block diagram of the preprocessor;

18 eine Beziehung zwischen einer Tonhöhenmodifizierung und dem Biosignal illustriert; 18 illustrates a relationship between a pitch modification and the biosignal;

19 ein Flußdiagramm eines Kalibrationsprogramms ist; 19 Fig. 10 is a flowchart of a calibration program;

20 allgemein die Konfiguration des Abschnitts des Systems zeigt, wobei eine verbesserte Auswahl eines Satzes von Tonhöhenperiodenkandidaten erhalten bzw. erzielt wird. 20 generally shows the configuration of the portion of the system, wherein an improved selection of a set of pitch period candidates is obtained.

Detaillierte Beschreibungdetailed description

In Übereinstimmung mit wenigstens einer Ausführungsform der vorliegenden Erfindung ist bzw. wird ein System zum Durchführen verschiedener Funktionen und Aktivitäten durch Stimmanalyse und Stimmerkennung zur Verfügung gestellt. Das System kann eingerichtet sein, indem eine Hardware-Implementierung, wie beispielsweise jene verwendet wird, die in 1 illustriert ist. Weiterhin können verschiedene funktionelle und Anwender-Schnittstellenmerkmale einer Ausführungsform der vorliegenden Erfindung eingerichtet bzw. ermöglicht sein, indem eine Softwareprogrammierung, z.B. objektorientierte Programmierung (OOP) verwendet wird.In accordance with at least one embodiment of the present invention, a system for performing various functions and activities through voice analysis and voice recognition is provided. The system may be implemented using a hardware implementation, such as those described in U.S. Patent Nos. 4,766,866 1 is illustrated. Furthermore, various functional and user interface features of an embodiment of the present invention may be implemented using software programming, such as object-oriented programming (OOP).

HardwareüberblickHardware Overview

Eine repräsentative Hardwareumgebung einer bevorzugten Ausführungsform der vorliegenden Erfindung ist in 1 dargestellt, welche eine typische Hardwarekonfiguration einer Arbeitsstation illustriert, welche eine Zentralrecheneinheit 110, wie beispielsweise einen Mikroprozessor, und eine Anzahl von anderen Einheiten aufweist, welche über einen Systembus 112 verbunden sind. Die in 1 gezeigte Arbeitsstation beinhaltet einen Direktzugriffsspeicher bzw. Schreib-Lese-Speicher (RAM) 114, einen Nurlese- bzw. Festwertspeicher (ROM) 116, einen I/O-Adapter 118 zum Verbinden bzw. Anschließen peripherer Geräte, wie beispielsweise Diskettenspeichereinheiten 120 mit dem Bus 112, einen Anwender-Schnittstellenadapter 122 zum Verbinden einer Tastatur 124, einer Maus 126, eines Lautsprechers 128, eines Mikrophons 132, und/oder andere Anwender-Schnittstellengeräte, wie beispielsweise einen Berührungsbildschirm bzw. Sensorbildschirm (nicht gezeigt) mit dem Bus 112, Kommunikationsadapter 134 zum Verbinden der Arbeitsstation mit einem Kommunikationsnetzwerk (z.B. einem Datenverarbeitungsnetzwerk) und einen Anzeigeadapter 136 zum Verbinden des Buses 112 mit einer Anzeigevorrichtung 138. Die Arbeitsstation weist typischerweise darauf angesiedelt ein Betriebssystem auf, wie beispielsweise das Microsoft Windows NT oder Windows/95 Betriebssystem (05), das IBM OS/2-Betriebssystem, das MAC OS, oder UNIX-Betriebssystem.A representative hardware environment of a preferred embodiment of the present invention is shown in FIG 1 which illustrates a typical hardware configuration of a workstation which is a central processing unit 110 , such as a microprocessor, and a number of other units that communicate over a system bus 112 are connected. In the 1 shown workstation includes a random access memory (RAM) 114 , a read-only memory (ROM) 116 , an I / O adapter 118 for connecting peripheral devices such as floppy disk storage units 120 by bus 112 , a user interface adapter 122 for connecting a keyboard 124 , a mouse 126 , a speaker 128 , a microphone 132 , and / or other user interface devices, such as a touch screen (not shown) to the bus 112 , Communication adapter 134 for connecting the workstation to a communications network (eg, a data processing network) and a display adapter 136 to connect the bus 112 with a display device 138 , The workstation typically has an operating system based thereon, such as the Microsoft Windows NT or Windows / 95 operating system (05), the IBM OS / 2 operating system, the MAC OS, or UNIX operating system.

Emotionserkennungemotion recognition

Die vorliegende Erfindung ist auf ein Verwenden einer Erkennung von Emotionen in der Sprache für Geschäftszwecke gerichtet. Einige Ausführungsformen der vorliegenden Erfin dung können verwendet werden, um die Emotion einer Person basierend auf einer Stimmanalyse zu detektieren und die detektierte Emotion der Person auszugeben. Andere Ausführungsformen der vorliegenden Erfindung können für die Detektion des emotionalen Zustands in Telefon-Call-Center-Unterhaltungen und ein Bereitstellen einer Rückkopplung bzw. eines Feedbacks für einen Betreiber oder Überwacher für Überwachungszwecke verwendet werden.The The present invention is directed to using recognition of Emotions in the language for business purposes directed. Some embodiments of the present inven tion can used to reflect the emotion of a person based on a person To detect voice analysis and the detected emotion of the person issue. Other embodiments of the present invention for the Detecting the emotional state in telephone call center conversations and providing a feedback or a feedback for an operator or supervisor for surveillance purposes be used.

Wenn die Zielsubjekte bekannt sind, wird vorgeschlagen, daß eine Studie an einigen der Zielsubjekte ausgeführt wird, um zu bestimmen, welche Abschnitte einer Stimme am verläßlichsten als Indikatoren bzw. Anzeiger einer Emotion sind. Wenn Zielsubjekte nicht verfügbar sind, können andere Subjekte bzw. Personen verwendet werden. Unter Berücksichtigung dieser Orientierung gilt für die folgende Diskussion:

  • • Daten sollten von Leuten gefordert bzw. gesammelt werden, welche nicht professionelle Schauspieler oder Schauspielerinnen sind, um die Genauigkeit zu verbessern, da Schauspieler und Schauspielerinnen eine bestimmte Sprachkomponente überbetonen könnten, was einen Fehler erzeugt.
  • • Daten könnten von Testsubjekten gefordert werden, welche aus einer Gruppe ausgewählt sind, von welcher erwartet wird, daß sie analysiert wird. Dies würde die Genauigkeit verbessern.
  • • Auf Sprache in Telefonqualität (< 3,4 kHz) kann abgezielt werden, um eine Genauigkeit zur Verwendung mit einem Telefonsystem zu verbessern.
  • • Die Erprobung kann auf nur einem Stimmsignal beruhen. Dies bedeutet, daß die modernen Spracherkennungstechniken ausgeschlossen würden, da diese eine viel bessere Qualität des Signals und Rechenleistung erfordern.
If the target subjects are known, it is suggested that a study be run on some of the target subjects to determine which portions of a vote are most reliable as indicators of an emotion. If target subjects are not available, other subjects or persons can be used. Taking this orientation into consideration, the following discussion applies:
  • • Data should be requested / collected by people who are not professional actors or actresses to improve accuracy, as actors and actresses could overemphasize a particular language component, creating an error.
  • Data may be required from test subjects selected from a group expected to be analyzed. This would improve the accuracy.
  • • Telephone grade (<3.4 kHz) voice can be targeted to improve accuracy for use with a telephone system.
  • • The trial can be based on just one voice signal. This means that modern speech recognition techniques would be ruled out since they require much better signal quality and processing power.

Datensammlung & EvaluierungData Collection & Evaluation

In einem beispielhaften Test werden vier kurze Sätze von jedem von dreißig Leuten aufgezeichnet bzw. aufgenommen:

  • • "Dies ist nicht, was ich erwartete."
  • • "Ich werde da sein."
  • • "Morgen ist mein Geburtstag."
  • • "Ich werde nächste Woche heiraten."
In an exemplary test, four short sentences from each of thirty people are recorded or recorded:
  • • "This is not what I expected."
  • • "I'll be there."
  • • "Tomorrow is my birthday."
  • • "I will marry next week."

Jeder Satz sollte fünf mal aufgezeichnet werden; jedesmal porträtiert das Subjekt einen der folgenden emotionalen Zustände: Fröhlichkeit, Ärger, Traurigkeit, Angst/Nervosität und normal (unemotionell). Fünf Subjekte können auch die Sätze zweimal mit unterschiedlichen Aufzeichnungsparametern aufzeichnen. Somit hat jedes Subjekt 20 oder 40 Aussagen aufgezeichnet, welche einen Bestand ergeben, der 700 Aussagen mit 140 Aussagen pro emotionalen Zustand enthält. Jede Aussage kann unter Verwendung eines Nahebesprechungsmikrofons aufgezeichnet werden; die ersten 100 Aussagen bei 22-kHz/8 Bit und die verbleibenden 600 Aussagen bei 22-kHz/16 Bit.Everyone Sentence should be five times to be recorded; each time the subject portrays one of the following emotional states: Happiness, anger, sadness, Anxiety / nervousness and normal (unemotional). five Subjects can also the sentences Record twice with different recording parameters. Thus, each subject has recorded 20 or 40 statements which a stock yielding 700 statements with 140 statements per emotional State contains. Each statement can be made using a near-by microphone to be recorded; the first 100 statements at 22-kHz / 8-bit and the remaining 600 statements at 22-kHz / 16-bit.

Nach Erstellen des Bestands kann ein Experiment ausgeführt werden, um die Antworten auf die folgenden Fragen zu finden:

  • • Wie gut können Leute ohne spezielles Training Emotionen in der Sprache porträtieren bzw. darstellen und erkennen?
  • • Wie gut können Leute ihre eigene Emotionen erkennen, welche sie 6-8 Wochen früher aufzeichneten?
  • • Welche Arten von Emotionen sind leichter/schwerer zu erkennen?
After the inventory has been created, an experiment can be performed to find the answers to the following questions:
  • • How well can people without special training portray or portray emotions in language?
  • • How well can people recognize their own emotions that they recorded 6-8 weeks earlier?
  • • Which types of emotions are easier / harder to recognize?

Ein wichtiges Ergebnis des Experiments ist eine Auswahl eines Satzes der zuverlässigsten Aussagen, d.h. Aussagen bzw. Äußerungen, die durch die meisten Leute erkannt werden. Dieser Satz kann als Trainings- und Testdaten für Musterbekennungsalgorithmen verwendet werden, die auf einem Computer laufen.One important result of the experiment is a selection of a sentence the most reliable Statements, i. Statements or statements, which are recognized by most people. This sentence can as Training and test data for Pattern recognition algorithms are used on a computer to run.

Ein interaktives Programm eines Typs, welches in der Technik bekannt ist, kann verwendet werden, um die Aussagen in zufälliger Reihenfolge auszuwählen und wiederzugeben und es einem Anwender zu gestatten, jede Aussage entsprechend ihrem emotionalen Inhalt zu klassifizieren. Beispielsweise können dreiundzwanzig Subjekte bzw. Personen an der Evaluierungsstufe und zusätzliche 20 von jenen teilnehmen, welche früher im Aufnahmezustand teilgenommen haben.One interactive program of a type known in the art is, can be used to put the statements in random order select and reproduce and allow a user to make any statement according to their emotional content. For example can twenty-three subjects or persons at the evaluation level and additional 20 of those who participated earlier in the admission state to have.

Tabelle 1 zeigt eine Leistungs-Verwirrungsmatrix, welche aus Daten resultiert, die aus der Darbietung der zuvor besprochenen Studie gesammelt hat. Die Reihen und Spalten repräsentieren jeweils wahre & bewertete Kategorien. Beispielsweise sagt die zweite Reihe aus, daß 11,9% von Aussagen, welche als glücklich porträtiert wurden, als normal (unemotional) bewertet wurden, 61,4% als wirklich glücklich, 10,1% als ärgerlich, 4,1% als traurig, und 12,5 als ängstlich. Es wird auch ersehen, daß die am leichtesten erkennbare Kategorie Ärger ist (72,2%) und die am wenig sten erkennbare Kategorie Angst ist (49,5%). Eine Menge an Verwirrung wird zwischen Traurigkeit und Angst, Traurigkeit und unemotionalem Zustand und Fröhlichkeit und Angst gefunden. Die mittlere Genauigkeit ist 63,5%, welche mit den Resultaten der anderen experimentellen Studien übereinstimmt. Tabelle 1 Leistungs-Konfusions- bzw. -Verwirrungsmatrix

Figure 00110001
Table 1 shows a performance confusion matrix resulting from data gathered from the performance of the previously discussed study. The rows and columns each represent true & evaluated categories. For example, the second series states that 11.9% of statements portrayed as happy were rated normal (unemotional), 61.4% as really happy, 10.1% as annoying, 4.1% as sad , and 12.5 as anxious. It is also seen that the most obvious category is anger (72.2%) and the least recognizable category is anxiety (49.5%). A lot of confusion is found between sadness and anxiety, sadness and unemotional state, and happiness and anxiety. The mean accuracy is 63.5%, which agrees with the results of the other experimental studies. Table 1 Power Confusion Matrix
Figure 00110001

Tabelle 2 zeigt Statistiken für Bewerter für jede emotionelle Kategorie und für eine zusammengefaßte Leistung bzw. Darbietung, welche als die Summe von Darbietungen für jede Kategorie berechnet wurde. Es kann ersehen werden, daß die Varianz bzw. Abweichung für Ärger und Traurigkeit viel weniger als für die anderen emotionellen bzw. emotionalen Kategorien ist. Tabelle 2 Statistik der Bewerter

Figure 00120001
Table 2 shows statistics for evaluators for each emotional category and for a combined performance, which was calculated as the sum of performances for each category. It can be seen that the variance for anger and sadness is much less than for the other emotional or emotional categories. Table 2 Statistics of the evaluators
Figure 00120001

Tabelle drei unten zeigt Statistiken für "Schauspieler", d.h., wie gut Subjekte Emotionen porträtieren. Genauer gesagt, zeigen die Zahlen in der Tabelle, welcher Abschnitt von porträtierten Emotionen einer bestimmten Kategorie als diese Kategorie durch andere Subjekte erkannt wurde. Es ist interessant zu sehen, daß bei einem Vergleich von Tabelle 2 und 3 die Fähigkeit, Emotionen zu porträtieren (Gesamtmittelwert ist 62,9%) ungefähr auf demselben Pegel bleibt wie die Fähigkeit, Emotionen zu erkennen (Gesamtmittelwert ist 63,2%), jedoch die Abweichung bzw. Varianz für ein Porträtieren viel größer ist. Tabelle 3 Statistik der Schauspieler

Figure 00120002
Table three below shows statistics for "actors," ie, how well subjects portray emotions. More specifically, the numbers in the table show which portion of portrayed emotions of a particular category was recognized as this category by other subjects. It is interesting to see that in a comparison of Tables 2 and 3, the ability to portray emotions (overall mean is 62.9%) remains at approximately the same level as the ability to detect emotions (overall mean is 63.2%), however, the variance is much larger for portraying. Table 3 Statistics of the actors
Figure 00120002

Tabelle 4 zeigt Selbstbezugsstatistiken, d.h. wie gut Subjekte fähig waren, ihre eigenen Portraits bzw. Darstellungen zu erkennen. Wir können sehen, daß Leute viel besser ihre eigene Emotionen erkennen (das Mittel ist 80,0%), besonders für Ärger (98,1%), Traurigkeit (80,0%) und Angst (78,8%). Interessanterweise wurde Angst besser erkannt als Glücklichkeit bzw. Fröhlichkeit. Einige Subjekte versagten beim Erkennen ihrer eigenen Darstellungen für Fröhlichkeit und den Normalzustand. Tabelle 4 Selbstbezugsstatistik

Figure 00130001
Table 4 shows self-referential statistics, ie how well subjects were able to recognize their own portraits. We can see that people are much better at recognizing their own emotions (the mean is 80.0%), especially for anger (98.1%), sadness (80.0%) and anxiety (78.8%). Interestingly, anxiety was better recognized than happiness or happiness. Some subjects failed to recognize their own portrayals of happiness and normality. Table 4 Self-referral statistics
Figure 00130001

Aus dem Bestand von 700 Aussagen bzw. Äußerungen können fünf ineinander geschachtelte Datensätze, welche Äußerungen beinhalten, die als die gegebene Emotion porträtierend durch wenigstens p Prozent der Subjekte (p = 70, 80, 90, 95 und 100%) erkannt wurden, ausgewählt werden. Für die gegenwärtige Besprechung bzw. Diskussion sollen diese Datensätze als s70, s80, s90, s95 und s100 bezeichnet werden. Tabelle 5 unten zeigt die Anzahl von Elementen in jedem Datensatz. Wir können sehen, daß nur 7,9% der Äußerungen des Bestands durch alle Subjekte erkannt wurden. Und diese Zahl nimmt geradlinig bis zu 52, 7% für den Datensatz s70 zu, welcher mit dem 70 %-Pegel einer Konkordanz bzw. Übereinstimmung bei einem Dekodieren von Emotionen in Sprache übereinstimmt. Tabelle 5 p-Pegel Übereinstimmungs-Datensätze

Figure 00140001
From the inventory of 700 statements, five nested records containing utterances recognized as representing the given emotion by at least p percent of the subjects (p = 70, 80, 90, 95, and 100%) can be selected , For the current discussion, these records should be referred to as s70, s80, s90, s95 and s100. Table 5 below shows the number of elements in each record. We can see that only 7.9% of the utterances of the stock were recognized by all subjects. And this number increases in a straight line up to 52, 7% for the record s70, which agrees with the 70% level of concordance in decoding emotions in speech. Table 5 p-level match records
Figure 00140001

Die Ergebnisse bieten eine nützliche Einsicht über menschliche Darbietung bzw. Leistung und können als eine Grundlinie für einen Vergleich mit einer Computerdarbietung bzw. -leistung dienen.The Results provide a useful Insight about human performance and can be used as a baseline for one Serve comparison with a computer presentation or performance.

Merkmalsextraktionfeature extraction

Es wurde gefunden, daß die Tonhöhe der Hauptstimmhinweise zur Emotionserkennung ist. Streng gesprochen, wird die Tonhöhe durch die fundamentale bzw. Grundfrequenz (F0) repräsentiert, d.h. die Haupt- (niedrigste) Frequenz der Vibration bzw. Schwingung der Stimmlippen bzw. Stimmbänder. Die anderen akustischen Variablen, welche zur stimmlichen Emotionssignalisierung beitragen, sind:

  • • Stimmenergie bzw. Vokalenergie
  • • spektrale Frequenz-Merkmale
  • • Formanten (üblicherweise werden nur ein oder zwei erste Formanten (F1, F2) betrachtet).
  • • zeitliche Merkmale (Sprachtempo und Unterbrechung).
It has been found that the pitch of the main voice notes is for emotion recognition. Strictly speaking, the pitch is represented by the fundamental frequency (F0), ie the main (lowest) frequency of the vibration or vibration of the vocal folds or vocal cords. The other acoustic variables that contribute to vocal emotion signaling are:
  • • Voice energy or vocal energy
  • • Spectral frequency characteristics
  • • Formants (usually only one or two first formants (F1, F2) are considered).
  • • temporal characteristics (speed and interruption).

Eine andere Annäherung an eine Merkmalsextraktion ist, den Satz von Merkmalen durch Betrachten einiger derivativer Merkmale, wie beispielsweise LPC (lineare, voraussagende, codierende) Parameter eines Signals oder Merkmale der geglätteten Tonhöhenkontur und ihrer Ableitungen zu betrachten.A other approach to a feature extraction is the set of features by considering some derivative features, such as LPC (linear, predictive, coding parameters) of a signal or features of the smoothed pitch contour and their derivatives.

Für diese Erfindung kann die folgende Strategie angewendet werden. Erstens, berücksichtige die Grundfrequenz F0 (d.h. die Haupt- (niedrigste) Frequenz der Vibration der Stimmbänder), Energie, Sprachgeschwindigkeit, die ersten drei Formanten (F1, F2 und F3) und ihre Bandbreiten (BW1, BW2 und BW3) und berechne für diese so viele Statistiken bzw. statistische Daten wie möglich. Dann reihe die Statistiken unter Verwendung von Merkmalsauswahltechniken, und wähle einen Satz von "wichtigsten" Merkmalen aus.For this Invention, the following strategy can be applied. First, consider the fundamental frequency F0 (i.e., the main (lowest) frequency of the Vibration of the vocal cords), Energy, speech speed, the first three formants (F1, F2 and F3) and their bandwidths (BW1, BW2 and BW3) and calculate for them as many statistics or statistical data as possible. Then rank the statistics using feature selection techniques, and choose a set of "most important" features.

Die Sprachgeschwindigkeit kann als das Umgekehrte der Durchschnittslänge des stimmhaften Teils einer Äußerung berechnet werden. Für alle anderen Parameter können die folgenden statistischen Daten berechnet werden: Mittelwert, Standardabweichung, Minimum, Maximum und Bereich. Zusätzlich kann für F0 die Steigung als eine lineare Regression für den stimmhaften Teil der Sprache berechnet werden, d.h. jene Linie, welche zu der Tonhöhenkontur paßt. Die relative stimmhafte bzw. durch Stimme geäußerte Energie kann auch als der Anteil der stimmhaften Energie zu der Gesamtenergie der Äußerung berechnet werden. Insgesamt gibt es etwa 40 Merkmale für jede Äußerung.The Speech speed can be considered the inverse of the average length of the voiced part of an utterance become. For all other parameters can the following statistical data are calculated: mean, Standard deviation, minimum, maximum and range. In addition, can for F0 the slope as a linear regression for the voiced part of the Language can be calculated, i. that line leading to the pitch contour fits. The relative voiced or voiced energy can also be called the proportion of the voiced energy to the total energy of the utterance is calculated become. In total, there are about 40 features for each utterance.

Der RELIEF-F- bzw. ENTLASTE-F-Algorithmus kann zur Merkmalsauswahl verwendet werden. Beispielsweise kann ENTLASTEF für den s70-Datensatz gelaufen werden, wobei die Anzahl der nächsten Nachbarn von 1 bis 12 variiert wird, und die Merkmale entsprechend ihrer Summe von Rängen bzw. Reihungen geordnet werden. Die obersten 14 Merkmale sind die folgenden: F0 Maximum, F0 Standardabweichung, F0 Bereich, F0 Mittelwert, BW1 Mittelwert, BW2 Mittelwert, Energie-Standardabweichung, Sprachgeschwindigkeit, F0 Steigung, F1 Maximum, Energiemaximum, Energiebereich, F2 Bereich und F1 Bereich.Of the RELIEF-F or FULL-F algorithm can be used for feature selection become. For example, ENTLASTEF can run on the s70 record be the number of the next Neighbor varies from 1 to 12, and the characteristics accordingly their sum of ranks or rows are ordered. The top 14 features are the following: F0 maximum, F0 standard deviation, F0 range, F0 average, BW1 mean, BW2 mean, energy standard deviation, speech speed, F0 Slope, F1 maximum, energy maximum, energy range, F2 range and F1 range.

Um zu untersuchen, wie Sätze von Merkmalen die Genauigkeit von Emotionserkennungs-Algorithmen beeinflussen, können drei ineinander verschachtelte Sätze von Merkmalen basierend auf ihrer Summe von Reihungen ausgebildet werden. Der erste Satz beinhaltet die oberen acht Merkmale (von F0 Maximum zur Sprechgeschwindigkeit), der zweite Satz erstreckt sich von dem ersten zu zwei weiteren Merkmalen (F0 Steigung und F1 Maximum), und der dritte Satz beinhaltet alle 14 Höchstmerkmale. Mehr Details über den RELIEF-F-Algorithmus werden in der Veröffentlichung Proc. European Conf. On Machine Learning (1994) in dem Artikel von I. Kononenko, mit dem Titel "Abschätzungsattribute: Analyse und Erweiterung von "RELIEF" bzw. "ENTLASTUNG" dargelegt und auf den Seiten 171-182 gefunden.Around to investigate how sentences of features affect the accuracy of emotion recognition algorithms, can three nested sentences formed of features based on their sum of rankings become. The first sentence contains the top eight features (from F0 maximum speech rate), the second sentence extends from the first to two more features (F0 slope and F1 maximum), and the third set contains all 14 maximum features. More details about the RELIEF-F algorithm is used in the publication Proc. European Conf. On Machine Learning (1994) in the article by I. Kononenko, entitled "Estimation Attributes: Analysis and extension of "RELIEF" or "RELIEF" set out and on found on pages 171-182.

2 illustriert eine Ausführungsform der vorliegenden Erfindung, welche Emotion unter Verwendung von Sprach- bzw. Stimmanalyse detektiert. Im Vorgang 200 wird ein Stimmsignal empfangen bzw. aufgenommen, wie beispielsweise durch ein Mikrophon oder in der Form einer digitalisierten Probe bzw. Abtastung. Eine vorbestimmte Anzahl von Merkmalen des Stimmsignals wird, wie oben dargelegt, extrahiert und in dem Vorgang 202 ausgewählt. Diese Merkmale beinhalten, sind jedoch nicht begrenzt auf, einen Maximalwert einer fundamentalen bzw. Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Bereich der Grundfrequenz, einen Mittelwert der Grundfrequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung der Energie, eine Sprachgeschwindigkeit, eine Steigung der Grundfrequenz, einen Maximalwert der ersten Formanten, einen Maximalwert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten, und einen Bereich der ersten Formanten. Unter Verwendung der in Funktion bzw. Vorgang 202 ausgewählten Merkmale wird eine Emotion, die mit dem Stimmsignal assoziiert ist, in Vorgang 204 basierend auf dem extrahierten Merkmal bestimmt. Schließlich wird in Vorgang 206 die bestimmte Emotion ausgegeben. Siehe die Besprechung unten, besonders unter Bezugnahme auf 8 und 9 für eine detailliertere Besprechung bzw. Diskussion eines Bestimmens einer Emotion basierend auf einem Stimmsignal in Übereinstimmung mit der vorliegenden Erfindung. 2 illustrates an embodiment of the present invention that detects emotion using voice analysis. In act 200, a vocal signal is received, such as by a microphone or in the form of a digitized sample. A predetermined number of features of the voice signal are extracted as set forth above and in the process 202 selected. These features include, but are not limited to, a maximum value of a fundamental frequency, a standard deviation of the fundamental frequency, a range of the fundamental frequency, an average of the fundamental frequency, an average of a bandwidth of a first formant, an average of a bandwidth of a second formant, a Standard deviation of energy, a speech rate, a slope of the fundamental frequency, a maximum value of the first formants, a maximum value of the energy, a range of energy, a range of the second formants, and a range of the first formants. Using the in function or process 202 selected features, an emotion that is associated with the voice signal, in operation 204 determined based on the extracted feature. Finally, in process 206 the particular emotion spent. See the discussion below, especially with reference to 8th and 9 for a more detailed discussion of determining an emotion based on a vocal signal in accordance with the present invention.

Vorzugsweise wird das Merkmal des Stimmsignals aus der Gruppe von Merkmalen ausgewählt, welche aus dem Maximalwert der Grundfrequenz, der Standardabweichung der Grundfrequenz, dem Bereich der Grundfrequenz, dem Mittelwert der Grundfrequenz, dem Mittelwert der Bandbreite der ersten Formanten, dem Mittelwert der Bandbreite der zweiten Formanten, der Standardabweichung der Energie, und der Sprechgeschwindigkeit bestehen. Idealerweise beinhaltet das extrahierte Merkmal wenigstens eine der Steigung der Grundfrequenz und des Maximalwerts der ersten Formanten.Preferably For example, the feature of the voice signal is selected from the group of features which from the maximum value of the fundamental frequency, the standard deviation of Fundamental frequency, the range of the fundamental frequency, the mean of the Fundamental frequency, the mean of the bandwidth of the first formant, the mean of the second formant bandwidth, the standard deviation the energy, and the speech rate exist. Ideally the extracted feature includes at least one of the slopes the fundamental frequency and the maximum value of the first formants.

Optional ist bzw. wird eine Vielzahl von Merkmalen extrahiert, beinhaltend den Maximalwert der Grundfrequenz, die Standardabweichung der Grundfrequenz, den Bereich der Grundfrequenz, den Mittelwert der Grundfrequenz, den Mit telwert der Bandbreite der ersten Formanten, den Mittelwert der Bandbreite der zweiten Formanten, die Standardabweichung der Energie, und die Sprechgeschwindigkeit. Vorzugsweise beinhalten die extrahierten Merkmale die Steigung der Grundfrequenz und den Maximalwert der ersten Formanten.optional is a variety of features extracted, including the maximum value of the fundamental frequency, the standard deviation of the fundamental frequency, the range of the fundamental frequency, the mean of the fundamental frequency, the mean value of the bandwidth of the first formant, the mean the bandwidth of the second formant, the standard deviation of the Energy, and the speech rate. Preferably include the extracted features the slope of the fundamental frequency and the Maximum value of the first formants.

Als eine andere Option wird eine Vielzahl von Merkmalen extrahiert, beinhaltend den Maximalwert der Grundfrequenz, die Standardabweichung der Grundfrequenz, den Bereich der Grundfrequenz, den Mittelwert der Grundfrequenz, den Mittelwert der Bandbreite der ersten Formanten, den Mittelwert der Bandbreite der zweiten Formanten, die Standardabweichung der Energie, die Sprechgeschwindigkeit, die Steigung der Grundfrequenz, den Maximalwert der ersten Formanten, den Maximalwert der Energie, den Bereich der Energie, den Bereich der zweiten Formanten, und den Bereich der ersten Formanten.When another option will extract a variety of features including the maximum value of the fundamental frequency, the standard deviation the fundamental frequency, the range of the fundamental frequency, the mean of the Fundamental frequency, the mean of the bandwidth of the first formant, the mean of the bandwidth of the second formant, the standard deviation the energy, the speech rate, the slope of the fundamental frequency, the maximum value of the first formant, the maximum value of the energy, the area of energy, the area of the second formant, and the area of the first formant.

Computerleistungcomputer performance

Um Emotionen in einer Sprache zu erkennen, können zwei beispielhafte Annäherungen vorgenommen werden: neurale Netzwerke und Ensembles von Sortierern bzw. Klassifiziermaschinen. In der ersten Annäherung kann eine zweilagige rückwärts ausbreitende neurale Netzwerkarchitektur mit einem 8-, 10- oder 14-Element-Eingabevektor, 10 oder 20 Knoten in der versteckten sigmoidalen Schicht und fünf Knoten in der ausgegebenen linearen Schicht verwendet werden. Die Anzahl von Ausgaben stimmt mit der Anzahl von emotionalen Kategorien überein. Um die Algorithmen zu trainieren und zu testen, können Datensätze s70, s80 und s90 verwendet werden. Diese Sätze können zufällig in Training (67% an Äußerungen) und Test (33%) Untersätze aufgespalten bzw. aufgeteilt werden. Verschiedene neurale Netzwerkklassifizierer, welche mit unterschiedlichen Ausgangsgewichts-Matrizen trainiert sind, können erstellt bzw. erzeugt werden. Diese Annäherung, wenn an den s70-Datensatz und den 8-Merkmalsatz oben angewendet, ergaben die Durchschnittsgenauigkeit von etwa 55% mit der folgenden Verteilung für emotionale Kategorien. Normalzustand ist 40-50%, Fröhlichkeit ist 55-65%, Ärger ist 60-80%, Traurigkeit ist 60-70%, und Angst ist 20-40%.Around Recognizing emotions in one language can be two exemplary approaches neural networks and ensembles of sorters or classifying machines. In the first approximation can be a two-ply spreading backwards neural network architecture with an 8, 10 or 14 element input vector, 10 or 20 knots in the hidden sigmoid layer and five knots be used in the output linear layer. The number Spending matches the number of emotional categories. To train and test the algorithms, records s70, s80 and s90 are used. These sentences can happen in training (67% of utterances) and test (33%) subsets split or split. Various neural network classifiers, which trains with different starting weight matrices are, can be created or generated. This approach when connected to the s70 record and the 8-feature set applied above, gave the average accuracy of about 55% with the following distribution for emotional categories. normal state is 40-50%, cheerfulness is 55-65%, trouble is 60-80%, sadness is 60-70%, and anxiety is 20-40%.

Für die zweite Annäherung bzw. den zweiten Zugang werden Ensembles von Klassifizierern verwendet. Ein Ensemble besteht an einer ungeraden Anzahl von neuralen Netzwerkklassifizierern, welche auf unterschiedlichen Subsätzen bzw. Untersätzen des Trainingssatzes unter Verwendung der Bootstrapaggregation und kreuz- bzw. querbestätigten Ausschußtechniken trainiert wurden. Das Ensemble fällt Entscheidungen basierend auf dem Mehrheitsabstimmungsprinzip vorgeschlagene bzw. empfohlene Ensemblegrößen reichen von 7 bis 15.For the second approach or second access ensembles of classifiers are used. An ensemble consists of an odd number of neural network classifiers, which on different subsets or subsets of Training set using bootstrap aggregation and crossover or cross-confirmed Committee techniques were trained. The ensemble falls Decisions based on the majority voting principle proposed or recommended ensemble sizes range from 7 to 15.

3 zeigt die durchschnittliche Genauigkeit einer Erkennung für einen s70-Datensatz, alle drei Sätze der Merkmale, und beide neurale Netzwerkarchitekturen (10 und 20 Neuronen in der versteckten Schicht). Es kann gesehen werden, daß die Genauigkeit für Glücklichkeit dieselbe bleibt (ungefähr ~ 68%) für die unterschiedlichen Sätze von Merkmalen und Architekturen. Die Genauigkeit für Angst ist ziemlich niedrig (15-25%). Die Genauigkeit für Ärger ist relativ niedrig (40-45%) für den 8-Merkmals-Satz und verbessert sich dramatisch (65%) für den 14-Merkmalssatz. Jedoch ist die Genauigkeit für Traurigkeit höher für den 8-Merkmals-Satz als für die anderen Sätze. Die Durchschnittsgenauigkeit be trägt etwa 55%. Die niedrige Genauigkeit für Angst bestätigt das theoretische Resultat, welches besagt, daß, wenn die individuellen Klassifizierer unkorrelierte Fehler bei Raten begehen, welche 0,5 überschreiten (sie beträgt 0,6-0,8 in unserem Fall), dann die Fehlerrate des gewählten Ensembles zunimmt. 3 shows the average accuracy of detection for a s70 data set, all three sets of features, and both neural network architectures (10 and 20 neurons in the hidden layer). It can be seen that the accuracy for happiness remains the same (approximately ~ 68%) for the different sets of features and architectures. The accuracy for anxiety is pretty low (15-25%). Aggravation accuracy is relatively low (40-45%) for the 8-feature set and improves dramatically (65%) for the 14-feature set. However, the accuracy for sadness is higher for the 8-feature set than for the other sentences. The average accuracy is about 55%. The low accuracy for fear confirms the theoretical result, which states that if the individual classifiers make uncorrelated errors at rates that exceed 0.5 (it is 0.6-0.8 in our case), then the error rate of the chosen one Ensembles increases.

4 zeigt Resultate für einen s80-Datensatz. Es wird gesehen, daß die Genauigkeit für den Normalzustand niedrig ist (20-30%). Die Genauigkeit für Angst ändert sich dramatisch von 11% für den 8-Merkmalssatz und 10-Neuronen-Architektur auf 53% für die 10-Merkmals- und 10-Neuronen-Architektur. Die Genauigkeit für Fröhlichkeit, Ärger und Traurigkeit ist relativ hoch (68-83%). Die Durchschnittsgenauigkeit (~ 61%) ist höher als für den s70-Datensatz. 4 shows results for a s80 record. It is seen that the accuracy for the normal state is low (20-30%). The accuracy for anxiety changes dramatically from 11% for the 8-feature set and 10-neuron architecture to 53% for the 10-feature and 10-neuron architecture. The accuracy for happiness, anger and sadness is relatively high (68-83%). The average accuracy (~ 61%) is higher than for the s70 data set.

5 zeigt Resultate für einen s90-Datensatz. Wir können sehen, daß die Genauigkeit für Angst höher ist (25-60%), jedoch demselben Muster folgt, wie es für den s80-Datensatz gezeigt wird. Die Genauigkeit für Traurigkeit und Ärger ist sehr hoch: 75-100% für Ärger und 88-93% für Trauer. Die Durchschnittsgenauigkeit (62%) ist ungefähr gleich der Durchschnittsgenauigkeit für den s80-Datensatz. 5 shows results for a s90 record. We can see that anxiety accuracy is higher (25-60%) but follows the same pattern as shown for the s80 record. Accuracy for sadness and anger is very high: 75-100% for anger and 88-93% for grief. The average accuracy (62%) is approximately equal to the average accuracy for the s80 data set.

6 illustriert eine Ausführungsform der vorliegenden Erfindung, welche Emotion unter Verwendung von Statistiken bzw. statistischen Daten detektiert. Zuerst wird eine Datenbank in Vorgang 600 zur Verfügung gestellt. Die Datenbank weist Statistiken auf, welche Statistiken von menschlichen Assoziationen von Stimmparametern mit Emotionen beinhalten, wie beispielsweise jene, die in den Tabellen oben und 3 bis 5 gezeigt sind bzw. werden. Weiterhin kann die Datenbank eine Serie von Stimmtonhöhen beinhalten, wel che mit Angst assoziiert sind, und eine andere Serie von Stimmtonlagen bzw. -höhen, welche mit Fröhlichkeit assoziiert wird, und einen Fehlerbereich für bestimmte Tonlagen. Als nächstes wird ein Stimmsignal in Vorgang bzw. Funktion 602 empfangen bzw. aufgenommen. In Vorgang 604 wird bzw. werden ein oder mehrere Merkmal(e) aus dem Stimmsignal extrahiert. Siehe den Merkmalsextraktionsabschnitt oben für mehr Details über ein Extrahieren von Merkmalen aus einem Stimmsignal. Dann wird in Vorgang 606 das extrahierte Stimmerkmal mit den Stimmparametern in der Datenbank verglichen. In Vorgang 608 wird eine Emotion aus der Datenbank basierend auf dem Vergleich des extrahierten Stimmerkmals mit den Stimmparametern ausgewählt. Dies kann beispielsweise ein Vergleichen digitalisierter Sprachproben aus der Datenbank mit einer digitalisierten Probe des Merkmals, welches aus dem Stimmsignal extrahiert wurde, um eine Liste von wahrscheinlichen bzw. möglichen Emotionen zu erstellen, und dann ein Verwenden von Algorithmen beinhalten, um Statistiken der Genauigkeit von Menschen beim Erkennen der Emotion zu berücksichtigen, um eine endgültige Bestimmung der wahrscheinlichsten Emotion vorzunehmen. Die ausgewählte Emotion wird endgültig in Vorgang 610 ausgegeben. Siehe den Abschnitt mit dem Titel "Beispielhafte Vorrichtungen zum Detektieren von Emotion in Sprachsignalen", unten, für computerisierte Mechanismen, um eine Emotionserkennung in einer Sprache durchzuführen. 6 illustrates an embodiment of the present invention that detects emotion using statistics. First, a database is in process 600 made available. The database includes statistics that include statistics of human associations of voice parameters with emotions, such as those shown in the tables above and 3 to 5 are shown or are. Furthermore, the database may include a series of pitches that are associated with anxiety and another series of pitches associated with happiness and an error range for particular pitches. Next, a voice signal becomes in action 602 received or recorded. In process 604 one or more feature (s) is extracted from the vocal signal. See the feature extraction section above for more details on extracting features from a vocal signal. Then in process 606 compared the extracted voice memo with the voice parameters in the database. In process 608 For example, an emotion is selected from the database based on the comparison of the extracted voice feature with the voice parameters. This may include, for example, comparing digitized speech samples from the database with a digitized sample of the feature extracted from the vocal signal to produce a list of probable emotions and then using algorithms to obtain human accuracy statistics in recognizing the emotion to make a final determination of the most likely emotion. The selected emotion becomes final in action 610 output. See the section titled "Exemplary Devices for Detecting Emotion in Speech Signals," below, for computerized mechanisms to perform emotion recognition in a language.

In einem Aspekt der vorliegenden Erfindung beinhaltet die Datenbank Wahrscheinlichkeiten von besonderen Merkmalen, welche mit einer Emotion assoziiert werden. Vorzugsweise beinhaltet die Auswahl der Emotion aus der Datenbank ein Analysieren der Wahrscheinlichkeiten und ein Auswählen der wahrscheinlichsten Emotion basierend auf den Wahrschein lichkeiten. Optional können die Wahrscheinlichkeiten der Datenbank Darbietungsverwirrungs-Statistiken beinhalten, wie sie beispielsweise in der Bearbeitungs-Verwirrungs-Matrix oben gezeigt sind. Ebenfalls optional können die Statistiken in der Datenbank Selbsterkennungsstatistiken beinhalten, wie sie beispielsweise in den Tabellen oben gezeigt werden.In One aspect of the present invention includes the database Probabilities of special characteristics, which with a Emotion are associated. Preferably, the selection involves the emotion from the database analyzing the probabilities and a Choose the most likely emotion based on the probabilities. Optionally the probabilities of database performance confusion statistics include, for example, in the editing confusion matrix shown above. Also optional, the statistics in the Database include self-detection statistics, such as those shown in the tables above.

In einem anderen Aspekt der vorliegenden Erfindung beinhaltet das Merkmal, welches extrahiert wird, einen Maximalwert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Bereich der Grundfrequenz, einen Mittelwert der Grundfrequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung der Energie, eine Sprechgeschwindigkeit bzw. -rate, eine Steigung der Grundfrequenz, einen Maximalwert der ersten Formanten, einen Maximalwert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten und/oder einen Bereich der ersten Formanten.In In another aspect of the present invention, the feature includes which is extracted, a maximum value of a fundamental frequency, a standard deviation of the fundamental frequency, a range of the fundamental frequency, an average of the fundamental frequency, an average of a bandwidth a first formant, an average of a bandwidth of a second formant, a standard deviation of energy, a speech rate rate, a slope of the fundamental frequency, a maximum value of first formant, a maximum value of energy, an area of Energy, an area of the second formant, and / or an area the first formant.

7 ist ein Flußdiagramm, welches ein Verfahren zum Detektieren von Nervosität in einer Stimme in einer Geschäftsumgebung illustriert, um Betrug verhindern zu helfen. Zuerst werden in Vorgang 700 Stimmsignale von einer Person während eines Geschäftsereignisses empfangen. Beispielsweise können die Stimmsignale durch ein Mikrophon in der Nähe der Person erzeugt werden, können von einer Telefonanzapfung eingefangen werden, usw. Die Stimmsignale werden während des Geschäftsereignisses in Vorgang bzw. Funktion 702 analysiert, um einen Nervositätspegel der Person zu bestimmen. Die Stimmsignale können analysiert werden, wie dies oben dargelegt wurde. In Vorgang 704 wird eine An zeige des Pegels bzw. Niveaus der Nervosität bzw. eines Nervositätspegels ausgegeben, vorzugsweise bevor das Geschäftsereignis abgeschlossen ist, so daß jemand, der versucht, einen Betrug zu verhindern, eine Bewertung vornehmen kann, ob die Person zu konfrontieren ist, bevor diese Person weggeht. Jede Art von Ausgabe ist akzeptierbar, beinhaltend einen Papierausdruck oder eine Anzeige auf einem Computerbildschirm. Es sollte sich verstehen, daß diese Ausführungsform der Erfindung Emotionen verschieden von Nervosität detektieren kann. Derartige Emotionen beinhalten Streß und jede andere Emotion, welche einer Person eigen ist, wenn sie einen Betrug begeht. 7 Figure 10 is a flow chart illustrating a method for detecting nervousness in a voice in a business environment to help prevent fraud. First in process 700 Receive voice signals from a person during a business event. For example, the voice signals may be generated by a microphone in the vicinity of the person, may be captured by a telephone tap, etc. The voice signals will be in action during the business event 702 analyzed to determine a level of nervousness of the person. The voice signals can be analyzed as set forth above. In process 704 an indication is given of the level of nervousness, preferably before the business event is completed, so that anyone attempting to prevent fraud may make an assessment of whether the person is to confront before it Person goes away. Any type of output is acceptable, including a paper printout or display on a computer screen. It should be understood that this embodiment of the invention can detect emotions other than nervousness. Such emotions include stress and any other emotion specific to a person when committing a fraud.

Diese Ausführungsform der vorliegenden Erfindung hat eine besondere Anwendung in Geschäftsbereichen, wie beispielsweise Vertragsverhandlung, Versicherungsabwicklungen, Kundenservice, usw. Betrug in diesen Bereichen kostet Gesellschaften jedes Jahr Millionen. Glücklicherweise stellt die vorliegende Erfindung ein Werkzeug zur Verfügung, um bei der Bekämpfung eines derartigen Betrugs zu helfen. Es sollte auch beachtet werden, daß die vorliegende Erfindung Anwendungen im Strafverfolgungsbereich, wie auch in einer Gerichtssaalumgebung usw. hat.These embodiment of the present invention has a particular application in business areas, such as contract negotiations, insurance settlements, Customer service, etc. Fraud in these areas costs companies millions every year. Fortunately the present invention provides a tool to in the fight to help such fraud. It should also be noted that the present invention Law enforcement applications, such as also in a courtroom environment etc.

Vorzugsweise wird ein Grad an Gewißheit betreffend den Nervositätspegel der Person ausgegeben, um jemanden bei einer Suche nach Betrug dabei zu helfen, eine Bestimmung darüber vorzunehmen, ob die Person in betrügerischer Absicht gesprochen hat. Dies kann auf Statistiken basieren, wie dies oben in der Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf 6 dargelegt wurde. Optional kann die Anzeige des Nervositätspegels der Person in Echtzeit ausgegeben werden, um es jemanden, der versucht, Betrug zu verhindern, zu gestatten, Resultate sehr schnell zu erhalten, so daß er oder sie fähig ist, die Person bald herauszufordern, nachdem die Person eine verdächtige Äußerung macht.Preferably, a degree of certainty regarding the person's level of nervousness is given to help someone in a search for fraud make a determination as to whether the person has fraudulently spoken. This may be based on statistics as described above in the embodiment of the present invention with reference to FIG 6 was set out. Optionally, the person's level of nervousness can be displayed in real time to allow someone attempting to prevent fraud to obtain results very quickly so that he or she is able to challenge the person soon after the person becomes one makes a suspicious statement.

Als eine andere Option kann die Anzeige des Nervositätspegels einen Alarm beinhalten, welcher ausgelöst wird, wenn der Nervositätspegel einen vorbestimmten Pegel überschreitet. Der Alarm kann eine sichtbare Benachrichtigung auf einer Computeranzeige beinhalten, einen hörbaren Klang bzw. Ton, usw., um einen Aufseher, den Zuhörer und/oder jemanden zu alarmieren, der nach Betrug sucht. Der Alarm könnte auch mit einer Aufzeichnungsvorrichtung verbunden sein, welche beginnen würde, die Konversation aufzuzeichnen, wenn der Alarm ausgelöst wurde, wenn die Konversation nicht bereits aufgezeichnet wird.When another option, the level of nervousness display may include an alarm, which triggered will if the level of nervousness exceeds a predetermined level. The alarm can be a visual notification on a computer display include, an audible Sound, etc., to alert a supervisor, the listener, and / or someone looking for fraud. The alarm could also be with a recording device which would begin to record the conversation when the alarm is triggered if the conversation is not already recorded.

Die Alarmoptionen wären besonders in einer Situation nützlich sein, wo sich viele Personen beim Sprechen abwechseln. Ein Beispiel wäre in einer Kundenserviceabteilung oder am Telefon eines Kundenservicebeauftragten. Da jeder Kunde an die Reihe kommt, um mit einem Kundenservice-Beauftragten zu sprechen, würde die vorliegende Erfindung den Nervositätspegel in der Sprache des Kunden detektieren. Wenn der Alarm ausgelöst wurde, da der Nervositätspegel eines Kunden den vorgeschriebenen Pegel überquerte, könnte der Kundenservicebeauftragte bzw. -verantwortliche durch eine visuelle bzw. sichtbare Anzeige auf seinem oder ihrem Computerbildschirm, ein blinkendes Licht, usw. benachrichtigt werden. Der Kundenservicebeauftragte, nun von dem möglichen Betrug wissend, könnte dann versuchen, den Betrug freizulegen bzw. aufzudecken, wenn er existiert. Der Alarm könnte auch verwendet werden, um genausogut einen Manager zu benachrichti gen. Darüber hinaus könnte eine Aufzeichnung der Konversation bzw. Unterhaltung beginnen, nachdem der Alarm aktiviert wurde.The Alarm options would be especially useful in a situation be where many people take turns talking. An example would be in a customer service department or on the phone of a customer service representative. As every customer's turn comes to deal with a customer service representative to speak the present invention the level of nervousness in the language of Detect customers. If the alarm was triggered because of the level of nervousness a customer crossed the prescribed level, the Customer service representative or manager through a visual or visible display on his or her computer screen, a flashing light, etc. are notified. The customer service representative, now of the possible Knowing cheating could then try to expose the fraud if he exist. The alarm could also be used to notify a manager as well. About that out could start a recording of conversation or conversation after the alarm has been activated.

In einer Ausführungsform der vorliegenden Erfindung wird wenigstens ein Merkmal der Stimmsignale extrahiert und verwendet, um den Nervositätspegel der Person zu bestimmen. Merkmale, welche extrahiert werden, können beinhalten einen Maximalwert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Bereich der Grundfrequenz, einen Mittelwert der Grundfrequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung der Energie, eine Sprechgeschwindigkeit, eine Neigung bzw. Steigung der Grundfrequenz, einen Maximalwert der ersten Formanten, einen Maximalwert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten, und einen Bereich der ersten Formanten. Somit kann beispielsweise ein Grad eines Schwankens im Ton der Stimme, wie er aus Messungen bzw. Auslesungen der Grundfrequenz bestimmt wurde, verwendet werden, um beim Bestimmen eines Nervositätspegels bzw. -niveaus zu helfen. Je größer der Grad eines Schwankens, umso höher ist der Nervositätspegel. Pausen in der Sprache der Person können ebenfalls berücksichtigt werden.In an embodiment In the present invention, at least one feature of the voice signals is extracted and used to the nervous level to determine the person. Features that are extracted may include a maximum value of a fundamental frequency, a standard deviation of Fundamental frequency, a range of the fundamental frequency, an average value the fundamental frequency, an average of a bandwidth of a first Formants, an average of a bandwidth of a second formant, a standard deviation of energy, a speech rate, a slope or slope of the fundamental frequency, a maximum value the first formant, a maximum value of energy, an area energy, an area of the second formant, and an area the first formant. Thus, for example, a degree of fluctuation in the tone of the voice, as he from measurements or readings of the fundamental frequency was determined to be used in determining a level of nervousness or levels to help. The greater the degree a waver, the higher is the level of nervousness. Breaks in the language of the person can also be considered become.

Der folgende Abschnitt beschreibt Vorrichtungen, welche verwendet werden können, um Emotion beinhaltend Nervosität, in Stimmsignalen zu bestimmen.Of the The following section describes devices that are used can, to include emotion, nervousness, in voice signals.

Beispielhafte Vorrichtungen zum Detektieren von Emotion in Sprach- bzw. StimmsignalenExemplary devices for detecting emotion in voice or voice signals

Dieser Abschnitt beschreibt verschiedene Vorrichtungen zum Analysieren von Sprache in Übereinstimmung mit der vorliegenden Erfindung.This Section describes various devices for analyzing of language in accordance with the present invention.

Eine Ausführungsform der vorliegenden Erfindung beinhaltet eine Vorrichtung zum Analysieren der Sprache einer Person, um ihren emotionalen Zustand zu bestimmen. Der Analysator arbeitet auf der Echtzeitfrequenz oder Tonhöhenkomponenten innerhalb des ersten Formantenbands von menschlicher Sprache. Beim Analysieren der Sprache analysiert die Vorrichtung Erscheinungsmuster bestimmter Werte im Hinblick auf Muster einer differentiellen ersten Formantentonlage, Rate einer Tonlagenänderung, Dauer und Zeitverteilung. Diese Faktoren beziehen sich auf eine komplexe, jedoch sehr fundamentale Weise sowohl auf vorübergehende wie auch emotionellen Langzeit-Zuständen.An embodiment of the present invention includes a device for analyzing a person's speech to determine their emotional state. The analyzer operates on the real-time frequency or pitch components within the first formant band of human speech. In analyzing the speech, the device analyzes appearance patterns of particular values with respect to patterns of differential first formant pitch, rate of pitch change, duration and time interval development. These factors relate in a complex but very fundamental way to both transient and emotional long-term states.

Die menschliche Sprache wird durch zwei grundlegende Tonerzeugungsmechanismen angeregt. Die Stimmbänder; dünne gestreckte bzw. gedehnte Membranen unter Muskelregelung bzw. -steuerung oszillieren bzw. schwingen, wenn ausgestoßene Luft von den Lungen durch sie durchtritt. Sie erzeugen einen charakteristischen "Brumm"-Klang bei einer fundamentalen bzw. Grundfrequenz zwischen 80 Hz und 240 Hz. Diese Frequenz wird über einen moderaten Bereich sowohl durch bewußte als auch unbewußte Muskelkontraktion und -entspannung variiert. Die Wellenform des grundlegenden "Brummens" beinhaltet viele Harmonische, von welchen einige eine Erregungsresonanz verschieden festgelegt ist und veränderliche Hohlräume mit dem stimmlichen Gebiet assoziiert sind. Der zweite Grundton, welcher während einer Sprache erzeugt wird, ist ein pseudozufälliges Rauschen, welches eine ziemlich breite und einheitliche bzw. gleichförmige Frequenzverteilung aufweist. Er wird durch Turbulenz verursacht, sobald ausgeatmete bzw. ausgestoßene Luft sich durch den Vokaltrakt bewegt und wird ein "Zisch"-Klang bzw. Zischlaut genannt. Er wird hauptsächlich durch Zungenbewegungen moduliert und erregt auch die festgelegten und veränderlichen Hohlräume. Es ist diese komplexe Mischung von "Brumm"- und "Zisch"-Lauten, welche durch die Resonanzhohlräume geformt und artikuliert werden, welche Sprache erzeugen.The Human speech is through two basic sound generation mechanisms stimulated. The vocal cords; thin stretched or stretched membranes under muscle control or oscillate or swing when ejected Air from the lungs passes through them. They produce a characteristic "hum" sound at one fundamental frequency between 80 Hz and 240 Hz. This frequency will over a moderate range by both conscious and unconscious muscle contraction and relaxation varies. The waveform of the basic "humming" includes many Harmonics, some of which differ in excitation resonance is fixed and changeable cavities associated with the vocal area. The second keynote, which during a language is a pseudorandom noise, which is a has fairly broad and uniform frequency distribution. It is caused by turbulence as soon as exhaled or expelled air moves through the vocal tract and is called a "hissing" sound or sibilant. He will mainly modulated by tongue movements and also excites the specified and changeable Cavities. It is this complex mix of "humming" and "hissing" sounds that are shaped by the resonant cavities and articulate which language to produce.

In einer Energieverteilungsanalyse von Sprachklängen bzw. Sprachtönen wird gefunden werden, daß die Energie in getrennte bzw. ausgeprägte Frequenzbänder, Formanten genannt, fällt. Es gibt drei signifikante Formanten. Das hier beschriebene System verwendet das erste Formantenband, welches sich von der grundlegenden "Brumm"-Frequenz bis ungefähr 1000 Hz erstreckt. Dieses Band weist nicht nur den höchsten Energiegehalt auf, sondern reflektiert einen hohen Grad an Frequenzmodulation als eine Funktion von verschiedenen Vokaltrakt- und Gesichtsmuskelspannungs-Variationen.In an energy distribution analysis of speech sounds be found that the Energy in separate or distinct frequency bands, formants called, falls. There are three significant formants. The system described here uses the first formant band, which ranges from the basic "buzz" frequency to about 1000 Hz stretches. This band not only has the highest energy content, but reflects a high degree of frequency modulation as a function of various vocal tract and facial muscle tension variations.

In Wirklichkeit wird durch ein Analysieren bestimmter Verteilungsmuster der ersten Formantenfrequenz eine qualitative Messung von sprachbezogenen Muskelspannungsvariationen und Wechselwirkungen durchgeführt. Da diese Muskel überwiegend durch sekundäre unbewußte Vorgänge vorgespannt und artikuliert werden, welche wiederum durch einen emotionalen Zustand beeinflußt sind, kann eine relative Messung einer emotionalen Aktivität unabhängig von dem Bewußtsein einer Person oder einem Mangel an Bewußtsein von diesem Zustand bestimmt werden. Die Forschung bestätigt auch eine allge meine Vermutung, daß, da die Mechanismen der Sprache äußerst komplex und weitestgehend autonom sind, sehr wenig Leute fähig sind, bewußt einen fiktiven emotionalen Zustand zu "projizieren". Tatsächlich erzeugt ein Versuch so vorzugehen, üblicherweise seinen eigenen einzigartigen psychologischen Streß-"Fingerabdruck" in dem Stimmuster.In Reality becomes by analyzing certain distribution patterns the first formant frequency is a qualitative measurement of speech-related Muscle tension variations and interactions performed. There this muscle is predominantly through secondary unconscious operations be biased and articulated, which in turn by a affects emotional state are, a relative measure of an emotional activity can be independent of the consciousness a person or a lack of consciousness determined by this condition become. The research confirms also a general conjecture that, since the mechanisms of language extremely complex and are largely autonomous, very few people are capable of consciously one to "project" fictional emotional state. Actually generated an attempt to do that, usually his own unique psychological stress "fingerprint" in the vocal pattern.

Wegen der Charakteristika bzw. Merkmale der ersten Formanten-Sprachklänge bzw. -Sprachtöne analysiert die vorliegende Erfindung ein FM-demoduliertes erstes Formanten-Sprachsignal und erzeugt eine Ausgabe, welche Nullen davon anzeigt.Because of the characteristics of the first formant speech sounds or -Signals analyzed the present invention is an FM demodulated first formant speech signal and generates an output indicating zeros thereof.

Die Frequenz oder Anzahl von Nullen oder "flachen" Punkten in dem FM-demodulierten Signal, die Länge der Nullen und das Verhältnis der Gesamtzeit, zu welcher Nullen während einer Wortperiode existieren, zur Gesamtzeit der Wortperiode sind alle für einen emotionalen Zustand des Einzelnen anzeigend bzw. indikativ. Durch ein Betrachten der Ausgabe der Vorrichtung kann der Ver- bzw. Anwender das Auftreten der Nullen sehen oder fühlen und somit durch ein Beobachten der Ausgabe der Anzahl oder Frequenz von Nullen bestimmen, der Länge der Nullen und des Verhältnisses der Gesamtzeit, während welcher Nullen während einer Wortperiode bis zur Länge der Wortperiode existieren, den emotionalen Zustand des Einzelnen bzw. Individuums.The Frequency or number of zeros or "flat" points in the FM demodulated signal, the length the zeros and the ratio the total time at which zeros exist during a word period, for Total time of the word period are all for an emotional state indicative of the individual or indicative. By looking at the Issue of the device, the user or the user's appearance to see or feel the zeros and thus by observing the output of the number or frequency of zeros determine the length zeros and ratio the total time while which zeros during a word period up to the length the word period exist, the emotional state of the individual or individual.

In der vorliegenden Erfindung ist das erste Formanten-Frequenzbad eines Sprachsignals FM-demoduliert und das FM-demodulierte Signal wird an einen Wortdetektorschaltkreis angewendet bzw. angelegt, welcher das Vorhandensein eines FM-demodulierten Signals detektiert. Das FM-demodulierte Signal wird auch an Null-Detektormittel angelegt, welche die Nullen in dem FM-demodulierten Signal detektieren, und eine Ausgabe erzeugen, welche dafür anzeigend bzw. hinweisend ist. Ein Ausgabeschaltkreis wird mit dem Wortdetektor und dem Nulldetektor gekoppelt. Der Ausgabeschaltkreis wird durch den Wortdetektor freigegeben, wenn der Wortdetektor das Vorhandensein eines FM-demodulierten Signals detektiert, und der Ausgabeschaltkreis erzeugt eine Ausgabe, welche für das Vorhandensein oder Nicht-Vorhandensein einer Null in dem FM-demodulierten Signal anzeigend ist. Die Ausgabe des Ausgabeschaltkreises wird auf eine Weise angezeigt, in welcher sie durch einen Anwender wahrgenommen wird, so daß der Ver- bzw. Anwender mit einer Anzeige des Bestehens von Nullen in dem FM-demodulierten Signal versorgt ist. Der Anwender der Vorrichtung überwacht somit die Nullen und kann dadurch den emotionalen Zustand des Individuums bestimmen, dessen Sprache analysiert wird.In the present invention, the first formant frequency bath of a speech signal is FM demodulated and the FM demodulated signal is applied to a word detector circuit which detects the presence of an FM demodulated signal. The FM demodulated signal is also applied to zero detector means which detect the zeros in the FM demodulated signal and produce an output indicative thereof. An output circuit is coupled to the word detector and the zero detector. The output circuit is enabled by the word detector when the word detector detects the presence of an FM demodulated signal, and the output circuit generates an output indicative of the presence or absence of a zero in the FM demodulated signal. The output of the output circuit is displayed in a manner in which it is perceived by a user, so that the user is provided with an indication of the existence of zeroes in the FM demodulated signal. The user of the device thus monitors the zeros and thereby can determine the emotional state of the individual, their language is analyzed.

In einer anderen Ausführungsform der vorliegenden Erfindung wird das Stimmvibrato analysiert. Das sogenannte Stimmvibrato wurde als eine halbfreiwillige Antwort erstellt, welche beim Studieren einer Irreführung zusammen mit bestimmten anderen Reaktionen von Wert sein könnte; wie beispielsweise Atmungsvolumen; Einatmungs-Ausatmungs-Verhältnisse; Stoffwechselrate; Regelmäßigkeit und Rate bzw. Geschwindigkeit einer Einatmung; Assoziation von Worten und Ideen; Gesichtsausdrücke; Bewegungsreaktionen; und Reaktionen auf bestimmte Narkotika; jedoch wurde keine verwendbare Technik zuvor entwickelt, welche eine gültige und zuverlässige Analyse von Stimmänderungen in der klinischen Bestimmung eines emotionalen Zustands, Meinungen oder Täuschungsversuche eines Subjekts bzw. einer Person gestattet.In another embodiment In the present invention, the vocal vibrato is analyzed. The so-called Voice vibrato was created as a semi-voluntary response, which while studying a misdirection could be of value along with certain other reactions; as for example, respiratory volume; Inspiratory expiratory ratios; Metabolic rate; regularity and rate of inhalation; Association of words and ideas; Facial expressions; Motor response; and reactions to certain narcotics; however No suitable technique has been previously developed which is a valid and reliable Analysis of voice changes in the clinical determination of an emotional state, opinions or deception attempts of a subject or a person.

Frühe Experimente, welche Versuche beinhalteten, Stimmqualitätsänderungen mit emotionalen Reizen zu korrelieren, haben festgestellt bzw. ergeben, daß die menschliche Sprache durch starke Emotion beeinflußt wird. Detektierbare Änderungen der Stimme treten viel rascher auf, nachfolgend auf eine Streßstimulierung, als es die klassischen Anzeigen von physiologischen Manifestationen tun, welche aus dem Funktionieren des autonomen Nervensystems resultieren.Early experiments, which included attempts to change voice quality with emotional stimuli to correlate, have established that the human Language is affected by strong emotion. Detectable changes the voice appears much more quickly, following a stress stimulation, as it is the classic indications of physiological manifestations do, which result from the functioning of the autonomic nervous system.

Zwei Typen einer Stimme ändern sich als ein Resultat von Streß. Die erste von diesen wird als die Grobänderung bezeichnet, welche üblicherweise nur als ein Ergebnis einer wesentlichen Streßsituation auftritt. Diese Änderung manifestiert sich selbst in hörbaren merklichen Änderungen der Sprechgeschwindigkeit, Lautstärke, Stimmzittern, Änderung im Abstand zwischen Silben, und einer Änderung in der Grundtonhöhe oder Frequenz der Stimme. Diese grobe Änderung ist Gegenstand der bewußten Steuerung, wenigstens bei einigen Subjekten bzw. Personen, wenn der Streßpegel unter jenem eines Totalverlusts einer Steuerung bzw. Regelung ist.Two Change types of a voice as a result of stress. The first of these is called the coarse change, which is usually only as a result of a significant stress situation. This change manifests itself in audible noticeable changes the speech rate, volume, voice shake, change in the space between syllables, and a change in pitch or frequency the voice. This rough change is the subject of the conscious Control, at least in some subjects or persons, if the stress level below that of a total loss of control.

Der zweite Typ an Stimmänderung ist jener von Stimmqualität. Dieser Typ der Änderung ist nicht für das menschliche Ohr unterscheidbar bzw. wahrnehmbar, sondern ist eine offenbar unbewußte Manifestation der leichten Spannung der Stimmbänder unter sogar geringem Streß, resultierend in einer Dämpfung ausgewählter Frequenzvariationen. Bei graphischer Darstellung wird der Unterschied leicht zwischen ungestreßter oder normaler Stimmgebung und Stimmgebung unter mildem bzw. geringem Streß, Täuschungsversuchen oder feindlichen bzw. gegnerischen Einstellungen wahrnehmbar. Diese Muster haben sich über einen weiten Bereich menschlicher Stimmen beider Geschlechter, unterschiedlicher Alter und unter verschiedenen situationalen Bedingungen als wahr bzw. zutreffend erwiesen. Dieser zweite Änderungstyp ist nicht Gegenstand einer bewußten Steuerung.Of the second type of voice change is that of voice quality. This type of change is not for that human ear distinguishable or perceptible, but is one apparently unconscious Manifestation of the slight tension of the vocal cords under even slight stress, resulting in a damping selected Frequency variations. When graphing the difference easy between unstressed or normal vocalization and vocalization under mild or low Stress, Deception attempts or hostile or opposing attitudes are perceptible. These patterns have over a wide range of human voices of both sexes, different Age and under different situational conditions as true or correctly proved. This second change type is not subject a conscious one Control.

Es gibt zwei Typen bzw. Arten von Klang bzw. Ton, welche durch die menschliche Stimmanatomie erzeugt werden. Der erste Typ an Ton ist ein Produkt aus der Vibration der Stimmbänder, welche wiederum ein Produkt eines teilweisen Schließens der Stimmritze ist und eines Zwingens von Luft durch die Stimmritze durch eine Kontraktion des Lungenhohlraums und der Lungen ist. Die Frequenzen dieser Vibrationen können im allgemeinen zwischen 100 und 300 Hertz, abhängig von Geschlecht und Alter des Sprechers und den Intonationen variieren, die der Sprecher anwendet. Dieser Ton hat eine rasche Abfall- bzw. Abklingzeit.It are two types or types of sound or sound, which by the human vocal anatomy are generated. The first type of sound is a product of the vibration of the vocal cords, which in turn is a product a partial closing of the glottis is and a forcing of air through the glottis by a contraction of the lung cavity and lungs. The Frequencies of these vibrations can generally between 100 and 300 hertz, depending on gender and age of the speaker and intonations the speaker uses. This tone has a rapid decay or cooldown.

Die zweite Art an Klang bzw. Ton beinhaltet die Formanten-Frequenzen. Diese bilden einen Klang, welcher aus der Resonanz der Hohlräume im Kopf, beinhaltend den Hals, den Mund, die Nase und die Stirnhöhlen resultiert. Dieser Klang wird durch ein Anregung der Resonanzhohlräume durch eine Tonquelle von niedrigeren Frequenzen, im Fall des durch die Stimmbänder erzeugten vokalisierten Klangs, oder durch eine teilweise Beschränkung des Durchtritts von Luft von den Lungen, wie im Fall von stimmlosen Reiblauten erzeugt. Was auch immer die Erregungsquelle ist, die Frequenz der Formanten wird durch die Resonanzfrequenzen des involvierten Hohlraums bestimmt. Die Formantenfrequenzen erscheinen im allgemeinen bei etwa 800 Hertz und erscheinen in bestimmten Frequenzbändern, welche mit der Resonanzfrequenz der individuellen Hohlräume übereinstimmen. Die erste, oder niedrigste, Formante, ist jene, die durch den Mund und Rachen- bzw. Halshohlräume gebildet wird und ist merkbar für ihre Frequenzverschiebung, sobald der Mund seine Abmessungen und Volumen bei der Bildung von verschiedenen Klängen, besonders von Vokalen ändert. Die höchsten Formanten-Frequenzen sind konstanter aufgrund des konstanteren Volumens der Hohlräume. Die Formanten-Wellenformen sind läutende Signale, im Gegensatz zu den rasch abklingenden Signalen der Stimmbänder. Wenn stimmhafte Töne bzw. Klänge geäußert werden, werden die Stimmwellenformen auf die Formanten-Wellenformen als Amplitudenmodulationen eingeprägt bzw. überlagert.The second type of sound includes the formant frequencies. These form a sound resulting from the resonance of the cavities in the head, involving the neck, mouth, nose and sinuses. This sound is through an excitation of the resonant cavities through a sound source of lower frequencies, in the case of by the vocal cords produced vocalized sound, or by a partial restriction of the Passage of air from the lungs, as in the case of unvoiced Generated friction sounds. Whatever the source of excitation, the Frequency of formants is affected by the resonance frequencies of the Cavity determined. The formant frequencies generally appear at about 800 hertz and appear in certain frequency bands, which coincide with the resonant frequency of the individual cavities. The first, or lowest, formant, is those formed by the mouth and throat or throat cavities is and is noticeable for their frequency shift once the mouth is its dimensions and Volume at the formation of different sounds, especially of vowels changes. The highest Formant frequencies are more constant due to the more constant volume the cavities. The formant waveforms are ringing signals, in contrast to the rapidly decaying vocal cord signals. If voiced sounds or sounds be voiced the voice waveforms are referred to the formant waveforms as Impressed amplitude modulations or superimposed.

Es wurde entdeckt, daß eine dritte Signalkategorie in der menschlichen Stimme existiert und daß diese dritte Signalkategorie mit der zweiten Art einer Stimmänderung verwandt ist, wie dies oben besprochen wurde. Dies ist eine Infraschall- oder Unterschall-Frequenzmodulation, welche in einem gewissen Grad sowohl in den Stimmbandklängen als auch in den Formantenklängen vorhanden ist. Dieses Signal liegt typischerweise zwischen 8 und 12 Hertz. Dementsprechend ist es nicht für das menschliche Ohr hörbar. Wegen der Tatsache, daß diese Charakteristik eine Frequenzmodulation bildet, wie sie sich von einer Amplitudenmodulation unterscheidet, ist es nicht direkt auf Zeitbasis/Amplituden-Kartenaufzeichnungen wahrnehmbar bzw. unterscheidbar. Wegen der Tatsache, daß dieses Infraschallsignal eine der signifikanteren Stimmanzeigen von psychologischem Streß ist, wird es in größerem Detail behandelt werden.It has been discovered that a third signal category exists in the human voice and that this third signal category is related to the second type of voice change, as discussed above. This is an infrasonic or subsonic frequency modulation, which is present to some degree in both vocal cord sounds and formant sounds. This signal is typically between 8 and 12 hertz. Accordingly, it is not audible to the human ear. Because of the fact that this characteristic forms a frequency modulation that differs from amplitude modulation, it is not directly perceptible on time base / amplitude map records. Because of the fact that this infrasonic signal is one of the more significant vocalizations of psychological stress, it will be treated in greater detail.

Es bestehen verschiedene Analogien, welche verwendet werden, um schematische Darstellungen des gesamten Stimmprozesses zur Verfügung zu stellen. Sowohl mechanische wie auch elektronische Analogien werden erfolgreich beispielsweise beim Entwurf von Computerstimmen verwendet bzw. ange wandt. Diese Analogien betrachten jedoch die stimmhafte Klangquelle (Stimmbänder) und die Wände der Hohlräume als harte und konstante Merkmale. Jedoch stellen sowohl die Stimmbänder als auch die Wände der grundlegenden Formantenerzeugenden Hohlräume in der Realität ein flexibles Gewebe dar, welches augenblicklich auf die komplexe Anordnung von Muskeln antwortet, welche eine Steuerung des Gewebes zur Verfügung stellen. Diese Muskel, welche die Stimmbänder durch die mechanische Verbindung von Knochen und Knorpel steuern, gestatten sowohl die gezielte als auch automatische Erzeugung von Stimmklang und Veränderung der Stimmtonhöhe durch ein Individuum. In ähnlicher Weise erlauben diese Muskel, welche die Zunge, Lippen und Hals bzw. Rachen steuern, sowohl die gezielte als auch die automatische Steuerung der ersten Formanten-Frequenzen. Andere Formanten können ähnlich zu einem begrenzteren Grad bzw. Ausmaß beeinflußt werden.It There are various analogies which are used to describe schematic Presentations of the entire voting process available put. Both mechanical and electronic analogies will be used successfully for example in the design of computer voices or applied. However, these analogies look at the voiced Sound source (vocal cords) and the walls the cavities as hard and constant features. However, both the vocal cords pose as also the walls the basic formant-generating cavities in reality a flexible one Tissue, which is instantaneous on the complex arrangement of Muscles providing a control of the tissue will respond. These Muscle, which is the vocal cords controlled by the mechanical connection of bone and cartilage both the targeted and automatic generation of vocal sound and change the voice pitch by an individual. In similar Way these muscles allow the tongue, lips and neck respectively Throat control, both targeted and automatic control the first formant frequencies. Other formants may be similar to be influenced to a more limited degree or extent.

Es ist wert zu beachten, daß während normaler Sprache diese Muskel auf einem kleinen Prozentsatz ihrer Gesamtarbeitsfähigkeit arbeiten. Aus diesem Grund verbleiben, trotz ihrer Verwendung zum Ändern der Position der Stimmbänder und der Positionen der Lippen, Zunge und inneren Halswände, die Muskeln in einem relativ entspannten Zustand. Es wurde bestimmt, daß während dieses relativ entspannten Zustands eine Muskelwellenbewegung typischerweise bei der zuvor erwähnten Frequenz von 8-12 Hertz auftritt. Diese Wellenbewegung verursacht eine leichte Variation in der Spannung der Stimmbänder und verursacht Verschiebungen bzw. Verlagerungen der grundlegenden Tonhöhenfrequenz der Stimme. Auch variiert die Wellenform leicht das Volumen des Resonanzhohlraums (besonders des mit der ersten Formanten assoziierten) und der Elastizität der Hohlraumwände, um Ver schiebungen der Formantenfrequenzen zu verursachen. Diese Verschiebungen um eine Zentralfrequenz bilden eine Frequenzmodulation der Zentral- oder Trägerfrequenz.It is worth to note that while normal Language these muscles on a small percentage of their total workability work. For this reason, despite being used to change position, they remain the vocal cords and the positions of the lips, tongue and inner neck walls, the Muscles in a relatively relaxed state. It was determined that during this relatively relaxed state a muscle wave movement typically at the aforementioned Frequency of 8-12 hertz occurs. This wave motion causes a slight variation in the tension of the vocal cords and causes shifts of the basic pitch frequency the voice. Also, the waveform slightly varies the volume of the Resonant cavity (especially that associated with the first formant) and the elasticity of the Cavity walls, to cause shifts in the formant frequencies. These Shifts about a central frequency form a frequency modulation the central or carrier frequency.

Es ist wichtig zu beachten, daß keine der Verschiebungen in der grundlegenden Tonhöhenfrequenz der Stimme oder in den Formantenfrequenzen direkt durch einen Zuhörer detektierbar ist, teilweise, da die Verschiebungen sehr klein sind, und teilweise, da sie primär in dem zuvor erwähnten unhörbaren Frequenzbereich bestehen.It is important to note that no the shifts in the basic pitch frequency of the voice or in the formant frequencies directly detectable by a listener is, partly because the shifts are very small, and partly, because they are primary in the aforementioned inaudible Frequency range exist.

Um diese Frequenzmodulation zu beobachten, kann irgendeine von verschiedenen bestehenden Techniken zur Demodulation einer Frequenzmodulation eingesetzt bzw. verwendet werden, natürlich unter Beachtung, daß die Modulationsfrequenz die nominellen 8-12 Hertz sind und der. Träger eines der Bänder innerhalb des Stimmspektrums ist.Around observing this frequency modulation can be any of several existing techniques for demodulating a frequency modulation be used, of course, taking into account that the modulation frequency the nominal 8-12 hertz and the. Wear one of the tapes inside the voice spectrum is.

Um vollständiger die obige Diskussion zu verstehen, muß das Konzept eines "Schwerpunkts" dieser Wellenform verstanden werden. Es ist möglich, ungefähr den Mittelpunkt zwischen den zwei Extremen bzw. Extremwerten von jeder einzelnen Auslenkung des Aufzeichnungsstifts zu bestimmen. Wenn die Mittelpunkte zwischen den Extremen aller Auslenkungen markiert sind und wenn diese Mittelpunkte dann ungefähr durch eine kontinuierliche Kurve verbunden sind, wird gesehen werden, daß eine Linie, die sich einem Mittelwert oder "Schwerpunkt" der gesamten Wellenform annähert, resultieren wird. Ein Verbinden aller derartigen Markierungen, mit etwas Glättung, resultiert in einer sanften gekrümmten Linie. Die Linie repräsentiert die Infraschall-Frequenzmodulation, die aus den zuvor beschriebenen Wellenformen resultiert.Around complete To understand the above discussion must have the concept of a "center of gravity" of this waveform be understood. It is possible, approximately the midpoint between the two extremes or extremes of each individual deflection of the recording pin to determine. When the midpoints are marked between the extremes of all the deflections and if these centers are then roughly through a continuous Curve, it will be seen that a line that is one Average or "center of gravity" of the entire waveform approaches, will result. A combination of all such markings, with some smoothing, results in a gentle curved Line. The line represents the infrasound frequency modulation, which from the previously described Waveforms results.

Wie oben erwähnt, wurde bestimmt, daß die Anordnung von mit den Stimmbändern assoziierten Muskeln und Hohlraumwänden Gegenstand einer sanften Muskelspannung ist, wenn leichter bis mittlerer psychologischer Streß in der individuellen Überprüfung bzw. Untersuchung erzeugt wird. Diese Spannung, die für das Subjekt bzw. die Person nicht wahrnehmbar ist, und ähnlich durch normale, nicht unterstützte Beobachtungstechniken für den Überprüfer nicht wahrnehmbar ist, ist ausreichend, um die Muskelwellenformen zu senken oder virtuell die Muskelwellenformen zu verringern oder nahezu zu entfernen, welche in dem nicht gestreßten Subjekt vorhanden sind, wodurch die Basis für die Trägerfrequenzvariationen entfernt wird, welche die Infraschall-Frequenzmodulierungen erzeugen.As mentioned above, was determined that the Arrangement of with the vocal cords Associated muscles and cavity walls subject to a gentle Muscle tension is when mild to moderate psychological Stress in the individual review or Examination is generated. This tension, for the subject or the person is imperceptible, and similar through normal, unsupported Observation techniques for not the reviser is noticeable, is sufficient to lower the muscle waveforms or virtually reduce or almost eliminate muscle waveforms, which in the non-stressed subject which removes the basis for the carrier frequency variations which produce the infrasound frequency modulations.

Während die Verwendung der Infraschallwellenform einzigartig für die Technik ist, welche Stimme als das physiologische Medium zur physiologischen Streßbewertung einsetzt, stellt die Stimme zusätzliche instrumentierte Anzeigen von durch ein Hören nicht wahrnehmbaren physiologischen Änderungen als ein Ergebnis von psychologischem Streß zur Verfügung, welche physiologischen Änderungen ähnlich durch Techniken und Vorrichtungen in gegenwärtiger Verwendung detektierbar sind. Von den vier am häufigsten verwendeten physiologischen Änderungen, welche zuvor erwähnt wurden (Hirnwellenmuster, Herzaktivität, Hautleitfähigkeit und Atmungsaktivität) beeinflussen zwei von diesen, die Atmungsaktivität und Herzaktivität, direkt und indirekt die Amplitude und das Detail einer Wellenform einer mündlichen Äußerung und stellen die Basis für eine gröbere Bewertung von psychologischem Streß, besonders, wenn die Prüfung bzw. das Testen sequentielle vokale Antworten beinhaltet bzw. involviert, zur Verfügung.While the Use of infrasound waveform unique to the technique is which voice as the physiological medium to the physiological stress evaluation uses, the voice provides additional instrumented displays of non-audible physiological changes as a result of psychological stress, which undergoes similar physiological changes Detect techniques and devices in current use are. Of the four most common used physiological changes, which previously mentioned (brain wave pattern, heart activity, skin conductivity and Breathability) affect two of these, the respiratory activity and cardiac activity, directly and indirectly the amplitude and detail of a waveform of a oral statement and provide the basis for a coarser one Evaluation of psychological stress, especially if the test or testing involves sequential vocal responses, to disposal.

Eine andere Vorrichtung ist in 8 gezeigt. Wie gezeigt, konvertiert bzw. wandelt ein Wandler 800 die Schallwellen der mündlichen Äußerungen des Subjekts in elektrische Signale um, wovon diese mit der Eingabe eines Audioverstärkers 802 verbunden sind, welcher einfach zum Zweck einer Leistungssteigerung der elektrischen Signale auf einen stabileren nützlicheren Pegel dient. Die Ausgabe bzw. der Ausgang des Verstärkers 802 ist mit einem Filter 804 verbunden, welches primär zum Zweck eines Entfernens einiger unerwünschten Niederfrequenzkomponenten und Rauschkomponenten dient.Another device is in 8th shown. As shown, a converter converts 800 The sound waves of the subject's verbal utterances are converted into electrical signals, with the input of an audio amplifier 802 which is simply for the purpose of enhancing the performance of the electrical signals to a more stable, more useful level. The output or output of the amplifier 802 is with a filter 804 which serves primarily for the purpose of removing some unwanted low frequency components and noise components.

Nach einem Filtern wird das Signal mit einem FM-Diskriminator 806 verbunden, wobei die Frequenzabweichungen von der zentralen bzw. Mittenfrequenz in Signale umgewandelt werden, welche in der Amplitude variieren. Die in der Amplitude variierenden Signale werden dann in einem Detektorschaltkreis 808 zum Zweck eines Gleichrichtens des Signals detektiert und erzeugen ein Signal, welches eine Serie von Halbwellenpulsen bildet. Nach einer Detektion wird das Signal mit einem Integratorschaltkreis 810 verbunden, worin das Signal im gewünschten Ausmaß integriert wird. Im Schaltkreis bzw. in der Schaltung 810 wird das Signal entweder in einem sehr kleinen Ausmaß integriert, wobei eine Wellenform erzeugt wird, oder wird zu einem größeren Ausmaß integriert, wobei ein Signal erzeugt wird. Nach einer Integration wird das Signal im Verstärker 812 verstärkt und mit einem Prozessor 814 verbunden, welcher die mit dem Stimmsignal assoziierte Emotion bestimmt. Eine Ausgabevorrichtung 816, wie beispielsweise ein Computer bildschirm oder Drucker wird verwendet, um die detektierte Emotion auszugeben. Optional können statistische Daten ebenfalls ausgegeben werden.After filtering, the signal is sent with an FM discriminator 806 connected, wherein the frequency deviations are converted from the central or center frequency into signals which vary in amplitude. The amplitude varying signals are then in a detector circuit 808 for the purpose of rectifying the signal and generate a signal which forms a series of half-wave pulses. After detection, the signal becomes an integrator circuit 810 in which the signal is integrated to the desired extent. In the circuit or in the circuit 810 the signal is either integrated to a very small extent, generating a waveform, or integrated to a greater extent, generating a signal. After integration, the signal in the amplifier 812 amplified and with a processor 814 which determines the emotion associated with the voice signal. An output device 816 , such as a computer screen or printer is used to output the detected emotion. Optionally, statistical data can also be output.

Eine etwas einfachere Ausführungsform einer Vorrichtung zum Erzeugen sichtbarer Aufzeichnungen in Übereinstimmung mit der Erfindung ist in 9 gezeigt, worin die akustischen Signale durch ein Mikrophon 900 in elektrische Signale umgewandelt werden, welche magnetisch in einer Bandaufzeichnungsvorrichtung 902 aufgezeichnet werden. Die Signale können dann durch die verbleibende Ausrüstung bei verschiedenen Geschwindigkeiten und zu jeder Zeit be- bzw. verarbeitet werden, wobei die Wiedergabe mit einer herkömmlichen Halbleiterdiode 904 verbunden ist, welche die Signale gleichrichtet. Die gleichgerichteten Signale werden mit der Eingabe eines herkömmlichen bzw. konventionellen Verstärkers 906 verbunden und auch mit dem bewegbaren Kontakt eines Wahlschalters, welcher allgemein bei 908 angezeigt bzw. bezeichnet ist. Der bewegbare Kontakt des Schalters 908 kann zu irgendeinem einer Vielzahl von festgelegten Kontakten bewegt werden, von welchen ein jeder mit einem Kondensator verbunden ist. In 9 ist eine Auswahl von vier Kondensatoren 910, 912, 914 und 916 gezeigt, wovon ein jeder einen Anschluß mit einem festgelegten Kontakt des Schalters verbunden und den anderen Anschluß mit Masse verbunden aufweist. Die Ausgabe bzw. der Ausgang des Verstärkers 906 ist mit einem Prozessor 918 verbunden.A somewhat simpler embodiment of a visual record generating apparatus in accordance with the invention is shown in FIG 9 shown, wherein the acoustic signals through a microphone 900 are converted into electrical signals which magnetically in a tape recorder 902 to be recorded. The signals can then be processed by the remaining equipment at various speeds and at any time, with reproduction using a conventional semiconductor diode 904 connected, which rectifies the signals. The rectified signals are input with a conventional amplifier 906 connected and also with the movable contact of a selector switch, which in general 908 is displayed or designated. The movable contact of the switch 908 can be moved to any one of a plurality of fixed contacts, each of which is connected to a capacitor. In 9 is a selection of four capacitors 910 . 912 . 914 and 916 each having one terminal connected to a predetermined contact of the switch and the other terminal connected to ground. The output or output of the amplifier 906 is with a processor 918 connected.

Ein Bandaufzeichnungsgerät, welches in dieser besonderen Anordnung von Ausrüstung verwendet werden kann, war eine Uher Modell 4000 Bandeinheit mit vier Geschwindigkeiten, welche ihren eigenen internen Verstärker aufweist. Die Werte der Kondensatoren 910916 waren jeweils 0,5, 3, 10 und 50 Mikrofarad und die Eingabeimpedanz des Verstärkers 906 war ungefähr 10.000 Ohm. Wie erkannt werden wird, könnten verschiedene andere Komponenten in dieser Vorrichtung verwendet werden bzw. verwendet worden sein.A tape recorder which can be used in this particular set of equipment was a Uher Model 4000 four-speed tape unit having its own internal amplifier. The values of the capacitors 910 - 916 were each 0.5, 3, 10 and 50 microfarads and the input impedance of the amplifier 906 was about 10,000 ohms. As will be appreciated, various other components could be used in this device.

Im Betrieb des Schaltkreises von 9 wird die durch Diode 904 entstehende gleichgerichtete Wellenform im gewünschten Ausmaß integriert, wobei die Zeitkonstante so ausgewählt ist, daß der Effekt der frequenzmodulierten Infraschallwelle als ein langsam variierender Gleichstrom- bzw. DC-Pegel erscheint, welcher ungefähr der Linie folgt, die den "Schwerpunkt" der Wellenform repräsentiert. Die in diesem besonderen Diagramm gezeigten Ausschläge sind relativ rasch, wobei dies anzeigt, daß der Schalter mit einem der Kondensatoren mit niedrigerem Wert verbunden war. In dieser Ausführungsform wird ein gemischtes bzw. zusammengesetztes Filtern durch den Kondensator 910, 912, 914 oder 916, und in dem Fall einer Reduktion der Wiedergabegeschwindigkeit durch das Bandaufzeichnungsgerät erreicht.In the operation of the circuit of 9 becomes the by diode 904 integrating the resulting rectified waveform to the desired extent, the time constant being selected such that the effect of the frequency modulated infrasonic wave appears as a slowly varying DC level approximately following the line representing the "centroid" of the waveform. The deflections shown in this particular diagram are relatively fast, indicating that the switch was connected to one of the lower value capacitors. In this embodiment, mixed filtering is performed by the capacitor 910 . 912 . 914 or 916 , and achieved in the case of a reduction of the playback speed by the tape recorder.

Telefonischer Betrieb mit Bedienerrückmeldungtelephone Operation with operator feedback

10 illustriert eine Ausführungsform der vorliegenden Erfindung, welche Emotionen in Stimmsignalen überwacht und eine Bedienerrückkopplung bzw. Telefonistenrückkopplung bzw. -rückmeldung basierend auf den detektierten Emotionen zur Verfügung stellt. Zuerst wird ein Stimmsignal, welches für eine Komponente einer Konversation zwischen wenigstens zwei Subjekten repräsentativ ist, in Funktion bzw. Vorgang 1000 empfangen. In Vorgang 1002 wird eine Emotion, welche mit dem Stimmsignal assoziiert ist, bestimmt. Schließlich wird in Vorgang 1004 eine Rückkopplung bzw. Rückmeldung einem Dritten basierend auf der bestimmten Emotion zur Verfügung gestellt. 10 illustrates an embodiment of the present invention that monitors emotions in voice signals and provides operator feedback based on the detected emotions. First, a voice signal representative of a component of a conversation between at least two subjects is in operation 1000 receive. In process 1002 An emotion associated with the voice signal is determined. Finally, in process 1004 a feedback is provided to a third party based on the particular emotion.

Die Konversation kann über ein Telekommunikationsnetzwerk ausgeführt werden, wie auch ein Weitverkehrsnetzwerk, wie beispielsweise das Internet, wenn es mit Internettelephonie verwendet wird. Als eine Option werden die Emotionen gerastet bzw. gesiebt und eine Rückmeldung wird nur zur Verfügung gestellt, wenn von der Emotion bestimmt wird, eine negative Emotion zu sein, ausgewählt aus der Gruppe von negativen Emotionen, welche aus Ärger, Traurigkeit und Angst bestehen. Das Gleiche könnte mit Gruppen von positiven oder neutralen Emotionen vorgenommen werden. Die Emotion kann durch ein Extrahieren eines Merkmals aus dem Stimmsignal bestimmt werden, wie dies zuvor im Detail beschrieben wurde.The Conversation can be over a telecommunications network, as well as a wide area network, such as the internet when using internet telephony is used. As an option, the emotions are rested or sieved and a feedback will only be available when it is determined by the emotion, a negative emotion to be selected from the group of negative emotions, which is anger, sadness and fear exist. The same could be done with groups of positive or neutral emotions. The emotion can be through extracting a feature from the voice signal are determined as previously described in detail.

Die vorliegende Erfindung ist besonders für einen Betrieb in Verbindung mit einem Notfallantwortsystem, wie beispielsweise dem 911-System geeignet. In einem derartigen System könnten eingehende Anrufe durch Ausführungsformen der vorliegenden Erfindung überwacht werden. Eine Emotion des Anrufers würde während der Konversation des Anrufers mit dem Techniker bestimmt werden, der den Anruf beantwortet. Die Emotion könnte dann über Funkwellen beispielsweise zu dem Notfallteam gesandt werden, d.h. Polizei, Feuerwehr und/oder Ambulanzpersonal, so daß diese über den emotionellen Zustand des Anrufers unterrichtet sind.The The present invention is particularly associated with operation with an emergency response system, such as the 911 system suitable. In such a system, incoming calls could be through embodiments of the present invention become. An emotion of the caller would be during the conversation of the Caller with the technician answering the call. The emotion could then over For example, radio waves may be sent to the emergency team, i. Police, fire and / or ambulance staff, so that these over the emotional state of the caller.

In einem anderen Szenario ist einer der Subjekte ein Kunde, ein anderes der Subjekte ist ein Angestellter, wie beispielsweise jemand, der durch ein Callcenter oder eine Kundenserviceabteilung angestellt ist, und der Dritte oder die dritte Person ist ein Manager. Die vorliegende Erfindung würde die Konversation zwischen dem Kunden und dem Angestellten überwachen, um zu bestimmen, ob der Kunde und/oder der Angestellte beispielsweise aufgeregt wird (werden). Wenn negative Emotionen detektiert werden, wird eine Rückmeldung zum Manager gesandt, der die Situation beurteilen und falls nötig, intervenieren bzw. einschreiten kann.In In another scenario, one of the subjects is a customer, another The subject is an employee, such as someone who hired by a call center or a customer service department is, and the third or third person is a manager. The present invention would monitor the conversation between the customer and the employee, to determine if the customer and / or the employee, for example being (becoming) excited. When negative emotions are detected, will be a feedback sent to the manager to assess the situation and intervene if necessary or can intervene.

Verbessern einer EmotionserkennungImprove an emotion recognition

11 illustriert ein System, das eine Anwender- mit einer Computeremotionsdetektion von Stimmsignalen vergleicht, um eine Stimmerkennung von einer der Ausführungsformen der Erfindung, einem Anwender oder beiden zu verbessern. Zuerst werden, in Vorgang 1100, ein Stimmsignal und eine Emotion, welche mit dem Stimmsignal assoziiert ist, zur Verfügung gestellt. Die mit dem Stimmsignal assoziierte Emotion wird automatisch in Vorgang 1102 auf eine Weise bestimmt, wie sie oben dargelegt wurde. Die automatisch bestimmte Emotion wird in Vorgang 1104 beispielsweise auf einem computerlesbaren Medium gespeichert. In Vorgang 1106 wird eine anwenderbestimmte, mit dem Stimmsignal assoziierte Emotion, welche durch einen Anwender bestimmt ist, empfangen. Die automatisch bestimmte Emotion wird mit der anwenderbestimmten Emotion in Vorgang 1108 verglichen. 11 FIG. 12 illustrates a system that compares user and computer emotion detection of voice signals to enhance a voice recognition of one of the embodiments of the invention, a user, or both. First, in process 1100 , a voice signal and an emotion associated with the voice signal are provided. The emotion associated with the voice signal automatically goes into action 1102 determined in a manner as set forth above. The automatically determined emotion is in process 1104 stored for example on a computer readable medium. In process 1106 A user-defined emotion associated with the voice signal, which is determined by a user, is received. The automatically determined emotion comes into action with the user-defined emotion 1108 compared.

Das Stimmsignal kann ausgesendet bzw. ausgegeben oder empfangen werden durch ein System, welches die vorliegende Erfindung verkörpert. Optional wird die mit dem Stimmsignal assoziierte Emotion identifiziert, wenn bzw. nachdem die Emotion bereitgestellt ist. In einem derartigen Fall sollte bestimmt werden, ob die automatisch bestimmte Emotion oder die anwenderbestimmte Emotion mit der identifizierten Emotion übereinstimmt. Dem Ver- bzw. Anwender kann ein Preis zuerkannt werden, wenn die anwenderbestimmte Emotion mit der identifizierten Emotion übereinstimmt bzw. zusammenpaßt. Weiterhin kann die Emotion automatisch durch ein Extrahieren von wenigstens einem Merkmal der Stimmsignale, wie beispielsweise in der oben besprochenen Weise, bestimmt werden.The Voice signal can be sent or issued or received by a system embodying the present invention. optional the emotion associated with the voice signal is identified, when or after the emotion is provided. In such a Case should be determined if the automatically determined emotion or the user-determined emotion matches the identified emotion. The user or user can be awarded a prize if the user-defined emotion matches the identified emotion or matches. Furthermore, the emotion can be automatically extracted by extracting at least one feature of the voice signals, such as in as discussed above.

Um einen Anwender beim Erkennen einer Emotion zu unterstützen, kann ein Emotionserkennungsspiel gespielt werden. Das Spiel könnte es einem Anwender gestatten, gegen einen Computer oder eine andere Person anzutreten, um zu sehen, wer am besten Emotion in aufgezeichneter Sprache erkennen kann. Eine praktische Anwendung des Spiels ist, autistischen Leuten bei einer Entwicklung einer besseren emotionalen Erfahrung beim Erkennen von Emotion in der Sprache zu helfen.Around can assist a user in recognizing an emotion an emotion recognition game to be played. The game could do it allow a user against a computer or another Person to attend, to see who best emotions in recorded Recognize language. A practical application of the game is autistic people in developing a better emotional Experience in helping to recognize emotion in the language.

In einer Anordnung kann eine Vorrichtung verwendet werden, um Daten über Stimmsignale zu erzeugen, welche verwendet werden können, um eine Emotionserkennung zu verbessern. Die Vorrichtung akzeptiert stimmlichen Klang durch einen Wandler, wie beispielsweise ein Mikrophon oder ein Klang- bzw. Tonaufzeichnungsgerät. Die physikalische Schallwelle bzw. Klangwelle, welche in elektrische Signale umgewandelt wurde, wird parallel an einer typischen, kommerziell verfügbaren Bank von elektronischen Filtern angewendet, welche den hörbaren bzw. Audio-Frequenzbereich abdecken. Ein Einstellen der zentralen bzw. Mittelfrequenz des niedrigsten Filters auf irgendeinen Wert, welcher die elektrische Energierepräsentation der Stimmsignalamplitude durchläßt, welche das niedrigste Stimmfrequenzsignal beinhaltet, errichtet die Mittenwerte aller nachfolgenden Filter bis zum letzten, welcher im allgemeinen die Energie zwischen 8 kHz bis 16 kHz oder zwischen 10 kHz und 20 kHz durchläßt, und auch die exakte Anzahl derartiger Filter bestimmt. Der spezifische Wert der Mittenfrequenz des ersten Filters ist nicht signifikant, solange die tiefsten Töne der menschlichen Stimme aufgefangen werden, ungefähr 70 Hz. Im wesentlichen ist jede kommerziell erhältliche Bank anwendbar, wenn sie an irgendeinen kommerziell erhältlichen Digitalisierer und dann Mikrocomputer angeschlossen werden kann. Der Beschreibungsabschnitt beschreibt einen spezifischen Satz von Mittenfrequenzen und Mikroprozessor in der bevorzugten Ausführungsform. Die Filterqualität ist auch nicht besonders signifikant, da ein in der Beschreibung geoffenbarter Verbesserungs- bzw. Verfeinerungsalgorithmus jeden Satz von Filtern durchschnittlicher Qualität in akzeptable Frequenz- und Amplitudenwerte bringt. Das Verhältnis 1/3 definiert natürlich die Bandbreite von allen Filtern, sobald die Mittenfrequenzen berechnet sind.In In one arrangement, a device may be used to transmit data via voice signals which can be used to provide emotion recognition to improve. The device accepts vocal sound a transducer such as a microphone or a sound recorder. The physical Sound wave or sound wave, which has been converted into electrical signals, runs parallel to a typical, commercially available bank used by electronic filters which the audible or Cover audio frequency range. A setting of the central or Center frequency of the lowest filter to any value, which the electric energy presentation the voice signal amplitude passes, which contains the lowest voice frequency signal, builds the center values all subsequent filters to the last, which in general the energy between 8 kHz to 16 kHz or between 10 kHz and 20 kHz, and also determines the exact number of such filters. The specific value the center frequency of the first filter is not significant as long as the deepest sounds of the human voice, about 70 Hz. Essentially any commercially available bank is applicable if to any commercially available digitizer and then microcomputer can be connected. The description section describes a specific set of center frequencies and microprocessor in the preferred embodiment. The filter quality is also not very significant, as one in the description revealed refinement algorithm each Set of filters of average quality in acceptable frequency and Amplitude values brings. The relationship 1/3 of course defines the bandwidth of all filters as soon as the center frequencies are calculated are.

Diesem Sequentierungs- bzw. Aufteilungsvorgang bzw. -prozeß folgend werden die Filterausgabespannungen durch einen kommerziell erhältlichen Satz von Digitalisierern oder vorzugsweise Multiplexer und Digitalisierern oder einen Digitalisierer digitalisiert, welcher in die gleiche identifizierte kommerziell erhältliche Filterbank eingebaut ist, um eine Kopplungslogik und Hardware zu entfernen. Erneut ist die Qualität eines Digitalisierers bzw. einer Digitalisiervorrichtung im Hinblick auf die Geschwindigkeit einer Umwandlung oder Diskriminierung nicht signifikant bzw. bedeutsam, da durchschnittliche gegenwärtig erhältliche kommerzielle Einheiten die hier benötigten Erfor dernisse aufgrund eines Korrekturalgorithmus (siehe Spezifikationen) und der niedrigen notwendigen Abtastrate überschreiten.this Following the sequencing process The filter output voltages are provided by a commercially available Set of digitizers or preferably multiplexers and digitizers or a digitizer digitized, which is in the same identified commercially available filter bank is installed to remove a coupling logic and hardware. Again, the quality a digitizer or a digitizer with respect to not on the speed of conversion or discrimination significant, as average currently available commercial units have the required requirements due to a correction algorithm (see specifications) and the low exceed necessary sampling rate.

Jeder komplexe Klang bzw. Ton bzw. Schall, welcher sich konstant ändernde Information trägt, kann mit einer Reduktion von Informationsbits durch ein Auffangen der Frequenz und Amplitude von Spitzen des Signals angenähert werden. Dies ist natürlich altes Wissen, wie es ein Durchführen eines derartigen Vorgangs an Sprachsignalen auch ist. Jedoch waren in der Sprachforschung verschiedene spezifische Bereiche, wo derartige Spitzen häufig auftreten, als "Formanten"-Bereiche bezeichnet. Jedoch decken sich diese Bereichsannäherungen nicht immer mit den Spitzen jedes Sprechers unter allen Umständen. Sprachforscher und der erfinderische Stand der Technik neigen zu einer großen Anstrengung, um "legitimierte" Spitzen zu messen und als solche zu benennen, welche innerhalb der typischen Formanten-Frequenzbereiche fallen, als ob ihre Definition nicht Abschätzungen involvieren würde, sondern eher Absolutheit bzw. Absolutwerte. Dies hat zahlreiche Forschung und Formanten-Meßvorrichtungen veranlaßt, künstlich entsprechende Spitzen auszuschließen, welche nötig sind, um adäquat eine komplexe, hochveränderliche Klangwelle in Echtzeit zu repräsentieren. Da die vorliegende Offenbarung entworfen ist, um für Tierstimmenklänge wie auch alle menschlichen Sprachen geeignet zu sein, sind künstliche Beschränkungen, wie beispielsweise Formanten, nicht von Interesse, und die Klang- bzw. Schallwelle wird als eine komplexe, variierende Schallwelle behandelt, welche jeden derartigen Klang bzw. Schall analysieren kann.Everyone complex sound or sound or sound, which is constantly changing Carries information, can with a reduction of information bits by a catch the frequency and amplitude of peaks of the signal are approximated. This is natural old knowledge, how to do it of such a process of speech signals as well. However, they were in linguistics different specific areas where such Tips often occur, referred to as "formant" regions. However, these range approaches do not always coincide with those Tips of each speaker under all circumstances. Linguist and the inventive prior art tend to be a great effort to measure "legitimized" peaks and as such, which are within the typical formant frequency ranges fall as if their definition did not involve estimates, but rather absolute or absolute values. This has numerous research and formant measuring devices causes artificially to exclude corresponding peaks that are necessary to be adequate a complex, highly variable Represent sound wave in real time. Since the present disclosure is designed to be useful for animal voice sounds even all human languages are suitable to be artificial restrictions such as formants, not of interest, and the sound or sound wave is called a complex, varying sound wave which analyzes each such sound can.

Um eine Spitzenidentifizierung unabhängig von einer Abweichung in Filterbandbreite, Qualität und Digitalisiererdiskriminierung zu normalisieren und zu vereinfachen, sind die tatsächlichen Werte, welche für Amplitude und Frequenz gespeichert sind, "repräsentative Werte". Dies deshalb, damit die Breite von oberen Frequenzfilter numerisch ähnlich zur Bandbreite der Filter unterer Frequenz ist. Jedem Filter werden einfach fortlaufende Werte von 1 bis 25 gegeben, und ein Klang von sanft zu laut wird von 1 bis 40 zur Vereinfachung auf einer CRT-Bildschirmanzeige skaliert. Eine Korrektur an den Frequenzrepräsentationswerten wird erreicht bzw. durchgeführt, indem die Anzahl der Filter auf einen höheren Dezimalwert zu dem nächsten ganzzahligen Wert eingestellt wird, wenn die Filterausgabe zur Rechten des Spitzenfilters eine größere Amplitude als die Filterausgabe zur Linken des Spitzenfilters aufweist. Die Details dieses Algorithmus sind in den Beschreibungen dieser Offenbarung beschrieben. Dieser Korrekturvorgang muß sich vor dem Komprimierungsvorgang ereignen, während alle Filteramplitudenwerte verfügbar sind.Around a peak identification regardless of a deviation in Filter bandwidth, quality normalize and simplify digitization discrimination, are the actual ones Values which for Amplitude and frequency are stored, "representative Values. "This is why so that the width of upper frequency filter is numerically similar to Bandwidth of the filter is lower frequency. Become a filter simply given consecutive values from 1 to 25, and a sound of soft to loud will be from 1 to 40 for ease on a CRT screen scaled. A correction to the frequency representation values is achieved or carried out, by changing the number of filters to a higher decimal value to the nearest integer value is set when the filter output to the right of the tip filter a larger amplitude as the filter output has to the left of the peak filter. The Details of this algorithm are in the descriptions of this disclosure described. This correction process must be done before the compression process happen while all filter amplitude values available are.

Statt die Abtastrate zu verlangsamen, speichert die bevorzugte Anordnung alle Filteramplitudenwerte für 10 bis 15 Abtastungen bzw. Proben pro Sekunde für eine Sprachprobe von ungefähr 10 bis 15 Sekunden vor diesem Korrektur- und Komprimierungsprozeß. Wenn der Computerspeicherplatz kritischer als die Durchlaufgeschwindigkeit ist, sollten sich die Korrekturen und Komprimierung zwischen jedem Durchlauf ereignen, um den nächsten für einen großen starken Datenspeicher auszulöschen. Da die meisten kommerziell erhältlichen Minicomputer mit durchschnittlichem Preis einen ausreichenden Speicher aufweisen, speichert die bevorzugte und hierin geoffenbarte Anordnung alle Daten und be- bzw. verarbeitet nachher die Daten.Rather than slowing the sampling rate, the preferred arrangement stores all the filter amplitude values for 10 to 15 samples per second for a speech sample of about 10 to 15 seconds prior to this correction and compression process. If the computer memory space is more critical than the throughput speed, the corrections and compression should occur between each pass, to wipe out the next one for a big strong data store. Since most commercially available average price minicomputers have sufficient memory, the preferred arrangement disclosed herein stores all the data and subsequently processes the data.

Die meisten Tierstimmensignale von Interesse, inklusive der menschlichen, beinhalten eine größte Amplitudenspitze, wahrscheinlich nicht an jedem Ende der Frequenzdomäne. Diese Spitze kann durch irgendeinen einfachen und üblichen numerischen Sortieralgorithmus bestimmt werden, wie es in dieser Erfindung vorgenommen wird. Die für Amplitude und Frequenz repräsentativen Werte werden dann in der Zahl drei von sechs Speicherstellensätzen angeordnet, um die Amplituden und Frequenzen von sechs Spitzen bzw. Peaks zu halten.The most animal sound signals of interest, including human, include a largest amplitude peak, probably not at each end of the frequency domain. These Tip can by any simple and usual numerical sorting algorithm be determined as is done in this invention. The for amplitude and frequency representative Values are then arranged in the number three out of six memory location sets, around the amplitudes and frequencies of six peaks hold.

Die höchste Frequenzspitze über 8 kHz wird in der Speicherstelle Nummer sechs angeordnet und als Hochfrequenzspitze gekennzeichnet. Die niedrigste Spitze wird in dem ersten Satz von Speicherstellen bzw. Speicherplätzen angeordnet. Die anderen drei werden aus Spitzen zwischen diesen ausgewählt. Dieser Kompressionsfunktion folgend wird das Stimmsignal durch einen für Amplitude und Frequenz repräsentativen Wert von jeder der sechs Spitzen plus einer Gesamtenergieamplitude aus dem ungefilterten Gesamtsignal für beispielsweise zehn mal pro Sekunde für eine Probe bzw. Abtastung von zehn Sekunden repräsentiert. Dies liefert eine Gesamtzahl von 1300 Werten.The highest Frequency peak over 8 kHz is placed in memory location number six and as a high frequency peak characterized. The lowest peak is in the first sentence of Storage locations or storage locations arranged. The other three are made of tips between them selected. Following this compression function, the vocal signal is replaced by a for amplitude and frequency representative Value of each of the six peaks plus a total energy amplitude from the unfiltered total signal for example ten times per Second for represents a sample or sample of ten seconds. This provides a Total number of 1300 values.

Die Algorithmen erlauben Variationen in der Abtastlänge im Fall, daß der Bediener den Abtastlängenschalter mit dem Übersteuerungsausschalter übersteuert bzw. außer Kraft setzt, um eine Fortsetzung während einer unerwarteten Geräuschunterbrechung zu verhindern. Die Algorithmen erledigen dies durch Verwendung von Durchschnitten, welche nicht signifikant empfindlich auf Änderungen in der Abtastanzahl über vier oder fünf Sekunden eines Schall- bzw. Klangsignals sind. Der Grund für eine größere Sprachabtastung, wenn möglich, ist, um den Durchschnitts-"Stil" der Sprache des Sprechers aufzufangen, welcher typischerweise innerhalb von 10 bis 15 Sekunden offensichtlich bzw. evident wird.The Algorithms allow for variations in scan length in case the operator the sample length switch override with the override switch or except Strength continues to be a continuation during an unexpected noise interruption to prevent. The algorithms do this by using Averages, which are not significantly sensitive to changes in the number of samples over four or five Seconds of a sound or sound signal. The reason for a larger speech sample, if possible, is to the average "style" of the language of the Spokesman, which typically within 10 to Becomes evident for 15 seconds.

Die Ausgabe dieser Komprimierungsfunktion wird in die Elementanordnung und einen Speicheralgorithmus eingespeist, welcher zusammenbaut (a) vier Stimmqualitätswerte, welche unten zu beschreiben sind; (b) eine Klang- bzw. Schall-"Pause" oder ein Ein-zu-Aus-Verhältnis; (c) "Variabilität" – den Unterschied zwischen der Spitze jeder Amplitude für den gegenwärtigen Durchlauf und jenen des letzten Durchlaufs; Unterschiede zwischen der Frequenzzahl einer jeden Spitze für den gegenwärtigen Durchlauf und jener des letzten Durchlaufs; und Unterschied zwischen der ungefilterten Gesamtenergie des vorliegenden bzw. gegenwärtigen Durchlaufs und jener des letzten Durchlaufs; (d) eine "Silbenänderungsannäherung" durch ein Erhalten des Verhältnisses von Malen, daß sich die zweite Spitze mehr als 0,4 zwischen Durchläufen zu der Gesamtanzahl von Durchläufen mit Ton ändert; und (e) "Hochfrequenzanalyse" – das Verhältnis der Anzahl von Klang-Ein-Durchläufen, welche einen Nicht-Nullwert in dieser Spitze für die Spitzenamplitude Nummer sechs beinhalten. Dies ist eine Gesamtzahl von 20 Elementen, die pro Durchlauf verfügbar. Diese werden dann zum Dimensionszusammenbau-Algorithmus durchgeleitet.The Output of this compression function will be in the element array and fed a memory algorithm which assembles (a) four voice quality values, which are to be described below; (b) a sound "pause" or on-to-off ratio; (c) "variability" - the difference between the peak of each amplitude for the current one Pass and those of the last pass; differences between the frequency number of each peak for the current pass and that of the last run; and difference between the unfiltered Total energy of the present or current run and that the last run; (d) a "syllable change approach" by obtaining the ratio of painting that yourself the second peak more than 0.4 between runs to the total number of runs with sound changes; and (e) "high-frequency analysis" - the ratio of the number of sound-on-runs that a nonzero value in this peak for the peak amplitude number six include. This is a total of 20 elements that available per run. These are then passed to the dimension assembly algorithm.

Die vier Stimmqualitätswerte, welche als Elemente verwendet werden, sind (1) die "Ausbreitung bzw. Verbreitung" – der Abtastmittelwert von allen Unterschieden von Durchläufen zwischen ihrem Durchschnitt der eine Frequenz repräsentierenden Werte oberhalb der Maximalamplitudenspitze und dem Durchschnitt von jenen darunter, (2) die "Balance" – der Abtastmittelwert von allen Durchschnittsamplitudenwerte der Durchläufe von Spitzen 4, 5 & 6 geteilt durch den Durchschnitt der Spitzen 1 & 2. (3) "Hüllkurvenebenheithoch" – der Abtastmittelwert von allen Durchschnitten der Durchläufe von ihren Amplituden oberhalb der größten Spitze, geteilt durch die größte Spitze, (4) "Hüllkurvenebenheit niedrig" – der Abtastmittelwert von allen Durchschnitten der Durchläufe von ihren Amplituden unterhalb der größten Spitze, geteilt durch die größte Spitze.The four voice quality values, which are used as elements are (1) the "spread" - the sample mean of all differences of runs between their average of the values representing a frequency above the maximum amplitude peak and the average of those below, (2) the "balance" - the sample mean of all average amplitude values of the runs of peaks 4, 5 & 6 divided by the average of the peaks 1 & 2. (3) "envelope level high" - the sample average of all means of runs from their amplitudes above the largest peak, divided by the biggest peak, (4) "Envelope flatness low "- the sample average from all the averages of the runs from their amplitudes below the biggest peak, divided by the largest peak.

Die Stimmenstildimensionen werden "Resonanz" und "Qualität" bezeichnet und werden durch einen Algorithmus zusammengebaut, welcher eine Koeffizientenmatrix beinhaltet, die auf ausgewählten Elementen arbeitet.The Voice Style Dimensions are and will be called "Resonance" and "Quality" assembled by an algorithm which defines a coefficient matrix includes on selected Elements works.

Die "Sprachstil"-Dimensionen werden "Variabilität monoton", "abgehackt-sanft", "Stakkato halten", "Anstieg sanft", "Affektivitätssteuerung" bezeichnet. Diese fünf Dimensionen, wobei Namen zu jedem Ende von jeder Dimension gehören, werden gemessen und durch einen Algorithmus zusammengebaut, welcher eine Koeffizientenmatrix involviert, die auf 15 von den 20 Klangelementen arbeitet, die in Tabelle 6 und dem Spezifikationsabschnitt detailliert sind.The "language style" dimensions are called "variability monotone", "choppy-soft", "staccato hold", "gently rise", "affectivity control". These five dimensions, where names belong to each end of each dimension measured and assembled by an algorithm which has a Coefficient matrix involved on 15 of the 20 sound elements detailed in Table 6 and the specification section are.

Die Wahrnehmungsstildimensionen werden "Eko-Struktur", "invariante Empfindlichkeit", "anders selbst", "sensorischintern", "Haß-Liebe", "Unabhängigkeit-Abhängigkeit" und "emotional-physisch" bezeichnet. Diese sieben Wahrnehmungsdimensionen mit Namen, die sich auf die Endbereiche der Dimensionen beziehen, werden gemessen und durch einen Algorithmus zusammengebaut bzw. zusammengestellt, welcher eine Koeffizientenmatrix involviert und auf ausgewählten Klangelementen von Stimme und Sprache (detailliert in Tabelle 7) und dem Spezifikationsabschnitt arbeitet.The perceptual dimension becomes "eco-structure", "invariant sensitivity", "different self "," sensory-internal "," hate-love "," independence-dependence "and" emotional-physical. "These seven perceptual dimensions with names referring to the end-of-dimensions are measured and assembled by an algorithm. which deals with a coefficient matrix and works on selected sound elements of voice and speech (detailed in Table 7) and the specification section.

Eine kommerziell erhältliche, typische Computertastatur oder Folientastatur gestattet es dem Anwender der vorliegenden Offenbarung, jeden und alle Koeffizienten für eine Neudefinition von irgendeiner zusammengesetzten Sprach-, Stimmen- oder Wahrnehmungsdimension für Forschungszwecke abzuändern. Auswahlschalter gestatten es, jedes oder alle Elemente oder Dimensionswerte für eine Stimmprobe eines vorgegebenen Subjekts anzuzeigen. Der digitale Prozessor regelt bzw. steuert die Analog-zu-Digital-Wandlung des Klangsignals und regelt bzw. steuert auch den Wiederzusammenbau bzw. Neuzusammenbau der Stimmklangelemente in numerische Werte der Stimmen-, Sprach- und Wahrnehmungsdimensionen.A commercially available, typical computer keyboard or membrane keyboard allows the user of the present disclosure, any and all coefficients for redefinition from any compound language, voice or perception dimension for research purposes amend. Selector switches allow any or all elements or dimension values for one To display a voice sample of a given subject. The digital one Processor controls or controls the analog-to-digital conversion of the sound signal and regulates or controls the reassembly or reassembly of the vocal sound elements into numerical values of the voice, voice and perceptual dimensions.

Der Mikrocomputer koordiniert auch die Tastatureingaben des Bedieners bzw. Betätigers und die gewählte Ausgabeanzeige von Werten, und Koeffizientenmatrixauswahl, um mit den Algorithmen zusammenzuwirken, welche die Stimmen-, Sprach- und Wahrnehmungsdimensionen zusammensetzen. Der Ausgabeauswahlschalter richtet einfach die Ausgabe zu jedem oder allen Ausgabesteckern, welche geeignet sind, um das Signal zu typischen kommerziell erhältlichen Monitoren, Modems, Druckern oder vorgegeben zu einer lichtausgebenden bordeigenen Anordnung zu richten.Of the Microcomputer also coordinates the keystrokes of the operator or actuator and the chosen one Output display of values, and coefficient matrix selection to use with to co-operate with the algorithms that govern the voice, language, and perceptual dimensions put together. The output selector simply directs the output to any or all output plugs suitable for the signal to typical commercially available Monitors, modems, printers or given to a light-emitting to be addressed on-board.

Durch ein Entwickeln von Gruppenprofilstandards unter Verwendung dieser Erfindung kann ein Forscher Ergebnisse in Veröffentlichungen durch Berufe bzw. Beschäftigungen, Fehl funktionen, Aufgabenstellungen, Hobbyinteressen, Kulturen, Sprachen, Geschlecht, Alter, Tierart, usw. auflisten. Oder der (die) Anwender in) kann seine/ihre Werte mit jenen vergleichen, welche durch andere veröffentlicht wurden, oder mit jenen, welche in die Maschine eingebaut sind.By developing group profile standards using these Invention, a researcher results in publications through occupations or occupations, Malfunctions, tasks, hobby interests, cultures, languages, List gender, age, species, etc. Or the user (s) in) can compare his / her values with those of others released or with those installed in the machine.

Bezugnehmend nun auf 12 der Zeichnungen wird eine stimmliche Äußerung in den Stimmklanganalysator durch ein Mikrophon 1210 eingebracht, und durch einen Mikrophonverstärker 1211 zur Signalverstärkung, oder von einer aufgezeichneten Eingabe durch einen Bandeingabestecker 1212 zur Verwendung einer vorab gezeichneten stimmlichen Äußerung eingegeben. Eine Eingabepegelregelung bzw. -steuerung 1213 stellt den Stimmsignalpegel auf den Filtertreiberverstärker 1214 ein. Der Filtertreiberverstärker 1214 verstärkt das Signal und legt das Signal an das V.U.-Meter 1215 zum Messen des korrekten Betriebssignalpegels an.Referring now to 12 of the drawings becomes a vocal utterance in the vocal sound analyzer through a microphone 1210 introduced, and by a microphone amplifier 1211 for signal amplification, or from a recorded input through a ribbon input connector 1212 to input a pre-written vocal utterance. An input level control 1213 sets the voice signal level to the filter driver amplifier 1214 one. The filter driver amplifier 1214 amplifies the signal and sends the signal to the VU meter 1215 to measure the correct operating signal level.

Die Durchlaufrate pro Sekunde und die Anzahl von Durchläufen pro Abtastung bzw. Probe wird durch den Betätiger bzw. Bediener mit den Durchlaufraten- und Abtastzeitschalter 1216 geregelt bzw. gesteuert. Der Bediener startet eine Abtastung mit dem Abtaststartschalter und der Stopübersteuerung 1217. Das Übersteuerungsmerkmal gestattet es dem Bediener, manuell die eingestellte Abtastzeit zu übersteuern, und die Abtastung bzw. Probennahme zu stoppen, um ein Kontaminieren bzw. Verunreinigen einer Abtastung bzw. Probe mit unerwarteten Klangstörungen zu verhindern, beinhaltend gleichzeitige Lautsprecher. Dieser Schalter verbindet und unterbricht auch die Stromversorgung des Mikroprozessors mit 110 Volt elektrischen Standardeingabestiften bzw. -anschlüssen.The rate of flow per second and the number of passes per sample is determined by the operator with the sweep rate and sample time switches 1216 regulated or controlled. The operator starts a scan with the scan start switch and the stop override 1217 , The override feature allows the operator to manually override the set scan time and stop sampling to prevent contaminating a sample with unexpected sound disturbances, including simultaneous speakers. This switch also connects and disconnects the microprocessor power supply with 110 volt standard input electrical pins.

Die Ausgabe des Filtertreiberverstärkers 1214 wird auch an eine kommerziell erhältliche, durch einen Mikroprozessor gesteuerte Filterbank und einen Digitalisierer 1218 angewendet bzw. angelegt, welche(r) das elektrische Signal in 1/3-Oktavenbereiche über den hörbaren Frequenzbereich für den Organismen segmentiert bzw. unterteilt, welcher abgetastet wird, und die Spannungsausgabe von jedem Filter digitalisiert. In einem spezifischen Arbeitssystem reichen 25 1/3-Oktavenfilter eines Eventide-Spektrumanalysators mit Filtermittelfrequenzen von 63 Hz bis 16.000 Hz. Weiterhin wurde ein AKAI-Mikrophon und Bandaufzeichnungsgerät mit eingebautem Verstärker als die Eingabe in die Filterbank und den Digitalisierer 1218 verwendet. Die Anzahl von Durchläufen pro Sekunde, welche die Filterbank verwendet, beträgt ungefähr zehn Durchläufe pro Sekunde. Andere mikroprozessorgesteuerte Filterbänke und Digitalisierer können bei unterschiedlichen Geschwindigkeiten arbeiten.The output of the filter driver amplifier 1214 is also available to a commercially available microprocessor controlled filter bank and digitizer 1218 applied, which segments the electrical signal into 1/3 octave ranges over the audible frequency range for the organism which is sampled and digitizes the voltage output from each filter. In a specific work system, 25 1/3 octave filters of an Eventide spectrum analyzer range from 63 Hz to 16,000 Hz filter center frequencies. Further, an AKAI microphone and tape recorder with built-in amplifier was used as the input to the filter bank and digitizer 1218 used. The number of passes per second the filter bank uses is about ten passes per second. Other microprocessor-based filter banks and digitizers can operate at different speeds.

Irgendein von verschiedenen kommerziell erhältlichen Mikroprozessoren ist geeignet, um die oben angeführte Filterbank und den Digitalisierer zu regeln bzw. zu steuern.Any of various commercially available microprocessors suitable for the above Filterbank and the digitizer to regulate or control.

Wie bei jedem komplexen Klang bzw. Schall wird eine Amplitude über den hörbaren Frequenzbereich für einen "Zeitanteil bzw. Zeitstück" von 0,1 einer Sekunde nicht konstant oder flach sein, sondern wird eher Spitzen und Täler sein bzw. aufweisen. Die für eine Frequenz repräsentativen Werte der Spitzen dieses Signals, 1219, werden genauer gemacht, indem die Amplitudenwerte auf jeder Seite der Spitzen festgestellt werden, und die Spitzenwerte zu dem benachbarten Filterwert eingestellt werden, welcher die größere Amplitude aufweist. Dies wird gemacht, da, wie es für benachbarte 1/3-Oktavenfilter charakteristisch ist, Energie bei einer gegebenen Frequenz in einem gewissen Ausmaß in benachbarte Filter abhängig von den Abschneid- bzw. Wegschneidequalitäten der Filter überläuft. Um diesen Effekt zu minimieren, wird von der Frequenz eines Spitzenfilters angenommen, die Mittenfrequenz zu sein, nur wenn die zwei benachbarten Filter Amplituden innerhalb von 10 von ihrem Durchschnitt aufweisen. Um diskrete, gleich beabstandete, kleine Werte für ein Linearisieren und Normalisieren der Werte zu garantieren, die die ungleichen Frequenzintervalle repräsentieren, werden jedem der 25 Filter Zahlen- bzw. Nummernwerte 1 bis 25 gegeben und diese Nummern werden für den Rest der Bearbeitung verwendet. Auf diese Weise wird der 3.500 Hz-Unterschied zwischen den Filtern 24 und 25 ein Wert von 1, welcher wiederum ebenfalls gleich der 17 Hz-Differenz zwischen dem ersten und zweiten Filter ist.As with any complex sound, an amplitude over the audible frequency range will not be constant or flat for a "time fraction" of 0.1 of a second, but will rather be peaks and valleys. The values representative of a frequency of the peaks of this sig Nalles, 1219 are made more accurate by finding the amplitude values on each side of the peaks, and setting the peaks to the adjacent filter value having the larger amplitude. This is done because, as is characteristic of adjacent 1/3 octave filters, energy at a given frequency overflows to some extent into adjacent filters depending on the cut-off qualities of the filters. To minimize this effect, the frequency of a peak filter is assumed to be the center frequency only when the two adjacent filters have amplitudes within 10 of their average. To guarantee discrete, equally spaced, small values for linearizing and normalizing the values representing the unequal frequency intervals, each of the twenty-five filters are given numbers 1-25 and these numbers are used for the remainder of the processing. In this way, the 3500 Hz difference between the filters 24 and 25 becomes a value of 1, which in turn is also equal to the 17 Hz difference between the first and second filters.

Und mehr als fünf Sub-Unterteilungen von jeder Filteranzahl zu verhindern und damit fortzufahren, gleiche bewertete Schritte bzw. Stufen zwischen jeder Sub- bzw. Unterabteilung der 1 bis 25 Filterzahlen aufrechtzuerhalten, werden diese in 0,2 Schritte unterteilt und weiter zugeordnet wie folgt. Wenn die Amplitudendifferenz der zwei benachbarten Filter zu einem Spitzenfilter größer als 30 von ihrem Durchschnitt ist, dann wird von der Zahl bzw. Nummer des Spitzenfilters angenommen, näher dem Punkt auf halbem Weg zur nächsten Filterzahl zu sein, als sie es von dem Spitzenfilter ist. Dies würde die Filterzahl eines Spitzenfilters, sagen wir, Filternummer 6,0, dazu veranlassen, auf 6,4 erhöht oder auf 5,6 vermindert zu werden, wenn das größere benachbarte Filter eine höhere bzw. niedere Frequenz repräsentiert. Allen anderen Filterwerten von Spitzenfiltern wird automatisch der Wert seiner Filternummer +0,2 und –0,2 gegeben, wenn die größere der benachbarten Filteramplituden jeweils eine höhere oder niederere Frequenz repräsentiert.And more than five Sub-subdivisions of each filter number to prevent and thus continue to evaluate equal steps between each Sub- or sub-division of 1 to 25 filter numbers maintain these are subdivided into 0.2 steps and further assigned as follows. If the amplitude difference of the two adjacent filters to a top filter larger than Is 30 of their average, then is the number or number of the top filter, closer the point halfway to the next To be filter count than it is from the top filter. This would be the Filter number of a peak filter, say, filter number 6.0, to cause it to increase to 6.4 or to be reduced to 5.6 when the larger adjacent filter is one higher or lower frequency represents. All other filter values of peak filters will automatically be the Value of its filter number +0.2 and -0.2 given when the larger the adjacent filter amplitudes each have a higher or lower frequency represents.

Das segmentierte und digital repräsentierte bzw. dargestellte Stimmäußerungssignal 1219 wird nach der oben angeführten Frequenzkorrektur 1220 komprimiert, um Speicherplatz zu sparen, indem alle außer sechs Amplitudenspitzen verworfen werden. Der Erfinder fand heraus, daß sechs Spitzen ausreichend waren, um die Stilcharakteristika aufzufangen, solange die folgenden Charakteristika bzw. Merkmale beobachtet werden. Wenigstens eine Spitze ist nahe der fundamentalen bzw. Grundfrequenz; genau eine Spitze ist zwischen dem Bereich der Grundfrequenz und der Spitzenamplitudenfrequenz gestattet, wo die nächste zur maximalen bzw. Maximalspitze konserviert wird; und die ersten zwei Spitzen oberhalb der Maximalspitze werden gespeichert plus die Spitze am nächsten zu dem 16.000 Hz-Ende oder dem 25. Filter, wenn oberhalb von 8 kHz, für eine Gesamtanzahl von sechs Spitzen, die im Mikroprozessorspeicher aufbewahrt und gespeichert werden. Dies wird garantieren, daß die Maximalspitze immer die dritte Spitze ist, welche im Speicher gespeichert wird, und daß die sechste gespeicherte Spitze für eine Hochfrequenzanalyse verwendet werden kann, und die die erste die niedrigste und nächste zur Grundlegenden bzw. Fundamentalen ist.The segmented and digitally represented or represented vocalization signal 1219 becomes after the above frequency correction 1220 compressed to save memory space by discarding all but six amplitude peaks. The inventor found that six tips were sufficient to absorb the style characteristics as long as the following characteristics were observed. At least one peak is near the fundamental frequency; exactly one peak is allowed between the range of the fundamental frequency and the peak amplitude frequency, where the next one is conserved to the maximum and maximum peak, respectively; and the first two peaks above the maximum peak are stored plus the peak closest to the 16,000 Hz end or the 25 th filter, if above 8 kHz, for a total of six peaks stored and stored in the microprocessor memory. This will guarantee that the maximum peak is always the third peak stored in memory, and that the sixth stored peak can be used for high frequency analysis and that the first is the lowest and next to the fundamental.

Nachfolgend auf die Kompression des Signals, um einen Amplitudenwert eines vollständigen Bands, die Filterzahl und Amplitudenwert von sechs Spitzen, und jeden dieser dreizehn Werte für 10 Abtastungen für eine 10 Sekunden- Abtastung (1300 Werte), 1221 von 12, zu beinhalten, beginnt der Klangelementzusammenbau.Following the compression of the signal, an amplitude value of a complete band, the filter count and amplitude value of six peaks, and each of these thirteen values for 10 samples for a 10 second sample (FIG. 1300 Values), 1221 from 12 To include, the sound element assembly begins.

Um bei Stimmstil-"Qualitäts"-Elementen anzukommen, verwendet dieses System Beziehungen zwischen dem niedrigen Satz und höheren Satz von Frequenzen in der stimmlichen Äußerung. Die Sprachstilelemente werden andererseits durch eine Kombination von Messungen bezüglich des Musters von Stimmenergieauftritten, wie beispielsweise Pausen und Abklingraten bestimmt. Diese Stimmstil-"Qualitäts"-Elemente tauchen aus der Spektrumanalyse, 13, 1330, 1331, und 1332 auf. Die Sprachstilelemente tauchen aus anderen vier Analysenfunktionen auf, wie dies in 12, 1233, 1234, 1235, und 1236 und Tabelle 6 gezeigt ist.To arrive at vocal style "quality" elements, this system uses relationships between the low set and higher set of frequencies in the vocal utterance. On the other hand, the speech style elements are determined by a combination of measurements relating to the pattern of voice energy appearances, such as pauses and decay rates. These vocal style "quality" elements emerge from spectrum analysis, 13 . 1330 . 1331 , and 1332 on. The language style elements emerge from other four analysis functions, as in 12 . 1233 . 1234 . 1235 , and 1236 and Table 6 is shown.

Die gespeicherten Stimmstilqualitätsanalyse-Elemente werden bezeichnet und abgeleitet als: (1) die Spektrum-"Verteilung" – der Abtastmittelwert des Abstands in Filterzahlen zwischen dem Durchschnitt der Spitzenfilteranzahlen oberhalb und dem Durchschnitt der Spitzenfilterzahlen unter der maximalen Spitze, für jeden Durchlauf, 13, 1330; (2) die Energie-"Balance" des Spektrums – der Mittelwert für eine Abtastung aller Verhältnisse des Durchlaufs der Summe der Amplituden von jenen Spitzen oberhalb der Summe der Amplituden unterhalb der Maximalspitze, 1331; (3) die Spektrumhüllkurve "Flachheit" – der arithmetische Mittelwert für jeden von zwei Sätzen von Verhältnissen für jede Abtastung bzw. Probe – die Verhältnisse der Durchschnittsamplitude von diesen Spitzen oberhalb (hoch) zur Maximalspitze, und von jenen unterhalb (niedrig) der Maximalspitze zur Maximalspitze für jeden Durchlauf, 1332.The stored voice style quality analysis elements are referred to and derived as: (1) the spectrum "distribution" - the sample average of the spacing in filter numbers between the average of the peak filter numbers above and the average of the peak filter numbers below the maximum peak, for each pass; 13 . 1330 ; (2) the energy "balance" of the spectrum - the mean for a sample of all ratios of the passage of the sum of the amplitudes of those peaks above the sum of the amplitudes below the maximum peak, 1331 ; (3) the "flatness" spectrum envelope - the arithmetic mean for each of two sets of ratios for each sample - the average amplitude ratios of these peaks above (high) to the maximum peak, and from those below (low) the maximum peak to peak Maximum peak for each pass, 1332 ,

Die Sprachstilelemente, welche gespeichert sind, werden jeweils bezeichnet und abgeleitet: (1) Spektrumvariabilität – die sechs Mittelwerte einer Äußerungsabtastung bzw. -probe, der numerischen Differenzen bzw. Unterschiede zwischen jeder Filterzahl einer Spitze, bei einem Durchlauf, zu jeder entsprechenden Filternummer bzw. -zahl einer Spitze beim nächsten Durchlauf, und auch die sechs Amplitudenwertdifferenzen für diese sechs Spitzen und auch beinhaltend die vollständigen Spektrumamplitudendifferenzen für jeden Durchlauf, um eine Abtastsumme von 13 Mittelwerten, 1333 zu erzeugen; (2) Äußerungspausenverhältnis-Analyse – das Verhältnis der Anzahl von Durchläufen in der Abtastung, bei welcher die vollständigen Energieamplitudenwerte Pausen waren (unter zwei Einheiten des Amplitudenwerts) zu der Zahl, welche Schallenergie aufwies (größer als eine Einheit des Werts), 1334; (3) Silbenänderungsannäherung – das Verhältnis der Anzahl von Durchläufen, bei welchen die dritte Spitze den Nummernwert um mehr als 0,4 zur Anzahl von Durchläufen geändert hat, welche Schall bzw. Klang während der Abtastung aufwiesen, 1335; (4) und, Hochfrequenzanalyse – das Verhältnis der Anzahl von Durchläufen für die Abtastung, bei welchem die sechste Spitze einen Amplitudenwert zur Gesamtanzahl von Durchläufen aufwies, 1336.The language style elements which are stored are each designated and derived: (1) Spek trumvariability - the six average values of an utterance sample, the numerical differences between each filter number of a peak, on one pass, to each corresponding filter number of a peak on the next pass, and also the six amplitude value differences for those six Peaks and also includes the full spectrum amplitude differences for each pass to a sample of 13 means, 1333 to create; (2) pause ratio analysis - the ratio of the number of passes in the sample at which the complete energy amplitude values were paused (below two units of the amplitude value) to the number that had sound energy (greater than one unit of the value), 1334 ; (3) syllabic change approximation - the ratio of the number of passes at which the third peak changed the number value by more than 0.4 to the number of passes that had sound during the scan, 1335 ; (4) and, high-frequency analysis - the ratio of the number of passes for the sample at which the sixth peak had an amplitude value to the total number of passes, 1336 ,

Klangstile werden in die sieben Dimensionen unterteilt, wie dies in Tabelle 6 dargestellt ist. Von diesen wurde bestimmt, die am empfindlichsten für einen assoziierten Satz von sieben Wahrnehmungs- oder Erkennungsstildimensionen zu sein, welche in Tabelle 7 aufgelistet sind.sound styles are divided into the seven dimensions as shown in the table 6 is shown. These were the ones that were the most sensitive for one associated set of seven perceptual or recognition dimensions to be listed in Table 7.

Das Verfahren zum Beziehen der Klangstilelemente auf Stimmen-, Sprach- und Wahrnehmungsdimension zur Ausgabe, 12, 1228, erfolgt durch Gleichungen, welche jede Dimension als eine Funktion ausgewählter Klangstilelemente bestimmen, 13, 1330 bis 1336. Tabelle 6 bezieht die Sprachstilelemente, 1333 bis 1336 von 13, auf die Sprachstildimensionen.The method of relating the sound style elements to the voice, speech, and perceptual dimensions of the output, 12 . 1228 , is done by equations that determine each dimension as a function of selected sound style elements, 13 . 1330 to 1336 , Table 6 relates the language style elements, 1333 to 1336 from 13 , on the language style dimensions.

Tabelle 7 stellt die Beziehung zwischen sieben Wahrnehmungsstildimensionen und den Klangstilelementen, 1330 bis 1336 dar. Erneut ist der Zweck, eine optionale Eingabekoeffizientenanordnung zu haben, welche Nullen beinhaltet, es dem Vorrichtungsbediener zu erlauben, Änderungen in diesen Koeffizienten zu Forschungszwecken, 1222, 1223 zu schalten oder einzugeben. Der schlaue Bediener kann unterschiedliche Wahrnehmungsdimensionen oder sogar Persönlichkeits- oder Erkenntnisdimensionen, oder Faktoren (wenn er diese Ausdrucksweise bevorzugt) entwickeln, welche alle gemeinsam unterschiedliche Koeffizienten erfordern. Dies wird vorgenommen bzw. durchgeführt, indem der gewünschte Satz von Koeffizienten eingegeben wird und notiert wird, auf welche Dimension (1226) er diese bezieht. Beispielsweise muß die Dimension anderer – selbst von Tabelle 7 nicht eine gewünschte Dimension durch einen Forscher sein, welcher diese durch eine Anwenderwahrnehmungsdimension ersetzen möchte, welche er introvertiert – extrovertiert nennt. Durch ein Ersetzen des Koeffizientensatzes für den Satz anderer – selbst, durch Versuchssätze, bis eine annehmbar hohe Korrelation zwischen der ausgewählten Kombination von gewichteten Klangstilelementen und seiner extern bestimmten Dimension introvertiert – extrovertiert besteht, kann der Forscher somit diesen Slot für die neue Dimension introvertiert – extrovertiert verwenden, indem er diese effektiv neu benennt. Dies kann in dem Ausmaß vorgenommen werden, daß der Satz von Klangelementen dieser Erfindung empfindlich ist für eine Anwenderdimension von introvertiert-extrovertiert, und der Koeffizientensatz des Forschers reflektiert die geeignete Beziehung. Dies wird möglich sein mit ziemlich vielen, durch einen Anwender bestimmten Dimensionen in einem nützlichen Ausmaß, wodurch es dem System ermöglicht wird, produktiv in einer Forschungsumgebung zu funktionieren, wo neue Wahrnehmungsdimensionen, bezogen auf Klangstilelemente, erforscht, entwickelt oder bewertet werden. Tabelle 6

Figure 00560001

  • ##STR1##
  • DS1 = Variabilität monoton
  • DS2 = abgehackt sanft bzw. glatt
  • DS3 = Stakkato aufrechterhalten
  • DS4 = Anstieg sanft
  • D55 = Affektivitätsregelung bzw. -steuerung
  • (2) Nr. 1 bis 6 = Spitzenfilterunterschiede 1-6, und Amp1 bis 6 = Spitzenamplitudendifferenzen bzw. -unterschiede 1-6.
  • Amp7 = Volle Bandpaßamplitudendifferenzen.
Tabelle 7
Figure 00570001
Figure 00580001
  • ##STR2##
  • DP1 = Eco-Struktur hoch-niedrig;
  • DP2 = Invariantempfindlichkeit hoch-niedrig;
  • DP3 = anders-selbst;
  • DP4 = sensorisch-intern;
  • DP5 = Haß-Liebe;
  • DP6 Abhängigkeit-Unabhängigkeit;
  • DP7 = emotionell-physisch.
  • (2) Nr. 1 bis 6 = Spitzenfilterdifferenzen 1-6; Amp1 bis 6 = Spitzenamplitudendifferenzen 1-6; und Amp7 vollständige Bandpaßamplitudendifferenzen.
Table 7 shows the relationship between seven perceptual dimension and the sound style elements, 1330 to 1336 Again, the purpose is to have an optional input coefficient array which includes zeros to allow the device operator to make changes in these coefficients for research purposes, 1222 . 1223 to switch or enter. The smart operator may develop different perceptual dimensions, or even personality or cognitive dimensions, or factors (if he prefers this phraseology), all of which require different coefficients together. This is done by entering the desired set of coefficients and noting which dimension (s) 1226 ) he relates this. For example, the dimension of others-even of Table 7-need not be a desired dimension by a researcher who wants to replace them with a user perceptual dimension that he calls introvert-extroverted. By replacing the coefficient set for the set of others - even extroverted by experimental sentences until an acceptably high correlation between the selected combination of weighted sound style elements and its externally determined dimension is introverted - the explorer can then introvert - extrovert that slot for the new dimension by renaming them effectively. This can be done to the extent that the set of sound elements of this invention is sensitive to a user dimension of introvert-extrovert, and the set of coefficients of the researcher reflects the appropriate relationship. This will be possible with quite a few dimensions determined by a user to a useful extent, thereby allowing the system to function productively in a research environment where new perceptual dimensions related to sound style elements are explored, developed or evaluated. Table 6
Figure 00560001
  • ## STR1 ##
  • DS1 = variability monotone
  • DS2 = choppy gentle or smooth
  • DS3 = Stakkato maintained
  • DS4 = rise gently
  • D55 = affectivity control
  • (2) Nos. 1 to 6 = peak filter differences 1-6, and Amp1 to 6 = peak amplitude differences 1-6.
  • Amp7 = Full bandpass amplitude differences.
Table 7
Figure 00570001
Figure 00580001
  • ## STR2 ##
  • DP1 = Eco-structure high-low;
  • DP2 = invariant sensitivity high-low;
  • DP3 = different-self;
  • DP4 = sensory-internal;
  • DP5 = hate-love;
  • DP6 dependence-independence;
  • DP7 = emotional-physical.
  • (2) Nos. 1 to 6 = peak filter differences 1-6; Amp1 to 6 = peak amplitude differences 1-6; and Amp7 full bandpass amplitude differences.

Die für den Anwender dieses Systems verfügbaren primären Resultate sind die Dimensionswerte, 1226, welche selektiv durch einen Schalter, 1227 verfügbar sind, um auf einer Standardlichtanzeige und auch selektiv für Monitor, Drucker, Modem und andere Standardausgabevorrichtungen, 1228 angezeigt zu werden. Diese können verwendet werden, um zu bestimmen, wie nahe die Stimme des Subjekts zu einer beliebigen oder allen der Klang- oder Wahrnehmungsdimensionen von den eingebauten oder veröffentlichten oder persönlich entwickelten Regelungen bzw. Steuerungen oder Standards ist, welche dann verwendet werden können, um bei einer Verbesserung einer Emotionserkennung zu helfen.The primary results available to the user of this system are the dimension values, 1226 which is selectively controlled by a switch, 1227 available on a standard light display and also selectively for monitor, printer, modem and other standard output devices, 1228 to be displayed. These can be used to determine how close the subject's voice is to any or all of the sound or perceptual dimensions of the built-in or published or personally developed rules or standards, which can then be used to communicate with one another Help improve emotion recognition.

In einer anderen beispielhaften Anordnung werden Biosignale, die von einem Anwender empfangen werden, verwendet, um dabei zu helfen, Emotionen in der Sprache des Anwenders zu bestimmen. Die Erkennungsrate eines Spracherkennungssystems wird durch ein Kompensieren von Änderungen in der Sprache des Anwenders verbessert, welche aus Faktoren, wie beispielsweise Emotion, Angst oder Ermüdung bzw. Müdigkeit resultieren. Ein von einer Äußerung eines Anwenders abgeleitetes Sprachsignal wird durch einen Vorprozessor modifiziert und einem Spracherkennungssystem bereitgestellt, um die Erkennungsrate zu verbessern. Das Sprachsignal wird basierend auf einem Biosignal modifiziert, welches für den emotionalen Zustand des Anwenders anzeigend bzw. hinweisend ist.In In another exemplary arrangement, biosignals generated by a user, used to help To determine emotions in the language of the user. The recognition rate of a speech recognition system is compensated by changes improved in the language of the user, which from factors such as For example, emotion, anxiety or fatigue or tiredness result. One of a statement of one User derived speech signal is through a preprocessor modified and provided to a speech recognition system to improve the recognition rate. The speech signal is based modified on a biosignal, representing the emotional state of the user indicating or indicative.

Detaillierter illustriert 14 ein Spracherkennungssystem, wo Sprachsignale vom Mikrophon 1418 und Biosignale vom Biomonitor 1430 durch einen Vorprozessor 1432 empfangen bzw. aufgenommen werden. Das Signal vom Biomonitor 1430 zum Vorprozessor 1432 ist ein Biosignal, welches für die Impedanz zwischen zwei Punkten auf der Oberfläche der Haut eines Anwenders anzeigend ist. Der Biomotor 1430 mißt die Impedanz unter Verwendung eines Kontakts 1436, welcher an einem der Finger des Anwenders befestigt ist, und eines Kontakts 1438, welche an einem anderen Finger des Anwenders befestigt ist. Ein Biomonitor, wie beispielsweise ein Biofeedbackmonitor bzw. Biorückkopplungsmonitor, welcher durch Radio Shack, welche eine Abteilung von Tandy Corporation ist, unter dem Handelsnamen (MICRONATA.RTM. BIOFEEDBACK MONITOR) Modell Nummer 63-664 verkauft wird, kann verwendet werden. Es ist auch möglich, die Kontakte an anderen Positionen auf der Haut des Anwenders festzulegen bzw. zu befestigen. Wenn der Anwender aufgeregt oder ängstlich wird, nimmt die Impedanz zwischen den Punkten 1436 und 1438 ab und die Abnahme wird durch den Monitor 1430 detektiert, welcher ein Biosignal erzeugt, welches anzeigend für bzw. hinweisend auf eine verringerte Impedanz ist. Der Vorprozessor 1432 verwendet das Biosignal von dem Biomotor 1430, um das vom Mikrophon 1418 empfangene Sprachsignal zu modifizieren, wobei das Sprachsignal modifiziert wird, um die Änderungen in der Sprache des Anwenders aufgrund der aus Faktoren, wie beispielsweise Müdigkeit oder einer Änderung des emotionalen Zustands resultierenden Änderungen zu kompensieren. Beispielsweise kann der Vorprozessor 1432 die Tonhöhe des Sprachsignals von dem Mikrophon 1418 absenken, wenn das Biosignal von dem Biomonitor 1430 anzeigt, daß der Anwender in einem aufgeregten Zustand ist, und der Vorprozessor 1432 kann die Tonhöhe des Sprachsignals vom Mikrophon 1418 erhöhen, wenn das Biosignal von dem Biomonitor 1430 anzeigt, daß der Anwender in einem weniger aufgeregten Zustand ist, wie beispielsweise bei Ermüdung. Der Vorprozessor 1432 stellt dann das modifizierte Sprachsignal der Audiokarte 1416 auf herkömmliche Weise zur Verfügung. Für Zwecke, wie beispielsweise Initialisierung oder Kalibrierung, kann der Vorprozessor 1432 mit dem PC 1410 unter Verwendung eines Interface bzw. einer Schnittstelle, wie beispielsweise einer RS232-Schnittstelle, kommunizieren. Der Anwender 1434 kann mit dem Vorprozessor 1432 durch ein Beobachten der Anzeige 1412 und durch Eingeben von Befehlen unter Verwendung der Tastatur 1414 oder Folientastatur 1439 oder einer Maus kommunizieren.Detailed illustrated 14 a voice recognition system where voice signals from the microphone 1418 and biosignals from the biomonitor 1430 through a preprocessor 1432 be received or recorded. The signal from the biomonitor 1430 to the preprocessor 1432 is a bio-signal indicative of the impedance between two points on the surface of a user's skin. The biomotor 1430 measures the impedance using a contact 1436 , which is attached to one of the user's fingers, and a contact 1438 , which is attached to another finger of the user. A biomonitor, such as a biofeedback monitor sold by Radio Shack, which is a division of Tandy Corporation, under the tradename (MICRONATA.RTM.BIOFEEDBACK MONITOR) Model Number 63-664, may be used. It is also possible to fix the contacts at other positions on the user's skin. When the user becomes agitated or anxious, the impedance between the points decreases 1436 and 1438 The decrease is done by the monitor 1430 which generates a biosignal which is indicative of a decreased impedance. The preprocessor 1432 uses the biosignal from the biomotor 1430 to that from the microphone 1418 modifying the received speech signal, wherein the speech signal is modified to compensate for the changes in the user's speech due to changes resulting from factors such as fatigue or a change in the emotional state. For example, the preprocessor 1432 the pitch of the speech signal from the microphone 1418 lower when the biosignal from the biomonitor 1430 indicates that the user is in an excited state and the preprocessor 1432 can the pitch of the speech signal from the microphone 1418 increase when the biosignal from the biomonitor 1430 indicates that the user is in a less agitated condition, such as fatigue. The preprocessor 1432 then sets the modified voice signal of the audio card 1416 available in a conventional manner. For purposes such as initialization or calibration, the preprocessor may 1432 with the PC 1410 communicate using an interface, such as an RS232 interface. The user 1434 can with the preprocessor 1432 by watching the ad 1412 and by entering commands using the keyboard 1414 or membrane keyboard 1439 or communicate with a mouse.

Es ist auch möglich, das Biosignal zu verwenden, um das Sprachsignal durch Regeln bzw. Steuern des Gewinns bzw. der Verstärkung und/oder Frequenzantwort des Mikrophons 1418 vorzuverarbeiten. Der Gewinn oder die Verstärkung des Mikrophons kann in Antwort auf das Biosignal erhöht oder verringert werden. Das Biosignal kann auch verwendet werden, um die Frequenzantwort des Mikrophons zu ändern. Beispielsweise kann, wenn das Mikrophon 1418 ein Modell ATM71, erhältlich von AUDIO-TECHNICA U.S., Inc., ist, das Biosignal verwendet werden, um zwischen einer relativ flachen Antwort und einer abgerollten Antwort zu schalten, wobei die abgerollte Antwort weniger Gewinn bzw. Verstärkung bei Sprachsignalen niedriger Frequenz zur Verfügung stellte.It is also possible to use the biosignal to control the speech signal by controlling the gain and / or frequency response of the microphone 1418 preprocess. The gain or gain of the microphone can be increased or decreased in response to the biosignal. The biosignal can also be used to change the frequency response of the microphone. For example, if the microphone 1418 an ATM71 model, available from AUDIO-TECHNICA US, Inc., is to use the biosignal to switch between a relatively flat response and an unrolled response, with the unrolled response providing less gain for low frequency speech signals ,

Wenn der Biomonitor 1430 der oben genannte Monitor, erhältlich von Radio Shack, ist, ist das Biosignal in der Form einer Serie von rampenähnlichen Signalen, wobei jede Rampe ungefähr 0,2 ms andauert. 15 illustriert das Biosignal, wo eine Serie von rampenähnlichen Signalen 1542 durch eine Zeit T getrennt ist. Der Anteil bzw. das Ausmaß der Zeit T zwischen den Rampen 1542 bezieht sich auf die Impedanz zwischen den Punkten 1438 und 1436. Wenn der Anwender in einem aufgeregteren Zustand ist, wird die Impedanz zwischen den Punkten 1438 und 1436 verringert und die Zeit T wird verringert. Wenn sich der Anwender in einem weniger aufgeregten Zustand befindet, wird die Impedanz zwischen den Punkten 1438 und 1436 gesteigert und die Zeit T wird gesteigert bzw. vergrößert.If the biomonitor 1430 the above-mentioned monitor, available from Radio Shack, is the biosignal in the form of a series of ramp-like signals, each ramp lasting about 0.2 ms. 15 illustrates the biosignal where a series of ramp-like signals 1542 is separated by a time T. The proportion or amount of time T between the ramps 1542 refers to the impedance between the points 1438 and 1436 , When the user is in a more excited state, the impedance between the points becomes 1438 and 1436 decreases and the time T is reduced. When the user is in a less-excited state, the impedance between the points becomes 1438 and 1436 increased and the time T is increased or increased.

Die Form eines Biosignals von einem Biomonitor kann in anderen Formen als einer Serie von rampenähnlichen Signalen sein. Beispielsweise kann das Biosignal ein analoges Signal sein, welches in der Periodizität, Amplitude und/oder Frequenz basierend auf Messungen variiert, welche durch den Biomonitor vorgenommen wurden, oder es kann ein digitaler Wert basierend auf durch den Biomonitor gemessenen Bedingungen sein.The Form of a biosignal from a biomonitor can take other forms as a series of ramp-like Be signals. For example, the biosignal may be an analog signal which, in the periodicity, Amplitude and / or frequency varies based on measurements, which made by the biomonitor, or it can be a digital one Value based on conditions measured by the biomonitor.

Der Biomonitor 1430 beinhaltet den Schaltkreis von 16, welcher das Biosignal erzeugt, das die Impedanz zwischen den Punkten 1438 und 1436 anzeigt. Der Schaltkreis besteht aus zwei Abschnitten. Der erste Abschnitt wird verwendet, um die Impedanz zwischen den Kontakten 1438 und 1436 zu erfassen, und der zweite Abschnitt wirkt als ein Oszillator, um eine Serie von Rampensignalen am Ausgangs- bzw. Ausgabeverbinder 1648 zu erzeugen, wo die Frequenz der Oszillation durch den ersten Abschnitt geregelt bzw. gesteuert wird.The biomonitor 1430 includes the circuit of 16 which generates the biosignal, which is the impedance between the points 1438 and 1436 displays. The circuit consists of two sections. The first section is used to measure the impedance between the contacts 1438 and 1436 and the second section acts as an oscillator to produce a series of ramp signals at the output connector 1648 where the frequency of the oscillation is controlled by the first section.

Der erste Abschnitt regelt bzw. steuert den Kollektorstrom Ic,Q1 und die Spannung Vc,Q1 des Transistors Q1 basierend auf der Impedanz zwischen den Kontakten 1438 und 1436. In dieser Ausführungsform besteht der Impedanzsensor 1650 einfach aus Kontakten 1438 und 1436, welche auf der Haut des Sprechers positioniert sind bzw. werden. Da sich die Impedanz zwischen den Kontakten 1438 und 1436 relativ langsam im Vergleich zu der Oszillations- bzw. Schwingungsfrequenz des Abschnitts 2 ändert, sind der Kollektorstrom Ic,Q1 und die Spannung Vc,Q1 virtuell bzw. nahezu konstant, soweit der Abschnitt 2 betroffen ist. Der Kondensator C3 stabilisiert weiter diese Ströme und Spannungen.The first section controls the collector current I c, Q1 and the voltage V c, Q1 of the transistor Q1 based on the impedance between the contacts 1438 and 1436 , In this embodiment, the impedance sensor is made 1650 simply from contacts 1438 and 1436 which are or are positioned on the skin of the speaker. As the impedance between the contacts 1438 and 1436 relatively slow compared to the oscillation frequency of the section 2 changes, the collector current I c, Q1 and the voltage V c, Q1 are virtual or nearly constant, as far as the section 2 is affected. The capacitor C3 further stabilizes these currents and voltages.

Der Abschnitt 2 wirkt als ein Oszillator. Die reaktiven Komponenten, L1 und C1, schalten den Transistor Q3 ein und aus, um eine Oszillation bzw. Schwingung zu erzeugen. Wenn die Energie bzw. Leistung zuerst eingeschaltet wird, schaltet Ic,Q1 Q2 durch Ziehen von Basisstrom Ib,Q2 ein. In ähnlicher Weise schaltet Ic,Q2 den Transistor Q3 ein, indem ein Basisstrom Ib,Q3 zur Verfügung gestellt wird. Anfänglich gibt es keinen Strom durch den Induktor bzw. die Induk tivität L1. Wenn Q3 eingeschaltet ist, wird die Spannung Vcc geringer als eine kleine gesättigte bzw. Sättigungs-Transistorspannung Vc,Q3 über L1 angelegt bzw. angewendet. Als ein Ergebnis steigt der Strom IL1 in Übereinstimmung mit

Figure 00630001
The section 2 acts as an oscillator. The reactive components, L1 and C1, turn transistor Q3 on and off to produce oscillation. When the power is first turned on, I c, Q1 turns on Q2 by pulling base current I b, Q2 . Similarly, I c, Q2 turns on transistor Q3 by providing a base current I b, Q3 . Initially there is no current through the inductor or the inductance L1. When Q3 is on, the voltage Vcc is applied less than a small saturated transistor voltage V c, Q3 across L1. As a result, the current I L1 increases in accordance with FIG
Figure 00630001

Da bzw. wenn der Strom IL1 ansteigt bzw. zunimmt, nimmt der Strom Ic1 durch den Kondensator C1 zu. Ein Steigern des Stroms Ic1 reduziert den Basisstrom IB,Q2 vom Transistor Q2, da der Strom Ic,Q1 virtuell bzw. nahezu konstant ist. Dies reduziert wiederum die Ströme Ic,Q2, Ib,Q3 und Ic,Q3. Als ein Ergebnis tritt mehr vom Strom IL1 durch den Kondensator C1 durch und reduziert weiter den Strom Ic,Q3. Diese Rückkopplung veranlaßt den Transistor Q3 dazu, abgeschaltet zu werden. Schließlich ist der Kondensator C1 vollständig geladen und die Ströme IL1 und Ic1 fallen auf null, und erlauben es dadurch dem Strom Ic,Q1 erneut, den Basisstrom Ib,Q2 zu ziehen und die Transistoren Q2 und Q3 einzuschalten, was den Oszillationszyklus erneut startet.As the current I L1 increases, the current I c1 through the capacitor C1 increases. Increasing the current I c1 reduces the base current I B, Q2 from the transistor Q2, since the current I c, Q1 is virtually constant. This in turn reduces the currents I c, Q 2 , I b, Q 3 and I c, Q 3 . As a result, more of the current I L1 passes through the capacitor C1 and further reduces the current I c, Q3 . This feedback causes the transistor Q3 to be turned off. Finally, the capacitor C1 is fully charged and the currents I L1 and I c1 drop to zero, allowing the current I c, Q1 again to pull the base current I b, Q2 and turn on the transistors Q2 and Q3, which is the oscillation cycle starts again.

Der Strom Ic,Q1, welcher von der Impedanz zwischen den Kontakten 1438 und 1436 abhängt, regelt bzw. steuert die Frequenz des Lastverhältnisses bzw. Arbeitszyklus des Ausgabesignals. Wenn die Impedanz zwischen den Punkten 1438 und 1436 abnimmt, nimmt die Zeit T zwischen den Rampensignalen ab, und wenn die Impedanz zwischen den Punkten 1438 und 1436 zunimmt, nimmt die Zeit T zwischen den Rampensignalen zu.The current I c, Q1 , which depends on the impedance between the contacts 1438 and 1436 depends regulates or controls the frequency of the load ratio or duty cycle of the output signal. When the impedance between the points 1438 and 1436 decreases, the time T between the ramp signals decreases, and when the impedance between the points 1438 and 1436 increases, the time T between the ramp signals increases.

Der Schaltkreis wird durch eine Drei-Volt-Batteriequelle 1662 angetrieben, welche mit dem Schaltkreis über den Schalter 1664 verbunden ist. Ebenfalls beinhaltet ist ein variabler Widerstand 1666, welcher verwendet wird, um einen Arbeitspunkt für den Schaltkreis einzustellen. Es ist wünschenswert, den variablen Widerstand 1666 auf eine Position einzustellen, welche ungefähr in der Mitte seines Einstellbereichs ist. Der Schaltkreis schwankt dann von diesem Arbeitspunkt, wie früher beschrieben, basierend auf der Impedanz zwischen den Punkten 1438 und 1436. Der Schaltkreis beinhaltet auch einen Schalter 1668 und einen Lautsprecher 1670. Wenn ein zusammenpassender Verbinder nicht in den Verbinder 1648 eingesetzt ist, stellt der Schalter 1668 die Ausgabe des Schaltkreises am Lautsprecher 1670 eher als am Verbinder 1648 zur Verfügung.The circuit is powered by a three volt battery source 1662 driven, which with the circuit via the switch 1664 connected is. Also included is a variable resistor 1666 , which is used to set an operating point for the circuit. It is desirable to use the variable resistor 1666 to a position which is approximately in the middle of its adjustment range. The circuit then varies from this operating point, as described earlier, based on the impedance between the points 1438 and 1436 , The circuit also includes a switch 1668 and a speaker 1670 , If a mating connector is not in the connector 1648 is inserted, the switch provides 1668 the output of the circuit on the speaker 1670 rather than at the connector 1648 to disposal.

17 ist ein Blockdiagramm des Vorprozessors 1432. Ein Analog-zu-Digital-Konverter bzw. -Wandler (A/D) 1780 empfängt ein Sprach- oder Äußerungssignal vom Mikrophon 1418, und ein Analog-zu-Digital-Wandler (A/D) 1782 empfängt ein Biosignal von dem Biomonitor 1430. Das Signal von dem A/D 1782 wird einem Mikroprozessor 1784 zur Verfügung gestellt. Der Mikroprozessor 1784 überwacht das Signal von dem A/D 1782, um zu bestimmen, welche Maßnahme durch die digitale Signalprozessor-Vorrichtung (DSP) 1786 vorgenommen werden sollte. Der Mikroprozessor 1784 verwendet einen Speicher 1788 für eine Programmspeicherung und für Zwischenregistervorgänge. Der Mikroprozessor 1784 kommuniziert mit dem PC 1410 unter Verwendung einer RS232-Schnittstelle. Die Software zum Regeln bzw. Steuern der Schnittstelle zwischen dem PC 1410 und dem Mikroprozessor 1784 kann auf dem PC 1410 in einer Mehrfachanwendungsumgebung unter Verwendung eines Softwarepakets ablaufen, wie beispielsweise einem Programm, das unter dem Handelsnamen (WINDOWS) durch Microsoft Corporation verkauft wird. Die Ausgabe von dem DSP 1786 wird zu einem analogen Signal durch einen Digitalzu-Analog-Wandler 1790 rückgewandelt. Nachdem der DSP 1786 das Signal von dem A/D 1780 modifiziert, wie durch den Mikroprozessor 1784 befohlen wurde, wird die Ausgabe des D/A-Wandlers 1790 zu der Audiokarte 1416 gesandt. Der Mikroprozessor 1784 kann einer von weithin verfügbaren Mikroprozessoren sein, wie beispielsweise die Mikroprozessoren, die von Intel Corporation erhältlich sind, und der DSP 1786 kann einer der weit verbreitet erhältlichen digitalen Signalverarbeitungschips sein, welche von Gesellschaften, wie beispielsweise TMS320CXX-Serie von Geräten von Texas Instruments sind. 17 is a block diagram of the preprocessor 1432 , An analog-to-digital converter or converter (A / D) 1780 receives a voice or utterance signal from the microphone 1418 , and an analog-to-digital converter (A / D) 1782 receives a biosignal from the biomonitor 1430 , The signal from the A / D 1782 becomes a microprocessor 1784 made available. The microprocessor 1784 monitors the signal from the A / D 1782 to determine what action to take by the Digital Signal Processor Device (DSP). 1786 should be made. The microprocessor 1784 uses a memory 1788 for a program storage and for clipboard operations. The microprocessor 1784 communicates with the PC 1410 using an RS232 interface. The software for controlling or controlling the interface between the PC 1410 and the microprocessor 1784 can on the pc 1410 in a multi-application environment using a software package, such as a program sold under the trade name (WINDOWS) by Microsoft Corporation. The output from the DSP 1786 becomes an analog signal through a digital to analogue converter 1790 reconverted. After the DSP 1786 the signal from the A / D 1780 modified, as by the microprocessor 1784 is commanded, the output of the D / A converter 1790 to the audio card 1416 sent. The microprocessor 1784 may be one of widely available microprocessors such as the microprocessors available from Intel Corporation and the DSP 1786 can be one of the widely available digital signal processing chips used by companies such as the TMS320CXX series of Texas Instruments devices.

Es ist möglich, um den Biomonitor 1430 und Vorprozessor 1432 auf einer einzelnen Karte zu positionieren, welche in einen leeren Kartensteckplatz im PC 1410 eingesetzt wird. Es ist auch möglich, die Funktionen des Mikroprozessors 1784 und des digitalen Signalprozessors 1786 unter Verwendung des PC 1410 statt durch spezialisierte Hardware durchzuführen.It is possible to use the biomonitor 1430 and preprocessor 1432 to position on a single card, which is in a blank card slot in the PC 1410 is used. It is also possible to use the functions of the microprocessor 1784 and the digital signal processor 1786 using the PC 1410 instead of performing specialized hardware.

Der Mikroprozessor 1784 überwacht das Biosignal von dem A/D 1782, um zu bestimmen, welche Maßnahme durch den DSP 1786 vorgenommen werden sollte. Wenn das Signal von dem A/D 1782 anzeigt, daß der Anwender in einem aufgeregteren Zustand ist, zeigt der Mikroprozessor 1784 dem DSP 1786 an, daß er das Signal von dem A/D 1780 verarbeiten sollte, so daß die Tonhöhe des Sprachsignals verringert wird. Wenn das Biosignal von dem A/D 1782 anzeigt, daß der Anwender in einem weniger aufgeregten oder ermüdeten Zustand ist, instruiert der Mikroprozessor 1784 den DSP 1786, die Tonhöhe des Sprachsignals zu erhöhen.The microprocessor 1784 monitors the biosignal from the A / D 1782 to determine what action to take by the DSP 1786 should be made. If the signal from the A / D 1782 indicates that the user is in a more excited state, the microprocessor shows 1784 the DSP 1786 that it receives the signal from the A / D 1780 should process, so that the pitch of the speech signal is reduced. When the biosignal from the A / D 1782 indicates that the user is in a less agitated or tired state, the microprocessor instructs 1784 the DSP 1786 to increase the pitch of the speech signal.

Der DSP 1786 modifiziert die Tonhöhe des Sprachsignals durch ein Erzeugen eines Sprachmodells. Der DSP verwendet dann das Modell, um das Sprachsignal mit einer modifizierten Tonhöhe wieder herzustellen. Das Sprachmodell wird unter Verwendung einer der linearen voraussagenden Codiertechniken erzeugt, welche in der Technik gut bekannt sind. Eine derartige Technik ist in einem Anwendungsbuch von Analog Device, Inc., geoffenbart, mit dem Titel "Digitale Signalverarbeitungsanwendungen unter Verwendung der ADSP 2100 Familie", Seiten 355-372, veröffentlicht durch Prentice-Hall, Englewood Cliffs, N.J., 1992. Diese Technik involviert ein Modellieren des Sprachsignals als ein FIR-Filter (finite bzw. endliche Impulsantwort) mit zeitveränderlichen Koeffizienten, wobei das Filter durch einen Zug von Impulsen erregt wird. Dann ist die Zeit T zwischen den Impulsen ein Maß der Tonhöhe oder Grundfrequenz. Die zeitveränderlichen Koeffizienten können unter Verwendung einer Technik berechnet werden, wie beispielsweise die Levinson-Durbin-Rekursion, welche in der oben angeführten Veröffentlichung von Analog Device, Inc. geoffenbart ist. Eine Zeit T zwischen den Impulsen, welche den Zug von Impulsen bilden, welche das Filter erregen, kann unter Verwendung eines Algorithmus berechnet werden, wie beispielsweise der SIFT-Algorithmus (vereinfachtes inverses Filternachführen) von John D. Markel, welcher geoffenbart ist in "Der SIFT-Algorithmus zur Grundfrequenzabschätzung" von John D. Markel, IEEE Transactions on Audio und Electroacoustics, Vol. AU-20, Nr. 5, Dezember 1972. Der DSP 1786 modifiziert die Tonhöhe oder Grundfrequenz des Sprachsignals durch ein Ändern der Zeit T zwischen den Impulsen, wenn er das FIR-Filter erregt, um das Sprachsignal wiederherzustellen. Beispielsweise kann die Tonhöhe um 1% erhöht werden, indem die Zeit T zwischen den Impulsen um 1% verringert wird.The DSP 1786 modifies the pitch of the speech signal by generating a speech model. The DSP then uses the model to restore the speech signal at a modified pitch. The language model is generated using one of the linear predictive coding techniques that are well known in the art. One such technique is disclosed in an application book by Analog Device, Inc., entitled "Digital Signal Processing Applications Using the ADSP 2100 Family, pages 355-372, published by Prentice-Hall, Englewood Cliffs, NJ, 1992. This technique involves modeling the speech signal as a finite impulse response (FIR) filter with time-varying coefficients, the filter being a train Then the time T between the pulses is a measure of the pitch or fundamental frequency The time-variant coefficients can be calculated using a technique such as the Levinson-Durbin recursion described in the above-cited publication by Analog Device. Inc. A time T between the pulses that form the train of pulses that excite the filter can be calculated using an algorithm such as the SIFT (Simplified Inverse Filter Following) algorithm of John D. Markel is disclosed in "The SIFT Algorithm for Fundamental Frequency Estimation" by John D. Markel, IEEE Transactions on Audio and Electroacoustics, Vol. AU-20, No. 5, December 1972. The DSP 1786 modifies the pitch or fundamental frequency of the speech signal by changing the time T between the pulses when it energizes the FIR filter to restore the speech signal. For example, the pitch can be increased by 1% by reducing the time T between the pulses by 1%.

Es sollte beachtet werden, daß das Sprachsignal auf andere Weisen als Änderungen in der Tonhöhe modifiziert sein kann. Beispielsweise können Tonhöhe, Amplitude, Frequenz und/oder Signalspektrum modifiziert sein. Ein Abschnitt des Signalspektrums oder des Gesamtspektrums kann abgeschwächt oder verstärkt sein.It should be noted that the Speech signal modified in other ways than pitch changes can be. For example, you can Pitch, Amplitude, frequency and / or signal spectrum to be modified. One Section of the signal spectrum or the entire spectrum may be attenuated or be strengthened.

Es ist auch möglich, andere Biosignale als ein Signal zu überwachen, welches für die Impedanz zwischen zwei Punkten auf einer Haut des Anwenders hinweisend bzw. anzeigend ist. Signale, die für eine autonome Aktivität anzeigend sind, können als Biosignale verwendet werden. Signale, welche für eine autonome Aktivität anzeigend sind, wie beispielsweise Blutdruck, Pulszahl, Hirnwellen- oder andere elektrische Aktivität, Pupillengröße, Hauttemperatur, Transparenz oder Reflexionsvermögen einer bestimmten elektromagnetischen Wellenlänge, oder andere Signale, die für den emotionalen Zustand des Anwenders anzeigend sind, können verwendet werden.It is possible, too, to monitor other biosignals as a signal, which is for the impedance between two points on a user's skin indicating. Signals for an autonomous activity can indicate be used as biosignals. Signals indicative of autonomic activity such as blood pressure, heart rate, brainwave or others electrical activity, pupil size, skin temperature, Transparency or reflectivity a certain electromagnetic wavelength, or other signals that for the indicating the user's emotional state can be used become.

18 illustriert Tonhöhenmodifikationskurven, welche der Mikroprozessor 1784 verwendet, um den DSP 1786 zu instruieren, die Tonhöhe des Sprachsignals basierend auf der Zeitperiode T, welche mit dem Biosignal assoziiert ist, zu ändern. Die horizontale Achse 1802 zeigt die Zeitperiode T zwischen den Rampen 1442 des Biosignals an und die vertikale Achse 1804 zeigt die Prozentänderung in der Tonhöhe an, welche durch den DSP 1786 eingebracht wird. 18 illustrates pitch modification curves which the microprocessor 1784 used to the DSP 1786 to instruct the pitch of the speech signal based on the time period T associated with the Bi osignal is associated, change. The horizontal axis 1802 shows the time period T between the ramps 1442 of the biosignal on and the vertical axis 1804 indicates the percentage change in pitch caused by the DSP 1786 is introduced.

19 illustriert ein Flußdiagramm der Befehle, welche durch den Mikroprozessor 1784 ausgeführt werden, um eine in 18 illustrierte Betriebslinie bzw. -kurve zu er richten. Nach einer Initialisierung wird Schritt 1930 ausgeführt, um eine Linie zu errichten, die co-linear mit der Achse 1802 ist. Diese Linie zeigt an, daß eine Null-Tonhöhenänderung für alle Werte von T von dem Biosignal eingebracht ist. Nach dem Schritt 1930 wird ein Entscheidungsschritt 1932 ausgeführt, wo der Mikroprozessor 1784 bestimmt, ob ein Modifikationskommando bzw. -befehl von der Tastatur 1414 oder der Folientastatur 1439 empfangen wurde. Wenn kein Modifikationsbefehl empfangen wurde, wartet der Mikroprozessor 1784 in einer Schleife auf einen Modifikationsbefehl. Wenn ein Modifikationskommando empfangen wird, wird ein Schritt 1934 ausgeführt, um den Wert von T = Tref1 zu bestimmen, welcher verwendet werden wird, um einen neuen Referenz- bzw. Bezugspunkt Ref1 zu errichten. Der Wert Tref1 ist gleich dem gegenwärtigen Wert von T, der aus dem Biosignal erhalten wurde. Beispielsweise kann Tref1 gleich 0,6 ms sein. Nach einer Bestimmung des Werts Tref1 führt der Mikroprozessor 1784 einen Schritt 1938 aus, welcher den Anwender auffordert, eine Äußerung zu tätigen, so daß eine Tonhöhenprobe in Schritt 1940 entnommen werden kann. Es ist wünschenswert, eine Tonhöhenprobe zu erhalten, da die Tonhöhenprobe als eine Basis für die prozentuellen Änderungen der Tonhöhe verwendet wird, die entlang der Achse 1804 angezeigt ist. In Schritt 1942 instruiert der Mikroprozessor 1784 den DSP 1786, die Tonhöhe des Sprachsignals um einen Betrag gleich der gegenwärtigen Tonhöhenänderung, die mit dem Punkt Ref1 assoziiert ist, plus einer Erhöhung von fünf Prozent zu erhöhen, jedoch können kleinere oder größere Erhöhungen bzw. Schrittgrößen verwendet werden. (An diesem Punkt ist die mit dem Punkt Ref1 assoziierte Tonhöhenänderung null. Siehe bzw. Wiederaufrufen von Schritt 1930.) In Schritt 1944 fordert der Mikroprozessor 1784 den Anwender auf, einen Erkennungstest aus zuführen, indem verschiedene Kommandos bzw. Befehle zu dem Spracherkennungssystem gesprochen werden, um zu bestimmen, ob eine annehmbare Erkennungsrate erzielt wurde. Wenn der Anwender den Test beendet, kann der Anwender die Beendigung des Tests dem Mikroprozessor 1784 anzeigen, indem ein Befehl, wie beispielsweise "Ende", unter Verwendung der Tastatur 1414 oder Folientastatur 1439 eingegeben wird. 19 FIG. 11 illustrates a flow chart of the instructions issued by the microprocessor 1784 be executed to a in 18 to illustrate the illustrated operating line or curve. After an initialization becomes step 1930 executed to build a line that is co-linear with the axis 1802 is. This line indicates that a zero pitch change is introduced for all values of T from the biosignal. After the step 1930 becomes a decision step 1932 running where the microprocessor 1784 determines if a modification command or command from the keyboard 1414 or the membrane keyboard 1439 was received. If no modification command has been received, the microprocessor waits 1784 in a loop to a modification command. When a modification command is received, a step becomes 1934 to determine the value of T = T ref1 which will be used to establish a new reference point Ref1. The value T ref1 is equal to the current value of T obtained from the biosignal. For example, T ref1 can be equal to 0.6 ms. After a determination of the value T ref1 , the microprocessor performs 1784 one step 1938 which prompts the user to make an utterance, so that a pitch sample in step 1940 can be removed. It is desirable to obtain a pitch sample because the pitch sample is used as a basis for the percent changes in pitch along the axis 1804 is displayed. In step 1942 instructs the microprocessor 1784 the DSP 1786 to increase the pitch of the speech signal by an amount equal to the current pitch change associated with point Ref1 plus an increase of five percent, however, smaller or larger increments may be used. (At this point, the pitch change associated with point Ref1 is zero.) See or recall step 1930 .) In step 1944 demands the microprocessor 1784 the user to perform a recognition test by speaking various commands to the speech recognition system to determine if an acceptable recognition rate has been achieved. When the user completes the test, the user can stop the test to the microprocessor 1784 Show by using a command, such as "End", using the keyboard 1414 or membrane keyboard 1439 is entered.

Nach einem Ausführen des Schritts 1944 führt der Mikroprozessor 1784 einen Schritt 1946 aus, in welchem er den DSP 1786 instruiert, die Tonhöhe des eingehenden Sprachsignals um die Tonhöhenänderung zu vermindern, welche mit dem Punkt Ref1 assoziiert ist, minus einer Verminderung von fünf Prozent; jedoch können kleinere oder größere Beträge bzw. Anteile verwendet werden. (Beachten Sie, daß die Tonhöhenänderung, welche mit dem Punkt Ref1 assoziiert ist, null als ein Ergebnis des Schritts 1930 ist). In Schritt 1948 fordert der Mikroprozessor 1784 den Anwender auf, einen anderen Spracherkennungstest durchzuführen und ein "Ende"-Kommando einzugeben, wenn der Test abgeschlossen ist. In Schritt 1950 fordert der Mikroprozessor 1784 den Anwender auf, für den ersten oder zweiten Test zu stimmen, um anzuzeigen, welcher Test eine bessere Erkennungsfähigkeit hatte. In Schritt 1952 werden die Resultate der Wahl des Anwenders verwendet, um zwischen den Schritten 1954 und 1956 auszuwählen. Wenn der Test 1 als der beste bewertet wurde, wird der Schritt 1956 ausgeführt und die neue, mit dem Punkt Ref1 assoziierte, prozentuelle bzw. Prozentänderung wird dem vorhergehenden Wert des Punkts Ref1 plus fünf Prozent oder die Erhöhung gleichgesetzt, welche in Schritt 1942 verwendet wurde. Wenn der Test 2 als der beste bewertet ist, wird der Schritt 1954 ausgeführt und der neue, mit Ref1 assoziierte, Prozentänderungswert wird dem alten Wert von Ref1 minus fünf Prozent oder die Verminderung gleichgesetzt, welche in Schritt 1946 verwendet wurde. Ein Bestimmen einer prozentuellen bzw. Prozentänderung, die mit T=Tref1 assoziiert ist, errichtet einen neuen Referenzpunkt Ref1. Beispielsweise ist, wenn der Test 1 als der beste bewertet wurde, der Punkt Ref1 am Punkt 1858 in 18 angeordnet. Nach Errichten der Position des Punkts 1858, welcher der neu errichtete Ref1 ist, ist bzw. wird die Linie 1860 in Schritt 1962 errichtet. Die Linie 1860 ist die Anfangstonhöhen-Modifikationslinie, welche verwendet wird, um die Tonhöhenänderungen für unterschiedliche Werte von T aus dem Biosignal zu berechnen. Anfänglich kann dieser Linie eine Neigung bzw. ein Anstieg von beispielsweise plus fünf Prozent pro Millisekunde gegeben sein; jedoch können andere Neigungen bzw. Anstiege verwendet werden.After executing the step 1944 leads the microprocessor 1784 one step 1946 in which he is the DSP 1786 instructs to reduce the pitch of the incoming speech signal by the pitch change associated with point Ref1, minus a five percent reduction; however smaller or larger amounts or shares can be used. (Notice that the pitch change associated with point Ref1 becomes zero as a result of the step 1930 is). In step 1948 demands the microprocessor 1784 prompt the user to perform another speech recognition test and enter an "end" command when the test is complete. In step 1950 demands the microprocessor 1784 Ask the user to vote for the first or second test to indicate which test had better detection capability. In step 1952 the results of the user's choice are used between steps 1954 and 1956 select. If the test 1 was rated as the best, the step becomes 1956 and the new percentage change associated with the point Ref1 is set equal to the previous value of the point Ref1 plus five percent, or the increment, which in step 1942 has been used. If the test 2 is rated as the best, the step becomes 1954 and the new percent change value associated with Ref1 is set equal to the old value of Ref1 minus five percent, or the decrease made in step 1946 has been used. Determining a percentage change associated with T = T ref1 establishes a new reference point Ref1. For example, if the test 1 was rated as the best, the point Ref1 is at the point 1858 in 18 arranged. After building the position of the point 1858 , which is the newly built Ref1, is or will be the line 1860 in step 1962 built. The line 1860 is the initial pitch modification line which is used to calculate the pitch changes for different values of T from the biosignal. Initially, this line may be given a slope of, for example, plus five percent per millisecond; however, other slopes may be used.

Nach Errichten bzw. Aufbauen dieser anfänglichen Modifikationslinie geht der Mikroprozessor 1784 in eine Warteschleife, wo Schritte 1964 und 1966 ausgeführt werden. In Schritt 1964 prüft der Mikroprozessor 1784 nach einem Modifikationskommando bzw. -befehl, und in Schritt 1966 prüft er nach einem Abschaltekommando. Wenn ein Modifizierungsbefehl in Schritt 1964 nicht empfangen wird, überprüft der Prozessor nach dem Abschaltkommando in Schritt 1966. Wenn ein Abschaltkommando nicht empfangen ist bzw. wird, kehrt der Mikroprozessor zu Schritt 1964 zurück, und wenn ein Abschaltkommando empfangen wird, führt der Mikroprozessor Schritt 1930 aus, welcher die Tonhöhenänderung mit null für alle Werte von T von dem Biosignal gleichsetzt. Der Prozessor bleibt in dieser Schleife zum Prüfen nach Modifizierungs- und Abschaltkommandos, bis der Anwender mit der Erkennungsrate unzufrieden wird, welche aus dem Vorver arbeiten des Sprachsignals unter Verwendung der Kurve 1860 resultiert.After building this initial modification line, the microprocessor goes 1784 in a holding pattern where steps 1964 and 1966 be executed. In step 1964 checks the microprocessor 1784 after a modification command or command, and in step 1966 he checks for a shutdown command. If a modification command in step 1964 is not received, the processor checks after the shutdown command in step 1966 , If a shutdown command is not received, the microprocessor will return to step 1964 back, and when a shutdown command is received, the microprocessor steps 1930 which equates the pitch change with zero for all values of T from the biosignal. The processor remains in this loop for checking for modify and shutdown commands, until the user becomes dissatisfied with the recognition rate resulting from the pre-processing of the speech signal using the curve 1860 results.

Wenn in Schritt 1964 ein Modifizierungskommando empfangen wird, wird ein Schritt 1968 ausgeführt. In Schritt 1968 wird der Wert von T bestimmt, um zu überprüfen, ob der Wert von T gleich oder nahezu gleich dem Wert von Tref1 des Punkts Ref1 ist. Wenn der Wert von T mit Ref1 übereinstimmt, wird der Schritt 1942 ausgeführt. Wenn der Wert von T nicht mit Ref1 übereinstimmt, wird der Schritt 1970 ausgeführt. In Schritt 1970 wird der Wert von Tref2 für einen neuen Referenz- bzw. Bezugspunkt Ref2 errichtet. Zum Zweck eines illustrativen Beispiels werden wir annehmen, daß Tref2 = 1,1 ms. Unter Bezugnahme auf 18 errichtet dies den Punkt Ref2 als Punkt 1872 auf der Linie 1860. In Schritt 1974 instruiert der Mikroprozessor 1784 den DSP 1786, die Tonhöhenänderung, welche mit dem Punkt Ref2 assoziiert ist, um plus 2,5 Prozent (andere Prozentwerte können verwendet werden) zu erhöhen. (Andere Prozentwerte können verwendet werden). In Schritt 1976 wird der Anwender aufgefordert, einen Erkennungstest durchzuführen und das "Ende"-Kommando bzw. -Befehl beim Abschluß einzugeben. In Schritt 1978 instruiert der Mikroprozessor 1784 den DSP 1786, die Tonhöhe des Sprachsignals um einen Betrag gleich einer Tonhöhenänderung zu vermindern, die mit Ref2 minus 2,5 Prozent assoziiert ist. In Schritt 1980 wird der Anwender erneut aufgefordert, einen Erkennungstest durchzuführen und einen "Ende"-Befehl bei Beendigung einzugeben. In Schritt 1982 wird der Anwender aufgefordert anzuzeigen, ob der erste oder zweite Test die erstrebenswertesten Resultate aufwies. In Schritt 1984 entscheidet der Mikroprozessor 1784, einen Schritt 1986 auszuführen, wenn Test 1 als der beste bewertet wurde, und einen Schritt 1988, wenn Test 2 als der beste bewertet wurde. In Schritt 1986 stellt der Mikroprozessor 1784 die Prozentänderung, welche mit Punkt Ref2 assoziiert ist, auf den früheren Wert ein, welcher mit Ref2 plus 2,5 Prozent oder der Erhöhung assoziiert ist, welche in Schritt 1974 verwendet wurde. In Schritt 1988 wird die Prozentänderung, die mit Ref2 assoziiert ist, gleich dem früheren Wert eingestellt, der mit Ref2 minus 2,5 Prozent oder der Verringerung assoziiert ist, die in Schritt 1978 verwendet wurde. Nach Vollendung der Schritte 1986 oder 1988 wird ein Schritt 1990 ausgeführt. In Schritt 1990 ist eine neue Tonhöhenmodifizierungslinie errichtet. Die neue Linie verwendet den Punkt, der mit Ref1 assoziiert ist, und den neuen Punkt, der mit Ref2 assoziiert ist. Beispielsweise ist, wenn angenommen wird, daß der Anwender Test 1 in Schritt 1984 ausgewählt hat, der neue mit Ref2 assoziierte Punkt der Punkt 1892 von 18. Die neue Tonhöhenumwandlungslinie ist nun die Linie 1898, welche durch die Punkte 1892 und 1858 durchtritt. Nach Ausführen des Schritts 1990 kehrt der Mikroprozessor 1684 zu der mit den Schritten 1964 und 1966 assoziierten Schleifenfunktion zurück.When in step 1964 a modification command is received, becomes a step 1968 executed. In step 1968 the value of T is determined to check whether the value of T is equal to or nearly equal to the value of T ref1 of the point Ref1. If the value of T matches Ref1, the step becomes 1942 executed. If the value of T does not match Ref1, the step becomes 1970 executed. In step 1970 the value of T ref2 is established for a new reference point Ref2. For purposes of an illustrative example, we will assume that T ref2 = 1.1 ms. With reference to 18 this builds the point Ref2 as a point 1872 on the line 1860 , In step 1974 instructs the microprocessor 1784 the DSP 1786 The pitch change associated with point Ref2 may increase by plus 2.5 percent (other percentages may be used). (Other percentages can be used). In step 1976 the user is prompted to perform a recognition test and to enter the "end" command or command at completion. In step 1978 instructs the microprocessor 1784 the DSP 1786 to decrease the pitch of the speech signal by an amount equal to a pitch change associated with Ref2 minus 2.5 percent. In step 1980 the user is again prompted to perform a recognition test and to enter an "end" command upon termination. In step 1982 the user is asked to indicate if the first or second test had the most desirable results. In step 1984 decides the microprocessor 1784 , one step 1986 if Test 1 was rated as the best, and a step 1988 if Test 2 was rated as the best. In step 1986 represents the microprocessor 1784 the percent change associated with point Ref2 is at the previous value associated with Ref2 plus 2.5 percent or the increase generated in step 1974 has been used. In step 1988 For example, the percentage change associated with Ref2 is set equal to the earlier value associated with Ref2 minus 2.5 percent or the decrease that was determined in step 1978 has been used. After completing the steps 1986 or 1988 becomes a step 1990 executed. In step 1990 is a new pitch modification line built. The new line uses the point associated with Ref1 and the new point associated with Ref2. For example, assuming that the user is testing 1 in step 1984 the new point associated with Ref2 has the dot 1892 from 18 , The new pitch conversion line is now the line 1898 which through the points 1892 and 1858 passes. After executing the step 1990 the microprocessor returns 1684 to the one with the steps 1964 and 1966 associated loop function back.

Es sollte beachtet werden, daß eine lineare Modifikationslinie verwendet wurde; jedoch ist es möglich, nicht-lineare Modifikationslinien zu verwenden. Dies kann vorgenommen werden, indem die Punkte 1858 und 196 verwendet werden, um einen Anstieg für eine Linie rechts des Punkts 1858 zu errichten, und indem ein anderer Referenz- bzw. Bezugspunkt links des Punkts 1858 verwendet wird, um eine Steigung für eine Linie zu errichten, die sich links des Punkts 1858 erstreckt. Es ist auch möglich, positive und negative Grenzen auf der maximalen, prozentuellen Tonhöhenänderung anzuordnen. Wenn die Tonhöhenmodifikationslinie sich diesen Grenzen nähert, können sich diese ihr asymptotisch annähern oder einfach abrupt am Kontaktpunkt mit der Grenze ändern.It should be noted that a linear modification line was used; however, it is possible to use non-linear modification lines. This can be done by the points 1858 and 196 used to be an increase for a line to the right of the point 1858 and by placing another reference point to the left of the point 1858 is used to build a slope for a line that is to the left of the point 1858 extends. It is also possible to arrange positive and negative limits on the maximum percentage pitch change. As the pitch modification line approaches these limits, they may approach it asymptotically or simply abruptly change at the point of contact with the boundary.

Es ist auch möglich, eine festgelegte Modifikationskurve zu verwenden, wie beispielsweise Kurve 1800, und dann den variablen Widerstand 1666 einzustellen, bis eine annehmbare Erkennungsrate erzielt wird.It is also possible to use a fixed modification curve, such as a curve 1800 , and then the variable resistor 1666 until an acceptable recognition rate is achieved.

Sprach- bzw. StimmbenachrichtigungssystemVoice or Voice Notification System

20 stellt ein System dar, welches Sprachnachrichten basierend auf Emotionscharakteristika der Sprachnachrichten handhabt. In Vorgang 2000 wird eine Vielzahl von Sprachnachrichten, welche über ein Telekommunikationsnetzwerk übertragen werden, empfangen. In Vorgang 2002 werden die Sprachnachrichten auf einem Speichermedium, wie beispielsweise dem oben dargelegten Bandaufzeichnungsgerät oder einer Festplatte beispielsweise gespeichert. Eine mit den Sprach- bzw. Stimmsignalen der Sprachnachrichten assoziierte Emotion wird in Vorgang 2004 bestimmt. Die Emotion kann durch irgendeines der oben dargelegten Verfahren bestimmt werden. 20 FIG. 10 illustrates a system that handles voice messages based on emotion characteristics of the voice messages. In process 2000 A plurality of voice messages transmitted over a telecommunication network are received. In process 2002 For example, the voice messages are stored on a storage medium such as the above-mentioned tape recorder or a hard disk. An emotion associated with the voice signals of the voice messages is being processed 2004 certainly. The emotion may be determined by any of the methods set forth above.

Die Sprachnachrichten werden in Vorgang bzw. Funktion 2006 basierend auf der bestimmten Emotion organisiert. Beispielsweise Nachrichten, in welchen die Stimme negative Emotionen, z.B. Traurigkeit, Ärger oder Angst, anzeigt, können gemeinsam in einer Mailbox bzw. einem Briefkasten und/oder einer Datenbank gruppiert werden. Ein Zugriff auf die organisierten Sprachnachrichten ist in Vorgang 2008 gestattet.The voice messages are in process or function 2006 organized based on the particular emotion. For example, messages in which the voice indicates negative emotions, such as sadness, anger or anxiety, may be grouped together in a mailbox or mailbox and / or database. Access to the organized voice messages is in progress 2008 allowed.

Die Sprachnachrichten können einem Telefonanruf folgen. Optional können die Sprachnachrichten einer ähnlichen Emotion zusammen organisiert sein. Ebenfalls optional können die Sprachnachrichten in Echtzeit unmittelbar nach Erhalt über das Telekommunikationsnetzwerk organisiert sein. Vorzugsweise ist eine Weise, in welcher die Sprachnachrichten organisiert sind, identifiziert, um den Zugriff auf die organisierten Sprachnachrichten zu erleichtern. Ebenfalls vorzugsweise wird die Emotion durch ein Extrahieren von wenigstens einem Merkmal aus Sprachsignalen bestimmt, wie dies zuvor besprochen wurde.The voice messages can follow a telephone call. Optionally, the voice messages ei be organized together with a similar emotion. Also optionally, the voice messages may be organized in real-time immediately upon receipt via the telecommunications network. Preferably, a manner in which the voice messages are organized is identified to facilitate access to the organized voice messages. Also preferably, the emotion is determined by extracting at least one feature from speech signals, as previously discussed.

In einer beispielhaften Anordnung werden Tonhöhen- und LPC-Parameter (und üblicherweise auch andere Erregungsinformation) zur Übertragung und/oder Speicherung codiert, und werden decodiert, um eine nahe Nachbildung der ursprünglichen Spracheingabe zur Verfügung zu stellen.In In an exemplary arrangement, pitch and LPC parameters (and usually also other excitation information) for transmission and / or storage encoded, and are decoded to be a close replica of the original one Voice input available to deliver.

Das vorliegende System ist besonders auf lineare voraussagende Codierungssysteme (LPC) für ein Analysieren oder Codieren analer Sprachsignale (und Verfahren hiefür) bezogen. In einer LPC-Modellierung wird allgemein jede Abtastung bzw. Probe in einer Serie von Abtastungen (im vereinfachten Modell) als eine lineare Kombination von vorhergehenden Abtastungen modelliert, plus einer Erregungsfunktion:

Figure 00740001
wobei uk das LPC-Restsignal ist. Das heißt, uk repräsentiert die verbleibende bzw. Restinformation in dem eingegebenen bzw. Eingabesprachsignal, welches nicht durch das LPC-Modell vorhergesagt ist. Es soll beachtet werden, daß nur N ältere bzw. frühere Signale zur Vorhersage verwendet werden. Die Modellreihenfolge (typischerweise etwa 10) kann erhöht werden, um eine bessere Voraussage zu ergeben, jedoch wird etwas Information immer in dem Restsignal uk für jede normale Sprachmodellierungsanwendung verbleiben.The present system is particularly related to linear predictive coding (LPC) systems for analyzing or encoding analog speech signals (and methods therefor). In LPC modeling, generally, each sample in a series of samples (in the simplified model) is modeled as a linear combination of previous samples, plus an excitation function:
Figure 00740001
where u k is the LPC residual signal. That is, u k represents the residual information in the input speech signal which is not predicted by the LPC model. It should be noted that only N older or earlier signals are used for prediction. The model order (typically about 10) can be increased to give better prediction, but some information will always remain in the residual signal u k for any normal speech modeling application.

Innerhalb des allgemeinen Rahmenwerks der LPC-Modellierung können viele besondere Implementierungen einer Stimmanalyse ausgewählt werden. In vielen von diesen ist es notwendig, die Tonhöhe des Eingabesprachsignals zu bestimmen. D.h., zusätzlich zu den Formanten-Frequenzen, welche tatsächlich mit Resonanzen des Stimmtrakts übereinstimmen, beinhaltet die menschliche Stimme auch eine Tonhöhe, die durch den Sprecher moduliert wird, welche mit der Frequenz übereinstimmt, bei welcher der Kehlkopf den Luftstrom moduliert. D.h., die menschliche Stimme kann als eine Erregungsfunktion betrachtet werden, welche an ein akustisches passives Filter angewendet bzw. angelegt wird, und die Erregungsfunktion wird im allgemeinen in der LPC-Restfunktion erscheinen, während die Charakteristika bzw. Merkmale des passiven akustischen Filters (d.h. die Resonanzcharakteristika von Mund, Nasenhohlraum, Brustkorb, usw.) durch die LPC-Parameter geformt werden wird. Es sollte beachtet werden, daß während stimmloser Sprache die Erregungsfunktion nicht eine gut definierte Tonhöhe aufweist, sondern stattdessen als breitbandiges, weißes Rauschen oder rosa Rauschen modelliert ist.Within The general framework of LPC modeling can be many special implementations of a voice analysis are selected. In many of these, it is necessary to change the pitch of the input speech signal to determine. That is, in addition to the formant frequencies, which actually coincide with resonances of the vocal tract, The human voice also includes a pitch given by the speaker is modulated, which coincides with the frequency at which the Larynx modulates the airflow. That is, the human voice can be regarded as an excitation function, which corresponds to an acoustic passive filter is applied, and the excitation function will generally appear in the LPC residual function while the Characteristics of the passive acoustic filter (i.e. the resonance characteristics of the mouth, nasal cavity, thorax, etc.) will be shaped by the LPC parameters. It should be noted be that while voiceless Language the excitation function does not have a well-defined pitch, but instead as broadband, white noise or pink noise is modeled.

Eine Abschätzung der Tonhöhenperiode ist nicht vollständig trivial. Unter den Problemen ist die Tatsache, daß die erste Formante häufig bei einer Frequenz nahe derjenigen der Tonhöhe auftreten wird. Aus diesem Grund wird die Ton höhenabschätzung häufig an dem LPC-Restsignal durchgeführt, da der LPC-Abschätzvorgang tatsächlich Vokaltaktresonanzen aus der Erregungsinformation entfaltet, so daß das Restsignal relativ weniger der Vokaltraktresonanten (Formanten) und relativ mehr der Erregungsinformation (Tonhöhe) beinhaltet. Jedoch weisen derartige, auf einem Rest basierende Tonhöhenabschätzungstechniken ihre eigenen Schwierigkeiten auf. Das LPC-Modell selbst wird normalerweise hochfrequentes Rauschen in das Restsignal einbringen, und Abschnitte von diesem hochfrequenten Rauschen können eine höhere spektrale Dichte aufweisen als die tatsächliche Tonhöhe, welche detektiert werden sollte. Eine Lösung für diese Schwierigkeit ist einfach, das Restsignal bei etwa 1000 Hz Tiefpaß zu filtern. Dies entfernt das hochfrequente Rauschen, entfernt jedoch auch die legitimierte Hochfrequenzenergie, welche in den stimmlosen Bereichen der Sprache vorhanden ist, und macht das Restsignal nahezu nutzlos für stimmhafte Entscheidungen.A appraisal the pitch period is not complete trivial. Among the problems is the fact that the first Formant often will occur at a frequency near that of the pitch. For this Reason the sound level estimation often becomes performed the LPC residual signal, since the LPC estimation process indeed Vocal tach resonances unfolded from the excitation information, so that the residual signal relative less of the vocal tract (formants) and relatively more of the Excitation information (pitch) includes. However, such residue-based pitch estimation techniques their own difficulties. The LPC model itself usually becomes introduce high-frequency noise into the residual signal, and sections from this high-frequency noise can have a higher spectral density as the actual Pitch, which should be detected. One solution to this difficulty is simple, to filter the residual signal at about 1000 Hz lowpass. This removed the high-frequency noise, but also removes the legitimized High-frequency energy, which in the unvoiced areas of the language is present, and makes the residual signal almost useless for voiced Decisions.

Ein Hauptkriterium in Sprachnachrichtenanwendungen ist die Qualität der reproduzierten Sprache. Systeme nach dem Stand der Technik hatten in dieser Hinsicht viele Schwierigkeiten. Insbesondere beziehen sich viele dieser Schwierigkeiten auf Probleme eines genauen Detektierens der Tonhöhe und der Stimmhaftigkeit des eingegebenen bzw. Eingabesprachsignals.One Main criterion in voice messaging applications is the quality of the reproduced Language. Prior art systems had in this regard many difficulties. In particular, many of these difficulties relate to problems of accurately detecting the pitch and voicing of the input speech signal.

Es ist typischerweise sehr leicht, eine Tonhöhenperiode auf dem Doppelten oder der Hälfte ihres Werts unkorrekt abzuschätzen. Beispielsweise garantiert, wenn Korrelationsverfahren verwendet werden, eine gute Korrelation bei einer Periode P eine gute Korrelation bei einer Periode 2P, und bedeutet auch, daß es für das Signal wahrscheinlicher ist, eine gute Korrelation bei einer Periode P/2 zu zeigen. Jedoch erzeugen solche Verdopplungs- und Halbierungsfehler eine sehr lästige Verminderung der Stimm- bzw. Sprachqualität. Beispielsweise wird ein fehlerhaftes Halbieren der Tonhöhenperiode dazu neigen, eine quietschende Stimme zu erzeugen, und ein fehlerhaftes Verdoppeln der Tonhöhenperiode wird dazu neigen, eine rauhe Stimme zu erzeugen. Darüber hinaus ist es wahrscheinlich, daß ein Verdoppeln oder Halbieren einer Tonhöhenperiode intermittierend bzw. mit Unterbrechungen auftritt, so daß die synthetisierte Stimme dazu neigen wird, mit Unterbrechungen zu knacksen oder zu kratzen.It is typically very easy to incorrectly estimate a pitch period at twice or half its value. For example, when correlation methods are used, a good correlation at a period P guarantees a good correlation at a period 2P, and also means that the signal is more likely to show a good correlation at a period P / 2. However, such doubling and halving errors produce a very annoying reduction in voice quality. example for example, an erroneous halving of the pitch period will tend to produce a squeaky voice, and an erroneous doubling of the pitch period will tend to produce a rough voice. Moreover, it is likely that doubling or halving a pitch period will occur intermittently, so that the synthesized voice will tend to crack or scratch intermittently.

Bevorzugte Anordnungen verwenden ein adaptives Filter, um das Restsignal zu filtern. Durch Verwendung eines zeitveränderlichen Filters, welches einen einzelnen Pol beim ersten Reflexionskoeffizienten (k1 der Spracheingabe) aufweist, wird das hochfrequente bzw. Hochfrequenz-Rauschen aus den stimmhaften Perioden der Sprache entfernt, jedoch wird die hochfrequente Information in den stimmlosen Sprachperioden zurückgehalten. Das adaptiv gefilterte Restsignal wird dann als die Eingabe für die Tonhöhenentscheidung verwendet.Preferred arrangements use an adaptive filter to filter the residual signal. By using a time varying filter having a single pole at the first reflection coefficient (k 1 of the speech input), the high frequency noise is removed from the voiced periods of the speech, but the high frequency information is retained in the unvoiced speech periods. The adaptively filtered residual signal is then used as the input for the pitch decision.

Es ist notwendig, die hochfrequente bzw. Hochfrequenz-Information in den stimmlosen Sprachperioden zurückzuhalten bzw. beizubehalten, um bessere Stimmhaftigkeits/Stimmlosigkeits-Entscheidungen zu gestatten. D.h., die "stimmlose" Stimmhaftigkeitsentscheidung wird normalerweise vorgenommen, wenn keine starke Tonhöhe vorgefunden wird, d.h., wenn keine Korrelationsverzögerung des Restsignals einen hohen normalisierten Korrelationswert liefert. Jedoch kann, wenn nur ein tiefpaßgefilterter Abschnitt des Restsignals während stimmlosen Sprachperioden getestet wird, dieses teilweise bzw. Teilsegment des Restsignals unechte Korrelationen aufweisen. D.h., die Gefahr ist, daß das abgeschnittene Restsignal, welches durch das festgelegte Tiefpaßfilter nach dem Stand der Technik erzeugt ist, nicht genug Daten beinhaltet, um zuverlässig zu zeigen, daß keine Korrelation während stimmloser Perioden besteht, und die zusätzliche, durch die hochfrequente Energie der stimmlosen Perioden zur Verfügung gestellte Bandbreite notwendig ist, um zuverlässig die unechten Korrelationsverzögerungen auszuschließen, welche andernfalls gefunden werden könnten.It is necessary, the high-frequency or high-frequency information in the to withhold voiceless speech periods or to maintain better voicing / voicelessness decisions to allow. That is, the "voiceless" voicing decision is usually done when no strong pitch is found is, that is, when no correlation delay of the residual signal high normalized correlation value. However, if just a low-pass filtered Section of the residual signal during voiceless speech periods is tested, this partial or sub-segment of the residual signal have spurious correlations. That is, the danger is that the truncated residual signal, which passes through the fixed low-pass filter produced according to the state of the art, does not contain enough data, to be reliable to show that no Correlation during voiceless periods, and the additional, by the high-frequency Energy of unvoiced periods provided bandwidth necessary is to be reliable the spurious correlation delays ruled out which could otherwise be found.

Eine Verbesserung in Tonhöhen- und Stimmhaftigkeitsentscheidungen ist besonders kritisch für Sprachnachrichtensysteme, ist jedoch auch für andere Anwendungen wünschenswert. Beispielsweise eine Worterkennungsvorrichtung, welche Tonhöheninformation mit einbezieht, würde natürlich ein gutes Tonhöhenabschätzverfahren erfordern. In ähnlicher Weise wird eine Tonhöheninformation manchmal zur Lautsprecher- bzw. Sprecherüberprüfung verwendet, insbesondere über eine Telefonleitung, wo eine hochfrequente Information teilweise verloren ist. Darüber hinaus wäre für zukünftige Weitbereichserkennungssysteme es wünschenswert, fähig zu sein, die syntaktische Information zu berücksichtigen, welche durch die Tonhöhe angegeben ist. In ähnlicher Weise wäre eine gute Analyse der Stimmhaftigkeit für einige fortschrittliche Spracherkennungssysteme, z.B. Sprache-zu-Text-Systeme wünschenswert.A Improvement in pitch and voicing decisions are particularly critical for voice messaging systems, is also for other applications desirable. For example, a word recognition device, which pitch information involved Naturally a good pitch estimation method require. In similar Way becomes a pitch information sometimes used for speaker checking, in particular over one Telephone line, where a high-frequency information is partially lost is. About that would be out for future wide-area detection systems it desirable able to be to consider the syntactic information provided by the pitch is specified. In similar Way would be a good voicing analysis for some advanced speech recognition systems, e.g. Speech-to-text systems desirable.

Der erste Reflexionskoeffizient k1 ist ungefähr auf das hoch/niederfrequente Energieverhältnis und ein Signal bezogen. Siehe R.J. McAulay, "Entwurf eines robusten Tonhöhenabschätzers maximaler Wahrscheinlichkeit für Sprache und zusätzliches Rauschen", Technische Notiz, 1979-28, Lincoln Labs, 11. Juni 1979. Für k1 nahe zu -1 gibt es mehr niederfrequente Energie in dem Signal als hochfrequente Energie und umgekehrt für k1 nahe zu 1. Somit wird durch Verwendung von k1 zum Bestimmen des Pols eines 1-poligen Deemphasis-Filters das Restsignal in den stimmhaften Sprachperioden tiefpaßgefiltert und wird in den stimmlosen Sprachperioden hochpaßgefiltert. Dies bedeutet, daß die Formanten-Frequenzen von einer Berechnung der Tonhöhe während der stimmhaften Perioden ausgeschlossen sind, während die notwendige Hochbandbreiteninformation in den stimmlosen Perioden zur genauen Detektion der Tatsache beibehalten wird, daß keine Tonhöhenkorrelation besteht.The first reflection coefficient k 1 is approximately related to the high / low frequency energy ratio and a signal. See RJ McAulay, "Designing a Robust Maximum Likelihood Pitch Estimator for Speech and Additional Noise", Technical Note, 1979-28, Lincoln Labs, June 11, 1979. For k 1 close to -1, there is more low frequency energy in the signal than high frequency energy and vice versa close to 1. Thus, for k 1 is low pass filtered by the use of k 1 to determine the pole of a 1-pole deemphasis filter, the residual signal in the voiced speech periods and is high pass filtered in the unvoiced speech periods. This means that the formant frequencies are excluded from calculation of the pitch during the voiced periods while maintaining the necessary high-bandwidth information in the unvoiced periods for accurate detection of the fact that there is no pitch correlation.

Vorzugsweise wird eine nachverarbeitende, dynamische Programmiertechnik verwendet, und nicht nur einen optimalen Tonhöhenwert, sondern auch eine optimale Stimmhaftigkeitsentscheidung zur Verfügung zu stellen. D.h., sowohl Tonhöhe wie auch Stimmhaftigkeit werden von Rahmen zu Rahmen nachgeführt und ein kumulativer Nachteil für eine Sequenz bzw. Abfolge von Rahmentonhöhen/Stimmhaftigkeitsentscheidungen wird für verschiedene Spuren akkumuliert, um die Spur zu finden, welche optimale Tonhöhen- und Stimmhaftigkeitsentscheidungen ergibt. Der kumulative Nachteil wird erhalten, indem ein Rahmenfehler eingeführt wird, der von einem Rahmen zum nächsten geht. Der Rahmenfehler benachteiligt vorzugsweise nicht nur große Abweichungen in der Tonhöhenperiode von Rahmen zu Rahmen, sondern benachteiligt auch Tonhöhenhypothesen, welche einen relativ schlechten Korrelations-"Güte"-Wert aufweisen, und benachteiligt auch Änderungen in der Stimmhaftigkeitsentscheidung, wenn das Spektrum relativ unverändert von Rahmen zu Rahmen ist. Dieses letzte Merkmal des Rahmenübergangsfehlers erzwingt deshalb Stimmhaftigkeitsübergänge zu den Punkten von maximaler spektraler Änderung.Preferably a post-processing, dynamic programming technique is used, and not only an optimal pitch value, but also a to provide optimal voicing decision. That is, both pitch as well as voicing are tracked from frame to frame and one cumulative disadvantage for a sequence of frame pitches / voicing decisions is for accumulated various tracks to find the track which optimal pitch and voicing decisions. The cumulative disadvantage is obtained by introducing a frame error from a frame to the next goes. The frame error preferably not only disadvantages large deviations in the pitch period from frame to frame, but also penalizes pitch hypotheses, which have a relatively poor correlation "goodness" value, and also penalizes changes in the voicing decision, if the spectrum is relatively unchanged from Frame to frame is. This last feature of the frame transition error therefore enforces voucher transitions to the points of maximum spectral change.

Das Sprachnachrichtensystem beinhaltet ein Spracheingabesignal, welches als eine Zeitserie si gezeigt ist, welches an einem LPC-Analyseblock zur Verfügung gestellt wird. Die LPC-Analyse kann durch eine breite Vielzahl konventioneller Techniken vorgenommen werden, jedoch ist das Endprodukt ein Satz von LPC-Parametern und einem Restsignal ui. Der Hintergrund einer LPC-Analyse im allgemeinen und verschiedener Verfahren zur Extraktion von LPC-Parametern wird in zahlreichen allgemein bekannten Literaturstellen gefunden, beinhaltend Markel und Gray, Linear Prediction of Speed (1976) und Rabiner und Schafer, Digital Processing of Speed Signals (1978) und darin zitierten Literaturstellen.The voice message system includes a voice input signal which is referred to as a time series s i 1, which is provided on an LPC analysis block. The LPC analysis can be done by a wide variety of conventional techniques, but the final product is a set of LPC parameters and a residual signal u i . The background of LPC analysis in general and various methods of extracting LPC parameters is found in numerous commonly known references, including Markel and Gray, Linear Prediction of Speed (US Pat. 1976 ) and Rabiner and Schafer, Digital Processing of Speed Signals ( 1978 ) and cited therein.

In der gegenwärtig bevorzugten Anordnung wird die analoge Sprachwellenform bei einer Frequenz von 8 KHz und mit einer Genauigkeit von 16 Bits abgetastet, um die Eingabezeitserie si zu erzeugen. Natürlich ist das System überhaupt nicht von der Abtastrate oder der verwendeten Genauigkeit abhängig und ist an Sprache, welche bei einer beliebigen Rate abgetastet wurde, oder mit jedem beliebigen Grad von Genauigkeit anwendbar.In the presently preferred arrangement, the analog speech waveform is sampled at a frequency of 8 KHz and with an accuracy of 16 bits to produce the input time series s i . Of course, the system is not at all dependent on the sampling rate or the accuracy used and is applicable to speech sampled at any rate or with any degree of accuracy.

In der gegenwärtig bevorzugten Anordnung beinhaltet der Satz von LPC-Parametern, welcher verwendet wird, eine Vielzahl von Reflexionskoeffizienten ki, und ein LPC-Modell der 10. Ordnung wird verwendet (d.h., nur die Reflexionskoeffizienten k1 bis k10 werden extrahiert bzw. entnommen, und Koeffizienten höherer Ordnung werden nicht extrahiert). Jedoch können andere Modellreihenfolgen bzw. -ordnungen oder andere gleichwertige Sätze von LPC-Parametern ver wendet werden, wie es für jene mit Erfahrung in der Technik bekannt ist. Beispielsweise können die LPC-Vorhersagekoeffizienten ak verwendet werden oder die Impulsantwortabschätzungen ek. Jedoch sind die Reflexionskoeffizienten ki am bequemsten.In the presently preferred arrangement, the set of LPC parameters which is used includes a plurality of reflection coefficients k i , and a 10th-order LPC model is used (ie, only the reflection coefficients k 1 to k 10 are extracted). and higher order coefficients are not extracted). However, other model orders or other equivalent sets of LPC parameters may be used, as is known to those of skill in the art. For example, the LPC prediction coefficients a k may be used or the impulse response estimates e k . However, the reflection coefficients k i are most convenient.

In der gegenwärtig bevorzugten Anordnung werden die Reflexionskoeffizienten gemäß dem Leroux-Gueguen-Verfahren extrahiert, welches beispielsweise in den IEEE Transactions on Acoustic, Speech and Signal Processing, Seite 257 (Juni 1977), dargelegt ist.In the present preferred arrangement, the reflection coefficients according to the Leroux-Gueguen method extracted, for example, in the IEEE Transactions on Acoustic, Speech and Signal Processing, page 257 (June 1977).

Jedoch könnten andere Algorithmen, welche jenen mit Erfahrung in der Technik gut bekannt sind, wie beispielsweise Durbin's verwendet werden, um die Koeffizienten zu berechnen.however could other algorithms that are good for those with experience in engineering are known, such as Durbin's are used to the coefficients to calculate.

Ein Nebenprodukt der Berechnung der LPC-Parameter wird typischerweise ein Restsignal uk sein. Jedoch kann, wenn die Parameter durch ein Verfahren berechnet werden, welches nicht automatisch uk als ein Nebenprodukt ausgibt bzw. hervorbringt, der Rest einfach durch Verwendung der LPC-Parameter gefunden werden, um ein digitales Filter mit endlicher Impulsantwort zu konfigurieren, welches direkt die Restserie uk aus der eingegebenen bzw. Eingangsserie sk berechnet.A by-product of calculating the LPC parameters will typically be a residual signal u k . However, if the parameters are calculated by a method that does not automatically output u k as a by-product, the remainder can be found simply by using the LPC parameters to configure a finite impulse response digital filter which directly generates the residual series uk is calculated from the input or input series sk.

Die Restsignalzeitserie uk wird nun durch einen sehr einfachen digitalen Filtervorgang gegeben, welcher von den LPC-Parametern für den aktuellen Rahmen abhängig ist. D.h., das Spracheingabesignal sk ist eine Zeitserie, welche einen Wert aufweist, welcher sich einmal in jeder Abtastung bei einer Abtastrate von z.B. 8 KHz ändern kann. Jedoch werden die LPC-Parameter normalerweise nur einmal in jeder Rahmenperiode bei einer Rahmenfrequenz von z.B. 100 Hz neu berechnet. Das Restsignal uk ebenfalls weist eine Periode gleich der Abtastperiode auf. Somit ist bzw. wird das Digitalfilter, dessen Wert von den LPC-Parametern abhängig ist, vorzugsweise nicht bei jedem Restsignal uk neu eingestellt. In der gegenwärtig bevorzugten Anordnung treten ungefähr 80 Werte in der Restsignalzeitserie uk durch das Filter 14, bevor ein neuer Wert der LPC-Parameter erzeugt wird, und deshalb ist eine neue Charakteristik für das Filter 14 implementiert.The residual signal time series u k is now given by a very simple digital filtering process, which depends on the LPC parameters for the current frame. That is, the speech input signal s k is a time series which has a value which may change once every sampling at a sampling rate of, for example, 8 KHz. However, the LPC parameters are normally recalculated only once every frame period at a frame rate of, for example, 100 Hz. The residual signal u k also has a period equal to the sampling period. Thus, the digital filter, the value of which depends on the LPC parameters, is preferably not reset for each residual signal u k . In the presently preferred arrangement, approximately 80 values in the residual signal time series u k pass through the filter 14 before a new value of the LPC parameters is generated, and therefore is a new characteristic for the filter 14 implemented.

Insbesondere wird der erste Reflektionskoeffizient k1 aus dem Satz von LPC-Parametern extrahiert, welche durch den LPC-Analyseabschnitt 12 zur Verfügung gestellt sind. Während die LPC-Parameter selbst die Reflexionskoeffizienten k1 sind, ist es lediglich notwendig, den ersten Reflexionskoeffizienten k1 zu suchen bzw. nachzusehen. Jedoch ist, wo andere LPC-Parameter verwendet werden, die Transformation bzw. Umformung der Parameter, um den Reflexionskoeffizienten erster Ordnung zu erzeugen, typischerweise extrem einfach, beispielsweise, k1 = a1/a0 More specifically, the first reflection coefficient k 1 is extracted from the set of LPC parameters transmitted by the LPC analysis section 12 are provided. While the LPC parameters themselves are the reflection coefficients k 1 , it is only necessary to look for the first reflection coefficient k 1 . However, where other LPC parameters are used, transforming the parameters to produce the first-order reflection coefficient is typically extremely simple, for example, k 1 = a 1 / a 0

Das System verwendet vorzugsweise den ersten Reflexionskoeffizienten, um 1-poliges adaptives Filter zu definieren. Jedoch muß das Filter nicht ein einpoliges Filter sein, sondern kann als ein komplexeres Filter konfiguriert sein, welches einen oder mehrere Pole oder eine oder mehrere Nullen aufweist, von welchen einige oder alle adaptiv variiert werden können.The System preferably uses the first reflection coefficient, to define 1-pole adaptive filter. However, the filter has to not a single-pole filter, but can be considered a more complex Filter configured to one or more poles or a or several zeros, some or all of which are adaptive can be varied.

Es sollte auch beachtet werden, daß die adaptive Filtercharakteristik bzw. Charakteristik des adaptiven Filters nicht durch den ersten Reflexionskoeffizienten k1 bestimmt werden muß. Wie es in der Technik gut bekannt ist, gibt es zahlreiche gleichwertige Sätze von LPC-Parametern, und die Parameter in anderen LPC-Parametersätzen können ebenfalls wünschenswerte Filtercharakteristika zur Verfügung stellen. Besonders in einem beliebigen Satz von LPC-Parametern sind die Parameter der niedrigsten Ordnung am wahrscheinlichsten, Information über die grobe spektrale Form zur Verfügung zu stellen. Somit könnte ein adaptives Filter a1 oder e1 verwenden, um einen Pol zu definieren, wobei dies ein einziger oder Mehrfachpol sein kann und alleine oder in Kombination mit anderen Nullen und/oder Polen verwendet werden kann. Darüber hinaus muß der Pol (oder null), welcher adaptiv durch ein LPC-Parameter definiert ist, nicht exakt mit diesem Parameter zusammenfallen, sondern kann in Größe oder Phase verschoben sein bzw. werden.It should also be noted that the adaptive filter characteristic of the adaptive filter need not be determined by the first reflection coefficient k 1 . As is good in the art If there are many equivalent sets of LPC parameters, and the parameters in other LPC parameter sets can also provide desirable filter characteristics. Especially in any set of LPC parameters, the lowest order parameters are most likely to provide information about the coarse spectral shape. Thus, an adaptive filter could use a 1 or e 1 to define a pole, which may be a single or multiple pole, and may be used alone or in combination with other zeros and / or poles. Moreover, the pole (or zero), which is adaptively defined by an LPC parameter, does not have to coincide exactly with this parameter, but may be shifted in magnitude or phase.

Somit filtert das 1-polige adaptive Filter die Restsignalzeitserie uk, um eine gefilterte Zeitserie u'k zu erzeugen. Wie oben besprochen, wird diese gefilterte Zeitserie u'k, ihre hochfrequente Energie bedeutend während der stimmhaften Sprachsegmente reduziert aufweisen, wird jedoch nahezu die vollständige Frequenzbandbreite während der stimmlosen Sprachsegmente beibehalten. Dieses gefilterte Restsignal u'k wird dann einer weiteren Verarbeitung unterzogen, um die Tonhöhenkandidaten und die Stimmhaftigkeitsentscheidung zu extrahieren.Thus, the 1-pole adaptive filter filters the residual signal time series u k to produce a filtered time series u ' k . As discussed above, this filtered time series u ' k will have significantly reduced its high-frequency energy during the voiced speech segments, but nearly the complete frequency bandwidth will be maintained throughout the unvoiced speech segments. This filtered residual signal u ' k is then subjected to further processing to extract the pitch candidate and the voicing decision.

Eine breite Vielzahl von Verfahren zum Extrahieren der Tonhöheninformation aus einem Restsignal besteht und jede von diesen kann verwendet werden. Viele von diesen werden im allgemeinen in dem oben erwähnten Buch von Markel und Gray besprochen.A wide variety of methods for extracting the pitch information consists of a residual signal and any of these can be used become. Many of these are generally discussed in the book mentioned above discussed by Markel and Gray.

In der gegenwärtig bevorzugten Anordnung werden die Kandidatentonhöhenwerte erhalten, indem die Spitzen in der normalisierten Korrelationsfunktion des gefilterten Restsignals gefunden wird, definiert wie folgt:

Figure 00840001
wo u'j das gefilterte Restsignal ist, kmin und kmax die Grenzen für die Korrelationsverzögerung k definieren, und m die Anzahl von Abtastungen in einer Rahmenperiode (80 in der bevorzugten Anordnung) ist und deshalb die Anzahl von zu korrelierenden Abtastungen definiert. Die Kandidatentonhöhenwerte sind bzw. werden durch die Verzögerungen k* definiert, bei welchem der Wert von C(k*) ein örtliches Maximum annimmt, und der skalare Wert von C(k) verwendet wird, um einen "Güte"-Wert für jeden Kandidaten k* zu definieren.In the presently preferred arrangement, the candidate pitch values are obtained by finding the peaks in the normalized correlation function of the filtered residual signal, defined as follows:
Figure 00840001
where u ' j is the filtered residual signal, k min and k max define the boundaries for the correlation delay k, and m is the number of samples in a frame period (80 in the preferred arrangement) and therefore defines the number of samples to be correlated. The candidate pitch values are defined by the delays k * at which the value of C (k *) takes a local maximum and the scalar value of C (k) is used to obtain a "goodness" value for each candidate k * to define.

Optional wird ein Schwellenwert-Wert Cmin auf dem Gütemaß C(k) eingeführt, und lokale bzw. örtliche Maxima von C(k), welche nicht den Schwellwert Cmin überschreiten, werden ignoriert. Wenn kein k* existiert, für welches C(k*) größer als Cmin ist, dann ist der Rahmen notwendigerweise stimmlos.Optionally, a threshold value C min is introduced on the quality measure C (k), and local maxima of C (k) that do not exceed the threshold C min are ignored. If no k * exists for which C (k *) is greater than C min , then the frame is necessarily unvoiced.

Alternativ kann der Güteschwellwert Cmin entfallen und die normalisierte Autokorrelationsfunktion 1112 kann einfach geregelt bzw. gesteuert werden, um eine gegebene Anzahl von Kandidaten auszuweisen, welche die besten Gütewerte auf weisen, z.B. die 16 Tonhöhenperiodenkandidaten k, welche die größten Werte von C(k) aufweisen.Alternatively, the quality threshold C min may be omitted and the normalized autocorrelation function 1112 can be easily controlled to identify a given number of candidates having the best quality values, eg the 16 pitch period candidates k, which have the largest values of C (k).

In einer Anordnung ist bzw. wird überhaupt kein Schwellwert auf dem Gütewert C(k) eingeführt bzw. diesem überlagert, und keine Stimmhaftigkeitsentscheidung wird auf dieser Stufe vorgenommen. Stattdessen werden die 16 Tonhöhenperiodenkandidaten k*1, k*2 usw. zusammen mit dem entsprechenden Gütewert (C(k*i)) für jeden Einzelnen ausgewiesen. In der gegenwärtig bevorzugten Anordnung wird die Stimmhaftigkeitsentscheidung auf dieser Stufe nicht vorgenommen, selbst wenn alle der C(k)-Werte extrem niedrig sind, jedoch wird die Stimmhaftigkeitsentscheidung vorgenommen in dem nachfolgenden dynamischen Programmierschritt, welcher unten besprochen bzw. diskutiert wird.In one arrangement, no threshold is imposed on or superimposed on the quality value C (k), and no voicing decision is made at this stage. Instead, the 16 pitch period candidates k * 1 , k * 2 , etc., along with the corresponding quality value (C (k * i )) are reported for each individual. In the presently preferred arrangement, the voicing decision is not made at this stage, even if all of the C (k) values are extremely low, but the voicing decision is made in the subsequent dynamic programming step, discussed below.

In der gegenwärtig bevorzugten Anordnung ist bzw. wird eine veränderliche Anzahl von Tonhöhenkandidaten entsprechend einem Spitzenfindungsalgorithmus identifiziert. D.h., der Graph der "Güte"-Werte C(k), verglichen mit der Kandidatentonhöhenperiode k wird nachgeführt bzw. verfolgt. Jedes örtliche Maximum ist als eine mögliche Spitze identifiziert. Jedoch ist bzw. wird das Vorhandensein einer Spitze an diesem identifizierten lokalen bzw. örtlichen Maximum nicht bestätigt, bis die Funktion danach um einen konstanten Betrag abgefallen ist. Dieses bestätigte lokale Maximum stellt dann einen der Tonhöhenperiodenkandidaten zur Verfügung. Nachdem jeder Spitzenkandidat auf diese Weise identifiziert wurde, sucht der Algorithmus danach nach einem Tal. D.h., jedes lokale Minimum ist bzw. wird als ein mögliches Tal identifiziert, ist jedoch nicht als ein Tal bestätigt, bis die Funktion danach um einen vorbestimmten konstanten Wert angestiegen ist. Die Täler wer den nicht getrennt ausgezeichnet bzw. berichtet, jedoch wird ein bestätigtes Tal nötig, nachdem eine bestätigte Spitze vor einer neuen Spitze identifiziert werden wird. In der gegenwärtig bevorzugten Ausführungsform, wo die Gütewerte definiert sind, um durch +1 oder –1 begrenzt zu sein, wurde der zur Bestätigung einer Spitze oder eines Tals erforderliche konstante Wert auf 0,2 eingestellt, jedoch kann dies weitgehend geändert werden. Somit stellt diese Stufe eine variable Anzahl von Tonhöhenkandidaten als Ausgabe, von null bis 15 zur Verfügung.In the presently preferred arrangement, a variable number of pitch candidates is identified according to a peaking algorithm. That is, the graph of "goodness" values C (k) compared with the candidate pitch period k is tracked. Each local maximum is identified as a possible peak. However, the presence of a peak at this identified local or local maximum is not confirmed until after that the function has dropped by a constant amount. This confirmed local maximum will then provide one of the pitch period candidates. After identifying each leading candidate in this way, the algorithm then searches for a valley. That is, each local minimum is identified as a possible valley, but is not acknowledged as a valley until thereafter the function has increased by a predetermined constant value. The valleys who does not honor or report separately, however, a confirmed valley will be needed after a confirmed peak is identified before a new peak. In the presently preferred embodiment, where the quality values are defined to be bounded by +1 or -1, the constant value required to confirm a peak or valley has been set to 0.2, but this can be largely changed. Thus, this stage provides a variable number of pitch candidates as output, from zero to 15.

In der gegenwärtig bevorzugten Anordnung wird der Satz von Tonhöhenperiodenkandidaten, welche durch die vorangegangenen Schritte zur Verfügung gestellt werden, dann zu einem dynamischen Programmieralgorithmus zur Verfügung gestellt. Dieser dynamische Programmieralgorithmus verfolgt dann sowohl Tonhöhen- wie auch Stimmhaftigkeitsentscheidungen, um eine Tonhöhen- und Stimmhaftigkeitsentscheidung für jeden Rahmen bereitzustellen, welcher optimal im Zusammenhang seiner Nachbarn ist.In the present preferred arrangement is the set of pitch period candidates, which by the previous steps are provided, then provided to a dynamic programming algorithm. This dynamic programming algorithm then tracks both pitch and pitch also voicing decisions to make a pitch and Vocabulary decision for to provide every frame which is optimal in the context of his Neighbors is.

Angesichts der Kandidatentonhöhenwerte und ihrer Gütewerte C(k) wird nun dynamisches Programmieren verwendet, um eine optimale Tonhöhenkontur bzw. -umrißlinie zu erhalten, welche eine optimale Stimmhaftigkeitsentscheidung für jeden Rahmen beinhaltet. Das dynamische Programmieren erfordert, daß verschiedene Sprachrahmen in einem Segment von Sprache analysiert werden, bevor die Tonhöhe und Stimmhaftigkeit für den ersten Rahmen des Segments entschieden werden kann. Bei jedem Rahmen des Sprachsegments wird jeder Tonhöhenkandidat mit den zurückgehaltenen Tonhöhenkandidaten des vorhergehenden Rahmens verglichen. Jeder zurückgehaltene Tonhöhenkandidat von dem vorhergehenden Rahmen trägt mit sich einen kumulativen bzw. zunehmenden Nachteil bzw. Abzug, und jeder Vergleich zwischen einem neuen Tonhöhenkandidaten und jedem der zurückgehaltenen Tonhöhenkandidaten weist auch ein neues Distanz- bzw. Abstandsmaß auf. Somit gibt es für jeden Tonhöhenkandidaten in dem neuen Rahmen einen kleinsten Nachteil bzw. Abzug, welcher eine beste Übereinstimmung mit einem der bei- bzw. zurückgehaltenen Tonhöhenkandidaten des vorhergehenden Rahmens repräsentiert. Wenn der kleinste kumulative Nachteil für jeden neuen Kandidaten berechnet wurde, wird der Kandidat zusammen mit seinem kumulativen Nachteil und einem Rückwärtszeiger zu der besten Übereinstimmung in dem vorhergehenden Rahmen zurückgehalten. Somit definieren die Rückwärtszeiger eine Trajektorie bzw. Zustandskurve, welche einen kumulativen Abzug aufweist, wie in dem kumulativen Abzugswert des letzten Rahmens in der Projektrate aufgezeichnet wurde. Die optimale Trajektorie für jeden gegebenen Rahmen wird durch ein Auswählen der Trajektorie mit dem minimalen kumulativen Nachteil erhalten. Der stimmlose Zustand ist als ein Tonhöhenkandidat auf jedem Rahmen definiert. Die Abzugs- bzw. Nachteilsfunktion beinhaltet vorzugsweise Stimmhaftigkeitsinformation, so daß die Stimmhaftigkeitsentscheidung eine natürliche Folge der dynamischen Programmierstrategie ist.in view of the candidate pitch values and their quality values C (k) is now using dynamic programming to get an optimal pitch contour or outline to get an optimal voicing decision for each one Frame includes. Dynamic programming requires different ones Speech frames in a segment of speech are analyzed before the pitch and voicing for the first frame of the segment can be decided. At each Within the speech segment, each pitch candidate is withheld pitch candidates of the previous frame. Each withheld pitch candidate from the previous frame entails a cumulative or increasing disadvantage or deduction, and every comparison between a new pitch candidate and each of the retained pitch candidates also has a new distance or distance measure. Thus there is for everyone pitch candidates in the new frame a slight drawback or deduction, which a best match with one of the with or withheld pitch candidates of the previous frame. When calculating the smallest cumulative disadvantage for each new candidate became the candidate along with his cumulative disadvantage and a backward pointer to the best match retained in the previous frame. Thus, the backward pointers define a trajectory or state curve, which is a cumulative deduction as in the cumulative subtraction value of the last frame was recorded in the project rate. The optimal trajectory for each given frame is selected by selecting the trajectory with the receive minimal cumulative disadvantage. The unvoiced state is as a pitch candidate defined on every frame. The deduction or disadvantage function includes preferably voicing information so that the voicing decision a natural one Consequence of the dynamic programming strategy is.

In der gegenwärtig bevorzugten Anordnung ist die dynamische Programmierstrategie 16 breit und 6 tief. D.h., 15 Kandidaten (oder weniger) plus der "Stimmlosigkeits"-Entscheidung (zur Bequemlichkeit als eine Null-Tonhöhenperiode festgelegt) werden als mögliche Tonhöhenperiode auf jedem Rahmen identifiziert, und alle 16 Kandidaten zusammen mit ihren Gütewerten werden für die 6 vorhergehenden Rahmen zurückgehalten.In the present preferred arrangement is the dynamic programming strategy 16 wide and 6 deep. That is, 15 candidates (or less) plus the "voicelessness" decision (for Convenience as a zero pitch period) as possible pitch period identified on each frame, and all 16 candidates together with their quality values be for retained the 6 previous frames.

Die Entscheidungen über Tonhöhe und Stimmhaftigkeit werden endgültig nur in bezug auf den ältesten Rahmen vorgenommen, welcher in dem dynamischen Programmieralgorithmus enthalten ist. D.h., die Tonhöhen- und Stimmhaftigkeitsentscheidung würde die Kandidatentonhöhe beim Rahmen FK-5 akzeptieren, dessen gegenwärtige Trajektorien-Kosten minimal waren. D.h. von den 16 (oder weniger) Trajektorien, welche am neuesten bzw. frischesten Rahmen FK enden, identifiziert die Kandidatentonhöhe im Rahmen FK, welche die geringsten kumulativen Trajektorien-Kosten aufweist, die optimale Trajektorie. Diese optimale Trajektorie wird dann zurückverfolgt und verwendet, um die Tonhöhen/Stimmhaftigkeitsentscheidung für Rahmen FK-5 vorzunehmen. Es soll beachtet werden, daß keine endgültige Entscheidung über die Tonhöhenkandidaten in nachfolgenden Rahmen (Fk-4 usw.) vorgenommen wird, da die optimale Trajektorie nicht länger optimal erscheinen mag, nachdem mehrere Rahmen bewertet sind. Natürlich kann, wie es für jene mit Erfahrung in der Technik und der numerischen Optimierung wohl bekannt ist, eine endgültige Entscheidung in einem derartigen dynamischen Programmieralgorithmus alternativ zu anderen Zeiten bzw. Zeitpunkten vorgenommen werden, z.B. im nächsten bis letzten Rahmen, der in dem Puffer gehalten wird. Zusätzlich können die Breite und Tiefe des Puffers weitgehend variiert werden. Beispielsweise können bis zu 64 Tonhöhenkandidaten bewertet werden oder sowenig wie zwei; der Puffer könnte sowenig wie einen vorigen Rahmen zurückhalten, oder soviel wie 16 vorige Rahmen oder mehr, und andere Modifikationen und Abänderungen können eingerichtet werden, wie durch jene mit Erfahrung in der Technik erkannt werden wird. Der dynamische Programmieralgorithmus ist bzw. wird durch den Übergangsfehler zwischen einem Tonhöhenperiodenkandidaten in einem Rahmen und einem anderen Tonhöhenperiodenkandidaten in dem nachfolgenden Rahmen definiert. In der gegenwärtig bevorzugten Anordnung ist dieser Übergangsfehler als die Summe von drei Teilen definiert: einem Fehler Ep aufgrund von Tonhöhenabweichungen, einem Fehler Es aufgrund von Tonhöhenkandidaten, welche einen niedrigen "Güte"-Wert aufweisen, und einem Fehler Et aufgrund des Stimmhaftigkeitsübergangs.The pitch and voicing decisions are finally made only with respect to the oldest frame included in the dynamic programming algorithm. That is, the pitch and voicing decision would accept the candidate pitch at frame F K -5 whose current trajectory cost was minimal. That is, out of the 16 (or fewer) trajectories ending in the most recent frame F K , the candidate pitch in frame F K , which has the lowest cumulative trajectory cost, identifies the optimal trajectory. This optimal trajectory is then traced back and used to make the pitch / voicing decision for frames F K -5. It should be noted that no final decision is made about the pitch candidates in subsequent frames (F k -4, etc.) because the optimal trajectory may no longer appear optimal after multiple frames are evaluated. Of course, as is well known to those of skill in the art and numerical optimization, a final decision in such a dynamic programming algorithm may alternatively be made at other times, eg, in the next to last frame held in the buffer becomes. In addition, the width and depth of the buffer can be varied widely. For example, up to 64 pitch candidates can be rated, or as few as two; the buffer could hold back as little as a previous frame, or as many as 16 previous frames or more, and other modifications and alterations can be made as will be appreciated by those of skill in the art. The dynamic programming algorithm is defined by the transition error between a pitch period candidate in one frame and another pitch period candidate in the subsequent frame. In the presently preferred arrangement, this transient error is defined as the sum of three parts: an error E p on reason of pitch deviations, an error E s due to pitch candidates having a low "goodness" value, and an error E t due to the voicing transition.

Der Tonhöhenabweichungsfehler Ep ist eine Funktion der gegenwärtigen Tonhöhenperiode und der vorigen Tonhöhenperiode, angegeben durch:

Figure 00890001
wenn beide Rahmen stimmhaft sind, und EP = BP mal DN andernfalls; wo tau die Kandidatentonhöhenperiode des gegenwärtigen Rahmens ist, tauP eine zurückgehaltene Tonhöhenperiode des vorigen Rahmens, in bezug auf welchen der Übergangsfehler berechnet wird, ist, und BP, AD und DN Konstante sind. Es soll beobachtet werden, daß die Minimumfunktion eine Vorkehrung zur Tonhöhenperiodenverdopplung und Tonhöhenperiodenhalbierung beinhaltet. Diese Vorkehrung ist nicht unbedingt notwendig, wird jedoch als vorteilhaft betrachtet. Natürlich könnte optional eine ähnliche Vorkehrung zur Tonhöhenperiodenverdreifachung beinhaltet sein, usw.The pitch deviation error E p is a function of the current pitch period and the previous pitch period, indicated by:
Figure 00890001
if both frames are voiced, and E P = B P times D N otherwise; where tau is the candidate pitch period of the current frame, tau P is a retained pitch period of the previous frame with respect to which the transition error is calculated, and B P , A D and D N are constants. It should be noted that the minimum function includes provision for pitch-period doubling and pitch-period bisecting. This provision is not strictly necessary but is considered advantageous. Of course, an optional provision for pitch tripling could optionally be included, etc.

Der Stimmhaftigkeitszustandsfehler ES ist eine Funktion des "Güte"-Werts C(k) des gegenwärtig betrachteten Rahmentonhöhenkandidaten. Für den stimmlosen Kandidaten, welcher immer unter den 16 oder weniger Tonhöhenperiodenkandidaten enthalten ist, die für jeden Rahmen zu berücksichtigen sind, wird der Gütewert C(k) gleich dem Maximum von C(k) für alle anderen 15 Tonhöhenperiodenkandidaten im selben Rahmen gesetzt. Der Stimmhaftigkeitszustandsfehler ES ist gegeben durch ES=BS(Rv – C(tau), wenn der gegenwärtige Kandidat stimmhaft ist, und ES=BS (C(tau) – RU) andernfalls, wo C(tau) der "Gütewert" entsprechend dem gegenwärtigen Tonhöhenkandidaten tau ist, und BS, RV, und RU Konstante sind.The voicing state error E S is a function of the "goodness" value C (k) of the currently considered frame pitch candidate. For the unvoiced candidate which is always included among the 16 or less pitch period candidates to be considered for each frame, the quality value C (k) is set equal to the maximum of C (k) for all the other 15 pitch period candidates in the same frame. The voicing state error E S is given by E S = B S (R v - C (tau) if the current candidate is voiced, and E S = B s (C (tau) - R U ) otherwise where C (tau) is the "quality value" corresponding to the current pitch candidate tau, and B S , R V , and R U are constants.

Der Stimmhaftigkeitsübergangsfehler ET ist im Hinblick auf ein spektrales Differenzmaß T definiert. Das spektrale Differenzmaß T definierte, für jeden Rahmen, im allgemeinen, wie unterschiedlich sein Spektrum von dem Spektrum des aufnehmenden Rahmens ist. Offensichtlich könnte eine Anzahl von Definitionen für ein derartiges spektrales Differenzmaß verwendet werden, welches in der gegenwärtig bevorzugten Anordnung definiert ist wie folgt:

Figure 00900001
wo E die RMS-Energie bzw. -Effektivwertenergie des gegenwärtigen Rahmens ist, EP die Energie des vorigen Rahmens ist, L(N) ist der N-te Logarithmus des Flächenverhältnisses des augenblicklichen Rahmens und LP(N) N-te Logarithmus des Flächenverhältnisses des vorigen Rahmens ist. Das logarithmische Flächenverhältnis L(N) wird direkt aus dem N-ten Reflexionskoeffizienten kN berechnet wie folgt:
Figure 00910001
The voicing transition error E T is defined with respect to a spectral difference measure T. The spectral difference measure T, for each frame, generally defines how different its spectrum is from the spectrum of the receiving frame. Obviously, a number of definitions could be used for such a spectral difference measure defined in the presently preferred arrangement as follows:
Figure 00900001
where E is the RMS energy of the current frame, E P is the energy of the previous frame, L (N) is the Nth logarithm of the area ratio of the current frame, and L P (N) is the Nth logarithm of the current frame Area ratio of the previous frame is. The logarithmic area ratio L (N) is calculated directly from the Nth reflection coefficient k N as follows:
Figure 00910001

Der Stimmhaftigkeitsübergangsfehler ET ist dann als eine Funktion des spektralen Differenzmaßes T definiert wie folgt:
Wenn der gegenwärtige und vorige Rahmen beide stimmlos sind, oder wenn beide stimmhaft sind, wird ET = 0 gesetzt;
andernfalls, ET = GT + AT/T, wo T das spektrale Differenzmaß bzw. Maß der spektralen Differenz des gegenwärtigen Rahmens ist. Wieder könnte die Definition des Stimmhaftigkeitsübergangsfehlers weitgehend variiert werden. Das Schlüsselmerkmal des wie hier definierten Stimmhaftigkeitsübergangsfehlers ist, daß, wann immer eine Stimmhaftigkeitszustandsänderung (stimmhaft zu stimmlos oder stimmlos zu stimmhaft) auftritt, ein Nachteil bzw. Abzug festgestellt wird, welcher eine abnehmende Funktion der spektralen Differenz zwischen den zwei Rahmen ist. D.h., eine Änderung im Stimmhaftigkeitszustand wird mißbilligt, außer es tritt auch ein beträchtlicher spektraler Wechsel auf.
The voicing transition error E T is then defined as a function of the spectral difference measure T as follows:
If the current and previous frames are both unvoiced, or if both are voiced, E T = 0 is set;
otherwise, E T = G T + A T / T where T is the spectral difference measure of the spectral difference of the current frame. Again, the definition of voicing transition error could be widely varied. The key feature of the voicing transition error as defined herein is that whenever a voicing state change (voiced to unvoiced or voiceless to voiced) occurs, a penalty is found which is a decreasing function of the spectral difference between the two frames is. That is, a change in the voicing state is disfavored unless a considerable spectral change also occurs.

Eine derartige Definition eines Stimmhaftigkeitsübergangsfehlers liefert beträchtliche Vorteile, da sie die Verarbeitungszeit reduziert, die erforderlich ist, um ausgezeichnete Stimmhaftigkeitsentscheidungen zu liefern.A Such definition of voicing transition error provides considerable Benefits because it reduces the processing time required is to deliver excellent voicing decisions.

Die anderen Fehler ES und EP, welche den Übergangsfehler in der gegenwärtig bevorzugten Anordnung ausmachen, können ebenfalls verschiedenartig definiert sein. D.h., der Stimmhaftigkeitszustandsfehler kann auf jede Weise definiert sein, welche im allgemeinen Tonhöhenperiodenhypothesen, welche zu den Daten in dem gegenwärtigen Rahmen zu passen scheinen, gegenüber jenen bevorzugt, welche weniger gut zu den Daten passen. In ähnlicher Weise kann der Tonhöhenabweichungsfehler EP auf jede Weise definiert sein, welche im allgemeinen mit Änderungen in der Tonhöhenperiode übereinstimmt bzw. diesen entspricht. Es ist nicht notwendig für den Tonhöhenabweichungsfehler, eine Vorkehrung zum Verdoppeln und Halbieren zu beinhalten, wie dies hier festgelegt wurde, obwohl eine derartige Vorkehrung wünschenswert ist.The other errors E s and E p which make up the transient error in the presently preferred arrangement may also be variously defined. That is, the voicing state error may be defined in any manner which in the general pitch-period hypotheses that appear to fit the data in the current frame is preferable to those that are less suitable for the data. Similarly, the pitch deviation error E p may be defined in any manner which generally coincides with or corresponds to changes in the pitch period. It is not necessary for the pitch deviation error to include a provision for doubling and halving, as defined herein, although such provision is desirable.

Ein weiteres optionales Merkmal ist, daß, wenn der Tonhöhenabweichungsfehler Vorkehrungen zum Nachfolgen der Tonhöhe über Verdopplungen und Halbierungen beinhaltet, es wünschenswert sein kann, die Tonhöhenperiodenwerte entlang der optimalen Trajektorie zu verdoppeln (oder zu halbieren), nachdem die optimale Trajektorie identifiziert wurde, um diese so weit wie möglich konsistent bzw. einheitlich zu machen.One Another optional feature is that when the pitch deviation error Arrangements for tracking pitch over doubling and halving includes, it desirable may be the pitch period values to double (or halve) along the optimal trajectory after the optimal trajectory has been identified, so to speak as far as possible consistent or uniform.

Es sollte beachtet werden, daß es nicht notwendig ist, alle der drei identifizierten Komponenten des Übergangsfehlers zu verwenden. Beispielsweise könnte der Stimmhaftigkeitszustandsfehler ausgelassen sein, wenn einige vorige Stufen Tonhöhenhypothesen mit einem niedrigen "Güte"-Wert ausschlossen, oder wenn die Tonhöhenperioden auf nach dem "Güte"-Wert in einer gewissen Weise derart geordnet wurden, daß die Tonhöhenperioden, welche einen höheren Gütewert aufweisen, bevorzugt würden, oder auf andere Weise. In ähnlicher Weise können andere Komponenten in der Übergangsfehlerdefinition nach Wunsch beinhaltet sein.It should be noted that it not necessary, all of the three identified components of the transient error to use. For example, could the voicing state error should be omitted if some previous levels Pitch hypotheses excluded with a low "goodness" value, or if the pitch periods on the "goodness" value in a certain Were arranged such that the pitch periods, which have a higher quality value, would be preferred or otherwise. In similar Way you can other components in the transition error definition to be included as desired.

Es sollte auch beachtet werden, daß das dynamische Programmierverfahren, welches hierin gelehrt wurde, nicht notwendigerweise auf Tonhöhenperiodenkandidaten angewendet werden muß, welche aus einem adaptiv gefilterten Restsignal extrahiert wurden, noch auf Tonhöhenperiodenkandidaten, welche aus dem LPC-Restsignal abgeleitet wurden, sondern auf jeden Satz von Tonhöhenperiodenkandidaten angewendet werden kann, welche Tonhöhenperiodenkandidaten beinhalten, die direkt aus dem ursprünglichen Eingabesprachsignal extrahiert wurden.It should also be noted that the dynamic programming methods taught herein necessarily on pitch period candidates must be applied which have been extracted from an adaptively filtered residual signal, still on pitch period candidates, which were derived from the LPC residual signal, but on each Set of pitch period candidates can be applied which include pitch period candidates, directly from the original Input speech signal were extracted.

Diese drei Fehler werden dann summiert, um den Gesamtfehler zwischen irgendeinem Tonhöhenkandidaten in dem gegenwärtigen Rahmen und irgendeinem Tonhöhenkandidaten in dem vorhergehenden Rahmen zur Verfügung zu stellen. Wie oben angemerkt wurde, werden diese Übergangsfehler dann kumulativ summiert, um kumulative Nachteile bzw. Abzüge für jede Trajektorie in dem dynamischen Programmieralgorithmus zur Verfügung zu stellen.These Three errors are then summed to the total error between any one pitch candidates in the present Frame and any pitch candidate in the previous frame. As noted above became, these transitional errors then summed cumulatively, to cumulative penalty for each trajectory available in the dynamic programming algorithm put.

Dieses dynamische Programmierverfahren für ein gleichzeitiges Finden von sowohl Tonhöhe wie auch Stimmhaftigkeit ist in sich selbst neuartig, und muß nicht nur in Kombination mit den gegenwärtig bevorzugten Verfahren eines Findens von Tonhöhenperiodenkandidaten verwendet werden. Jedes Verfahren zum Finden von Tonhöhenkandidaten kann in Kombination mit diesem neuartigen dynamischen Programmieralgorithmus verwendet werden. Egal welches Verfahren verwendet wird, um Tonhöhenperiodenkandidaten zu finden, werden die Kandidaten einfach als Eingabe zu dem dynamischen Programmieralgorithmus zur Verfügung gestellt.This dynamic programming method for simultaneous finding from both pitch as well as voicing is in itself novel, and does not have to only in combination with the currently preferred methods a finding of pitch period candidates be used. Any method for finding pitch candidates Can be used in combination with this novel dynamic programming algorithm become. No matter which method is used to pitch period candidates To find the candidates are simply as input to the dynamic Programming algorithm available posed.

Insbesondere ist, während ein Verwenden eines Minicomputers und ein hochgenaues Abtasten gegenwärtig bevorzugt sind, dieses System nicht wirtschaftlich für großvolumige Anwendungen. Somit wird von dem bevorzugten System in der Zukunft erwartet, eine Anordnung zu sein, welche ein auf einem Mikrocomputer basierendes System verwendet, wie beispielsweise den TI Professional Computer.Especially is while using a minicomputer and high-precision sampling are presently preferred This system is not economical for large volume applications. Consequently is expected from the preferred system in the future, an arrangement to be using a microcomputer based system, such as the TI Professional Computer.

Dieser professionelle Computer, wenn er mit einem Mikrophon, Lautsprecher und einer Sprachverarbeitungskarte konfiguriert ist, beinhaltend einen TMS 320 numerisch verarbeitenden Mikroprozessor und Datenwandler, ist ausreichende Hardware, um das System zu realisieren.This professional computer when using a microphone, speakers and a voice processing card is configured, including a TMS 320 numeric processing microprocessor and data converter, is sufficient hardware to implement the system.

Claims (8)

Verfahren zum Detektieren von Emotionen in einer Sprache bzw. Stimme durch Verwendung von Statistiken, umfassend die Schritte: (a) Bereitstellen einer Datenbank, die Statistiken aufweist, beinhaltend Statistiken von menschlichen Assoziationen von Sprach- bzw. Stimmparametern mit Emotionen (600), wobei die Statistiken in der Datenbank wenigstens eine von Selbsterkenntnisstatistiken und Leistungs- bzw. Ausführungsverwirrungsstatiken beinhalten; (b) Empfangen eines Stimm- bzw. Sprachsignals (602); (c) Extrahieren von wenigstens einem Merkmal des Sprachsignals (604); (d) Vergleichen des extrahierten Sprachmerkmals mit den Sprachparametern in der Datenbank (606); (e) Auswählen einer Emotion aus der Datenbank basierend auf dem Vergleich des extrahierten Sprachmerkmals mit den Sprachparametern (608); und (f) Ausgeben der gewählten Emotion (610).A method of detecting emotions in a voice by using statistics, comprising the steps of: (a) providing a database having statistics including statistics of human associations of speech parameters with emotions ( 600 ), wherein the statistics in the database include at least one of self-knowledge statistics and performance and performance confusion statistics; (b) receiving a voice signal ( 602 ); (c) extracting at least one feature of the speech signal ( 604 ); (d) comparing the extracted speech feature with the speech parameters in the database ( 606 ); (e) selecting an emotion from the database based on the comparison of the extracted speech feature with the speech parameters ( 608 ); and (f) issuing the chosen emotion ( 610 ). Computerprogramm, das auf einem Computer-lesbaren Medium ausgebildet bzw. verkörpert ist, zum Detektieren von Emotion in einer Sprache bzw. Stimme durch Verwenden von Statistiken, umfassend: (a) ein Codesegment, welches eine Datenbank zur Verfügung stellt, die Statistiken aufweist, enthaltend Statistiken von menschlichen Assoziationen von Sprachparametern mit Emotionen (600), wobei die Statistiken in der Datenbank wenigstens eine von Selbsterkenntnisstatistiken und Leistungs- bzw. Ausführungsverwirrungsstatistiken beinhalten; (b) ein Codesegment, welches ein Sprachsignal (602) empfängt; (c) ein Codesegment, welches wenigstens ein Merkmal des Sprachsignals (604) extrahiert; (d) ein Codesegment, welches das extrahierte Sprachmerkmal mit Sprachparametern in der Datenbank (606) vergleicht; (e) ein Codesegment, welches eine Emotion von der Datenbank basierend auf dem Vergleich des extrahierten Sprachmerkmals mit den Sprachparametern (608) wählt; und (f) ein Codesegment, welches die gewählte Emotion (610) ausgibt, wenn das Programm auf einem Computer ablaufen gelassen wird.A computer program embodied on a computer readable medium for detecting emotion in a voice by using statistics, comprising: (a) a code segment providing a database having statistics including Statistics of human associations of speech parameters with emotions ( 600 ), the statistics in the database including at least one of self-knowledge statistics and performance and performance confusion statistics; (b) a code segment containing a speech signal ( 602 ) receives; (c) a code segment containing at least one feature of the speech signal ( 604 ) extracted; (d) a code segment representing the extracted speech feature with speech parameters in the database ( 606 ) compares; (e) a code segment representing an emotion from the database based on the comparison of the extracted speech feature with the speech parameters ( 608 ) chooses; and (f) a code segment representing the chosen emotion ( 610 ) when the program is run on a computer. System zum Detektieren von Emotion in einer Sprache bzw. Stimme unter Verwendung von Statistiken, umfassend: (a) eine Logik für ein Bereitstellen einer Datenbank, die Statistiken aufweist, enthaltend Statistiken von menschlichen Assoziationen von Sprachparametern mit Emotionen (600), wobei die Statistiken in der Datenbank wenigstens eine von Selbsterkenntnisstatistiken und Leistungs- bzw. Ausführungsverwirrungsstatistiken beinhalten; (b) eine Logik für ein Empfangen eines Sprachsignals (602); (c) eine Logik für ein Extrahieren von wenigstens einem Merkmal des Sprachsignals (604); (d) eine Logik für ein Vergleichen des extrahierten Sprachmerkmals mit den Sprachparametern in der Datenbank (606); (e) eine Logik für ein Auswählen einer Emotion von der Datenbank basierend auf dem Vergleich des extrahierten Sprachmerkmals mit den Sprachparametern (608); und (f) eine Logik für ein Ausgeben der gewählten Emotion (610).A system for detecting emotion in a voice using statistics, comprising: (a) a logic for providing a database having statistics containing statistics of human associations of speech parameters with emotions ( 600 ), the statistics in the database including at least one of self-knowledge statistics and performance and performance confusion statistics; (b) a logic for receiving a speech signal ( 602 ); (c) a logic for extracting at least one feature of the speech signal ( 604 ); (d) a logic for comparing the extracted speech feature with the speech parameters in the database ( 606 ); (e) a logic for selecting an emotion from the database based on the comparison of the extracted speech feature with the speech parameters ( 608 ); and (f) a logic for outputting the chosen emotion ( 610 ). Erfindung nach einem der vorhergehenden Anspruche, wobei die Datenbank Wahrscheinlichkeiten von speziellen Sprachmerkmalen beinhaltet, die mit einer Emotion assoziiert sind.Invention according to one of the preceding claims, the database being probabilities of special language features includes, which are associated with an emotion. Erfindung nach Anspruch 4, wobei die Auswahl der Emotion aus der Datenbank ein Analysieren der Wahrscheinlichkeiten und ein Auswählen der wahrscheinlichsten Emotion basierend auf den Wahrscheinlichkeiten beinhaltet.The invention of claim 4, wherein the selection of Emotion from the database analyzing the probabilities and a selection the most likely emotion based on the probabilities includes. Erfindung nach einem der vorhergehenden Ansprüche, wobei das wenigstens eine extrahierte Merkmal des Sprachsignals wenigstens eine aus einer Neigung bzw. Steigung einer fundamentalen Frequenz und eines Bereichs eines ersten Formanten beinhaltet.The invention according to any one of the preceding claims, wherein the at least one extracted feature of the speech signal at least one from a slope of a fundamental frequency and a region of a first formant. Erfindung nach einem der vorhergehenden Ansprüche, wobei das wenigstens eine extrahierte Merkmal des Sprachsignals wenigstens einen aus einem maximalen bzw. Maximalwert der Energie, einem Bereich der Energie, einem Maximalwert des ersten Formanten und einem Bereich des zweiten Formanten beinhaltet.The invention according to any one of the preceding claims, wherein the at least one extracted feature of the speech signal at least one of a maximum and maximum value of the energy, an area the energy, a maximum value of the first formant and an area of the second formant. Erfindung nach einem der vorhergehenden Ansprüche, wobei das wenigstens eine extrahierte Merkmal des Sprachsignals den Maximalwert der fundamentalen Frequenz, die Standardabweichung der fundamentalen Frequenz, den Bereich der fundamentalen Frequenz, den Mittelwert der fundamentalen Frequenz, den Mittelwert der Bandbreite des ersten Formanten, den Mittelwert der Bandbreite des zweiten Formanten, die Standardabweichung der Energie und die Sprachgeschwindigkeit bzw. -rate beinhaltet.The invention of any one of the preceding claims, wherein the at least one extracted feature of the speech signal is the maximum value of the fundamental frequency, the standard deviation of the fundamental frequency, the range of the fundamental frequency, the mean of the fundamental frequency, the mean of the bandwidth of the first formant, the mean of the bandwidth of the second formant, the standard deviation of the energy and the speech rate.
DE60031432T 1999-08-31 2000-08-31 SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS Expired - Lifetime DE60031432T2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US388909 1999-08-31
US09/388,909 US6275806B1 (en) 1999-08-31 1999-08-31 System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
PCT/US2000/024267 WO2001016570A1 (en) 1999-08-31 2000-08-31 System, method, and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters

Publications (2)

Publication Number Publication Date
DE60031432D1 DE60031432D1 (en) 2006-11-30
DE60031432T2 true DE60031432T2 (en) 2007-08-30

Family

ID=23536042

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60031432T Expired - Lifetime DE60031432T2 (en) 1999-08-31 2000-08-31 SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS

Country Status (7)

Country Link
US (3) US6275806B1 (en)
EP (1) EP1222448B1 (en)
AT (1) ATE343120T1 (en)
AU (1) AU7111000A (en)
DE (1) DE60031432T2 (en)
IL (2) IL148388A0 (en)
WO (1) WO2001016570A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019110215A1 (en) 2017-12-04 2019-06-13 Siemens Mobility GmbH Automated detection of an emergency situation of one or more persons

Families Citing this family (550)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7207804B2 (en) * 1996-03-27 2007-04-24 Michael Hersh Application of multi-media technology to computer administered vocational personnel assessment
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6766295B1 (en) 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
JP3514372B2 (en) * 1999-06-04 2004-03-31 日本電気株式会社 Multimodal dialogue device
US6697457B2 (en) * 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6598020B1 (en) * 1999-09-10 2003-07-22 International Business Machines Corporation Adaptive emotion and initiative generator for conversational systems
US6658388B1 (en) * 1999-09-10 2003-12-02 International Business Machines Corporation Personality generator for conversational systems
WO2001024162A1 (en) * 1999-09-30 2001-04-05 Buy-Tel Innovations Limited Voice verification system
US8049597B1 (en) 2000-01-10 2011-11-01 Ensign Holdings, Llc Systems and methods for securely monitoring an individual
CA2366486A1 (en) * 2000-01-10 2001-07-19 Tarian, Llc Device using histological and physiological biometric marker for authentication and activation
US7181693B1 (en) * 2000-03-17 2007-02-20 Gateway Inc. Affective control of information systems
US7844504B1 (en) 2000-04-27 2010-11-30 Avaya Inc. Routing based on the contents of a shopping cart
US20020010584A1 (en) * 2000-05-24 2002-01-24 Schultz Mitchell Jay Interactive voice communication method and system for information and entertainment
US6483929B1 (en) 2000-06-08 2002-11-19 Tarian Llc Method and apparatus for histological and physiological biometric operation and authentication
US7133792B2 (en) * 2000-06-08 2006-11-07 Ensign Holdings, Llc Method and apparatus for calibration over time of histological and physiological biometric markers for authentication
US7441123B2 (en) * 2001-03-23 2008-10-21 Ensign Holdings Method and apparatus for characterizing and estimating the parameters of histological and physiological biometric markers for authentication
US7536557B2 (en) * 2001-03-22 2009-05-19 Ensign Holdings Method for biometric authentication through layering biometric traits
US7552070B2 (en) * 2000-07-07 2009-06-23 Forethought Financial Services, Inc. System and method of planning a funeral
US7236932B1 (en) * 2000-09-12 2007-06-26 Avaya Technology Corp. Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems
US7162426B1 (en) * 2000-10-02 2007-01-09 Xybernaut Corporation Computer motherboard architecture with integrated DSP for continuous and command and control speech processing
SE0004221L (en) 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Method and apparatus for speech analysis
IL146597A0 (en) * 2001-11-20 2002-08-14 Gordon Goren Method and system for creating meaningful summaries from interrelated sets of information
US6738743B2 (en) * 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
GB0110480D0 (en) * 2001-04-28 2001-06-20 Univ Manchester Metropolitan Methods and apparatus for analysing the behaviour of a subject
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
US7222074B2 (en) * 2001-06-20 2007-05-22 Guojun Zhou Psycho-physical state sensitive voice dialogue system
JP4166153B2 (en) 2001-08-06 2008-10-15 株式会社インデックス Apparatus and method for discriminating emotion of dog based on analysis of voice characteristics
EP1288911B1 (en) * 2001-08-08 2005-06-29 Nippon Telegraph and Telephone Corporation Emphasis detection for automatic speech summary
IL144818A (en) 2001-08-09 2006-08-20 Voicesense Ltd Method and apparatus for speech analysis
DE60204902T2 (en) * 2001-10-05 2006-05-11 Oticon A/S Method for programming a communication device and programmable communication device
US6850818B2 (en) * 2001-10-22 2005-02-01 Sony Corporation Robot apparatus and control method thereof
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US20030134257A1 (en) * 2002-01-15 2003-07-17 Ahmed Morsy Interactive learning apparatus
US8265931B2 (en) * 2002-01-22 2012-09-11 At&T Intellectual Property Ii, L.P. Method and device for providing speech-to-text encoding and telephony service
AU2002361483A1 (en) * 2002-02-06 2003-09-02 Nice Systems Ltd. System and method for video content analysis-based detection, surveillance and alarm management
US7436887B2 (en) * 2002-02-06 2008-10-14 Playtex Products, Inc. Method and apparatus for video frame sequence-based object tracking
CN1705980A (en) * 2002-02-18 2005-12-07 皇家飞利浦电子股份有限公司 Parametric audio coding
US7761544B2 (en) * 2002-03-07 2010-07-20 Nice Systems, Ltd. Method and apparatus for internal and external monitoring of a transportation vehicle
US7283962B2 (en) * 2002-03-21 2007-10-16 United States Of America As Represented By The Secretary Of The Army Methods and systems for detecting, measuring, and monitoring stress in speech
US6795404B2 (en) 2002-06-18 2004-09-21 Bellsouth Intellectual Property Corporation Device for aggregating, translating, and disseminating communications within a multiple device environment
US6889207B2 (en) 2002-06-18 2005-05-03 Bellsouth Intellectual Property Corporation Content control in a device environment
US20030233660A1 (en) * 2002-06-18 2003-12-18 Bellsouth Intellectual Property Corporation Device interaction
US7016888B2 (en) 2002-06-18 2006-03-21 Bellsouth Intellectual Property Corporation Learning device interaction rules
US7039698B2 (en) * 2002-06-18 2006-05-02 Bellsouth Intellectual Property Corporation Notification device interaction
WO2004027685A2 (en) * 2002-09-19 2004-04-01 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
ATE338424T1 (en) * 2002-10-24 2006-09-15 Hewlett Packard Co EVENT DETECTION DURING MULTIPLE VOICE CHANNEL COMMUNICATIONS
WO2004043259A1 (en) * 2002-11-11 2004-05-27 Electronic Navigation Research Institute, An Independent Administrative Institution Psychosomatic condition diagnosis system
DE10254612A1 (en) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Method for determining specifically relevant acoustic characteristics of sound signals for the analysis of unknown sound signals from a sound generation
KR20040058855A (en) * 2002-12-27 2004-07-05 엘지전자 주식회사 voice modification device and the method
US6822969B2 (en) 2003-04-03 2004-11-23 Motorola, Inc. Method and apparatus for scheduling asynchronous transmissions
US9712665B2 (en) 2003-04-09 2017-07-18 Nice Ltd. Apparatus, system and method for dispute resolution, regulation compliance and quality management in financial institutions
US20040215453A1 (en) * 2003-04-25 2004-10-28 Orbach Julian J. Method and apparatus for tailoring an interactive voice response experience based on speech characteristics
US7303474B2 (en) * 2003-06-24 2007-12-04 At&T Bls Intellectual Property, Inc. Methods and systems for establishing games with automation using verbal communication
US20050108021A1 (en) * 2003-07-31 2005-05-19 Greg Anderson System and method for routing and managing service requests
US7881934B2 (en) * 2003-09-12 2011-02-01 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
WO2005028673A1 (en) * 2003-09-22 2005-03-31 Institut Pasteur A method for detecting nipah virus and method for providing immunoprotection against henipaviruses
US8094804B2 (en) 2003-09-26 2012-01-10 Avaya Inc. Method and apparatus for assessing the status of work waiting for service
US7770175B2 (en) 2003-09-26 2010-08-03 Avaya Inc. Method and apparatus for load balancing work on a network of servers based on the probability of being serviced within a service time goal
US20050125792A1 (en) * 2003-12-08 2005-06-09 Che-An Chang Software materialization platform and an artificial neuron computer system
US7457404B1 (en) * 2003-12-19 2008-11-25 Nortel Networks Limited Methods of monitoring communications sessions in a contact centre
US7558736B2 (en) * 2003-12-31 2009-07-07 United States Cellular Corporation System and method for providing talker arbitration in point-to-point/group communication
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US7013005B2 (en) * 2004-02-11 2006-03-14 Hewlett-Packard Development Company, L.P. System and method for prioritizing contacts
US8457300B2 (en) 2004-02-12 2013-06-04 Avaya Inc. Instant message contact management in a contact center
US7729490B2 (en) 2004-02-12 2010-06-01 Avaya Inc. Post-termination contact management
EP1634225A4 (en) * 2004-03-10 2008-01-16 Nice Systems Ltd Apparatus and method for generating a content-based follow up
US7885401B1 (en) 2004-03-29 2011-02-08 Avaya Inc. Method and apparatus to forecast the availability of a resource
US7158909B2 (en) * 2004-03-31 2007-01-02 Balboa Instruments, Inc. Method and system for testing spas
US7734032B1 (en) 2004-03-31 2010-06-08 Avaya Inc. Contact center and method for tracking and acting on one and done customer contacts
US8000989B1 (en) 2004-03-31 2011-08-16 Avaya Inc. Using true value in routing work items to resources
US7953859B1 (en) 2004-03-31 2011-05-31 Avaya Inc. Data model of participation in multi-channel and multi-party contacts
US10032452B1 (en) 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US7714878B2 (en) * 2004-08-09 2010-05-11 Nice Systems, Ltd. Apparatus and method for multimedia content based manipulation
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US7949121B1 (en) 2004-09-27 2011-05-24 Avaya Inc. Method and apparatus for the simultaneous delivery of multiple contacts to an agent
US8234141B1 (en) 2004-09-27 2012-07-31 Avaya Inc. Dynamic work assignment strategies based on multiple aspects of agent proficiency
US7949123B1 (en) 2004-09-28 2011-05-24 Avaya Inc. Wait time predictor for long shelf-life work
US7657021B2 (en) 2004-09-29 2010-02-02 Avaya Inc. Method and apparatus for global call queue in a global call center
US20060167859A1 (en) * 2004-11-09 2006-07-27 Verbeck Sibley Timothy J System and method for personalized searching of television content using a reduced keypad
US20060168297A1 (en) * 2004-12-08 2006-07-27 Electronics And Telecommunications Research Institute Real-time multimedia transcoding apparatus and method using personal characteristic information
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US7892648B2 (en) * 2005-01-21 2011-02-22 International Business Machines Corporation SiCOH dielectric material with improved toughness and improved Si-C bonding
US20060123534A1 (en) * 2005-01-25 2006-06-15 Paar James C Advertising method using a portable toilet unit
AU2006211111A1 (en) * 2005-02-07 2006-08-10 Nice Systems Ltd. Upgrading performance using aggregated information shared between management systems
US9165280B2 (en) * 2005-02-22 2015-10-20 International Business Machines Corporation Predictive user modeling in user interface design
US8005675B2 (en) * 2005-03-17 2011-08-23 Nice Systems, Ltd. Apparatus and method for audio analysis
US20060229882A1 (en) * 2005-03-29 2006-10-12 Pitney Bowes Incorporated Method and system for modifying printed text to indicate the author's state of mind
US10019877B2 (en) * 2005-04-03 2018-07-10 Qognify Ltd. Apparatus and methods for the semi-automatic tracking and examining of an object or an event in a monitored site
US8639757B1 (en) 2011-08-12 2014-01-28 Sprint Communications Company L.P. User localization using friend location information
US9571652B1 (en) * 2005-04-21 2017-02-14 Verint Americas Inc. Enhanced diarization systems, media and methods of use
US7817796B1 (en) 2005-04-27 2010-10-19 Avaya Inc. Coordinating work assignments for contact center agents
US7529670B1 (en) 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US7995717B2 (en) 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US8094790B2 (en) * 2005-05-18 2012-01-10 Mattersight Corporation Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center
US20060265088A1 (en) * 2005-05-18 2006-11-23 Roger Warford Method and system for recording an electronic communication and extracting constituent audio data therefrom
US8094803B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US7511606B2 (en) * 2005-05-18 2009-03-31 Lojack Operating Company Lp Vehicle locating unit with input voltage protection
US7809127B2 (en) 2005-05-26 2010-10-05 Avaya Inc. Method for discovering problem agent behaviors
US7386105B2 (en) 2005-05-27 2008-06-10 Nice Systems Ltd Method and apparatus for fraud detection
GB2427109B (en) * 2005-05-30 2007-08-01 Kyocera Corp Audio output apparatus, document reading method, and mobile terminal
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US7917365B2 (en) 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US8090584B2 (en) * 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US7912720B1 (en) * 2005-07-20 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for building emotional machines
JP2007041988A (en) * 2005-08-05 2007-02-15 Sony Corp Information processing device, method and program
US7779042B1 (en) 2005-08-08 2010-08-17 Avaya Inc. Deferred control of surrogate key generation in a distributed processing architecture
WO2007017853A1 (en) * 2005-08-08 2007-02-15 Nice Systems Ltd. Apparatus and methods for the detection of emotions in audio interactions
US8116439B1 (en) * 2005-08-19 2012-02-14 Avaya Inc. Call intrusion
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US7881450B1 (en) 2005-09-15 2011-02-01 Avaya Inc. Answer on hold notification
US8577015B2 (en) 2005-09-16 2013-11-05 Avaya Inc. Method and apparatus for the automated delivery of notifications to contacts based on predicted work prioritization
US7822587B1 (en) 2005-10-03 2010-10-26 Avaya Inc. Hybrid database architecture for both maintaining and relaxing type 2 data entity behavior
US8116446B1 (en) 2005-10-03 2012-02-14 Avaya Inc. Agent driven work item awareness for tuning routing engine work-assignment algorithms
US8073129B1 (en) 2005-10-03 2011-12-06 Avaya Inc. Work item relation awareness for agents during routing engine driven sub-optimal work assignments
US10572879B1 (en) 2005-10-03 2020-02-25 Avaya Inc. Agent driven media-agnostic work item grouping and sharing over a consult medium
US8411843B1 (en) 2005-10-04 2013-04-02 Avaya Inc. Next agent available notification
US7787609B1 (en) 2005-10-06 2010-08-31 Avaya Inc. Prioritized service delivery based on presence and availability of interruptible enterprise resources with skills
US7752230B2 (en) 2005-10-06 2010-07-06 Avaya Inc. Data extensibility using external database tables
EP1952371A2 (en) * 2005-11-09 2008-08-06 Micro Target Media Holdings Inc. Advertising display for a portable structure
US8478596B2 (en) * 2005-11-28 2013-07-02 Verizon Business Global Llc Impairment detection using speech
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
US8219392B2 (en) * 2005-12-05 2012-07-10 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function
US20070150281A1 (en) * 2005-12-22 2007-06-28 Hoff Todd M Method and system for utilizing emotion to search content
WO2007072485A1 (en) * 2005-12-22 2007-06-28 Exaudios Technologies Ltd. System for indicating emotional attitudes through intonation analysis and methods thereof
US20070157228A1 (en) 2005-12-30 2007-07-05 Jason Bayer Advertising with video ad creatives
ES2306560B1 (en) * 2005-12-30 2009-09-03 France Telecom España, S.A. METHOD AND SYSTEM FOR THE MEASUREMENT OF DEGREE OF STRESS AND OTHER HEALTH PARAMETERS IN PEOPLE THROUGH VOICE BIOMETRY IN MOBILE DEVICES.
ES2306561B1 (en) * 2005-12-30 2009-09-03 France Telecom España, S.A. METHOD FOR THE MEASUREMENT OF DEGREE OF AFFINITY BETWEEN PEOPLE THROUGH BIOMETRY OF THE VOICE IN MOBILE DEVICES.
WO2007086042A2 (en) * 2006-01-25 2007-08-02 Nice Systems Ltd. Method and apparatus for segmentation of audio interactions
US8238541B1 (en) 2006-01-31 2012-08-07 Avaya Inc. Intent based skill-set classification for accurate, automatic determination of agent skills
WO2007091182A1 (en) * 2006-02-10 2007-08-16 Koninklijke Philips Electronics N.V. Method and apparatus for generating metadata
US8737173B2 (en) 2006-02-24 2014-05-27 Avaya Inc. Date and time dimensions for contact center reporting in arbitrary international time zones
US7599861B2 (en) 2006-03-02 2009-10-06 Convergys Customer Management Group, Inc. System and method for closed loop decisionmaking in an automated care system
KR100770896B1 (en) * 2006-03-07 2007-10-26 삼성전자주식회사 Method of recognizing phoneme in a vocal signal and the system thereof
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US8442197B1 (en) 2006-03-30 2013-05-14 Avaya Inc. Telephone-based user interface for participating simultaneously in more than one teleconference
EP2012655A4 (en) * 2006-04-20 2009-11-25 Iq Life Inc Interactive patient monitoring system using speech recognition
US8725518B2 (en) * 2006-04-25 2014-05-13 Nice Systems Ltd. Automatic speech analysis
US9208785B2 (en) 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US7770221B2 (en) * 2006-05-18 2010-08-03 Nice Systems, Ltd. Method and apparatus for combining traffic analysis and monitoring center in lawful interception
US8379830B1 (en) 2006-05-22 2013-02-19 Convergys Customer Management Delaware Llc System and method for automated customer service with contingent live interaction
US7809663B1 (en) 2006-05-22 2010-10-05 Convergys Cmg Utah, Inc. System and method for supporting the utilization of machine language
US7571101B2 (en) * 2006-05-25 2009-08-04 Charles Humble Quantifying psychological stress levels using voice patterns
US20070288898A1 (en) * 2006-06-09 2007-12-13 Sony Ericsson Mobile Communications Ab Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
CN101346758B (en) * 2006-06-23 2011-07-27 松下电器产业株式会社 Emotion recognizer
JP5156013B2 (en) * 2006-07-10 2013-03-06 アクセンチュア グローバル サービスィズ ゲーエムベーハー Mobile personal service platform to provide feedback
US7936867B1 (en) 2006-08-15 2011-05-03 Avaya Inc. Multi-service request within a contact center
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US7620377B2 (en) * 2006-08-30 2009-11-17 General Dynamics C4 Systems Bandwidth enhancement for envelope elimination and restoration transmission systems
US8391463B1 (en) 2006-09-01 2013-03-05 Avaya Inc. Method and apparatus for identifying related contacts
US8811597B1 (en) 2006-09-07 2014-08-19 Avaya Inc. Contact center performance prediction
US8938063B1 (en) 2006-09-07 2015-01-20 Avaya Inc. Contact center service monitoring and correcting
US8855292B1 (en) 2006-09-08 2014-10-07 Avaya Inc. Agent-enabled queue bypass to agent
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8145493B2 (en) * 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7835514B1 (en) 2006-09-18 2010-11-16 Avaya Inc. Provide a graceful transfer out of active wait treatment
US7752043B2 (en) 2006-09-29 2010-07-06 Verint Americas Inc. Multi-pass speech analytics
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
US8036899B2 (en) * 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
US7631046B2 (en) * 2006-10-26 2009-12-08 Nice Systems, Ltd. Method and apparatus for lawful interception of web based messaging communication
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US20080178504A1 (en) * 2006-12-15 2008-07-31 Terrance Popowich System and method for displaying advertising
WO2008071000A1 (en) * 2006-12-15 2008-06-19 Micro Target Media Holdings Inc. System and method for obtaining and using advertising information
US20080147389A1 (en) * 2006-12-15 2008-06-19 Motorola, Inc. Method and Apparatus for Robust Speech Activity Detection
US7577246B2 (en) * 2006-12-20 2009-08-18 Nice Systems Ltd. Method and system for automatic quality evaluation
US8767944B1 (en) 2007-01-03 2014-07-01 Avaya Inc. Mechanism for status and control communication over SIP using CODEC tunneling
US20080162246A1 (en) * 2007-01-03 2008-07-03 International Business Machines Corporation Method and system for contract based call center and/or contact center management
US8612230B2 (en) 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
US8903078B2 (en) * 2007-01-09 2014-12-02 Verint Americas Inc. Communication session assessment
US20080260212A1 (en) * 2007-01-12 2008-10-23 Moskal Michael D System for indicating deceit and verity
WO2008091947A2 (en) * 2007-01-23 2008-07-31 Infoture, Inc. System and method for detection and analysis of speech
US20080189171A1 (en) * 2007-02-01 2008-08-07 Nice Systems Ltd. Method and apparatus for call categorization
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7675411B1 (en) 2007-02-20 2010-03-09 Avaya Inc. Enhancing presence information through the addition of one or more of biotelemetry data and environmental data
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) * 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
WO2008116073A1 (en) * 2007-03-20 2008-09-25 Biosecurity Technologies, Inc. Method of decoding nonverbal cues in cross-cultural interactions and language impairment
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8718262B2 (en) 2007-03-30 2014-05-06 Mattersight Corporation Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication
US7869586B2 (en) 2007-03-30 2011-01-11 Eloyalty Corporation Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics
US20080240374A1 (en) * 2007-03-30 2008-10-02 Kelly Conway Method and system for linking customer conversation channels
US8023639B2 (en) 2007-03-30 2011-09-20 Mattersight Corporation Method and system determining the complexity of a telephonic communication received by a contact center
US20080240404A1 (en) * 2007-03-30 2008-10-02 Kelly Conway Method and system for aggregating and analyzing data relating to an interaction between a customer and a contact center agent
US20080243543A1 (en) * 2007-03-30 2008-10-02 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Effective response protocols for health monitoring or the like
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8788620B2 (en) 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US7747705B1 (en) 2007-05-08 2010-06-29 Avaya Inc. Method to make a discussion forum or RSS feed a source for customer contact into a multimedia contact center that is capable of handling emails
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
US8661464B2 (en) 2007-06-27 2014-02-25 Google Inc. Targeting in-video advertising
US8721554B2 (en) 2007-07-12 2014-05-13 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
CA2670021A1 (en) * 2007-09-19 2009-03-26 Micro Target Media Holdings Inc. System and method for estimating characteristics of persons or things
US8504534B1 (en) 2007-09-26 2013-08-06 Avaya Inc. Database structures and administration techniques for generalized localization of database items
US10419611B2 (en) 2007-09-28 2019-09-17 Mattersight Corporation System and methods for determining trends in electronic communications
US8856182B2 (en) 2008-01-25 2014-10-07 Avaya Inc. Report database dependency tracing through business intelligence metadata
KR101496876B1 (en) * 2008-02-19 2015-02-27 삼성전자주식회사 An apparatus of sound recognition in a portable terminal and a method thereof
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US8150108B2 (en) 2008-03-17 2012-04-03 Ensign Holdings, Llc Systems and methods of identification based on biometric parameters
US9378527B2 (en) * 2008-04-08 2016-06-28 Hartford Fire Insurance Company Computer system for applying predictive model to determine and indeterminate data
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US8831206B1 (en) 2008-05-12 2014-09-09 Avaya Inc. Automated, data-based mechanism to detect evolution of employee skills
US8385532B1 (en) 2008-05-12 2013-02-26 Avaya Inc. Real-time detective
WO2010008722A1 (en) 2008-06-23 2010-01-21 John Nicholas Gross Captcha system optimized for distinguishing between humans and machines
US8223374B2 (en) * 2008-06-27 2012-07-17 Kabushiki Kaisha Toshiba Maintenance system of image forming apparatus and maintenance method of the same
US8752141B2 (en) * 2008-06-27 2014-06-10 John Nicholas Methods for presenting and determining the efficacy of progressive pictorial and motion-based CAPTCHAs
US20100010370A1 (en) 2008-07-09 2010-01-14 De Lemos Jakob System and method for calibrating and normalizing eye data in emotional testing
US20100027050A1 (en) * 2008-07-29 2010-02-04 Alain Regnier Dynamic bridging of web-enabled components
US10375244B2 (en) 2008-08-06 2019-08-06 Avaya Inc. Premises enabled mobile kiosk, using customers' mobile communication device
US8136944B2 (en) 2008-08-15 2012-03-20 iMotions - Eye Tracking A/S System and method for identifying the existence and position of text in visual media content and for determining a subjects interactions with the text
US8116237B2 (en) 2008-09-26 2012-02-14 Avaya Inc. Clearing house for publish/subscribe of status data from distributed telecommunications systems
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8224653B2 (en) * 2008-12-19 2012-07-17 Honeywell International Inc. Method and system for operating a vehicular electronic system with categorized voice commands
US8654963B2 (en) 2008-12-19 2014-02-18 Genesys Telecommunications Laboratories, Inc. Method and system for integrating an interaction management system with a business rules management system
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
JP2010190955A (en) * 2009-02-16 2010-09-02 Toshiba Corp Voice synthesizer, method, and program
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8645140B2 (en) * 2009-02-25 2014-02-04 Blackberry Limited Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device
WO2010100567A2 (en) 2009-03-06 2010-09-10 Imotions- Emotion Technology A/S System and method for determining emotional response to olfactory stimuli
US8719016B1 (en) 2009-04-07 2014-05-06 Verint Americas Inc. Speech analytics system and system and method for determining structured speech
JP5419531B2 (en) * 2009-04-23 2014-02-19 キヤノン株式会社 Information processing apparatus and information processing apparatus control method
US8621011B2 (en) 2009-05-12 2013-12-31 Avaya Inc. Treatment of web feeds as work assignment in a contact center
US8964958B2 (en) 2009-05-20 2015-02-24 Avaya Inc. Grid-based contact center
WO2010148141A2 (en) * 2009-06-16 2010-12-23 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
US20100332286A1 (en) * 2009-06-24 2010-12-30 At&T Intellectual Property I, L.P., Predicting communication outcome based on a regression model
US8463606B2 (en) * 2009-07-13 2013-06-11 Genesys Telecommunications Laboratories, Inc. System for analyzing interactions and reporting analytic results to human-operated and system interfaces in real time
US20110040707A1 (en) * 2009-08-12 2011-02-17 Ford Global Technologies, Llc Intelligent music selection in vehicles
US8644491B2 (en) 2009-08-21 2014-02-04 Avaya Inc. Mechanism for multisite service state description
US8139822B2 (en) * 2009-08-28 2012-03-20 Allen Joseph Selner Designation of a characteristic of a physical capability by motion analysis, systems and methods
US8385533B2 (en) 2009-09-21 2013-02-26 Avaya Inc. Bidding work assignment on conference/subscribe RTP clearing house
US8565386B2 (en) 2009-09-29 2013-10-22 Avaya Inc. Automatic configuration of soft phones that are usable in conjunction with special-purpose endpoints
US9516069B2 (en) 2009-11-17 2016-12-06 Avaya Inc. Packet headers as a trigger for automatic activation of special-purpose softphone applications
TWI413938B (en) * 2009-12-02 2013-11-01 Phison Electronics Corp Emotion engine, emotion engine system and electronic device control method
US8306212B2 (en) 2010-02-19 2012-11-06 Avaya Inc. Time-based work assignments in automated contact distribution
JP5834449B2 (en) * 2010-04-22 2015-12-24 富士通株式会社 Utterance state detection device, utterance state detection program, and utterance state detection method
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US9015046B2 (en) * 2010-06-10 2015-04-21 Nice-Systems Ltd. Methods and apparatus for real-time interaction analysis in call centers
US8700252B2 (en) * 2010-07-27 2014-04-15 Ford Global Technologies, Llc Apparatus, methods, and systems for testing connected services in a vehicle
US10013978B1 (en) 2016-12-30 2018-07-03 Google Llc Sequence dependent operation processing of packet based data message transmissions
US10957002B2 (en) 2010-08-06 2021-03-23 Google Llc Sequence dependent or location based operation processing of protocol based data message transmissions
EP2418643A1 (en) 2010-08-11 2012-02-15 Software AG Computer-implemented method and system for analysing digital speech data
JP5494468B2 (en) * 2010-12-27 2014-05-14 富士通株式会社 Status detection device, status detection method, and program for status detection
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
JP5803125B2 (en) * 2011-02-10 2015-11-04 富士通株式会社 Suppression state detection device and program by voice
US8769009B2 (en) 2011-02-18 2014-07-01 International Business Machines Corporation Virtual communication techniques
US8694307B2 (en) * 2011-05-19 2014-04-08 Nice Systems Ltd. Method and apparatus for temporal speech scoring
JP6101684B2 (en) * 2011-06-01 2017-03-22 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Method and system for assisting patients
US11087424B1 (en) 2011-06-24 2021-08-10 Google Llc Image recognition-based content item selection
US8688514B1 (en) 2011-06-24 2014-04-01 Google Inc. Ad selection using image data
US10972530B2 (en) 2016-12-30 2021-04-06 Google Llc Audio-based data structure generation
JP5664480B2 (en) * 2011-06-30 2015-02-04 富士通株式会社 Abnormal state detection device, telephone, abnormal state detection method, and program
US8954317B1 (en) * 2011-07-01 2015-02-10 West Corporation Method and apparatus of processing user text input information
US9031677B2 (en) 2011-07-22 2015-05-12 Visteon Global Technologies, Inc. Automatic genre-based voice prompts
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US8816814B2 (en) 2011-08-16 2014-08-26 Elwha Llc Systematic distillation of status data responsive to whether or not a wireless signal has been received and relating to regimen compliance
GB2494104A (en) * 2011-08-19 2013-03-06 Simon Mark Adam Bell Recognizing the emotional effect a speaker is having on a listener by analyzing the sound of his or her voice
US10630751B2 (en) 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
US10956485B2 (en) 2011-08-31 2021-03-23 Google Llc Retargeting in a search environment
US8650188B1 (en) 2011-08-31 2014-02-11 Google Inc. Retargeting in a search environment
JP2013068532A (en) * 2011-09-22 2013-04-18 Clarion Co Ltd Information terminal, server device, search system, and search method
US9870552B2 (en) * 2011-10-19 2018-01-16 Excalibur Ip, Llc Dynamically updating emoticon pool based on user targeting
US11093692B2 (en) 2011-11-14 2021-08-17 Google Llc Extracting audiovisual features from digital components
US10586127B1 (en) 2011-11-14 2020-03-10 Google Llc Extracting audiovisual features from content elements on online documents
KR20130055429A (en) * 2011-11-18 2013-05-28 삼성전자주식회사 Apparatus and method for emotion recognition based on emotion segment
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
US8825533B2 (en) 2012-02-01 2014-09-02 International Business Machines Corporation Intelligent dialogue amongst competitive user applications
US8675860B2 (en) 2012-02-16 2014-03-18 Avaya Inc. Training optimizer for contact center agents
US20130244685A1 (en) 2012-03-14 2013-09-19 Kelly L. Dempski System for providing extensible location-based services
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
US9069880B2 (en) * 2012-03-16 2015-06-30 Microsoft Technology Licensing, Llc Prediction and isolation of patterns across datasets
CN102647469A (en) * 2012-04-01 2012-08-22 浪潮(山东)电子信息有限公司 VoIP (Voice over Internet Phone) time shifting telephone system and method based on cloud computing
US9922334B1 (en) 2012-04-06 2018-03-20 Google Llc Providing an advertisement based on a minimum number of exposures
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US9529793B1 (en) 2012-06-01 2016-12-27 Google Inc. Resolving pronoun ambiguity in voice queries
US9037481B2 (en) 2012-06-11 2015-05-19 Hartford Fire Insurance Company System and method for intelligent customer data analytics
US9767479B2 (en) 2012-06-25 2017-09-19 Google Inc. System and method for deploying ads based on a content exposure interval
US10614801B2 (en) 2012-06-25 2020-04-07 Google Llc Protocol based computer network exposure interval content item transmission
CN103543979A (en) * 2012-07-17 2014-01-29 联想(北京)有限公司 Voice outputting method, voice interaction method and electronic device
US9368116B2 (en) 2012-09-07 2016-06-14 Verint Systems Ltd. Speaker separation in diarization
US20150302866A1 (en) * 2012-10-16 2015-10-22 Tal SOBOL SHIKLER Speech affect analyzing and training
US10134401B2 (en) 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using linguistic labeling
US9912816B2 (en) 2012-11-29 2018-03-06 Genesys Telecommunications Laboratories, Inc. Workload distribution with resource awareness
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
RU2583704C2 (en) * 2012-12-29 2016-05-10 Частное Предприятие "Артон" Self-contained smoke detector
US9542936B2 (en) 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
KR20240132105A (en) 2013-02-07 2024-09-02 애플 인크. Voice trigger for a digital assistant
US9191510B2 (en) 2013-03-14 2015-11-17 Mattersight Corporation Methods and system for analyzing multichannel electronic communication data
US9558743B2 (en) * 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
US11064250B2 (en) 2013-03-15 2021-07-13 Google Llc Presence and authentication for media measurement
US10541997B2 (en) 2016-12-30 2020-01-21 Google Llc Authentication of packetized audio signals
US10719591B1 (en) 2013-03-15 2020-07-21 Google Llc Authentication of audio-based input signals
CN104183253B (en) * 2013-05-24 2018-05-11 富泰华工业(深圳)有限公司 music playing system, device and method
US11030239B2 (en) 2013-05-31 2021-06-08 Google Llc Audio based entity-action pair based selection
US9953085B1 (en) 2013-05-31 2018-04-24 Google Llc Feed upload for search entity based content selection
US11218434B2 (en) 2013-06-12 2022-01-04 Google Llc Audio data packet status determination
CN103356308B (en) * 2013-07-11 2015-05-20 山东大学 Array fiber opto-acoustic bionic ear device and signal conversion method
US9460722B2 (en) 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9984706B2 (en) 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US10204642B2 (en) * 2013-08-06 2019-02-12 Beyond Verbal Communication Ltd Emotional survey according to voice categorization
WO2015037073A1 (en) * 2013-09-11 2015-03-19 株式会社日立製作所 Voice search system, voice search method, and computer-readable storage medium
EP3049961A4 (en) * 2013-09-25 2017-03-22 Intel Corporation Improving natural language interactions using emotional modulation
US10431209B2 (en) 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
US9703757B2 (en) 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US20150095029A1 (en) * 2013-10-02 2015-04-02 StarTek, Inc. Computer-Implemented System And Method For Quantitatively Assessing Vocal Behavioral Risk
GB2521050B (en) * 2013-11-21 2017-12-27 Global Analytics Inc Credit risk decision management system and method using voice analytics
US20150142446A1 (en) * 2013-11-21 2015-05-21 Global Analytics, Inc. Credit Risk Decision Management System And Method Using Voice Analytics
US10410648B1 (en) * 2013-12-31 2019-09-10 Allscripts Software, Llc Moderating system response using stress content of voice command
WO2015111772A1 (en) * 2014-01-24 2015-07-30 숭실대학교산학협력단 Method for determining alcohol consumption, and recording medium and terminal for carrying out same
KR101621774B1 (en) * 2014-01-24 2016-05-19 숭실대학교산학협력단 Alcohol Analyzing Method, Recording Medium and Apparatus For Using the Same
CN105940393A (en) * 2014-01-27 2016-09-14 诺基亚技术有限公司 Method and apparatus for social relation analysis and management
KR101621766B1 (en) * 2014-01-28 2016-06-01 숭실대학교산학협력단 Alcohol Analyzing Method, Recording Medium and Apparatus For Using the Same
WO2015116678A1 (en) * 2014-01-28 2015-08-06 Simple Emotion, Inc. Methods for adaptive voice interaction
US20150234930A1 (en) 2014-02-19 2015-08-20 Google Inc. Methods and systems for providing functional extensions with a landing page of a creative
US9892556B2 (en) 2014-03-11 2018-02-13 Amazon Technologies, Inc. Real-time exploration of video content
US10375434B2 (en) 2014-03-11 2019-08-06 Amazon Technologies, Inc. Real-time rendering of targeted video content
US9747727B2 (en) 2014-03-11 2017-08-29 Amazon Technologies, Inc. Object customization and accessorization in video content
US10939175B2 (en) 2014-03-11 2021-03-02 Amazon Technologies, Inc. Generating new video content from pre-recorded video
US9894405B2 (en) 2014-03-11 2018-02-13 Amazon Technologies, Inc. Object discovery and exploration in video content
US9947342B2 (en) 2014-03-12 2018-04-17 Cogito Corporation Method and apparatus for speech behavior visualization and gamification
US9589566B2 (en) * 2014-03-21 2017-03-07 Wells Fargo Bank, N.A. Fraud detection database
KR101569343B1 (en) 2014-03-28 2015-11-30 숭실대학교산학협력단 Mmethod for judgment of drinking using differential high-frequency energy, recording medium and device for performing the method
KR101621797B1 (en) 2014-03-28 2016-05-17 숭실대학교산학협력단 Method for judgment of drinking using differential energy in time domain, recording medium and device for performing the method
US9317873B2 (en) 2014-03-28 2016-04-19 Google Inc. Automatic verification of advertiser identifier in advertisements
KR101621780B1 (en) 2014-03-28 2016-05-17 숭실대학교산학협력단 Method fomethod for judgment of drinking using differential frequency energy, recording medium and device for performing the method
US11115529B2 (en) 2014-04-07 2021-09-07 Google Llc System and method for providing and managing third party content with call functionality
US20150287099A1 (en) 2014-04-07 2015-10-08 Google Inc. Method to compute the prominence score to phone numbers on web pages and automatically annotate/attach it to ads
US9508360B2 (en) * 2014-05-28 2016-11-29 International Business Machines Corporation Semantic-free text analysis for identifying traits
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US20150346915A1 (en) * 2014-05-30 2015-12-03 Rolta India Ltd Method and system for automating data processing in satellite photogrammetry systems
US20150364146A1 (en) * 2014-06-11 2015-12-17 David Larsen Method for Providing Visual Feedback for Vowel Quality
US9854139B2 (en) 2014-06-24 2017-12-26 Sony Mobile Communications Inc. Lifelog camera and method of controlling same using voice triggers
US9393486B2 (en) 2014-06-27 2016-07-19 Amazon Technologies, Inc. Character simulation and playback notification in game session replay
US9409083B2 (en) 2014-06-27 2016-08-09 Amazon Technologies, Inc. Spawning new timelines during game session replay
US10092833B2 (en) 2014-06-27 2018-10-09 Amazon Technologies, Inc. Game session sharing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6721298B2 (en) 2014-07-16 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Voice information control method and terminal device
US9483768B2 (en) * 2014-08-11 2016-11-01 24/7 Customer, Inc. Methods and apparatuses for modeling customer interaction experiences
US10178473B2 (en) 2014-09-05 2019-01-08 Plantronics, Inc. Collection and analysis of muted audio
US10013983B1 (en) 2014-09-19 2018-07-03 United Services Automobile Association (Usaa) Selective passive voice authentication
US9548979B1 (en) 2014-09-19 2017-01-17 United Services Automobile Association (Usaa) Systems and methods for authentication program enrollment
US10587594B1 (en) * 2014-09-23 2020-03-10 Amazon Technologies, Inc. Media based authentication
US11051702B2 (en) 2014-10-08 2021-07-06 University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US10296723B2 (en) 2014-12-01 2019-05-21 International Business Machines Corporation Managing companionship data
US20160162807A1 (en) * 2014-12-04 2016-06-09 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems
US20160180277A1 (en) * 2014-12-17 2016-06-23 Avaya Inc. Automated responses to projected contact center agent fatigue and burnout
US9875742B2 (en) 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
US9722965B2 (en) * 2015-01-29 2017-08-01 International Business Machines Corporation Smartphone indicator for conversation nonproductivity
US20160286047A1 (en) * 2015-03-27 2016-09-29 Avaya Inc. Pre-login agent monitoring
US9431003B1 (en) 2015-03-27 2016-08-30 International Business Machines Corporation Imbuing artificial intelligence systems with idiomatic traits
JP6238246B2 (en) * 2015-04-16 2017-11-29 本田技研工業株式会社 Conversation processing apparatus and conversation processing method
US9858614B2 (en) 2015-04-16 2018-01-02 Accenture Global Services Limited Future order throttling
US10004655B2 (en) 2015-04-17 2018-06-26 Neurobotics Llc Robotic sports performance enhancement and rehabilitation apparatus
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10997226B2 (en) 2015-05-21 2021-05-04 Microsoft Technology Licensing, Llc Crafting a response based on sentiment identification
US10650437B2 (en) 2015-06-01 2020-05-12 Accenture Global Services Limited User interface generation for transacting goods
US9239987B1 (en) 2015-06-01 2016-01-19 Accenture Global Services Limited Trigger repeat order notifications
US10300394B1 (en) 2015-06-05 2019-05-28 Amazon Technologies, Inc. Spectator audio analysis in online gaming environments
US10293260B1 (en) 2015-06-05 2019-05-21 Amazon Technologies, Inc. Player audio analysis in online gaming environments
US10275522B1 (en) 2015-06-11 2019-04-30 State Farm Mutual Automobile Insurance Company Speech recognition for providing assistance during customer interaction
US10970843B1 (en) 2015-06-24 2021-04-06 Amazon Technologies, Inc. Generating interactive content using a media universe database
US9596349B1 (en) 2015-06-29 2017-03-14 State Farm Mutual Automobile Insurance Company Voice and speech recognition for call center feedback and quality assurance
US10363488B1 (en) 2015-06-29 2019-07-30 Amazon Technologies, Inc. Determining highlights in a game spectating system
US10864447B1 (en) 2015-06-29 2020-12-15 Amazon Technologies, Inc. Highlight presentation interface in a game spectating system
US10376795B2 (en) 2015-06-30 2019-08-13 Amazon Technologies, Inc. Game effects from spectating community inputs
US10390064B2 (en) 2015-06-30 2019-08-20 Amazon Technologies, Inc. Participant rewards in a spectating system
US11071919B2 (en) 2015-06-30 2021-07-27 Amazon Technologies, Inc. Joining games from a spectating system
US10345897B2 (en) 2015-06-30 2019-07-09 Amazon Technologies, Inc. Spectator interactions with games in a specatating system
US10632372B2 (en) 2015-06-30 2020-04-28 Amazon Technologies, Inc. Game content interface in a spectating system
US10484439B2 (en) 2015-06-30 2019-11-19 Amazon Technologies, Inc. Spectating data service for a spectating system
JP6519413B2 (en) * 2015-08-31 2019-05-29 富士通株式会社 Nuisance call detection device, nuisance call detection method, and program
US9865281B2 (en) 2015-09-02 2018-01-09 International Business Machines Corporation Conversational analytics
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
WO2017048730A1 (en) 2015-09-14 2017-03-23 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
WO2017048729A1 (en) 2015-09-14 2017-03-23 Cogito Corporation Systems and methods for managing, analyzing, and providing visualizations of multi-party dialogs
CN106562792B (en) 2015-10-08 2021-08-06 松下电器(美国)知识产权公司 Control method of information presentation device and information presentation device
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CZ307289B6 (en) * 2015-11-13 2018-05-16 Vysoká Škola Báňská -Technická Univerzita Ostrava A method of prevention of dangerous situations when gathering persons at mass events, in means of transport, using the emotional curve of people
WO2017085743A2 (en) * 2015-11-17 2017-05-26 Rudrappa Dhuler Vijayakumar Wearable personal safety device with image and voice processing capabilities
CN105451066B (en) * 2015-11-20 2019-03-08 小米科技有限责任公司 The control processing method and processing device of resource
JP5939480B1 (en) * 2015-12-25 2016-06-22 富士ゼロックス株式会社 Terminal device, diagnostic system and program
US9812154B2 (en) 2016-01-19 2017-11-07 Conduent Business Services, Llc Method and system for detecting sentiment by analyzing human speech
US10404853B2 (en) * 2016-03-09 2019-09-03 Centurylink Intellectual Property Llc System and method for implementing self learning corrections call monitoring
JP6703420B2 (en) * 2016-03-09 2020-06-03 本田技研工業株式会社 Conversation analysis device, conversation analysis method and program
US9799325B1 (en) 2016-04-14 2017-10-24 Xerox Corporation Methods and systems for identifying keywords in speech signal
US10244113B2 (en) * 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
PL3453189T3 (en) 2016-05-06 2021-11-02 Eers Global Technologies Inc. Device and method for improving the quality of in- ear microphone signals in noisy environments
US10065658B2 (en) * 2016-05-23 2018-09-04 International Business Machines Corporation Bias of physical controllers in a system
JP6695069B2 (en) * 2016-05-31 2020-05-20 パナソニックIpマネジメント株式会社 Telephone device
CN106356077B (en) * 2016-08-29 2019-09-27 北京理工大学 A kind of laugh detection method and device
US20180060871A1 (en) * 2016-08-31 2018-03-01 Genesys Telecommunications Laboratories, Inc. System and method for providing secure access to electronic records
US10706856B1 (en) * 2016-09-12 2020-07-07 Oben, Inc. Speaker recognition using deep learning neural network
JP6672114B2 (en) * 2016-09-13 2020-03-25 本田技研工業株式会社 Conversation member optimization device, conversation member optimization method and program
JP6748965B2 (en) * 2016-09-27 2020-09-02 パナソニックIpマネジメント株式会社 Cognitive function evaluation device, cognitive function evaluation method, and program
US10469424B2 (en) 2016-10-07 2019-11-05 Google Llc Network based data traffic latency reduction
CN106448670B (en) * 2016-10-21 2019-11-19 竹间智能科技(上海)有限公司 Conversational system is automatically replied based on deep learning and intensified learning
US10158758B2 (en) 2016-11-02 2018-12-18 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs at call centers
US10135979B2 (en) 2016-11-02 2018-11-20 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs by call center supervisors
JP6618884B2 (en) * 2016-11-17 2019-12-11 株式会社東芝 Recognition device, recognition method and program
US10950275B2 (en) 2016-11-18 2021-03-16 Facebook, Inc. Methods and systems for tracking media effects in a media effect index
US10303928B2 (en) 2016-11-29 2019-05-28 Facebook, Inc. Face detection for video calls
US10122965B2 (en) 2016-11-29 2018-11-06 Facebook, Inc. Face detection for background management
US10554908B2 (en) * 2016-12-05 2020-02-04 Facebook, Inc. Media effect application
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10924376B2 (en) 2016-12-30 2021-02-16 Google Llc Selective sensor polling
US10347247B2 (en) 2016-12-30 2019-07-09 Google Llc Modulation of packetized audio signals
US10957326B2 (en) 2016-12-30 2021-03-23 Google Llc Device identifier dependent operation processing of packet based data communication
US11295738B2 (en) 2016-12-30 2022-04-05 Google, Llc Modulation of packetized audio signals
US10437928B2 (en) 2016-12-30 2019-10-08 Google Llc Device identifier dependent operation processing of packet based data communication
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10362269B2 (en) * 2017-01-11 2019-07-23 Ringcentral, Inc. Systems and methods for determining one or more active speakers during an audio or video conference session
CN107435514A (en) * 2017-01-13 2017-12-05 湖北文理学院 A kind of electric rolling door casualty accident self-braking device
US10037767B1 (en) * 2017-02-01 2018-07-31 Wipro Limited Integrated system and a method of identifying and learning emotions in conversation utterances
DE102017205878A1 (en) * 2017-04-06 2018-10-11 Bundesdruckerei Gmbh Method and system for authentication
US10347244B2 (en) 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
EP3392884A1 (en) 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. Low-latency intelligent automated assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10477024B1 (en) 2017-05-30 2019-11-12 United Services Automobile Association (Usaa) Dynamic resource allocation
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
US10855844B1 (en) * 2017-08-22 2020-12-01 United Services Automobile Association (Usaa) Learning based metric determination for service sessions
EP3681678A4 (en) 2017-09-18 2020-11-18 Samsung Electronics Co., Ltd. Method for dynamic interaction and electronic device thereof
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
JP6903380B2 (en) * 2017-10-25 2021-07-14 アルパイン株式会社 Information presentation device, information presentation system, terminal device
DE102017219268A1 (en) * 2017-10-26 2019-05-02 Bundesdruckerei Gmbh Voice-based method and system for authentication
US10867612B1 (en) 2017-11-13 2020-12-15 United Services Automobile Association (Usaa) Passive authentication through voice data analysis
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
JP6996570B2 (en) * 2017-11-29 2022-01-17 日本電信電話株式会社 Urgency estimation device, urgency estimation method, program
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
JP6963497B2 (en) * 2017-12-27 2021-11-10 株式会社日立情報通信エンジニアリング Voice recognition system, call evaluation setting method
CN108595406B (en) * 2018-01-04 2022-05-17 广东小天才科技有限公司 User state reminding method and device, electronic equipment and storage medium
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
CN108363745B (en) 2018-01-26 2020-06-30 阿里巴巴集团控股有限公司 Method and device for changing robot customer service into manual customer service
JP2019159707A (en) * 2018-03-12 2019-09-19 富士ゼロックス株式会社 Information presentation device, information presentation method, and information presentation program
US11545153B2 (en) * 2018-04-12 2023-01-03 Sony Corporation Information processing device, information processing system, and information processing method, and program
US10621991B2 (en) * 2018-05-06 2020-04-14 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10896688B2 (en) * 2018-05-10 2021-01-19 International Business Machines Corporation Real-time conversation analysis system
US11538128B2 (en) 2018-05-14 2022-12-27 Verint Americas Inc. User interface for fraud alert management
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. Virtual assistant operation in multi-device environments
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10715664B2 (en) 2018-06-19 2020-07-14 At&T Intellectual Property I, L.P. Detection of sentiment shift
US10692486B2 (en) * 2018-07-26 2020-06-23 International Business Machines Corporation Forest inference engine on conversation platform
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
CN109036466B (en) * 2018-08-01 2022-11-29 太原理工大学 Emotion dimension PAD prediction method for emotion voice recognition
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US10224035B1 (en) * 2018-09-03 2019-03-05 Primo Llc Voice search assistant
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN109287977A (en) * 2018-09-13 2019-02-01 西华大学 A kind of process equipment of chicken snack food
US11349989B2 (en) 2018-09-19 2022-05-31 Genpact Luxembourg S.à r.l. II Systems and methods for sensing emotion in voice signals and dynamically changing suggestions in a call center
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109302633B (en) * 2018-10-16 2021-10-01 深圳Tcl数字技术有限公司 Television program scheduled recording method and device, smart television and readable storage medium
US10887452B2 (en) 2018-10-25 2021-01-05 Verint Americas Inc. System architecture for fraud detection
US11501765B2 (en) * 2018-11-05 2022-11-15 Dish Network L.L.C. Behavior detection
US20220044697A1 (en) * 2018-11-11 2022-02-10 Connectalk Yel Ltd Computerized system and method for evaluating a psychological state based on voice analysis
EP3664470B1 (en) 2018-12-05 2021-02-17 Sonova AG Providing feedback of an own voice loudness of a user of a hearing device
US10681214B1 (en) 2018-12-27 2020-06-09 Avaya Inc. Enhanced real-time routing
CN109887526B (en) * 2019-01-04 2023-10-17 平安科技(深圳)有限公司 Method, device, equipment and storage medium for detecting physiological state of ewe
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2020257354A1 (en) * 2019-06-17 2020-12-24 Gideon Health Wearable device operable to detect and/or manage user emotion
US11031013B1 (en) * 2019-06-17 2021-06-08 Express Scripts Strategic Development, Inc. Task completion based on speech analysis
IL303147B2 (en) 2019-06-20 2024-09-01 Verint Americas Inc Systems and methods for authentication and fraud detection
US10943604B1 (en) * 2019-06-28 2021-03-09 Amazon Technologies, Inc. Emotion detection using speaker baseline
RU2019121652A (en) * 2019-07-11 2021-01-13 Общество С Ограниченной Ответственностью "Лицом К Лицу" A method for automatically determining a respondent's attitude to professionally important competencies based on the results of an electronic multi-level analysis of his voice and a system for implementing this method
CN110532599B (en) * 2019-07-18 2022-05-10 中国石油天然气股份有限公司 Heart beach sand body parameter quantitative characterization method
CN110858819A (en) * 2019-08-16 2020-03-03 杭州智芯科微电子科技有限公司 Corpus collection method and device based on WeChat applet and computer equipment
US11663607B2 (en) 2019-09-04 2023-05-30 Optum, Inc. Machine-learning based systems and methods for generating an ordered listing of objects for a particular user
US11868453B2 (en) 2019-11-07 2024-01-09 Verint Americas Inc. Systems and methods for customer authentication based on audio-of-interest
US11074926B1 (en) 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal
CN111464784B (en) * 2020-04-02 2021-02-09 中国船舶科学研究中心(中国船舶重工集团公司第七0二研究所) Underwater self-cleaning acousto-optic monitoring device
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US12033087B2 (en) 2020-07-24 2024-07-09 Optum Services (Ireland) Limited Categorical input machine learning models
US12008441B2 (en) 2020-07-24 2024-06-11 Optum Services (Ireland) Limited Categorical input machine learning models
US20220027782A1 (en) * 2020-07-24 2022-01-27 Optum Services (Ireland) Limited Categorical input machine learning models
CN112230773B (en) * 2020-10-15 2021-06-22 同济大学 Intelligent scene pushing method and system for assisting enteroscopy and enteroscopy device
CN112562738A (en) * 2020-11-13 2021-03-26 江苏汉德天坤数字技术有限公司 Speech emotion recognition algorithm
US20220199224A1 (en) * 2020-12-21 2022-06-23 International Business Machines Corporation De-escalating situations
DK202070869A1 (en) * 2020-12-22 2022-06-24 Gn Audio As Voice coaching system and related methods
US12080286B2 (en) 2021-01-29 2024-09-03 Microsoft Technology Licensing, Llc Determination of task urgency based on acoustic features of audio data
WO2022226097A1 (en) * 2021-04-22 2022-10-27 Emotional Cloud, Inc. Systems, devices and methods for affective computing
CN113689408A (en) * 2021-08-25 2021-11-23 东莞市春福润茶叶有限公司 Method for identifying fermentation change degree of tea cake by training neural network, fermentation change degree identification method, quality identification method and storage medium
US12100417B2 (en) 2021-09-07 2024-09-24 Capital One Services, Llc Systems and methods for detecting emotion from audio files
US20230096357A1 (en) * 2021-09-30 2023-03-30 Sony Interactive Entertainment Inc. Emotion detection & moderation based on voice inputs
CN113990352B (en) * 2021-10-22 2023-05-30 平安科技(深圳)有限公司 User emotion recognition and prediction method, device, equipment and storage medium
US11775739B2 (en) 2021-10-26 2023-10-03 Sony Interactive Entertainment LLC Visual tagging and heat-mapping of emotion
WO2023102563A1 (en) * 2021-12-03 2023-06-08 Zingly Inc. Methods and systems for a cloud-based, intelligent and interactive virtual container based customer service platform
CN117235236B (en) * 2023-11-10 2024-03-29 腾讯科技(深圳)有限公司 Dialogue method, dialogue device, computer equipment and storage medium

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971034A (en) * 1971-02-09 1976-07-20 Dektor Counterintelligence And Security, Inc. Physiological response analysis method and apparatus
US3691652A (en) * 1971-06-01 1972-09-19 Manfred E Clynes Programmed system for evoking emotional responses
US3855416A (en) * 1972-12-01 1974-12-17 F Fuller Method and apparatus for phonation analysis leading to valid truth/lie decisions by fundamental speech-energy weighted vibratto component assessment
US4093821A (en) * 1977-06-14 1978-06-06 John Decatur Williamson Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person
US4216594A (en) * 1978-10-30 1980-08-12 Cheryl Farley Psychotherapeutic testing game
US4602129A (en) * 1979-11-26 1986-07-22 Vmx, Inc. Electronic audio communications system with versatile message delivery
US4472833A (en) * 1981-06-24 1984-09-18 Turrell Ronald P Speech aiding by indicating speech rate is excessive
US4592086A (en) * 1981-12-09 1986-05-27 Nippon Electric Co., Ltd. Continuous speech recognition system
US4490840A (en) * 1982-03-30 1984-12-25 Jones Joseph M Oral sound analysis method and apparatus for determining voice, speech and perceptual styles
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
GB8525161D0 (en) 1985-10-11 1985-11-13 Blackwell V C Personalised identification device
US4931934A (en) * 1988-06-27 1990-06-05 Snyder Thomas E Method and system for measuring clarified intensity of emotion
US5461697A (en) * 1988-11-17 1995-10-24 Sekisui Kagaku Kogyo Kabushiki Kaisha Speaker recognition system using neural network
US4996704A (en) * 1989-09-29 1991-02-26 At&T Bell Laboratories Electronic messaging systems with additional message storage capability
US5163083A (en) * 1990-10-12 1992-11-10 At&T Bell Laboratories Automation of telephone operator assistance calls
CA2080862C (en) * 1991-12-19 1996-11-26 Priya Jakatdar Recognizer for recognizing voice messages in pulse code modulated format
US5390236A (en) * 1992-03-31 1995-02-14 Klausner Patent Technologies Telephone answering device linking displayed data with recorded audio message
US5410739A (en) * 1992-09-29 1995-04-25 The Titan Corporation Variable data message communication over voice communication channel
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US5539861A (en) * 1993-12-22 1996-07-23 At&T Corp. Speech recognition using bio-signals
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5764789A (en) 1994-11-28 1998-06-09 Smarttouch, Llc Tokenless biometric ATM access system
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5918222A (en) 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
US5734794A (en) * 1995-06-22 1998-03-31 White; Tom H. Method and system for voice-activated cell animation
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
US5903870A (en) * 1995-09-18 1999-05-11 Vis Tell, Inc. Voice recognition and display device apparatus and method
US5893057A (en) * 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US5774591A (en) * 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
JP2980026B2 (en) * 1996-05-30 1999-11-22 日本電気株式会社 Voice recognition device
NL1003802C1 (en) 1996-07-24 1998-01-28 Chiptec International Ltd Identity card and identification system intended for application therewith.
US5812977A (en) * 1996-08-13 1998-09-22 Applied Voice Recognition L.P. Voice control computer interface enabling implementation of common subroutines
US6292782B1 (en) 1996-09-09 2001-09-18 Philips Electronics North America Corp. Speech recognition and verification system enabling authorized data transmission over networked computer systems
US6263049B1 (en) * 1996-10-10 2001-07-17 Envision Telephony, Inc. Non-random call center supervisory method and apparatus
US5884247A (en) * 1996-10-31 1999-03-16 Dialect Corporation Method and apparatus for automated language translation
WO1998023062A1 (en) 1996-11-22 1998-05-28 T-Netix, Inc. Voice recognition for information system access and transaction processing
US6212550B1 (en) * 1997-01-21 2001-04-03 Motorola, Inc. Method and system in a client-server for automatically converting messages from a first format to a second format compatible with a message retrieving device
US6006188A (en) * 1997-03-19 1999-12-21 Dendrite, Inc. Speech signal processing for determining psychological or physiological characteristics using a knowledge base
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6173260B1 (en) 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
US5913196A (en) * 1997-11-17 1999-06-15 Talmor; Rita System and method for establishing identity of a speaker
IL122632A0 (en) * 1997-12-16 1998-08-16 Liberman Amir Apparatus and methods for detecting emotions
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US5936515A (en) * 1998-04-15 1999-08-10 General Signal Corporation Field programmable voice message device and programming device
IL129399A (en) 1999-04-12 2005-03-20 Liberman Amir Apparatus and methods for detecting emotions in the human voice
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US7181693B1 (en) * 2000-03-17 2007-02-20 Gateway Inc. Affective control of information systems
US6795808B1 (en) 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019110215A1 (en) 2017-12-04 2019-06-13 Siemens Mobility GmbH Automated detection of an emergency situation of one or more persons

Also Published As

Publication number Publication date
EP1222448B1 (en) 2006-10-18
US7940914B2 (en) 2011-05-10
DE60031432D1 (en) 2006-11-30
US8965770B2 (en) 2015-02-24
US20110178803A1 (en) 2011-07-21
WO2001016570A1 (en) 2001-03-08
AU7111000A (en) 2001-03-26
ATE343120T1 (en) 2006-11-15
US20030033145A1 (en) 2003-02-13
EP1222448A1 (en) 2002-07-17
IL148388A0 (en) 2002-09-12
IL193875A (en) 2009-11-18
US6275806B1 (en) 2001-08-14

Similar Documents

Publication Publication Date Title
DE60031432T2 (en) SYSTEM, METHOD, AND MANUFACTURED SUBJECT FOR DETECTING EMOTIONS IN LANGUAGE SIGNALS BY STATISTICAL ANALYSIS OF LANGUAGE SIGNAL PARAMETERS
DE60020865T2 (en) System, method and computer program for a telephone emotion detector with feedback to an operator
DE60210295T2 (en) METHOD AND DEVICE FOR LANGUAGE ANALYSIS
US6697457B2 (en) Voice messaging system that organizes voice messages based on detected emotion
US6427137B2 (en) System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
US6353810B1 (en) System, method and article of manufacture for an emotion detection system improving emotion recognition
DE60033132T2 (en) DETECTION OF EMOTIONS IN LANGUAGE SIGNALS BY ANALYSIS OF A VARIETY OF LANGUAGE SIGNAL PARAMETERS
DE602005001142T2 (en) Messaging device
DE69427083T2 (en) VOICE RECOGNITION SYSTEM FOR MULTIPLE LANGUAGES
DE60320414T2 (en) Apparatus and method for the automatic extraction of important events in audio signals
DE60014063T2 (en) DEVICE AND METHOD FOR DETECTING FEELINGS IN THE HUMAN VOICE
DE60108373T2 (en) Method for detecting emotions in speech signals using speaker identification
DE3687815T2 (en) METHOD AND DEVICE FOR VOICE ANALYSIS.
WO2001016892A1 (en) System, method, and article of manufacture for a border crossing system that allows selective passage based on voice analysis
DE2918533A1 (en) VOICE RECOGNITION SYSTEM
WO2001016940A1 (en) System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the internet
DE60302478T2 (en) Apparatus and method for speech information recognition using analysis of myoelectric signals
DE60108104T2 (en) Method for speaker identification
DE69421704T2 (en) METHOD AND DEVICE FOR TESTING A TELECOMMUNICATION SYSTEM USING A TEST SIGNAL WITH REDUCED REDUNDANCY
EP1097447A1 (en) Method and device for recognizing predetermined key words in spoken language
DE2921012A1 (en) METHOD AND DEVICE FOR DETERMINING LANGUAGE SKILLS (FLOWING THE LANGUAGE) OF A HUMAN PERSON, EXAMPLE FOR DIAGNOSIS OF HEART DISEASES
Nwe et al. Stress classification using subband based features
Karakoc et al. Visual and auditory analysis methods for speaker recognition in digital forensic
Alimuradov et al. A method to Determine Speech Intelligibility for Estimating Psycho-Emotional State of Control System Operators with a High Degree of Responsibility
DE102021132936A1 (en) Method for generating normal speech signal features, computer program, storage medium and device

Legal Events

Date Code Title Description
8364 No opposition during term of opposition