DE4126902C2 - Sprachintervall - Feststelleinheit - Google Patents
Sprachintervall - FeststelleinheitInfo
- Publication number
- DE4126902C2 DE4126902C2 DE19914126902 DE4126902A DE4126902C2 DE 4126902 C2 DE4126902 C2 DE 4126902C2 DE 19914126902 DE19914126902 DE 19914126902 DE 4126902 A DE4126902 A DE 4126902A DE 4126902 C2 DE4126902 C2 DE 4126902C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- interval
- speech interval
- frequency bands
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 47
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 description 30
- 238000000034 method Methods 0.000 description 15
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000001788 irregular Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
Die Erfindung betrifft eine Sprachintervall-Feststelleinheit nach dem Anspruch 1.
Aus der DE 38 37 066 A1 ist bereits eine Sprachintervall-Feststelleinheit bekannt,
um ein Sprachintervall, das einer Sprache bzw. Stimme eines Sprechers ent
spricht, in einem aufgenommenen Tonsignal festzustellen. Es ist eine erste Ein
gabeeinrichtung nahe bei einem Sprecher aufgestellt, um Töne einschließlich einer
Stimme bzw. Sprache des Sprechers gemischt mit Geräuschen in der Umgebung
aufzunehmen, und um ein Tonsignal, das den eingegebenen Tönen entspricht, zu
erzeugen. Eine zweite Eingabeeinrichtung ist entfernt vom Sprecher aufgestellt,
um Töne einschließlich von Geräuschsignalen in der Umgebung aufzunehmen und
um ein Bezugssignal zu erzeugen, das den eingegebenen Tönen entspricht. Diese
bekannte Sprachintervall-Feststelleinheit umfaßt ferner eine erste Merkmalsextrak
tionseinrichtung, um ein erstes Merkmal aus dem Tonsignal der ersten Eingabe
einrichtung zu extrahieren, und umfaßt eine zweite Merkmalsextraktionseinrich
tung, um ein zweites Merkmal aus dem genannten Bezugssignal zu extrahieren,
das von der zweiten Eingabeeinrichtung geliefert wird. Mit Hilfe einer Koeffizien
tenberechnungseinrichtung, welche die Ausgangssignale der zwei Merkmals
extraktionseinrichtungen empfängt, werden Geräuschkoeffizienten berechnet und
es wird dann mit Hilfe einer Geräuschannulliereinrichtung eine Geräuschkom
ponente beseitigt, und zwar auf der Grundlage der berechneten Koeffizienten und
dem ersten und zweiten extrahierten Merkmal.
Diese bekannte Sprachintervall-Feststelleinheit ist aber nicht dafür ausgebildet, um
mit hoher Genauigkeit und Sicherheit Sprachintervalle innerhalb einer Anzahl von
Frequenzbändern zu ermitteln.
In einem üblichen Spracherkennungssystem ist eine Geräuschbeseitigung ein
wichtiges Thema. Hierbei ist es schwierig, Sprachintervalle, die Sprachabschnitten
einer sprechenden Person entsprechen, eindeutig in einem akustischen Signal
festzustellen, welchem Geräusche überlagert sind. Ein Verfahren, um Sprachinter
valle in einem akustischen Signal festzustellen, welchem Geräusche überlagert
sind, ist beispielsweise in der japanischen Offenlegungsschrift 56-135898, die der
japanischen Patentschrift Nr. 63-29754 entspricht, beschrieben. In diesem Ver
fahren werden zwei Schwellenwertpegel verwendet, welche ein erster Schwellen
wertpegel und ein zweiter Schwellenwertpegel sind, welcher niedriger als der
erste Schwellenwertpegel ist, um die Sprachintervalle festzustellen. Das heißt, in
einem Fall, bei welchem der Pegel des tonfrequenten Signals für eine vorherbe
stimmte Zeit oder länger ständig höher als der erste Schwellenwert ist, wird ein
Intervall, in welchem der Pegel des tonfrequenten Signals höher als der zweite
Schwellenwertpegel oder gleich diesem ist, als das Sprachintervall festgestellt.
Jedoch ist es bei diesem herkömmlichen Verfahren in einem Fall, bei welchem
der Pegel eines unregelmäßigen Geräusches, welches unregelmäßig erzeugt ist,
hinsichtlich der Zeitdauer größer als der erste Schwellenwert ist, schwierig,
eindeutig die Sprachintervalle festzustellen.
Ein Verfahren, um Sprachintervalle unter Bedingungen festzustellen, bei welchem
unregelmäßige Geräusche dem akustischen Signal überlagert sind, ist beispiels
weise in der offengelegten japanischen Offenlegungsschrift Nr. 58-130 395
beschrieben. Bei diesem Verfahren werden ein erstes Mikrophon für Stimmen und
ein zweites Mikrophon für Geräusche verwendet, um die Stimm- bzw. Sprach
intervalle festzustellen. Das heißt, das Sprachintervall wird auf der Basis einer
Differenz zwischen einer ersten Leistung eines Ausgangssignals von dem ersten
Mikrophon und einer zweiten Leistung eines Ausgangssignals von dem zweiten
Mikrophon festgestellt. Jedoch können bei diesem herkömmlichen Verfahren
Geräuschkomponenten, welche in dem Sprachintervall enthalten sind, nicht
beseitigt werden.
Außerdem ist ein spektrales Subtraktionsverfahren als ein Verfahren bekannt, um
Geräuschkomponenten aus dem tonfrequenten Signal zu beseitigen (z. B. DE
36 42 591 C1). Jedoch ist es bei dem spektralen Subtraktionsverfahren schwierig,
unregelmäßige Geräusche aus dem Tonsignal zu beseitigen. Bei einem adaptiven
Geräuschannullierverfahren, das in den japanischen Offenlegungsschriften Nr. 58-
196 599, 63-262 695 und 1-239 596 (welche dem US-Patent Nr.
4 912 767 entspricht) beschrieben ist, können die unregelmäßigen Geräusche
wirksam aus dem Tonsignal entfernt werden in dem adaptiven Geräuschannullier
verfahren werden die Geräuschkomponenten aus dem Tonsignal mit Hilfe einer
ersten Toneingabeeinheit (einem Mikrophon) und einer zweiten Toneingabeeinheit
(Mikrophon) wie folgt beseitigt.
Die erste Toneingabeeinheit ist nahe bei dem Sprecher vorgesehen, während die
zweite Eingabeeinheit weit weg von dem Sprecher vorgesehen ist. Sprachabschnit
te des Sprechers werden hauptsächlich in die erste Eingabeeinheit eingegeben.
Verschiedene Arten von Geräuschen in der Umgebung werden sowohl in die erste
als auch in die zweite Eingabeeinheit eingegeben. Ein Spektrum X(i) in jeweils
einer Anzahl Frequenzbänder wird aus einem Tonsignal erhalten. Ein Spektrum
N(i) in jedem der Frequenzbänder wird aus einem Signal erhalten, das von der
zweiten Eingabeeinheit zugeführt worden ist. In diesem Fall ist mit i das i-te
Frequenzband bezeichnet. Ein Geräuschverhältnis k(i) in jedem Frequenzband ist
vorher entsprechend der folgenden Formel unter der Voraussetzung berechnet wor
den, daß es nicht die Stimme des Sprechers ist:
k(i) = X(i)/N(i).
Das Geräuschverhältnis k(i) stellt ein Verhältnis eines Geräusches, das von der
ersten Eingabeeinheit festgestellt worden ist, zu einem Geräusch dar, das von der
zweiten Eingabeeinheit in dem jeweiligen Frequenzband festgestellt worden ist.
Es wird dann ein Schätzwert S(i) eines Sprachspektrums, welches der Sprache
bzw. Stimme des Sprechers entspricht, entsprechend der folgenden Formel
berechnet:
S(i) = X(i) - k(i)·N(i)
In diesem adaptiven Geräuschannullierverfahren ändert sich in einem Fall, bei
welchem eine Geräuschquelle bezüglich eines i-ten Frequenzbandes vorhanden ist,
obwohl sich der Pegel des Geräusches ändert, das Geräuschverhältnis k(i) nicht.
Folglich kann eine Geräuschkomponenten, welche in dem Spektrum X(i) des
Tonsignals in dem Sprachintervall enthalten ist, durch k(i) N(i) geschätzt wer
den. Das heißt, mit dem adaptiven Geräuschannullierverfahren kann das unregel
mäßige Geräusch aus der akustischen Komponente beseitigt werden. Wenn jedoch
in dem adaptiven Geräuschannullierverfahren das Geräuschverhältnis k(i) unter
der Voraussetzung berechnet wird, daß der Pegel des Geräusches verhältnismäßig
niedrig ist, wird ein Fehler des Schätzwertes S(i) des Sprachspektrums groß.
Außerdem kann, wenn der Pegel des in dem Sprachintervall enthaltenen Geräu
sches verhältnismäßig hoch ist, das Sprach- bzw. Stimmenspektrum nicht ange
messen geschätzt werden. Folglich können mit dem adaptiven Geräsuchannulier
verfahren die Geräuschkomponenten nur in einem Fall angemessen beseitigt
werden, bei welchem Geräuschkomponenten immer in allen Frequenzbändern
vorhanden sind.
Außerdem ist in DE 15 12 758 C1 ein Verfahren beschrieben, um den Schätzwert
S(i) des Sprachspektrums entsprechend der folgenden Formel zu berechnen:
S(i) = X(i) - N(i).
Die vorstehende Formel enthält jedoch nicht den Koeffizienten k(i). Folglich
ergibt dieses Verfahren nicht das adaptive Geräuschannullierverfahren und es hat
den Nachteil, daß der Schätzwert S(i) in dem Fall nicht korrekt ist, daß Geräusch
quellen nahe bei dem Mikrophon vorhanden sind.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, eine verbesserte
Sprachintervall-Feststelleinheit zu schaffen, die insbesondere auch bei stark
geräuschbelasteten Bedingungen, bei denen auch sehr unregelmäßige Geräusche
auftreten können, eine hochgenaue Sprachintervall-Feststellung ermöglicht.
Diese Aufgabe wird erfindungsgemäß durch die im Anspruch 1 aufgeführten
Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung
ergeben sich aus den Unteransprüchen.
Im folgenden wird die Erfindung anhand von bevorzugten Ausführungsbeispielen
unter Hinweis auf die Zeichnungen näher erläutert. Es zeigt
Fig. 1 ein Blockdiagramm einer Sprachintervall-Feststell
einheit gemäß einer Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 2 ein Zeitdiagramm, in welchem Beispiele von Geräusch
intervallen wiedergegeben sind, welche mittels der
in Fig. 1 dargestellten Sprachintervall-Feststell
einheit festgestellt werden;
Fig. 3 ein Blockdiagramm einer Geräuschannuliereinheit,
welche in einem Spracherkennungssystem mit Merkmalen nach der
Erfindung verwendet ist; und
Fig. 4 ein Blockdiagramm eines Spracherkennungssystems
gemäß einer Ausführungsform mit Merkmalen nach der Erfindung.
Nachstehend wird eine bevorzugte Ausführungsform mit Merkmalen nach der Erfindung
anhand von Fig. 1 und 2 beschrieben. In Fig. 1 ist eine Sprach
intervall-Feststelleinheit dargestellt, welche eine erste Eingabeeinrichtung
(Mikrophon) 1, eine zweite Eingabeeinrichtung (Mikrophon) 2, eine erste und eine
zweite Merkmalsextraktionseinrichtung (Merkmalsextraktionsblock) 10 und 20, eine erste Sprachinter
vall-Feststelleinrichtung (Sprachintervall-Feststellblock) 30 eine Koeffizientenberechnungseinrichtung (Koeffizienten-Be
rechnungsblock) 40, eine Geräuschannulliereinrichtung (Geräuschannullierblock) 50 und eine
zweite Sprachintervall-Feststelleinrichtung (Sprachintervall-Feststellblock) 60 aufweist. Das erste
Mikrophon 1 ist nahe bei einem Sprecher vorgesehen, während
das zweite Mikrophon 2 weit von dem Sprecher weg vorgesehen
ist. Folglich wird eine Sprecherstimme oder -sprache haupt
sächlich in dem ersten Mikrophon 1 aufgenommen. Geräusche
in der Umgebung können sowohl von dem ersten als auch von
dem zweiten Mikrophon 1 bzw. 2 aufgenommen werden. Wenn es
die Stimme des Sprechers ist, gibt das erste Mikrophon 1 ein
Tonsignal ab, welches Komponenten, welche der Stimme des
Sprechers entsprechen, und Komponenten enthält, welche den Ge
räuschen in der Umgebung entsprechen. Das zweite Mikrophon
2 gibt ein Bezugssignal ab, das Geräuschen in der Umgebung
entspricht. Das Bezugssignal, das von dem zweiten Mikrophon
2 abgegeben wird, enthält kaum eine Komponente der Stimme
bzw. Sprache des Sprechers.
Der erste Merkmalsextraktionsblock 10 extrahiert Merkmalsda
ten aus dem von dem ersten Mikrophon 1 gelieferten Tonsignal.
Der erste Merkmalsextraktionsblock 10 hat einen Verstärker
11, ein Bandpaßfilter 12, einen Gleichrichter 13, ein Tief
paßfilter 14, einen Multiplexer 15 und einen Analog-Digital-
Umsetzer 16. Der Verstärker 11 verstärkt das von dem ersten
Mikrophon 1 gelieferte Tonsignal mit einem vorherbestimmten
Verstärkungsfaktor. Das Bandpaßfilter 12 hat fünfzehn Ka
näle, die jeweils einem von fünfzehn Frequenzbändern ent
sprechen. Das Bandpaßfilter 12 teilt das Tonsignal in ein
Spektrum auf, welches aus fünfzehn Frequenzbändern besteht. Jeder
Wert der fünfzehn Frequenzbänder wird von dem Gleichrichter
13 und dem Tiefpaßfilter 14 verarbeitet, so daß ein Spektrum
X(i) des Tonsignals in den fünfzehn Frequenzbändern (Kanälen)
erhalten wird. Der Multiplexer 15 wählt eines der fünfzehn
Frequenzbänder aus, welches Spektrum von dem Bandpaßfilter 12
über den Gleichrichter 13 und das Tiefpaßfilter 14 geliefert
wird. Der Analog-Digital-Umsetzer 16 setzt das Spektrum X(i)
in jedem Frequenzband in digitale Daten um. Folglich gibt
der erste Merkmalsextraktionsblock 10 periodisch das Spek
trum X(i) (i= 1, 2, . . . ,15) des akustischen Signal bei einer
vorherbestimmten Rahmenzeit ab.
Der zweite Merkmalsextraktionsblock 20 hat einen Verstärker
21, ein Bandpaßfilter 22, einen Gleichrichter 23, ein Tief
paßfilter 24, einen Multiplexer 25 und einen Analog-Digital-
Umsetzer 26 genauso wie der erste Merkmalsextraktionsblock.
Folglich gibt der zweite Merkmalsextraktionsblock 20
periodisch ein Spektrum N(i) des Referenzsignals bei der vor
herbestimmten Rahmenzeit ab. Ein Verstärkungsfaktor des Ver
stärkers 11 in dem ersten Merkmalsextraktionsblock 10 und
ein Verstärkungsfaktor des Verstärkers 21 in dem zweiten
Merkmalsextraktionsblock 20 werden so eingestellt, daß der
Pegel des Tonsignals annähernd gleich dem Pegel des Refe
renzsignals wird. Kenndaten anderer Teile in dem ersten Merk
malsextraktionsblock 10 sind gleich Kenndaten entsprechender
Teile in dem zweiten Merkmalsextraktionsblock 20. Die bei
den Merkmalsextraktionsblöcke 10 und 20 können auch Merkmals
daten außer den vorerwähnten Spektren X,(i) und N(i) extra
hieren.
Der erste Sprachintervall-Feststellblock 30 stellt ein
Sprachintervall basierend auf einer Differenz zwischen einer
Gesamtleistung ΣX(i) des akustischen Signals und einer Ge
samtleistung ΣN(i) des Bezugssignals fest. Der erste Sprach
intervall-Feststellblock 30 stellt das Sprachintervall fest,
wenn die Differenz zwischen der Gesamtleistung ΣX(i) des
akustischen Signals und der Gesamtleistung ΣN(i) größer als
ein Schwellenwert Tpwr ist. Auf das mittels des ersten Spannintervall-Feststellblocks
30 festgestellte Sprachintervall wird als ein generelles
Sprachintervall Bezug genommen. Der Schwellenwert Tpwr wird
auf der Basis eines Mittelwerts Av Xpwer der Gesamtleistung
des Tonsignals in einer Anzahl Rahmen vor dem gegenwärtigen
Rahmen und in einem Intervall außer dem generellen Sprach
intervall und auf der Basis eines Mittelwerts Av Npwr der
Gesamtleistung des Bezugssignals berechnet, das unter dersel
ben Bedingung wie der Mittelwert Av Xpwr erhalten worden
ist. Das heißt, der Schwellenwert Tpwr wird berechnet und ent
sprechend der folgenden Formel (1) aktualisiert:
Tpwr = apwr · (AvXpwr - Av Npwr) + bpwr (1)
wobei apwr und bpwr konstante Zahlen und größer als null
sind (apwr, bpwr < 0).
Der Geräuschannullierblock 50 erzeugt ein Merkmal S(i) der
Sprache, aus welchem Geräuschkomponenten beseitigt werden,
wie später noch beschrieben wird. Eine Sprachleistung ΣS(i)
wird auf der Basis des Merkmals S(i) der Sprache erhalten,
und dann kann das generelle Sprachintervall auf der Basis
eines Vergleichs der Sprachleistung ΣS(i) mit dem Schwellen
wert Tpwr erhalten werden.
Der Koeffizientenberechnungsblock 40 berechnet einen Geräusch
koeffizienten k(i) in jedem Kanal entsprechend der folgenden
Formel (2), welche das Spektrum X(i) des Tonsignals und das
Spektrum N(i) des Bezugssignals enthält, welche unter der
Bedingung erhalten werden, daß keine Sprache des Sprechers
vorhanden ist:
k(i) = [X(i) + C₁]/[N(i) + c₂] (2)
wobei C₁ und C₂ konstante Zahlen und größer als null sind
(C₁, C₂ < 0).
Der Geräuschkoeffizient k(i) kann auch auf der Basis eines
Mittelwerts der Spektren x(i) und N(i) in einer Anzahl Rah
men vor dem gegenwärtigen Rahmen berechnet werden. In diesem
Fall ist die Anzahl Rahmen, um den Mittelwert zu erhalten,
vorzugsweise kleiner als die Anzahl Rahmen, die erforderlich
sind, um den vorstehenden Schwellenwert Tpwr und einen
Schwellenwert Ti zu berechnen, welcher später noch beschrie
ben wird.
Gemäß der vorstehenden Formel (2) gilt: je größer die Spek
tren X(i) und N(i) sind, umso näher bzw. dichter kommt Ver
hältnis X(i)/N(i), welches das herkömmliche Geräuschverhält
nis ist, der Geräuschkoeffizient k(i). Je kleiner die Spektren
X(i) und N(i) sind, umso näher dem Verhältnis C₁/C₂ kommt an
dererseits der Geräuschkoeffizient k(i). Folglich kann in
einem Fall, bei welchem die Spektren x(i) und N(i) in jedem
Frequenzband klein sind, wenn C₁/C₂ auf einen angemessenen
Wert in dem Spracherkennungssystem gesetzt ist, ein Fehler
des Geräuschkoeffizienten k(i) klein werden. Falls die jewei
ligen Werte von X(i) und N(i) durch 8 Bits (0 bis 255) darge
stellt werden, sind jeweils C₁ und C₂ vorzugsweise
Werte in einem Bereich zwischen 8 und 32. Falls der Pegel von
X(i) und der Pegel von N(i), welche unter einer Bedingung
gemessen werden, bei welcher ein Geräusch, das von einer
Quelle weit weg von den Mikrophonen 1 und 2 erzeugt worden
ist, oder ein Geräusch vorhanden ist, das durch eine bestimmte
Quelle erzeugt worden ist, annähernd einander gleich sind,
kann der Wert von C₁/C₂ auf "1" gesetzt werden. In anderen
Fällen kann der Wert von C₁/C₂ auf einen Wert von x(i)/N(i)
gesetzt werden, wobei X(i) bzw. N(i) unter einer Bedingung
gemessen werden, bei welcher keine Sprache des Sprechers
vorliegt. Der Wert von C₁/C₂ kann in Abhängigkeit von dem
jeweiligen Kanal auf einen entsprechenden Wert gesetzt wer
den. In einem System, in welchem eine Sprache des Sprechers
an dem zweiten Mikrophon 2 eingegeben werden kann, ist, wenn
der Wert von C₁/C₂ gleich "1" ist (C₁ = C₂), ein Teil der
Sprachkomponenten als eine Geräuschkomponente aus der Sprache
beseitigt. Folglich ist in diesem Fall der Wert von C₁/C₂
vorzugsweise kleiner als "1" (C₁ < C₂).
Der Wert, welcher durch Glätten des Geräuschkoeffizienten
k(i) bezüglich einer Zeitskala erhalten worden ist, kann ver
wendet werden, um das Geräusch aus der Sprache zu eliminieren.
Die Beziehung zwischen dem Geräuschkoeffizienten k(i) und den
Spektren X(i) und N(i) ist nicht auf diejenige beschränkt,
welche durch die vorstehende Formel (1) wiedergegeben ist.
Die Beziehung kann auch durch eine hyperbolische Funktion,
eine Exponentialfunktion u.ä. dargestellt werden.
Der Geräuschannullierblock 50 berechnet das Merkmal S(i) der
Sprache, aus welchem das Geräusch beseitigt ist, in jedem
Kanal (jedem Frequenzband) entsprechend der folgenden Formel
(3):
S(i) = X(i) - k(i)·N(i) (3)
In einem Intervall außer dem Sprachintervall kann S(i) auf
"0" gesetzt werden.
Der zweite Sprachintervall-Feststellblock 60 addiert vorher
bestimmte Intervalle zu einem vorderen Ende des von dem ersten
Sprachintervall-Feststellblock 30 festgestellten, generellen Sprachintervalls und
zu einem hinteren Ende des generellen Sprachintervalls. Folg
lich erzeugt der zweite Sprachintervall-Feststellblock 60 ein
Feststellintervall, welches aus dem generellen Sprachinter
vall und dem dazu addierten Intervall gebildet ist. Dann be
stimmt der zweite Sprachintervall-Feststellblock 60, ob das
Spektrum S(i) der Sprache, welche durch den Geräuschannullier
block 50 erhalten wird, größer als ein Schwellenwert T(i) in
dem dabei erhaltenen Feststellintervall ist oder nicht. Wenn
das Spektrum S(i) in dem i-ten Frequenzband der Sprache grö
ßer als der Schwellenwert T(i) ist, stellt der zweite Sprach
feststellblock 60 ein Sprachintervall in dem i-ten Kanal
fest, welcher dem i-ten Frequenzband entspricht. Das heißt,
der zweite Sprachintervall-Feststellblock 60 gibt das Spek
trum S(i), das von dem Geräuschannullierblock 50 geliefert
worden ist, in dem Sprachintervall in jedem Frequenzband und
"0" in einem Intervall außer dem Sprachintervall ab. Das
Spektrum S(i) (einschließlich "0"), das von dem zweiten
Sprachintervall-Feststellblock 60 abgegeben worden ist, wird
in einem Prozeß zum Erkennen von Sprache eines Sprechers ver
wendet.
In Fig. 2 sind Sprachintervalle dargestellt, welche durch
den ersten und zweiten Sprachintervall-Feststellblock 30
bzw. 60 festgestellt werden, wenn eine Sprache, wie bei
spielsweise "SECHS" an dem ersten Mikrophon 1 eingegeben
wird. In Fig. 2 stellt der erste Sprachintervall-Feststell
block 30 das generelle Sprachintervall fest, was durch (A) in
Fig. 2 dargestellt ist. Der zweite Sprachintervall-Feststell
block 60 addiert vorherbestimmte Intervalle zu den generellen
Sprachintervallen, um so das Feststellintervall zu erzeugen,
das durch (B) in Fig. 2 dargestellt ist. Dann stellt der zweite
Sprachintervall-Feststellblock 60 das Sprachintervall in je
dem der fünfzehn Frequenzbänder von einem niedrigen (dem er
sten) Frequenzband bis zu einem hohen (dem fünfzehnten) Fre
quenzband in dem durch (B) dargestellten Feststellsprachin
tervall fest, was durch (C) in Fig. 2 dargestellt ist.
Der vorerwähnte Schwellenwert Tip welcher verwendet wird,
um das Sprachintervall in jedem Frequenzband festzustellen,
wird entsprechend der folgenden Formel (4) berechnet und
aktualisiert:
Ti = a · (Av X(i) - Av N(i)) + b (4)
(a, b. : konstante Zahlen, a, b < 0).
(a, b. : konstante Zahlen, a, b < 0).
In der vorstehenden Formel (4) stellt Av X(i) einen Mittel
wert der Spektren x(i) des Tonsignals in einer Anzahl Rah
men vor dem gegenwärtigen Rahmen und in Intervallen außer
dem Sprachintervall in dem i-ten Frequenzband dar; Av N(i)
stellt einen Mittelwert der Spektren N(i) des Bezugssignals
in der Anzahl Rahmen vor dem gegenwärtigen Rahmen in dem In
tervall außer dem Sprachintervall in dem i-ten Frequenz
band dar.
Falls das in Fig. 1 dargestellte System in Umgebungen vor
gesehen wird, in welchen Geräusche nicht zu groß sind, kann
der Prozeß in dem ersten Sprachintervall-Feststellblock 30
weggelassen werden. Das heißt, der zweite Sprachintervall-
Feststellblock 60 kann unmittelbar das Sprachintervall in
jedem der Frequenzbänder in dem Spektrum X(i) des akustischen
Signals feststellen. Der Schwellenwert T(i), welcher dazu
verwendet wird, das Sprachintervall in jedem der Frequenz
bänder festzustellen, bzw. die Geräuschkoeffizienten k(i)
können in einer Gruppe berechnet werden, welche eine Anzahl
Kanäle (Frequenzbänder) enthält.
Der erste Sprachintervall-Feststellblock 30, der Koeffizienten-Berech
nungsblock 40, der Geräuschanpullierblock 50 und der zweite
Sprachintervall-Feststellblock (60) sind beispielsweise in einem
Computersystem gebildet.
In Fig. 3 ist eine weitere Ausführungsform mit Merkmalen nach der Erfindung dar
gestellt, wobei diejenigen Teile, welche dieselben wie in
Fig. 1 sind, mit denselben Bezugszeichen versehen sind. In
Fig. 3 ist das zweite, in Fig. 1 dargestellte Mikrophon 2 durch
einen Lautsprecher 2s ersetzt. Das heißt, die Töne, welche
von dem Lautsprecher 2s abgegeben worden sind, werden als
Geräusche dem ersten Mikrophon 1 zugeführt. Ein Tonsignal,
das dem Lautsprecher 2s zugeführt wird, wird ebenfalls als
ein Geräuschsignal dem zweiten Merkmalsextraktionsblock 20
zugeführt. Der Sprachintervall-Feststellblock 60 stellt das
Sprachintervall in jedem der Frequenzbänder basierend auf
dem Schwellenwert Ti fest, welcher entsprechend der Formel
(4) berechnet worden ist. Der Koeffizienten-Berechnungsblock
40 berechnet die Geräuschkoeffizienten k(i) entsprechend der
vorstehenden Formel (2). Der Geräuschannullierblock 50 gibt
das Merkmal S(i) (Spektrum) der Sprache ab, was entsprechend
der Formel (3) berechnet worden ist. Die Verstärkungsfaktoren
der Verstärker in den beiden Merkmalsextraktionsblöcken
10 und 20 werden so eingestellt, daß das akustische Signal
und das Bezugssignal annähernd einander gleich sind, wenn
das Tonsignal dem Lautsprecher 2s und dem zweiten Merkmals
extraktionsblock 20 zugeführt wird.
In dem in Fig. 3 dargestellten System kann das dem Tonsignal
entsprechende Geräusch aus dem Tonsignal beseitigt werden,
das von dem ersten Merkmalsextraktionsblock 10 erhalten
worden ist.
In Fig. 4 ist ein Spracherkennungssystem gemäß einer Ausfüh
rungsform mit Merkmalen nach der Erfindung dargestellt. In Fig. 4 sind dieje
nigen Teile, welche dieselben Teile wie in Fig. 1 sind, mit
denselben Bezugszeichen bezeichnet. In Fig. 4 hat das Sprach
erkennungssystem das erste Mikrophon 1, das zweite Mikrophon
2, den Sprachintervall-Feststellblock 60, den Koeffizienten-
Berechnungsblock 40 und den Geräuschannullierblock 50 in
der gleichen Weise wie die in Fig. 1 und 3 dargestellten
Systeme. Das Spracherkennungssystem hat auch einen Eingangs
mustergenerator 70, einen Referenzmusterspeicher (Bezugsmusterspeicher) 80 und einen
Erkennungsblock (Erkennungseinrichtung) 90. Der Eingangsmuster-Generator 70 erzeugt
ein Eingangsmuster auf der Basis des Spektrums S(i) der Spra
che, welche von dem Geräuschannullierblock 50 geliefert wird.
Der Referenzmusterspeicher 80 speichert vorherbestimmte Re
ferenzmuster von Sprachen. Der Erkennungsblock 90 vergleicht
das Eingangsmuster mit den Referenzmustern in dem Referenz
musterspeicher 80 und führt einen Erkennungsprozeß durch.
Ausführung und Arbeitsweise in dem Eingangsmuster-Generator
70, dem Bezugsmusterspeicher 80 und dem Erkennungsblock 90
sind beispielsweise diejenigen, welche in einem bekannten
BTSP-Spracherkennungsverfahren verwendet sind.
In dem vorstehend beschriebenen Spracherkennungssystem wird
ein Referenzmuster, welches dem Eingangsmuster angepaßt
ist von dem Erkennungsblock 90 als das Erkennungsergebnis
abgegeben.
Claims (12)
1. Sprachintervall-Feststelleinheit, um ein Sprachintervall, das einer Sprache
oder Stimme eines Sprechers entspricht, in einem Tonsignal festzustellen, mit
einer ersten Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme oder Sprache des Sprechers und Geräu sche in der Umgebung einzugeben und um ein Tonsignal, das den eingegebenen Tönen entspricht, abzugeben;
mit einer zweiten Eingabeeinrichtung (2), die weit von dem Sprecher weg vor gesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
mit einem Bandpaßfilter zur Aufteilung des Tonsignals in eine Anzahl vorherbe stimmter Frequenzbänder;
mit einer ersten Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jedem der Frequenz bänder aus dem Tonsignal zu extrahieren, das von der ersten Eingabeeinrichtung (1) abgegeben worden ist;
mit einer zweiten Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zweites Merkmal in jedem der Fre quenzbänder aus dem Bezugssignal zu extrahieren, das von der zweiten Ein gabeeinrichtung (2) abgegeben worden ist;
mit einer Koeffizientenberechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbunden ist, um einen Ge räuschkoeffizienten in jedem der Frequenzbänder basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wenn keine Sprache des Sprechers vorliegt;
mit einer Geräuschannulliereinrichtung (50), weiche mit der ersten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungsein richtung (40) verbunden ist, um ein Sprachmerkmal in jedem der Frequenzbänder basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizienten durch Eliminierung von Geräuschkomponenten aus dem ersten Merkmal abzulei ten;
mit einer ersten Sprachintervall-Feststelleinrichtung (30) zum Feststellen eines generellen Sprachintervalls, welches der Sprache oder Stimme des Sprechens in dem akustischen Signal entspricht, und mit
einer zweiten Sprachintervall-Feststelleinrichtung (60), welche mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, in jedem der Frequenzbänder in einem Feststellintervall auf Grund des von der Geräuschannulliereinrichtung (50) gelie ferten Merkmal festzustellen, wobei das Feststellintervall aus dem generellen, von der ersten Sprachintervall-Feststelleinrichtung festgestellten Intervall und einem vorherbestimmten Intervall gebildet wird, das zu dem generellen Sprachintervall addiert wird.
einer ersten Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme oder Sprache des Sprechers und Geräu sche in der Umgebung einzugeben und um ein Tonsignal, das den eingegebenen Tönen entspricht, abzugeben;
mit einer zweiten Eingabeeinrichtung (2), die weit von dem Sprecher weg vor gesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
mit einem Bandpaßfilter zur Aufteilung des Tonsignals in eine Anzahl vorherbe stimmter Frequenzbänder;
mit einer ersten Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jedem der Frequenz bänder aus dem Tonsignal zu extrahieren, das von der ersten Eingabeeinrichtung (1) abgegeben worden ist;
mit einer zweiten Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zweites Merkmal in jedem der Fre quenzbänder aus dem Bezugssignal zu extrahieren, das von der zweiten Ein gabeeinrichtung (2) abgegeben worden ist;
mit einer Koeffizientenberechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbunden ist, um einen Ge räuschkoeffizienten in jedem der Frequenzbänder basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wenn keine Sprache des Sprechers vorliegt;
mit einer Geräuschannulliereinrichtung (50), weiche mit der ersten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungsein richtung (40) verbunden ist, um ein Sprachmerkmal in jedem der Frequenzbänder basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizienten durch Eliminierung von Geräuschkomponenten aus dem ersten Merkmal abzulei ten;
mit einer ersten Sprachintervall-Feststelleinrichtung (30) zum Feststellen eines generellen Sprachintervalls, welches der Sprache oder Stimme des Sprechens in dem akustischen Signal entspricht, und mit
einer zweiten Sprachintervall-Feststelleinrichtung (60), welche mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, in jedem der Frequenzbänder in einem Feststellintervall auf Grund des von der Geräuschannulliereinrichtung (50) gelie ferten Merkmal festzustellen, wobei das Feststellintervall aus dem generellen, von der ersten Sprachintervall-Feststelleinrichtung festgestellten Intervall und einem vorherbestimmten Intervall gebildet wird, das zu dem generellen Sprachintervall addiert wird.
2. Sprachintervall-Feststelleinheit nach Anspruch 1, dadurch gekennzeichnet,
daß die zweite Sprachintervall-Feststelleinrichtung (60) eine Bestimmungsein
richtung aufweist, um zu bestimmen, ob das Sprachmerkmal in jedem der Anzahl
Frequenzbänder größer als ein vorherbestimmter Schwellenwert ist oder nicht,
wobei, wenn die Bestimmungseinrichtung feststellt, daß das Sprachmerkmal
größer als der Schwellenwertpegel ist, die Sprachintervall-Feststelleinrichtung das
Sprachintervall in jedem der Anzahl Frequenzbänder feststellt.
3. Sprachintervall-Feststelleinheit nach Anspruch 2, dadurch gekennzeichnet,
daß die Sprachintervall-Feststelleinrichtung einen Schwellenwertgenerator hat, um
den Schwellenwertpegel auf der Basis des ersten und des zweiten Merkmals zu
erzeugen, welche von der ersten und der zweiten Merkmalsextraktionseinrichtung
(10, 20) in einer vorherbestimmten früheren Periode unter der Voraussetzung
abgegeben worden sind, daß keine Sprache des Sprechers vorliegt.
4. Sprachintervall-Feststelleinheit nach Anspruch 3, dadurch gekennzeichnet,
daß der Schwellenwert periodisch aktualisiert wird.
5. Sprachintervall-Feststelleinheit nach Anspruch 1, dadurch gekennzeichnet,
daß die Koeffizientenberechnungseinrichtung (40) dafür ausgebildet ist, um den
Geräuschkoeffizienten k(i) entsprechend der folgenden Formel zu berechnen:
k(i) = [X(i) + C₁]/[N(i) + C₂]wobei X(i) das erste Merkmal in jeder der Anzahl Frequenzbänder unter der
Bedingung darstellt, daß keine Stimme des Sprechers vorliegt, N(i) das zweite
Merkmal in jeder der Anzahl Frequenzbänder unter der Bedingung darstellt, daß
keine Stimme des Sprechers vorliegt, und C₁ und C₂ konstante Zahlen größer als
null sind.
6. Sprachintervall-Feststelleinheit nach Anspruch 5, dadurch gekennzeichnet,
daß die konstanten Werte C₁ und C₂ einander gleich sind.
7. Sprachintervall-Feststelleinheit nach Anspruch 1, dadurch gekennzeichnet,
daß jede der ersten Eingabeeinrichtungen (1) und der zweiten Eingabeeinrichtungen (2) ein Mikrophon
aufweist.
8. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 bis 7, dadurch
gekennzeichnet, daß die Sprachintervall-Feststelleinrichtung ferner einen Laut
sprecher (2s) aufweist, welchem ein Tonsignal von einer externen Einheit zu
geführt wird, und daß die zweite Eingabeeinrichtung (2) eine Einrichtung hat, um
das von dem Lautsprecher (2s) gelieferte Tonsignal einzugeben.
9. Sprachintervall-Feststelleinheit nach Anspruch 1, dadurch gekennzeichnet,
daß die erste Sprachintervall-Feststelleinrichtung (30) dafür ausgebildet ist, um
das generelle Sprachintervall festzustellen, falls eine Leistung einer Sprache,
welche aus den Sprechmerkmalen in allen der Anzahl Frequenzbänder erhalten
wird, welche von der Geräuschannulliereinrichtung zugeführt worden sind, größer
als ein vorherbestimmter Schellenwert ist.
10. Sprachintervall-Feststelleinheit nach Anspruch 1, dadurch gekennzeichnet,
daß die erste Sprachintervall-Feststelleinrichtung (30) dafür ausgebildet ist, um
das generelle Sprachintervall festzustellen, falls eine Differenz zwischen einer
Gesamtleistung des Tonsignals und einer Gesamtleistung des Bezugssignals größer
als ein vorherbestimmter Schwellenwert ist, die Gesamtleistung des Tonsignals
eine Gesamtsumme der ersten Merkmale in allen der Anzahl Frequenzbänder ist,
welche von der ersten Merkmalsextraktionseinrichtung (10) geliefert worden ist,
und die Gesamtleistung des Bezugssignals eine Gesamtsumme der zweiten Merk
male in allen der Anzahl Frequenzbänder ist, welche von der zweiten Merkmals
extraktionseinrichtung (20) geliefert worden sind.
11. Sprachintervall-Feststelleinheit nach einem der vorhergehenden Ansprüche,
gekennzeichnet durch deren Verwendung in einem Spracherkennungssystem, um
Sprache auf der Grundlage einer Stimme eines Sprechers zu erkennen, wobei das
Spracherkennungssystem aufweist:
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Grundlage von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprach intervallen zu erzeugen, welche mittels der zweiten Sprachintervall-Feststelleinrichtung (60) festgestellt worden sind,
eine Speichereinrichtung (80) zum Speichern von Referenzmustern, und
eine Erkennungseinrichtung (90), um Sprache auf der Grundlage des eingegebe nen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Grundlage der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Grundlage von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprach intervallen zu erzeugen, welche mittels der zweiten Sprachintervall-Feststelleinrichtung (60) festgestellt worden sind,
eine Speichereinrichtung (80) zum Speichern von Referenzmustern, und
eine Erkennungseinrichtung (90), um Sprache auf der Grundlage des eingegebe nen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Grundlage der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.
12. Sprachintervall-Feststelleinheit nach Anspruch 4 oder 10, dadurch gekenn
zeichnet, daß die Geräuschannulliereinrichtung (50) dafür ausgebildet ist, um das
Merkmal S(i) der Sprache entsprechend der folgenden Formel zu berechnen:
S(i) = X(i) - k(i) N(i).
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21519790 | 1990-08-15 | ||
| JP21519690 | 1990-08-15 | ||
| JP12495391 | 1991-04-25 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE4126902A1 DE4126902A1 (de) | 1992-02-20 |
| DE4126902C2 true DE4126902C2 (de) | 1996-06-27 |
Family
ID=27315007
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19914126902 Expired - Fee Related DE4126902C2 (de) | 1990-08-15 | 1991-08-14 | Sprachintervall - Feststelleinheit |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE4126902C2 (de) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19818608A1 (de) * | 1998-04-20 | 1999-10-21 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur Sprachdetektion und Geräuschparameterschätzung |
| DE10030105A1 (de) * | 2000-06-19 | 2002-01-03 | Bosch Gmbh Robert | Spracherkennungseinrichtung |
Families Citing this family (113)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0974329A3 (de) * | 1998-07-02 | 2001-09-12 | Altura Leiden Holding B.V. | Steuerungseirichtung für Sanitärgegenstände |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US20030033144A1 (en) * | 2001-08-08 | 2003-02-13 | Apple Computer, Inc. | Integrated sound input system |
| US7349849B2 (en) | 2001-08-08 | 2008-03-25 | Apple, Inc. | Spacing for microphone elements |
| ATE430321T1 (de) | 2003-02-25 | 2009-05-15 | Oticon As | Verfahren zur detektion der eigenen sprachaktivität in einer kommunikationseinrichtung |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| KR102698417B1 (ko) | 2013-02-07 | 2024-08-26 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
| US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE1512758C1 (de) * | 1967-02-14 | 1977-09-15 | Sennheiser Electronic | Vocoder fuer hohe Stoerlautstaerken |
| JPS56135898A (en) * | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
| JPS58130395A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声区間検出装置 |
| JPS58196599A (ja) * | 1982-05-12 | 1983-11-16 | 松下電器産業株式会社 | 音声認識装置 |
| JPS63262695A (ja) * | 1987-04-21 | 1988-10-28 | 日本電気株式会社 | 音声認識方式 |
| JPH01118900A (ja) * | 1987-11-01 | 1989-05-11 | Ricoh Co Ltd | 雑音抑圧装置 |
| US4912767A (en) * | 1988-03-14 | 1990-03-27 | International Business Machines Corporation | Distributed noise cancellation system |
-
1991
- 1991-08-14 DE DE19914126902 patent/DE4126902C2/de not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19818608A1 (de) * | 1998-04-20 | 1999-10-21 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur Sprachdetektion und Geräuschparameterschätzung |
| DE19818608C2 (de) * | 1998-04-20 | 2000-06-15 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur Sprachdetektion und Geräuschparameterschätzung |
| DE10030105A1 (de) * | 2000-06-19 | 2002-01-03 | Bosch Gmbh Robert | Spracherkennungseinrichtung |
Also Published As
| Publication number | Publication date |
|---|---|
| DE4126902A1 (de) | 1992-02-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE4126902C2 (de) | Sprachintervall - Feststelleinheit | |
| DE69331181T2 (de) | Tonverstärkervorrichtung mit automatischer Unterdrückung akustischer Rückkopplung | |
| DE69611421T2 (de) | Verfahren zur Reduzierung von Audioaufzeichnung beeinflussenden Vor- und Nachechos | |
| DE60027438T2 (de) | Verbesserung eines verrauschten akustischen signals | |
| DE3837066A1 (de) | Rauschunterdrueckungseinrichtung | |
| DE69105760T2 (de) | Einrichtung zur Signalverarbeitung. | |
| DE69614989T2 (de) | Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung | |
| EP1143416B1 (de) | Geräuschunterdrückung im Zeitbereich | |
| EP1091349B1 (de) | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung | |
| DE69121312T2 (de) | Geräuschsignalvorhersagevorrichtung | |
| DE2659096C2 (de) | ||
| DE2719973C2 (de) | ||
| DE69131739T2 (de) | Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal | |
| DE68929442T2 (de) | Vorrichtung zur Erfassung von Sprachlauten | |
| DE69612701T2 (de) | Echokompensation mit adaptivem filter im frequenzbereich | |
| DE3233637A1 (de) | Vorrichtung zur bestimmung der dauer von sprach- oder tonsignalen | |
| EP0698986A2 (de) | Verfahren zur adaptiven Echokompensation | |
| EP0296588A2 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
| DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
| DE112007003625T5 (de) | Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm | |
| DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
| DE69106588T2 (de) | Vorrichtung um Sprachgeräusch zu trennen. | |
| DE3733983A1 (de) | Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen | |
| DE69112855T2 (de) | Sprachsignalverarbeitungsvorrichtung. | |
| DE10157535B4 (de) | Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| D2 | Grant after examination | ||
| 8364 | No opposition during term of opposition | ||
| 8325 | Change of the main classification |
Ipc: G10L 3/00 |
|
| 8339 | Ceased/non-payment of the annual fee |