DE3101851A1 - Verfahren zur abtastung von sprache - Google Patents
Verfahren zur abtastung von spracheInfo
- Publication number
- DE3101851A1 DE3101851A1 DE19813101851 DE3101851A DE3101851A1 DE 3101851 A1 DE3101851 A1 DE 3101851A1 DE 19813101851 DE19813101851 DE 19813101851 DE 3101851 A DE3101851 A DE 3101851A DE 3101851 A1 DE3101851 A1 DE 3101851A1
- Authority
- DE
- Germany
- Prior art keywords
- autocorrelation coefficient
- speech
- state
- speech signal
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000005070 sampling Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 206010013887 Dysarthria Diseases 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002559 palpation Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
BESCHREIBUNG
Die Erfindung betrifft ein Verfahren zur Sprachabtastung, um den Bereich der Existenz eines Eingangssprachsignales
in einem Spracherkennungssystem oder dergleichen abzutasten.
Bislang hat man als kennzeichnende Größen zur Abtastung des Bereiches der Existenz eines Eingangssprachsignales im
wesentlichen die Leistungsinformation des Spracheingangssignales
verwendet, und außerdem sind die Nulldurchgangsinformation des Eingangssprachsignals oder dergleichen
empirisch verwendet worden. Ein Verfahren, bei dem die Nulldurchgangsinformation
ausgenutzt wird, verwendet, daß die Anzahl von Zeitpunkten, zu denen ein Nulldurchgang stattfindet,
größer ist bei stimmlosen Konsonanten, welche große Hochfrequenzanteile haben als bei stimmhaften Lauten und Gerauschen,
die große niederfrequente Anteile haben. Wenn jedoch die Verteilung der entsprechenden Anzahlen von Zeitpunkten
der Nulldurchgänge von stimmlosen Konsonanten, stimmhaften Lauten und Rauschen untersucht wird, so besteht in
vielen Teilen eine Koinzidenz der Anzahl von Zeitpunkten miteinander, und es ist schwierig, eine Klassifzierung hoher
Präzision zu erreichen, indem man die Anzahl von Zeitpunkten der Nulldurchgänge verwendet.
Bei dem angegebenen herkömmlichen Verfahren war es z.B. schwierig, die stimmlosen Konsonanten "s" und "h" am Anfangspunkt
und Endpunkt eines Eingangssprachsignales abzutasten. Somit wurde der Schwellwert bei der Entscheidung verringert,
um die Abtastempfindlichkeit zu erhöhen. Infolgedessen hat sich das Problem ergeben, daß z.B. das Geräusch oder Rauschen
eines Raumes als Eingangssprachsignal angesehen und irrtümlich abgetastet wird. In dem Falle, wo die Sprache
130051/0455
durch ein herkömmliches Telefon empfangen wird, neigen Umgebungsgeräusche
einschließlich der Raumgeräusche oder dergleichen, dazu, sich mit der Sprache zu vermischen, da
das Telefon keine Richtverstärkung besitzt, und es ist ein sehr wesentlicher Gesichtspunkt, zwischen dem Eingangssprachsignal
und dem Umgebungsgeräusch zu unterscheiden.
Aufgabe der Erfindung ist es, ein Verfahren zur Sprachabtastung anzugeben, das kennzeichnende Größen mit ungleichen
Werten in Abhängigkeit von einem Eingangssprachsignal und Umgebungsgerauschen verwendet, um damit die sonst auftretenden
Schwierigkeiten auszuräumen.
Zur Erreichung dieses Zieles beruht die Erfindung, unter Berücksichtigung der Tatsache, daß die Differenz der
allgemeinen Formen der Frequenzspektren eines stimmlosen Konsonanten und Umgebungsgeräusch in einem Eingangssprachsignal
beim Wert des partiellen Autokorrelationskoeffizienten
erster Ordnung auftritt, darauf, daß der partielle Autokorrelationskoeffizient erster Ordnung und die oben beschriebene
Leistungsinformation (Autokorrelationskoeffizient nullter Ordnung) als kennzeichnende Größen verwendet werden.
Genauer gesagt, der partielle Autokorrelationskoeffizient
erster Ordnung und der Autokorrelationskoeffizient nullter Ordnung, die aus einem Eingangssprachsignal herausgezogen
werden, werden mit vorgegebenen Schwellwerten verglichen, um dadurch zwischen wahrem Eingangssprachsignal und Umgebungsgeräusch
zu unterscheiden.
Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen und unter Bezugnahme auf die beiliegende
Zeichnung näher erläutert. Die Zeichnung zeigt in Figur 1 ein Diagramm zur Erläuterung des Prinzips in dem
Falle, wo die Art des Eingangssprachsignals unter Verwendung des erfindungsgemäßen Verfahrens bestimmt
wird;
Figur 2 ein Blockschaltbild zur Erläuterung einer erfindungsgemäßen Ausführungsform; und in
Figur 2 ein Blockschaltbild zur Erläuterung einer erfindungsgemäßen Ausführungsform; und in
130051/0455
Figur 3 ein Diagramm zur Erläuterung von experimentellen Daten zu der Zeit, wo ein Sprachintervall mit dem
erfindungsgemäßen Verfahren abgetastet wird.
Wie an sich bekannt, haben übliche stimmlose Konsonanten Frequenzspektren, die die Eigenschaft der Betonung eines Hochfrequenzbereiches
haben, wobei die Anteile in einem Hochfrequenzbereich von 3 bis 10 kHz vergleichsweise groß sind.
Andererseits haben übliche Umgebungsgeräusche eine geringe Leistung, aber ihre Frequenzeigenschaften sind die
Eigenschaften der Betonung eines Niederfrequenzbereiches, wobei Gradienten in der Größenordnung von -9 dB/oct haben,
so daß die Leistung mit -9 dB bei jeder Frequenzverdopplung abgeschwächt wird.
Stimmhafte Laute, wie z.B. Vokale, haben die Frequenzeigenschaft der Betonung des Niederfrequenzbereiches in ähnlicher
Weise wie übliches Umgebungsgeräusch, jedoch haben sie eine höhere Leistung verglichen mit dem Umgebungsgeräusch.
Wenn die Unterschiede der Charakteristika oder Eigenschaften
verwendet werden, so ist die Abtastung eines Sprachintervalles möglich, indem man die Sprachsignale wie folgt
klassifiziert:
(i) Wenn ein Sprachsignal zum Niederfrequenz-Betonungsbereich gehört und mindestens eine vorgegebene Leistung Θ- hat,- ist
es ein stimmhafter Laut.
(ii) Wenn ein Sprachsignal zum Niederfrequenzbetonungsbereich gehört und seine Leistung unterhalb der vorgegebenen Leistung
Θ2 liegt, ist es ein Umgebungsgeräusch.
(iii) Wenn ein Sprachsignal zum Hochfrequenz-Betonungsbereich gehört, ist es ein stimmloser Konsonant, unabhängig von dem
Wert oder der Größe der Leistung.
Hierbei besteht in dem Falle, wo ein Sprachsignal mit einer extrem niedrigen Leistung abgetastet worden ist, obwohl
es die Eigenschaft des Hochfrequenz-Betonungsbereiches aufweist, die Möglichkeit, daß ein Sprachsignal, das kein stimmloser
Konsonant ist, wegen eines Rechenfehlers bei der Ab-
130051/0455
— D —
tastung des Sprachintervalles oder dergleichen vermischt
wird. Wenn die Leistung unterhalb von Θ^ ist, wobei
Θ- < ©2 gilt, so muß das abgetastete Sprachsignal ausgeschlossen
werden.
Nachstehend wird das Prinzip gemäß der Erfindung näher erläutert, gemäß dem die oben angegebene Klassifizierung
vorgenommen wird, indem man den partiellen Autokorrelationskoeffizienten
erster Ordnung und den Autokorrelationskoeffizienten nullter Ordnung (Leistungsinformation) verwendet.
Der Einfachheit halber wird bei der nachstehenden Beschreibung ein Eingangssprachsignal in ein Signal mit einer
einzigen Frequenz umgeformt.
Der partielle Autokorrelationskoeffizient erster Ordnung (k-) wird mittels Gleichung (1) aus dem Autokorrelationskoeffizienten
nullter Ordnung (v ) und dem Autokorrelationskoeffizienten erster Ordnung (V1) errechnet:
k1 = V1Zv0 . (1).
Die Kreisfrequenz ω, zu der die Abtastfrequenz f„ des
Eingangssprachsignals unter Verwendung von 2 ir normiert wird, wird berücksichtigt, und das Eingangssprachsignal ist
beispielsweise durch die nachstehende Gleichung (2) gegeben:
f (t) = A sin(ü)t + Φ) (2)
Zu diesem Zeitpunkt haben ν und v.. folgende Werte:
νο = ΊΓ <3>
<
a2
V1 = ~2~ * COSÜ)Ts · (4)
V1 = ~2~ * COSÜ)Ts · (4)
Aus den Gleichungen (3) und (4) ergibt sich
k1 = COSu)Tg (5) ,
wobei Ts = 1/fg gilt.
130051/0455
Wenn hierbei die Faltfrequenz f_, die gegeben ist durch die halbe Abtastfrequenz f-, wenn also gilt
fR = fs/2 E 2 π/2 = π,
der Frequenzbandbreite BW des Eingangssprachsignales entspricht, so gelten
(I) für ~ < BW < π (auf der Hochfrequenzseite),
-1 < Jc1 <
O
(II) für O < BW < -| (auf der Niederfrequenzseite) ,
O < k.j
< 1.
Andererseits ist v~ eine Größe, die der Leistung entspricht
und immer positiv ist.
Aus der obigen Untersuchung ergibt sich, daß k- eines
Sprachsignales, dessen Hochfrequenzanteil intensiv ist, dicht an (-1) herankommt, während k- eines Sprachsignales, dessen
Niederfrequenzanteil intensiv ist, dicht an (+1) herankommt.
Es konnte experimentell verifiziert werden, daß auch in dem Falle, wo das Band erheblich begrenzt ist, wie z.B.
beim Telefon, k- < 0,7 für die stimmlosen Konsonanten "s"
und "h" gilt, während k- > 0,7 für Umgebungsgeräusche gilt.
Durch Auswertung der Eigenschaften von k- in der oben
beschriebenen Weise und der Tatsache, daß normalerweise die Signalkomponente eine größere Leistung als die Rauschkomponente
hat, können dementsprechend Eingangssprachsignale in die Gruppen (i) - (iii) klassifiziert werden.
Die Abtastung von Anfang und Ende des Eingangssprachintervalles, kann, unter Berücksichtigung der Klassifizierungen
(i) - (iii) beispielsweise folgendermaßen erfolgen:
Θ.., Θ-: Vorgegebene Schwellwerte hinsichtlich der
Leistung (G2 > Q^),
δ: vorgegebener Schwellwert hinsichtlich des
δ: vorgegebener Schwellwert hinsichtlich des
partiellen Autbkorrelationskoeffizienten erster Ordnung (im allgemeinen wird er auf Werte gesetzt,
130051/0455
die sich in Abhängigkeit von dem Wert der Leistung ändern),
T-,, TT, T„: vorgegebene Schwellwerte für die Zeit.
T-,, TT, T„: vorgegebene Schwellwerte für die Zeit.
D i. Ci
(1·) V0 > B2,
(21) V0 > O1 (Θ2 > Q1) und Ic1 < δ.
(21) V0 > O1 (Θ2 > Q1) und Ic1 < δ.
Wenn ein Zustand, der den Beziehungen (1')oder (21)
genügt, zumindest für das Zeitintervall Tc kontinuierlich
oder unterbrochen gilt, wird bestimmt, daß ein Eingangssprachintervall begonnen hat. Wenn ein Zustand, der weder
der Beziehung (11) noch (21) genügt, für mindestens das
Zeitintervall T£ kontinuierlich oder unterbrochen gilt, wird
entschieden, daß das Eingangssprachintervall beendet ist. Somit wird das Eingangssprachintervall abgetastet.
In dem Falle, wo der Zustand unterbrochen oder in einer Ein-Aus-Weise gilt, wird der Aus-Zustand als nicht
existent betrachtet, wenn er für eine kürzere Zeitspanne als T- andauert.
Figur 1 zeigt Einstellbeispiele für die Schwellwerte Θ-, Θj und δ zur Bestimmung der Arten von Sprachsignalen
auf der Basis der Werte von vQ und k- sowie Bereiche, in
denen die entsprechenden Sprachsignale und Umgebungsgeräusche in Abhängigkeit von den Schwellwerten abgetastet werden.
In Figur 1 entspricht ein Bereich I dem Typ (iii) und gibt an, daß das Eingangssprachsignal ein stimmloser Konsonant
ist, während ein Bereich II dem Typ (i) entspricht und angibt, daß das Eingangssprachsignal ein stimmhafter Laut
ist. Ein Bereich III entspricht dem Typ (ix) und gibt an, daß das Eingangssprachsignal ein Umgebungsgeräusch einschließlich
von Raumrauschen und zufälligem Rauschen aufgrund des Rechenfehlers bei der Abtastung eines Sprachintervalles
oder dergleichen ist. Experimentell wurde verifiziert, daß normalerweise erwünscht ist, δ in Abhängigkeit von vQ
zu variieren, mit anderen Wo'rten, δ als Funktion von vo
130051/0455
einzustellen, also 6 = δ(ν_). Im Falle von einigen Eingangssprachsignalen,
kann diese Größe auch auf einen festen Wert eingestellt werden, z.B. auf δ = 0,7.
Ein tatsächliches Eingangssprachsignal hat nicht eine einzige Frequenz, sondern hat eine Wellenform, bei der eine
Vielzahl von Frequenzanteilen kombiniert ist. Somit können die Summen der Leistungswerte und der Autokorrelationskoeffizienten
erster Ordnung der entsprechenden Frequenzanteile als Koeffizienten vQ bzw. v.. verwendet werden, um
den partiellen Autokorrelationskoeffizienten erster Ordnung aus k- = v./v» zu ermitteln.
Genauer gesagt, wenn man annimmt, daß das Frequenzband des Eingangssprachsignales f_ - f (Hz) ist, so wird
die Wellenform des tatsächlichen Eingangssprachsignals ungefahr durch nachstehende Gleichung ausgedrückt:
N
f(t) = Σ an sin(n ü)q t + φη) (6),
f(t) = Σ an sin(n ü)q t + φη) (6),
wobei ω_ = 2 ir f und N die Anzahl der Frequenzanteile
bedeuten.
Aus dieser Gleichung lassen sich die Werte vQ und vin
den Gleichungen (3) und (4) folgendermaßen ausdrücken:
JL f
Γτι 1
F J,
T
F f(t)2 dt (T^: Länge eines Rahmens) (7);
F f(t)2 dt (T^: Länge eines Rahmens) (7);
a 2
-1F
V1 = ^- I f(t)-f(t + T0) dt (Tc: Abtastperiode) (8).
1 TF J S S
J 0
1 N 2
■χ Σ a cos η ui Tc
-2 η=1 η OS
130051/0455
Dementsprechend wird der Wert k- folgendermaßen berech
net:
N 2
Σ a cos η ω Τ
_- η ο
J
_- η ο
J
N
Σ
Σ
Im Falle von Telefonsprachsignalen beträgt das Frequenzband üblicherweise etwa 150 bis 4000 Hz, und somit kann die
Abtastfrequenz auf fg = 8000 Hz eingestellt werden. Dementsprechend
beträgt die Abtastperiode Tc = 1/fc = 125 ys.
Die Länge eines Rahmens sollte auf einen geeigneten Wert eingestellt werden, zweckmäßigerweise so, daß er kurz für
einen Laut abrupter Änderung ist, wie z.B. Verschlußlaute, während er lang ist für einen Laut langsamer Änderung, wie
z.B. eine sprechende Stimme mit geringer Intonation. Üblicherweise
wird er auf etwa 5 ms bis 20 ms eingestellt.
Nachstehend wird die Erfindung anhand eines Ausführungsbeispiels
näher erläutert. Figur 2 zeigt ein Blockschaltbild einer erfindungsgemäßen Ausführungsform.
Ein Eingangssprachsignal 1 geht durch einen Tiefpaßfilter 2 hindurch, um reflektiertes Rauschen zu verhindern,
und wird mit einem Analog/Digital-Wandler 3 in digitale Daten umgewandelt, wobei die digitalen Daten an einen Eingangspufferspeicher 4 angelegt werden. Der Eingangspufferspeicher
4 hat einen Doppelpufferaufbau, der aus zwei Speicherbereichen
4-1 und 4-2 besteht, die jeweils einer Rahmenperiode entsprechende Daten speichern. Während Daten an den einen Bereich,
z.B. den Speicherbereich 4-2, angelegt werden, wird eine vorgegebene Verarbeitung für bereits angelegte Daten
im anderen Bereich, z.B. dem Speicherbereich 4-1 durchgeführt.
Mit einem von einer Steuerung 5 erzeugten Steuersignal werden die Daten innerhalb des Speicherbereiches 4-1 z.B.
130051/0455
in der angelegten Folge zu einem Register 6 übertragen.
Zu dieser Zeit werden Daten, die an das Register 6 eine Abtastperiode eher angelegt worden sind, zu einem Register
übertragen.
Die mit Dg bezeichneten Daten, die im Register 6 gespeichert
sind, und die mit D- bezeichneten Daten, die im Register7 gespeichert sind, werden jeweils an Multiplizierer
8 und 9 angelegt. Das vom Multiplizierer 8 gelieferte Multiplikationsergebnis Dg X Dg wird zum Inhalt eines Akkumulators
10 hinzuaddiert, während das vom Multiplizierer 9 gelieferte Multiplikationsergebnis Dg χ D7 zum Inhalt eines Akkumulators
11 hinzuaddiert wird.
Wenn die obigen Rechenvorgänge für sämtliche Daten innerhalb des Speicherbereiches 4-1 beendet sind, sind die
Operationen der Integrale in den Gleichungen (7) und (8) in den Akkumulatoren 10 bzw. 11 ausgeführt. Im Akkumulator 10
ist als Tp-fache des Autokorrelationskoeffizienten nullter Ordnung vQ entsprechend der Leistungsinformation für die
Daten (vQ · T„) erhalten worden, während im Akkumulator 11
das Τρ,-fache des Korrelationskoeffizienten erster Ordnung
V1 mit (V1 · Tp) erhalten worden ist. Da T„ eine Konstante
ist, ist es nicht erforderlich, die erhaltenen Werte speziell durch Tp zu teilen, wenn die Schwellwerte Θ..., Q- vorher mit
Tp multipliziert werden. Wie sich aus Gleichung (9) ergibt,
bleibt k^ auch dann unverändert, wenn Tp im Zähler und Nenner
enthalten ist, und somit tritt kein Problem auf. Nachstehend wird der mit Tp multiplizierte Wert als vQ oder V1 in der
Erläuterung berücksichtigt werden.
Die Ausgangsdaten vom Akkumulator 10 werden in einem Speicher innerhalb der Steuerung 5 gespeichert und dienen
gleichzeitig als Ausleseadresse für einen ROM 14. Das Ausgangssignal wird im ROM 14 in seinen Kehrwert 1/vQ umgewandelt
und dient als Multiplikator eines Multiplizierers 15. Im Multiplizierer 15 wird dieses Ausgangssignal mit dem Wert
Vv0 zum partiellen Autokorrelationskoeffizienten erster
130051/0455
Ordnung k- multipliziert, der in einem Register 16 gespeichert
und anschließend im Speicher in der Steuerung 5 gespeichert wird.
Anschließend werden aus den Daten in der nächsten Rahmenperiode die Koeffizienten v_ und Ic1 für diese Rahmenperiode
mit demselben Verfahren wie oben beschrieben berechnet. Sie werden im Speicher innerhalb der Steuerung 5 gespeichert.
Danach wird in der gleichen Weise ein Satz von Koeffizienten ν und k.. bei jeder Rahmenperiode berechnet, und
derartige Sätze von Koeffizienten werden nacheinander im Speicher innerhalb der Steuerung 5 gespeichert. Eine Reihe
von Steuersignalen, die für die oben beschriebenen Rechenvorgänge erforderlich sind, werden alle von der Steuerung
5 geliefert. Der Einfachheit halber ist jedoch nur der Fluß der Daten in Figur 2 dargestellt, während die Steuersignale
in der Zeichnung weggelassen sind.
Nachstehend wird ein konkretes Ausführungsbeispiel der Vorgänge zum Abtasten von Start und Ende eines Eingangssprachintervalles
unter Verwendung der Koeffizienten vo und kbeschrieben,
die aus den jeweiligen Rahmenperioden ermittelt worden sind.
(A) Start des Sprachintervalles:
ω v0 > G2
(2) vQ > Q1 (Θ2
> Q1) und k1
< 0,7.
Wenn den Beziehungen (?) oder (2) genügende Rahmen für mindestens Tg = 50 ms kontinuierlich gelten, wird bestimmt,
daß ein Eingangssprachintervall begonnen hat.
Auch dann jedoch, wenn der Zustand, in dem die Bedingung kontinuierlich erfüllt ist, unterbrochen wird, wird
die Unterbrechung als nicht-existent angesehen, wenn der oder die unterbrochenen Rahmen kürzer sind als T1 = 30 ms.
(B) Ende des Sprachintervalles:
130051/0455
Cl) vQ < Θ4 und k1
> 0,7
© V0 < Θ3.
© V0 < Θ3.
Wenn den Beziehungen (T) oder (2) genügende Rahmen für mindestens T„ = 300 ms kontinuierlich gelten, wird bestimmt,
daß das Eingangssprachintervall beendet ist.
Auch dann jedoch, wenn der Zustand, in dem die Bedingung kontinuierlich erfüllt ist, unterbrochen wird, wird die Unterbrechung
als nicht-existent angesehen, wenn der oder die unterbrochenen Rahmen kürzer sind als T1 = 30 ms.
Θ- und ©4 im Falle (B) können gleich Θ.. bzw. Q2 im Fall
(A) gemacht werden, oder sie können in die Relation Θ3 - Θ-
und Θ4 = Θ2 gebracht werden. Der Schwellwert δ für den Koeffizienten
k- ist auf 0,7 gesetzt worden, da sich dieser Wert experimentell als der optimale Schwellwert erwiesen hat, um
zu bestimmen^ ob die Eingangssprachsignale, auf welche sich die Ausfuhrungsform bezieht, stimmlose Konsonanten oder Umgebungsgeräusche
sind.
Die auf die Vergleichsvorgänge gerichteten Entscheidungen werden mittels eines speziellen Prozessors innerhalb der
Steuerung 5 in Figur 1 durchgeführt, z.B. mit einem Mikroprozessor oder dergleichen.
Lediglich der Vollständigkeit halber darf darauf hingewiesen werden, daß Änderungen der Schwellwerte hinsichtlich
der Koeffizienten vQ und k.., der Zeit bzw. der Anzahl von
Rahmen oder dergleichen, Änderungen der Entscheidungsvorgänge, Hinzufügen eines neuen Entscheidungskriteriums usw.
gewünschtenfalls entsprechend den Änderungen in den Umgebungs·
bedigungen vorgenommen werden können.
Außerdem kann nach der Abtastung des Sprachintervalles gemäß der Erfindung eine Erkennungsverarbextung, bei der
die abgetastete Sprache mit einem Standardmuster verglichen wird, mit dem Mikroprozessor in der Steuerung 5 durchgeführt
werden, indem man z.B. ein dynamischen Programmierverfahren verwendet.
130051/0455
Figur 3 zeigt ein Diagramm zur Erläuterung der Zeitänderungen der Koeffizienten vQ und k.. eines Eingangssprachsignals
"Shisutemuken" sowie des ümstandes, daß der Startpunkt
und der Endpunkt des Sprachsignales abgetastet werden können, indem man die Schwellwerte für vQ auf G1 (= ©3) und
Θ2 (= Θ4) einstellt.
Aus Figur 3 läßt sich entnehmen, daß mit dem herkömmlichen Verfahren nur unter Verwendung von vo, wenn der vorgegebene
Wert auf Q2 eingestellt wird, die Abtastung von "sh"
unmöglich ist, da Q^ < v_ <
©2 in einem Teil gilt, der "sh" als Startpunkt des Sprachsignales entspricht, während dann,
wenn der vorgegebene Wert auf Θ- verringert wird, um "sh"
abtastbar zu machen, zu befürchten ist, daß eine Verwechslung mit Umgebungsgerauschen auftritt.
Wenn im Gegensatz dazu der Koeffizient k- gemäß der Erfindung
zusätzlich verwendet wird, gilt für den Teil "sh" die Beziehung k-
< δ, und somit ist die Bedingung der Beziehung (2) im Falle (A) erfüllt; außerdem überschreitet die
Dauer des Eingangssprachsignales, das die Bedingung gemäß Beziehung (T) oder (2) im Fall (A) erfüllt, den vorgegebenen
Schwellwert T5, so daß der Startpunkt korrekt abgetastet
wird.
In einem Zwischenteil, der "te" entspricht, gelten die Beziehungen vQ
< Θ.. und k1
> 6, und somit sind beide Beziehungen (?) und (2) im Fall (B) erfüllt. Da jedoch die Dauer
eines solchen Zustandes kürzer ist als der vorgegebene Schwellwert T3-, wird dieser Zustand als zeitweilige Unterbrechung,
nicht aber als Ende des Sprachsignales verarbeitet.
Wenn der Endpunkt des Sprachsignales erreicht worden ist, sind beide Beziehungen (?) und (2) im Fall (B) erfüllt,
und die Dauer dieses Zustandes überschreitet den vorgegebenen Schwellwert T„, so daß der Endpunkt korrekt abgetastet wird.
(u) ist stimmlos, und wird infolgedessen weggelassen.
Die Abtastung des Sprachintervalles erfolgt unter Bezugnähme
auf die Zeitpunkte, bei denen der Startpunkt und der
130051/0455
Endpunkt bestimmt worden sind, wenn sie zunächst die Bedingungen (A) bzw. (B) erfüllen.
Im Falle der Anwendung dieser Erfindung auf die Vorgänge der Spracherkennung wird zu dem Zeitpunkt, wo die
Bedingung (T) oder (g) in (A) erfüllt ist, eine Erkennungsoperation dadurch ausgelöst, daß das Eingangssignal als
Kandidat für den Startpunkt des Sprachsignals angesehen wird, und wenn der fortgesetzte Zustand der Bedingung in
einer kürzeren Zeitspanne als Tg beendet ist, können die
bis dahin vorgenommenen Vorgänge zur Erkennung annuliert werden. Somit kann der Nachteil einer Abtastverzögerung vermieden
werden.
Wie oben dargelegt, können gemäß der Erfindung sogar stimmlose Konsonanten beim Startpunkt und Endpunkt eines
Eingangssprachsignales korrekt abgetastet werden, ohne daß eine Vermischung oder Verwechslung mit Umgebungsgeräuschen
stattfindet. Somit kann die Abtastgenauigkeit eines Sprachintervalles erheblich gesteigert werden, was beträchtlichen
praktischen Nutzen mit sich bringt.
130051/0455
Ά-
Leerseite
Claims (3)
- ■=>AT E-N TA N V"Ä LT F SCHIFF ν. FÜNER STnTtHL' SCHU-OtL-HOF^i=" EBBINGHAU-S - /-»'Il AMARIAHILFPLATZ 2*3, MÖNCHEN ΘΟ POSTADRESSE: POSTFACH 8BOI60. D-8OOO MÖNCHEN BBHITACHI, LTD. 21. Januar 1981DEA-25 383Verfahren zur Abtastung von SprachePATENTANSPRÜCHEVerfahren zur Abtastung von Sprache, g e k e η η zeichnet durch folgende Verfahrensschritte: Herausziehen eines Autokorrelationskoeffizienten nullter Ordnung und eines partiellen Autokorrelationskoeffizienten erster Ordnung bei jedem festen Extraktionsintervall aus einem Eingangssignal undEntscheiden, ob innerhalb des Sprachintervalles ein Eingangssignal vorliegt oder nicht und zwar in Abhängigkeit davon, ob ein erster Zustand, bei dem der Autokorrelationskoeffizient nullter Ordnung größer ist als ein erster Schwellwert, oder ein zweiter Zustand, bei dem der Autokorrelationskoeffizient nullter Ordnung größer ist als ein zweiter Schwellschwert und außerdem der partielle Autokorrelationskoeffizient erster Ordnung kleiner ist als ein dritter Schwellwert, im wesentliehen über eine vorgegebene Anzahl von Extraktionsintervallen angedauert hat.130051/0455■'- "- 2'- ■
- 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß der Startpunkt eines Sprachintervalles bestimmt wird, wenn mindestens einer der ersten und zweiten Zustände im wesentlichen über eine vorgegebene Anzahl von Extraktionsintervallen angedauert hat.
- 3. Verfahren nach Anpsruch 1, dadurch gekennzeichnet, daß der Endpunkt eines Sprachintervalles bestimmt wird, wenn der Zustand, bei dem weder der erste Zustand noch der zweite Zustand erfüllt sind, im wesentlichen über eine vorgegebene Anzahl von Extraktionsintervallen angedauert hat.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP569080A JPS56104399A (en) | 1980-01-23 | 1980-01-23 | Voice interval detection system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3101851A1 true DE3101851A1 (de) | 1981-12-17 |
DE3101851C2 DE3101851C2 (de) | 1984-05-30 |
Family
ID=11618089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3101851A Expired DE3101851C2 (de) | 1980-01-23 | 1981-01-21 | Vorrichtung zum Erkennen von Sprache |
Country Status (3)
Country | Link |
---|---|
US (1) | US4401849A (de) |
JP (1) | JPS56104399A (de) |
DE (1) | DE3101851C2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0074822A1 (de) * | 1981-09-11 | 1983-03-23 | Sharp Kabushiki Kaisha | Erkennung von Sprache oder sprachähnlichen Lauten |
EP0573760A1 (de) * | 1992-05-26 | 1993-12-15 | Vmx Inc. | Verfahren zum Identifizieren von Sprach- und Rufverlaufsignalen |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57191699A (en) * | 1981-05-22 | 1982-11-25 | Hitachi Ltd | Pattern matching apparatus |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
JPS58160996A (ja) * | 1982-03-19 | 1983-09-24 | 日本電信電話株式会社 | 雑音抑圧方式 |
JPS58170698U (ja) * | 1982-05-10 | 1983-11-14 | カシオ計算機株式会社 | 音声認識装置におけるノイズ防止回路 |
DE3243231A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
DE3243232A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
JPS59115625A (ja) * | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
GB2139052A (en) * | 1983-04-20 | 1984-10-31 | Philips Electronic Associated | Apparatus for distinguishing between speech and certain other signals |
JPS59216198A (ja) * | 1983-05-24 | 1984-12-06 | 三洋電機株式会社 | 音声の有声無声判定方式 |
JPS60230200A (ja) * | 1984-04-27 | 1985-11-15 | 日本電気株式会社 | 音声検出回路 |
JPH079581B2 (ja) * | 1985-02-28 | 1995-02-01 | ヤマハ株式会社 | 電子楽器 |
JPH079580B2 (ja) * | 1985-06-20 | 1995-02-01 | ヤマハ株式会社 | 電子楽器の制御装置 |
JPS62204300A (ja) * | 1986-03-05 | 1987-09-08 | 日本無線株式会社 | ボイススイツチ |
JPS6350900A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
US4829578A (en) * | 1986-10-02 | 1989-05-09 | Dragon Systems, Inc. | Speech detection and recognition apparatus for use with background noise of varying levels |
JPH07101354B2 (ja) * | 1986-12-26 | 1995-11-01 | 松下電器産業株式会社 | 音声区間検出装置 |
JPH01169499A (ja) * | 1987-12-24 | 1989-07-04 | Fujitsu Ltd | 単語音声区間切出し方式 |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
US5579431A (en) * | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
JPH07325599A (ja) * | 1994-12-28 | 1995-12-12 | Fujitsu Ltd | 音声蓄積装置 |
US5822726A (en) * | 1995-01-31 | 1998-10-13 | Motorola, Inc. | Speech presence detector based on sparse time-random signal samples |
WO1996034382A1 (en) * | 1995-04-28 | 1996-10-31 | Northern Telecom Limited | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JP3670754B2 (ja) * | 1996-04-15 | 2005-07-13 | オリンパス株式会社 | 信号処理装置 |
US6480823B1 (en) | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
US6327564B1 (en) | 1999-03-05 | 2001-12-04 | Matsushita Electric Corporation Of America | Speech detection using stochastic confidence measures on the frequency spectrum |
JP2004341033A (ja) * | 2003-05-13 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声媒介起動装置およびその方法 |
US7305099B2 (en) * | 2003-08-12 | 2007-12-04 | Sony Ericsson Mobile Communications Ab | Electronic devices, methods, and computer program products for detecting noise in a signal based on autocorrelation coefficient gradients |
US8364492B2 (en) * | 2006-07-13 | 2013-01-29 | Nec Corporation | Apparatus, method and program for giving warning in connection with inputting of unvoiced speech |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5712999B2 (de) * | 1974-04-08 | 1982-03-13 | ||
US4044309A (en) * | 1974-07-18 | 1977-08-23 | Narco Scientific Industries, Inc. | Automatic squelch circuit with hysteresis |
US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
JPS51149705A (en) * | 1975-06-18 | 1976-12-22 | Nippon Telegr & Teleph Corp <Ntt> | Method of analyzing drive sound source signal |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
JPS5912185B2 (ja) * | 1978-01-09 | 1984-03-21 | 日本電気株式会社 | 有声無声判定装置 |
-
1980
- 1980-01-23 JP JP569080A patent/JPS56104399A/ja active Granted
-
1981
- 1981-01-21 DE DE3101851A patent/DE3101851C2/de not_active Expired
- 1981-01-23 US US06/227,677 patent/US4401849A/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
US-IEEE Transactions on Audio and Electro- acoustics, Bd. AU-20, Dez. 1972, Nr.5, S.367-377 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0074822A1 (de) * | 1981-09-11 | 1983-03-23 | Sharp Kabushiki Kaisha | Erkennung von Sprache oder sprachähnlichen Lauten |
EP0573760A1 (de) * | 1992-05-26 | 1993-12-15 | Vmx Inc. | Verfahren zum Identifizieren von Sprach- und Rufverlaufsignalen |
Also Published As
Publication number | Publication date |
---|---|
JPS56104399A (en) | 1981-08-20 |
US4401849A (en) | 1983-08-30 |
JPH0121519B2 (de) | 1989-04-21 |
DE3101851C2 (de) | 1984-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3101851A1 (de) | Verfahren zur abtastung von sprache | |
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE3233637C2 (de) | Vorrichtung zur Bestimmung der Dauer von Sprachsignalen | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE69526007T2 (de) | Postfilter und Verfahren zur Postfilterung | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
EP0277613B1 (de) | Verfahren zur Übertragung eines Audiosignals | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE3247229A1 (de) | Anpasseinrichtung fuer sequenzmuster | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE60200632T2 (de) | Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens | |
DE4031638C2 (de) | ||
DE3422877C2 (de) | ||
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2636032B2 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE69721395T2 (de) | Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation | |
DE3043516A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE68907098T2 (de) | Differentieller Kodierer mit auto-adaptivem Prädiktorfilter und dazugehörigem Dekodierer. | |
EP0777326B1 (de) | Verfahren und Vorrichtung zur Filterung eines Audiosignals | |
DE2920041C2 (de) | Verfahren zum Verifizieren von Signalen, und Anordnung zum Durchführen des Verfahrens | |
EP1382034B1 (de) | Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen | |
DE69614799T2 (de) | Übertragungssystem und -verfahren für die sprachkodierung mit verbesserter detektion der grundfrequenz | |
EP0916206B1 (de) | Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8128 | New person/name/address of the agent |
Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |