DE3101851C2 - Vorrichtung zum Erkennen von Sprache - Google Patents
Vorrichtung zum Erkennen von SpracheInfo
- Publication number
- DE3101851C2 DE3101851C2 DE3101851A DE3101851A DE3101851C2 DE 3101851 C2 DE3101851 C2 DE 3101851C2 DE 3101851 A DE3101851 A DE 3101851A DE 3101851 A DE3101851 A DE 3101851A DE 3101851 C2 DE3101851 C2 DE 3101851C2
- Authority
- DE
- Germany
- Prior art keywords
- speech signal
- speech
- state
- frequency
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Abstract
Es wird ein Verfahren zur Sprachabtastung angegeben, bei dem ein Autokorrelationskoeffizient nullter Ordnung und ein partieller Autokorrelationskoeffizient erster Ordnung aus einem angelegten Sprachsignal bei jedem festen Extraktionsintervall herausgezogen werden; wenn entweder ein erster Zustand, bei dem der Autokorrelationskoeffizient nullter Ordnung größer ist als ein vorgegebener erster Schwellwert, oder ein zweiter Zustand, bei dem der Autokorrelationskoeffizient nullter Ordnung größer ist als ein vorgegebener zweiter Schwellwert und außerdem der partielle Autokorrelationskoeffizient erster Ordnung kleiner ist als ein vorgegebener dritter Schwellwert, im wesentlichen über eine vorgegebene Anzahl von Extraktionsintervallen angedauert hat, wird bestimmt, daß ein Startpunkt des Sprachsignales abgetastet worden ist. Wenn ein Zustand, der weder dem ersten Zustand noch dem zweiten Zustand entspricht, im wesentlichen über eine vorgegebene Anzahl von Extraktionsintervallen angedauert hat, wird entschieden, daß ein Endpunkt des Sprachsignales abgetastet worden ist, so daß das Intervall der Existenz eines Sprachsignales abgetastet wird.
Description
Die Erfindung betrifft eine Vorrichtung zum Erkennen von Sprache, mit einer Einrichtung, die aus dem
Eingangssignal in jedem festen Abtastintervall den Autokorrelationskoeffizient nullter Ordnung sowie einen
weiteren AutokorrelationEkoeffizient ableitet
Bislang hat man bei der Abtastung eines Eingangssprachsignals als kennzeichnende Größen für den Bereich
der Existenz dieses Eingangssprachsignals im wesentlichen die Leistungsinfcitnation des Spracheingangssignales
verwendet und außerdem sind die Nulldurchgangs- Information des Eingangssprachsignals oder dergleichen
empirisch verwendet worden.
jo Ein Verfahren, bei dem die Nulldurchgangsinformation ausgenutzt wird, verwendet die Tatsache, daß die
_. Anzahl von Zeitpunkten» zu denen ein Nulldurchgang stattfindet, größer ist als bei stimmlosen Konsonanten,
tf welche große Hochfrequenzanteile haben, als bei stimmhaften Lauten und Geräuschen, die große niederfre-
p! quente Anteile haben. Wenn jedoch die Verteilung der entsprechenden Anzahlen von Zeitpunkten der NuIl-
j:f durchgänge von stimmlosen Konsonanten, stimmhaften Lauten und Rauschen untersucht wird, so besteht in
i}| 35 vielen Teilen eine Koinzidenz acr Anzahl von Zeitpunkten miteinander, und es ist schwierig, eine Klassifizierung
jj hoher Präzision zu erreichen, indem man die Anzahl von Zeitpunkten der Nulldurchgänge verwendet.
M Aus IEEE Transactions on Audio and Electroacoustics 20, Nr. 5/1972), S. 367, ist ein Verfahren bekannt, bei
(H dem ein als SIFT (simplified inverse filter tracking) bezeichneter Algorithmus benutzt wird. Unter Verwendung
Il des Autokonditionskoeffizienten erster Ordnung wird die Grundfrequenz der Sprache besiimmt. Bei diesem
(| 40 Verfahren wie auch bei den anderen herkömmlichen Verfahren war es schwierig, die stimmlosen Konsonanten
H »s« und »h« am Anfangspunkt und Endpunkt eines Eingangssprachsignales abzutasten. Somit wurde der
Schwellwert bei der Entscheidung verringert, um die Abtastempfindlichkeit zu erhöhen. Infolgedessen hat sich
das Problem ergeben, daß z. B. das Geräusch oder Rauschen eines Raumes als Eingangssprachsignal angesehen
und irrtümlich abgetastet wird. In dem Falle, wo die Sprache durch ein herkömmliches Telefon empfangen wird,
neigen Umgebungsgeräusche einschließlich der Raumgeräusche oder dergleichen, dazu, sich mit der Sprache zu
vermischen, da das Telefon keine Richtverstärkung besitzt, und es ist ein sehr wesentlicher Gesichtspunkt,
zwischen dem Eingangssprachsignal und dem Umgebungsgeräusch zu unterscheiden.
Aufgabe der Erfindung ist es, eine Vorrichtung zum Erkennen von Sprache anzugeben, die kennzeichnende
Größen verwendet, die in Abhängigkeit von einem Eingangssprachsignal und Umgebungsgeräuschen ungleiche
Werte haben, um damit die sonst auftretenden Schwierigkeiten auszuräumen.
Diese Aufgabe wird bei der in Rede stehenden Vorrichtung durch die im Kennzeichen des Patentanspruchs 1
genannten Merkmale gelöst.
Die Erfindung berücksichtigt die Tatsache, daß die Differenz der allgemeinen Formen der Frequenzspektren
eines stimmlosen Konsonanten und Umgebungsgeräusch in einem Eingangssprachsignal beim Wert des partiellen
Autokorrelationskoeffizienteti erster Ordnung auftritt. Es werden der partielle Autokorrelationskoeffizient
erster Ordnung und die oben beschriebene Leistungsinformation (Autokorrelationskoeffizient nullter Ordnung)
als kennzeichnende Größen verwendet. Genauer gesagt, der partielle Autokorrelationskoeffizient erster Ordnung
und der Autokorrelationskoeffizient nullter Ordnung, die aus einem Eingangssprachsignal herausgezogen
werden, werden mit vorgegebenen Schwellwerten verglichen, um dadurch zwischen wahrem Eingangssprachsignal
und Umgebungsgeräusch zu unterscheiden.
Die Erfindung wird nachstehend anhand der Zeichnung (Fig. I bis 3) näher erläutert. Die Zeichnung zeigt in
F i g. 1 ein Diagramm zur Erläuterung des Prinzips in dem Falle, wo die Art des Eingangssprachsignals unter
Verwendung der erfindungsgemäßen Vorrichtung bestimmt wird;
F i g. 2 das Blockschaltbild einer Ausführungsform der Vorrichtung nach dem Patentanspruch 1 und in
b'. Fig. 3 ein Diagramm zur Erläuterung von experimentellen Daten zu der Zeit, wo ein Sprachintcrvall unter Verwendung der Vorrichtung nach dem Patentanspruch 1 abgetastet wird.
b'. Fig. 3 ein Diagramm zur Erläuterung von experimentellen Daten zu der Zeit, wo ein Sprachintcrvall unter Verwendung der Vorrichtung nach dem Patentanspruch 1 abgetastet wird.
Wie an sich bekannt, haben übliche stimmlose Konsonanten Frequenzspektren. die die Eigenschaft der
Betonung eines Hochfrequenzbereiches haben, wobei die Anteile in einem Hochfrequenzbereich von i bis
31 Ol 851
10 kHz vergleichsweise groß sind.
Andererseits haben übliche Umgebungsgeräusche eine geringe Leistung, aber ihre Frequenzeigenschaften
sind die Eigenschaften der Betonung eines Niederfrequenzbereiches, wobei Gradienten in der Größenordnung
von —9 dB/oct haben, so daß die Leistung mit —9 dB bei jeder Frequenzverdopplung abgeschwächt wird.
Stimmhafte Laute, wie z. B. Vokale, haben die Frequenzeigenschaft der Betonung des Niederfrequenzbereiches
in ähnlicher Weise wie übliches Umgebungsgeräusch, jedoch haben sie eine höhere Leistung verglichen mit
dem Umgebungsgeräusch.
Wenn die Unterschiede der Charakteristika oder Eigenschaften verwendet werden, so ist die Abtastung eines
Sprachintervalles möglich, indem man die Sprachsignale wie folgt klassifiziert:
(i) Wenn ein Sprachsignal zum Niederfrequenzbetonungsbereich gehört und mindestens eine vorgegebene
Leistung ft hat, ist es ein stimmhafter Laut,
(ii) Wenn ein Sprachsignal zum Niederfrequenzbetonungsbereich gehört und seine Leistung unterha'.b der
(ii) Wenn ein Sprachsignal zum Niederfrequenzbetonungsbereich gehört und seine Leistung unterha'.b der
vorgegebenen Leistung ft liegt, ist es ein Umgebungsgeräusch,
(iii) Wenn ein Sprachsignal zum Hochfrequenz-Betonungsbereich gehört, ist es ein stimmloser Konsonant, unabhängig von dem Wert oder der Größe der Leistung.
(iii) Wenn ein Sprachsignal zum Hochfrequenz-Betonungsbereich gehört, ist es ein stimmloser Konsonant, unabhängig von dem Wert oder der Größe der Leistung.
Hierbei besteht in dem Falle, wo ein Sprachsignal mit einer extrem niedrigen Leistung abgefastet worden ist,
obwohl es die Eigenschaft des Hochfrequenz-Betonungsbereiches aufweist, die Möglichkeit, daß ein Sprachsignal,
das kein stimmloser Konsonant ist, wegen eines Rechenfehlers bei der Abtastung des Sprachintervalles
oder dergleichen vermischt wird. Wenn die Leistung unterhalb von θ\ ist, wobei θ\
< ft Tilt, so muß das abgetastete Sprachsignal ausgeschlossen werden.
Nachstehend wird das Prinzip der Erfiniiang näher erläutert, gemäß dem die oben angegebene Klassifizierung
vorgenommen wird, indem man den partiellen Autokorrelationskoeffizienten erster Ordnung und den Autokorrelationskoeffizienten
nullter Ordnung (Leistungsinformation) verwendet.
Der Einfachheit halber wird bei der nachstehenden Beschreibung ein Eingangssprachsignal in ein Signal mit
einer einzigen Frequenz umgeformt.
Der partielle Autokorrelationskoeffizient erster Ordnung (k\) wird mittels Gleichung (1) aus dem Auiokorrelationskoeffizienten
nullter Ordnung (vo) und dem Au'okorrelationskoeffizienten erster Ordnung (v\) errechnet:
Jti = V1/ V0. (1)
Die Kreisfrequenz ω, zu der die Abtastfrequenz fs des Eingangssprachsignals unter Verwendung von 2 π
normiert wird, wird berücksichtigt, und das Eingangssprachsignal ist beispielsweise durch die nachstehende
Gleichung (2) gegeben:
f(t) = A sin (ω t + Φ) (2).
Zu diesem Zeitpunkt haben v0 und vi folgende Werte:
7
H. = -γ, (3)
ν, - 4j- · cosa.T5. (4)
£
Aus den Gleichungen (3) und (4) ergibt sich
k\ = cos ω Ts (5),
k\ = cos ω Ts (5),
wobei Ts = 11fs gilt.
Wenn hierbei die Faltfrequenz fn, die gegeben ist durch die halbe Abiastfrequepz />, wenn also gilt
Wenn hierbei die Faltfrequenz fn, die gegeben ist durch die halbe Abiastfrequepz />, wenn also gilt
fn = fsll Σ 2 ,τ/2 = π,
der Frequenzbandbreite BWdes Eingangssprachsignales entspricht, so gelten
(I) für -2- < BM <
π (auf der Hochfrequenzseite),
2 w)
-1 < Jk1 < 0
(II) für 0 < BW < — (auf der Niederfrequenzseite),
C < kx < 1.
Andererseits ist v0 eine Größe, die der Leistung entspricht und immer positiv ist.
31 Ol 851
Aus der obigen Untersuchung ergibt sich, daß k] eines Sprachsignales, dessen Hochfrequenzanteil intensiv ist,
dicht an (—1) herankommt, während k\ eines Sprachsignales, dessen Niederfrequenzanteil intensiv ist, dicht an
(+1) herankommt.
Es konnte experimentell verifiziert werden, daß auch in dem Falle, wo das Band erheblich begrenzt ist. wie
z. B. beim Telefon, k\ < 0.7 für die stimmlosen Konsonanten »s« und »h« gilt, während k\
> 0,7 für Umgebu. -■ ;-geräuschegilt.
Durch Auswertung der Eigenschaften von /ri in der oben beschriebenen Weise und der Tatsache, daß normalerweise
die Signalkomponente eine größere Leistung als die Rauschkomponente hat, können dementsprechend
Eingangssprachsignale in die Gruppen (i)—(iii) klassifiziert werden.
Die Abtastung von Anfang und Ende des Eingangssprachintervalles, kann, unter Berücksichtigung der Klassifizierungen
(i)—(iii), beispielsweise folgendermaßen erfolgen:
θ\. 6*2 vorgegebene Schwellwerte hinsichtlich der Leistung (&2
> θ\).
ό vorgegebener Schwellwert hinsichtlich des partiellen Autokorrelationskoeffizienten erster Ord-
nung (im allgemeinen wird er auf Werte gesetzt, die sich in Abhängigkeit von dem Wert der
Leistung ändern), Tsh, Ti. Tr vorgegebene Schwellwerte für die Zeit.
(Γ) v„ > (-h.
>o (2') V0 > 6>,(6>?
> 6>,)und fci <
Λ
Wenn ein Zustand, der den Beziehungen (Γ) oder (2') genügt, zumindest für das Zeitintervall Tsh kontinuierlich
oder unterbrochen gilt, wird bestimmt, daß ein Eingangssprachintervall begonnen hat. Wenn ein Zustand,
der weder der Beziehung (1') noch (2') genügt, für mindestens das Zeitintervall T/ kontinuierlich oder unterbrochen
gilt, wird entschieden, daß das Eingangssprachintervall beendet ist. Somit wird das Eingangssprachintervall
abgetastet.
In dem Falle, wo der Zustand unterbrochen oder in einer Ein-Aus-Weise gilt, wird der Aus-Zustand als nicht
existent betrachtet, wenn er für eine kürzere Zeitspanne als Ti andauert.
Fig. 1 zeigt Einstellbeispielc für die Schwellwerte θ\, ft und rfzur Bestimmung der Arten von Sprachsignalen
jo auf der Basis der Werte von v0 und k, sowie Bereiche, in denen die entsprechenden Sprachsignale und Umgebungsgeräusche
in Abhängigkeit von den Schweilwerten abgetastet werden.
In Fig. 1 entspricht ein Bereich I dem Typ (iii) und gibt an, daß das Eingangssprachsignal ein stimmloser
Konsonant ist, während ein Bereich H dem Typ (i) entspricht und angibt, daß das Eingangssprachsignal ein
stimmhafter Laut ist. Ein Bereich III entspricht dem Typ (ii) und gibt an, daß das Eingangssprachsignal ein
Umgebungsgeräusch einschließlich von Raumrauschen und zufälligem Rauschen aufgrund des Rechenfehlers
bei der Abtastung eines Sprachintervalles oder dergleichen ist. Experimentell wurde verifiziert, daß normalerweise
erwünscht ist, <Jin Abhängigkeit von vü zu variieren, mit anderen Worten, t/äis Funktion von vo einzustellen,
also ό = ό(ν0). Im Falle von einigen Eingangssprachsignalen, kann diese Größe auch auf einen festen Wert
eingestellt werden, z. B. auf J= 0.7.
Ein tatsächliches Eingangssprachsignal hat nicht eine einzige Frequenz, sondern hat eine Wellenform, bei der
eine Vielzahl von Frcquenzanteilen kombiniert ist. Somit können die Summen der Leistungswerte und der
Autokorrelationskoeffizieiuen erster Ordnung der entsprechenden Frequenzanteile als Koeffizienten vobzw. vi
vorwendet werden, um den partiellen Autokorielationskoeffi/.icnten erster Ordnung aus A'i = v\i vo zu ermitteln.
Genauer gesagt, wenn man annimmt, daß das Frequenzband des Eingangssprachsignals /iri(Hz) ist. so wird
die Wellenform des tatsächlichen Eingangssprachsignals ungefähr durch nachstehende Gleichung ausgedrückt:
.v
/(O = Z^sini/iüv+ <i>„), (6)
/(O = Z^sini/iüv+ <i>„), (6)
wobei OJr1 = 2 .τ fo und /Vdie Anzahl der Frequenzanteile bedeuten.
Aus dieser Gleichung lassen sich die Werte v0 und v, in den Gleichungen (3) und (4) folgendermaßen ausdrükken:
Tf
U) = — /(j)2 at (TF: Länge eines Rahmens);
7r J
(7)
_L f
/ U) ■ f (t + Ts) d t (T5: Abtastperiode). (8)
r Σ < cos " ωο 1 -- ι
31 Ol 851
Dementsprechend wird der Wert k\ folgendermaßen berechnet:
/v
Σ al cos η ω0Τ
*,--ä-- JLH . (9)
H) JV
σ-;
n-l
Im i-'alle von Telefonsprachsignalen beträgt das Frequenzband üblicherweise etwa 150 bis 4000 Hz, und somit
kann die Abtastfrequenz auf fs = 8000 Hz eingestellt werden. Dementsprechend beträgt die Abtastperiode
Ts= l/s=. 125 μβ.
Die Länge eines Rahmens sollte auf einen geeigneten Wert eingestellt werden, zweckmäßigerweise so, daß er
kurz für einen Laut abrupter Änderung ist, wie z. B. Verschlußlaute, während er lang ist für einen Laut langsamer
Änderung, wie z. B. eine sprechende Stimme mit geringer Intonation. Üblicherweise wird er auf etwa 5 ms bis
20 ms eingestellt.
Nachstehend wird die Erfindung anhand eines Ausführungsbeispicls niiher erläutert. Fig.2 zeigt das Blockschaltbild
einer Ausführungsform der in Rede sichenden Vorrichtung.
Ein Eingangssprachsignal 1 geht durch einen Tiefpaßfilter 2 hindurch, um reflektiertes Rauschen zu verhindern,
und wird mit einem Analog/Digital-Wandler 3 in digitale Daten umgewandelt, wobei die digitalen Daten an
einen Eingangspufferspeicher 4 angelegt werden. Der Eingangspufferspeicher 4 hat einen Doppelpufferaufbau,
der aus zwei Speicherbereichen 4-1 und 4-2 besteht, die jeweils einer Rahmenperiode entsprechende Daten
speichern. Während Daten an den einen Bereich, z. B. den Speicherbereich 4-2, angelegt werden, wird eine
vorgegebene Verarbeitung für bereits angelegte Daten im anderen Bereich, z. B. dem Speicherbereich 4-1
durchgeführt.
Mit einem von einer Steuerung 5 erzeugten Steuersignal werden die Daten innerhalb des Speicherbereiches
4-1 z. B. in der angelegten Folge zu einem Register 6 übertragen.
Zu dieser Zeit werden Daten, die an das Register 6 eine Abtastperiode eher angelegt worden sind, zu einem
Register 7 übertragen.
Die mit Db bezeichneten Daten, die im Register 6 gespeichert sind, und die mit Di bezeichneten Daten, die im
Register 7 gespeichert sind, werden jeweils an Multiplizierer 8 und 9 angelegt. Das vom Multiplizierer 8
gelieferte Multiplikationsergebnis D6 ■ Dt wird zum Inhalt eines Akkumulators 10 hinzuaddiert, während das
vom Multiplizierer 9 gelieferte Multiplikationsergebnis Db ■ A zum Inhalt eines Akkumulators 11 hinzuaddiert
wird.
Wenn die obigen Rechenvorgänge für sämtliche Daten innerhalb des Speicherbereiches 4-1 beendet sind, sind
die Operationen der Integrale in den Gleichungen (7) und (8) in den Akkumulatoren 10 bzw. 11 ausgeführt. Im
Akkumulator 10 ist als 7>fache des Autokorrelationskoeffizienten nullter Ordnung vo entsprechend der Leistungsinformation
für die Daten (vo ■ 7>) erhalten worden, während im Akkumulator 11 das 7>fache des
Korrelationskoeffizienten erster Ordnung V| mit (v\ ■ Ty) erhalten worden, ist. Da Tr eine Konstante ist, ist es
nicht erforderlich, die erhaltenen Werte speziell durch 7>zu teilen, wenn die Schwellwerte θ\, ft vorher mit 7>
multipliziert werden. Wie sich aus Gleichung (9) ergibt, bleibt k\ auch dann unverändert, wenn 7}.· im Zähler und
Nenner enthalten ist, und somit tritt kein Problem auf. Nachstehend wird der mit Tf multiplizierte Wert als VO
oder Vi in der Erläuterung berücksichtigt werden.
Die Ausgangsdaten vom Akkumulator 10 werden in einem Speicher innerhalb der Steuerung 5 gespeichert
und dienen gleichzeitig als Ausleseadresse für einen ROM 14. Das Ausgangssignal wird im ROM 14 in seinen
Kehrwert l/v0 umgewandelt und dient als Multiplikator eines Multiplizierers 15. Im Multiplizierer 15 wird dieses
Ausgangssignal mit dem Wert 1 / vo zum partiellen Autokorrelationskoeffizienten erster Ordnung Ai multipliziert,
der in einem Register 16 gespeichert und anschließend im Speicher in der Steuerung 5 gespeichert wird.
Anschließend werden aus den Daten in der nächsten Rahmenperiode die Koeffizienten vo und k\ für diese
Rahmenperiode mit demselben Verfahren wie oben beschrieben berechnet. Sie werden im Speicher innerhalb
der Steuerung 5 gespeichert
Danach wird in der gleichen Weise ein Satz von Koeffizienten V0 und it, bei jeder Rahmenperiode berechnet,
und derartige Sätze von Koeffizienten werden nacheinander im Speicher innerhalb der Steuerung 5 gespeichert.
Eine Reihe von Steuersignalen, die für die oben beschriebenen Rechenvorgänge erforderlich sind, werden alle
von der Steuerung 5 geliefert Der Einfachheit halber ist jedoch nur der Fluß der Daten in F i g. 2 dargestellt
während die Steuersignale in der Zeichnung weggelassen sind.
Nachstehend wird ein konkretes Ausführungsbeispiel der Vorgänge zum Abtasten von Start und Ende eines
Eingangssprachintervalles unter Verwendung der Koeffizienten v0 und h beschrieben, die aus den jeweiligen
Rahmenperioden ermittelt worden sind.
(A) Start des Sprachintervailes:
© V0 > ft
® V0 > 0i (ft
> 6>i) und it, < 0,7.
Wenn den Beziehungen ©oder ©genügende Rahmen für mindestens Ts = 50 ms kontinuierlich b5
gelten, wird bestimmt, daß ein Eingangssprachintervall begonnen hat.
Auch dann jedoch, wenn der Zustand, in dem die Bedingung kontinuierlich erfüllt ist, unterbrochen
wird, wird die Unterbrechung als nicht-existent angesehen, wenn der oder die unterbrochenen Rahmen
31 Ol 851
kürzer sind als T) = 30 ms.
(B) Ende des Sprachintervalles:
(B) Ende des Sprachintervalles:
0vi<ft und k\
> 0,7
© V0 < ft.
Wenn d'".n Beziehungen©oder©genügende Rahmen für mindestens T)- = 300 ms kontinuierlich gelten, wird
bestimmt, daß das Eingangssprachintervall beendet ist.
ίο Auch dann jedoch, wenn der Zustand, in dem die Bedingung kontinuierlich erfüllt ist, unterbrochen wird, wird
die Unterbrechung als nicht-existent angesehen, wenn der oder die unterbrochenen Rahmen kürzer sind als
T) = 30 ms.
ft und ft im Falle (B) können gleich ft b/w. ft im Fall (A) gemacht werden, oder sie können in die Relation
ft = ft und ft = ft gebracht werden. Der Schwcllwcrt rffür den Koeffizienten k\ ist auf 0,7 gesetzt worden, da
sich dieser Wert experimentell als der optimale Schwellwert erwiesen hat, um zu bestimmen, ob die Eingangssprachsignale,
auf welche sich die Ausführungsform bezieht, stimmlose Konsonanten oder Umgebungsgeräusche
sind.
Die auf die Vergleichsvorgänge gerichteten Entscheidungen werden mittels eines speziellen Prozessors
innerhalb der Steuerung 5 in Fig. 1 durchgeführt, z. B. mit einem Mikroprozessor oder dergleichen.
Lediglich der Vollständigkeit halber darf darauf hingewiesen werden, daß Änderungen der Schwellwerte
hinsichtlich der Koeffizienten vn und k\, der Zeit bzw. der Anzahl von Rahmen oder dergleichen, Änderungen der
Entscheidungsvorgänge, Hinzufügen eines neuen Entscheidungskriteriums usw. gewünschtenfalls entsprechend
den Änderungen in dem Umgebungsbedingungen vorgenommen werden können.
Außerdem kann nach der Abtastung des Sprachintervalles und Feststellen des Vorliegens eines Sprachsignals
mit der in Rede stehenden Vorrichtung eine Erkennungsverarbeitung, bei der die abgetastete Sprache mit einem
Standardmuster verglichen wird, mit dem Mikroprozessor in der Steuerung 5 durchgeführt werden, indem man
z. B. ein dynamisches Programmierverfahren verwendet.
F i g. 3 zeigt ein Diagramm zur Erläuterung der Zeitänderungen der Koeffizienten v0 und k\ eines Eingangssprachsignais
»Shisutemuken« sowie des Umstandes, daß der Startpunkt und der Endpunkt des Sprachsignales
abgetastet werden können, indem man die Schwellwerte für Vo auf öi (= ft) und ft (= ft) einstellt.
Aus F i g. 3 läßt sich entnehmen, daß mit dem herkömmlichen Verfahren nur unter Verwendung von V0, wenn
der vorgegebene Wert auf ft eingestellt wird, die Abtastung von »sh« unmöglich ist, da θ\
< v0 < ft in einem
Teil gilt, der »sh« als Startpunkt des Sprachsignals entspricht, während dann, wenn der vorgegebene Wert auf ft
verringert wird, um »sh« abtastbar zu machen, zu befürchten ist, daß eine Verwechslung mit Umgebungsgeräusehen
auftritt.
Wenn im Gegensatz dazu der Koeffizient k\ gemäß der Erfindung zusätzlich verwendet wird, gilt für den Teil
»sh« die Beziehung k\ < J, und somit ist die Bedingung der Beziehung ©im Falle (A) erfüllt; außerdem
überschreitet die Dauer des Eingangssprachsignales, das die Bedingung gemäß Beziehung ©oder ©im Fall (A)
erfüllt, den vorgegebenen Schwellwert Ts. so daß der Startpunkt korrekt abgetastet wird.
In einem Zwischenteil, der »te« entspricht, gelten die Beziehungen v0
< ft und k\ > ό, und somit sind beide Beziehungen © und © im Fall (B) erfüllt. Da jedoch die Dauer eines solchen Zustandes kürzer ist als der
vorgegebene Schwdlwert T/, wird dieser Zustand als zeitweilige Unterbrechung, nicht aber als Ende des
Sprachsignales verarbeitet.
Wenn der Endpunkt des Sprachsignales erreicht worden ist, sind beide Beziehungen © und © im Fall (B)
erfüllt, und die Dauer dieses Zustandes überschreitet den vorgegebenen Schwellwert Te, so daß der Endpunkt
korrekt abgetastet wird.
(u) ist stimmlos, und wird infolgedessen weggelassen.
Die Abtastung des Sprachintervalles erfolgt unter Bezugnahme auf die Zeitpunkte, bei denen der Startpunkt
und der Endpunkt bestimmt worden sind, wenn sie zunächst die Bedingungen (A) bzw. (B) erfüllen.
Im Falle der Anwendung der in Rede stehenden Vorrichtung auf die Spracherkennung wird zu dem Zeitpunkt,
wo die Bedingung ©oder ©in (A) erfüllt ist, eine Erkennungsoperation dadurch ausgelöst, daß das Eingangssignal
als Kandidat für den Startpunkt des Sprachsignals angesehen wird, und wenn der fortgesetzte Zustand der
Bedingung in einer kürzeren Zeitspanne als Ts beendet ist, können die bis dahin vorgenommenen Vorgänge zur
Erkennung annuliert werden. Somit kann der Nachteil einer Abtastverzögerung vermieden werden.
Wie oben dargelegt, können bei Verwendung der in Rede stehenden Vorrichtung sogar stimmlose Konsonanten
beim Startpunkt und Endpunkt eines Eingangssprachsignales korrekt abgetastet werden, ohne daß eine
Vermischung oder Verwechslung mit Umgebungsgeräuschen stattfindet. Somit kann die Abtastgenauigkeit
eines Sprachintervalles erheblich gesteigert werden, was beträchtlichen praktischen Nutzen mit sich bringt.
Hierzu 3 Blatt Zeichnungen
S 05
Claims (3)
1. Vorrichtung zum Erkennen von Sprache, mit einer Einrichtung (1... 4,6... 16), die aus dem Eingangssigna]
in jedem festen Abtastintervall den Autokorrelationskoeffizient nullter Ordnung sowie einen weiteren
Autokorrelationskoeffizient ableitet, gekennzeichnet durch eine Einrichtung(5), die den Autokorrelationskoeffizient
nullter Ordnung (v0) und den partiellen Autokorrelationskoeffizient erster Ordnung (k\)
mit vorgegebenen Schwellenwerten (θ\, ft, d) vergleicht und ein das Vorliegen von Sprache angebendes
Erkennungssignal dann erzeugt, wenn der Zustand, daß v0
> Θ-, ist, oder der Zustand, daß vo>
θι> θ\ und k\
> rf ist, kontinuierlich oder intermittierend Ober eine vorgegebene Anzahl aufeinanderfolgender ALtastintervalle
andauert.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung (5) ein den Startpunkt eines
Sprachintervalls anzeigendes Signal abgibt, wenn mindestens einer der ersten und zweiten Zustände kontinuierlich
oder intermittierend wenigstens über eine vorgegebene Anzahl von Abtastintervallen angedauert
hat
3. Vorrichtung nach Anspruch I, dadurch gekennzeichnet, daß die Einrichtung (5) ein den Endpunkt eines
Sprachintervalls anzeigendes Signal abgibt, wenn der Zustand, bei dem weder der erste Zustand noch der
zweite Zustand erfüllt sind, kontinuierlich oder intermittierend wenigstens über eine vorgegebene Anzahl
von Abtastintervallen angedauert hat.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP569080A JPS56104399A (en) | 1980-01-23 | 1980-01-23 | Voice interval detection system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3101851A1 DE3101851A1 (de) | 1981-12-17 |
DE3101851C2 true DE3101851C2 (de) | 1984-05-30 |
Family
ID=11618089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3101851A Expired DE3101851C2 (de) | 1980-01-23 | 1981-01-21 | Vorrichtung zum Erkennen von Sprache |
Country Status (3)
Country | Link |
---|---|
US (1) | US4401849A (de) |
JP (1) | JPS56104399A (de) |
DE (1) | DE3101851C2 (de) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57191699A (en) * | 1981-05-22 | 1982-11-25 | Hitachi Ltd | Pattern matching apparatus |
JPS5844500A (ja) * | 1981-09-11 | 1983-03-15 | シャープ株式会社 | 音声認識方式 |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
JPS58160996A (ja) * | 1982-03-19 | 1983-09-24 | 日本電信電話株式会社 | 雑音抑圧方式 |
JPS58170698U (ja) * | 1982-05-10 | 1983-11-14 | カシオ計算機株式会社 | 音声認識装置におけるノイズ防止回路 |
DE3243231A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
DE3243232A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
JPS59115625A (ja) * | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
GB2139052A (en) * | 1983-04-20 | 1984-10-31 | Philips Electronic Associated | Apparatus for distinguishing between speech and certain other signals |
JPS59216198A (ja) * | 1983-05-24 | 1984-12-06 | 三洋電機株式会社 | 音声の有声無声判定方式 |
JPS60230200A (ja) * | 1984-04-27 | 1985-11-15 | 日本電気株式会社 | 音声検出回路 |
JPH079581B2 (ja) * | 1985-02-28 | 1995-02-01 | ヤマハ株式会社 | 電子楽器 |
JPH079580B2 (ja) * | 1985-06-20 | 1995-02-01 | ヤマハ株式会社 | 電子楽器の制御装置 |
JPS62204300A (ja) * | 1986-03-05 | 1987-09-08 | 日本無線株式会社 | ボイススイツチ |
JPS6350900A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
US4829578A (en) * | 1986-10-02 | 1989-05-09 | Dragon Systems, Inc. | Speech detection and recognition apparatus for use with background noise of varying levels |
JPH07101354B2 (ja) * | 1986-12-26 | 1995-11-01 | 松下電器産業株式会社 | 音声区間検出装置 |
JPH01169499A (ja) * | 1987-12-24 | 1989-07-04 | Fujitsu Ltd | 単語音声区間切出し方式 |
US5319703A (en) * | 1992-05-26 | 1994-06-07 | Vmx, Inc. | Apparatus and method for identifying speech and call-progression signals |
US5579431A (en) * | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
JPH07325599A (ja) * | 1994-12-28 | 1995-12-12 | Fujitsu Ltd | 音声蓄積装置 |
US5822726A (en) * | 1995-01-31 | 1998-10-13 | Motorola, Inc. | Speech presence detector based on sparse time-random signal samples |
WO1996034382A1 (en) * | 1995-04-28 | 1996-10-31 | Northern Telecom Limited | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JP3670754B2 (ja) * | 1996-04-15 | 2005-07-13 | オリンパス株式会社 | 信号処理装置 |
US6480823B1 (en) | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
US6327564B1 (en) | 1999-03-05 | 2001-12-04 | Matsushita Electric Corporation Of America | Speech detection using stochastic confidence measures on the frequency spectrum |
JP2004341033A (ja) * | 2003-05-13 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声媒介起動装置およびその方法 |
US7305099B2 (en) * | 2003-08-12 | 2007-12-04 | Sony Ericsson Mobile Communications Ab | Electronic devices, methods, and computer program products for detecting noise in a signal based on autocorrelation coefficient gradients |
JPWO2008007616A1 (ja) * | 2006-07-13 | 2009-12-10 | 日本電気株式会社 | 無音声発声の入力警告装置と方法並びにプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5712999B2 (de) * | 1974-04-08 | 1982-03-13 | ||
US4044309A (en) * | 1974-07-18 | 1977-08-23 | Narco Scientific Industries, Inc. | Automatic squelch circuit with hysteresis |
US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
JPS51149705A (en) * | 1975-06-18 | 1976-12-22 | Nippon Telegr & Teleph Corp <Ntt> | Method of analyzing drive sound source signal |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
JPS5912185B2 (ja) * | 1978-01-09 | 1984-03-21 | 日本電気株式会社 | 有声無声判定装置 |
-
1980
- 1980-01-23 JP JP569080A patent/JPS56104399A/ja active Granted
-
1981
- 1981-01-21 DE DE3101851A patent/DE3101851C2/de not_active Expired
- 1981-01-23 US US06/227,677 patent/US4401849A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0121519B2 (de) | 1989-04-21 |
JPS56104399A (en) | 1981-08-20 |
DE3101851A1 (de) | 1981-12-17 |
US4401849A (en) | 1983-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
DE3233637C2 (de) | Vorrichtung zur Bestimmung der Dauer von Sprachsignalen | |
EP0624866B1 (de) | Frequenzanalyseverfahren | |
EP1005695B1 (de) | Verfahren und vorrichtung zum erfassen eines anschlags in einem zeitdiskreten audiosignal | |
DE69925905T2 (de) | Blinde trennung von quellen durch faltung mit hilfe eines vielfachdekorrelationsverfahrens | |
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE3243231C2 (de) | ||
EP0319078A2 (de) | Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens | |
DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
WO2002093557A1 (de) | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen | |
DE3043516A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE60018690T2 (de) | Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung | |
EP0874352A2 (de) | Sprachaktivitätserkennung | |
DE1572516A1 (de) | Schaltungsanordnung fuer die Spracherkennung | |
EP1755110A2 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System | |
EP0777326B1 (de) | Verfahren und Vorrichtung zur Filterung eines Audiosignals | |
EP1458216B1 (de) | Vorrichtung und Verfahren zur Adaption von Hörgerätemikrofonen | |
DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
EP1453355B1 (de) | Signalverarbeitung in einem Hörgerät | |
WO2002084644A1 (de) | Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen | |
DE3810068C2 (de) | ||
DE1772633A1 (de) | Verfahren zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8128 | New person/name/address of the agent |
Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |