DE2536640B2 - - Google Patents
Info
- Publication number
- DE2536640B2 DE2536640B2 DE2536640A DE2536640A DE2536640B2 DE 2536640 B2 DE2536640 B2 DE 2536640B2 DE 2536640 A DE2536640 A DE 2536640A DE 2536640 A DE2536640 A DE 2536640A DE 2536640 B2 DE2536640 B2 DE 2536640B2
- Authority
- DE
- Germany
- Prior art keywords
- threshold value
- signal
- output
- pattern
- outputs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 abstract description 9
- 238000001228 spectrum Methods 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement Of Current Or Voltage (AREA)
Description
Die Erfindung betrifft eine Anordnung zur Erkennung von Geräuschen, insbesondere Sprache, bei der eine
Filterbank das in ein elektrisches Signal umgewandelte Geräusch in eine Anzahl verschiedener Frequenzbänder
aufteilt und die Energie des Signals über jeweils feste Zeitabschnitte an getrennten Ausgängen je
Frequenzband ausgibt und eine an die Ausgänge angeschlossene Einrichtung die zeitliche Folge der
Energieverteilungsmuster über die Frequenzbänder mit vorgegebenen Mustern vergleicht
Eine derartige Anordnung ist aus der DE-OS
23 63 590 bekannt Darin werden die integrierten Ausgänge der Filterbank gegebenenfalls über einen
Multiplexer und einen A/D-Wandler einem Rechner
zugeführt Die über jeweils einen kurzen Zeitabschnitt integrierte spektrale Verteilung des zu untersuchenden
Signals stellt einen mehrdimensionalen Vektor dar, so daß der Rechner eine zeitliche Folge von verschiedenen
Vektoren erhält, die mit bekannten Folgen verglichen wird. Für die Darstellung eines Vektors werden dabei
jedoch sehr viele Bit benötigt, so daß längere Vektorfolgen einen großen Speicherraum und auch bei
schnellen Rechnern eine erhebliche Verarbeitungszeit erfordern, so daß eine Echtzeitverarbeitung kaum
möglich ist oder sehr große und schnelle und damit teure Rechner erfordert.
Aufgabe der Erfindung ist es, eine Anordnung anzugeben, mit der eine Anzahl verschiedener Geräusche
in Echtzeit mit geringem Aufwand erkannt werden kann. Diese Aufgabe löst die Erfindung durch die im
Hauptanspruch angegebenen Maßnahmen. Die spektrale Verteilung des zu untersuchenden Signals in jedem
Zeitabschnitt, d. h., jeder Vektor wird als Spektralmuster aufgefaßt, das auf die menschliche Sprache bezogen
in bekannter Weise einem Phonem entspricht. Da die Spektralverteilung der Phoneme sprecherabhängig
aber zum Teil erhebliche Toleranzen haben kann, ist für jeden Spektralanteil in jedem Phonem ein oberer und
ein unterer Schwellwert vorgesehen. Es ist vorteilhaft, wenn diese Schwellwerte einstellbar sind, zweckmäßigerweise
unabhängig voneinander. Auf diese Weise erfolgt eine ganz außerordentliche Datenreduktion, da
dem Rechner nicht alle möglichen Vektoren, sondern nur die tatsächlich vorkommenden Vektoren bzw.
Muster zugeführt werden, und diese bereits entschlüsselt.
Ein Schwellwertdetektor kann sehr einfach aus nur zwei Komparatoren, beispielsweise Operationsverstärkern,
aufgebaut sein, denen ein Verknüpfungsglied nachgeschaltet ist Auf diese Weise ist ein Musterdetektor,
selbst wenn er eine größere Anzahl von Schwellwertdetektoren für eine größere Anzahl von
Spektralbereichen und damit für eine feine Auflösung des Musters besitzt, wenig aufwendig, so daß auch bei
einer größeren Anzahl von Musterdetektoren für entsprechend viele verschiedene Geräusche bzw.
Phoneme eine preisgünstige Anordnung erhalten wird. Zweckmäßig wird jedem Musterdetektor eine Adresse
zugeordnet, und ein Speicher speichert die Adressen der
Musterdetektoren, die ein Ausgangssignal abgeben, in codierter Form, und diese codierten Adressenfolgen
werden der Einrichtung zum Vergleich mit vorgegebenen Musterfolgen zugeführt Damit is* es zum Beispiels
möglich, die Aufeinanderfolge von Betriebszuständen von Maschinen wie Generatoren oder Fahrzeugen zu
erkennen, die sich als unterschiedliche Arbeitsgeräusche äußern, indem die entsprechend codierten Adressenfolgen
der Musterdetektoren als Vergleichswerte vorgegeben werden. Ebenso kann solch eine Folge bzw. ein
Satz von Adressen für die Sprecherkennung als Charakteristikuni für die Phonemfolge, also ein Wort
oder eine Folge von Worten, verwendet werden.
Der Satz baw. die Sätze von Adressen können durch ein adaptives Mustererkennungsprogramm erstellt
werden. In dieses Programm werden in einer Lemphase für ein zu erkennendes Wort eine Anzahl von bekannten
Prototypen, gekennzeichnet durch ihre charakteristische Schwellwertadressenfolge, eing-.lesen. Im Programm
wird die Häufigkeitsverteilung der Adressenfolgen erstellt und abgespeichert
Dies geschieht für jedes im geplanten Vokabular zu erkennende Wort Um das System möglichst sprecherunabhängig
arbeiten zu lassen, ist es sinnvoll, die Prototypen für jedes zu erlernende Wort von
verschiedenen Sprechern sprechen zu lassen. Nach Abschluß der Lernphase sind im Rechner die Häufigkeitsverteilungen
der Adressenfolgen für jedes i.u erkennende Wort abgespeichert.
Soll nach Abschluß der Lemphase ein Wort erkannt werden, so wird das über das Mikrophon und die
Filterbank erzeugte Spektrum den Musterdetektoren zugeführt, und deren Adressen werden entsprechend
der Aufeinanderfolge der Ausgangssignale codiert in einen Rechner eingegeben und mit den Häufigkeitsverteilungen
des erlernten Vokabulars wortweise verglichen. Dasjenige Wort gilt als erkannt, dessen Häufigkeitsverteilung
für die vorliegende Adressenfolge den höchsten Wert liefert
Soll eine Erkennung von ganzen Sätzen durchgeführt werden, so kann die Sicherheit des Systems durch
Einbeziehung von syntaktischen Regeln für die mögliche Aufeinanderfolge von Worten erhöht werden.
Ausführungsbeispiele der Erfindung werden anhand der Zeichnung erläutert Es zeigt
F i g. 1 ein Beispiel eines Signalspektrums mit zugehörigen Schwellwerten,
Fig.3 den Aufbau eines Musterdetektors mit einer
ersten Ausführungsform eines Schwellwertdetektors,
Fig.4 eine zweite Ausführungsform eines Schwellwertdetektors,
Fig.5a und 5b Diagramme zur Erläuterung der
Wirkungsweise der Schwellwertdetektoren.
Das in F i g. 1 dargestellte Spektrum wird mittels der in F i g. 2 dargestellten Anordnung erzeugt. Darin wird
das zu erkennende Geräusch bzw. die zu erkennende Geräuschfolge über ein Mikrofon 1 in ein elektrisches
Signal umgewandelt. Dieses Signal wird einem Dynamikregler 2 zugeführt, um die Erkennung bzw.
Klassifizierung von der Grundlautstärke unabhängig zu machen, was für die Spracherkennung sehr wesentlich
ist Die so amplitudennormierte elektrische Zeitfunktion wird in einer Filterbank 3 in eine Anzahl K
aneinandergrenzender Frequenzbereiche oder spektrale
Komponenten zerlegt, und jede Komponente wird gleichgerichtet und über jeweils einen festen Zeitabschnitt
von beispielsweise 10 ins integriert Das Signal
jeder gleichgerichteten und integrierten spektralen Komponente wird über jeweils einen Ausgang, der als
Kanal bezeichnet wird, aus der Filterbank herausgeführt
Die Größe des Signals bzw. der Spannung an den einzelnen Ausgängen gibt den Energieinhalt £ fiber die
Integrationszeit des Kanals K an, wie in F i g. 1 dargestellt ist, wo beispielsweise 10 Kanäle angenommen
sind. Dieses Energieverteilungsmuster wird allge-
Ki mein von Zeitabschnitt zu Zeitabschnitt wechseln,
zumindest für einige Kanäle, wenn das Geräusch sich ändert
Die K Ausgänge 5 der Filterbank 3 sind in F i g. 2 parallel mit einer Anzahl Musterdetektoren 4(1) bis
4(n) verbunden. Jeder Musterdetektor prüft die Spannungen der einzelnen Kanäle K, ob diese in dem
Toleranzbereich zwischen einer unteren Schwelle fu und einer oberen Schwelle fo liegen. In F i g. 1 sind
einige durch solche Schranken begrenzte Toleranzbereiche eingezeichnet wie sie in einem der Musterdetektoren
beispielsweise vorhanden sein mögen, wobei nicht für jeden Kanal ein solcher Toleranzbereich angegeben
ist, da es bei den verschiedenen Geräuschen erfahrungsgemäß meist einige Kanäle gibt, die für die Identifizie-
2'> rung des Geräusches wenig aussagekräftig sind. Auf
diese Weise kann dann Aufwand eingespart werden und teilweise sogar die Zuverlässigkeit der Erkennung
erhöht werden. Aus der F i g. 1 ist zu erkennen, daß die Signale für die Kanäle 2—4 und 7—9 innerhalb der
jo zugehörigen Toleranzbereiche Hegen, so daß dieser Musterdetektor ein Ausgangssignal erzeugt. Wenn
dagegen das Signal nur eines Kanals nicht in dem Toleranzbereich liegen sollte, erzeugt der Musterdetektor
bereits kein Ausgangssignal mehr. Aus der F i g. 1 ist
i) auch zu erkennen, daß die einzelnen Toleranzbereiche
für die verschiedenen Kanäle verschieden groß sind, da insbesondere bei der Spracherkennung die Abweichungen
der Signale in den verschiedenen Kanälen, die durch verschiedene Sprecher bedingt sind, unterschiedlich
groß sein können.
Ein Beispiel für den inneren Aufbau eines Musterdetektor 4 ist in i: i g. 3 dargestellt. Darin sind eine Anzahl
Schwellwertschalter 10 (1) bis 10 (m), deren Ausgänge A
alle über ein UND-Glied 6 zusammengefaßt werden.
>"> Nur wenn die Ausgänge A aller Schwellwertdetektoren
10(1) bis i0(m) gleichzeitig ein positives Ausgangssignal
erzeugen, erzeugt auch der Ausgang M des Musterdetektors 4 ein Ausgangssignal, wie dies vorher
beschrieben wurde.
ίο Der Eingang E jedes Schwellwertdetektors ist über
einen Umschalter mit einem der Ausgänge 5 der Filterbank 3 verbunden. Der Umschalter ist dabei nicht
mit allen Ausgängen verbunden, sondern der Schwellwertdetektor 10(1) ist nur mit den Kanälen mit den
r>r> niedrigsten Ordnungszahlen verbunden, der Schwellwertdetektor
10(2) überlappend mit den nächsten Kanälen usw., bis der Schwellwertdetektor 10 (m) nur
mit den Kanälen mit den höchsten Ordnungszahlen verbunden ist. Dies ist selbstverständlich nur dann
μ sinnvoll, wenn, wie vorher beschrieben wurde, nicht für
jeden Kanal ein Schwellwertdetektor 10 vorgesehen ist.
toren Vl und V2, für die liier Operationsverstärker verwendet werden. Der mit dem Zeichen + gekenn-
i>r>
zeichnete nichtinvertierende Eingang der Operationsverstärker ist mit dem Eingang E verbunden, während
die mit dem Zeichen — gekennzeichneten Eingänge Schwellspannungen erhalten, die durch die Reihenschal-
tung von zwei Widerständen R 1 und R 2 und zwei Potentiometern Pi und P2 erzeugt werden. Durch
Verändern des Potentiometers P 2 wird die untere Schwellenspannung fu eingestellt, während mit dem
Potentiometer Pl der Abstand zwischen dieser Schwellenspannung und der oberen Schwellenspannung
/beingestellte wird. Die Ausgangssignale der Komparatoren
Vl und V2 werden über einige Bauelemente, die das Signal nicht logisch verändern und deren Bedeutung
später erläutert wird, einem Exclusiv-ODER-Glied G zugeführt, dessen Ausgang mit dem Ausgang A des
Schwellwertdetektors 10 verbunden ist
Die grundsätzliche Funktion dieser Schaltung soll anhand der F i g. 5a näher erläutert werden. Solange die
Spannung a am Eingang E unterhalb der unteren ts
Schwellenspannung fu liegt, sind die Ausgangssignale b
des Komparators Vl und c des Komparators V2 niedrig. Sobald die Eingangsspannung a die untere
Schwellenspannung fu überschreitet springt das Ausgangssignal
c des Komparators V2 auf einen hohen Wert, und das Exclusiv-ODER-Glied erzeugt ein hohes
Ausgangssignal, wie in dem Signalverlauf d dargestellt ist Wenn die Eingangsspannung a weiter steigt und
auch die obere Schwellenspannung fo übersteigt springt auch das Ausgangssignal b des Komparators Vl auf
einen hohen Wert, so daß das Exclusiv-ODER-Glied G zwei hohe Eingangssignale erhält und damit bekanntlich
ein niedriges Ausgangssignal erzeugt Am Ausgang A wird also nur ein positives Signal erzeugt solange die
Eingangsspannung a einen Wert zwischen den beiden so Schwellenspannungen fu und fo hat Wenn die
Eingangsspannung a wieder absinkt wird beim Durchlaufen des schraffierten Toleranzbereiches, der durch
die beiden Schwellwerte begrenzt wird, wieder ein Ausgangssignal erzeugt in dem die Ausgangssignale der r>
Komparatoren Vl und V2 nacheinander wieder auf einen niedrigen Wert zurückgehen, wie aus Fig.5a
ersichtlich ist
Da die für die Komparatoren Vl und V2 verwendeten Operationsverstärker häufig höhere Betriebsspannungen
benötigen als die nachfolgenden Logikschaltungen, muß deren Ausgangssignal, das
nahezu der Betriebsspannung entspricht auf diesen niedrigeren Pegel begrenzt werden. Dies geschieht für
den Komparator Vl mit den Widerständen R 3 und R 5 und der Diode D1. Die Werte der Widerstände werden
so gewählt daß bei einem hohen Ausgangssignal des Komparators Vl die Eingangsspannung an der
Schaltung 51 den maximal zulässigen Wert nicht überschreitet wobei die Diode D1 gesperrt und damit w
unwirksam ist Bei einem negativen Ausgangssignal des Komparators Vl ist die Diode D1 leitend und begrenzt
die Spannung am Eingang der Schaltung 51 etwa auf
NullpotentiaL In gleicher Weise wird das Ausgangssignal des Komparators V2 durch die Widerstände RA
und R 6 und die Diode D 2 auf den Pegel der nachfolgenden Logikschaltungen begrenzt
Die Schaltungen 51 und 52 sind Schmitt-Trigger, damit in dem Falle, wenn die Eingangsspannung eine
der beiden Schwellspannungen fu oder fo sehr flach M)
schneidet und damit einen sehr flachen Obergang des Ausgangssignals der Komparatoren erzeugt die nachfolgenden
Logikschaltungen Signale mit steilen Flanken erhalten.
Eine andere Ausführungsform des Schwellwertdetek- h~>
tors 10 ist in F i g. 4 dargestellt Auch hier werden als
Komparatoren Vl und V2 wieder Operationsverstärker verwendet wobei der Eingang E jedoch bei dem
oberen Komparator Vl mit dem invertierenden Eingang und nur beim unteren Komparator V2 mit dem
nichtinvertierenden Eingang verbunden ist Der jeweils andere Eingang der Komparatoren ist mit den
Schwellspannungen fu bzw. fo verbunden, die in der in
F i g. 3 dargestellten Weise erzeugt werden können. Die Ausgänge der Komparatoren sind über ein LWD-Glied
aus den Dioden D3 bzw. DA mit einem Punkt P
verbunden, der über einen Widerstand R 7 beispielsweise mit der positiven, hohen Betriebsspannung der
Komparatoren V1 und V2 verbunden ist Die Funktion
dieser Schaltung soll anhand von Fig.5b näher erläutert werden.
Solange die Spannung a am Eingang £ unterhalb der
unteren Spannungsstelle fu liegt führt der Ausgang des Komparators Vi ein hohes Signal, wie in der Kurve e
dargestellt ist, während der Ausgang des Komparators
V2 ein niedriges Signal entsprechend der Kurve c, die
mit der in Fig.5a übereinstimmt, hat Sobald die
Eingangsspannung a die untere Schwellspannung fu überschreitet, wird das Ausgangssignal des Komparators
V2 auch positiv, und damit hat der Punkt P ebenfalls ein positives Signal, wie in der Kurve d
dargestellt ist Wenn die Eingangsspannung a dann weiter die obere Schwellspannung fo überschreitet, wird
die Ausgangsspannung des Komparators Vl negativ und damit auch die Spannung am Punkt P. Wie beim
Vergleich mit der F i g. 5a zu erkennen ist, ergibt sich am Punkt P somit der gleiche Spannungsverlauf wie in der
Schaltung nach F i g. 3 am Ausgang A, wobei das Signal am Punkt P zunächst jedoch den vollen Spannungshub
wie die Ausgangssignale der Komparatoren besitzt, und somit ebenfalls auf den niedrigeren Pegel der nachfolgenden
Logikschaltungen angepaßt wenden muß.
Dies geschieht mit Hilfe der Diode DS und des Widerstandes RS. Wenn beide Komparatoren ein
hohes Ausgangssignai erzeugen, kann die Spannung am Punkt P den Wert nicht überschreiten, der durch das
Verhältnis der Widerstände R7 und RS infolge der
dann leitenden Diode D 5 bestimmt ist Wenn jedoch ein Komparator ein negatives Ausgangssignal erzeugt hat
der Punkt Pzwar ebenfalls etwa dieses Signal, jedoch ist
dann die Diode D 5 gesperrt, und am Eingang der
Schaltung 53 liegt dann infolge des Widerstandes RS
etwa NullpotentiaL Eine andere Möglichkeit die maximale positive Spannung am Eingang der Schaltung
53 zu begrenzen, stellt die Diode D 6 dar, die über die
gestrichelten Linien mit dem Punkt P und der Spannung Ut, die gleich der Versorgungsspannung der Logikbausteine
ist, verbunden ist Durch diese Diode kann die Spannung am Punkt P nicht positiver werden als diese
Versorgungsspannung. Eine weitere Möglichkeit besteht auch darin, den Widerstand R 7 anstatt mit der
Betriebsspannung der Komparatoren Vl und V2 mit der Versorgungsspannung U\ der Logikbausteine zu
verwenden. In jedem Falle sind bei positivem Ausgangssignal der Komparatoren Vl und V2 die Dioden D 3
und DA gesperrt Dem Ausgang A des Schwellwertdetektors 10 ist wieder ein Schmitt-Trigger 53 vorgeschaltet,
der in jedem Falle, wie vorher beschrieben, ein Ausgangssignal mit steilen Flanken gewährleistet
Auf diese Weise erzeugt also ein Musterdetektor 4 in
Fig.2 ein Ausgangssignal, wenn alle angeschlossenen
Ausgänge 5 der Filterbank 3 dem eingestellten Muster entsprechen. Für jedes zu erkennende Signalgrundmuster,
bei der menschlichen Sprache sind es z.B. die Phoneme, ist ein solcher Musterdetektor 4 vorgesehen.
werden sollen, können die Ausgänge der Musterdetektoren
direkt verwendet werden, beispielsweise indem sie Anzeigeeinrichtungen ansteuern. Bei Signalfolgen,
die aus mehreren aufeinanderfolgenden Grundmustern bestehen, von denen jedes einzelne durch einen
Musterdetektor erkannt wird, wird nach F i g. 2 die Folge der erkannten Grundmuster zweckmäßig in
einem Speicher 8 zwischengespeichert. Dazu sind die Ausgänge der Musterdetektoren 4 mit einem Adressenmultiplexer
7 verbunden, der ein Ausgangssignal eines Musterdetektors in eine Dualzahl umwandelt, die der
Adresse (1) bis (n) des Musterdetektors entspricht, und diese Dualzahlen in einem Speicher 8 zuführt. Diese
Dualzahl hat Id (n) Bit. Wenn also η Grundmuster vorgesehen sind und die längste Folge von Grundmu- !5
stern / ist (bei Sprache wäre / die größte Anzahl von Phonemen in einem zu erkennenden Wort), so ist der
benötigte Speicherbedarf des Speichers 8 Id (n) ■ I Bit. Bei der Spracherkennung ist η maximal etwa 32 und /
etwa 16, so daß die benötigte Speicherkapazität etwa 16 ■ 5 Bit ist.
Die Steuereinheit 9 steuert die zeitliche Folge des Abspeicherns. Bei dem ersten erkannten Grundmuster
wird die Adresse des entsprechenden Musterdetektors über den Adressenmultiplexer 7 in die erste Speicherstelle
des Speichers 8 eingelesen. Danach schaltet der Grundmusterzähler 9 um eine Position weiter und die
Adresse des Musterdetektors, der das zweite Grundmuster erkennt, wird in die zweite Speicherstelle
eingelesen. Dieser Vorgang kann sich bis / mal wiederholen.
Die Folge dieser maximal / Dualzahlen gibt nun an, in welcher Reihenfolge die Grundmuster (bei der
Spracherkennung die Phoneme) in dem zu untersuchenden Signal aufgetreten sind, und gibt Aussage über das
Wort, das aus diesen Grundmustern aufgebaut ist. Wenn zum Beispiel der Musterdetektor 4(1) ein »a« erkennt
und der Musterdetektor 4(7) den Nasallaut »n«, so würde für das gesprochene Wort »Anna« die Zahlenfolge
1,7,1 als Musterfolge abgespeichert werden.
Die Ziffernfolge wird dann in einen Rechner eingelesen und dort mit den Häufigkeitsverteilungen für
die Worte des Erkennungsvokabulars verglichen und entsprechend der Übereinstimmung dem richtigen
Wort zugeordnet.
Wie aus der vorstehenden Beschreibung hervorgeht, kann die Anordnung sehr universell eingesetzt werden
und beliebige Geräusche und Geräuschfolgen auch größerer Länge erkennen, wobei die Quelle der
Geräusche beliebig sein kann. Es können auch elektrische Signale damit untersucht werden, die nicht
von akustischen Signalen abgeleitet sind.
Hierzu 3 Blatt Zeichnungen
Claims (7)
1. Anordnung zur Erkennung von Geräuschen, insbesondere Sprache, bei der eine Filterbank das in
ein elektrisches Signal umgewandelte Geräusch in eine Anzahl verschiedener Frequenzbänder aufteilt
und die Energie des Signals über jeweils feste Zeitabschnitte an getrennten Ausgängen je Frequenzband
ausgibt und eine an die Ausgänge angeschlossene Einrichtung die zeitliche Folge der
Energieverteilungsmuster über die Frequenzbänder mit vorgegebenen Mustern vergleicht, dadurch
gekennzeichnet, daß eine Anzahl Musterdetekturen (4) vorgesehen ist, wobei jeder Musterdetektor
an wenigstens einen Teil der Ausgänge (5) der Filterbank (3) angeschlossen ist, daß jeder Musterdetektor
für jeden angeschlossenen Ausgang einen SchweSwertdetektor (10) enthält, der einen Signalpegel
auf seinem Ausgang erzeugt, wenn das Signal auf dem angeschlossenen Ausgang zwischen einem
unteren (fu) und einem oberen (fo) Schwellwert liegt,
daß in jedem Musterdetektor ein UND-Glied (6) die Ausgänge aller darin enthaltenen Schwellwertdetektoren
zusammenfaßt und einen Signalpegel an seinem den Ausgang des Musterdetektors darstellenden
Ausgang erzeugt, wenn an allen Ausgängen der Schwellwertdetektoren ein Signalpegel erzeugt
ist, und daß eine an die Musterdetektoren angeschlossene Einrichtung (7, 8, 9) die zeitliche Folge
der Signalpegel an den Ausgängen der Musterdetektoren speichert und einer Vergleichseinrichtung
zuführt
2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Schwel! werte (fu, fo) unabhängig
voneinander einstellbar sind.
3. Anordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jeder Schwellwertdetektor (10)
zwei Komparatoren (V 1, V 2) enthält, von denen der
eine auf den unteren Schweilwert (fu)wna der andere
auf den oberen Schwellwert (fo) eingestellt ist und die ein Ausgangssignal in der gleichen Polarität
erzeugen, wenn das Signal auf dem angeschlossenen Ausgang (5) der Filterbank (3) den eingestellten
Schwellwert überschreitet, und daß die Ausgänge der beiden Komparatoren mit einem Exclusiv-ODER-Glied
(G) verbunden sind, dessen Ausgang den Ausgang des Schwellwertdetektors darstellt.
4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß jedem Komparator (Vi, V2) ein
Schmitt-Trigger (S 1,52) nachgeschaltet ist.
5. Anordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jeder Schwellwertdetektor (10)
zwei Komparatoren (V 1, V2) enthält, von denen der
eine auf den unteren Schwell wert (fu)und der andere auf den oberen Schwellwert (fo) eingestellt ist und
die ein Ausgangssignal mit zueinander entgegengesetzter Polarität erzeugen, wenn das Signal auf dem
angeschlossenen Ausgang (5) der Filterbank (3) den eingestellten Schwellwert überschreitet, und daß die
Ausgänge der beiden Komparatoren mit einem UND-Glied (D 3, D 4, R 7) verbunden sind, dessen
Ausgang den Ausgang des Schwellwertdetektors darstellt.
6. Anordnung nach Anspruch 5, dadurch gekennzeichnet, daß dem LWD-Glied (D3, DA, R7) ein
Schmitt-Trigger (S3) nachgeschaltet ist.
7. Anordnung nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß jedem
Musterdetektor (4) eine Adresse (n) zugeordnet ist und ein Speicher (8) die Adressen der Musterdetektoren,
die ein Ausgangssignal abgeben, codiert speichert und die codierten Adressenfolgen einer
Einrichtung zum Vergleich mit vorgegebenen Musterfolgen zuführt
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2536640A DE2536640C3 (de) | 1975-08-16 | 1975-08-16 | Anordnung zur Erkennung von Geräuschen |
JP51096193A JPS5854400B2 (ja) | 1975-08-16 | 1976-08-13 | 音声認識装置 |
GB33772/76A GB1562995A (en) | 1975-08-16 | 1976-08-13 | Arrangement for recognizing sounds |
ES450719A ES450719A1 (es) | 1975-08-16 | 1976-08-14 | Una disposicion para uso en el reconocimiento de sonidos. |
FR7624875A FR2321739A1 (fr) | 1975-08-16 | 1976-08-16 | Dispositif pour l'identification de bruits, en particulier de signaux de parole |
US06/301,869 US4432096A (en) | 1975-08-16 | 1981-09-14 | Arrangement for recognizing sounds |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2536640A DE2536640C3 (de) | 1975-08-16 | 1975-08-16 | Anordnung zur Erkennung von Geräuschen |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2536640A1 DE2536640A1 (de) | 1977-02-24 |
DE2536640B2 true DE2536640B2 (de) | 1979-02-08 |
DE2536640C3 DE2536640C3 (de) | 1979-10-11 |
Family
ID=5954186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2536640A Expired DE2536640C3 (de) | 1975-08-16 | 1975-08-16 | Anordnung zur Erkennung von Geräuschen |
Country Status (6)
Country | Link |
---|---|
US (1) | US4432096A (de) |
JP (1) | JPS5854400B2 (de) |
DE (1) | DE2536640C3 (de) |
ES (1) | ES450719A1 (de) |
FR (1) | FR2321739A1 (de) |
GB (1) | GB1562995A (de) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2805478A1 (de) * | 1977-02-09 | 1978-08-10 | Thomson Csf | Diskriminatoranordnung fuer sprachsignale |
DE2919228A1 (de) * | 1977-01-31 | 1980-11-13 | Gert Heinz Manfred Koelchens | Auswerter und begrenzer |
DE2939077A1 (de) * | 1979-09-27 | 1981-04-09 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zum bestimmen charakteristischer werte aus einem geraeuschsignal |
DE3149134A1 (de) * | 1980-12-19 | 1982-07-29 | Western Electric Co., Inc., 10038 New York, N.Y. | Verfahren und vorrichtung zur bstimmung von sprachendpunkten |
DE3422877A1 (de) * | 1983-06-22 | 1985-01-10 | Nec Corp., Tokio/Tokyo | Verfahren und vorrichtung zum ermitteln der endpunkte von sprachsignalen |
DE3510660A1 (de) * | 1984-03-23 | 1985-10-31 | Ricoh Co., Ltd., Tokio/Tokyo | Verfahren und einrichtung zum verarbeiten eines signals |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201300A (en) * | 1981-06-05 | 1982-12-09 | Hitachi Ltd | Voice recognizer |
CH645501GA3 (de) * | 1981-07-24 | 1984-10-15 | ||
DE3407644A1 (de) * | 1984-03-01 | 1985-09-12 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur bewertung der aehnlichkeit jeweils zweier digital dargestellter zahlenfolgen, insbesondere funktionskurven |
US4805225A (en) * | 1986-11-06 | 1989-02-14 | The Research Foundation Of The State University Of New York | Pattern recognition method and apparatus |
US4843562A (en) * | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
US4910784A (en) * | 1987-07-30 | 1990-03-20 | Texas Instruments Incorporated | Low cost speech recognition system and method |
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
JP2890831B2 (ja) * | 1990-11-28 | 1999-05-17 | ヤマハ株式会社 | Midiコード作成装置 |
US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
US7171016B1 (en) * | 1993-11-18 | 2007-01-30 | Digimarc Corporation | Method for monitoring internet dissemination of image, video and/or audio files |
US5519824A (en) * | 1994-03-18 | 1996-05-21 | Timex Corporation | System and method for storing and displaying font data representing fixed-width and compressed characters |
US6560349B1 (en) * | 1994-10-21 | 2003-05-06 | Digimarc Corporation | Audio monitoring using steganographic information |
US8094949B1 (en) | 1994-10-21 | 2012-01-10 | Digimarc Corporation | Music methods and systems |
US7486799B2 (en) * | 1995-05-08 | 2009-02-03 | Digimarc Corporation | Methods for monitoring audio and images on the internet |
US7562392B1 (en) | 1999-05-19 | 2009-07-14 | Digimarc Corporation | Methods of interacting with audio and ambient music |
US7289643B2 (en) * | 2000-12-21 | 2007-10-30 | Digimarc Corporation | Method, apparatus and programs for generating and utilizing content signatures |
US6505160B1 (en) | 1995-07-27 | 2003-01-07 | Digimarc Corporation | Connected audio and other media objects |
US6829368B2 (en) * | 2000-01-26 | 2004-12-07 | Digimarc Corporation | Establishing and interacting with on-line media collections using identifiers in media signals |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
US8180844B1 (en) | 2000-03-18 | 2012-05-15 | Digimarc Corporation | System for linking from objects to remote resources |
US7689532B1 (en) | 2000-07-20 | 2010-03-30 | Digimarc Corporation | Using embedded data with file sharing |
US8095796B2 (en) * | 1999-05-19 | 2012-01-10 | Digimarc Corporation | Content identifiers |
US7302574B2 (en) * | 1999-05-19 | 2007-11-27 | Digimarc Corporation | Content identifiers triggering corresponding responses through collaborative processing |
US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
CA2809775C (en) * | 1999-10-27 | 2017-03-21 | The Nielsen Company (Us), Llc | Audio signature extraction and correlation |
US7035873B2 (en) * | 2001-08-20 | 2006-04-25 | Microsoft Corporation | System and methods for providing adaptive media property classification |
US6963975B1 (en) * | 2000-08-11 | 2005-11-08 | Microsoft Corporation | System and method for audio fingerprinting |
KR100349656B1 (ko) * | 2000-12-20 | 2002-08-24 | 한국전자통신연구원 | 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법 |
US7046819B2 (en) * | 2001-04-25 | 2006-05-16 | Digimarc Corporation | Encoded reference signal for digital watermarks |
US7328153B2 (en) * | 2001-07-20 | 2008-02-05 | Gracenote, Inc. | Automatic identification of sound recordings |
US20040091111A1 (en) * | 2002-07-16 | 2004-05-13 | Levy Kenneth L. | Digital watermarking and fingerprinting applications |
US20070256499A1 (en) * | 2006-04-21 | 2007-11-08 | Pelecanos Jason W | Machine and operating environment diagnostics, detection and profiling using sound |
US20080051029A1 (en) * | 2006-08-25 | 2008-02-28 | Bradley James Witteman | Phone-based broadcast audio identification |
WO2008103738A2 (en) | 2007-02-20 | 2008-08-28 | Nielsen Media Research, Inc. | Methods and apparatus for characterizing media |
WO2008137385A2 (en) * | 2007-05-02 | 2008-11-13 | Nielsen Media Research, Inc. | Methods and apparatus for generating signatures |
AU2008321318B2 (en) * | 2007-11-12 | 2012-11-01 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
DE102007056221B4 (de) * | 2007-11-27 | 2009-07-09 | Siemens Ag Österreich | Verfahren zur Spracherkennung |
US8457951B2 (en) | 2008-01-29 | 2013-06-04 | The Nielsen Company (Us), Llc | Methods and apparatus for performing variable black length watermarking of media |
US8600531B2 (en) * | 2008-03-05 | 2013-12-03 | The Nielsen Company (Us), Llc | Methods and apparatus for generating signatures |
US8687839B2 (en) | 2009-05-21 | 2014-04-01 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
US20140025385A1 (en) * | 2010-12-30 | 2014-01-23 | Nokia Corporation | Method, Apparatus and Computer Program Product for Emotion Detection |
US9536517B2 (en) * | 2011-11-18 | 2017-01-03 | At&T Intellectual Property I, L.P. | System and method for crowd-sourced data labeling |
US11489691B2 (en) | 2017-07-12 | 2022-11-01 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
US10930276B2 (en) | 2017-07-12 | 2021-02-23 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2575909A (en) * | 1949-07-01 | 1951-11-20 | Bell Telephone Labor Inc | Voice-operated system |
US3683284A (en) * | 1968-06-25 | 1972-08-08 | Picker Corp | Pulse height analyzer |
US3755627A (en) * | 1971-12-22 | 1973-08-28 | Us Navy | Programmable feature extractor and speech recognizer |
US3770892A (en) * | 1972-05-26 | 1973-11-06 | Ibm | Connected word recognition system |
-
1975
- 1975-08-16 DE DE2536640A patent/DE2536640C3/de not_active Expired
-
1976
- 1976-08-13 JP JP51096193A patent/JPS5854400B2/ja not_active Expired
- 1976-08-13 GB GB33772/76A patent/GB1562995A/en not_active Expired
- 1976-08-14 ES ES450719A patent/ES450719A1/es not_active Expired
- 1976-08-16 FR FR7624875A patent/FR2321739A1/fr active Granted
-
1981
- 1981-09-14 US US06/301,869 patent/US4432096A/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2919228A1 (de) * | 1977-01-31 | 1980-11-13 | Gert Heinz Manfred Koelchens | Auswerter und begrenzer |
DE2805478A1 (de) * | 1977-02-09 | 1978-08-10 | Thomson Csf | Diskriminatoranordnung fuer sprachsignale |
DE2939077A1 (de) * | 1979-09-27 | 1981-04-09 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zum bestimmen charakteristischer werte aus einem geraeuschsignal |
DE3149134A1 (de) * | 1980-12-19 | 1982-07-29 | Western Electric Co., Inc., 10038 New York, N.Y. | Verfahren und vorrichtung zur bstimmung von sprachendpunkten |
DE3422877A1 (de) * | 1983-06-22 | 1985-01-10 | Nec Corp., Tokio/Tokyo | Verfahren und vorrichtung zum ermitteln der endpunkte von sprachsignalen |
DE3510660A1 (de) * | 1984-03-23 | 1985-10-31 | Ricoh Co., Ltd., Tokio/Tokyo | Verfahren und einrichtung zum verarbeiten eines signals |
Also Published As
Publication number | Publication date |
---|---|
ES450719A1 (es) | 1977-09-01 |
DE2536640A1 (de) | 1977-02-24 |
US4432096A (en) | 1984-02-14 |
FR2321739B1 (de) | 1983-02-04 |
DE2536640C3 (de) | 1979-10-11 |
GB1562995A (en) | 1980-03-19 |
JPS5854400B2 (ja) | 1983-12-05 |
FR2321739A1 (fr) | 1977-03-18 |
JPS5242007A (en) | 1977-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2536640C3 (de) | Anordnung zur Erkennung von Geräuschen | |
DE2536585C3 (de) | Anordnung zur statistischen Signalanalyse | |
EP0296588B1 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
AT390685B (de) | System zur textverarbeitung | |
DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
DE3901636C2 (de) | ||
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3904129A1 (de) | Einrichtung zum ueberpruefen von dokumenten | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
DE2357067A1 (de) | Vorrichtung zur sprachanalyse | |
DE2720666C2 (de) | Verfahren und Anordnung zur Geräuschanalyse | |
DE69128116T2 (de) | Flash-A/D-Wandler mit Prüfschaltung | |
DE2939077C2 (de) | Verfahren und Anordnung zum Bestimmen charakteristischer Werte aus einem zeitbegrenzten Geräuschsignal | |
DE4330847A1 (de) | Vorrichtung und Verfahren zur Datenverarbeitung | |
DE19645057C2 (de) | Vorrichtung zur Selektion von Adressenwörtern mittels Demultiplex-Decodierung | |
DE3936932A1 (de) | Triggersignalerzeuger fuer oszilloskope | |
DE19952049A1 (de) | Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners | |
DE19906118A1 (de) | Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen | |
DE4325404A1 (de) | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen | |
DE19860465A1 (de) | Verfahren und Vorrichtung zur Kodierung der Adressen von baugleichen Funktionseinheiten | |
DE2363590A1 (de) | Spracherkennungssystem mit merkmalsfolgekodierung | |
DE3642591A1 (de) | Verfahren zur spracherkennung in geraeuschvoller umgebung | |
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE3241541C1 (de) | Vorrichtung zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |