-
Die Erfindung betrifft eine Vorrichtung
und ein Verfahren zum Verarbeiten von Lauten, insbesondere von Tierlauten.
-
Ein System zur automatischen Verarbeitung von
Wildtieren stammender akustischer Daten ist aus der Europäischen Patentanmeldung
EP 0 629 996 A2 bekannt.
Dieses System umfasst hintereinander geschaltete Module zur Digitalisierung
von Daten, zur Segmentation von Daten, zur Merkmalsextraktion, zur
Verarbeitung und zur Klassifikation. Das Merkmalsextraktionsmodul
bestimmt beispielsweise Cepstrum-Koeffizienten,
lineare Vorhersage-Koeffizienten oder Korreletions-Koeffizienten.
Das Klassifikationsmodul basiert auf einem mehrschichtigen, vollvernetzten
feedforward Perzeptron, also einem neuronalen Netz. Aufgabe dieses
Systems ist es, Laute unterschiedlicher Tiere voneinander zu unterscheiden,
indem aufgenommene Laute bestimmten Tierarten zugeordnet werden.
Entsprechend wird das neuronale Netz trainiert.
-
Im Unterschied zum Stand der Technik
liegt der Erfindung die Aufgabe zu Grunde, Laute einer Spezies,
insbesondere Laute von Nutztieren, dahingehend zu analysieren, dass
Aufschlüsse über das Befinden
oder den Gesundheitszustand des lautgebenden Wesens gewonnen werden.
Es geht also nicht darum, Laute nach ihrer Herkunft zu unterscheiden,
sondern Lautäußerungen
einer Spezies bzw. eines Wesens hinsichtlich der Befindlichkeit
des lautgebenden Wesens zu differenzieren, beispielsweise dahingehend,
ob sich das lautgebende Wesen gerade in einer Stresssituation befindet,
oder in einem entspannten Zustand.
-
Aus der
DE 195 33 541 C1 ist ein
Verfahren zur automatischen Steuerung eines oder mehrer Geräte durch
Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und eine
dazugehörige
Vorrichtung zur Ausführung
des Verfahrens bekannt. Eine Analyse nichtsprachlicher Lautäußerungen
erfolgt nicht.
-
Ein wesentlicher Beitrag zur Lösung dieser Aufgabe
besteht in der der Erfindung zu Grunde liegenden Erkenntnis, dass
aus den Lautäußerungen insbesondere
einer Tierart auf das Befinden des Tieres oder einer Mehrzahl von
Tieren geschlossen werden kann. Basierend auf dieser Erkenntnis
besteht die Lösung
der Aufgabe weiterhin in einer Lautverarbeitungsvorrichtung zur
Analyse nichtsprachlicher Lautäußerungen
mit
-
- – zumindest
einem Mikrofon zur Bereitstellung eines analogen Eingangssignals,
- – einer
eingangsseitig mit dem Mikrofon verbundenen Soundkarte zur Digitalisierung
des analogen Eingangssignals,
- – einer
eingangsseitig mit der Soundkarte verbundenen Signalaufbereitungseinheit,
welche das Digitalsignal nach einem Fensteralgorithmus in Zeitfenster
einteilt (Signalfenster),
- – einer
eingangsseitig mit der Signalaufbereitungseinheit verbundenen Analyseeinrichtung, ausgebildet
zur Bestimmung linearer Vorhersagekoeffizienten aus dem Signalfenster,
die zu einem Merkmalsvektor zusammengefasst werden,
- – einer
eingangsseitig mit der Analyseeinrichtung verbundenen Klassifikationseinheit,
die ausgebildet ist, den Grad einer Ähnlichkeit eingehender Merkmalsvektoren
mit zuvor aufgenommenen Merkmalsvektoren, die ihrerseits bestimmten Klassen
zugehörig
sind, zu bestimmen und
- – einer
eingangsseitig mit der Klassifikationseinheit verbundenen Klassifikationsschwellwerteeinheit,
die ausgebildet ist, anhand des Grades der Ähnlichkeit eine Zuordnung der
eingehenden Merkmalsvektoren zu den zuvor aufgenommenen Merkmalsvektoren
vorzunehmen und in Abhängigkeit
von der Zugehörigkeit
der zugeordneten zuvor aufgenommenen Merkmalsvektoren Klassifikationssignale
auszugeben.
-
Im Gegensatz zu dem aus der
EP 0 629 996 A2 bekannten
Stand der Technik werden bei der vorliegenden Erfindung also nicht
Lautäußerungen
verschiedener Spezies für
jede Spezies einzeln gezählt, sondern
jeder Laut wird unmittelbar und sofort einer Befindlichkeits-Kategorie
für eine
jeweilige Spezies zugeordnet, beispielsweise "Stress" oder "Nicht-Stress"
und die entsprechende Kategorie durch ein Klassifika
tionssignal
unmittelbar angezeigt. Das Anzeigen des Klassifikationssignals kann beispielsweise
darin bestehen, dass eine Leuchtanzeige immer dann zum Leuchten
angesteuert wird, wenn ein Laut der Kategorie "Stress" zugeordnet wird,
während
die Anzeige ausgeschaltet bleibt, wenn Lautäußerungen der Kategorie "Nicht-Stress" zugeordnet
werden.
-
Die Klassifikationseinheit oder Zuordnungseinheit
ist somit ausgebildet, Lautäußerungen
nicht nach ihrer Herkunft zu klassifizieren, sondern nach ihrer
Qualität,
z. B. nach Befindlichkeitskategorien insbesondere für eine Spezies.
Dieser qualitative Unterschied gegenüber dem Stand der Technik beruht auf
der erfindungswesentlichen Erkenntnis, dass eine solche Klassifikation
oder Kategorisierung möglich
ist.
-
Um Laute einer Mehrzahl von Lebewesen derart
auswerten zu können,
dass die Befindlichkeit einer Gruppe von Wesen unmittelbar zur Anzeige
gebracht werden kann, wird eine Lautverarbeitungsvorrichtung bevorzugt,
die eine Auswerteeinheit umfasst, welche mit der Klassifikationseinheit
verbunden und ausgebildet ist, das Verhältnis von Lauten einer Klasse
zu Lauten einer anderen Klasse für
eine jeweils vorgegebene Zeiteinheit oder zu jedem Zeitpunkt zu
bilden und ein entsprechendes Quotientensignal auszugeben. Das Quotientensignal
ist dabei von der Art, dass der Anteil von Stress-Lauten zu Nicht-Stress-Lauten
beispielsweise in Form von "60 % Stress" oder "40 % Nicht-Stress"
angegeben wird. Bei dieser Lautverarbeitungsvorrichtung wird für jeden
Laut eine eindeutige Zuordnung zu den Kategorien "Stress" oder "Nicht-Stress"
getroffen, sodass sich der genannte Quotient entweder auf Lautäußerungen
mehrerer Tiere zu einem Zeitpunkt oder über einen Zeitraum bezieht,
oder auf verschiedene Lautäußerungen,
die ein Tier zu verschiedenen Zeitpunkten abgibt.
-
Weiterhin wird eine Lautverarbeitungsvorrichtung
bevorzugt, die einen Speicher umfasst, der mit der Klassifikationseinheit
und/oder der Auswerteeinheit verbunden und ausgebildet ist, die
Klassifikationssignale bzw. die Quotientensignale chronologisch
zu speichern. Damit ist die Lautverarbeitungsvorrichtung insbesondere
geeignet, beispielsweise zur Überwachung
von Tiertransporten eingesetzt zu werden, um nach Ende des Tiertransportes
durch Auslesen des Speichers festzustellen, ob die Tiere gelitten
haben oder nicht. Gleiches gilt für die Überwachung der Stallhaltung
von Tieren, oder die Stressbelastung der Tiere bei der Schlachtung.
-
Die Klassifikationseinheit ist vorzugsweise als
neuronales Netz ausgebildet und zwar besonders bevorzugt als Kohonennetzwerk,
welches die aus den linearen Vorhersagekoeffizienten gebildeten Merkmalsvektoren
als Eingabevektoren verarbeitet. Ein solches Kohonennetzwerk aber
auch andere neuronale Netzwerke, wie beispielsweise ein alternativ
in Frage kommendes Perzeptoren-Netzwerk, werden mit Trainingslauten
trainiert, die den zu ermittelnden Kategorien wie beispielsweise
"Stress" oder "Nicht-Stress" zugeordnet sind. Das bei der erfindungsgemäßen Lautverarbeitungsvorrichtung
eingesetzte neuronale Netzwerk unterscheidet sich somit von dem
aus der
EP 0 629 996
A2 bekannten neuronalen Netzwerk schon allein dadurch,
dass das neuronale Netzwerk bei der erfindungsgemäßen Lautverarbeitungsvorrichtung
mit Trainingslauten trainiert ist, welche sich in ihrer Qualität unterscheiden,
während
das aus der
EP 0 629
996 A2 bekannte neuronale Netzwerk mit solchen Signalen
trainiert ist, welche ihrer Herkunft nach unterschiedlich sind.
-
Vorzugsweiseumfasst die Lautverarbeitungsvorrichtung
mehrere Tonsignaleingänge.
Jedem dieser Tonsignaleingänge
ist vorzugsweise ein Eingangsverstärker und ein Eingangsfilter
nachgeschaltet, mit dem jedes Tonsignal für eine Analyse durch die Analysevorrichtung
durch verstärken
und filtern aufbereitet wird und als aufbereitetes Tonsignal an
die Analyseeinrichtung weitergegeben wird.
-
Insbesondere für die bereits erwähnte Überwachung
von Tiertransporten oder der Tierhaltung in Ställen oder zu anderen Zwecken
ist die Lautverarbeitungsvorrichtung vorzugsweise als autarke Einheit
mit integrierter Energieversorgung und einem festen, gegen unbefugten
Zugriff zu sicherndem Gehäuse
ausgebildet. Dabei ist vorzugsweise in die als autarke Einheit ausgebildete
Lautverarbeitungsvorrichtung ein Mikrofon integriert oder zumindest
ein Mikrofoneingang. Eine solche autarke Einheit ist geeignet, über einen
längeren
Zeitraum das Auftreten von Stresslauten zu registrieren, ggf. in
einer dem vorgenannten Quotientensignal entsprechend aufbereiteten
Form um so die Kontrolle der Qualität der Tierhaltung zu ermöglichen.
Damit ist es erstmals möglich,
auch solche bisher nicht zu kontrollierenden Einflussfaktoren auf
die Tierproduktion, wie beispielsweise das Wohlbefinden der Tiere,
zu kontrollieren. Diese Einflussgröße ist bekanntermaßen beispielsweise
für die
Fleischqualität
höchst
relevant, da diese durch Stresshormone beeinträchtigt wird. Die Erfindung
ermöglicht
es somit, dem Verbraucher die von ihm gewünschte Sicherheit bezüglich der
Fleischqualität
und der Qualität
der Tierhaltung zu geben.
-
Die der Erfindung zu Grunde liegende
Aufgabe, insbesondere die Echtzeit-Analyse von Tierlauten hinsichtlich
ihrer Qualität,
wird auch durch ein Lautverarbeitungsverfahren gelöst, bei
dem
-
- – über zumindest
ein Mikrofon ein analogen Eingangssignal aufgenommen wird,
- – das
analoge Eingangssignal in einer eingangsseitig mit dem Mikrofon
verbundenen Soundkarte digitalisiert wird,
- – das
Digitalsignal in einer eingangsseitig mit der Soundkarte verbundenen
Signalaufbereitungseinheit nach einem Fensteralgorithmus in Zeitfenster
eingeteilt wird (Signalfenster),
- – aus
dem Signalfenster in einer eingangsseitig mit der Signalaufbereitungseinheit
verbundenen Analyseeinrichtung lineare Vorhersagekoeffizienten bestimmt
und zu einem Merkmalsvektor zusammengefasst werden,
- – in
einer eingangsseitig mit der Analyseeinrichtung verbundenen Klassifikationseinheit
der Grad einer Ähnlichkeit
eingehender Merkmalsvektoren mit zuvor aufgenommenen Merkmalsvektoren, die
ihrerseits bestimmten Klassen zugehörig sind, bestimmt wird und
- – anhand
des Grades der Ähnlichkeit
in einer eingangsseitig mit der Klassifikationseinheit verbundenen
Klassifikationsschwellwerteeinheit eine Zuordnung der eingehenden
Merkmalsvektoren zu den zuvor aufgenommenen Merkmalsvektoren vorgenommen
wird und in Abhängigkeit
von der Zugehörigkeit
der zugeordneten zuvor aufgenommenen Merkmalsvektoren Klassifikationssignale ausgegeben
werden.
-
Das Klassifizieren erfolgt vorzugsweise
unter Anwendung eines neuronalen Netzes, insbesondere unter Anwendung
eines Perzeptrons oder Kohonen-Verfahrens. Das entsprechende neuronale
Netz wird dazu vorzugsweise mit vorgegebenen Trainingslauten unterschiedlicher
Qualität
trainiert.
-
Weitere bevorzugte Verfahrensschritte
betreffen einen Auswertungsschritt, bei dem das Verhältnis von
einer Klasse von Lauten zu einer anderen Klasse von Lauten gebildet
und ein entsprechendes Quotientensignal erzeugt wird sowie zusätzlich oder alternativ
einen Schritt des chronologischen Speicherns von Klassifikations-
und/oder Quotientensignalen.
-
Die Erfindung soll nun an einem Ausführungsbeispiel
anhand der Figuren näher
erläutert werden.
Von den Figuren zeigen
-
1 ein
Blockschaltbild einer erfindungsgemäßen Lautverarbeitungsvorrichtung
und
-
2 eine
diagrammatische Darstellung eines Verfahrens zum Betreiben der Vorrichtung
aus 1.
-
1 zeigt
die Komponenten einer Lautverarbeitungsvorrichtung, die sich vorzugsweise
in einem Gehäuse
befinden, welches gegen Zugriff gesichert werden kann. Damit die
Lautverarbeitungseinrichtung autark operieren kann, befindet sich
in dem Gehäuse
eine in 1 nicht dargestellte
Energieversorgungseinheit, beispielsweise eine Batterie.
-
Die Komponenten der in 1 dargestellten Lautverarbeitungsvorrichtung 10 sind
ein Mikrofon 12, welches ein analoges Eingangssignal liefert,
das an eine Soundkarte 14 weitergeleitet wird, in der das analoge
Eingangssignal digitalisiert wird, sodass ein Digitalsignal mit
einer Samplingfrequenz von in dem Ausführungsbeispiel 22.050 Hz mit
16 Bit Auflösung entsteht.
-
Ausgangsseitig ist die Soundkarte
mit einer Signalaufbereitungseinheit 16 verbunden, welche das
Digitalsignal empfängt
und nach einem Fensterungsalgorithmus in Zeitfenster von in dem
Ausführungsbeispiel
46,4 ms Dauer einteilt. Ausgangsseitig gibt die Aufbereitungseinheit 16 jedes
Signalfenster auf eine Aufnahmeschwellwerteinheit 18, die
ausgebildet ist, solche Signalfenster, in denen das Signal eine
unter einem Schwellwert liegende Amplitude hat, von der weiteren
Verarbeitung auszunehmen. Signalfenster, in denen das Signal eine
größere als durch
den Schwellwert vorgegebene Amplitude hat, werden ausgangsseitig
normiert und auf eine LPC-Modellierungseinheit 20 gegeben.
Mit der Normierung der Signalfenster wird erreicht, dass vom Mikrofon
weit entfernte Laute genauso behandelt werden, wie Laute dicht am
Mikrofon. Gleichzeitig wird eine Leuchtanzeige 22, beispielsweise
eine LED so angesteuert, dass diese leuchtet, wenn Signalfenster an
die LPC-Modellierungseinheit 20 weitergeleitet werden,
und dass die Anzeige erlischt, wenn Signalfenster von der Weiterverarbeitung
ausgeblendet werden. Diese Leuchtanzeige 22 zeigt somit
an, ob Lautsignale für
die Weiterverarbeitung aufgenommen werden, oder ob keine Tonsignalverarbeitung und
damit – aufnahme
erfolgt.
-
Die LPC-Modellierungseinheit 20 ist
eine Analyseeinrichtung, welche einen Algorithmus zur Bestimmung
linearer Vorhersagekoeffizienten auf das entsprechende Signalfenster
anwendet und auf diese Weise einen Satz linearer Vorhersagekoeffizienten
für dieses
Signalfenster bildet (LPC: Linear Prediction Coding = lineare Vorhersagenkodierung). Die
LPC-Modellierungseinheit oder Analyseeinrichtung 20 bildet
aus den linearen Vorhersagekoeffizienten für jedes Signalfenster einen Merkmalsvektor,
der ausgangsseitig an eine Klassifikationseinheit 24 weitergeleitet
wird.
-
Die Klassifikationseinheit 24 wird
im Wesentlichen von einem neuronalen Netz gebildet, welches als
Kohonen-Netz oder auch als Perzeptron ausgebildet sein kann. Bei
einem derartigen neuronalen Netz wird auf an sich bekannte Art und
Weise jeder eingehende Merkmalsvektor so verarbeitet, dass sich über den
Grad seiner Ähnlichkeit
mit zuvor aufgenommenen Merkmalsvektoren eine Zuordnung zu diesen
zuvor aufgenommenen Merkmalsvektoren und damit eine Klassifikation
des jeweils aktuellen Merkmalsvektor erzielen lässt.
-
Je nach Ausbildung des neuronalen
Netzes ergibt sich eine den Grad der Ähnlichkeit des aktuellen Merkmalsvektors
mit dem oder den Vergleichsvektoren kennzeichnende Größe. Für diese
Größe kann
ein Schwellwert vorgesehen sein, mit dem die Zugehörigkeit
eines aktuellen Merkmalsvektors zu einer durch die Vergleichsvektoren
oder durch den Vergleichsvektor definierten Klasse eindeutig definiert ist.
Dies ist in 1 durch
eine Klassifikationsschwellwerteinheit 26 dargestellt,
die durchaus als Unterbestandteil der Klassifikationseinheit 24 betrachtet
werden kann.
-
Die Klassifikationsschwellwerteeinheit 26 gibt
ein der eindeutigen Klassifikation des jeweiligen Signalfensters
und damit des entsprechenden Lautes zugeordnetes Klassifikationssignal
aus. Wenn die Klassifikationseinheit 24 mit Merkmalsvektoren
trainiert wurde, die solchen Lauten entsprechen, wie sie bei Stress
eines Tieres ausgestoßen
werden, zeigt das Klassifikationssignal, ob ein aktueller Laut der Klasse
"Stress" oder "Nicht-Stress" zuzuordnen ist. Das Klassifikationssignal
wird einerseits in einem Speicher 28 gespeichert, der vorzugsweise
als LIFO-Speicher ausgebildet ist, also ein last in – first out
Speicher, in dem eine Folge von Klassifikationssignalen entsprechend
einer Folge von Signalfenstern abgelegt ist und ein jeweils aktuelles
Klassifikationssignal zur Folge hat, dass das jeweils älteste Klassifikationssignal
aus dem Speicher fällt,
falls der Speicher gefüllt
ist. Der Speicher 28 ist mit einer Anzeige 30 verbunden,
die anzeigt, bis zu welchem Grad der Speicher 28 mit Klassifikationssignalen
der Klasse "Stress" gefüllt
ist. Die Anzeige 30 fungiert als Quotientenanzeige und
kann auch durch einen Quotienten- und/oder Klassifikationsspeicher
ersetzt werden, sodass der prozentuale Anteil der Zeit mit Stresslautgebung
bezogen auf ein vorgegebenes Messzeitfenster protokolliert wird.
-
Außerdem ist die Klassifikationseinheit 24 mit
der Schwellwerteinheit 26 auch mit einer zweiten Leuchtanzeige 34 verbunden,
die eingeschaltet wird, wenn ein aktueller Laut einer jeweils interessierenden
Klasse, beispielsweise der Klasse "Stress" zugeordnet wird und ansonsten
ausgeschaltet bleibt. Die Ansteuerung der zweiten Leuchtanzeige 34 erfolgt somit
in Abhängigkeit
des Klassifikationssignals, welches von der aus Schwellwerteinheit 26 und
neuronalen Netz 24 bestehenden Klassifikationseinheit stammt.
-
In 2 ist
ein Verfahren zum Betreiben der Vorrichtung aus 1 diagrammhaft dargestellt.
-
2 ist
insbesondere zu entnehmen, dass sich das Verfahren zum Betreiben
der Vorrichtung aus 1 in
zwei wesentliche Phasen gliedert, nämlich in eine Trainingsphase
und in eine anschließende
Klassifikationsphase.
-
In der Traininsgphase wird die Vorrichtung aus 1 mit bekannten Lauten beaufschlagt,
die mit bekannten Verhaltenssituationen einer interessierenden Spezies,
beispielsweise mit Stressverhalten einhergehen. Für die bekannten
Laute wird nach entsprechender Signalaufbereitung wie sie zuvor
beschrieben wurde, eine LPC-Analyse durchgeführt, die für jeden Laut zu einem Satz
linearer Vorhersagekoeffizienten führt, die als Merkmalsvektoren,
insbesondere als Referenzvektoren auf ein neuronales Netz gegeben
werden und dieses trainieren. Das neuronale Netz kann r. B. als
Perzeptron oder als Kohonen-Netz ausgebildet sein. Durch die von
den linearen Vorhersagekoeffizienten bestimmten Vergleichsvektoren
bilden sich in der Representation z. B. eines Kohonen-Netzes bestimmte
Bereiche aus, die für
be stimmte Verhaltenssituationen charakteristischen Lauten zugeordnet
sind. Zur eindeutigen Zuordnung dieser Bereiche z. B. in der Kohonen-Representation
wird dem Kohonen-Netz mit jedem Trainingslaut auch die dazugehörige Verhaltenssituation, beispielsweise
"Stress" oder "Nicht-Stress" aufgegeben, sodass jede für bestimmte
Laute charakteristische Region in der Kohonen-Darstellung mit dem
dazugehörigen
Verhalten verknüpft
ist. Dies ist in 2 als
"Labeln des Netzes" bezeichnet.
-
Das Ergebnis dieser Trainingsphase
ist ein gelabeltes Netz, in dem Regionen z. B. in der Kohonen-Darstellung
durch Referenzvektoren definiert und bestimmten Verhaltenssituationen
zugeordnet sind. Nach Abschluss der Trainingsphase kann die Vorrichtung
aus 1 beispielsweise
in einem Stall oder in einem Tiertransportfahrzeug zur Klassifikation
bis dahin unbekannter Laute eingesetzt werden.
-
Dies geschieht in der Klassifikationsphase. In
dieser werden der Vorrichtung unbekannte Laute zugeführt und
auf gleiche Weise wie zuvor die bekannten Laute einer LPC-Analyse
unterzogen um so einen Vektor linearer Vorhersagekoeffizienten für jeden
Laut zu erhalten. Ein solcher Merkmalsvektor wird zur Klassifikation
auf das gelabeltes Netz gegeben. Das Netz ordnet den Merkmalsvektor
des unbekannten Lautes in an sich bekannter Weise einer der zuvor
in der Trainingsphase definierten Region zu und liefert als Ausgangswert
die Verhaltenssituation, die dieser Region zugeordnet ist, beispielsweise "Stress"
oder "Nicht-Stress". Auf diese Weise wird ein eindeutiges Klassifikationssignal
für die
unbekannten Laute geliefert und kann in der zuvor geschilderten Weise
angezeigt oder gespeichert werden (1).