EP2603018A1

EP2603018A1 - Hearing aid with speaking activity recognition and method for operating a hearing aid

Info

Publication number: EP2603018A1
Application number: EP12191191.1A
Authority: EP
Inventors: Marko Dr. Lugger
Original assignee: Siemens Medical Instruments Pte Ltd
Current assignee: Sivantos Pte Ltd
Priority date: 2011-12-08
Filing date: 2012-11-05
Publication date: 2013-06-12
Anticipated expiration: 2032-11-05
Also published as: EP2603018B1; DK2603018T3; DE102011087984A1; US8873779B2; US20130148829A1

Abstract

The apparatus (10) has two analysis facilities (32-38) for obtaining speech activity data based on an audio signal of sound (12). A fusion facility (48) receives the data from the analysis facilities and identifies whether the wear is currently speaking or not, based on the data. The analysis facilities determine values for a soft decision or a probability to identify whether the wearer is speaking or not. The fusion facility weighs the data using trained or untrained weighting factors based on the analysis facilities from which the data originate, and logically combines the weighted data. An independent claim is also included for a method for operating a hearing apparatus.

Description

Die Erfindung betrifft eine Hörvorrichtung, welche dazu ausgelegt ist, selbsttätig zu erkennen, ob ein Träger der Hörvorrichtung gerade spricht oder nicht. Zu der Erfindung gehört auch ein Verfahren zum Betreiben einer Hörvorrichtung, mittels welchem ebenfalls automatisch erkannt werden kann, ob der Träger der Hörvorrichtung selbst spricht. Unter einer Hörvorrichtung wird hier jedes im oder am Ohr tragbare, schallausgebende Gerät verstanden, insbesondere ein Hörgerät, ein Headset, Kopfhörer.The invention relates to a hearing device which is designed to automatically detect whether a wearer of the hearing device is currently speaking or not. The invention also includes a method for operating a hearing device, by means of which it can likewise be automatically detected whether the wearer of the hearing device speaks for himself. A hearing device is understood here to mean any sound-emitting device that can be worn in or on the ear, in particular a hearing device, a headset, headphones.

Hörgeräte sind tragbare Hörvorrichtungen, die zur Versorgung von Schwerhörenden dienen. Um den zahlreichen individuellen Bedürfnissen entgegenzukommen, werden unterschiedliche Bauformen von Hörgeräten wie Hinter-dem-Ohr-Hörgeräte (HdO), Hörgerät mit externem Hörer (RIC: receiver in the canal) und In-dem-Ohr-Hörgeräte (IdO), z.B. auch Concha-Hörgeräte oder Kanal-Hörgeräte (ITE, CIC), bereitgestellt. Die beispielhaft aufgeführten Hörgeräte werden am Außenohr oder im Gehörgang getragen. Darüber hinaus stehen auf dem Markt aber auch Knochenleitungshörhilfen, implantierbare oder vibrotaktile Hörhilfen zur Verfügung. Dabei erfolgt die Stimulation des geschädigten Gehörs entweder mechanisch oder elektrisch.Hearing aids are portable hearing aids that are used to care for the hearing impaired. In order to meet the numerous individual needs, different types of hearing aids such as behind-the-ear hearing aids (BTE), hearing aid with external receiver (RIC: receiver in the canal) and in-the-ear hearing aids (ITE), e.g. Concha hearing aids or canal hearing aids (ITE, CIC). The hearing aids listed by way of example are worn on the outer ear or in the ear canal. In addition, bone conduction hearing aids, implantable or vibrotactile hearing aids are also available on the market. The stimulation of the damaged hearing takes place either mechanically or electrically.

Hörgeräte besitzen prinzipiell als wesentliche Komponenten einen Eingangswandler, einen Verstärker und einen Ausgangswandler. Der Eingangswandler ist in der Regel ein Schallempfänger, z. B. ein Mikrofon, und/oder ein elektromagnetischer Empfänger, z. B. eine Induktionsspule. Der Ausgangswandler ist meist als elektroakustischer Wandler, z. B. Miniaturlautsprecher, oder als elektromechanischer Wandler, z. B. Knochenleitungshörer, realisiert. Der Verstärker ist üblicherweise in eine Signalverarbeitungseinheit integriert. Dieser prinzipielle Aufbau ist in FIG 1 am Beispiel eines Hinter-dem-Ohr-Hörgeräts dargestellt. In ein Hörgerätegehäuse 1 zum Tragen hinter dem Ohr sind ein oder mehrere Mikrofone 2 zur Aufnahme des Schalls aus der Umgebung eingebaut. Eine Signalverarbeitungseinheit 3, die ebenfalls in das Hörgerätegehäuse 1 integriert ist, verarbeitet die Mikrofonsignale und verstärkt sie. Das Ausgangssignal der Signalverarbeitungseinheit 3 wird an einen Lautsprecher bzw. Hörer 4 übertragen, der ein akustisches Signal ausgibt. Der Schall wird gegebenenfalls über einen Schallschlauch, der mit einer Otoplastik im Gehörgang fixiert ist, zum Trommelfell des Geräteträgers übertragen. Die Energieversorgung des Hörgeräts und insbesondere die der Signalverarbeitungseinheit 3 erfolgt durch eine ebenfalls ins Hörgerätegehäuse 1 integrierte Batterie 5.Hearing aids have in principle as essential components an input transducer, an amplifier and an output transducer. The input transducer is usually a sound receiver, z. As a microphone, and / or an electromagnetic receiver, for. B. an induction coil. The output transducer is usually used as an electroacoustic transducer, z. As miniature speaker, or as an electromechanical transducer, z. B. bone conduction, realized. The amplifier is usually integrated in a signal processing unit. This basic structure is in FIG. 1 using the example of a behind-the-ear hearing aid shown. In a hearing aid housing 1 for carrying behind the ear, one or more microphones 2 for receiving the sound from the environment are installed. A signal processing unit 3, which is also integrated in the hearing aid housing 1, processes the microphone signals and amplifies them. The output signal of the signal processing unit 3 is transmitted to a loudspeaker or earpiece 4, which outputs an acoustic signal. The sound is optionally transmitted via a sound tube, which is fixed with an earmold in the ear canal, to the eardrum of the device carrier. The power supply of the hearing device and in particular the signal processing unit 3 is effected by a likewise integrated into the hearing aid housing 1 battery. 5

Bei vielen Hörvorrichtungen und insbesondere bei Hörgeräten ist man bemüht, die Höranstrengung so gering wie möglich zu halten, wenn Umgebungsschall über die Hörvorrichtung wahrgenommen wird. Hierzu kann vorgesehen sein, ein Sprachsignal in denjenigen spektralen Bändern, in welchen der Träger der Hörvorrichtung nur schlecht hört, zu verstärken. Eine andere Möglichkeit besteht darin, einen Beamformer bereitzustellen, welcher sein Richtverhalten in der Weise anpasst, dass eine Hauptkeule des Beamformers stets in diejenige Richtung weist, aus welcher beispielsweise die Stimme eines Gesprächspartners des Trägers der Hörvorrichtung kommt. Solche Algorithmen müssen ihr Verhalten prinzipiell nicht ändern, wenn der Träger der Hörvorrichtung Stimmen unterschiedlicher Sprecher aus verschiedenen Richtungen wahrnehmen möchte. Die Verstärkung der unterschiedlichen Frequenzbänder in Abhängigkeit von dem Hörvermögen des Trägers der Hörvorrichtung kann in der Regel stets dieselbe bleiben, also unabhängig von den wechselnden Sprechern. Ein Beamformer muss lediglich schnell genug zwischen den Richtungen wechseln können, aus welchen die Stimmen der Sprecher abwechselnd kommen.In many hearing devices and in particular in hearing aids, efforts are made to keep the hearing effort as low as possible when ambient sound is perceived via the hearing device. For this purpose, it may be provided to amplify a speech signal in those spectral bands in which the wearer hears the hearing device only poorly. Another possibility is to provide a beamformer which adapts its straightening behavior in such a way that a main lobe of the beamformer always points in the direction from which, for example, the voice of a conversation partner of the wearer of the hearing device comes. In principle, such algorithms do not have to change their behavior if the wearer of the hearing device wishes to perceive voices from different speakers from different directions. The amplification of the different frequency bands as a function of the hearing of the wearer of the hearing device can usually always remain the same, that is independent of the changing speakers. A beamformer only has to be able to move quickly enough between the directions from which the speakers' voices alternate.

Anders sieht es in dem Fall aus, wenn der Träger der Hörvorrichtung selbst spricht. Der Träger nimmt seine eigene Stimme beispielsweise aufgrund einer Knochenschallübertragung stets anders wahr als die Stimme von Personen in seiner Umgebung. Wird nun durch die Hörvorrichtung die eigene Stimme des Trägers von einem Mikrofon als Luftschall erfasst und in der gleichen Weise prozessiert wie die Stimmen anderer Sprecher, so nimmt der Träger der Hörvorrichtung seine eigene Stimme verfremdet wahr. Im Falle eines Beamforming ist bei einer Sprachaktivität des Trägers der Hörvorrichtung nicht klar, wohin die Hauptkeule des Beamformers eigentlich zeigen soll. Diese Beispiele verdeutlichen, dass es bei einer Hörvorrichtung für viele Algorithmen von Vorteil ist, wenn bei der Verarbeitung des Audiosignals bekannt ist, ob gerade der Träger der Hörvorrichtung selbst spricht oder ob ein erfasster Schall aus einer Umgebung des Trägers von einer externen Schallquelle auf die Hörvorrichtung getroffen ist.The situation is different in the case when the wearer of the hearing device speaks for himself. The wearer always takes his own voice, for example because of a bone sound transmission different from the voice of people around him. If the listener's own voice is detected by a microphone as airborne sound and processed in the same way as the voices of other speakers by the hearing device, then the wearer of the hearing device perceives his own voice alienated. In the case of beamforming, it is unclear where the beamformer's main lobe should actually point at a voice activity of the wearer of the hearing device. These examples make it clear that it is advantageous for a hearing apparatus for many algorithms if, during the processing of the audio signal, it is known whether the wearer of the hearing apparatus is speaking or if a detected sound from an environment of the wearer is being transmitted from an external sound source to the hearing apparatus is taken.

Im Zusammenhang mit Hörgeräten ist als heutige Lösung für eine solche Eigenstimmerkennung (OVD - Own Voice Detection) bekannt, in einem Ohrstück eines Hörgeräts ein zusätzliches Mikrofon vorzusehen, dessen Schalleintrittsöffnung in das Innere des Ohrkanals weist. Durch Vergleichen des Signal des äußeren, regulären Mikrofon mit dem Signal des zusätzlichen Mikrofons kann erkannt werden, ob der Träger der Hörvorrichtung das Audiosignal selbst mit seiner Stimme erzeugt hat oder ob es sich um ein Audiosignal einer externen Schallquelle handelt. Nachteilig bei dieser Lösung ist, dass das Hörgerät sowohl mit einem zusätzlichen Mikrofon als auch mit der benötigten Schaltung zum Verarbeiten von dessen Mikrofonsignal ausgestattet sein muss, was die Herstellungskosten des Hörgeräts entsprechend erhöht. Zudem führt der Vergleich der beiden Mikrofonsignale nur dann zu verlässlichen Ergebnissen, wenn das Ohrstück des Hörgeräts fest im Gehörgang sitzt, so dass das innere Mikrofon ausreichend vom Umgebungsschall abgeschirmt ist. Ein Beispiel für ein solches Hörgerät geht aus der DE 10 2005 032 274 A1 hervor.In the context of hearing aids is known as today's solution for such a Eigenstimmerkennung (OVD - Own Voice Detection) to provide an earpiece of a hearing aid, an additional microphone whose sound inlet opening points into the interior of the ear canal. By comparing the signal of the outer, regular microphone with the signal of the additional microphone, it can be detected whether the wearer of the hearing device has generated the audio signal itself with his voice or whether it is an audio signal of an external sound source. A disadvantage of this solution is that the hearing aid must be equipped with both an additional microphone and with the required circuit for processing the microphone signal, which increases the cost of the hearing aid accordingly. In addition, the comparison of the two microphone signals leads to reliable results only when the ear piece of the hearing device sits firmly in the ear canal, so that the inner microphone is sufficiently shielded from the ambient sound. An example of such a hearing aid goes out of the DE 10 2005 032 274 A1 out.

In der US 2006/0262944 A1 ist eine Signalverarbeitungseinrichtung für ein Hörgerät beschrieben, welche dazu ausgelegt ist, eine Eigensprecheraktivität auf der Grundlage von Mikrofonsignalen zweier Mikrofone zu erkennen. Die Erkennung wird auf Grundlage der spezifischen Charakteristiken eines Schallfelds durchgeführt, wie sie die Eigenstimme des Hörgeräteträgers aufgrund von Nachfeldeffekten hervorruft, sowie auf Grundlage der Symmetrie der Mikrofonsignale. Zusätzlich zur Nachfelddetektion kann in parallelen Verarbeitungsblöcken der absolute Pegel der Signale sowie die spektrale Einhüllende der Signalspektren analysiert werden. Die drei Analyseblöcke liefern jeweils ein binäres Signal, durch welches angezeigt ist, ob der jeweilige Signalblock Eigensprachaktivität erkannt hat oder nicht. Ein den Analyseblöcken nachgeschalteter Kombinationsblock verknüpft die Signale mittels einer UND-Verknüpfung zu einer Gesamtentscheidung.In the US 2006/0262944 A1 a signal processing device for a hearing device is described, which is designed to a self-speaker activity based on microphone signals to recognize two microphones. The detection is performed on the basis of the specific characteristics of a sound field, such as the self-voice of the hearing aid wearer due to Nachfeldeffekten causes, as well as on the basis of the symmetry of the microphone signals. In addition to post-field detection, the absolute level of the signals as well as the spectral envelope of the signal spectra can be analyzed in parallel processing blocks. The three analysis blocks each provide a binary signal which indicates whether or not the respective signal block has recognized intrinsic speech activity. A combination block following the analysis blocks links the signals to an overall decision by means of an AND operation.

In der DE 602 04 902 B2 ist eine programmierbare Kommunikationseinrichtung beschrieben, welche bei Erkennen einer Eigensprecheraktivität eine Signalverarbeitung gemäß den Vorgaben eines Benutzers der Kommunikationseinrichtung umstellt, um so dem Benutzer eine möglichst natürliche Widergabe seiner eigenen Sprache darzubieten. Um die Eigensprecheraktivität zu erkennen, werden aus Mikrofonsignalen Parameter extrahiert, die dann mit zuvor angelernten Parametern verglichen werden, wobei die angelernten Parameter auf Grundlage der Eigenstimme des Benutzers ermittelt wurden. Bevorzugte Parameter sind hierbei zum einen der Pegel eines niederfrequenten Kanals und zum anderen der Pegel eines hochfrequenten Kanals, wobei beide Pegel kombiniert werden, um daraufhin zu entscheiden, ob das Signal in den beiden Kanälen eine Eigenstimme ist oder nicht.In the DE 602 04 902 B2 a programmable communication device is described, which switches upon detection of a self-speech activity signal processing in accordance with the specifications of a user of the communication device, so as to present the user as natural as possible reproduction of his own language. In order to detect in-speaker activity, parameters are extracted from microphone signals which are then compared to previously learned parameters, the learned parameters being determined based on the user's own voice. Preferred parameters here are firstly the level of a low-frequency channel and secondly the level of a high-frequency channel, wherein both levels are combined in order to then decide whether the signal in the two channels is an eigenvoice or not.

Eine Aufgabe der vorliegenden Erfindung besteht darin, eine zuverlässige Eigenstimmerkennung für eine Hörvorrichtung bereitzustellen.An object of the present invention is to provide a reliable self-tuning recognition for a hearing device.

Die Aufgabe wird durch eine Hörvorrichtung gemäß Patentanspruch 1 sowie durch ein Verfahren gemäß Patentanspruch 4 gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Unteransprüche gegeben.The object is achieved by a hearing device according to claim 1 and by a method according to claim 4. Advantageous developments of the invention are given by the dependent claims.

Die erfindungsgemäße Hörvorrichtung und das erfindungsgemäße Verfahren sind nicht auf einen Vergleich zweier unabhängig voneinander erfasster Audiosignale angewiesen. Stattdessen wird eine zuverlässige und robuste Eigensprechererkennung erzielt, indem von der Hörvorrichtung empfangene Audiosignale auf mehr als eine Analyseart darauf hin untersucht werden, ob sie auf eine Eigensprecheraktivität hindeuten. Die unterschiedlichen Analyseergebnisse werden dann in einem zweiten Schritt zusammengeführt, um aus den zusammengeführten Informationen eine zuverlässige Aussage darüber zu treffen, ob der Träger der Hörvorrichtung gerade spricht oder nicht. Das Risiko einer falschen Eigensprecherdetektion wird durch diese Fusion der unterschiedlichen Informationsquellen deutlich reduziert, da falsche Detektionsergebnisse, wie sie sich aufgrund lediglich einer einzelnen Analyse ergeben können, durch die Ergebnisse anderer Analysen kompensiert werden, die für eine spezielle Situation evtl. besser geeignet sind.The hearing device according to the invention and the method according to the invention are not dependent on a comparison of two independently detected audio signals. Instead, reliable and robust inter-speaker recognition is achieved by examining audio signals received by the hearing device for more than one type of analysis as to whether it is indicative of in-speaker activity. The different analysis results are then combined in a second step in order to make a reliable statement from the merged information as to whether the wearer of the hearing device is currently speaking or not. The risk of incorrect speech detection is significantly reduced by this fusion of different sources of information, since false detection results, which can result from only one single analysis, are compensated by the results of other analyzes that may be more appropriate for a particular situation.

Um diese Erkenntnis der Erfindung umzusetzen, weist die erfindungsgemäße Hörvorrichtung wenigstens zwei unabhängige Analyseeinrichtungen auf, von denen jede dazu ausgelegt ist, auf der Grundlage eines von der Hörvorrichtung empfangenen Audiosignals Daten zu gewinnen, die hier als Sprachaktivitätsdaten bezeichnet werden und von denen ausgegangen wird, dass sie von einer Sprecheraktivität des Trägers der Hörvorrichtung abhängig sind. Im Zusammenhang mit der Erfindung ist unter einem Audiosignal hierbei ein elektrisches oder digitales Signal zu verstehen, welches Signalanteile im Audiofrequenzbereich aufweist. Jeder der Analyseeinrichtungen kann ein Audiosignal aus einer anderen Signalquelle zugeführt werden. Es kann aber auch ein und dasselbe Audiosignal mehreren Analyseeinrichtungen zugeführt werden. Beispiele für Quellen eines Audiosignals sind ein Mikrofon, ein Beamformer oder ein Körperschallsensor.In order to implement this knowledge of the invention, the hearing device according to the invention has at least two independent analysis devices, each of which is designed to obtain data, referred to herein as voice activity data, based on an audio signal received by the hearing device they are dependent on a speaker activity of the wearer of the hearing device. In the context of the invention, an audio signal is to be understood here as meaning an electrical or digital signal which has signal components in the audio frequency range. Each of the analysis devices can be supplied with an audio signal from another signal source. However, one and the same audio signal can also be supplied to a plurality of analysis devices. Examples of sources of an audio signal are a microphone, a beamformer or a structure-borne sound sensor.

Durch die Analyseeinrichtungen werden die Sprachaktivitätsdaten jeweils auf Grundlage eines anderen Analysekriteriums gewonnen, also beispielsweise in Abhängigkeit von einer Einfallsrichtung eines Umgebungsschalls, in Abhängigkeit von spektralen Werten eines Frequenzspektrums des Audiosignals, auf der Grundlage einer sprecherunabhängigen Sprachaktivitätserkennung oder in Abhängigkeit von einer binauralen Information, wie sie gewonnen werden kann, wenn an unterschiedlichen Seiten eines Kopfes des Trägers Audiodaten erfasst werden.The analysis facilities extract the voice activity data based on a different analysis criterion, that is, for example, depending on an incident direction of an ambient sound, as a function of spectral values of a frequency spectrum of the audio signal, based on speaker-independent voice activity recognition or in dependence on binaural information, as can be obtained when recorded on different sides of a head of the carrier audio data become.

Um nun aus den Sprachaktivitätsdaten der einzelnen Analyseeinrichtungen eine zuverlässige Aussage darüber treffen zu können, ob der Träger gerade spricht oder nicht, weist die erfindungsgemäße Hörvorrichtung eine Fusionseinrichtung auf, welche dazu ausgelegt ist, die Sprachaktivitätsdaten von den Analyseeinrichtungen zu empfangen und auf der Grundlage der Sprachaktivitätsdaten die Eigensprechererkennung durchzuführen. Es kann hierbei ausreichend sein, dass die Fusionseinrichtung dazu ausgelegt ist zu erkennen, ob die Stimme des Trägers aktiv ist oder nicht. Es muss nur in wenigen Fällen die Identität des Trägers erkannt werden, z. B. bei der Verwendung spektraler Merkmale.In order to be able to make a reliable statement as to whether the wearer is currently speaking from the voice activity data of the individual analysis devices, the hearing device according to the invention has a fusion device which is designed to receive the voice activity data from the analysis devices and on the basis of the voice activity data to perform the self-speech recognition. It may be sufficient in this case that the fusion device is designed to recognize whether the voice of the wearer is active or not. It only needs to be recognized in a few cases, the identity of the carrier, for. When using spectral features.

Wie bereits beschrieben, können mehrere Audioquellen zum Bereitstellen von unterschiedlichen Audiosignalen verwendet werden. Besonders günstig lässt sich die erfindungsgemäße Hörvorrichtung jedoch herstellen, wenn nur diejenige Mikrofoneinrichtung benutzt wird, mittels welcher auch der auf den Träger treffende Umgebungsschall in das Nutzsignal umgewandelt wird, welches dem Träger der Hörvorrichtung in prozessierter Form dargeboten werden soll. Mit einer Mikrofoneinrichtung ist hierbei nicht unbedingt ein einzelnes Mikrofon gemeint. Es kann auch ein Mikrofonarray oder eine andere Anordnung aus mehreren Mikrofonen verwendet werden.As previously described, multiple audio sources can be used to provide different audio signals. However, the hearing device according to the invention can be produced in a particularly favorable manner if only that microphone device is used by means of which the ambient sound striking the carrier is also converted into the useful signal, which is to be presented to the wearer of the hearing device in processed form. With a microphone device this is not necessarily meant a single microphone. A microphone array or other arrangement of multiple microphones may also be used.

Um auf eine durch die Fusionseinrichtung erkannte Sprecheraktivität des Trägers angemessen reagieren zu können, weist eine besonders zweckmäßige Weiterbildung der erfindungsgemäßen Hörvorrichtung eine Anpassungseinrichtung auf, welche dazu ausgelegt ist, eine Betriebsweise der Hörvorrichtung zu verändern, falls der Träger spricht. Insbesondere kann hier vorgesehen sein, dass ein Übertragungsverhalten der Hörvorrichtung angepasst wird, um dem Träger der Hörvorrichtung einen neutralen Klangeindruck von seiner eigenen Stimme zu vermitteln. Hierbei hat es sich als besonders zweckmäßig erwiesen, einen niederfrequenten Anteil des Nutzsignals zu dämpfen, um die als Okklusionseffekt bekannte verzerrte Wahrnehmung der eigenen Stimme zu vermeiden. Im Zusammenhang mit einer ausrichtbaren Beamformingeinrichtung wird zweckmäßigerweise deren Richtverhalten angepasst. So ist es insbesondere günstig, das selbsttätige Ausrichten der Richtcharakteristik zu blockieren, während die Stimme des Trägers aktiv ist.In order to be able to react appropriately to a speaker activity of the wearer recognized by the fusion device, a particularly expedient further development of the hearing device according to the invention has an adaptation device which is complementary thereto is designed to change an operation of the hearing device, if the carrier speaks. In particular, it can be provided here that a transmission behavior of the hearing device is adapted in order to convey to the wearer of the hearing device a neutral sound impression of his own voice. It has proven to be particularly useful to attenuate a low-frequency component of the useful signal in order to avoid the known as occlusion effect distorted perception of one's own voice. In connection with an alignable beam-forming device, its straightening behavior is expediently adapted. Thus, it is particularly favorable to block the automatic alignment of the directional characteristic while the voice of the wearer is active.

Durch die Erfindung wird auch ein Verfahren zum Betreiben einer Hörvorrichtung bereitgestellt. Gemäß dem Verfahren werden mittels wenigstens zweier Analyseeinrichtungen unabhängig voneinander jeweils Sprachaktivitätsdaten gewonnen, d.h. Daten, die von einer Sprecheraktivität eines Trägers der Hörvorrichtung abhängig sind. Die Sprachaktivitätsdaten der Analyseeinrichtungen werden mittels einer Fusionseinrichtung kombiniert. Auf der Grundlage dieser kombinierten Sprachaktivitäten dann zusammenfassend überprüft, ob der Träger spricht oder nicht.The invention also provides a method for operating a hearing device. According to the method, voice activity data is obtained independently of each other by means of at least two analyzers, i. Data dependent on speaker activity of a wearer of the hearing device. The voice activity data of the analyzers are combined by means of a fusion device. On the basis of these combined language activities then reviewed in summary whether the carrier speaks or not.

Die Analyse des Audiosignals durch die einzelnen Analyseeinrichtungen und die Sprachaktivitätserkennung durch die Fusionseinrichtung können dabei auf zahlreiche unterschiedliche Weisen geschehen. Das erfindungsgemäße Verfahren ermöglicht es dabei in vorteilhafter Weise, die unterschiedlichsten Analysemethoden frei zu kombinieren und sie für eine zuverlässige und robuste Gesamtaussage über die Sprachaktivität zu kombinieren.So kann vorgesehen sein, dass durch wenigstens eine der Analyseeinrichtungen eine Merkmalsextraktion durchgeführt wird. Dies bedeutet, dass in Abhängigkeit von dem Audiosignal Merkmalswerte ermittelt werden, wie etwa eine Einfallsrichtung eines Schalls, welcher das Audiosignal hervorgerufen hat, oder eine Halligkeit des Audiosignals. Bei den Merkmalen kann es sich auch um eine bestimmte Repräsentation einzelner Segmente des Audiosignals handeln, wie etwa spektrale oder cepstrale Koeffizienten, Koeffizienten eine linearen Prädiktion (LPC - Linear Prediction Coefficients). Als abstraktere Merkmale sind beispielsweise das Geschlecht des Sprechers (männliche oder weibliche Stimme) oder das Ergebnis einer Phonemanalyse (Vokal, Frikativ, Plosiv) denkbar.The analysis of the audio signal by the individual analysis devices and the speech activity detection by the fusion device can be done in many different ways. The method according to the invention advantageously makes it possible to freely combine the most varied analysis methods and to combine them for a reliable and robust overall statement about the speech activity. Thus it can be provided that feature extraction is performed by at least one of the analysis devices. This means that feature values are determined in dependence on the audio signal, such as an incident direction of a sound which has caused the audio signal or a reverberation of the audio signal. At the features it may also be a specific representation of individual segments of the audio signal, such as spectral or cepstral coefficients, coefficients linear prediction (LPC). As a more abstract characteristics, for example, the gender of the speaker (male or female voice) or the result of a phoneme analysis (vocal, fricative, plosive) are conceivable.

Genauso kann es zweckmäßig sein, durch die Analyseeinrichtung bereits eine vorläufige Aussage darüber zu treffen, ob der Träger der Hörvorrichtung gerade spricht. Dies geschieht in Form eines Wahrscheinlichkeitswertes (Werte zwischen null und eins). Es kann aber auch bereits als so genannte harte oder binäre Entscheidung (spricht oder spricht nicht) geschehen. Letzteres kann durch eine Analyseeinrichtung ermöglicht sein, die als Klassifikator fungiert und hierzu auf der Grundlage eines Klassifikationskriteriums überprüft, ob der Träger spricht oder nicht. Solche Klassifikationskriterien sind aus dem Stand der Technik beispielsweise im Zusammenhang mit einer so genannten sprecherunabhängigen Voice-Activity-Detection (VAD) an sich bekannt und verfügbar.In the same way, it may be expedient to make a provisional statement by the analysis device as to whether the wearer of the hearing device is currently speaking. This happens in the form of a probability value (values between zero and one). But it can already happen as a so-called hard or binary decision (speaks or does not speak). The latter may be enabled by an analyzer which acts as a classifier and checks for this on the basis of a classification criterion whether the bearer speaks or not. Such classification criteria are known and available from the prior art, for example in connection with a so-called speaker-independent voice activity detection (VAD).

Liegen nun Sprachaktivitätsdaten mehrerer Analyseeinrichtungen vor, so wird, je nach Art der Sprachaktivitätsdaten, gemäß einem Aspekt der Erfindung durch die Fusionseinrichtung eine Gewichtung der einzelnen Sprachaktivitätsdaten durchgeführt. Diese Gewichtung ist dann dabei davon abhängig, von welcher Analyseeinrichtung die jeweiligen Sprachaktivitätsdaten stammen. Durch die Gewichtung wird hier in vorteilhafter Weise erreicht, dass je nach aktueller Situation eine Analyseeinrichtung, von der bekannt ist, dass sie in dieser Situation erwartungsgemäß nur unzuverlässige Daten liefert, weniger Einfluss auf das Entscheidungsergebnis erhält als eine bekanntermaßen in der Situation zuverlässig arbeitende Analyseeinrichtung. Dabei sind für diese Gewichtungen entweder trainierbare oder untrainierbare Ausführungsformen realisierbar. Die gewichteten Sprachaktivitätsdaten lassen sich schließlich miteinander verknüpfen, wodurch sich die bereits beschriebene Informationsfusion ergibt.If voice activity data of several analysis devices are present, then, depending on the type of voice activity data, according to one aspect of the invention, a weighting of the individual voice activity data is performed by the fusion device. This weighting then depends on which analysis device the respective voice activity data came from. The weighting here advantageously achieves that, depending on the current situation, an analysis device which is known to deliver only unreliable data in this situation as expected obtains less influence on the decision result than an analysis device known to function reliably in the situation. In this case, either trainable or untrainable embodiments can be realized for these weightings. The weighted voice activity data can be finally connect, resulting in the already described information fusion.

Besonders einfach lassen sich Sprachaktivitätsdaten unterschiedlicher Analyseeinrichtungen kombinieren, wenn durch die Sprachaktivitätsdaten bereits eine Vorentscheidung über die Sprecheraktivität vorliegt. Dann kann beispielsweise durch die Fusionseinrichtung eine Mehrheitsentscheidung getroffen werden, die etwas darüber aussagt, ob durch die Analyseeinrichtungen zusammen die Sprecheraktivität angezeigt wird.Voice activity data from different analysis devices can be combined particularly easily if the voice activity data already provides a preliminary decision about the speaker activity. Then, for example, a majority decision may be made by the fusion device that says something about whether the speaker activity is being displayed by the analysis devices together.

Eine andere zweckmäßige Form der Datenfusion besteht darin, aus den so genannten Softentscheidungen von Sprachaktivitätsdetektoren einen Mittelwert zu berechnen. Solche Sprachaktivitätsdetektoren können dazu in wenigstens zwei Analyseeinrichtungen z.B. mit unterschiedlicher Parametrierung bereitgestellt sein.Another convenient form of data fusion is to calculate an average from the so-called soft decisions of voice activity detectors. Such voice activity detectors may be used in at least two analysis devices e.g. be provided with different parameters.

Die vorangehend beschriebenen Weiterbildungen der Analyseeinrichtungen und der Fusionseinrichtung beziehen sich sowohl auf die erfindungsgemäße Hörvorrichtung als auch auf das erfindungsgemäße Verfahren.The further developments of the analysis devices and the fusion device described above relate both to the hearing device according to the invention and to the method according to the invention.

Im Folgenden wird die Erfindung noch einmal genauer anhand von Ausführungsbeispielen beschrieben. Es zeigt:

FIG 1: eine schematische Darstellung eines Hörgeräts gemäß dem Stand der Technik und
FIG 2: eine schematische Darstellung einer Hörvorrichtung gemäß einer Ausführungsform der erfindungsgemäßen Hörvorrichtung.

In the following, the invention will be described again in more detail with reference to exemplary embodiments. It shows:

FIG. 1: a schematic representation of a hearing aid according to the prior art and
FIG. 2: a schematic representation of a hearing device according to an embodiment of the hearing device according to the invention.

Die Beispiele stellen bevorzugte Ausführungsformen der Erfindung dar.The examples illustrate preferred embodiments of the invention.

In FIG 2 ist eine Hörvorrichtung 10 gezeigt, welche einen Schall 12 aus einer Umgebung eines Trägers der Hörvorrichtung erfasst. Das Audiosignal des Schalls 12 wird durch die Hörvorrichtung 10 verarbeitet und als Ausgabeschallsignal 14 in einem Gehörgang 16 des Trägers der Vorrichtung wiedergegeben. Bei der Hörvorrichtung 10 kann es sich beispielsweise um ein Hörgerät, wie etwa ein Hinter-dem-Ohr-Hörgerät oder ein Indem-Ohr-Hörgerät handeln. Die Hörvorrichtung 10 erfasst den Umgebungsschall 12 mittels einer Mikrofoneinrichtung 18, auf die der Umgebungsschall 12 aus der Umgebung trifft und die das Audiosignal des Schalls 12 in ein digitales Nutzsignal umwandelt. Das Nutzsignal wird durch eine Verarbeitungseinrichtung 20 der Hörvorrichtung 10 verarbeitet und anschließend in verarbeiteter Form durch einen Hörer 22 der Hörvorrichtung 10 in dem Gehörgang 16 als der Ausgangsschall 14 abgestrahlt.In FIG. 2 For example, a hearing device 10 is shown which generates a sound 12 from an environment of a wearer of the hearing device detected. The audio signal of the sound 12 is processed by the hearing device 10 and reproduced as output sound signal 14 in an ear canal 16 of the wearer of the device. The hearing device 10 can be, for example, a hearing device, such as a behind-the-ear hearing device or a in-the-ear hearing device. The hearing device 10 detects the ambient sound 12 by means of a microphone device 18, which is incident on the ambient sound 12 from the environment and converts the audio signal of the sound 12 into a digital useful signal. The useful signal is processed by a processing device 20 of the hearing device 10 and then emitted in processed form by a receiver 22 of the hearing device 10 in the ear canal 16 as the output sound 14.

Die Mikrofoneinrichtung 18 kann ein oder mehrere Mikrofone aufweisen. In FIG 2 ist beispielhaft eine Mikrofoneinrichtung 18 mit drei Mikrofonen 24, 26, 28 dargestellt. Die Mikrofone 24 bis 28 können ein Mikrofonarray bilden; sie können aber auch unabhängig voneinander beispielsweise an gegenüberliegenden Seiten des Kopfes des Trägers der Hörvorrichtung angebracht sein. Bei der Verarbeitungseinrichtung 20 kann es sich beispielsweise um einen digitalen Signalprozessor handeln. Die Verarbeitungseinrichtung 20 kann aber auch durch separate oder integrierte Schaltkreise realisiert sein. Der Hörer 22 kann beispielsweise ein Kopfhörer sein oder ein RIC (Receiver in the Canal) oder auch ein externer Hörgerätehörer, dessen Schall über einen Schallschlauch in den Gehörgang 16 geleitet wird.The microphone device 18 may include one or more microphones. In FIG. 2 For example, a microphone device 18 with three microphones 24, 26, 28 is shown. The microphones 24 to 28 may form a microphone array; but they can also be mounted independently, for example, on opposite sides of the head of the wearer of the hearing. The processing device 20 may be, for example, a digital signal processor. However, the processing device 20 can also be realized by separate or integrated circuits. The handset 22 may be, for example, a headphone or an RIC (Receiver in the Canal) or an external hearing aid handset whose sound is conducted via a sound tube into the ear canal 16.

Bei der Hörvorrichtung 10 ist vorgesehen, dass für den Fall, dass der Schall 12 von einer externen Schallquelle, beispielsweise einem Gesprächspartner des Geräteträgers oder einer Musikquelle stammt, die das Nutzsignal durch eine Signalverarbeitung 30 in der Weise verarbeitet wird, dass der Geräteträger ein an sein Hörvermögen angepasstes Ausgangsschallsignal 14 wahrnimmt.In the case of the hearing apparatus 10, it is provided that, in the event that the sound 12 originates from an external sound source, for example a conversation partner of the equipment wearer or a music source, the useful signal is processed by a signal processor 30 in such a way that the equipment wearer is on Hearing adapted output sound signal 14 perceives.

Für den Fall, dass der Träger der Hörvorrichtung 10 selbst spricht, singt oder andere Geräusche mit seiner Stimme erzeugt, die er nicht nur über die Hörvorrichtung 10, sondern auch z.B. durch Knochenschall mit seinem Gehör wahrnimmt, wird die Signalverarbeitung 30 in einen Modus umgeschaltet, durch welchen dem Träger ein neutraler Klangeindruck der eigenen Stimme vermittelt wird, wenn er diese zusätzlich auch über die Hörvorrichtung 10 wahrnimmt. Die hierzu durch die Signalverarbeitung 30 durchzuführenden Maßnahmen sind an sich aus dem Stand der Technik bekannt.In the event that the wearer of the hearing apparatus 10 himself speaks, sings or generates other sounds with his voice which he not only hears via the hearing apparatus 10 but also e.g. is perceived by bone sound with his ear, the signal processing 30 is switched to a mode by which the wearer a neutral sound impression of the own voice is mediated, if he also perceives this via the hearing device 10. The measures to be performed by the signal processing 30 are known per se from the prior art.

Um die Signalverarbeitung 30 zwischen den beiden Modi umzuschalten, wird durch die Verarbeitungseinrichtung 20 das im Folgenden näher erläuterte Verfahren durchgeführt. Das Verfahren ermöglicht es, zuverlässig auf der Grundlage des Umgebungsschalls 12 zu erkennen, ob es sich bei dem Umgebungsschall 12 um die eigene Stimme des Trägers der Hörvorrichtung 10 handelt oder nicht. Das Verfahren verlässt sich dabei nicht auf akustische Merkmale einer einzelnen Informationsquelle. Ein Signal einer solchen einzelnen Quelle wäre mit einer zu großen Varianz behaftet, so dass eine verlässliche Aussage über die Sprecheraktivität nur durch eine Glättung des Signals über einen langen Zeitraum hin erreicht werden könnte. Damit könnte die Verarbeitungseinrichtung 20 nicht auf schnelle Wechsel zwischen der Stimme des Trägers der Hörvorrichtung 10 einerseits und der Stimme einer anderen Person reagieren. In anderen akustischen Szenarien, in welchen der Umgebungsschall 12 mit wechselnden Anteilen sowohl die Stimme des Trägers als auch Umgebungsgeräusche enthält, könnte auf der Grundlage einer einzigen Quelle für akustische Merkmale überhaupt keine zuverlässige Entscheidung getroffen werden.In order to switch the signal processing 30 between the two modes, the processing device 20 carries out the method explained in more detail below. The method makes it possible to reliably detect on the basis of the ambient sound 12 whether or not the ambient sound 12 is the own voice of the wearer of the hearing device 10. The method does not rely on acoustic characteristics of a single source of information. A signal from such a single source would be subject to too great a variance, so that a reliable statement about the speaker activity could only be achieved by smoothing the signal over a long period of time. Thus, the processing device 20 could not respond to rapid changes between the voice of the wearer of the hearing device 10 on the one hand and the voice of another person. In other acoustic scenarios where ambient sound 12 with varying proportions contains both the wearer's voice and ambient noise, no reliable decision could be made at all based on a single source of acoustic features.

Aus diesem Grund sind bei der Verarbeitungseinrichtung 20 mehrere Analyseeinrichtungen 32, 34, 36, 38 bereitgestellt, die unabhängige Informationsquellen betreffend die Sprecheraktivität des Trägers der Hörvorrichtung darstellen. Die hier gezeigten vier Analyseeinrichtungen 32 bis 38 stellen nur eine beispielhafte Konfiguration einer Verarbeitungseinrichtung dar. Die Analyseeinrichtungen 32 bis 38 können beispielsweise durch ein oder mehrere Analyseprogramme für einen digitalen Signalprozessor bereitgestellt sein.For this reason, a plurality of analysis devices 32, 34, 36, 38 are provided with the processing device 20, which represent independent information sources relating to the speaker activity of the wearer of the hearing device. The four analyzers 32-38 shown here represent only one exemplary configuration of a processing device The analyzers 32-38 may be provided, for example, by one or more analysis programs for a digital signal processor.

Die Analyseeinrichtungen 32 bis 38 erzeugen in Abhängigkeit von dem Nutzsignal der Mikrofoneinrichtung 18 Ausgangssignale, welche Daten bzgl. der Sprachaktivität des Hörgeräteträgers d. h. Sprachaktivitätsdaten 40, 42, 44, 46 enthalten. Die Sprachaktivitätsdaten 40 bis 46 werden von einer Fusionseinrichtung 48 fusioniert (FUS - Fusion), das heißt sie werden zu einem einzigen Signal kombiniert, welches anzeigt, ob die Stimme des Trägers aktiv ist (OVA - Own Voice Active), oder ob sie nicht aktiv ist (OVNA - Own Voice not Active). Das Ausgangssignal der Fusionseinrichtung 48 bildet ein Steuersignal der Signalverarbeitung 30, durch welches die Signalverarbeitung 30 zwischen den beiden beschriebenen Modi hart umgeschaltet oder weich umgeblendet wird.The analysis devices 32 to 38 generate output signals depending on the useful signal of the microphone device 18, which data relate to the voice activity of the hearing device wearer d. H. Voice activity data 40, 42, 44, 46 included. The voice activity data 40 through 46 are merged (FUS - Fusion) by a fusion device 48, that is, they are combined into a single signal indicating whether the carrier's voice is active (OVA - Own Voice Active) or not active is (OVNA - Own Voice not Active). The output signal of the fusion device 48 forms a control signal of the signal processing 30, by which the signal processing 30 between the two modes described hard switched or soft-faded.

Generell ist zu den Analysekriterien der Analyseeinrichtung 32 bis 38 anzumerken, dass der Fachmann auf der Grundlage einfacher Versuche zu einem konkreten Modell einer Hörvorrichtung auf einfache Weise geeignete Analysekriterien finden kann, um zwischen einem Umgebungsschall 12, der von der Stimme des Trägers der Hörvorrichtung 10 selbst erzeugt wird, und einen Umgebungsschall 12, der von Schallquellen aus der Umgebung des Trägers stammt, unterscheiden zu können. Im Folgenden sind beispielhafte mögliche Ausgestaltungen der Analyseeinrichtungen 32 bis 38 beschrieben, die sich als besonders zweckmäßig erwiesen hat. Durch die Analyseeinrichtung 32 kann beispielsweise eine Auswertung einer räumlichen Information durchgeführt werden, wie sie auf der Grundlage mehrerer Mikrofonkanäle (MC - Multi Channel) in an sich bekannter Weise gewonnen werden können. Hierdurch kann beispielsweise eine Einfallrichtung 50 ermittelt werden, aus welcher der Umgebungsschall 12 auf die Mikrofoneinrichtung 18 oder zumindest einige von deren Mikrofone 24 bis 28 trifft.In general, it should be noted with respect to the analysis criteria of the analysis device 32 to 38 that the person skilled in the art can easily find suitable analysis criteria on the basis of simple experiments on a specific model of a hearing device in order to distinguish between an ambient sound 12 emitted by the voice of the wearer of the hearing device 10 itself is generated, and an ambient sound 12, which originates from sound sources from the environment of the wearer to distinguish. In the following, exemplary possible embodiments of the analysis devices 32 to 38 are described which have proved to be particularly expedient. By means of the analysis device 32, for example, an evaluation of a spatial information can be carried out, as can be obtained on the basis of a plurality of microphone channels (MC - Multi Channel) in a manner known per se. In this way, for example, a direction of incidence 50 can be determined, from which the ambient sound 12 strikes the microphone device 18 or at least some of its microphones 24 to 28.

Durch die Analyseeinrichtung 34 kann beispielsweise eine spektrale Auswertung auf der Grundlage eines einzelnen Mikrofonkanals (SC - Single Channel) erfolgen. Solche Analysen sind ebenfalls an sich aus dem Stand der Technik bekannt und beruhen beispielsweise auf der Auswertung einer Signalleistung in einzelnen spektralen Bändern des Audiosignals. Eine mögliche spektrale Information besteht in einer Sprecherverifikation. Durch eine solche Sprecherverifikation wird eine "Eins aus N" Sprechererkennung durchgeführt, d. h. es wird ein ganz bestimmter Sprecher aus mehreren möglichen Sprechern erkannt. Sie kann beispielsweise anhand einer spektralen Charakteristik des zu erkennenden Sprechers, also hier des Trägers der Hörvorrichtung 10, durchgeführt werden.By the analysis device 34, for example, a spectral evaluation on the basis of a single microphone channel (SC - Single Channel) take place. Such analyzes are also known per se from the prior art and are based, for example, on the evaluation of a signal power in individual spectral bands of the audio signal. One possible spectral information is a speaker verification. By such a speaker verification, a "one out of N" speaker recognition is performed, i. H. it is a very specific speaker from several possible speakers recognized. It can be carried out, for example, on the basis of a spectral characteristic of the speaker to be recognized, in this case the wearer of the hearing device 10.

Durch die Analyseeinrichtung 36 kann beispielsweise eine sprecherunabhängige Sprachaktivitätsdetektion (VAD) auf der Grundlage eines einzelnen Mikrofonkanals durchgeführt werden. Durch die Analyseeinrichtung 38 kann aus mehreren Mikrofonkanälen eine binaurale Information gewonnen werden, wie sie im Unterschied zu einem Mikrofonarray auch mit weiter beabstandeten Mikrofonen gewonnen werden kann.For example, speaker-independent voice activity detection (VAD) may be performed by the analyzer 36 based on a single microphone channel. By the analysis device 38 can be obtained from a plurality of microphone channels binaural information, as they can be obtained in contrast to a microphone array with more distant microphones.

Die Ausgabesignale der einzelnen Analyseeinrichtungen 32 bis 38, d.h. die Sprachaktivitätsdaten 40 bis 46, können je nach Analyseart die extrahierte Information in unterschiedlicher Weise repräsentieren. Zweckmäßige Formen sind die Ausgabe von Merkmalen in Form von diskreten realen Zahlen, die Ausgabe von Wahrscheinlichkeiten (also etwa realen Zahlen zwischen null und eins) oder sogar die Ausgabe von konkreten Entscheidungen zur Sprecheraktivität (also evtl. binäre Ausgaben von null oder eins). Bei den Wahrscheinlichkeiten kann es sich beispielsweise um Likelihoodwerte handeln. In FIG 2 ist jede dieser Ausgabeform durch entsprechende Hinweise auf Merkmale X, Wahrscheinlichkeiten P (Probability) oder Entscheidungen D (Decision) veranschaulicht.The output signals of the individual analysis devices 32 to 38, ie the voice activity data 40 to 46, can represent the extracted information in different ways, depending on the type of analysis. Convenient forms are the output of features in the form of discrete real numbers, the output of probabilities (ie, real numbers between zero and one), or even the output of concrete decisions about speaker activity (possibly binary outputs of zero or one). The probabilities may, for example, be likelihood values. In FIG. 2 Each of these output forms is illustrated by corresponding references to features X, probabilities P (probability) or decisions D (decision).

Durch die Fusionseinrichtung 48 wird eine Auswertung der Sprachaktivitätsdaten 40 bis 46 durchgeführt, die letztlich für die Steuerung der Signalverarbeitung 30 entscheidend ist. Bei der Fusionseinrichtung 48 kann es sich beispielsweise um ein Programm oder einen Programmabschnitt eines digitalen Signalprozessors handeln.By means of the fusion device 48, an evaluation of the voice activity data 40 to 46 is carried out, which ultimately is crucial for the control of signal processing 30. For example, the fusion device 48 may be a program or program portion of a digital signal processor.

Die Art der "Fusion" der Aktivitätsdaten 40 bis 46 hängt dabei ebenfalls in hohem Maß von den verwendeten Analyseeinrichtungen 32 bis 38 sowie von der verwendeten Form der Sprachaktivitätsdaten 40 bis 46 (Merkmale, Wahrscheinlichkeiten oder Einzelentscheidungen) ab. Durch die Fusionseinrichtung 48 können die Sprachaktivitätsdaten beispielsweise parallel verarbeitet werden oder seriell oder auch in einem hybriden Ansatz.The type of "fusion" of the activity data 40 to 46 also depends to a great extent on the analysis devices 32 to 38 used and on the form of the voice activity data 40 to 46 used (characteristics, probabilities or individual decisions). By means of the fusion device 48, the voice activity data can for example be processed in parallel or serially or even in a hybrid approach.

Die Sprachaktivitätsdaten 40 bis 46 können dabei durch die Fusionseinrichtung 48 einer eingangsseitigen Gewichtung unterzogen werden. Geeignete Gewichte lassen sich beispielsweise mittels eines Trainingsprozesses auf der Grundlage von Trainingsdaten ermitteln, die zum Beispiel mittels eines Lautsprechers als Umgebungsschall 12 auf die Hörvorrichtung 10 abgestrahlt werden können. Mittels des Trainingsprozesses lassen sich die Gewichte dann beispielsweise in Form einer Kovarianzmatrix ermitteln, durch welche ein Zusammenhang zwischen den Sprachaktivitätsdaten 40 bis 46 einerseits und der zu treffenden, wahren Entscheidung (Träger spricht oder spricht nicht) beschrieben ist. Bei Verwendung einer Kovarianzmatix werden die Sprachaktivitätsdaten 40 bis 46 zweckmäßigerweise in Form eines Vektors an die Fusionseinrichtung 48 übertragen, in welchem die Zahlenwerte der Analyseergebnisse, beispielsweise die Wahrscheinlichkeiten, zusammengefasst sind. Über die Kovarianzmatrix können für den Fall, dass zwei oder mehr der Analyseeinrichtungen 32 bis 38 Merkmale X1, X2, X3, X4 als Sprachaktivitätsdaten 40 bis 46 erzeugen, daraus zusammengefasste Merkmale X gebildet werden, die dann in Bezug auf die Sprachaktivität des Trägers ausgewertet werden. Die Auswertung der Merkmale bzgl. der Sprecheraktivität kann beispielsweise auf der Grundlage einer an sich bekannten Methode aus dem Gebiet der Mustererkennung erfolgen.The voice activity data 40 to 46 can be subjected to an input-side weighting by the fusion device 48. Suitable weights can be determined, for example, by means of a training process on the basis of training data, which can be radiated onto the hearing device 10, for example by means of a loudspeaker as ambient sound 12. By means of the training process, the weights can then be determined, for example, in the form of a covariance matrix, by which a relationship between the voice activity data 40 to 46 on the one hand and the true decision to be made (carrier speaks or does not speak) is described. When using a covariance matrix, the voice activity data 40 to 46 are expediently transmitted in the form of a vector to the fusion device 48, in which the numerical values of the analysis results, for example the probabilities, are combined. Through the covariance matrix, in the event that two or more of the analyzers 32-38 generate features X1, X2, X3, X4 as speech activity data 40-46, then aggregated features X may be formed, which are then evaluated with respect to the speech activity of the bearer , The evaluation of the characteristics with regard to the speaker activity can be carried out, for example, on the basis of a method known per se from the field of pattern recognition.

Eine weitere mögliche Auswertemethode der Fusionseinrichtung 48 ist eine Mehrheitsentscheidung, die beispielsweise auf der Grundlage von Einzelentscheidungen D1, D2, D3, D4 Analyseeinrichtungen 32 bis 38 geführt werden kann. Das Ergebnis ist dann eine Gesamtentscheidung D.Another possible evaluation method of the fusion device 48 is a majority decision, which can be performed, for example, on the basis of individual decisions D1, D2, D3, D4 analysis devices 32 to 38. The result is then an overall decision D.

Für den Fall, dass zwei oder mehr der Analyseeinrichtung 32 bis 38 Wahrscheinlichkeitswerte P1, P2, P3, P4 als Sprachaktivitätsdaten 40 bis 46 erzeugen, können diese Wahrscheinlichkeiten beispielsweise durch Berechnen eines Mittelwerts dieser Wahrscheinlichkeitswerte P1 bis P4 zu einer Gesamtwahrscheinlichkeit P zusammengefasst werden. Die Gesamtwahrscheinlichkeit P kann dann beispielsweise mit einem Schwellwert verglichen werden, um die abschließende Gesamtentscheidung D zu gewinnen.In the case where two or more of the analyzers 32 to 38 generate likelihood values P1, P2, P3, P4 as voice activity data 40 to 46, these likelihoods may be summarized by calculating an average of these likelihood values P1 to P4 into a total probability P, for example. The total probability P can then be compared, for example, with a threshold value in order to obtain the final overall decision D.

In Abhängigkeit von dem Ausgabesignal der Fusionseinrichtung 48 (OVA/OVNA) kann durch die Signalverarbeitung 30 beispielsweise ein Frequenzgang des Signalpfads eingestellt werden, wie er durch die Mikrofoneinrichtung 18, die Verarbeitungseinrichtung 20, die Signalverarbeitungseinrichtung 30 und den Hörer 22 gebildet wird. Beispielsweise können zur Vermeidung eines Okklusionseffekts tiefe Frequenzen des Audiosignals gedämpft werden. Genauso kann vorgesehen sein, dass ein Richtmikrofon bei Einsetzen der Stimme des Trägers nicht adaptiert wird, da es keinen Sinn macht, die Hauptkeule eines Beamformers von einer externen Quelle weg zu schwenken, wenn der Träger der Hörvorrichtung 10 spricht.Depending on the output signal of the fusion device 48 (OVA / OVNA), the signal processing 30 can set, for example, a frequency response of the signal path as formed by the microphone device 18, the processing device 20, the signal processing device 30 and the handset 22. For example, to avoid an occlusion effect, low frequencies of the audio signal can be attenuated. In the same way, it can be provided that a directional microphone is not adapted when inserting the voice of the carrier, since it makes no sense to pivot the main lobe of a beamformer away from an external source when the wearer of the hearing device 10 speaks.

Insgesamt ist durch Beispiele gezeigt, wie eine robuste und zuverlässige Eigensprechererkennung in einer Hörvorrichtung bereitgestellt werden kann, ohne dass hierzu ein zusätzliches Mikrofon in dem Gehörgang 16 des Trägers der Hörvorrichtung 10 benötigt wird.Overall, it is shown by examples how a robust and reliable speech recognition can be provided in a hearing device without the need for an additional microphone in the ear canal 16 of the wearer of the hearing device 10.

Claims

Hearing device comprising at least two analysis devices (32 to 38), each of which is adapted to obtain, based on an audio signal (12) received by the hearing device (10), voice activity data (40 to 46) indicative of a speaker activity of a wearer of the hearing device (12); 10) are dependent, and

a merging means (48) adapted to receive the voice activity data (40 to 46) from the analyzing means (32 to 38) and to recognize on the basis of the voice activity data (40 to 46) whether the carrier is talking or not .

characterized in that

at least one of the analysis devices (32 to 38) is designed to determine values (P1 to P4) for a soft decision or for a probability that the carrier is currently speaking, in dependence on the audio signal, and / or

- the fusion device (48) is adapted to weight the voice activity data (40 to 46) of at least two analysis devices (32 to 38) by trained or untrained weighting factors depending on which analyzer (32 to 38) they originate from and the weighted ones Link voice activity data (40 through 46).

Hearing apparatus (10) according to claim 1, characterized by a microphone device (18) comprising at least one microphone (24 to 28) and which is adapted to convert an incident on the carrier ambient sound (12) into a useful signal, wherein the analysis means ( 32 to 38) are adapted to process the wanted signal as the audio signal.

Hearing apparatus (10) according to claim 1 or 2, characterized by an adjustment device (30) which is designed for this purpose is to change an operating mode of the hearing device (10), in particular a transmission behavior of the hearing device (10) and / or a directional behavior of an adaptive beamforming device of the hearing device (10), if the fusion device (48) recognizes that the carrier is speaking.

Method for operating a hearing device (10), by means of at least two analysis devices (32 to 38) independent of each other voice activity data (40 to 46) are obtained from an audio signal, which are dependent on a speaker activity of a wearer of the hearing device (10), and by means of a Merging means (48) combining the voice activity data (40 to 46) and checking, based on the combined voice activity data (40 to 46), whether the carrier is talking or not,
characterized in that by means of at least one of the analysis devices (32 to 38), in response to the audio signal, values (P1 to P4) are determined for a soft decision or for a probability that the carrier is currently speaking, and or by the merging means (48), the voice activity data (40 to 46) of at least two analyzers (32 to 38) depending on which analyzer (32 to 38) they are derived from, weighted by trained or untrained weighting factors, and the weighted voice activity data (40 to 46).

Method according to Claim 4, characterized in that feature extraction is carried out by at least one of the analysis devices (32 to 38) and feature values (X1 to X4) are determined in dependence on the audio signal, in particular an incident direction (50) of an ambient sound (12). , a gender of a speaker, a reverberation of the audio signal or spectral characteristics, such as spectral or cepstral coefficients.

Method according to one of claims 4 or 5, characterized in that by at least one of the analysis means (32 to 38), a classification is performed and this depending on the audio signal already by the analysis means (32 to 38) on the basis of a classification criterion a single decision (D1 to D4) is generated as to whether the carrier speaks or not.

Method according to one of Claims 4 to 6, characterized in that the voice activity data (40) are generated by at least one of the analysis devices (32) as a function of an incident direction (50) of an ambient sound (12).

Method according to one of Claims 4 to 7, characterized in that the voice activity data (42) are generated by at least one of the analysis devices (34) as a function of spectral values of a frequency spectrum of the audio signal.

Method according to one of claims 4 to 8, characterized in that by at least one of the analysis means (36) a speaker-independent speech activity detection is performed.

Method according to one of claims 4 to 9, characterized in that at least one of the analysis means (38) generates the voice activity data (46) in response to binaural information formed from audio data obtained on different sides of a head of the carrier.

Method according to one of claims 4 to 10, characterized in that by the fusion device (48) on the basis of individual decisions (40 to 46) of at least two analysis devices a majority decision to that effect is made, whether by these analysis means (32 to 38) together a speaker activity is displayed.

Method according to one of claims 4 to 11, characterized in that an average value is calculated by the fusion device (48) from soft decisions of voice activity detectors of at least two analysis devices (40 to 46).

Method according to one of Claims 4 to 12, characterized in that a frequency response of the hearing device (10) is adjusted by an adaptation device (30) when the voice activity of the carrier detected by the fusion device (48) is attenuated and / or a low-frequency component of a useful signal is attenuated and / / or the adaptation of a directional characteristic of a directional microphone device of the hearing device (10) is interrupted or stopped.