DE102019004239A1

DE102019004239A1 - Musikklassifizierer und verwandte verfahren

Info

Publication number: DE102019004239A1
Application number: DE102019004239.5A
Authority: DE
Inventors: Pejman Dehghani; Robert L. Brennan
Original assignee: Semiconductor Components Industries LLC
Current assignee: Semiconductor Components Industries LLC
Priority date: 2018-06-22
Filing date: 2019-06-14
Publication date: 2019-12-24
Also published as: US20190394578A1; US11240609B2; TWI794518B; CN110634508A; TW202015038A

Abstract

Eine Audiovorrichtung, die einen Musikklassifizierer einschließt, der bestimmt, wann Musik in einem Audiosignal vorhanden ist, wird offenbart. Die Audiovorrichtung ist dazu konfiguriert, Audiosignale zu empfangen, die empfangenen Audiosignale zu verarbeiten und die verarbeiteten Audiosignale an einen Benutzer auszugeben. Die Verarbeitung kann basierend auf der Ausgabe des Musikklassifizierers eingestellt werden. Der Musikklassifizierer verwendet eine Vielzahl von Entscheidungsfindungseinheiten, von denen jede unabhängig an dem empfangenen Audiosignal arbeitet. Die Entscheidungsfindungseinheiten werden vereinfacht, um die für den Betrieb notwendige Verarbeitung und damit die Leistung zu reduzieren. Dementsprechend ist jede Entscheidungsfindungseinheit möglicherweise nicht ausreichend, um Musik allein zu bestimmen, wobei sie in Kombination Musik genau erfassen kann, während sie Leistung mit einer Rate verbraucht, die für eine mobile Vorrichtung, wie beispielsweise eine Hörhilfe, geeignet ist.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Vorteile der vorläufigen US-Anmeldung Nr. 62/688 726 , eingereicht am 22. Juni 2018 und mit dem Titel „A COMPUTATIONALLY EFFICIENT SUB-BAND MUSIC CLASSIFIER“, die hiermit in ihrer Gesamtheit durch Bezugnahme aufgenommen ist.
Diese Anmeldung bezieht sich auf die nicht vorläufige Anmeldung Nr. 16/375 039, eingereicht am 4. April 2019 und mit dem Titel „COMPUTATIONALLY EFFICIENT SPEECH CLASSIFIER AND RELATED METHODS“, welche die Priorität der vorläufigen US-Anmeldung Nr. 62/659 937 , eingereicht am 19. April 2018 beansprucht, die beide durch Bezugnahme ein ihren Gesamtheiten hierin aufgenommen sind.
GEBIET DER OFFENBARUNG
Die vorliegende Offenbarung bezieht sich auf eine Einrichtung zur Musikerfassung und zugehörige Verfahren zur Musikerfassung. Insbesondere bezieht sich die vorliegende Offenbarung auf das Erfassen der Anwesenheit oder Abwesenheit von Musik in Anwendungen mit begrenzter Verarbeitungsleistung, wie zum Beispiel Hörhilfen.
HINTERGRUND
Hörhilfen können basierend auf einem Umgebungstyp und/oder basierend auf einem Audiotyp, den ein Benutzer erfahren möchte, so angepasst werden, dass sie Audio unterschiedlich verarbeiten. Es kann wünschenswert sein, diese Einstellung zu automatisieren, um einem Benutzer eine natürlichere Erfahrung bereitzustellen. Die Automatisierung kann die Erfassung (d. h. Klassifizierung) des Umgebungstyps und/oder des Audiotyps umfassen. Diese Erfassung kann jedoch rechentechnisch komplex sein, was impliziert, dass eine Hörhilfe mit automatisierter Einstellung mehr Leistung verbraucht als eine Hörhilfe mit manueller (oder keiner) Einstellung. Der Energieverbrauch kann weiter zunehmen, wenn die Anzahl von erfassbaren Umgebungstypen und/oder Audiotypen erhöht wird, um die natürliche Erfahrung für den Benutzer zu verbessern. Da es zusätzlich zum Bereitstellen einer natürlichen Erfahrung sehr wünschenswert ist, dass eine Hörhilfe klein ist und über lange Zeiträume auf einer einzigen Ladung arbeitet, besteht ein Bedarf an einem Erfasser vom Umgebungstyp und/oder Audiotyp, der genau und effizient arbeitet, ohne den Leistungsverbrauch und/oder die Größe der Hörhilfe signifikant zu erhöhen.
KURZDARSTELLUNG
In mindestens einem Aspekt beschreibt die vorliegende Offenbarung allgemein einen Musikklassifizierer für eine Audiovorrichtung. Der Musikklassifizierer schließt eine Signalaufbereitungseinheit ein, die dazu konfiguriert ist, ein digitalisiertes ZeitbereichsAudiosignal in ein entsprechendes Frequenzbereichssignal zu transformieren, das eine Vielzahl von Frequenzbändern einschließt. Der Musikklassifizierer schließt auch eine Vielzahl von Entscheidungsfindungseinheiten ein, die parallel arbeiten und die jeweils konfiguriert sind, eines oder mehrere der Vielzahl von Frequenzbändern zu bewerten, um eine Vielzahl von Merkmalsbewertungen zu bestimmen, wobei jede Merkmalsbewertung einer Eigenschaft (d. h. einem Merkmal) entspricht, die Musik zugeordnet ist. Der Musikklassifizierer schließt auch eine Kombinations- und Musikerfassungseinheit ein, die dazu konfiguriert ist, Merkmalsbewertungen über einen Zeitraum zu kombinieren, um zu bestimmen, ob das Audiosignal Musik einschließt.
In möglichen Implementierungen können die Entscheidungsfindungseinheiten des Musikklassifizierers eine oder mehrere von einer Takterfassungseinheit, einer Tonerfassungseinheit und einer Modulationsaktivitätsverfolgungseinheit einschließen.
In einer möglichen Implementierung kann die Takterfassungseinheit basierend auf einer Korrelation ein sich wiederholendes Taktmuster in einem ersten (z. B. niedrigsten) Frequenzband der Vielzahl von Frequenzbändern erfassen, während in einer anderen möglichen Implementierung die Takterfassungseinheit das sich wiederholende Muster basierend auf einer Ausgabe eines neuronalen Netzwerks erfassen kann, das als seine Eingabe die Vielzahl von Frequenzbändern empfängt.
In einer möglichen Implementierung ist die Kombinations- und Musikerfassungseinheit dazu konfiguriert, eine Gewichtung auf jede Merkmalsbewertung anzuwenden, um gewichtete Merkmalsbewertungen zu erhalten und die gewichteten Merkmalsbewertungen zu summieren, um eine Musikbewertung zu erhalten. Die mögliche Implementierung kann ferner durch die Akkumulation von Musikbewertungen für eine Vielzahl von Frames und durch Berechnen eines Mittelwerts der Musikbewertungen für die Vielzahl von Frames charakterisiert werden. Dieser Mittelwert der Musikbewertungen für die Vielzahl von Frames kann mit einem Schwellenwert verglichen werden, um Musik oder keine Musik in dem Audiosignal zu bestimmen. In einer möglichen Implementierung kann eine Hysteresesteuerung auf die Ausgabe des Schwellenwertvergleichs angewendet werden, sodass die Musik- oder keine Musikentscheidung weniger anfällig für falsche Änderungen (z. B. aufgrund von Rauschen) ist. Mit anderen Worten, kann die endgültige Bestimmung eines aktuellen Zustands des Audiosignals (d. h. Musik/keine Musik) auf einem vorherigen Zustand (d. h. Musik/keine Musik) des Audiosignals basieren. In einer anderen möglichen Implementierung wird der oben beschriebene Kombinations- und Musikerfassungsansatz durch ein neuronales Netzwerk ersetzt, das die Merkmalsbewertungen als Eingaben empfängt und ein Ausgangssignal liefert, das einen Musikzustand oder einen Zustand ohne Musik aufweist.
In einem anderen Aspekt beschreibt die vorliegende Offenbarung allgemein ein Verfahren zur Musikerfassung. In dem Verfahren wird ein Audiosignal empfangen und digitalisiert, um ein digitalisiertes Audiosignal zu erhalten. Das digitalisierte Audiosignal wird in eine Vielzahl von Frequenzbändern umgewandelt. Die Vielzahl von Frequenzbändern wird dann an eine Vielzahl von Entscheidungsfindungseinheiten angelegt, die parallel arbeiten, um entsprechende Merkmalsbewertungen zu erzeugen. Jede Merkmalsbewertung entspricht einer Wahrscheinlichkeit, dass eine bestimmte Musikeigenschaft (z. B. ein Takt, ein Ton, eine hohe Modulationsaktivität usw.) in dem Audiosignal eingeschlossen ist (d. h. basierend auf Daten aus dem einen oder den mehreren Frequenzbändern). Schließlich schließt das Verfahren ein Kombinieren der Merkmalsbewertungen ein, um Musik in dem Audiosignal zu erfassen.
In einer möglichen Implementierung führt eine Audiovorrichtung (z. B. eine Hörhilfe) das oben beschriebene Verfahren durch. Zum Beispiel kann ein nichtflüchtiges computerlesbares Medium mit computerlesbaren Anweisungen durch einen Prozessor der Audiovorrichtung ausgeführt werden, um zu bewirken, dass die Audiovorrichtung das oben beschriebenen Verfahren durchführt.
In einem anderen Aspekt beschreibt die vorliegende Offenbarung im Allgemeinen eine Hörhilfe. Die Hörhilfe schließt eine Signalaufbereitungsstufe ein, die dazu konfiguriert ist, ein digitalisiertes Audiosignal in eine Vielzahl von Frequenzbändern umzuwandeln. Die Hörhilfe schließt ferner einen Musikklassifizierer ein, der mit der Signalaufbereitungsstufe gekoppelt ist. Der Musikklassifizierer schließt eine Merkmalserfassungs- und -verfolgungseinheit ein, die eine Vielzahl von Entscheidungsfindungseinheiten einschließt, die parallel arbeiten. Jede Entscheidungsfindungseinheit ist dazu konfiguriert, eine Merkmalsbewertung zu erzeugen, die einer Wahrscheinlichkeit entspricht, dass eine bestimmte Musikeigenschaft in dem Audiosignal eingeschlossen ist. Der Musikklassifizierer schließt auch eine Kombinations- und Musikerfassungseinheit ein, die basierend auf der Merkmalsbewertung von jeder Entscheidungsfindungseinheit konfiguriert ist, Musik in dem Audiosignal zu erfassen. Die Kombinations- und Musikerfassungseinheit ist ferner dazu konfiguriert, ein erstes Signal zu erzeugen, das Musik anzeigt, während Musik in dem Audiosignal erfasst wird, und ist dazu konfiguriert, ein zweites Signal zu erzeugen, das ansonsten kein Musiksignal anzeigt.
In einer möglichen Implementierung schließt die Hörhilfe eine Audiosignalmodifizierstufe ein, die mit der Signalaufbereitungsstufe und dem Musikklassifizierer gekoppelt ist. Die Audiosignalmodifizierstufe ist dazu konfiguriert, die Vielzahl von Frequenzbändern anders zu verarbeiten, wenn ein Musiksignal empfangen wird, als wenn kein Musiksignal empfangen wird.
Die vorstehende veranschaulichende Kurzdarstellung sowie andere beispielhafte Ziele und/oder Vorteile der Offenbarung und die Art und Weise, in der dieselben erreicht werden, werden in der folgenden detaillierten Beschreibung und in den beigefügten Zeichnungen weiter erklärt.
Figurenliste

1 ist ein Funktionsblockdiagramm, das im Allgemeinen eine Audiovorrichtung mit einem Musikklassifizierer gemäß einer möglichen Implementierung der vorliegenden Offenbarung darstellt.
2 ist ein Blockdiagramm, das im Allgemeinen eine Signalaufbereitungsstufe der Audiovorrichtung von 1 darstellt.
3 ist ein Blockdiagramm, das im Allgemeinen eine Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers von 1 zeigt.
4A ist ein Blockdiagramm, das im Allgemeinen eine Takterfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer ersten möglichen Implementierung darstellt.
4B ist ein Blockdiagramm, das im Allgemeinen eine Takterfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer zweiten möglichen Implementierung darstellt.
5 ist ein Blockdiagramm, das im Allgemeinen eine Tonerfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer möglichen Implementierung darstellt.
6 ist ein Blockdiagramm, das im Allgemeinen eine Modulations- und Aktivitätsverfolgungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer möglichen Implementierung darstellt.
7A ist ein Blockdiagramm, das im Allgemeinen eine Kombinations- und Musikerfassungseinheit des Musikklassifizierers gemäß einer ersten möglichen Implementierung darstellt.
7B ist ein Blockdiagramm, das im Allgemeinen eine Kombinations- und Musikerfassungseinheit des Musikklassifizierers gemäß einer zweiten möglichen Implementierung darstellt.
8 ist ein Hardware-Blockdiagramm, das im Allgemeinen eine Audiovorrichtung gemäß einer möglichen Implementierung der vorliegenden Offenbarung zeigt.
9 ist ein Verfahren zum Erfassen von Musik in einer Audiovorrichtung gemäß einer möglichen Implementierung der vorliegenden Offenbarung.

Die Komponenten in den Zeichnungen sind in Bezug zueinander nicht notwendigerweise maßstabsgetreu. Gleiche Bezugszeichen bezeichnen entsprechende Teile in den verschiedenen Ansichten.
DETAILLIERTE BESCHREIBUNG
Die vorliegende Offenbarung ist auf eine Audiovorrichtung (d. h. eine Einrichtung) und ein zugehöriges Verfahren zur Musikklassifizierung (z. B. Musikerfassung) gerichtet. Wie hierin erörtert, bezieht sich die Musikklassifizierung (Musikerfassung) auf ein Identifizieren von Musikinhalt in einem Audiosignal, das andere Audioinhalte wie beispielsweise Sprache und Rauschen (z. B. Hintergrundrauschen) einschließen kann. Die Musikklassifizierung kann ein Identifizieren von Musik in einem Audiosignal einschließen, sodass das Audiosignal geeignet modifiziert werden kann. Zum Beispiel kann die Audiovorrichtung eine Hörhilfe sein, die Algorithmen zum Reduzieren von Rauschen, zum Löschen von Rückkopplung und/oder Steuern einer Audiobandbreite einschließen kann. Diese Algorithmen können basierend auf der Erfassung von Musik aktiviert, deaktiviert und/oder modifiziert werden. So kann zum Beispiel ein Rauschreduktionsalgorithmus-Signaldämpfungspegel verringern, während Musik erfasst wird, um eine Qualität der Musik zu bewahren. In einem anderen Beispiel kann ein Rückkopplungsunterdrückungsalgorithmus daran gehindert werden (z. B. im Wesentlichen gehindert), Töne von Musik zu unterdrücken, da er andernfalls einen Ton von einer Rückkopplung unterdrücken würde. In einem anderen Beispiel kann die Bandbreite von Audiosignalen, die durch die Audiovorrichtung einem Benutzer präsentiert werden, die normalerweise niedrig sind, um Energie zu sparen, erhöht werden, wenn Musik vorhanden ist, um ein Musikhörerlebnis zu verbessern.
Die hierin beschriebenen Implementierungen können verwendet werden, um einen recheneffizienten und/oder leistungseffizienten Musikklassifizierer (und zugehörige Verfahren) zu implementieren. Dies kann durch die Verwendung von Entscheidungsfindungseinheiten erreicht werden, die jeweils eine Eigenschaft (d. h. Merkmale) erfassen können, die Musik entspricht. Allein kann jede Entscheidungsfindungseinheit Musik möglicherweise nicht mit einer hohen Genauigkeit klassifizieren. Die Ausgaben aller Entscheidungsfindungseinheiten können jedoch kombiniert werden, um einen genauen und robusten Musikklassifizierer zu bilden. Ein Vorteil dieses Ansatzes ist, dass die Komplexität jeder Entscheidungsfindungseinheit begrenzt werden kann, um Leistung zu sparen, ohne die Gesamtleistung des Musikklassifizierers negativ zu beeinflussen.
In den hierin beschriebenen beispielhaften Implementierungen werden verschiedene Betriebsparameter und Techniken, wie beispielsweise Schwellenwerte, Gewichtungen (Koeffizienten), Berechnungen, Raten, Frequenzbereiche, Frequenzbandbreiten usw. beschrieben. Diese beispielhaften Betriebsparameter und Techniken sind beispielhaft angegeben, und die spezifischen Betriebsparameter, Werte und Techniken (z. B. Berechnungsansätze), die verwendet werden, sind von der speziellen Implementierung abhängig. Ferner können verschiedene Ansätze zum Bestimmen der spezifischen Betriebsparameter und Techniken für eine gegebene Implementierung auf eine Anzahl von Weisen bestimmt werden, wie beispielsweise unter Verwendung empirischer Messungen und Daten, unter Verwendung von Trainingsdaten und so fort.
1 ist ein Funktionsblockdiagramm, das im Allgemeinen eine Audiovorrichtung darstellt, die einen Musikklassifizierer implementiert. Wie in 1 gezeigt, schließt die Audiovorrichtung 100 einen Audio-Transducer (z. B. ein Mikrofon 110) ein. Die analoge Ausgabe des Mikrofons 110 wird von einem Analog-Digital-(A/D)-Wandler 120 digitalisiert. Das digitalisierte Audiosignal wird zur Verarbeitung durch eine Signalaufbereitungsstufe 130 modifiziert. So kann zum Beispiel das ZeitbereichsAudiosignal, das durch die digitalisierte Ausgabe des A/D-Wandlers 120 dargestellt wird, durch die Signalaufbereitungsstufe 130 in eine Frequenzbereichsdarstellung umgewandelt werden, die durch eine Audiosignalmodifizierstufe 150 modifiziert werden kann.
Die Audiosignalmodifizierstufe 150 kann dazu konfiguriert sein, eine Qualität des digitalen Audiosignals durch Löschen von Rauschen, Filtern, Verstärken und so fort zu verbessern. Das verarbeitete Audiosignal (z. B. verbesserte Qualität) kann dann in ein digitales Zeitbereichssignal transformiert 151 und durch einen Digital-Analog-(D/A)-Wandler 160 zur Wiedergabe auf einer Audioausgabevorrichtung (z. B. dem Lautsprecher 170) in ein analoges Signal umgewandelt werden, um Ausgangsaudiosignale 171 für einen Benutzer zu erzeugen.
In einigen möglichen Implementierungen ist die Audiovorrichtung 100 eine Hörhilfe. Die Hörhilfe empfängt Audiosignale (d. h. Schalldruckwellen) von einer Umgebung 111, verarbeitet die Audiosignale, wie oben beschrieben, und präsentiert (z. B. unter Verwendung eines Empfängers (d. h. eines Lautsprechers) einer Hörhilfe 170) die verarbeitete Version der Audiosignale als Ausgangsaudiosignale 171 (d. h. Schalldruckwellen) einem Benutzer, der die Hörhilfe trägt. Eine durch Algorithmen implementierte Audiosignalmodifizierstufe kann einem Benutzer helfen, Sprache und/oder andere Geräusche in der Umgebung des Benutzers zu verstehen. Ferner kann es zweckmäßig sein, wenn die Auswahl und/oder Einstellung dieser Algorithmen automatisch basierend auf verschiedenen Umgebungen und/oder Tönen erfolgt. Dementsprechend kann die Hörhilfe einen oder mehrere Klassifizierer implementieren, um verschiedene Umgebungen und/oder Töne zu erfassen. Die Ausgabe des einen oder der mehreren Klassifizierer kann verwendet werden, um eine oder mehrere Funktionen der Audiosignalmodifizierstufe 150 automatisch einzustellen.
Ein Aspekt eines wünschenswerten Betriebs kann dadurch gekennzeichnet sein, dass der eine oder die mehreren Klassifizierer in Echtzeit (wie von einem Benutzer wahrgenommen) hochgenaue Ergebnisse bereitstellen. Ein anderer Aspekt eines wünschenswerten Betriebs kann durch einen niedrigen Leistungsverbrauch gekennzeichnet sein. So können zum Beispiel eine Hörhilfe und ihr normaler Betrieb eine Größe und/oder eine Zeit zwischen dem Laden einer Energiespeichereinheit (z. B. Akkumulator oder Batterie) definieren. Dementsprechend ist es wünschenswert, dass eine automatische Modifikation des Audiosignals basierend auf einem Echtzeitbetrieb eines oder mehrerer Klassifizierer die Größe und/oder die Zeit zwischen einem Batteriewechsel für die Hörhilfe nicht signifikant beeinflusst.
Die in 1 gezeigte Audiovorrichtung 100 schließt einen Musikklassifizierer 140 ein, der dazu konfiguriert ist, Signale von der Signalaufbereitungsstufe 130 zu empfangen und eine Ausgabe zu erzeugen, die der Anwesenheit und/oder Abwesenheit von Musik entspricht. Während zum Beispiel Musik in Audiosignalen erfasst wird, die von der Audiovorrichtung 100 empfangen werden, kann der Musikklassifizierer 140 ein erstes Signal (z. B. ein logisches High-Signal) ausgeben. Während in Audiosignalen, die durch die Audiovorrichtung empfangen werden, keine Musik erfasst wird, kann der Musikklassifizierer ein zweites Signal (z. B. ein logisches Low-Signal) ausgeben. Die Audiovorrichtung kann ferner einen oder mehrere andere Klassifizierer 180 einschließen, die basierend auf anderen Bedingungen Signale ausgeben. So kann zum Beispiel der Klassifizierer, der in der US-Patentanmeldung 16/375 039 beschrieben ist, in einer möglichen Implementierung in dem einen oder mehreren anderen Klassifizierern 180 eingeschlossen sein.
Der hierin offenbarte Musikklassifizierer 140 empfängt als seine Eingabe die Ausgabe einer Signalaufbereitungsstufe 130. Die Signalaufbereitungsstufe kann auch als Teil der routinemäßigen Audioverarbeitung für die Hörhilfe verwendet werden. Dementsprechend besteht ein Vorteil des offenbarten Musikklassifizierers 140 darin, dass derselbe die gleiche Verarbeitung wie andere Stufen verwenden kann, wodurch Komplexität und Leistungsanforderungen gespart werden. Ein weiterer Vorteil des offenbarten Musikklassifizierers ist seine Modularität. Die Audiovorrichtung kann den Musikklassifizierer deaktivieren, ohne ihren normalen Betrieb zu beeinflussen. In einer möglichen Implementierung könnte zum Beispiel die Audiovorrichtung den Musikklassifizierer 140 beim Erfassen eines Niedrigenergiezustands (d. h. einer niedrigen Batterie) deaktivieren.
Die Audiovorrichtung 100 schließt Stufen (z. B. Signalaufbereitung 130, Musikklassifizierer 140, Audiosignalmodifizieren 150, Signaltransformation 151, andere Klassifikatoren 180) ein, die als Hardware oder als Software ausgeführt sein können. So können zum Beispiel die Stufen als Software implementiert sein, die auf einem Universalprozessor (z. B. CPU, Mikroprozessor, Mehrkernprozessor usw.) oder Spezialprozessor (z. B. ASIC, DSP, FPGA usw.) läuft.
2 ist ein Blockdiagramm, das im Allgemeinen eine Signalaufbereitungsstufe der Audiovorrichtung von 1 darstellt. Die Eingaben in die Signalaufbereitungsstufe 130 sind Zeitbereichs-Audioabtastwerte 201 (TD SAMPLES). Die Zeitbereichsabtastwerte 201 können durch Transformation des physikalischen Schallwellendrucks in eine äquivalente analoge Signaldarstellung (Spannung oder Strom) durch einen Transducer (Mikrofon) erhalten werden, gefolgt von einem A/D-Wandler, der das analoge Signal in digitale Audioabtastwerte umwandelt. Dieses digitalisierte Zeitbereichssignal wird durch die Signalaufbereitungsstufe in ein Frequenzbereichssignal umgewandelt. Das Frequenzbereichssignal kann durch eine Vielzahl von Frequenzbändern 220 (d. h.
Frequenzunterbänder, Subbänder, Bänder usw.) gekennzeichnet sein. In einer Implementierung verwendet die Signalaufbereitungsstufe eine gewichtete Overlap-Add(Wola)-Filterbank, wie sie beispielsweise im US-Patent Nr. 6 236 731 mit dem Titel „Filterbank Structure and Method for Filtering and Separating an Information Signal into Different Bands, Particularly for Audio Signal in Hearing Aids“ offenbart ist. Das verwendete WOLA-Filterband kann eine Kurzzeitfenster-(Frame)-Länge von R Abtastwerten und N Subfrequenzbänder 220 einschließen, um die Zeitbereichsabtastwerte in ihre äquivalente komplexe Datendarstellung im Subband-Frequenzbereich zu transformieren.
Wie in 2 gezeigt, gibt die Signalaufbereitungsstufe 130 eine Vielzahl von Frequenz-Subbändern aus. Jedes nicht überlappende Subband stellt Frequenzkomponenten des Audiosignals in einem Bereich (z. B. +/- 125 Hz) von Frequenzen um eine Mittenfrequenz dar. Zum Beispiel kann ein erstes Frequenzband (d. h. BAND_0) bei Null-(DC)-Frequenz zentriert sein und Frequenzen im Bereich von etwa 0 bis etwa 125 Hz einschließen, ein zweites Frequenzband (d. h. BAND_1) kann bei 250 Hz zentriert sein und Frequenzen im Bereich von etwa 125 Hz bis etwa 375 Hz einschließen und so weiter für eine Anzahl (N) von Frequenzbändern.
Die Frequenzbänder 220 (d. h. BAND_0, BAND_1 usw.) können verarbeitet werden, um das Audiosignal 111 zu modifizieren, das an der Audiovorrichtung 100 empfangen wird. So kann zum Beispiel die Audiosignalmodifizierstufe 150 (siehe 1) Verarbeitungsalgorithmen auf die Frequenzbänder anwenden, um das Audiosignal zu verstärken. Dementsprechend kann die Audiosignalmodifizierstufe 150 zur Rauschentfernung und/oder Sprach-/Tonverbesserung konfiguriert sein. Die Audiosignalmodifizierstufe 150 kann auch Signale von einem oder mehreren Klassifizierern empfangen, die Anwesenheit (oder Abwesenheit) eines bestimmten Audiosignals (z. B. eines Tons), eines bestimmten Audiotyps (z. B. Sprache, Musik) und/oder eines bestimmten Audiozustands (z. B. Hintergrundtyp) anzeigen. Diese empfangenen Signale können ändern, wie die Audiosignalmodifizierstufe 150 zur Rauschentfernung und/oder Sprach-/ Tonverbesserung konfiguriert ist.
Wie in 1 gezeigt, kann ein Signal, das die Anwesenheit (oder Abwesenheit) von Musik anzeigt, bei der Audiosignalmodifizierstufe 150 von einem Musikklassifizierer 140 empfangen werden. Das Signal kann bewirken, dass die Audiosignalmodifizierstufe 150 einen oder mehrere zusätzliche Algorithmen anwendet, einen oder mehrere Algorithmen eliminiert und/oder einen oder mehrere Algorithmen ändert, die sie verwendet, um das empfangene Audiosignal zu verarbeiten. Während zum Beispiel Musik erfasst wird, kann ein Rauschunterdrückungspegel (d. h. Dämpfungspegel) reduziert werden, sodass die Musik (z. B. ein Musiksignal) nicht durch Dämpfung verschlechtert wird. In einem anderen Beispiel kann eine Mitnahme (z. B. falsche Rückkopplungserfassung), Anpassung und Verstärkung eines Rückkopplungsunterdrückers gesteuert werden, während Musik erfasst wird, sodass Töne in der Musik nicht unterdrückt werden. In noch einem anderen Beispiel kann eine Bandbreite der Audiosignalmodifizierstufe 150 erhöht werden, während Musik erfasst wird, um die Qualität der Musik zu verbessern, und dann reduziert werden, während keine Musik erfasst wird, um Energie zu sparen.
Der Musikklassifizierer ist dazu konfiguriert, die Frequenzbänder 220 von der Signalaufbereitungsstufe 130 zu empfangen und ein Signal auszugeben, das die Anwesenheit oder Abwesenheit von Musik anzeigt. So kann zum Beispiel das Signal einen ersten Pegel (z. B. eine logische Hochspannung), der die Anwesenheit von Musik anzeigt, und einen zweiten Pegel (z. B. eine logische Niederspannung) einschließen, der die Abwesenheit von Musik anzeigt. Der Musikklassifizierer 140 kann dazu konfiguriert sein, die Bänder kontinuierlich zu empfangen und das Signal kontinuierlich auszugeben, sodass eine Änderung im Pegel des Signals zeitlich mit dem Moment korreliert, in dem Musik beginnt oder endet. Wie in 1 gezeigt, kann der Musikklassifizierer 140 eine Merkmalserfassungs- und -verfolgungseinheit 200 und eine Kombinations- und Musikerfassungseinheit 300 einschließen.
3 ist ein Blockdiagramm, das im Allgemeinen eine Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers von 1 zeigt. Die Merkmalserfassungs- und -verfolgungseinheit schließt eine Vielzahl von Entscheidungsfindungseinheiten (d. h. Module, Einheiten usw.) ein. Jede Entscheidungsfindungseinheit der Vielzahl ist dazu konfiguriert, eine Eigenschaft (d. h. ein Merkmal), das der Musik zugeordnet ist, zu erfassen und/oder verfolgen. Da jede Einheit auf eine einzelne Eigenschaft gerichtet ist, ist die algorithmische Komplexität, die für jede Einheit erforderlich ist, um eine Ausgabe (oder Ausgaben) zu erzeugen, begrenzt. Dementsprechend kann jede Einheit weniger Taktzyklen erfordern, um eine Ausgabe zu bestimmen, als es erforderlich wäre, um alle der Musikeigenschaften unter Verwendung eines einzigen Klassifizierers zu bestimmen. Zusätzlich können die Entscheidungsfindungseinheiten parallel arbeiten und ihre Ergebnisse zusammen bereitstellen (z. B. gleichzeitig). Somit kann der modulare Ansatz weniger Leistung verbrauchen, um (vom Benutzer wahrgenommen) in Echtzeit zu arbeiten, als andere Ansätze und ist daher für Hörhilfen gut geeignet.
Jede Entscheidungsfindungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers kann eines oder mehrere (z. B. alle) der Bänder von der Signalaufbereitung empfangen. Jede Entscheidungsfindungseinheit ist dazu konfiguriert, mindestens eine Ausgabe zu erzeugen, die einer Bestimmung über eine bestimmte Musikeigenschaft entspricht. Die Ausgabe einer bestimmten Einheit kann einem zweistufigen (z. B. binären) Wert (d. h. Merkmalsbewertung) entsprechen, der eine Ja- oder Nein-Antwort (d. h. eine richtige oder eine falsche Antwort) auf die Frage anzeigt, „Wird das Merkmal zu diesem Zeitpunkt erfasst.“ Wenn eine Musikeigenschaft eine Vielzahl von Komponenten (z. B. Töne) aufweist, kann eine bestimmte Einheit eine Vielzahl von Ausgaben erzeugen. In diesem Fall kann jede der Vielzahl von Ausgaben jeweils einer Erfassungsentscheidung (z. B. einer Merkmalsbewertung, die gleich einer logischen 1 oder einer logischen 0 ist) bezüglich einer der Vielzahl von Komponenten entsprechen. Wenn eine bestimmte Musikeigenschaft einen zeitlichen (d. h. zeitlich variierenden) Aspekt aufweist, kann die Ausgabe einer bestimmten Einheit der Anwesenheit oder Abwesenheit der Musikeigenschaft in einem bestimmten Zeitfenster entsprechen. Mit anderen Worten verfolgt die Ausgabe der bestimmten Einheit die Musikeigenschaften mit dem zeitlichen Aspekt.
Manche möglichen Musikeigenschaften, die erfasst und/oder verfolgt werden können, sind ein Takt, ein Ton (oder Töne) und eine Modulationsaktivität. Während jede dieser Eigenschaften allein unzureichend sein kann, um genau zu bestimmen, ob ein Audiosignal Musik einschließt, kann, wenn sie kombiniert werden, die Genauigkeit der Bestimmung erhöht werden. So kann zum Beispiel das Bestimmen, dass ein Audiosignal einen oder mehrere Töne (d. h. eine Tonalität) aufweist, zum Bestimmen von Musik unzureichend sein, da ein reiner (d. h. zeitlich konstanter) Ton in einem Audiosignal eingeschlossen sein kann (z. B. darin existieren kann), ohne Musik zu sein. Das Bestimmen, dass das Audiosignal auch eine hohe Modulationsaktivität aufweist, kann helfen, zu bestimmen, dass die bestimmten Töne wahrscheinlich Musik sind (und nicht ein reiner Ton von einer anderen Quelle). Eine weitere Bestimmung, dass das Audiosignal einen Takt aufweist, würde stark anzeigen, dass das Audiosignal Musik enthält. Dementsprechend kann die Merkmalserfassungs- und -verfolgungseinheit 200 des Musikklassifizierers 140 eine Takterfassungseinheit 210, eine Tonerfassungseinheit 240 und eine Modulationsaktivitätsverfolgungseinheit 270 einschließen.
4A ist ein Blockdiagramm, das im Allgemeinen eine Takterfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer ersten möglichen Implementierung darstellt. Die erste mögliche Implementierung der Takterfassungseinheit empfängt nur das erste Subband (d. h. Frequenzband) (BAND_0) von der Signalaufbereitung 130, da eine Taktfrequenz am wahrscheinlichsten innerhalb des Bereichs von Frequenzen (z. B. 0 bis 125 Hz) dieses Bandes gefunden wird. Zuerst wird eine momentane Subband-(BAND_0)-Energieberechnung 212 durchgeführt als: $E_{0} [n] = X^{2} [n,0]$
wobei n die aktuelle Frame-Nummer, X [n, 0] die realen BAND_0-Daten und E₀ [n] die momentane BAND_0-Energie für den aktuellen Frame ist. Wenn eine WOLA-Filterbank der Signalaufbereitungsstufe 130 als in einem geraden Stapelmodus befindlich konfiguriert ist, wird der Imaginärteil des BAND_0 (der ansonsten bei jeder realen Eingabe 0 wäre) mit einem (realen) Nyquist-Bandwert gefüllt. Daher wird im geraden Stapelmodus E₀ [n] vielmehr berechnet als: $E_{0} [n] = r e a l {X [n,0]}^{2}$
E₀ [n] wird dann vor einer Dezimierung 214 tiefpassgefiltert 216 um Aliasing zu reduzieren. Einer der einfachsten und leistungseffizientesten Tiefpassfilter 214, der verwendet werden kann, ist der exponentielle Glättungsfilter erster Ordnung: $E_{0 L F P} [n] = α_{b d} \times E_{0 L F P} [n - 1] + (1 - α_{b d}) \times E_{0} [n]$
wobei a_bd der Glättungskoeffizient und E_0LFP [n] die tiefpassgefilterte BAND_0-Energie ist. Als nächstes wird E_0LFP [n] durch einen Faktor von M dezimiert 216, was E_b [m] erzeugt, wobei m die Frame-Nummer bei der dezimierten Rate ist: $\frac{F_{S}}{R \times M},$
wobei R die Anzahl von Abtastwerten in jedem Frame n ist. Bei dieser dezimierten Rate, wird das Suchen nach einem möglichen Takt bei jedem m = N_b durchgeführt, wobei N_b die Länge der Takterfassungs-Beobachtungsdauer ist. Das Screening mit der reduzierten (d. h. dezimierten) Rate kann Energieverbrauch durch Reduzieren der Anzahl von Abtastwerten, die innerhalb einer gegebenen Dauer verarbeitet werden sollen, einsparen. Das Screening kann auf verschiedene Arten durchgeführt werden. Ein effektives und recheneffizientes Verfahren ist das Verwenden normierter Autokorrelation 218. Die Autokorrelationskoeffizienten können bestimmt werden als: $a_{b} [m, τ] = \frac{\sum_{i = 0}^{N_{b}} E_{b} [m - i] E_{b} [m - i + τ]}{\sum_{i = 0}^{N_{b}} E_{b} {[m - i]}^{2}}$
wobei τ die Verzögerungsmenge bei der dezimierten Frame-Rate ist und a_b [m, τ] die normierte Autokorrelationskoeffizienten bei der dezimierten Frame-Nummer m und dem Verzögerungswert τ sind.
Anschließend wird eine Takterfassungs-(BD)- Entscheidung 220 getroffen. Um zu entscheiden, dass ein Takt vorhanden ist, wird a_b [m, τ] über einen Bereich von τ Verzögerungen ausgewertet und eine Suche erfolgt dann nach dem ersten ausreichend hohe lokalen Maximum von a_b [m, τ] gemäß einem zugewiesenen Schwellenwert. Das ausreichend hohe Kriterium kann eine ausreichend starke Korrelation dafür bereitstellen, dass das Ergebnis als ein Takt betrachtet werden kann, wobei der zugeordnete Verzögerungswert τ die Taktperiode bestimmt. Wenn kein lokales Maximum gefunden wird oder wenn kein lokales Maximum als ausreichend stark eingestuft wird, gilt die Wahrscheinlichkeit, dass ein Takt vorhanden ist, als gering. Während das Auffinden einer Instanz, die die Kriterien erfüllt, für die Takterfassung ausreichend sein könnte, erhöhen mehrere Ergebnisse mit gleichem Verzögerungswert über mehrere N_b-Intervalle die Wahrscheinlichkeit erheblich. Sobald ein Takt erfasst wird, wird das Erfassungsstatus-Flag BD [m_bd] auf 1 gesetzt, wobei m_bd die Takterfassungs-Frame-Nummer bei der Rate $\frac{F_{S}}{R \times M \times N_{b}}$
ist. Wenn kein Takt erfasst wird, wird das die Erfassungsstatus-Flag BD [m_bd] auf 0 gesetzt. Die Bestimmung des aktuellen Tempowerts ist für die Takterfassung nicht explizit erforderlich. Wenn jedoch das Tempo erforderlich ist, kann die Takterfassungseinheit eine Tempobestimmung einschließen, die eine Beziehung zwischen τ und dem Tempo in Takten pro Minute verwendet zu: $B P M = \frac{F_{s} \times 60}{R \times M \times τ}$
Da typische musikalische Takte zwischen 40 und 200 bpm betragen, muss a_b [m, τ] nur über die τ-Werte bewertet werden, die diesem Bereich entsprechen, und damit können unnötige Berechnungen vermieden werden, um die Berechnungen zu minimieren. Folglich wird-a_b [τ] nur in ganzzahligen Intervallen bewertet zwischen: $τ = \frac{0,3 \times F_{s}}{R \times M} und τ = \frac{1,5 \times F_{s}}{R \times M}$
Die Parameter R, a_bd , N_b , M, die Bandbreite der Filterbank und die Schärfe des Unterbandfilters der Filterbank sind alle untereinander korreliert, und unabhängige Werte können nicht vorgeschlagen werden. Dennoch hat die Auswahl des Parameterwerts einen direkten Einfluss auf die Anzahl der Berechnungen und die Effektivität des Algorithmus. Zum Beispiel erzeugen höhere N_b-Werte genauere Ergebnisse. Niedrige M-Werte sind möglicherweise nicht ausreichend, um die Taktsignatur zu extrahieren, und hohe M-Werte können zu einem Mess-Aliasing führen, das die Takterfassung gefährdet. Die Wahl von a_bd ist auch mit R, F_s und den Filterbankeigenschaften verknüpft, und ein falsch eingestellter Wert kann das gleiche Ergebnis erzeugen wie ein falsch eingestelltes M.
4B ist ein Blockdiagramm, das im Allgemeinen eine Takterfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer zweiten möglichen Implementierung darstellt. Die zweite mögliche Implementierung der Banderfassungseinheit empfängt alle Subbänder (BAND_0, BAND_1,..., BAND_N) aus der Signalaufbereitung 130. Jedes Frequenzband ist tiefpassgefiltert 214 und dezimiert 216 wie in der vorherigen Implementierung. Zusätzlich werden für jedes Band über die Beobachtungszeiträume N_b eine Vielzahl von Merkmalen (z. B. Werte für Energiemittelwert, Energiestandardabweichung, Energiemaximum, Energiekurtosis, Energieschiefe und/oder Energiekreuzkorrelation) extrahiert 222 (d. h. bestimmt, berechnet usw.) und als ein Merkmalssatz einem neuronalen Netzwerk 225 zugeführt.
Das neuronale Netz 225 kann ein tiefes (d. h. mehrschichtiges) neuronales Netzwerk mit einem einzelnen neuronalen Ausgang entsprechend der Takterfassungs-(BD)-Entscheidung sein. Die Schalter (S₀ , S₁ ,..., S_N ) können verwendet werden, um zu steuern, welche Bänder in der Takterfassungsanalyse verwendet werden. Zum Beispiel können manche Schalter geöffnet werden, um ein oder mehrere Bänder zu entfernen, von denen vermutet wird, dass sie begrenzte nützliche Informationen aufweisen. Zum Beispiel wird angenommen, dass BAND_0 nützliche Informationen enthält, die einen Takt betreffen, und daher in der Takterfassung (d. h. durch Schließen von Schalter S₀ ) eingeschlossen (z. B. immer eingeschlossen) werden kann. Umgekehrt können ein oder mehrere höhere Bänder aus den nachfolgenden Berechnungen ausgeschlossen werden (d. h. durch Öffnen ihres jeweiligen Schalters), da sie unterschiedliche Informationen bezüglich eines Taktes enthalten können. Mit anderen Worten, während BAND_0 verwendet werden kann, um einen Takt zu erfassen, können eines oder mehrere der anderen Bänder (z. B. BAND_1 ... BAND_N) verwendet werden, um den erfassten Takt zwischen einem Musiktakt und anderen taktartigen Tönen (d. h. Antippen, Klappern usw.) weiter zu unterscheiden. Die zusätzliche Verarbeitung (d. h. Energieverbrauch), die jedem zusätzlichen Band zugeordnet ist, kann basierend auf der bestimmten Anwendung mit der Notwendigkeit weiterer Takterfassungsdiskriminierung ausgeglichen werden. Ein Vorteil der in 4B gezeigten Takterfassungsimplementierung, liegt darin, dass sie anpassbar ist, um Merkmale aus unterschiedlichen Bändern nach Bedarf zu extrahieren.
In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) einen Energiemittelwert für das Band einschließen. Zum Beispiel kann ein BAND_0-Energiemittelwert (E_{b_µ} ) berechnet werden als: $E_{b_μ} [m] = \frac{1}{N_{b}} \sum_{i = 0}^{N_{b} - 1} E_{b} [m - i],$
wobei N_b der Beobachtungszeitraum ist (z. B. Anzahl vorhergehender Frames) und m die aktuelle Frame-Nummer ist.
In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) eine Energiestandardabweichung für das Band einschließen. Zum Beispiel kann eine BAND_0-Energiestandardabweichung (E_{b_σ} )) berechnet werden als: $E_{b_σ} [m] = \sqrt{\sum_{i = 0}^{N_{b} - 1} \frac{{(E_{b} [m - i] - E_{b_μ} [m])}^{2}}{N_{b}}}$
In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) ein Energiemedium für das Band einschließen. Zum Beispiel kann ein BAND_0-Energiemaximum (E_{b_max} ) berechnet werden als: $E_{b_m a x} [m] = max (E_{b} [m - i] |_{i = 0}^{i = N_{b} - 1})$
In einer möglichen Implementierung kann die Vielzahl von extrahierten Merkmalen 222 (z. B. für die ausgewählten Bänder) eine Energiekurtosis für das Band enthalten. Zum Beispiel kann eine BAND_0-Energiekurtosis (E_{b_k} )) berechnet werden als: $E_{b_k} = \frac{1}{N_{b}} \sum_{i = 0}^{N_{b} - 1} {(\frac{E_{b} [m - i] - E_{b_μ} [m]}{E_{b_σ}})}^{4}$
In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) eine Energieschiefe für das Band enthalten. So kann zum Beispiel eine BAND_0-Energieschiefe (E_{b_s} ) berechnet werden als: $E_{b_s} = \frac{1}{N_{b}} \sum_{i = 0}^{N_{b} - 1} {(\frac{E_{b} [m - i] - E_{b_μ} [m]}{E_{b_σ} [m]})}^{3}$
In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) einen Energiekreuzkorrelationsvektor für das Band einschließen. Zum Beispiel kann ein BAND_0-Energiekreuzkorrelationsvektor (E_{b_xcor} ) berechnet werden als: ${\bar{E}}_{b_x c o r} [m] = [a_{b} [m, τ_{40}], a_{b} [m, τ_{40} - 1], \dots, a_{b} [m, τ_{200} + 1], a_{b} [m, τ_{200}]]$
wobei τ der Korrelationsrückstand (d. h. die Verzögerung) ist. Die Verzögerungen in dem Kreuzkorrelationsvektor können berechnet werden als: $τ_{200} = r o u n d (\frac{0,3 \times F_{s}}{R \times M}) und τ_{40} = r o u n d (\frac{1,5 \times F_{s}}{R \times M})$
Während die vorliegende Offenbarung nicht auf den oben beschriebenen Satz extrahierter Merkmale beschränkt ist, können diese Merkmale in einer möglichen Implementierung einen Merkmalssatz bilden, den ein neuronales BD-Netzwerk 225 verwenden kann, um einen Takt zu bestimmen. Ein Vorteil der Merkmale in diesem Merkmalssatz ist, dass sie keine rechenintensive mathematische Berechnung erfordern, was Verarbeitungsleistung einspart. Zusätzlich teilen sich die Berechnungen gemeinsame Elemente (z. B. Mittelwert, Standardabweichung usw.), sodass die Berechnungen der gemeinsam genutzten gemeinsamen Elemente nur einmal vom Merkmalssatz durchgeführt werden müssen, wodurch weiter Verarbeitungsleistung eingespart wird.
Das neuronale BD-Netz 225 kann als ein neuronales Netzwerk mit einem langen Kurzzeitspeicher (LSTM) implementiert werden. In dieser Implementierung kann der gesamte Kreuzkorrelationsvektor (d. h.E̅_b__xcor [m]) von dem neuronalen Netzwerk verwendet werden, um eine BD-Entscheidung zu erreichen. In einer anderen möglichen Implementierung kann das neuronale BD-Netzwerk 225 als ein neuronales Vorwärtsnetzwerk implementiert werden, das einen einzelnen Max-Wert des Kreuzkorrelationsvektors verwendet, nämlich E_{max_xcor} [m], um eine BD-Entscheidung zu erreichen. Das neuronale BD-Netzwerk eines bestimmten Typs, das implementiert ist, kann auf einem Gleichgewicht zwischen Leistung und Leistungseffizienz basieren. Für die Takterfassung, kann das neuronale Vorwärtsnetzwerk eine bessere Leistung und verbesserte Leistungseffizienz zeigen.
5 ist ein Blockdiagramm, das im Allgemeinen eine Tonerfassungseinheit 240 der Merkmalserfassungs- und -verfolgungseinheit 200 des Musikklassifizierers 140 gemäß einer möglichen Implementierung darstellt. Die Eingaben in die Tonerfassungseinheit 240 sind die komplexen Subbanddaten von der Signalzustandsstufe. Während alle N Bänder verwendet werden können, um Tonalität zu erfassen, haben Experimente gezeigt, dass Subbänder oberhalb von 4 kHz möglicherweise nicht genügend Information enthalten, um die zusätzlichen Berechnungen zu rechtfertigen, es sei denn, die Leistungseffizienz ist nicht von Bedeutung. Somit wird für ein 0 < k < N_TN, TN, wobei N_TN die Gesamtanzahl von Subbändern ist, um nach der Anwesenheit von Tonalität zu suchen, die momentane Energie 510 der komplexen Subbanddaten für jedes Band als solches berechnet: $E_{i n s t} [n, k] - {| X [n, k] |}^{2}$
Als Nächstes werden die Bandenergiedaten in log2 umgewandelt 512. Während eine hochgenaue log2 - Operation verwendet werden kann, kann, wenn die Operation als zu teuer angesehen wird, eine, die die Ergebnisse innerhalb von Bruchteilen von dB annähern würde, ausreichend sein, solange die Approximation in ihrem Fehler relativ linear und monoton steigend ist. Eine mögliche Vereinfachung ist die lineare Näherung, die gegeben ist als: $L = E + 2 m_{r}$
Wobei E der Exponent des Eingabewerts und m_r der Rest ist. Die Näherung L kann dann unter Verwendung eines führenden Bitdetektors, von 2 Schiebeoperationen und einer Addieroperation bestimmt werden, Anweisungen, die üblicherweise auf den meisten Mikroprozessoren gefunden werden. Die log2-Schätzung der momentanen Energie, genannt E_{inst_log} [n, k], d dann durch einen Tiefpassfilter 514 verarbeitet, um Interferenzen benachbarter Bänder zu entfernen und sich auf die Frequenz des mittleren Bandes zu konzentrieren im Band k: $E_{p r e_d i f f} [n, k] = α_{p r e} \times E_{p r e_d i f f} [n - 1, k] + (1 - α_{p r e}) \times E_{i n s t_l o g} [n, k]$
wobei α_pre der effektive Cutoff-Frequenzkoeffizient ist und die resultierende Ausgabe durch E_{pre_diff} [n, k] oder die Vordifferenzierungsfilterenergie bezeichnet wird. Als Nächstes findet eine Differenzierung 516 erster Ordnung in Form einer einzigen Differenz über die aktuellen und vorherigen Frames der R-Abtastung statt: $Δ_{m a g} [n, k] = E_{p r e_d i f f} [n, k] - E_{p r e_d i f f} [n - 1, k]$
und der Absolutwert von Δ_mag wird genommen. Die resultierende Ausgabe |Δ_mag[n,k]| wird dann durch ein Glättungsfilter 518 geleitet, um ein gemitteltes |Δ_mag[n,k]| über mehrere Zeit-Frames zu erhalten: $Δ_{m a g_a v g} [n, k] = α_{p o s t} \times Δ_{m a g_a v g} [n - 1, k] + (1 - α_{p o s t}) \times | Δ_{m a g} [n, k] |$
wobei α_post der exponentielle Glättungskoeffizient ist und die resultierende AusgabeΔ_{mag_avg} [n, k]eine Pseudovarianzmessung der Energie im Band k und Frame n in dem logarithmischen Bereich ist. Schließlich werden zwei Bedingungen geprüft, um zu entscheiden, 520 (d. h. zu bestimmen), ob eine Tonalität vorhanden ist oder nicht: Δ_{mag_avg}[n, k] wird gegen einen Schwellenwert geprüft, unter dem das Signal so betrachtet wird, dass es eine ausreichend niedrige Varianz aufweist, um tonal zu sein, und E_{pre_diff} [n, k] wird gegen einen Schwellenwert geprüft, um zu verifizieren, dass die beobachtete tonale Komponente ausreichend Energie in dem Subband enthält: $TN [n, k] = (Δ_{m a g, a v g} [n, k] < T o n a l i t y_{T h} [k]) & & (E_{p r e_d i f f} [n, k] > S B M a g_{T h} [k])$
wobei TN [n, k] den Tonalitätsanwesenheitsstatus im Band k und Rahmen n bei irgendeiner gegebenen Zeit enthält Mit anderen Worten, können die Ausgänge TD_0, TD_1,...TD_N der Wahrscheinlichkeit entsprechen, dass ein Ton innerhalb des Bandes vorhanden ist.
Ein gemeinsames Signal, das nicht Musik ist, aber eine gewisse Tonalität enthält, ähnliche (zu einigen Musikarten) zeitliche Modulationseigenschaften aufweist und ähnliche (zu einigen Musikarten) Spektrumformen zu Musik besitzt, ist Sprache. Da es schwierig ist, Sprache basierend auf den Modulationsmustern und Spektrumdifferenzen robust von Musik zu unterscheiden, wird die Tonalitätsebene der kritische Unterschied. Der Schwellwert Tonality_Th[k] muss daher sorgfältig ausgewählt werden, um nicht bei Sprache, sondern nur bei Musik, auszulösen. Da der Wert von Tonality_Th[k] von der Vor- und Nachdifferenzierungsfiltermenge, nämlich den ausgewählten Werten für α_pre und α_post, abhängig ist, die selbst von auf F_s und der gewählten Filterbankeigenschaften abhängig sind, können keine unabhängigen Werte vorgeschlagen werden. Jedoch kann der optimale Schwellenwert durch Optimierungen an einer großen Datenbank für einen ausgewählten Satz von Parameterwerten erhalten werden. Während SBMag_Th [k] auch von dem gewählten α_pre-Wert abhängig ist, ist es weitaus weniger empfindlich, da es lediglich dazu dient, sicherzustellen, dass die entdeckte Tonalität nicht zu wenig Energie aufweist, um unsignifikant zu sein.
6 ist ein Blockdiagramm, das im Allgemeinen eine Modulations- und Aktivitätsverfolgungseinheit 270 der Merkmalserfassungs- und -verfolgungseinheit 200 des Musikklassifizierers 140 gemäß einer möglichen Implementierung darstellt. Die Eingabe in die Modulationsaktivitätsverfolgungseinheit sind die komplexen Unterband-(d. h. Band)-Daten von der Signalaufbereitungsstufe. Alle Bänder werden kombiniert (d. h. summiert) für eine Breitbanddarstellung des Audiosignals. Die momentane Breitbandenergie 610 E_{wb_inst} [n] wird berechnet als: $E_{w b_i n s t} [n] = \sum_{k = 0}^{N_{s b} - 1} {| X [n, k] |}^{2}$
wobei X [n, k] die komplexe WOLA (d. h. Subband) mit Analysedaten bei Frame n und Band k ist. Die Breitbandenergie wird dann über mehrere Frames mittels eines Glättungsfilters 612 gemittelt: $E_{w b} [n] = α_{w} \times E_{w b} [n - 1] + (1 - α_{w}) \times E_{w b_i n s t} [n]$
wobei α_w der exponentielle Glättungskoeffizient und E_wb [n] die gemittelte Breitbandenergie ist. Jenseits dieses Schritts kann die Modulationsaktivität verfolgt werden, um eine zeitliche Modulationsaktivität auf unterschiedliche Weise zu messen 614, wobei einige anspruchsvoller sind, während andere rechnerisch effizienter sind.
Das einfachste und vielleicht das rechnerisch effizienteste Verfahren schließt ein Durchführen einer minimalen und maximalen Verfolgung der gemittelten Breitbandenergie ein. Zum Beispiel könnte der globale Minimalwert der gemittelten Energie alle 5 Sekunden als die minimale Schätzung der Energie erfasst werden, und der globale Maximalwert der gemittelten Energie könnte alle 20 ms als die maximale Schätzung der Energie erfasst werden. Anschließend wird am Ende jeder 20 ms die relative Divergenz zwischen den min- und max-Verfolgern berechnet und gespeichert: $r [m_{m o d}] = \frac{M a x [m_{m o d}]}{M i n [m_{m o d}]}$
wobei m_mod die Frame-Nummer bei der 20-ms-Intervallrate, Max[m_mod] die aktuelle Schätzung des maximalen Werts der Breitbandenergie, Min[m_mod] die aktuelle (zuletzt aktualisierten) Schätzung des minimalen Werts der Breitbandenergie und r[m_mod] das Divergenzverhältnis ist. Anschließend wird das Divergenzverhältnis mit einem Schwellenwert verglichen, um ein Modulationsmuster 616 zu bestimmen: $L M [m_{m o d}] = (r [m_{m o d}] < D i v e r g e n z_{t h})$
Der Divergenzwert kann einen weiten Bereich annehmen. Ein niedriger mittlerer bis hoher Bereich würde ein Ereignis anzeigen, das Musik, Sprache oder Rauschen sein könnte. Da die Varianz der Breitbandenergie eines reinen Tons deutlich niedrig ist, würde ein extrem niedriger Divergenzwert entweder einen reinen Ton (eines Lautstärkepegels) oder ein nicht reines Tonsignal mit extrem niedrigem Pegel anzeigen, das in aller Wahrscheinlichkeit zu niedrig wäre, um als etwas Wünschenswertes angesehen zu werden. Die Unterscheidungen zwischen Sprache gegenüber Musik und Rauschen gegenüber Musik werden durch Tonalitätsmessungen (durch die Tonalitätserfassungseinheit) und den Taktanwesenheitsstatus (durch die Takterfassungseinheit) vorgenommen, und das Modulationsmuster oder der Divergenzwert fügen in dieser Hinsicht nicht viel Wert hinzu. Da jedoch reine Töne durch Tonalitätsmessungen nicht von Musik unterschieden werden können, und wenn vorhanden, die Tonalitätsbedingung für Musik erfüllen können, und da eine Abwesenheit einer Takterfassung nicht notwendigerweise eine Nicht-Musikbedingung bedeutet, besteht ein expliziter Bedarf an einem unabhängigen reinen Tonerfasser. Da, wie erörtert, der Divergenzwert ein guter Indikator dafür sein kann, ob ein reiner Ton vorhanden ist oder nicht, verwenden wir die Modulationsmusterverfolgungseinheit ausschließlich als einen reinen Tonerfasser, um reine Töne von Musik zu unterscheiden, wenn durch die Tonerfassungseinheit 240 bestimmt wird, dass eine Tonalität vorhanden ist. Folglich setzen wir die Divergence_th auf einem ausreichend kleinen Wert, unterhalb dessen entweder nur ein reiner Ton oder ein extrem niedriges Signal (das nicht von Interesse ist) vorhanden sein kann. Folglich wird LM[m_mod] oder das Low-Modulations-Status-Flag effektiv zu einem „reinen Ton“- oder einem „Nicht-Musik“-Status-Flag für den Rest des Systems. Die Ausgabe (MA) der Modulationsaktivitätsverfolgungseinheit 270 entspricht einem Modulationsaktivitätspegel und kann verwendet werden, um eine Klassifizierung eines Tons als Musik zu verhindern.
7A ist ein Blockdiagramm, das im Allgemeinen eine Kombinations- und Musikerfassungseinheit 300 des Musikklassifizierers 140 gemäß einer ersten möglichen Implementierung darstellt. In einer Knoteneinheit 310 der Kombinations- und Musikerfassungseinheit 300 werden alle einzelnen Ausgaben der einzelnen Erfassungseinheiten (d. h. Merkmalsbewertungen) (d. h. BD, TD_1, TD_2, TD_N, MA) empfangen und eine Gewichtung angewendet (β_B , β_T0, β_T1, β_TN, β_M), um eine gewichtete Merkmalsbewertung für jede zu erhalten. Die Ergebnisse werden kombiniert 330, um eine Musikbewertung zu formulieren (z. B. für einen Frame von Audiodaten). Die Musikbewertung kann über eine Beobachtungsperiode akkumuliert werden, während der eine Vielzahl von Musikbewertungen für eine Vielzahl von Frames erhalten wird. Periodenstatistiken 340 können dann auf die Musikbewertungen angewendet werden. So können zum Beispiel die erhaltenen Musikbewertungen gemittelt werden. Die Ergebnisse der Periodenstatistiken werden mit einem Schwellenwert 350 verglichen, um zu bestimmen, ob Musik während des Zeitraums vorhanden ist oder ob Musik während des Zeitraums nicht vorhanden ist. Die Kombinations- und Erfassungseinheit ist auch dazu konfiguriert, eine Hysteresesteuerung 360 auf die Schwellenwertausgabe anzuwenden, um zu verhindern, dass mögliche Sprachklassifizierungen zwischen den Beobachtungszeiträumen flattern. Mit anderen Worten, kann eine aktuelle Schwellenwertentscheidung auf einer oder mehreren durchlässigen Schwellenentscheidungen basieren. Nachdem die Hysteresesteuerung 360 angewendet ist, wird eine endgültige Sprachklassifizierungsentscheidung (MUSIK/KEINE MUSIK) bereitgestellt oder anderen Subsystemen in der Audiovorrichtung zur Verfügung gestellt.
Die Kombinations- und Musikerfassungseinheit 300 kann auf asynchron ankommenden Eingaben von den Erfassungseinheiten (z. B. Takterfassung 210, Tonerfassung 240 und Modulationsaktivitätsverfolgung 270) arbeiten, wenn sie in unterschiedlichen internen Entscheidungstreff (d. h. Bestimmungs)-Intervallen arbeiten. Die Kombinations- und Musikerfassungseinheit 300 arbeitet auch in einer äußerst recheneffizienten Form, während sie die Genauigkeit aufrechterhält. Auf dem hohen Niveau müssen mehrere Kriterien erfüllt sein, damit Musik erfasst werden kann. So ist zum Beispiel ein starker Takt oder ein starker Ton in dem Signal vorhanden, und der Ton ist kein reiner Ton oder ein Signal mit extrem niedrigem Pegel.
Da die Entscheidungen mit unterschiedlichen Raten auftreten, wird die Basisaktualisierungsrate auf das kürzeste Intervall in dem System gesetzt, das die Rate ist, mit der die Tonalitätserfassungseinheit 240 auf jeden R Abtastwert (den n Frames) arbeitet. Die Merkmalsbewertungen (d. h. Entscheidungen) werden gewichtet und so zu einer Musikbewertung (d. h. Bewertung) kombiniert:
In jedem Frame n: $B [n] = B D [m_{b d}]$
$M [n] = L M [m_{m o d}]$
wobei B[n] mit dem neuesten Takterfassungsstatus aktualisiert wird und M [n] mit dem neusten Modulationsmusterstatus aktualisiert wird. Dann gilt bei jedem N_MD Intervall: $S c o r e = \begin{matrix} S c o r e = 0 \\ \sum_{i = 0}^{N_{M D - 1}} (max (0, β {}_{B}B [n - 1] + \sum_{k = 0}^{N_{T N} - 1} β_{T k} T N [n - i, k] + β {}_{M}M [n - i])) \\ M u s i c D e t e c t e d = (S c o r e > M u s i c S c o r e_{t h}) \end{matrix}$
wobei N_(MD) die Musikerfassungsintervalllänge in Frames, β_B der Gewichtungsfaktor im Zusammenhang mit der Takterfassung, β_Tk der Gewichtungsfaktor im Zusammenhang mit der Tonalitätserfassung ist und β_M der Gewichtungsfaktor im Zusammenhang mit der reinen Tonerfassung ist. Die β Gewichtungsfaktoren können basierend auf Training und/oder Verwendung bestimmt werden und sind üblicherweise werkseitig eingestellt. Die Werte der β-Gewichtungsfaktoren können von mehreren Faktoren abhängig sein, die nachstehend beschrieben werden.
Erstens können die Werte der β -Gewichtungsfaktoren von einer Ereignissignifikanz abhängig sein. So kann zum Beispiel ein einzelner Tonalitätstreffer im Vergleich zu einem einzelnen Takterfassungsereignis nicht so signifikant für ein Ereignis sein.
Zweitens können die Werte der β -Gewichtungsfaktoren von der internen Abstimmung der Erfassungseinheit und dem Gesamtvertrauensniveau abhängig sein. Es ist im Allgemeinen vorteilhaft, einen kleinen Prozentsatz des Ausfalls an den Entscheidungsfindungsstufen unterer Ebene zu erlauben, und eine Langzeitmittelung, um einen Teil davon zu korrigieren. Dies ermöglicht es, ein Einstellen sehr restriktiver Schwellenwerte auf den unteren Ebenen zu vermeiden, was wiederum die Gesamtempfindlichkeit des Algorithmus erhöht. Je höher die Spezifität der Erfassungseinheit (d. h. eine geringere Fehlklassifizierungsrate) ist, desto signifikanter sollte die Entscheidung berücksichtigt werden, und daher muss ein höherer Gewichtungswert gewählt werden. Umgekehrt gilt, je niedriger die Spezifität der Erfassungseinheit ist (d. h. eine höhere Fehlklassifizierungsrate), desto weniger schlüssig sollte die Entscheidung berücksichtigt werden, und daher muss ein geringerer Gewichtungswert gewählt werden.
Drittens können die Werte der β -Gewichtungsfaktoren von der internen Aktualisierungsrate der Erfassungseinheit im Vergleich zu der Basisaktualisierungsrate abhängig sein. Selbst wenn B[n], TN[n, k] und M[n] alle bei jedem Frame nB[n], M[n] kombiniert werden, halten das gleiche Statusmuster für viele aufeinander folgende Frames aufgrund der Tatsache, dass der Takterfasser und die Modulationsaktivitätsverfolgungseinheiten ihre Flags mit einer dezimierten Rate aktualisieren. Wenn zum Beispiel BD [m_bd] auf einer Aktualisierungsintervallperiode von 20 ms läuft und die Basis-Frame-Periode 0,5 Millisekunden beträgt, erzeugt B [n] für jedes tatsächliche BD [m_bd]-Takterfassungsereignis 40 aufeinanderfolgende Frames von Takterfassungsereignissen. Somit müssen die Gewichtungsfaktoren die Mehrratenart der Aktualisierungen berücksichtigen. Wenn in dem obigen Beispiel der vorgesehene Gewichtungsfaktor für ein Takterfassungsereignis zu 2 gewählt wurden, dann sollte β_B zu $\frac{2}{\frac{20}{0,5}} = 0,05$
zugewiesen werden, um das Wiederholungsmuster zu berücksichtigen.
Viertens können die Werte der β Gewichtungsfaktoren von der Korrelationsbeziehung der Entscheidung der Erfassungseinheit für Musik abhängig sein. Ein positiver β Gewichtungsfaktor wird für Erfassungseinheiten verwendet, die die Anwesenheit von Musik unterstützen, und ein negativer β Gewichtungsfaktor wird für diejenigen verwendet, welche die Anwesenheit von Musik zurückweisen. Daher halten die Gewichtungsfaktoren β_B und β_Tk positive Gewichtungen, während β_m einen negierten Gewichtungswert hält.
Fünftens können die Werte der β-Gewichtungsfaktoren von der Architektur des Algorithmus abhängig sein. Da M [n] in dem Summationsknoten vielmehr als eine UND-Operation anstelle einer ODER-Operation aufgenommen werden muss, kann eine deutlich höhere Gewichtung für β_m gewählt werden, um die Ausgaben von B [n] und TN[n, k] auf Null zu setzen und als ein UND-Vorgang zu agieren.
Selbst in Anwesenheit von Musik muss nicht jede Musikerfassungsperiode notwendigerweise Musik erfassen. Somit kann es erwünscht sein, mehrere Perioden von Musikerfassungsentscheidungen zu akkumulieren, bevor die Musikklassifizierung deklariert wird, um ein potentielles Musikerfassungszustandsflattern zu vermeiden. Es kann auch erwünscht sein, länger im Musikzustand zu bleiben, wenn wir für eine lange Zeit in dem Musikzustand gewesen sind. Beide Ziele können sehr effizient mit Hilfe von eines Musikstatusverfolgungszählers erreicht werden:
wobei MAX_MUSIC_DETECTED_COUNT der Wert ist, bei dem der MusicDetectedCounter gedeckelt ist. Dem MusicDetectedCounter, jenseits dessen die Musikklassifizierun deklariert wird, wird dann ein Schwellenwert zugewiesen: $M u s i c C l a s s i f i c a t i o n = (M u s i c D e t e c t e d C o u n t e r \geq M u s i c D e t e c t e f C o u t n e r_{t h})$
In einer zweiten möglichen Implementierung der Kombinations- und Erfassungseinheit 300 des Musikklassifizierers 140 können die Gewichtungsanwendung und der Kombinationsprozess durch ein neuronales Netzwerk ersetzt werden. 7B ist ein Blockdiagramm, das im Allgemeinen eine Kombinations- und Musikerfassungseinheit des Musikklassifizierers gemäß der zweiten möglichen Implementierung darstellt. Die zweite Implementierung kann mehr Leistung verbrauchen als die erste Implementierung (7A). Dementsprechend könnte die erste mögliche Implementierung für Anwendungen mit geringerer verfügbarer Leistung (oder Modalitäten) verwendet werden, während die zweite mögliche Implementierung für Anwendungen mit höherer verfügbarer Leistung (oder Modalitäten) verwendet werden könnte.
Die Ausgabe des Musikklassifizierers 140 kann auf verschiedene Weisen verwendet werden, und die Verwendung hängt vollständig von der Anwendung ab. Ein ziemlich verbreitetes Ergebnis eines Musikklassifizierungszustands ist das Nachstimmen von Parametern in dem System, um besser zu einer Musikumgebung zu passen. Zum Beispiel kann bei einer Hörhilfe, wenn Musik erfasst wird, eine existierende Rauschreduktion deaktiviert oder heruntergestimmt werden, um etwaige unerwünschte Artefakte für Musik zu vermeiden. In einem anderen Beispiel reagiert ein Rückkopplungs-Unterdrücker, während Musik erfasst wird, nicht auf die beobachtete Tonalität in der Eingabe auf die gleiche Weise, wie es der Fall wäre, wenn Musik nicht erfasst wird (d. h. die beobachtete Tonalität ist auf Rückkopplung zurückzuführen). In einigen Implementierungen kann die Ausgabe des Musikklassifizierers 140 (d. h. MUSIK/KEINE MUSIK) mit anderen Klassifikatoren und/oder Stufen in der Audiovorrichtung geteilt werden, um den anderen Klassifizierern und/oder Stufen dabei zu helfen, eine oder mehrere Funktionen durchzuführen.
8 ist ein Hardware-Blockdiagramm, das im Allgemeinen eine Audiovorrichtung 100 gemäß einer möglichen Implementierung der vorliegenden Offenbarung zeigt. Die Audiovorrichtung schließt einen Prozessor (oder Prozessoren) 820 ein, der durch Softwareanweisungen konfiguriert werden kann, um alle oder einen Teil der hierin beschriebenen Funktionen auszuführen. Dementsprechend umfasst die Audiovorrichtung 100 auch einen Speicher 830 (z. B. einen nichtflüchtigen computerlesbaren Speicher) zum Speichern der Softwareanweisungen sowie der Parameter für den Musikklassifizierer (z. B. Gewichtungen). Die Audiovorrichtung 100 kann ferner einen Audioeingang 810 einschließen, der das Mikrofon und den Digitalisierer (A/D) 120 einschließen kann. Die Audiovorrichtung kann ferner eine Audioausgabe 840 einschließen, die den Digital-Analog(D/A)-Wandler 160 und einen Lautsprecher 170 (z. B. einen keramischen Lautsprecher, einen Knochenleitungslautsprecher usw.) einschließen kann. Die Audiovorrichtung kann ferner eine Benutzerschnittstelle 860 einschließen. Die Benutzerschnittstelle kann Hardware, Schaltlogik und/oder Software zum Empfangen von Sprachbefehlen einschließen. Alternativ oder zusätzlich kann die Benutzerschnittstelle Steuerungen (z. B. Tasten, Wählschalter, Schalter) einschließen, die ein Benutzer einstellen kann, um Parameter der Audiovorrichtung einzustellen. Die Audiovorrichtung kann ferner eine Leistungsschnittstelle 880 und eine Batterie 870 einschließen. Die Leistungsschnittstelle 880 kann Leistung zum Laden der Batterie 870 oder zum Betrieb der Audiovorrichtung empfangen und verarbeiten (z. B. regeln). Die Batterie kann eine wiederaufladbare Batterie sein, die Leistung von der Leistungsschnittstelle empfängt und der konfiguriert sein kann, Energie für den Betrieb der Audiovorrichtung bereitzustellen. In manchen Implementierungen kann die Audiovorrichtung kommunikativ mit einer oder mehreren Rechenvorrichtungen 890 (z. B. einem Smartphone) oder einem Netzwerk 895 (z. B. zellulares Netzwerk, Computernetzwerk) gekoppelt sein. Für diese Implementierungen kann die Audiovorrichtung eine Kommunikationsschnittstelle (d. h. COMM-Schnittstelle) 850 einschließen, um analoge oder digitale Kommunikationen (z. B. WiFi, BLUETOOTH^tm) bereitzustellen. Die Audiovorrichtung kann eine mobile Vorrichtung sein und kann physikalisch klein und so geformt sein, dass sie in den Gehörgang passt. So kann zum Beispiel die Audiovorrichtung als eine Hörhilfe für einen Benutzer implementiert werden.
9 ist ein Flussdiagramm eines Verfahrens zum Erfassen von Musik in einer Audiovorrichtung gemäß einer möglichen Implementierung der vorliegenden Offenbarung. Das Verfahren kann durch Hardware und Software der Audiovorrichtung 100 ausgeführt werden. So kann zum Beispiel auf ein (nichtflüchtiges) computerlesbares Medium (d. h. Speicher), das computerlesbare Anweisungen (d. h. Software) enthält, durch den Prozessor 820 zugegriffen werden, um den Prozessor so zu konfigurieren, dass er das gesamte oder einen Teil des in 9 gezeigten Verfahrens durchführt.
Das Verfahren beginnt durch Empfangen 910 eines Audiosignals (z. B. durch ein Mikrofon). Das Empfangen kann ein Digitalisieren des Audiosignals einschließen, um einen digitalen Audiostrom zu erzeugen. Das Empfangen kann auch ein Teilen des digitalen Audiostroms in Frames und ein Puffern der Frames zur Verarbeitung umfassen.
Das Verfahren umfasst ferner das Erhalten 920 von Subband-(d. h. Band)-Informationen, die dem Audiosignal entsprechen. Das Erhalten der Bandinformationen kann (in einigen Implementierungen) das Anwenden einer gewichteten Überlappungsadditions-(WOLA)-Filterbank auf das Audiosignal umfassen.
Das Verfahren umfasst ferner das Anwenden 930 der Bandinformationen auf eine oder mehrere Entscheidungstfindungseinheiten. Die Entscheidungsfindungseinheiten können eine Takterfassungs-(BD)-Einheit einschließen, die dazu konfiguriert ist, die Anwesenheit oder Abwesenheit von einem Takt in dem Audiosignal zu bestimmen. Die Entscheidungsfindungseinheiten können auch eine Tonerfassungs-(TD)-Einheit (d. h. Tonalitätserfassungseinheit) einschließen, die dazu konfiguriert ist, die Anwesenheit oder Abwesenheit eines oder mehrerer Töne in dem Audiosignal zu bestimmen. Die Entscheidungsfindungseinheiten können auch eine Modulationsaktivitäts-(MA)-Verfolgungseinheit einschließen, die dazu konfiguriert ist, den Pegel (d. h. Grad) der Modulation in dem Audiosignal zu bestimmen.
Das Verfahren umfasst ferner das Kombinieren 940 der Ergebnisse (d. h. des Status, des Zustands) jeder der einen oder mehreren Entscheidungseinheiten. Das Kombinieren kann das Anwenden einer Gewichtung auf jede Ausgabe der einen oder der mehreren Entscheidungsfindungseinheiten und dann ein Summieren der gewichteten Werte umfassen, um eine Musikbewertung zu erhalten. Die Kombination kann als ähnlich zu einer Kombination verstanden werden, die der Berechnung eines Knotens in einem neuronalen Netz zugeordnet ist. Dementsprechend kann in einigen (komplexeren) Implementierungen das Kombinieren 940 das Anwenden der Ausgabe der einen oder mehreren Entscheidungsfindungseinheiten auf ein neuronales Netz (z. B. ein tiefes neuronales Netz, ein neuronales Vorwärtsnetz) einschließen.
Das Verfahren schließt ferner das Bestimmen 950 von Musik (oder keiner Musik) in dem Audiosignal aus den kombinierten Ergebnissen der Entscheidungsfindungseinheiten. Das Bestimmen kann das Akkumulieren von Musikbewertungen aus Frames (z. B. für einen Zeitraum, für eine Anzahl von Frames) und dann ein Mitteln der Musikbewertungen einschließen. Das Bestimmen kann auch das Vergleichen der akkumulierten und gemittelten Musikbewertung mit einem Schwellenwert einschließen. Wenn zum Beispiel die akkumulierte und mittlere Musikbewertung über dem Schwellenwert liegt, wird Musik als in dem Audiosignal als vorhanden betrachtet, und wenn die akkumulierte und gemittelte Musikbewertung unter dem Schwellenwert liegt, wird Musik als in dem Audiosignal abwesend betrachtet. Das Bestimmen kann auch das Anwenden einer Hysteresesteuerung auf den Schwellenvergleich einschließen, sodass ein vorheriger Zustand von Musik/keiner Musik die Bestimmung des gegenwärtigen Zustands beeinflusst, um zu verhindern, dass Zustände von vorhandener Musik/keiner Musik hin und her flattern.
Das Verfahren schließt ferner das Modifizieren 960 des Audiosignals basierend auf der Bestimmung von Musik oder keiner Musik ein. Das Modifizieren kann das Einstellen einer Rauschreduktion einschließen, sodass die Musikpegel nicht reduziert werden, als ob es Rauschen gäbe. Die Modifikation kann auch das Deaktivieren eines Rückkopplungsunterdrückers einschließen, sodass Töne in der Musik nicht unterdrückt werden, als wenn sie eine Rückkopplung wären. Das Modifizieren kann auch das Erhöhen eines Durchlassbandes für das Audiosignal einschließen, sodass die Musik nicht gefiltert wird.
Das Verfahren schließt ferner das Übertragen 970 des modifizierten Audiosignals ein. Das Übertragen kann das Umwandeln eines digitalen Audiosignals in ein analoges Audiosignal unter Verwendung eines D/A-Wandlers einschließen. Das Übertragen kann auch das Koppeln des Audiosignals an einen Lautsprecher einschließen.
Die Offenbarung kann als ein Musikklassifizierer für eine Audiovorrichtung implementiert werden. Der Musikklassifizierer schließt eine Signalaufbereitungseinheit ein, die dazu konfiguriert ist, ein digitalisiertes Zeitbereichsaudiosignal in ein entsprechendes Frequenzbereichssignal zu transformieren, das eine Vielzahl von Frequenzbändern einschließt; eine Vielzahl von Entscheidungstreffeinheiten, die parallel arbeiten, die jeweils dazu konfiguriert sind, eines oder mehrere der Vielzahl von Frequenzbändern zu bewerten, um eine Vielzahl von Merkmalsbewertungen zu bestimmen, wobei jede Merkmalsbewertung einer Musik zugeordneten Eigenschaft entspricht; und eine Kombinations- und Musikerfassungseinheit, die dazu konfiguriert ist, die Vielzahl von Merkmalsbewertungen über einen Zeitraum zu kombinieren, um zu bestimmen, ob das Audiosignal Musik einschließt.
In einigen möglichen Implementierungen schließt die Takterfassungseinheit ein neuronales Takterfassungsnetz ein, aber in anderen kann die Takterfassungseinheit dazu konfiguriert sein, basierend auf einer Korrelation ein sich wiederholendes Taktmuster in einem ersten Frequenzband (d. h. dem niedrigsten der Vielzahl von Frequenzbändern) zu erfassen.
In einer möglichen Implementierung ist die Kombinations- und Musikerfassungseinheit des Musikklassifizierers ein neuronales Netz, das die Vielzahl von Merkmalsbewertungen empfängt und eine Entscheidung über Musik oder keine Musik (d. h. ein Signal) zurückgibt.
Die Offenbarung kann auch als ein Verfahren zur Musikerfassung implementiert werden. Das Verfahren umfasst das Empfangen eines Audiosignals; das Digitalisieren des Audiosignals, um ein digitalisiertes Audiosignal zu erhalten; Transformieren des digitalisierten Audiosignals in eine Vielzahl von Frequenzbändern; Anwenden der Vielzahl von Frequenzbändern auf eine Vielzahl von Entscheidungstreffeinheiten, die parallel arbeiten; Erhalten einer Merkmalsbewertung von jeder der Vielzahl von Entscheidungsfindungseinheiten, wobei die Merkmalsbewertung von jeder Entscheidungsfindungseinheit einer Wahrscheinlichkeit entspricht, dass eine bestimmte Musikeigenschaft in dem Audiosignal eingeschlossen ist; und Kombinieren der Merkmalsbewertungen, um Musik in dem Audiosignal zu erfassen.
In einer möglichen Implementierung schließt das Verfahren zur Musikerfassung ferner das Multiplizieren der Merkmalsbewertung von jeder der Vielzahl von Entscheidungsfindungseinheiten mit einem jeweiligen Gewichtungsfaktor ein, um eine gewichtete Bewertung von jeder der Vielzahl von Entscheidungsfindungseinheiten zu erhalten; Summieren der gewichteten Bewertungen von der Vielzahl von Entscheidungsfindungseinheiten, um eine Musikbewertung zu erhalten; Akkumulieren von Musikbewertungen über eine Vielzahl von Frames des Audiosignals; Mitteln der Musikbewertungen aus der Vielzahl von Frames des Audiosignals, um eine durchschnittliche Musikbewertung zu erhalten; und Vergleichen der durchschnittlichen Musikbewertung mit einem Schwellenwert, um Musik in dem Audiosignal zu erfassen.
In einer anderen möglichen Implementierung schließt das Verfahren zur Musikerfassung ferner das Modifizieren des Audiosignals basierend auf der Musikerfassung ein; und Übertragen des Audiosignals.
Die Offenbarung kann auch als eine Hörhilfe implementiert sein. Die Hörhilfe schließt eine Signalaufbereitungsstufe und eine Musikklassifiziererstufe ein. Die Musikklassifiziererstufe schließt eine Merkmalserfassungs- und -verfolgungseinheit und eine Kombinations- und Musikerfassungseinheit ein.
In einer möglichen Implementierung der Hörhilfe schließt die Hörhilfe ferner eine Audiosignalmodifizierstufe ein, die mit der Signalaufbereitungsstufe und der Musikklassifiziererstufe gekoppelt ist. Die Audiosignalmodifizierstufe ist dazu konfiguriert, die Vielzahl von Frequenzbändern anders zu verarbeiten, wenn ein Musiksignal empfangen wird, als wenn kein Musiksignal empfangen wird.
In der Patentschrift und/oder den Figuren wurden typische Ausführungsformen offenbart. Die vorliegende Offenbarung ist nicht auf solche beispielhaften Ausführungsformen beschränkt. Die Verwendung des Begriffs „und/oder“ schließt jede und alle Kombinationen von einem oder mehreren der zugeordneten aufgelisteten Elemente ein. Die Figuren sind schematische Darstellungen und sind daher nicht notwendigerweise maßstabsgetreu gezeichnet. Sofern nicht anderweitig angegeben, wurden spezifische Begriffe in einem Allgemeinen und beschreibenden Sinn und nicht zu Zwecken der Einschränkung verwendet.
Die Offenbarung beschreibt eine Vielzahl von möglichen Erfassungsmerkmalen und Kombinationsverfahren für eine robuste und leistungseffiziente Musikklassifizierung. So beschreibt zum Beispiel die Offenbarung einen Takterfasser basierend auf einem neuronalen Netz, der eine Vielzahl von möglichen Merkmalen verwenden kann, die aus einer Auswahl von (dezimierten) Frequenzbandinformationen extrahiert werden. Wenn spezifische Mathematik offenbart wird (z. B. eine Varianzberechnung für eine Tonalitätsmessung), kann sie als kostengünstig (d. h. effizient) vom Standpunkt einer Verarbeitungsleistung (z. B. Zyklen, Energie) beschrieben werden. Während hierin diese Aspekte und andere wie hierin beschrieben veranschaulicht wurden, sind zahlreiche Modifikationen, Ersetzungen, Änderungen und Äquivalente nun für den Fachmann ersichtlich. Es versteht sich daher, dass die angehängten Ansprüche alle derartigen Modifikationen und Änderungen abdecken sollen, die in den Umfang der Ausführungsformen fallen. Es versteht sich, dass sie nur in Form von Beispielen vorgestellt wurden, ohne einschränkend zu sein, und es können verschiedene Änderungen in Form und Detail vorgenommen werden. Jeder Abschnitt der in diesem Schriftstück beschriebenen Vorrichtung und/oder Verfahren kann in jeder Kombination kombiniert werden, ausgenommen sich gegenseitig ausschließende Kombinationen. Die hierin beschriebenen Implementierungen können verschiedene Kombinationen und/oder Unterkombinationen der Funktionen, Komponenten und/oder Merkmale der verschiedenen beschriebenen Ausführungsformen einschließen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62688726 [0001]
US 62659937 [0002]
US 16375039 [0022]
US 6236731 [0026]

Claims

Musikklassifizierer für eine Audiovorrichtung, wobei der Musikklassifizierer Folgendes umfasst: eine Signalaufbereitungseinheit, die dazu konfiguriert ist, ein digitalisiertes Zeitbereichsaudiosignal in ein entsprechendes Frequenzbereichssignal zu transformieren, das eine Vielzahl von Frequenzbändern einschließt; eine Vielzahl von Entscheidungstreffeinheiten, die parallel arbeiten, die jeweils dazu konfiguriert sind, eines oder mehrere der Vielzahl von Frequenzbändern zu bewerten, um eine Vielzahl von Merkmalsbewertungen zu bestimmen, wobei jede Merkmalsbewertung einer Musik zugeordneten Eigenschaft entspricht; und eine Kombinations- und Musikerfassungseinheit, die dazu konfiguriert ist, die Vielzahl von Merkmalsbewertungen über eine Zeitperiode zu kombinieren, um zu bestimmen, ob das Audiosignal Musik einschließt.
Musikklassifizierer für die Audiovorrichtung nach Anspruch 1, wobei die Vielzahl von Entscheidungsfindungseinheiten eine Takterfassungseinheit einschließt und wobei die Takterfassungseinheit dazu konfiguriert ist, ein oder mehrere Frequenzbänder aus der Vielzahl von Frequenzbändern auszuwählen, eine Vielzahl von Merkmalen aus jedem ausgewählten Frequenzband zu extrahieren, die Vielzahl von Merkmalen aus jedem ausgewählten Frequenzband in ein neuronales Takterfassungsnetz einzugeben und ein sich wiederholendes Taktmuster basierend auf einer Ausgabe des neuronalen Takterfassungsnetzes zu erfassen.
Musikklassifizierer für die Audiovorrichtung nach Anspruch 2, wobei die Vielzahl von Merkmalen, die aus jedem ausgewählten Frequenzband extrahiert werden, einen Merkmalssatz bilden, der ein Energiemittel, eine Energiestandardabweichung, ein Energiemaximum, eine Energiekurtosis, eine Energieschiefe und einen Energiekreuzkorrelationsvektor einschließt.
Musikklassifizierer für die Audiovorrichtung nach Anspruch 1, wobei die Vielzahl von Entscheidungsfindungseinheiten eine Tonerfassungseinheit einschließt, die dazu konfiguriert ist, einen Ton in einem oder mehreren der Vielzahl von Bändern basierend auf einer Energiemenge und einer Energievarianz in jedem der Vielzahl von Bändern zu erfassen.
Musikklassifizierer für die Audiovorrichtung nach Anspruch 1, wobei die Vielzahl von Entscheidungsfindungseinheiten eine Modulationsaktivitätsverfolgungseinheit einschließt, die konfiguriert ist, eine Breitbandmodulation basierend auf einer minimalen gemittelten Energie und einer maximalen gemittelten Energie einer Summe der Vielzahl von Bändern zu erfassen.
Musikklassifizierer für die Audiovorrichtung nach Anspruch 1, wobei die Kombinations- und Musikerfassungseinheit dazu konfiguriert ist, eine Gewichtung auf jede Merkmalsbewertung anzuwenden, um gewichtete Merkmalsbewertungen zu erhalten, die gewichteten Merkmalsbewertungen zu summieren, um eine Musikbewertung zu erhalten, Musikbewertungen für eine Vielzahl von Frames zu akkumulieren, einen Mittelwert der Musikbewertungen für die Vielzahl von Frames zu berechnen und eine Hysteresesteuerung auf eine Ausgabe des Schwellenwerts für Musik oder keine Musik anzuwenden.
Verfahren zur Musikerfassung in einem Audiosignal, wobei das Verfahren Folgendes umfasst: Empfangen eines Audiosignals; Digitalisieren des Audiosignals, um ein digitalisiertes Audiosignal zu erhalten; Transformieren des digitalisierten Audiosignals in eine Vielzahl von Frequenzbändern; Anwenden der Vielzahl von Frequenzbändern auf eine Vielzahl von Entscheidungsfindungseinheiten, die parallel arbeiten; Erhalten einer Merkmalsbewertung von jeder der Vielzahl von Entscheidungsfindungseinheiten, wobei die Merkmalsbewertung von jeder Entscheidungsfindungseinheit einer Wahrscheinlichkeit entspricht, dass eine bestimmte Musikeigenschaft in dem Audiosignal eingeschlossen ist; und Kombinieren der Merkmalsbewertungen, um Musik in dem Audiosignal zu erfassen.
Verfahren zur Musikerfassung nach Anspruch 7, wobei die Entscheidungsfindungseinheiten eine Takterfassungseinheit einschließen, und wobei: das Erhalten einer Merkmalsbewertung von der Takterfassungseinheit Folgendes einschließt: Erfassen, basierend auf einem neuronalen Netz, eines sich wiederholenden Taktmusters in der Vielzahl von Frequenzbändern.
Verfahren zur Musikerfassung nach Anspruch 7, wobei die Entscheidungsfindungseinheiten eine Tonerfassungseinheit einschließen, und wobei: das Erhalten einer Merkmalsbewertung von der Tonerfassungseinheit Folgendes einschließt: Erfassen eines Tons in einem oder mehreren der Vielzahl von Frequenzbändern basierend auf einer Energiegröße und Energievarianz in jedem der Vielzahl von Frequenzbändern.
Verfahren zur Musikerfassung nach Anspruch 7, wobei die Entscheidungsfindungseinheiten eine Modulationsaktivitätsverfolgungseinheit einschließen, und wobei: das Erhalten einer Merkmalsbewertung von der Modulationsaktivitätsverfolgungseinheit Folgendes einschließt: Erfassen einer Breitbandmodulation basierend auf einer minimalen gemittelten Energie und einer maximalen gemittelten Energie einer Summe der Vielzahl von Frequenzbändern.
Verfahren zur Musikerfassung nach Anspruch 10, wobei das Kombinieren Folgendes umfasst: Anwenden der Merkmalsbewertungen auf ein neuronales Netz; und Erfassen von Musik in dem Audiosignal basierend auf einer Ausgabe des neuronalen Netzes.
Hörhilfe, umfassend: eine Signalaufbereitungsstufe, die dazu konfiguriert ist, ein digitalisiertes Audiosignal in eine Vielzahl von Frequenzbändern umzuwandeln; und einen Musikklassifizierer, der mit der Signalaufbereitungsstufe gekoppelt ist, wobei der Musikklassifizierer Folgendes einschließt: eine Merkmalserfassungs- und -verfolgungseinheit, die eine Vielzahl von Entscheidungsfindungseinheiten einschließt, die parallel arbeiten, wobei jede Entscheidungsfindungseinheit dazu konfiguriert ist, eine Merkmalsbewertung zu erzeugen, die einer Wahrscheinlichkeit entspricht, dass eine bestimmte Musikeigenschaft in dem Audiosignal eingeschlossen ist; und eine Kombinations- und Musikerfassungseinheit, die basierend auf der Merkmalsbewertung von jeder Entscheidungsfindungseinheit dazu konfiguriert ist, Musik in dem Audiosignal zu erfassen, wobei die Kombinations- und Musikerfassungseinheit dazu konfiguriert ist, ein erstes Signal zu erzeugen, das Musik anzeigt, während Musik in dem Audiosignal erfasst wird, und dazu konfiguriert ist, ein zweites Signal zu erzeugen, das anderweitig kein Musiksignal anzeigt.