DE102019004239A1 - Musikklassifizierer und verwandte verfahren - Google Patents

Musikklassifizierer und verwandte verfahren Download PDF

Info

Publication number
DE102019004239A1
DE102019004239A1 DE102019004239.5A DE102019004239A DE102019004239A1 DE 102019004239 A1 DE102019004239 A1 DE 102019004239A1 DE 102019004239 A DE102019004239 A DE 102019004239A DE 102019004239 A1 DE102019004239 A1 DE 102019004239A1
Authority
DE
Germany
Prior art keywords
music
audio signal
feature
energy
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019004239.5A
Other languages
English (en)
Inventor
Pejman Dehghani
Robert L. Brennan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semiconductor Components Industries LLC
Original Assignee
Semiconductor Components Industries LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semiconductor Components Industries LLC filed Critical Semiconductor Components Industries LLC
Publication of DE102019004239A1 publication Critical patent/DE102019004239A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • G10H1/125Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms using a digital filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/41Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/03Aspects of the reduction of energy consumption in hearing devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Otolaryngology (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Eine Audiovorrichtung, die einen Musikklassifizierer einschließt, der bestimmt, wann Musik in einem Audiosignal vorhanden ist, wird offenbart. Die Audiovorrichtung ist dazu konfiguriert, Audiosignale zu empfangen, die empfangenen Audiosignale zu verarbeiten und die verarbeiteten Audiosignale an einen Benutzer auszugeben. Die Verarbeitung kann basierend auf der Ausgabe des Musikklassifizierers eingestellt werden. Der Musikklassifizierer verwendet eine Vielzahl von Entscheidungsfindungseinheiten, von denen jede unabhängig an dem empfangenen Audiosignal arbeitet. Die Entscheidungsfindungseinheiten werden vereinfacht, um die für den Betrieb notwendige Verarbeitung und damit die Leistung zu reduzieren. Dementsprechend ist jede Entscheidungsfindungseinheit möglicherweise nicht ausreichend, um Musik allein zu bestimmen, wobei sie in Kombination Musik genau erfassen kann, während sie Leistung mit einer Rate verbraucht, die für eine mobile Vorrichtung, wie beispielsweise eine Hörhilfe, geeignet ist.

Description

  • QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
  • Diese Anmeldung beansprucht die Vorteile der vorläufigen US-Anmeldung Nr. 62/688 726 , eingereicht am 22. Juni 2018 und mit dem Titel „A COMPUTATIONALLY EFFICIENT SUB-BAND MUSIC CLASSIFIER“, die hiermit in ihrer Gesamtheit durch Bezugnahme aufgenommen ist.
  • Diese Anmeldung bezieht sich auf die nicht vorläufige Anmeldung Nr. 16/375 039, eingereicht am 4. April 2019 und mit dem Titel „COMPUTATIONALLY EFFICIENT SPEECH CLASSIFIER AND RELATED METHODS“, welche die Priorität der vorläufigen US-Anmeldung Nr. 62/659 937 , eingereicht am 19. April 2018 beansprucht, die beide durch Bezugnahme ein ihren Gesamtheiten hierin aufgenommen sind.
  • GEBIET DER OFFENBARUNG
  • Die vorliegende Offenbarung bezieht sich auf eine Einrichtung zur Musikerfassung und zugehörige Verfahren zur Musikerfassung. Insbesondere bezieht sich die vorliegende Offenbarung auf das Erfassen der Anwesenheit oder Abwesenheit von Musik in Anwendungen mit begrenzter Verarbeitungsleistung, wie zum Beispiel Hörhilfen.
  • HINTERGRUND
  • Hörhilfen können basierend auf einem Umgebungstyp und/oder basierend auf einem Audiotyp, den ein Benutzer erfahren möchte, so angepasst werden, dass sie Audio unterschiedlich verarbeiten. Es kann wünschenswert sein, diese Einstellung zu automatisieren, um einem Benutzer eine natürlichere Erfahrung bereitzustellen. Die Automatisierung kann die Erfassung (d. h. Klassifizierung) des Umgebungstyps und/oder des Audiotyps umfassen. Diese Erfassung kann jedoch rechentechnisch komplex sein, was impliziert, dass eine Hörhilfe mit automatisierter Einstellung mehr Leistung verbraucht als eine Hörhilfe mit manueller (oder keiner) Einstellung. Der Energieverbrauch kann weiter zunehmen, wenn die Anzahl von erfassbaren Umgebungstypen und/oder Audiotypen erhöht wird, um die natürliche Erfahrung für den Benutzer zu verbessern. Da es zusätzlich zum Bereitstellen einer natürlichen Erfahrung sehr wünschenswert ist, dass eine Hörhilfe klein ist und über lange Zeiträume auf einer einzigen Ladung arbeitet, besteht ein Bedarf an einem Erfasser vom Umgebungstyp und/oder Audiotyp, der genau und effizient arbeitet, ohne den Leistungsverbrauch und/oder die Größe der Hörhilfe signifikant zu erhöhen.
  • KURZDARSTELLUNG
  • In mindestens einem Aspekt beschreibt die vorliegende Offenbarung allgemein einen Musikklassifizierer für eine Audiovorrichtung. Der Musikklassifizierer schließt eine Signalaufbereitungseinheit ein, die dazu konfiguriert ist, ein digitalisiertes ZeitbereichsAudiosignal in ein entsprechendes Frequenzbereichssignal zu transformieren, das eine Vielzahl von Frequenzbändern einschließt. Der Musikklassifizierer schließt auch eine Vielzahl von Entscheidungsfindungseinheiten ein, die parallel arbeiten und die jeweils konfiguriert sind, eines oder mehrere der Vielzahl von Frequenzbändern zu bewerten, um eine Vielzahl von Merkmalsbewertungen zu bestimmen, wobei jede Merkmalsbewertung einer Eigenschaft (d. h. einem Merkmal) entspricht, die Musik zugeordnet ist. Der Musikklassifizierer schließt auch eine Kombinations- und Musikerfassungseinheit ein, die dazu konfiguriert ist, Merkmalsbewertungen über einen Zeitraum zu kombinieren, um zu bestimmen, ob das Audiosignal Musik einschließt.
  • In möglichen Implementierungen können die Entscheidungsfindungseinheiten des Musikklassifizierers eine oder mehrere von einer Takterfassungseinheit, einer Tonerfassungseinheit und einer Modulationsaktivitätsverfolgungseinheit einschließen.
  • In einer möglichen Implementierung kann die Takterfassungseinheit basierend auf einer Korrelation ein sich wiederholendes Taktmuster in einem ersten (z. B. niedrigsten) Frequenzband der Vielzahl von Frequenzbändern erfassen, während in einer anderen möglichen Implementierung die Takterfassungseinheit das sich wiederholende Muster basierend auf einer Ausgabe eines neuronalen Netzwerks erfassen kann, das als seine Eingabe die Vielzahl von Frequenzbändern empfängt.
  • In einer möglichen Implementierung ist die Kombinations- und Musikerfassungseinheit dazu konfiguriert, eine Gewichtung auf jede Merkmalsbewertung anzuwenden, um gewichtete Merkmalsbewertungen zu erhalten und die gewichteten Merkmalsbewertungen zu summieren, um eine Musikbewertung zu erhalten. Die mögliche Implementierung kann ferner durch die Akkumulation von Musikbewertungen für eine Vielzahl von Frames und durch Berechnen eines Mittelwerts der Musikbewertungen für die Vielzahl von Frames charakterisiert werden. Dieser Mittelwert der Musikbewertungen für die Vielzahl von Frames kann mit einem Schwellenwert verglichen werden, um Musik oder keine Musik in dem Audiosignal zu bestimmen. In einer möglichen Implementierung kann eine Hysteresesteuerung auf die Ausgabe des Schwellenwertvergleichs angewendet werden, sodass die Musik- oder keine Musikentscheidung weniger anfällig für falsche Änderungen (z. B. aufgrund von Rauschen) ist. Mit anderen Worten, kann die endgültige Bestimmung eines aktuellen Zustands des Audiosignals (d. h. Musik/keine Musik) auf einem vorherigen Zustand (d. h. Musik/keine Musik) des Audiosignals basieren. In einer anderen möglichen Implementierung wird der oben beschriebene Kombinations- und Musikerfassungsansatz durch ein neuronales Netzwerk ersetzt, das die Merkmalsbewertungen als Eingaben empfängt und ein Ausgangssignal liefert, das einen Musikzustand oder einen Zustand ohne Musik aufweist.
  • In einem anderen Aspekt beschreibt die vorliegende Offenbarung allgemein ein Verfahren zur Musikerfassung. In dem Verfahren wird ein Audiosignal empfangen und digitalisiert, um ein digitalisiertes Audiosignal zu erhalten. Das digitalisierte Audiosignal wird in eine Vielzahl von Frequenzbändern umgewandelt. Die Vielzahl von Frequenzbändern wird dann an eine Vielzahl von Entscheidungsfindungseinheiten angelegt, die parallel arbeiten, um entsprechende Merkmalsbewertungen zu erzeugen. Jede Merkmalsbewertung entspricht einer Wahrscheinlichkeit, dass eine bestimmte Musikeigenschaft (z. B. ein Takt, ein Ton, eine hohe Modulationsaktivität usw.) in dem Audiosignal eingeschlossen ist (d. h. basierend auf Daten aus dem einen oder den mehreren Frequenzbändern). Schließlich schließt das Verfahren ein Kombinieren der Merkmalsbewertungen ein, um Musik in dem Audiosignal zu erfassen.
  • In einer möglichen Implementierung führt eine Audiovorrichtung (z. B. eine Hörhilfe) das oben beschriebene Verfahren durch. Zum Beispiel kann ein nichtflüchtiges computerlesbares Medium mit computerlesbaren Anweisungen durch einen Prozessor der Audiovorrichtung ausgeführt werden, um zu bewirken, dass die Audiovorrichtung das oben beschriebenen Verfahren durchführt.
  • In einem anderen Aspekt beschreibt die vorliegende Offenbarung im Allgemeinen eine Hörhilfe. Die Hörhilfe schließt eine Signalaufbereitungsstufe ein, die dazu konfiguriert ist, ein digitalisiertes Audiosignal in eine Vielzahl von Frequenzbändern umzuwandeln. Die Hörhilfe schließt ferner einen Musikklassifizierer ein, der mit der Signalaufbereitungsstufe gekoppelt ist. Der Musikklassifizierer schließt eine Merkmalserfassungs- und -verfolgungseinheit ein, die eine Vielzahl von Entscheidungsfindungseinheiten einschließt, die parallel arbeiten. Jede Entscheidungsfindungseinheit ist dazu konfiguriert, eine Merkmalsbewertung zu erzeugen, die einer Wahrscheinlichkeit entspricht, dass eine bestimmte Musikeigenschaft in dem Audiosignal eingeschlossen ist. Der Musikklassifizierer schließt auch eine Kombinations- und Musikerfassungseinheit ein, die basierend auf der Merkmalsbewertung von jeder Entscheidungsfindungseinheit konfiguriert ist, Musik in dem Audiosignal zu erfassen. Die Kombinations- und Musikerfassungseinheit ist ferner dazu konfiguriert, ein erstes Signal zu erzeugen, das Musik anzeigt, während Musik in dem Audiosignal erfasst wird, und ist dazu konfiguriert, ein zweites Signal zu erzeugen, das ansonsten kein Musiksignal anzeigt.
  • In einer möglichen Implementierung schließt die Hörhilfe eine Audiosignalmodifizierstufe ein, die mit der Signalaufbereitungsstufe und dem Musikklassifizierer gekoppelt ist. Die Audiosignalmodifizierstufe ist dazu konfiguriert, die Vielzahl von Frequenzbändern anders zu verarbeiten, wenn ein Musiksignal empfangen wird, als wenn kein Musiksignal empfangen wird.
  • Die vorstehende veranschaulichende Kurzdarstellung sowie andere beispielhafte Ziele und/oder Vorteile der Offenbarung und die Art und Weise, in der dieselben erreicht werden, werden in der folgenden detaillierten Beschreibung und in den beigefügten Zeichnungen weiter erklärt.
  • Figurenliste
    • 1 ist ein Funktionsblockdiagramm, das im Allgemeinen eine Audiovorrichtung mit einem Musikklassifizierer gemäß einer möglichen Implementierung der vorliegenden Offenbarung darstellt.
    • 2 ist ein Blockdiagramm, das im Allgemeinen eine Signalaufbereitungsstufe der Audiovorrichtung von 1 darstellt.
    • 3 ist ein Blockdiagramm, das im Allgemeinen eine Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers von 1 zeigt.
    • 4A ist ein Blockdiagramm, das im Allgemeinen eine Takterfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer ersten möglichen Implementierung darstellt.
    • 4B ist ein Blockdiagramm, das im Allgemeinen eine Takterfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer zweiten möglichen Implementierung darstellt.
    • 5 ist ein Blockdiagramm, das im Allgemeinen eine Tonerfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer möglichen Implementierung darstellt.
    • 6 ist ein Blockdiagramm, das im Allgemeinen eine Modulations- und Aktivitätsverfolgungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer möglichen Implementierung darstellt.
    • 7A ist ein Blockdiagramm, das im Allgemeinen eine Kombinations- und Musikerfassungseinheit des Musikklassifizierers gemäß einer ersten möglichen Implementierung darstellt.
    • 7B ist ein Blockdiagramm, das im Allgemeinen eine Kombinations- und Musikerfassungseinheit des Musikklassifizierers gemäß einer zweiten möglichen Implementierung darstellt.
    • 8 ist ein Hardware-Blockdiagramm, das im Allgemeinen eine Audiovorrichtung gemäß einer möglichen Implementierung der vorliegenden Offenbarung zeigt.
    • 9 ist ein Verfahren zum Erfassen von Musik in einer Audiovorrichtung gemäß einer möglichen Implementierung der vorliegenden Offenbarung.
  • Die Komponenten in den Zeichnungen sind in Bezug zueinander nicht notwendigerweise maßstabsgetreu. Gleiche Bezugszeichen bezeichnen entsprechende Teile in den verschiedenen Ansichten.
  • DETAILLIERTE BESCHREIBUNG
  • Die vorliegende Offenbarung ist auf eine Audiovorrichtung (d. h. eine Einrichtung) und ein zugehöriges Verfahren zur Musikklassifizierung (z. B. Musikerfassung) gerichtet. Wie hierin erörtert, bezieht sich die Musikklassifizierung (Musikerfassung) auf ein Identifizieren von Musikinhalt in einem Audiosignal, das andere Audioinhalte wie beispielsweise Sprache und Rauschen (z. B. Hintergrundrauschen) einschließen kann. Die Musikklassifizierung kann ein Identifizieren von Musik in einem Audiosignal einschließen, sodass das Audiosignal geeignet modifiziert werden kann. Zum Beispiel kann die Audiovorrichtung eine Hörhilfe sein, die Algorithmen zum Reduzieren von Rauschen, zum Löschen von Rückkopplung und/oder Steuern einer Audiobandbreite einschließen kann. Diese Algorithmen können basierend auf der Erfassung von Musik aktiviert, deaktiviert und/oder modifiziert werden. So kann zum Beispiel ein Rauschreduktionsalgorithmus-Signaldämpfungspegel verringern, während Musik erfasst wird, um eine Qualität der Musik zu bewahren. In einem anderen Beispiel kann ein Rückkopplungsunterdrückungsalgorithmus daran gehindert werden (z. B. im Wesentlichen gehindert), Töne von Musik zu unterdrücken, da er andernfalls einen Ton von einer Rückkopplung unterdrücken würde. In einem anderen Beispiel kann die Bandbreite von Audiosignalen, die durch die Audiovorrichtung einem Benutzer präsentiert werden, die normalerweise niedrig sind, um Energie zu sparen, erhöht werden, wenn Musik vorhanden ist, um ein Musikhörerlebnis zu verbessern.
  • Die hierin beschriebenen Implementierungen können verwendet werden, um einen recheneffizienten und/oder leistungseffizienten Musikklassifizierer (und zugehörige Verfahren) zu implementieren. Dies kann durch die Verwendung von Entscheidungsfindungseinheiten erreicht werden, die jeweils eine Eigenschaft (d. h. Merkmale) erfassen können, die Musik entspricht. Allein kann jede Entscheidungsfindungseinheit Musik möglicherweise nicht mit einer hohen Genauigkeit klassifizieren. Die Ausgaben aller Entscheidungsfindungseinheiten können jedoch kombiniert werden, um einen genauen und robusten Musikklassifizierer zu bilden. Ein Vorteil dieses Ansatzes ist, dass die Komplexität jeder Entscheidungsfindungseinheit begrenzt werden kann, um Leistung zu sparen, ohne die Gesamtleistung des Musikklassifizierers negativ zu beeinflussen.
  • In den hierin beschriebenen beispielhaften Implementierungen werden verschiedene Betriebsparameter und Techniken, wie beispielsweise Schwellenwerte, Gewichtungen (Koeffizienten), Berechnungen, Raten, Frequenzbereiche, Frequenzbandbreiten usw. beschrieben. Diese beispielhaften Betriebsparameter und Techniken sind beispielhaft angegeben, und die spezifischen Betriebsparameter, Werte und Techniken (z. B. Berechnungsansätze), die verwendet werden, sind von der speziellen Implementierung abhängig. Ferner können verschiedene Ansätze zum Bestimmen der spezifischen Betriebsparameter und Techniken für eine gegebene Implementierung auf eine Anzahl von Weisen bestimmt werden, wie beispielsweise unter Verwendung empirischer Messungen und Daten, unter Verwendung von Trainingsdaten und so fort.
  • 1 ist ein Funktionsblockdiagramm, das im Allgemeinen eine Audiovorrichtung darstellt, die einen Musikklassifizierer implementiert. Wie in 1 gezeigt, schließt die Audiovorrichtung 100 einen Audio-Transducer (z. B. ein Mikrofon 110) ein. Die analoge Ausgabe des Mikrofons 110 wird von einem Analog-Digital-(A/D)-Wandler 120 digitalisiert. Das digitalisierte Audiosignal wird zur Verarbeitung durch eine Signalaufbereitungsstufe 130 modifiziert. So kann zum Beispiel das ZeitbereichsAudiosignal, das durch die digitalisierte Ausgabe des A/D-Wandlers 120 dargestellt wird, durch die Signalaufbereitungsstufe 130 in eine Frequenzbereichsdarstellung umgewandelt werden, die durch eine Audiosignalmodifizierstufe 150 modifiziert werden kann.
  • Die Audiosignalmodifizierstufe 150 kann dazu konfiguriert sein, eine Qualität des digitalen Audiosignals durch Löschen von Rauschen, Filtern, Verstärken und so fort zu verbessern. Das verarbeitete Audiosignal (z. B. verbesserte Qualität) kann dann in ein digitales Zeitbereichssignal transformiert 151 und durch einen Digital-Analog-(D/A)-Wandler 160 zur Wiedergabe auf einer Audioausgabevorrichtung (z. B. dem Lautsprecher 170) in ein analoges Signal umgewandelt werden, um Ausgangsaudiosignale 171 für einen Benutzer zu erzeugen.
  • In einigen möglichen Implementierungen ist die Audiovorrichtung 100 eine Hörhilfe. Die Hörhilfe empfängt Audiosignale (d. h. Schalldruckwellen) von einer Umgebung 111, verarbeitet die Audiosignale, wie oben beschrieben, und präsentiert (z. B. unter Verwendung eines Empfängers (d. h. eines Lautsprechers) einer Hörhilfe 170) die verarbeitete Version der Audiosignale als Ausgangsaudiosignale 171 (d. h. Schalldruckwellen) einem Benutzer, der die Hörhilfe trägt. Eine durch Algorithmen implementierte Audiosignalmodifizierstufe kann einem Benutzer helfen, Sprache und/oder andere Geräusche in der Umgebung des Benutzers zu verstehen. Ferner kann es zweckmäßig sein, wenn die Auswahl und/oder Einstellung dieser Algorithmen automatisch basierend auf verschiedenen Umgebungen und/oder Tönen erfolgt. Dementsprechend kann die Hörhilfe einen oder mehrere Klassifizierer implementieren, um verschiedene Umgebungen und/oder Töne zu erfassen. Die Ausgabe des einen oder der mehreren Klassifizierer kann verwendet werden, um eine oder mehrere Funktionen der Audiosignalmodifizierstufe 150 automatisch einzustellen.
  • Ein Aspekt eines wünschenswerten Betriebs kann dadurch gekennzeichnet sein, dass der eine oder die mehreren Klassifizierer in Echtzeit (wie von einem Benutzer wahrgenommen) hochgenaue Ergebnisse bereitstellen. Ein anderer Aspekt eines wünschenswerten Betriebs kann durch einen niedrigen Leistungsverbrauch gekennzeichnet sein. So können zum Beispiel eine Hörhilfe und ihr normaler Betrieb eine Größe und/oder eine Zeit zwischen dem Laden einer Energiespeichereinheit (z. B. Akkumulator oder Batterie) definieren. Dementsprechend ist es wünschenswert, dass eine automatische Modifikation des Audiosignals basierend auf einem Echtzeitbetrieb eines oder mehrerer Klassifizierer die Größe und/oder die Zeit zwischen einem Batteriewechsel für die Hörhilfe nicht signifikant beeinflusst.
  • Die in 1 gezeigte Audiovorrichtung 100 schließt einen Musikklassifizierer 140 ein, der dazu konfiguriert ist, Signale von der Signalaufbereitungsstufe 130 zu empfangen und eine Ausgabe zu erzeugen, die der Anwesenheit und/oder Abwesenheit von Musik entspricht. Während zum Beispiel Musik in Audiosignalen erfasst wird, die von der Audiovorrichtung 100 empfangen werden, kann der Musikklassifizierer 140 ein erstes Signal (z. B. ein logisches High-Signal) ausgeben. Während in Audiosignalen, die durch die Audiovorrichtung empfangen werden, keine Musik erfasst wird, kann der Musikklassifizierer ein zweites Signal (z. B. ein logisches Low-Signal) ausgeben. Die Audiovorrichtung kann ferner einen oder mehrere andere Klassifizierer 180 einschließen, die basierend auf anderen Bedingungen Signale ausgeben. So kann zum Beispiel der Klassifizierer, der in der US-Patentanmeldung 16/375 039 beschrieben ist, in einer möglichen Implementierung in dem einen oder mehreren anderen Klassifizierern 180 eingeschlossen sein.
  • Der hierin offenbarte Musikklassifizierer 140 empfängt als seine Eingabe die Ausgabe einer Signalaufbereitungsstufe 130. Die Signalaufbereitungsstufe kann auch als Teil der routinemäßigen Audioverarbeitung für die Hörhilfe verwendet werden. Dementsprechend besteht ein Vorteil des offenbarten Musikklassifizierers 140 darin, dass derselbe die gleiche Verarbeitung wie andere Stufen verwenden kann, wodurch Komplexität und Leistungsanforderungen gespart werden. Ein weiterer Vorteil des offenbarten Musikklassifizierers ist seine Modularität. Die Audiovorrichtung kann den Musikklassifizierer deaktivieren, ohne ihren normalen Betrieb zu beeinflussen. In einer möglichen Implementierung könnte zum Beispiel die Audiovorrichtung den Musikklassifizierer 140 beim Erfassen eines Niedrigenergiezustands (d. h. einer niedrigen Batterie) deaktivieren.
  • Die Audiovorrichtung 100 schließt Stufen (z. B. Signalaufbereitung 130, Musikklassifizierer 140, Audiosignalmodifizieren 150, Signaltransformation 151, andere Klassifikatoren 180) ein, die als Hardware oder als Software ausgeführt sein können. So können zum Beispiel die Stufen als Software implementiert sein, die auf einem Universalprozessor (z. B. CPU, Mikroprozessor, Mehrkernprozessor usw.) oder Spezialprozessor (z. B. ASIC, DSP, FPGA usw.) läuft.
  • 2 ist ein Blockdiagramm, das im Allgemeinen eine Signalaufbereitungsstufe der Audiovorrichtung von 1 darstellt. Die Eingaben in die Signalaufbereitungsstufe 130 sind Zeitbereichs-Audioabtastwerte 201 (TD SAMPLES). Die Zeitbereichsabtastwerte 201 können durch Transformation des physikalischen Schallwellendrucks in eine äquivalente analoge Signaldarstellung (Spannung oder Strom) durch einen Transducer (Mikrofon) erhalten werden, gefolgt von einem A/D-Wandler, der das analoge Signal in digitale Audioabtastwerte umwandelt. Dieses digitalisierte Zeitbereichssignal wird durch die Signalaufbereitungsstufe in ein Frequenzbereichssignal umgewandelt. Das Frequenzbereichssignal kann durch eine Vielzahl von Frequenzbändern 220 (d. h.
  • Frequenzunterbänder, Subbänder, Bänder usw.) gekennzeichnet sein. In einer Implementierung verwendet die Signalaufbereitungsstufe eine gewichtete Overlap-Add(Wola)-Filterbank, wie sie beispielsweise im US-Patent Nr. 6 236 731 mit dem Titel „Filterbank Structure and Method for Filtering and Separating an Information Signal into Different Bands, Particularly for Audio Signal in Hearing Aids“ offenbart ist. Das verwendete WOLA-Filterband kann eine Kurzzeitfenster-(Frame)-Länge von R Abtastwerten und N Subfrequenzbänder 220 einschließen, um die Zeitbereichsabtastwerte in ihre äquivalente komplexe Datendarstellung im Subband-Frequenzbereich zu transformieren.
  • Wie in 2 gezeigt, gibt die Signalaufbereitungsstufe 130 eine Vielzahl von Frequenz-Subbändern aus. Jedes nicht überlappende Subband stellt Frequenzkomponenten des Audiosignals in einem Bereich (z. B. +/- 125 Hz) von Frequenzen um eine Mittenfrequenz dar. Zum Beispiel kann ein erstes Frequenzband (d. h. BAND_0) bei Null-(DC)-Frequenz zentriert sein und Frequenzen im Bereich von etwa 0 bis etwa 125 Hz einschließen, ein zweites Frequenzband (d. h. BAND_1) kann bei 250 Hz zentriert sein und Frequenzen im Bereich von etwa 125 Hz bis etwa 375 Hz einschließen und so weiter für eine Anzahl (N) von Frequenzbändern.
  • Die Frequenzbänder 220 (d. h. BAND_0, BAND_1 usw.) können verarbeitet werden, um das Audiosignal 111 zu modifizieren, das an der Audiovorrichtung 100 empfangen wird. So kann zum Beispiel die Audiosignalmodifizierstufe 150 (siehe 1) Verarbeitungsalgorithmen auf die Frequenzbänder anwenden, um das Audiosignal zu verstärken. Dementsprechend kann die Audiosignalmodifizierstufe 150 zur Rauschentfernung und/oder Sprach-/Tonverbesserung konfiguriert sein. Die Audiosignalmodifizierstufe 150 kann auch Signale von einem oder mehreren Klassifizierern empfangen, die Anwesenheit (oder Abwesenheit) eines bestimmten Audiosignals (z. B. eines Tons), eines bestimmten Audiotyps (z. B. Sprache, Musik) und/oder eines bestimmten Audiozustands (z. B. Hintergrundtyp) anzeigen. Diese empfangenen Signale können ändern, wie die Audiosignalmodifizierstufe 150 zur Rauschentfernung und/oder Sprach-/ Tonverbesserung konfiguriert ist.
  • Wie in 1 gezeigt, kann ein Signal, das die Anwesenheit (oder Abwesenheit) von Musik anzeigt, bei der Audiosignalmodifizierstufe 150 von einem Musikklassifizierer 140 empfangen werden. Das Signal kann bewirken, dass die Audiosignalmodifizierstufe 150 einen oder mehrere zusätzliche Algorithmen anwendet, einen oder mehrere Algorithmen eliminiert und/oder einen oder mehrere Algorithmen ändert, die sie verwendet, um das empfangene Audiosignal zu verarbeiten. Während zum Beispiel Musik erfasst wird, kann ein Rauschunterdrückungspegel (d. h. Dämpfungspegel) reduziert werden, sodass die Musik (z. B. ein Musiksignal) nicht durch Dämpfung verschlechtert wird. In einem anderen Beispiel kann eine Mitnahme (z. B. falsche Rückkopplungserfassung), Anpassung und Verstärkung eines Rückkopplungsunterdrückers gesteuert werden, während Musik erfasst wird, sodass Töne in der Musik nicht unterdrückt werden. In noch einem anderen Beispiel kann eine Bandbreite der Audiosignalmodifizierstufe 150 erhöht werden, während Musik erfasst wird, um die Qualität der Musik zu verbessern, und dann reduziert werden, während keine Musik erfasst wird, um Energie zu sparen.
  • Der Musikklassifizierer ist dazu konfiguriert, die Frequenzbänder 220 von der Signalaufbereitungsstufe 130 zu empfangen und ein Signal auszugeben, das die Anwesenheit oder Abwesenheit von Musik anzeigt. So kann zum Beispiel das Signal einen ersten Pegel (z. B. eine logische Hochspannung), der die Anwesenheit von Musik anzeigt, und einen zweiten Pegel (z. B. eine logische Niederspannung) einschließen, der die Abwesenheit von Musik anzeigt. Der Musikklassifizierer 140 kann dazu konfiguriert sein, die Bänder kontinuierlich zu empfangen und das Signal kontinuierlich auszugeben, sodass eine Änderung im Pegel des Signals zeitlich mit dem Moment korreliert, in dem Musik beginnt oder endet. Wie in 1 gezeigt, kann der Musikklassifizierer 140 eine Merkmalserfassungs- und -verfolgungseinheit 200 und eine Kombinations- und Musikerfassungseinheit 300 einschließen.
  • 3 ist ein Blockdiagramm, das im Allgemeinen eine Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers von 1 zeigt. Die Merkmalserfassungs- und -verfolgungseinheit schließt eine Vielzahl von Entscheidungsfindungseinheiten (d. h. Module, Einheiten usw.) ein. Jede Entscheidungsfindungseinheit der Vielzahl ist dazu konfiguriert, eine Eigenschaft (d. h. ein Merkmal), das der Musik zugeordnet ist, zu erfassen und/oder verfolgen. Da jede Einheit auf eine einzelne Eigenschaft gerichtet ist, ist die algorithmische Komplexität, die für jede Einheit erforderlich ist, um eine Ausgabe (oder Ausgaben) zu erzeugen, begrenzt. Dementsprechend kann jede Einheit weniger Taktzyklen erfordern, um eine Ausgabe zu bestimmen, als es erforderlich wäre, um alle der Musikeigenschaften unter Verwendung eines einzigen Klassifizierers zu bestimmen. Zusätzlich können die Entscheidungsfindungseinheiten parallel arbeiten und ihre Ergebnisse zusammen bereitstellen (z. B. gleichzeitig). Somit kann der modulare Ansatz weniger Leistung verbrauchen, um (vom Benutzer wahrgenommen) in Echtzeit zu arbeiten, als andere Ansätze und ist daher für Hörhilfen gut geeignet.
  • Jede Entscheidungsfindungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers kann eines oder mehrere (z. B. alle) der Bänder von der Signalaufbereitung empfangen. Jede Entscheidungsfindungseinheit ist dazu konfiguriert, mindestens eine Ausgabe zu erzeugen, die einer Bestimmung über eine bestimmte Musikeigenschaft entspricht. Die Ausgabe einer bestimmten Einheit kann einem zweistufigen (z. B. binären) Wert (d. h. Merkmalsbewertung) entsprechen, der eine Ja- oder Nein-Antwort (d. h. eine richtige oder eine falsche Antwort) auf die Frage anzeigt, „Wird das Merkmal zu diesem Zeitpunkt erfasst.“ Wenn eine Musikeigenschaft eine Vielzahl von Komponenten (z. B. Töne) aufweist, kann eine bestimmte Einheit eine Vielzahl von Ausgaben erzeugen. In diesem Fall kann jede der Vielzahl von Ausgaben jeweils einer Erfassungsentscheidung (z. B. einer Merkmalsbewertung, die gleich einer logischen 1 oder einer logischen 0 ist) bezüglich einer der Vielzahl von Komponenten entsprechen. Wenn eine bestimmte Musikeigenschaft einen zeitlichen (d. h. zeitlich variierenden) Aspekt aufweist, kann die Ausgabe einer bestimmten Einheit der Anwesenheit oder Abwesenheit der Musikeigenschaft in einem bestimmten Zeitfenster entsprechen. Mit anderen Worten verfolgt die Ausgabe der bestimmten Einheit die Musikeigenschaften mit dem zeitlichen Aspekt.
  • Manche möglichen Musikeigenschaften, die erfasst und/oder verfolgt werden können, sind ein Takt, ein Ton (oder Töne) und eine Modulationsaktivität. Während jede dieser Eigenschaften allein unzureichend sein kann, um genau zu bestimmen, ob ein Audiosignal Musik einschließt, kann, wenn sie kombiniert werden, die Genauigkeit der Bestimmung erhöht werden. So kann zum Beispiel das Bestimmen, dass ein Audiosignal einen oder mehrere Töne (d. h. eine Tonalität) aufweist, zum Bestimmen von Musik unzureichend sein, da ein reiner (d. h. zeitlich konstanter) Ton in einem Audiosignal eingeschlossen sein kann (z. B. darin existieren kann), ohne Musik zu sein. Das Bestimmen, dass das Audiosignal auch eine hohe Modulationsaktivität aufweist, kann helfen, zu bestimmen, dass die bestimmten Töne wahrscheinlich Musik sind (und nicht ein reiner Ton von einer anderen Quelle). Eine weitere Bestimmung, dass das Audiosignal einen Takt aufweist, würde stark anzeigen, dass das Audiosignal Musik enthält. Dementsprechend kann die Merkmalserfassungs- und -verfolgungseinheit 200 des Musikklassifizierers 140 eine Takterfassungseinheit 210, eine Tonerfassungseinheit 240 und eine Modulationsaktivitätsverfolgungseinheit 270 einschließen.
  • 4A ist ein Blockdiagramm, das im Allgemeinen eine Takterfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer ersten möglichen Implementierung darstellt. Die erste mögliche Implementierung der Takterfassungseinheit empfängt nur das erste Subband (d. h. Frequenzband) (BAND_0) von der Signalaufbereitung 130, da eine Taktfrequenz am wahrscheinlichsten innerhalb des Bereichs von Frequenzen (z. B. 0 bis 125 Hz) dieses Bandes gefunden wird. Zuerst wird eine momentane Subband-(BAND_0)-Energieberechnung 212 durchgeführt als: E 0 [ n ] = X 2 [ n ,0 ]
    Figure DE102019004239A1_0001
    wobei n die aktuelle Frame-Nummer, X [n, 0] die realen BAND_0-Daten und E0 [n] die momentane BAND_0-Energie für den aktuellen Frame ist. Wenn eine WOLA-Filterbank der Signalaufbereitungsstufe 130 als in einem geraden Stapelmodus befindlich konfiguriert ist, wird der Imaginärteil des BAND_0 (der ansonsten bei jeder realen Eingabe 0 wäre) mit einem (realen) Nyquist-Bandwert gefüllt. Daher wird im geraden Stapelmodus E0 [n] vielmehr berechnet als: E 0 [ n ] = r e a l { X [ n ,0 ] } 2
    Figure DE102019004239A1_0002
  • E0 [n] wird dann vor einer Dezimierung 214 tiefpassgefiltert 216 um Aliasing zu reduzieren. Einer der einfachsten und leistungseffizientesten Tiefpassfilter 214, der verwendet werden kann, ist der exponentielle Glättungsfilter erster Ordnung: E 0 L F P [ n ] = α b d × E 0 L F P [ n 1 ] + ( 1 α b d ) × E 0 [ n ]
    Figure DE102019004239A1_0003
    wobei abd der Glättungskoeffizient und E0LFP [n] die tiefpassgefilterte BAND_0-Energie ist. Als nächstes wird E0LFP [n] durch einen Faktor von M dezimiert 216, was Eb [m] erzeugt, wobei m die Frame-Nummer bei der dezimierten Rate ist: F S R × M ,
    Figure DE102019004239A1_0004
    wobei R die Anzahl von Abtastwerten in jedem Frame n ist. Bei dieser dezimierten Rate, wird das Suchen nach einem möglichen Takt bei jedem m = Nb durchgeführt, wobei Nb die Länge der Takterfassungs-Beobachtungsdauer ist. Das Screening mit der reduzierten (d. h. dezimierten) Rate kann Energieverbrauch durch Reduzieren der Anzahl von Abtastwerten, die innerhalb einer gegebenen Dauer verarbeitet werden sollen, einsparen. Das Screening kann auf verschiedene Arten durchgeführt werden. Ein effektives und recheneffizientes Verfahren ist das Verwenden normierter Autokorrelation 218. Die Autokorrelationskoeffizienten können bestimmt werden als: a b [ m , τ ] = i = 0 N b E b [ m i ] E b [ m i + τ ] i = 0 N b E b [ m i ] 2
    Figure DE102019004239A1_0005
    wobei τ die Verzögerungsmenge bei der dezimierten Frame-Rate ist und ab [m, τ] die normierte Autokorrelationskoeffizienten bei der dezimierten Frame-Nummer m und dem Verzögerungswert τ sind.
  • Anschließend wird eine Takterfassungs-(BD)- Entscheidung 220 getroffen. Um zu entscheiden, dass ein Takt vorhanden ist, wird ab [m, τ] über einen Bereich von τ Verzögerungen ausgewertet und eine Suche erfolgt dann nach dem ersten ausreichend hohe lokalen Maximum von ab [m, τ] gemäß einem zugewiesenen Schwellenwert. Das ausreichend hohe Kriterium kann eine ausreichend starke Korrelation dafür bereitstellen, dass das Ergebnis als ein Takt betrachtet werden kann, wobei der zugeordnete Verzögerungswert τ die Taktperiode bestimmt. Wenn kein lokales Maximum gefunden wird oder wenn kein lokales Maximum als ausreichend stark eingestuft wird, gilt die Wahrscheinlichkeit, dass ein Takt vorhanden ist, als gering. Während das Auffinden einer Instanz, die die Kriterien erfüllt, für die Takterfassung ausreichend sein könnte, erhöhen mehrere Ergebnisse mit gleichem Verzögerungswert über mehrere Nb-Intervalle die Wahrscheinlichkeit erheblich. Sobald ein Takt erfasst wird, wird das Erfassungsstatus-Flag BD [mbd] auf 1 gesetzt, wobei mbd die Takterfassungs-Frame-Nummer bei der Rate F S R × M × N b
    Figure DE102019004239A1_0006
    ist. Wenn kein Takt erfasst wird, wird das die Erfassungsstatus-Flag BD [mbd] auf 0 gesetzt. Die Bestimmung des aktuellen Tempowerts ist für die Takterfassung nicht explizit erforderlich. Wenn jedoch das Tempo erforderlich ist, kann die Takterfassungseinheit eine Tempobestimmung einschließen, die eine Beziehung zwischen τ und dem Tempo in Takten pro Minute verwendet zu: B P M = F s × 60 R × M × τ
    Figure DE102019004239A1_0007
  • Da typische musikalische Takte zwischen 40 und 200 bpm betragen, muss ab [m, τ] nur über die τ-Werte bewertet werden, die diesem Bereich entsprechen, und damit können unnötige Berechnungen vermieden werden, um die Berechnungen zu minimieren. Folglich wird-ab [τ] nur in ganzzahligen Intervallen bewertet zwischen: τ = 0,3 × F s R × M  und  τ = 1,5 × F s R × M
    Figure DE102019004239A1_0008
  • Die Parameter R, abd , Nb , M, die Bandbreite der Filterbank und die Schärfe des Unterbandfilters der Filterbank sind alle untereinander korreliert, und unabhängige Werte können nicht vorgeschlagen werden. Dennoch hat die Auswahl des Parameterwerts einen direkten Einfluss auf die Anzahl der Berechnungen und die Effektivität des Algorithmus. Zum Beispiel erzeugen höhere Nb-Werte genauere Ergebnisse. Niedrige M-Werte sind möglicherweise nicht ausreichend, um die Taktsignatur zu extrahieren, und hohe M-Werte können zu einem Mess-Aliasing führen, das die Takterfassung gefährdet. Die Wahl von abd ist auch mit R, Fs und den Filterbankeigenschaften verknüpft, und ein falsch eingestellter Wert kann das gleiche Ergebnis erzeugen wie ein falsch eingestelltes M.
  • 4B ist ein Blockdiagramm, das im Allgemeinen eine Takterfassungseinheit der Merkmalserfassungs- und -verfolgungseinheit des Musikklassifizierers gemäß einer zweiten möglichen Implementierung darstellt. Die zweite mögliche Implementierung der Banderfassungseinheit empfängt alle Subbänder (BAND_0, BAND_1,..., BAND_N) aus der Signalaufbereitung 130. Jedes Frequenzband ist tiefpassgefiltert 214 und dezimiert 216 wie in der vorherigen Implementierung. Zusätzlich werden für jedes Band über die Beobachtungszeiträume Nb eine Vielzahl von Merkmalen (z. B. Werte für Energiemittelwert, Energiestandardabweichung, Energiemaximum, Energiekurtosis, Energieschiefe und/oder Energiekreuzkorrelation) extrahiert 222 (d. h. bestimmt, berechnet usw.) und als ein Merkmalssatz einem neuronalen Netzwerk 225 zugeführt.
  • Das neuronale Netz 225 kann ein tiefes (d. h. mehrschichtiges) neuronales Netzwerk mit einem einzelnen neuronalen Ausgang entsprechend der Takterfassungs-(BD)-Entscheidung sein. Die Schalter (S0 , S1 ,..., SN ) können verwendet werden, um zu steuern, welche Bänder in der Takterfassungsanalyse verwendet werden. Zum Beispiel können manche Schalter geöffnet werden, um ein oder mehrere Bänder zu entfernen, von denen vermutet wird, dass sie begrenzte nützliche Informationen aufweisen. Zum Beispiel wird angenommen, dass BAND_0 nützliche Informationen enthält, die einen Takt betreffen, und daher in der Takterfassung (d. h. durch Schließen von Schalter S0 ) eingeschlossen (z. B. immer eingeschlossen) werden kann. Umgekehrt können ein oder mehrere höhere Bänder aus den nachfolgenden Berechnungen ausgeschlossen werden (d. h. durch Öffnen ihres jeweiligen Schalters), da sie unterschiedliche Informationen bezüglich eines Taktes enthalten können. Mit anderen Worten, während BAND_0 verwendet werden kann, um einen Takt zu erfassen, können eines oder mehrere der anderen Bänder (z. B. BAND_1 ... BAND_N) verwendet werden, um den erfassten Takt zwischen einem Musiktakt und anderen taktartigen Tönen (d. h. Antippen, Klappern usw.) weiter zu unterscheiden. Die zusätzliche Verarbeitung (d. h. Energieverbrauch), die jedem zusätzlichen Band zugeordnet ist, kann basierend auf der bestimmten Anwendung mit der Notwendigkeit weiterer Takterfassungsdiskriminierung ausgeglichen werden. Ein Vorteil der in 4B gezeigten Takterfassungsimplementierung, liegt darin, dass sie anpassbar ist, um Merkmale aus unterschiedlichen Bändern nach Bedarf zu extrahieren.
  • In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) einen Energiemittelwert für das Band einschließen. Zum Beispiel kann ein BAND_0-Energiemittelwert (Eb_µ ) berechnet werden als: E b _ μ [ m ] = 1 N b i = 0 N b 1 E b [ m i ] ,
    Figure DE102019004239A1_0009
    wobei Nb der Beobachtungszeitraum ist (z. B. Anzahl vorhergehender Frames) und m die aktuelle Frame-Nummer ist.
  • In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) eine Energiestandardabweichung für das Band einschließen. Zum Beispiel kann eine BAND_0-Energiestandardabweichung (Eb_σ )) berechnet werden als: E b _ σ [ m ] = i = 0 N b 1 ( E b [ m i ] E b _ μ [ m ] ) 2 N b
    Figure DE102019004239A1_0010
  • In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) ein Energiemedium für das Band einschließen. Zum Beispiel kann ein BAND_0-Energiemaximum (Eb_max ) berechnet werden als: E b _ m a x [ m ] = max ( E b [ m i ] | i = 0 i = N b 1 )
    Figure DE102019004239A1_0011
  • In einer möglichen Implementierung kann die Vielzahl von extrahierten Merkmalen 222 (z. B. für die ausgewählten Bänder) eine Energiekurtosis für das Band enthalten. Zum Beispiel kann eine BAND_0-Energiekurtosis (Eb_k )) berechnet werden als: E b _ k = 1 N b i = 0 N b 1 ( E b [ m i ] E b _ μ [ m ] E b _ σ ) 4
    Figure DE102019004239A1_0012
  • In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) eine Energieschiefe für das Band enthalten. So kann zum Beispiel eine BAND_0-Energieschiefe (Eb_s ) berechnet werden als: E b _ s = 1 N b i = 0 N b 1 ( E b [ m i ] E b _ μ [ m ] E b _ σ [ m ] ) 3
    Figure DE102019004239A1_0013
  • In einer möglichen Implementierung kann die Vielzahl von extrahierten 222 Merkmalen (z. B. für die ausgewählten Bänder) einen Energiekreuzkorrelationsvektor für das Band einschließen. Zum Beispiel kann ein BAND_0-Energiekreuzkorrelationsvektor (Eb_xcor ) berechnet werden als: E ¯ b _ x c o r [ m ] = [ a b [ m , τ 40 ] , a b [ m , τ 40 1 ] , ,   a b [ m , τ 200 + 1 ] ,   a b [ m , τ 200 ] ]
    Figure DE102019004239A1_0014
    wobei τ der Korrelationsrückstand (d. h. die Verzögerung) ist. Die Verzögerungen in dem Kreuzkorrelationsvektor können berechnet werden als: τ 200 = r o u n d ( 0,3 × F s R × M )  und  τ 40 = r o u n d ( 1,5 × F s R × M )
    Figure DE102019004239A1_0015
  • Während die vorliegende Offenbarung nicht auf den oben beschriebenen Satz extrahierter Merkmale beschränkt ist, können diese Merkmale in einer möglichen Implementierung einen Merkmalssatz bilden, den ein neuronales BD-Netzwerk 225 verwenden kann, um einen Takt zu bestimmen. Ein Vorteil der Merkmale in diesem Merkmalssatz ist, dass sie keine rechenintensive mathematische Berechnung erfordern, was Verarbeitungsleistung einspart. Zusätzlich teilen sich die Berechnungen gemeinsame Elemente (z. B. Mittelwert, Standardabweichung usw.), sodass die Berechnungen der gemeinsam genutzten gemeinsamen Elemente nur einmal vom Merkmalssatz durchgeführt werden müssen, wodurch weiter Verarbeitungsleistung eingespart wird.
  • Das neuronale BD-Netz 225 kann als ein neuronales Netzwerk mit einem langen Kurzzeitspeicher (LSTM) implementiert werden. In dieser Implementierung kann der gesamte Kreuzkorrelationsvektor (d. h.E̅b_xcor [m]) von dem neuronalen Netzwerk verwendet werden, um eine BD-Entscheidung zu erreichen. In einer anderen möglichen Implementierung kann das neuronale BD-Netzwerk 225 als ein neuronales Vorwärtsnetzwerk implementiert werden, das einen einzelnen Max-Wert des Kreuzkorrelationsvektors verwendet, nämlich Emax_xcor [m], um eine BD-Entscheidung zu erreichen. Das neuronale BD-Netzwerk eines bestimmten Typs, das implementiert ist, kann auf einem Gleichgewicht zwischen Leistung und Leistungseffizienz basieren. Für die Takterfassung, kann das neuronale Vorwärtsnetzwerk eine bessere Leistung und verbesserte Leistungseffizienz zeigen.
  • 5 ist ein Blockdiagramm, das im Allgemeinen eine Tonerfassungseinheit 240 der Merkmalserfassungs- und -verfolgungseinheit 200 des Musikklassifizierers 140 gemäß einer möglichen Implementierung darstellt. Die Eingaben in die Tonerfassungseinheit 240 sind die komplexen Subbanddaten von der Signalzustandsstufe. Während alle N Bänder verwendet werden können, um Tonalität zu erfassen, haben Experimente gezeigt, dass Subbänder oberhalb von 4 kHz möglicherweise nicht genügend Information enthalten, um die zusätzlichen Berechnungen zu rechtfertigen, es sei denn, die Leistungseffizienz ist nicht von Bedeutung. Somit wird für ein 0 < k < NTN, TN, wobei NTN die Gesamtanzahl von Subbändern ist, um nach der Anwesenheit von Tonalität zu suchen, die momentane Energie 510 der komplexen Subbanddaten für jedes Band als solches berechnet: E i n s t [ n , k ] | X [ n , k ] | 2
    Figure DE102019004239A1_0016
  • Als Nächstes werden die Bandenergiedaten in log2 umgewandelt 512. Während eine hochgenaue log2 - Operation verwendet werden kann, kann, wenn die Operation als zu teuer angesehen wird, eine, die die Ergebnisse innerhalb von Bruchteilen von dB annähern würde, ausreichend sein, solange die Approximation in ihrem Fehler relativ linear und monoton steigend ist. Eine mögliche Vereinfachung ist die lineare Näherung, die gegeben ist als: L = E + 2 m r
    Figure DE102019004239A1_0017
  • Wobei E der Exponent des Eingabewerts und mr der Rest ist. Die Näherung L kann dann unter Verwendung eines führenden Bitdetektors, von 2 Schiebeoperationen und einer Addieroperation bestimmt werden, Anweisungen, die üblicherweise auf den meisten Mikroprozessoren gefunden werden. Die log2-Schätzung der momentanen Energie, genannt Einst_log [n, k], d dann durch einen Tiefpassfilter 514 verarbeitet, um Interferenzen benachbarter Bänder zu entfernen und sich auf die Frequenz des mittleren Bandes zu konzentrieren im Band k: E p r e _ d i f f [ n , k ] = α p r e × E p r e _ d i f f [ n 1, k ] + ( 1 α p r e ) × E i n s t _ l o g [ n , k ]
    Figure DE102019004239A1_0018
    wobei αpre der effektive Cutoff-Frequenzkoeffizient ist und die resultierende Ausgabe durch Epre_diff [n, k] oder die Vordifferenzierungsfilterenergie bezeichnet wird. Als Nächstes findet eine Differenzierung 516 erster Ordnung in Form einer einzigen Differenz über die aktuellen und vorherigen Frames der R-Abtastung statt: Δ m a g [ n , k ] = E p r e _ d i f f [ n , k ] E p r e _ d i f f [ n 1, k ]
    Figure DE102019004239A1_0019
    und der Absolutwert von Δmag wird genommen. Die resultierende Ausgabe |Δmag[n,k]| wird dann durch ein Glättungsfilter 518 geleitet, um ein gemitteltes |Δmag[n,k]| über mehrere Zeit-Frames zu erhalten: Δ m a g _ a v g [ n , k ] = α p o s t × Δ m a g _ a v g [ n 1, k ] + ( 1 α p o s t ) × | Δ m a g [ n , k ] |
    Figure DE102019004239A1_0020
    wobei αpost der exponentielle Glättungskoeffizient ist und die resultierende AusgabeΔmag_avg [n, k]eine Pseudovarianzmessung der Energie im Band k und Frame n in dem logarithmischen Bereich ist. Schließlich werden zwei Bedingungen geprüft, um zu entscheiden, 520 (d. h. zu bestimmen), ob eine Tonalität vorhanden ist oder nicht: Δmag_avg[n, k] wird gegen einen Schwellenwert geprüft, unter dem das Signal so betrachtet wird, dass es eine ausreichend niedrige Varianz aufweist, um tonal zu sein, und Epre_diff [n, k] wird gegen einen Schwellenwert geprüft, um zu verifizieren, dass die beobachtete tonale Komponente ausreichend Energie in dem Subband enthält: TN [ n , k ] = ( Δ m a g , a v g [ n , k ] < T o n a l i t y T h [ k ] ) & & ( E p r e _ d i f f [ n , k ] > S B M a g T h [ k ] )
    Figure DE102019004239A1_0021
    wobei TN [n, k] den Tonalitätsanwesenheitsstatus im Band k und Rahmen n bei irgendeiner gegebenen Zeit enthält Mit anderen Worten, können die Ausgänge TD_0, TD_1,...TD_N der Wahrscheinlichkeit entsprechen, dass ein Ton innerhalb des Bandes vorhanden ist.
  • Ein gemeinsames Signal, das nicht Musik ist, aber eine gewisse Tonalität enthält, ähnliche (zu einigen Musikarten) zeitliche Modulationseigenschaften aufweist und ähnliche (zu einigen Musikarten) Spektrumformen zu Musik besitzt, ist Sprache. Da es schwierig ist, Sprache basierend auf den Modulationsmustern und Spektrumdifferenzen robust von Musik zu unterscheiden, wird die Tonalitätsebene der kritische Unterschied. Der Schwellwert TonalityTh[k] muss daher sorgfältig ausgewählt werden, um nicht bei Sprache, sondern nur bei Musik, auszulösen. Da der Wert von TonalityTh[k] von der Vor- und Nachdifferenzierungsfiltermenge, nämlich den ausgewählten Werten für αpre und αpost, abhängig ist, die selbst von auf Fs und der gewählten Filterbankeigenschaften abhängig sind, können keine unabhängigen Werte vorgeschlagen werden. Jedoch kann der optimale Schwellenwert durch Optimierungen an einer großen Datenbank für einen ausgewählten Satz von Parameterwerten erhalten werden. Während SBMagTh [k] auch von dem gewählten αpre-Wert abhängig ist, ist es weitaus weniger empfindlich, da es lediglich dazu dient, sicherzustellen, dass die entdeckte Tonalität nicht zu wenig Energie aufweist, um unsignifikant zu sein.
  • 6 ist ein Blockdiagramm, das im Allgemeinen eine Modulations- und Aktivitätsverfolgungseinheit 270 der Merkmalserfassungs- und -verfolgungseinheit 200 des Musikklassifizierers 140 gemäß einer möglichen Implementierung darstellt. Die Eingabe in die Modulationsaktivitätsverfolgungseinheit sind die komplexen Unterband-(d. h. Band)-Daten von der Signalaufbereitungsstufe. Alle Bänder werden kombiniert (d. h. summiert) für eine Breitbanddarstellung des Audiosignals. Die momentane Breitbandenergie 610 Ewb_inst [n] wird berechnet als: E w b _ i n s t [ n ] = k = 0 N s b 1 | X [ n , k ] | 2
    Figure DE102019004239A1_0022
    wobei X [n, k] die komplexe WOLA (d. h. Subband) mit Analysedaten bei Frame n und Band k ist. Die Breitbandenergie wird dann über mehrere Frames mittels eines Glättungsfilters 612 gemittelt: E w b [ n ] = α w × E w b [ n 1 ] + ( 1 α w ) × E w b _ i n s t [ n ]
    Figure DE102019004239A1_0023
    wobei αw der exponentielle Glättungskoeffizient und Ewb [n] die gemittelte Breitbandenergie ist. Jenseits dieses Schritts kann die Modulationsaktivität verfolgt werden, um eine zeitliche Modulationsaktivität auf unterschiedliche Weise zu messen 614, wobei einige anspruchsvoller sind, während andere rechnerisch effizienter sind.
  • Das einfachste und vielleicht das rechnerisch effizienteste Verfahren schließt ein Durchführen einer minimalen und maximalen Verfolgung der gemittelten Breitbandenergie ein. Zum Beispiel könnte der globale Minimalwert der gemittelten Energie alle 5 Sekunden als die minimale Schätzung der Energie erfasst werden, und der globale Maximalwert der gemittelten Energie könnte alle 20 ms als die maximale Schätzung der Energie erfasst werden. Anschließend wird am Ende jeder 20 ms die relative Divergenz zwischen den min- und max-Verfolgern berechnet und gespeichert: r [ m m o d ] = M a x [ m m o d ] M i n [ m m o d ]
    Figure DE102019004239A1_0024
    wobei mmod die Frame-Nummer bei der 20-ms-Intervallrate, Max[mmod] die aktuelle Schätzung des maximalen Werts der Breitbandenergie, Min[mmod] die aktuelle (zuletzt aktualisierten) Schätzung des minimalen Werts der Breitbandenergie und r[mmod] das Divergenzverhältnis ist. Anschließend wird das Divergenzverhältnis mit einem Schwellenwert verglichen, um ein Modulationsmuster 616 zu bestimmen: L M [ m m o d ] = ( r [ m m o d ] < D i v e r g e n z t h )
    Figure DE102019004239A1_0025
  • Der Divergenzwert kann einen weiten Bereich annehmen. Ein niedriger mittlerer bis hoher Bereich würde ein Ereignis anzeigen, das Musik, Sprache oder Rauschen sein könnte. Da die Varianz der Breitbandenergie eines reinen Tons deutlich niedrig ist, würde ein extrem niedriger Divergenzwert entweder einen reinen Ton (eines Lautstärkepegels) oder ein nicht reines Tonsignal mit extrem niedrigem Pegel anzeigen, das in aller Wahrscheinlichkeit zu niedrig wäre, um als etwas Wünschenswertes angesehen zu werden. Die Unterscheidungen zwischen Sprache gegenüber Musik und Rauschen gegenüber Musik werden durch Tonalitätsmessungen (durch die Tonalitätserfassungseinheit) und den Taktanwesenheitsstatus (durch die Takterfassungseinheit) vorgenommen, und das Modulationsmuster oder der Divergenzwert fügen in dieser Hinsicht nicht viel Wert hinzu. Da jedoch reine Töne durch Tonalitätsmessungen nicht von Musik unterschieden werden können, und wenn vorhanden, die Tonalitätsbedingung für Musik erfüllen können, und da eine Abwesenheit einer Takterfassung nicht notwendigerweise eine Nicht-Musikbedingung bedeutet, besteht ein expliziter Bedarf an einem unabhängigen reinen Tonerfasser. Da, wie erörtert, der Divergenzwert ein guter Indikator dafür sein kann, ob ein reiner Ton vorhanden ist oder nicht, verwenden wir die Modulationsmusterverfolgungseinheit ausschließlich als einen reinen Tonerfasser, um reine Töne von Musik zu unterscheiden, wenn durch die Tonerfassungseinheit 240 bestimmt wird, dass eine Tonalität vorhanden ist. Folglich setzen wir die Divergenceth auf einem ausreichend kleinen Wert, unterhalb dessen entweder nur ein reiner Ton oder ein extrem niedriges Signal (das nicht von Interesse ist) vorhanden sein kann. Folglich wird LM[mmod] oder das Low-Modulations-Status-Flag effektiv zu einem „reinen Ton“- oder einem „Nicht-Musik“-Status-Flag für den Rest des Systems. Die Ausgabe (MA) der Modulationsaktivitätsverfolgungseinheit 270 entspricht einem Modulationsaktivitätspegel und kann verwendet werden, um eine Klassifizierung eines Tons als Musik zu verhindern.
  • 7A ist ein Blockdiagramm, das im Allgemeinen eine Kombinations- und Musikerfassungseinheit 300 des Musikklassifizierers 140 gemäß einer ersten möglichen Implementierung darstellt. In einer Knoteneinheit 310 der Kombinations- und Musikerfassungseinheit 300 werden alle einzelnen Ausgaben der einzelnen Erfassungseinheiten (d. h. Merkmalsbewertungen) (d. h. BD, TD_1, TD_2, TD_N, MA) empfangen und eine Gewichtung angewendet (βB , βT0, βT1, βTN, βM), um eine gewichtete Merkmalsbewertung für jede zu erhalten. Die Ergebnisse werden kombiniert 330, um eine Musikbewertung zu formulieren (z. B. für einen Frame von Audiodaten). Die Musikbewertung kann über eine Beobachtungsperiode akkumuliert werden, während der eine Vielzahl von Musikbewertungen für eine Vielzahl von Frames erhalten wird. Periodenstatistiken 340 können dann auf die Musikbewertungen angewendet werden. So können zum Beispiel die erhaltenen Musikbewertungen gemittelt werden. Die Ergebnisse der Periodenstatistiken werden mit einem Schwellenwert 350 verglichen, um zu bestimmen, ob Musik während des Zeitraums vorhanden ist oder ob Musik während des Zeitraums nicht vorhanden ist. Die Kombinations- und Erfassungseinheit ist auch dazu konfiguriert, eine Hysteresesteuerung 360 auf die Schwellenwertausgabe anzuwenden, um zu verhindern, dass mögliche Sprachklassifizierungen zwischen den Beobachtungszeiträumen flattern. Mit anderen Worten, kann eine aktuelle Schwellenwertentscheidung auf einer oder mehreren durchlässigen Schwellenentscheidungen basieren. Nachdem die Hysteresesteuerung 360 angewendet ist, wird eine endgültige Sprachklassifizierungsentscheidung (MUSIK/KEINE MUSIK) bereitgestellt oder anderen Subsystemen in der Audiovorrichtung zur Verfügung gestellt.
  • Die Kombinations- und Musikerfassungseinheit 300 kann auf asynchron ankommenden Eingaben von den Erfassungseinheiten (z. B. Takterfassung 210, Tonerfassung 240 und Modulationsaktivitätsverfolgung 270) arbeiten, wenn sie in unterschiedlichen internen Entscheidungstreff (d. h. Bestimmungs)-Intervallen arbeiten. Die Kombinations- und Musikerfassungseinheit 300 arbeitet auch in einer äußerst recheneffizienten Form, während sie die Genauigkeit aufrechterhält. Auf dem hohen Niveau müssen mehrere Kriterien erfüllt sein, damit Musik erfasst werden kann. So ist zum Beispiel ein starker Takt oder ein starker Ton in dem Signal vorhanden, und der Ton ist kein reiner Ton oder ein Signal mit extrem niedrigem Pegel.
  • Da die Entscheidungen mit unterschiedlichen Raten auftreten, wird die Basisaktualisierungsrate auf das kürzeste Intervall in dem System gesetzt, das die Rate ist, mit der die Tonalitätserfassungseinheit 240 auf jeden R Abtastwert (den n Frames) arbeitet. Die Merkmalsbewertungen (d. h. Entscheidungen) werden gewichtet und so zu einer Musikbewertung (d. h. Bewertung) kombiniert:
  • In jedem Frame n: B [ n ] = B D [ m b d ]
    Figure DE102019004239A1_0026
    M [ n ] = L M [ m m o d ]
    Figure DE102019004239A1_0027
    wobei B[n] mit dem neuesten Takterfassungsstatus aktualisiert wird und M [n] mit dem neusten Modulationsmusterstatus aktualisiert wird. Dann gilt bei jedem NMD Intervall: S c o r e = S c o r e = 0 i = 0 N M D 1 ( max ( 0, β B B [ n 1 ] + k = 0 N T N 1 β T k T N [ n i , k ] + β M M [ n i ] ) ) M u s i c   D e t e c t e d = ( S c o r e > M u s i c S c o r e t h )
    Figure DE102019004239A1_0028
    wobei N(MD) die Musikerfassungsintervalllänge in Frames, βB der Gewichtungsfaktor im Zusammenhang mit der Takterfassung, βTk der Gewichtungsfaktor im Zusammenhang mit der Tonalitätserfassung ist und βM der Gewichtungsfaktor im Zusammenhang mit der reinen Tonerfassung ist. Die β Gewichtungsfaktoren können basierend auf Training und/oder Verwendung bestimmt werden und sind üblicherweise werkseitig eingestellt. Die Werte der β-Gewichtungsfaktoren können von mehreren Faktoren abhängig sein, die nachstehend beschrieben werden.
  • Erstens können die Werte der β -Gewichtungsfaktoren von einer Ereignissignifikanz abhängig sein. So kann zum Beispiel ein einzelner Tonalitätstreffer im Vergleich zu einem einzelnen Takterfassungsereignis nicht so signifikant für ein Ereignis sein.
  • Zweitens können die Werte der β -Gewichtungsfaktoren von der internen Abstimmung der Erfassungseinheit und dem Gesamtvertrauensniveau abhängig sein. Es ist im Allgemeinen vorteilhaft, einen kleinen Prozentsatz des Ausfalls an den Entscheidungsfindungsstufen unterer Ebene zu erlauben, und eine Langzeitmittelung, um einen Teil davon zu korrigieren. Dies ermöglicht es, ein Einstellen sehr restriktiver Schwellenwerte auf den unteren Ebenen zu vermeiden, was wiederum die Gesamtempfindlichkeit des Algorithmus erhöht. Je höher die Spezifität der Erfassungseinheit (d. h. eine geringere Fehlklassifizierungsrate) ist, desto signifikanter sollte die Entscheidung berücksichtigt werden, und daher muss ein höherer Gewichtungswert gewählt werden. Umgekehrt gilt, je niedriger die Spezifität der Erfassungseinheit ist (d. h. eine höhere Fehlklassifizierungsrate), desto weniger schlüssig sollte die Entscheidung berücksichtigt werden, und daher muss ein geringerer Gewichtungswert gewählt werden.
  • Drittens können die Werte der β -Gewichtungsfaktoren von der internen Aktualisierungsrate der Erfassungseinheit im Vergleich zu der Basisaktualisierungsrate abhängig sein. Selbst wenn B[n], TN[n, k] und M[n] alle bei jedem Frame nB[n], M[n] kombiniert werden, halten das gleiche Statusmuster für viele aufeinander folgende Frames aufgrund der Tatsache, dass der Takterfasser und die Modulationsaktivitätsverfolgungseinheiten ihre Flags mit einer dezimierten Rate aktualisieren. Wenn zum Beispiel BD [mbd] auf einer Aktualisierungsintervallperiode von 20 ms läuft und die Basis-Frame-Periode 0,5 Millisekunden beträgt, erzeugt B [n] für jedes tatsächliche BD [mbd]-Takterfassungsereignis 40 aufeinanderfolgende Frames von Takterfassungsereignissen. Somit müssen die Gewichtungsfaktoren die Mehrratenart der Aktualisierungen berücksichtigen. Wenn in dem obigen Beispiel der vorgesehene Gewichtungsfaktor für ein Takterfassungsereignis zu 2 gewählt wurden, dann sollte βB zu 2 20 0,5 = 0,05
    Figure DE102019004239A1_0029
    zugewiesen werden, um das Wiederholungsmuster zu berücksichtigen.
  • Viertens können die Werte der β Gewichtungsfaktoren von der Korrelationsbeziehung der Entscheidung der Erfassungseinheit für Musik abhängig sein. Ein positiver β Gewichtungsfaktor wird für Erfassungseinheiten verwendet, die die Anwesenheit von Musik unterstützen, und ein negativer β Gewichtungsfaktor wird für diejenigen verwendet, welche die Anwesenheit von Musik zurückweisen. Daher halten die Gewichtungsfaktoren βB und βTk positive Gewichtungen, während βm einen negierten Gewichtungswert hält.
  • Fünftens können die Werte der β-Gewichtungsfaktoren von der Architektur des Algorithmus abhängig sein. Da M [n] in dem Summationsknoten vielmehr als eine UND-Operation anstelle einer ODER-Operation aufgenommen werden muss, kann eine deutlich höhere Gewichtung für βm gewählt werden, um die Ausgaben von B [n] und TN[n, k] auf Null zu setzen und als ein UND-Vorgang zu agieren.
  • Selbst in Anwesenheit von Musik muss nicht jede Musikerfassungsperiode notwendigerweise Musik erfassen. Somit kann es erwünscht sein, mehrere Perioden von Musikerfassungsentscheidungen zu akkumulieren, bevor die Musikklassifizierung deklariert wird, um ein potentielles Musikerfassungszustandsflattern zu vermeiden. Es kann auch erwünscht sein, länger im Musikzustand zu bleiben, wenn wir für eine lange Zeit in dem Musikzustand gewesen sind. Beide Ziele können sehr effizient mit Hilfe von eines Musikstatusverfolgungszählers erreicht werden:
    Figure DE102019004239A1_0030
    wobei MAX_MUSIC_DETECTED_COUNT der Wert ist, bei dem der MusicDetectedCounter gedeckelt ist. Dem MusicDetectedCounter, jenseits dessen die Musikklassifizierun deklariert wird, wird dann ein Schwellenwert zugewiesen: M u s i c C l a s s i f i c a t i o n = ( M u s i c D e t e c t e d C o u n t e r M u s i c D e t e c t e f C o u t n e r t h )
    Figure DE102019004239A1_0031
  • In einer zweiten möglichen Implementierung der Kombinations- und Erfassungseinheit 300 des Musikklassifizierers 140 können die Gewichtungsanwendung und der Kombinationsprozess durch ein neuronales Netzwerk ersetzt werden. 7B ist ein Blockdiagramm, das im Allgemeinen eine Kombinations- und Musikerfassungseinheit des Musikklassifizierers gemäß der zweiten möglichen Implementierung darstellt. Die zweite Implementierung kann mehr Leistung verbrauchen als die erste Implementierung (7A). Dementsprechend könnte die erste mögliche Implementierung für Anwendungen mit geringerer verfügbarer Leistung (oder Modalitäten) verwendet werden, während die zweite mögliche Implementierung für Anwendungen mit höherer verfügbarer Leistung (oder Modalitäten) verwendet werden könnte.
  • Die Ausgabe des Musikklassifizierers 140 kann auf verschiedene Weisen verwendet werden, und die Verwendung hängt vollständig von der Anwendung ab. Ein ziemlich verbreitetes Ergebnis eines Musikklassifizierungszustands ist das Nachstimmen von Parametern in dem System, um besser zu einer Musikumgebung zu passen. Zum Beispiel kann bei einer Hörhilfe, wenn Musik erfasst wird, eine existierende Rauschreduktion deaktiviert oder heruntergestimmt werden, um etwaige unerwünschte Artefakte für Musik zu vermeiden. In einem anderen Beispiel reagiert ein Rückkopplungs-Unterdrücker, während Musik erfasst wird, nicht auf die beobachtete Tonalität in der Eingabe auf die gleiche Weise, wie es der Fall wäre, wenn Musik nicht erfasst wird (d. h. die beobachtete Tonalität ist auf Rückkopplung zurückzuführen). In einigen Implementierungen kann die Ausgabe des Musikklassifizierers 140 (d. h. MUSIK/KEINE MUSIK) mit anderen Klassifikatoren und/oder Stufen in der Audiovorrichtung geteilt werden, um den anderen Klassifizierern und/oder Stufen dabei zu helfen, eine oder mehrere Funktionen durchzuführen.
  • 8 ist ein Hardware-Blockdiagramm, das im Allgemeinen eine Audiovorrichtung 100 gemäß einer möglichen Implementierung der vorliegenden Offenbarung zeigt. Die Audiovorrichtung schließt einen Prozessor (oder Prozessoren) 820 ein, der durch Softwareanweisungen konfiguriert werden kann, um alle oder einen Teil der hierin beschriebenen Funktionen auszuführen. Dementsprechend umfasst die Audiovorrichtung 100 auch einen Speicher 830 (z. B. einen nichtflüchtigen computerlesbaren Speicher) zum Speichern der Softwareanweisungen sowie der Parameter für den Musikklassifizierer (z. B. Gewichtungen). Die Audiovorrichtung 100 kann ferner einen Audioeingang 810 einschließen, der das Mikrofon und den Digitalisierer (A/D) 120 einschließen kann. Die Audiovorrichtung kann ferner eine Audioausgabe 840 einschließen, die den Digital-Analog(D/A)-Wandler 160 und einen Lautsprecher 170 (z. B. einen keramischen Lautsprecher, einen Knochenleitungslautsprecher usw.) einschließen kann. Die Audiovorrichtung kann ferner eine Benutzerschnittstelle 860 einschließen. Die Benutzerschnittstelle kann Hardware, Schaltlogik und/oder Software zum Empfangen von Sprachbefehlen einschließen. Alternativ oder zusätzlich kann die Benutzerschnittstelle Steuerungen (z. B. Tasten, Wählschalter, Schalter) einschließen, die ein Benutzer einstellen kann, um Parameter der Audiovorrichtung einzustellen. Die Audiovorrichtung kann ferner eine Leistungsschnittstelle 880 und eine Batterie 870 einschließen. Die Leistungsschnittstelle 880 kann Leistung zum Laden der Batterie 870 oder zum Betrieb der Audiovorrichtung empfangen und verarbeiten (z. B. regeln). Die Batterie kann eine wiederaufladbare Batterie sein, die Leistung von der Leistungsschnittstelle empfängt und der konfiguriert sein kann, Energie für den Betrieb der Audiovorrichtung bereitzustellen. In manchen Implementierungen kann die Audiovorrichtung kommunikativ mit einer oder mehreren Rechenvorrichtungen 890 (z. B. einem Smartphone) oder einem Netzwerk 895 (z. B. zellulares Netzwerk, Computernetzwerk) gekoppelt sein. Für diese Implementierungen kann die Audiovorrichtung eine Kommunikationsschnittstelle (d. h. COMM-Schnittstelle) 850 einschließen, um analoge oder digitale Kommunikationen (z. B. WiFi, BLUETOOTHtm) bereitzustellen. Die Audiovorrichtung kann eine mobile Vorrichtung sein und kann physikalisch klein und so geformt sein, dass sie in den Gehörgang passt. So kann zum Beispiel die Audiovorrichtung als eine Hörhilfe für einen Benutzer implementiert werden.
  • 9 ist ein Flussdiagramm eines Verfahrens zum Erfassen von Musik in einer Audiovorrichtung gemäß einer möglichen Implementierung der vorliegenden Offenbarung. Das Verfahren kann durch Hardware und Software der Audiovorrichtung 100 ausgeführt werden. So kann zum Beispiel auf ein (nichtflüchtiges) computerlesbares Medium (d. h. Speicher), das computerlesbare Anweisungen (d. h. Software) enthält, durch den Prozessor 820 zugegriffen werden, um den Prozessor so zu konfigurieren, dass er das gesamte oder einen Teil des in 9 gezeigten Verfahrens durchführt.
  • Das Verfahren beginnt durch Empfangen 910 eines Audiosignals (z. B. durch ein Mikrofon). Das Empfangen kann ein Digitalisieren des Audiosignals einschließen, um einen digitalen Audiostrom zu erzeugen. Das Empfangen kann auch ein Teilen des digitalen Audiostroms in Frames und ein Puffern der Frames zur Verarbeitung umfassen.
  • Das Verfahren umfasst ferner das Erhalten 920 von Subband-(d. h. Band)-Informationen, die dem Audiosignal entsprechen. Das Erhalten der Bandinformationen kann (in einigen Implementierungen) das Anwenden einer gewichteten Überlappungsadditions-(WOLA)-Filterbank auf das Audiosignal umfassen.
  • Das Verfahren umfasst ferner das Anwenden 930 der Bandinformationen auf eine oder mehrere Entscheidungstfindungseinheiten. Die Entscheidungsfindungseinheiten können eine Takterfassungs-(BD)-Einheit einschließen, die dazu konfiguriert ist, die Anwesenheit oder Abwesenheit von einem Takt in dem Audiosignal zu bestimmen. Die Entscheidungsfindungseinheiten können auch eine Tonerfassungs-(TD)-Einheit (d. h. Tonalitätserfassungseinheit) einschließen, die dazu konfiguriert ist, die Anwesenheit oder Abwesenheit eines oder mehrerer Töne in dem Audiosignal zu bestimmen. Die Entscheidungsfindungseinheiten können auch eine Modulationsaktivitäts-(MA)-Verfolgungseinheit einschließen, die dazu konfiguriert ist, den Pegel (d. h. Grad) der Modulation in dem Audiosignal zu bestimmen.
  • Das Verfahren umfasst ferner das Kombinieren 940 der Ergebnisse (d. h. des Status, des Zustands) jeder der einen oder mehreren Entscheidungseinheiten. Das Kombinieren kann das Anwenden einer Gewichtung auf jede Ausgabe der einen oder der mehreren Entscheidungsfindungseinheiten und dann ein Summieren der gewichteten Werte umfassen, um eine Musikbewertung zu erhalten. Die Kombination kann als ähnlich zu einer Kombination verstanden werden, die der Berechnung eines Knotens in einem neuronalen Netz zugeordnet ist. Dementsprechend kann in einigen (komplexeren) Implementierungen das Kombinieren 940 das Anwenden der Ausgabe der einen oder mehreren Entscheidungsfindungseinheiten auf ein neuronales Netz (z. B. ein tiefes neuronales Netz, ein neuronales Vorwärtsnetz) einschließen.
  • Das Verfahren schließt ferner das Bestimmen 950 von Musik (oder keiner Musik) in dem Audiosignal aus den kombinierten Ergebnissen der Entscheidungsfindungseinheiten. Das Bestimmen kann das Akkumulieren von Musikbewertungen aus Frames (z. B. für einen Zeitraum, für eine Anzahl von Frames) und dann ein Mitteln der Musikbewertungen einschließen. Das Bestimmen kann auch das Vergleichen der akkumulierten und gemittelten Musikbewertung mit einem Schwellenwert einschließen. Wenn zum Beispiel die akkumulierte und mittlere Musikbewertung über dem Schwellenwert liegt, wird Musik als in dem Audiosignal als vorhanden betrachtet, und wenn die akkumulierte und gemittelte Musikbewertung unter dem Schwellenwert liegt, wird Musik als in dem Audiosignal abwesend betrachtet. Das Bestimmen kann auch das Anwenden einer Hysteresesteuerung auf den Schwellenvergleich einschließen, sodass ein vorheriger Zustand von Musik/keiner Musik die Bestimmung des gegenwärtigen Zustands beeinflusst, um zu verhindern, dass Zustände von vorhandener Musik/keiner Musik hin und her flattern.
  • Das Verfahren schließt ferner das Modifizieren 960 des Audiosignals basierend auf der Bestimmung von Musik oder keiner Musik ein. Das Modifizieren kann das Einstellen einer Rauschreduktion einschließen, sodass die Musikpegel nicht reduziert werden, als ob es Rauschen gäbe. Die Modifikation kann auch das Deaktivieren eines Rückkopplungsunterdrückers einschließen, sodass Töne in der Musik nicht unterdrückt werden, als wenn sie eine Rückkopplung wären. Das Modifizieren kann auch das Erhöhen eines Durchlassbandes für das Audiosignal einschließen, sodass die Musik nicht gefiltert wird.
  • Das Verfahren schließt ferner das Übertragen 970 des modifizierten Audiosignals ein. Das Übertragen kann das Umwandeln eines digitalen Audiosignals in ein analoges Audiosignal unter Verwendung eines D/A-Wandlers einschließen. Das Übertragen kann auch das Koppeln des Audiosignals an einen Lautsprecher einschließen.
  • Die Offenbarung kann als ein Musikklassifizierer für eine Audiovorrichtung implementiert werden. Der Musikklassifizierer schließt eine Signalaufbereitungseinheit ein, die dazu konfiguriert ist, ein digitalisiertes Zeitbereichsaudiosignal in ein entsprechendes Frequenzbereichssignal zu transformieren, das eine Vielzahl von Frequenzbändern einschließt; eine Vielzahl von Entscheidungstreffeinheiten, die parallel arbeiten, die jeweils dazu konfiguriert sind, eines oder mehrere der Vielzahl von Frequenzbändern zu bewerten, um eine Vielzahl von Merkmalsbewertungen zu bestimmen, wobei jede Merkmalsbewertung einer Musik zugeordneten Eigenschaft entspricht; und eine Kombinations- und Musikerfassungseinheit, die dazu konfiguriert ist, die Vielzahl von Merkmalsbewertungen über einen Zeitraum zu kombinieren, um zu bestimmen, ob das Audiosignal Musik einschließt.
  • In einigen möglichen Implementierungen schließt die Takterfassungseinheit ein neuronales Takterfassungsnetz ein, aber in anderen kann die Takterfassungseinheit dazu konfiguriert sein, basierend auf einer Korrelation ein sich wiederholendes Taktmuster in einem ersten Frequenzband (d. h. dem niedrigsten der Vielzahl von Frequenzbändern) zu erfassen.
  • In einer möglichen Implementierung ist die Kombinations- und Musikerfassungseinheit des Musikklassifizierers ein neuronales Netz, das die Vielzahl von Merkmalsbewertungen empfängt und eine Entscheidung über Musik oder keine Musik (d. h. ein Signal) zurückgibt.
  • Die Offenbarung kann auch als ein Verfahren zur Musikerfassung implementiert werden. Das Verfahren umfasst das Empfangen eines Audiosignals; das Digitalisieren des Audiosignals, um ein digitalisiertes Audiosignal zu erhalten; Transformieren des digitalisierten Audiosignals in eine Vielzahl von Frequenzbändern; Anwenden der Vielzahl von Frequenzbändern auf eine Vielzahl von Entscheidungstreffeinheiten, die parallel arbeiten; Erhalten einer Merkmalsbewertung von jeder der Vielzahl von Entscheidungsfindungseinheiten, wobei die Merkmalsbewertung von jeder Entscheidungsfindungseinheit einer Wahrscheinlichkeit entspricht, dass eine bestimmte Musikeigenschaft in dem Audiosignal eingeschlossen ist; und Kombinieren der Merkmalsbewertungen, um Musik in dem Audiosignal zu erfassen.
  • In einer möglichen Implementierung schließt das Verfahren zur Musikerfassung ferner das Multiplizieren der Merkmalsbewertung von jeder der Vielzahl von Entscheidungsfindungseinheiten mit einem jeweiligen Gewichtungsfaktor ein, um eine gewichtete Bewertung von jeder der Vielzahl von Entscheidungsfindungseinheiten zu erhalten; Summieren der gewichteten Bewertungen von der Vielzahl von Entscheidungsfindungseinheiten, um eine Musikbewertung zu erhalten; Akkumulieren von Musikbewertungen über eine Vielzahl von Frames des Audiosignals; Mitteln der Musikbewertungen aus der Vielzahl von Frames des Audiosignals, um eine durchschnittliche Musikbewertung zu erhalten; und Vergleichen der durchschnittlichen Musikbewertung mit einem Schwellenwert, um Musik in dem Audiosignal zu erfassen.
  • In einer anderen möglichen Implementierung schließt das Verfahren zur Musikerfassung ferner das Modifizieren des Audiosignals basierend auf der Musikerfassung ein; und Übertragen des Audiosignals.
  • Die Offenbarung kann auch als eine Hörhilfe implementiert sein. Die Hörhilfe schließt eine Signalaufbereitungsstufe und eine Musikklassifiziererstufe ein. Die Musikklassifiziererstufe schließt eine Merkmalserfassungs- und -verfolgungseinheit und eine Kombinations- und Musikerfassungseinheit ein.
  • In einer möglichen Implementierung der Hörhilfe schließt die Hörhilfe ferner eine Audiosignalmodifizierstufe ein, die mit der Signalaufbereitungsstufe und der Musikklassifiziererstufe gekoppelt ist. Die Audiosignalmodifizierstufe ist dazu konfiguriert, die Vielzahl von Frequenzbändern anders zu verarbeiten, wenn ein Musiksignal empfangen wird, als wenn kein Musiksignal empfangen wird.
  • In der Patentschrift und/oder den Figuren wurden typische Ausführungsformen offenbart. Die vorliegende Offenbarung ist nicht auf solche beispielhaften Ausführungsformen beschränkt. Die Verwendung des Begriffs „und/oder“ schließt jede und alle Kombinationen von einem oder mehreren der zugeordneten aufgelisteten Elemente ein. Die Figuren sind schematische Darstellungen und sind daher nicht notwendigerweise maßstabsgetreu gezeichnet. Sofern nicht anderweitig angegeben, wurden spezifische Begriffe in einem Allgemeinen und beschreibenden Sinn und nicht zu Zwecken der Einschränkung verwendet.
  • Die Offenbarung beschreibt eine Vielzahl von möglichen Erfassungsmerkmalen und Kombinationsverfahren für eine robuste und leistungseffiziente Musikklassifizierung. So beschreibt zum Beispiel die Offenbarung einen Takterfasser basierend auf einem neuronalen Netz, der eine Vielzahl von möglichen Merkmalen verwenden kann, die aus einer Auswahl von (dezimierten) Frequenzbandinformationen extrahiert werden. Wenn spezifische Mathematik offenbart wird (z. B. eine Varianzberechnung für eine Tonalitätsmessung), kann sie als kostengünstig (d. h. effizient) vom Standpunkt einer Verarbeitungsleistung (z. B. Zyklen, Energie) beschrieben werden. Während hierin diese Aspekte und andere wie hierin beschrieben veranschaulicht wurden, sind zahlreiche Modifikationen, Ersetzungen, Änderungen und Äquivalente nun für den Fachmann ersichtlich. Es versteht sich daher, dass die angehängten Ansprüche alle derartigen Modifikationen und Änderungen abdecken sollen, die in den Umfang der Ausführungsformen fallen. Es versteht sich, dass sie nur in Form von Beispielen vorgestellt wurden, ohne einschränkend zu sein, und es können verschiedene Änderungen in Form und Detail vorgenommen werden. Jeder Abschnitt der in diesem Schriftstück beschriebenen Vorrichtung und/oder Verfahren kann in jeder Kombination kombiniert werden, ausgenommen sich gegenseitig ausschließende Kombinationen. Die hierin beschriebenen Implementierungen können verschiedene Kombinationen und/oder Unterkombinationen der Funktionen, Komponenten und/oder Merkmale der verschiedenen beschriebenen Ausführungsformen einschließen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62688726 [0001]
    • US 62659937 [0002]
    • US 16375039 [0022]
    • US 6236731 [0026]

Claims (12)

  1. Musikklassifizierer für eine Audiovorrichtung, wobei der Musikklassifizierer Folgendes umfasst: eine Signalaufbereitungseinheit, die dazu konfiguriert ist, ein digitalisiertes Zeitbereichsaudiosignal in ein entsprechendes Frequenzbereichssignal zu transformieren, das eine Vielzahl von Frequenzbändern einschließt; eine Vielzahl von Entscheidungstreffeinheiten, die parallel arbeiten, die jeweils dazu konfiguriert sind, eines oder mehrere der Vielzahl von Frequenzbändern zu bewerten, um eine Vielzahl von Merkmalsbewertungen zu bestimmen, wobei jede Merkmalsbewertung einer Musik zugeordneten Eigenschaft entspricht; und eine Kombinations- und Musikerfassungseinheit, die dazu konfiguriert ist, die Vielzahl von Merkmalsbewertungen über eine Zeitperiode zu kombinieren, um zu bestimmen, ob das Audiosignal Musik einschließt.
  2. Musikklassifizierer für die Audiovorrichtung nach Anspruch 1, wobei die Vielzahl von Entscheidungsfindungseinheiten eine Takterfassungseinheit einschließt und wobei die Takterfassungseinheit dazu konfiguriert ist, ein oder mehrere Frequenzbänder aus der Vielzahl von Frequenzbändern auszuwählen, eine Vielzahl von Merkmalen aus jedem ausgewählten Frequenzband zu extrahieren, die Vielzahl von Merkmalen aus jedem ausgewählten Frequenzband in ein neuronales Takterfassungsnetz einzugeben und ein sich wiederholendes Taktmuster basierend auf einer Ausgabe des neuronalen Takterfassungsnetzes zu erfassen.
  3. Musikklassifizierer für die Audiovorrichtung nach Anspruch 2, wobei die Vielzahl von Merkmalen, die aus jedem ausgewählten Frequenzband extrahiert werden, einen Merkmalssatz bilden, der ein Energiemittel, eine Energiestandardabweichung, ein Energiemaximum, eine Energiekurtosis, eine Energieschiefe und einen Energiekreuzkorrelationsvektor einschließt.
  4. Musikklassifizierer für die Audiovorrichtung nach Anspruch 1, wobei die Vielzahl von Entscheidungsfindungseinheiten eine Tonerfassungseinheit einschließt, die dazu konfiguriert ist, einen Ton in einem oder mehreren der Vielzahl von Bändern basierend auf einer Energiemenge und einer Energievarianz in jedem der Vielzahl von Bändern zu erfassen.
  5. Musikklassifizierer für die Audiovorrichtung nach Anspruch 1, wobei die Vielzahl von Entscheidungsfindungseinheiten eine Modulationsaktivitätsverfolgungseinheit einschließt, die konfiguriert ist, eine Breitbandmodulation basierend auf einer minimalen gemittelten Energie und einer maximalen gemittelten Energie einer Summe der Vielzahl von Bändern zu erfassen.
  6. Musikklassifizierer für die Audiovorrichtung nach Anspruch 1, wobei die Kombinations- und Musikerfassungseinheit dazu konfiguriert ist, eine Gewichtung auf jede Merkmalsbewertung anzuwenden, um gewichtete Merkmalsbewertungen zu erhalten, die gewichteten Merkmalsbewertungen zu summieren, um eine Musikbewertung zu erhalten, Musikbewertungen für eine Vielzahl von Frames zu akkumulieren, einen Mittelwert der Musikbewertungen für die Vielzahl von Frames zu berechnen und eine Hysteresesteuerung auf eine Ausgabe des Schwellenwerts für Musik oder keine Musik anzuwenden.
  7. Verfahren zur Musikerfassung in einem Audiosignal, wobei das Verfahren Folgendes umfasst: Empfangen eines Audiosignals; Digitalisieren des Audiosignals, um ein digitalisiertes Audiosignal zu erhalten; Transformieren des digitalisierten Audiosignals in eine Vielzahl von Frequenzbändern; Anwenden der Vielzahl von Frequenzbändern auf eine Vielzahl von Entscheidungsfindungseinheiten, die parallel arbeiten; Erhalten einer Merkmalsbewertung von jeder der Vielzahl von Entscheidungsfindungseinheiten, wobei die Merkmalsbewertung von jeder Entscheidungsfindungseinheit einer Wahrscheinlichkeit entspricht, dass eine bestimmte Musikeigenschaft in dem Audiosignal eingeschlossen ist; und Kombinieren der Merkmalsbewertungen, um Musik in dem Audiosignal zu erfassen.
  8. Verfahren zur Musikerfassung nach Anspruch 7, wobei die Entscheidungsfindungseinheiten eine Takterfassungseinheit einschließen, und wobei: das Erhalten einer Merkmalsbewertung von der Takterfassungseinheit Folgendes einschließt: Erfassen, basierend auf einem neuronalen Netz, eines sich wiederholenden Taktmusters in der Vielzahl von Frequenzbändern.
  9. Verfahren zur Musikerfassung nach Anspruch 7, wobei die Entscheidungsfindungseinheiten eine Tonerfassungseinheit einschließen, und wobei: das Erhalten einer Merkmalsbewertung von der Tonerfassungseinheit Folgendes einschließt: Erfassen eines Tons in einem oder mehreren der Vielzahl von Frequenzbändern basierend auf einer Energiegröße und Energievarianz in jedem der Vielzahl von Frequenzbändern.
  10. Verfahren zur Musikerfassung nach Anspruch 7, wobei die Entscheidungsfindungseinheiten eine Modulationsaktivitätsverfolgungseinheit einschließen, und wobei: das Erhalten einer Merkmalsbewertung von der Modulationsaktivitätsverfolgungseinheit Folgendes einschließt: Erfassen einer Breitbandmodulation basierend auf einer minimalen gemittelten Energie und einer maximalen gemittelten Energie einer Summe der Vielzahl von Frequenzbändern.
  11. Verfahren zur Musikerfassung nach Anspruch 10, wobei das Kombinieren Folgendes umfasst: Anwenden der Merkmalsbewertungen auf ein neuronales Netz; und Erfassen von Musik in dem Audiosignal basierend auf einer Ausgabe des neuronalen Netzes.
  12. Hörhilfe, umfassend: eine Signalaufbereitungsstufe, die dazu konfiguriert ist, ein digitalisiertes Audiosignal in eine Vielzahl von Frequenzbändern umzuwandeln; und einen Musikklassifizierer, der mit der Signalaufbereitungsstufe gekoppelt ist, wobei der Musikklassifizierer Folgendes einschließt: eine Merkmalserfassungs- und -verfolgungseinheit, die eine Vielzahl von Entscheidungsfindungseinheiten einschließt, die parallel arbeiten, wobei jede Entscheidungsfindungseinheit dazu konfiguriert ist, eine Merkmalsbewertung zu erzeugen, die einer Wahrscheinlichkeit entspricht, dass eine bestimmte Musikeigenschaft in dem Audiosignal eingeschlossen ist; und eine Kombinations- und Musikerfassungseinheit, die basierend auf der Merkmalsbewertung von jeder Entscheidungsfindungseinheit dazu konfiguriert ist, Musik in dem Audiosignal zu erfassen, wobei die Kombinations- und Musikerfassungseinheit dazu konfiguriert ist, ein erstes Signal zu erzeugen, das Musik anzeigt, während Musik in dem Audiosignal erfasst wird, und dazu konfiguriert ist, ein zweites Signal zu erzeugen, das anderweitig kein Musiksignal anzeigt.
DE102019004239.5A 2018-06-22 2019-06-14 Musikklassifizierer und verwandte verfahren Pending DE102019004239A1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862688726P 2018-06-22 2018-06-22
US62/688,726 2018-06-22
US16/429,268 2019-06-03
US16/429,268 US11240609B2 (en) 2018-06-22 2019-06-03 Music classifier and related methods

Publications (1)

Publication Number Publication Date
DE102019004239A1 true DE102019004239A1 (de) 2019-12-24

Family

ID=68805979

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019004239.5A Pending DE102019004239A1 (de) 2018-06-22 2019-06-14 Musikklassifizierer und verwandte verfahren

Country Status (4)

Country Link
US (1) US11240609B2 (de)
CN (1) CN110634508A (de)
DE (1) DE102019004239A1 (de)
TW (1) TWI794518B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048111A (zh) * 2019-12-25 2020-04-21 广州酷狗计算机科技有限公司 检测音频的节奏点的方法、装置、设备及可读存储介质
CN111491245A (zh) * 2020-03-13 2020-08-04 天津大学 基于循环神经网络的数字助听器声场识别算法及硬件实现方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429943B (zh) * 2020-03-20 2022-05-10 四川大学 音频中音乐及音乐相对响度的联合检测方法
CN113727488A (zh) * 2021-07-07 2021-11-30 深圳市格罗克森科技有限公司 一种带通滤波自适应的音乐灯带响应方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236731B1 (en) 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240192B1 (en) 1997-04-16 2001-05-29 Dspfactory Ltd. Apparatus for and method of filtering in an digital hearing aid, including an application specific integrated circuit and a programmable digital signal processor
JP2001177889A (ja) * 1999-12-21 2001-06-29 Casio Comput Co Ltd 身体装着型音楽再生装置、及び音楽再生システム
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
US20050096898A1 (en) 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
JP5006929B2 (ja) * 2006-07-03 2012-08-22 インテル・コーポレーション 高速音声検索の方法および装置
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
US8477972B2 (en) * 2008-03-27 2013-07-02 Phonak Ag Method for operating a hearing device
US8606569B2 (en) 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
EP2561508A1 (de) 2010-04-22 2013-02-27 Qualcomm Incorporated Sprachaktivitätserkennung
US9195649B2 (en) * 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
CN104050971A (zh) * 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端
US9472207B2 (en) * 2013-06-20 2016-10-18 Suhas Gondi Portable assistive device for combating autism spectrum disorders
CN104347067B (zh) * 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
US10360926B2 (en) * 2014-07-10 2019-07-23 Analog Devices Global Unlimited Company Low-complexity voice activity detection
US9842608B2 (en) * 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
US9754607B2 (en) * 2015-08-26 2017-09-05 Apple Inc. Acoustic scene interpretation systems and related methods
EP3182729B1 (de) * 2015-12-18 2019-11-06 Widex A/S Hörhilfesystem und verfahren zum betrieb eines hörhilfesystems
US10043500B2 (en) * 2016-05-11 2018-08-07 Miq Limited Method and apparatus for making music selection based on acoustic features
EP3729428A1 (de) * 2017-12-22 2020-10-28 Robert Bosch GmbH Systeme und verfahren zur belegungsbestimmung
US11024288B2 (en) * 2018-09-04 2021-06-01 Gracenote, Inc. Methods and apparatus to segment audio and determine audio segment similarities

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236731B1 (en) 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048111A (zh) * 2019-12-25 2020-04-21 广州酷狗计算机科技有限公司 检测音频的节奏点的方法、装置、设备及可读存储介质
CN111048111B (zh) * 2019-12-25 2023-07-04 广州酷狗计算机科技有限公司 检测音频的节奏点的方法、装置、设备及可读存储介质
CN111491245A (zh) * 2020-03-13 2020-08-04 天津大学 基于循环神经网络的数字助听器声场识别算法及硬件实现方法

Also Published As

Publication number Publication date
US20190394578A1 (en) 2019-12-26
US11240609B2 (en) 2022-02-01
TWI794518B (zh) 2023-03-01
CN110634508A (zh) 2019-12-31
TW202015038A (zh) 2020-04-16

Similar Documents

Publication Publication Date Title
DE102019004239A1 (de) Musikklassifizierer und verwandte verfahren
DE112009000805B4 (de) Rauschreduktion
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
DE602004001241T2 (de) Vorrichtung zur Unterdrückung von impulsartigen Windgeräuschen
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE112010005895B4 (de) Störungsunterdrückungsvorrichtung
CN110611871B (zh) 一种数字助听器的啸叫抑制方法、系统及专用dsp
DE102012107952A1 (de) Rauschreduzierung für Dual-Mikrofon-Kommunikationsgeräte
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE102008031150B3 (de) Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
EP3337187A1 (de) Verfahren zum betrieb eines hörgerätes
EP3386215B1 (de) Verfahren zum betrieb einer hörvorrichtung und hörvorrichtung
EP3393143B1 (de) Verfahren zum betrieb eines hörgerätes
DE102019201456B3 (de) Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE112005003681B4 (de) Hörhilfe mit Rückkopplungssignal-Reduktionsfunktion
DE102017221006A1 (de) Verfahren zum Betrieb eines Hörgerätes
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
DE102015221764A1 (de) Verfahren zum Angleichen von Mikrofonempfindlichkeiten
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
DE102008046040A1 (de) Verfahren zum Betrieb einer Hörvorrichtung mit Richtwirkung und zugehörige Hörvorrichtung
DE102020107620B3 (de) System und Verfahren zur Kompensation des Okklusionseffektes bei Kopfhörern oder Hörhilfen mit verbesserter Wahrnehmung der eigenen Stimme
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung

Legal Events

Date Code Title Description
R021 Search request validly filed
R163 Identified publications notified
R012 Request for examination validly filed