DE112018000717T5 - METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY - Google Patents

METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY Download PDF

Info

Publication number
DE112018000717T5
DE112018000717T5 DE112018000717.0T DE112018000717T DE112018000717T5 DE 112018000717 T5 DE112018000717 T5 DE 112018000717T5 DE 112018000717 T DE112018000717 T DE 112018000717T DE 112018000717 T5 DE112018000717 T5 DE 112018000717T5
Authority
DE
Germany
Prior art keywords
signal
user
microphone
utterances
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018000717.0T
Other languages
German (de)
Inventor
Jiajin An
Michael Jon Wurtz
David Wurtz
Manpreet Khaira
Amit Kumar
Shawn O'Connor
Shankar Rathoud
James Scanlan
Eric Sorensen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avnera Corp
Original Assignee
Avnera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/711,793 external-priority patent/US10564925B2/en
Application filed by Avnera Corp filed Critical Avnera Corp
Publication of DE112018000717T5 publication Critical patent/DE112018000717T5/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Headphones And Earphones (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Viele Headssets nutzen automatische Rauschunterdrückung (ANC), was den Empfang von wahrgenommenem Hintergrundrauschen dramatisch reduziert und das Hörererlebnis verbessert. Leider erfassen die Sprachmikrofone in diesen Vorrichtungen häufig Umgebungsgeräusche, die diese Headsets während Telefonanrufen oder anderen Kommunikationssitzungen mit anderen Nutzern ausgeben. In Reaktion darauf stellen viele Headset sund Kommunikationsgeräte stellen manuelle Stummschaltungsschaltkreise bereit, aber Nutzer vergessen häufig die Stummschaltung ein- und/oder auszuschalten, wodurch weitere Probleme beim Kommunizieren erzeugt werden. Um dem zu begegnen, haben die hiesigen Erfinder neben anderem ein beispielhaftes Headset ersonnen, welches die Anwesenheit oder Abwesenheit von Nutzersprachäußerungen erfasst und das Sprachmikrofon ohne Zutun des Nutzers automatisch stumm schaltet und wieder aktiviert. Einige Ausführungsformen verwenden Beziehungen zwischen Rückkopplungs- und Vorsteuerungssignalen in der ANC-Schaltung, um Nutzersprachäußerungen zu erfassen, so dass auf zusätzliche Hardware in dem Headset verzichtet werden kann. Andere Ausführungsformen verwenden auch die Sprachäußerungserfassungsfunktion, um Schlüsselwortdetektoren zu aktivieren und zu deaktivieren.Many headsets use Automatic Noise Cancellation (ANC), which dramatically reduces the reception of background noise and improves the listening experience. Unfortunately, the voice microphones in these devices often pick up ambient noise that these headsets emit during phone calls or other communication sessions with other users. In response, many headsets and communication devices provide manual mute circuitry, but users often forget to toggle mute on and / or off, creating additional communication problems. To counteract this, the local inventors have, among other things, devised an exemplary headset that detects the presence or absence of user utterances and automatically mutes and reactivates the voice microphone without the user having to do anything. Some embodiments use relationships between feedback and feedforward signals in the ANC circuit to capture user utterances so that additional hardware in the headset can be eliminated. Other embodiments also use the utterance detection function to enable and disable keyword detectors.

Description

URHEBERRECHTSANMERKUNG UND ERLAUBNISCOPYRIGHT NOTE AND PERMISSION

Ein Teil dieser Patentanmeldung enthält Material, welches urheberrechtlichem Schutz unterliegt. Der Urheberrechtsinhaber hat gegenüber niemandem Einwände, was eine Faksimile-Reproduktion der Patentanmeldung oder der darin enthaltenen Offenbarung, wie sie in den patentamtlichen Akten oder Unterlagen hinterlegt sind, angeht, aber behält sich im Übrigen alle Urheberrechte vor. Die folgende Kennzeichnung gilt für dieses Dokument: Copyright© 2017, AVNERA CORPORATION.Part of this patent application contains material that is subject to copyright protection. The copyright holder has no objection to anyone regarding a facsimile reproduction of the patent application or the disclosure contained therein, as stored in the patent files or documents, but otherwise reserves all copyrights. The following marking applies to this document: Copyright © 2017, AVNERA CORPORATION.

VERWANDTE ANMELDUNGENRELATED APPLICATIONS

Die vorliegende Anmeldung beansprucht die Priorität der U.S. Patentanmeldung Nr. 15/711,793 , eingereicht am 21. September 2017, und der vorläufigen U.S. Patentanmeldungen 62/456,100 , eingereicht am 7. Februar 2017, 62/459,055, eingereicht am 14. Februar 2017, und 62/532,964, eingereicht am 14. Juli 2017. Der Offenbarungsgehalt aller vier Anmeldungen wird hierin durch Bezugnahme mit aufgenommen.The present application claims priority from U.S. Patent Application No. 15 / 711,793 , filed on September 21, 2017, and preliminary US patent applications 62 / 456,100 , filed February 7, 2017, 62 / 459,055, filed February 14, 2017, and 62 / 532,964, filed July 14, 2017. The disclosure content of all four applications is incorporated herein by reference.

TECHNISCHES GEBIETTECHNICAL AREA

Verschiedene Ausführungsformen der Erfindung beziehen sich im Generellen auf die automatische Erfassung von Nutzerstimmaktivität in Headsets unterschiedlicher Bauart, wie etwa solcher mit automatischer Rauschreduzierung.Various embodiments of the invention generally relate to the automatic detection of user voice activity in headsets of different types, such as those with automatic noise reduction.

HINTERGRUNDBACKGROUND

Sprechgarnituren, oder auch „Headsets“ genannt, haben üblicherweise ein Mikrophon zusammen mit ein oder zwei Ohrteilen oder Ohrsteckern, die über, auf oder in den Ohren von Nutzern getragen werden, um elektronische Kommunikation zu ermöglichen. Viele moderne Headsets weisen auch Schaltungen für eine automatische Rauschreduzierung („automatic noise reduction“, ANR) oder eine automatische Rauschunterdrückung („automatic noise cancellation“, ANC) auf, um automatisch signifikante Anteile von Umgebungsgeräuschen zu erfassen und zu unterdrücken, so dass das Hörerlebnis für den Nutzer verbessert wird. ANC-Schaltungen sind vom Prinzip her einfach, von der Implementierung her jedoch kompliziert, da viele Headsets bis zu sechs Mikrophone („Mics“) aufweisen: zwei für Rückkopplungs-ANC (FB-ANC), zwei für Vorsteuerungs-ANC (FF-ANC) und eines oder zwei zum Aufnehmen von Nutzersprachsignalen.Headsets, or "headsets", usually have a microphone along with one or two ear pieces or ear plugs that are worn over, on or in the ears of users to enable electronic communication. Many modern headsets also have circuits for automatic noise reduction (ANR) or automatic noise cancellation (ANC) to automatically detect and suppress significant amounts of ambient noise, so that the listening experience is improved for the user. ANC circuits are simple in principle, but complicated in implementation, since many headsets have up to six microphones (“mics”): two for feedback ANC (FB-ANC), two for feedforward ANC (FF-ANC ) and one or two for recording user voice signals.

Ein Problem, welches die hiesigen Erfinder erkannt haben, besteht darin, dass ANC-Headsets zwar das Hörerlebnis der sie tragenden Nutzer verbessert, aber nichts oder kaum etwas dazu beitragen, die Qualität der von dem Headset an andere Geräte übertragenen Signale zu verbessern. Beispielsweise ist es in vielen lärmbehafteten Umgebungen für Nutzer, die Headsets für ihre Mobiltelefone tragen, üblicherweise notwendig, ihre Telefone manuell in einen Stummschaltungsmodus zu versetzen, um es zu vermieden, dass Hintergrundlärm von dem Telefon an andere Telefone und Geräte übertragen wird. Auch wenn das prinzipiell effektiv gegen die Übertragung ungewollten Rauschens hilft, führt es häufig zu Kommunikationslücken, da Nutzer, die ihre Telefone stumm geschaltet haben, es vergessen, die Stummschaltung aufzuheben, wenn sie wieder mit dem Sprechen anfangen. Darüber hinaus ist die Problem mit eventuellen Kommunikationslücken in Konferenzschaltungen mit vielen manuell stumm und aufnahmebereit schaltenden Nutzern noch größer.One problem recognized by the present inventors is that ANC headsets improve the listening experience of the users wearing them, but do little or nothing to improve the quality of the signals transmitted from the headset to other devices. For example, in many noisy environments, users who wear headsets for their cell phones typically need to manually mute their phones to avoid background noise being transmitted from the phone to other phones and devices. While this in principle helps effectively against the transmission of unwanted noise, it often leads to communication gaps, since users who have muted their phones forget to unmute them when they start speaking again. In addition, the problem with possible communication gaps in conference calls with many users who manually switch to mute and ready to record is even greater.

Bei dem Versuch der Lösung des Problems haben einige Entwickler Schaltungen vorgesehen, die die Sprachausgabe des Sprachmikrofons überwacht und die Stummschaltung automatisch aktiviert oder deaktiviert, je nachdem ob das Niveau der Sprachmikrofonausgabe ein oder mehrere Schwellwerte überschreitet oder nicht. Allerdings leiden die Überwachungsschaltungen unter zumindest mal zwei Problemen, die ihre Nutzung in Mobiltelefonen verhindert haben. Zum ersten verbrauchen sie eine beachtliche Menge an Energie und verkürzen damit die Batterielebensdauer. Zum zweiten erzeugen die Schaltungen selbst Kommunikationslücken, nicht nur deswegen, weil sie langsam reagieren, wenn ein Sprechen einsetzt oder aufhört, sondern auch deswegen, weil sie externe Geräusche, wie etwa Stimmen von Leuten in der Nähe, mit der Stimme des Nutzers verwechseln.In attempting to solve the problem, some developers have provided circuitry that monitors the voice output of the voice microphone and automatically turns the mute on or off depending on whether or not the level of the voice microphone output exceeds one or more thresholds. However, the monitoring circuits suffer from at least two problems that have prevented their use in mobile phones. First of all, they consume a considerable amount of energy and thus shorten the battery life. Second, the circuits themselves create communication gaps, not only because they react slowly when speech begins or stops, but also because they confuse external noises, such as voices from nearby people, with the user's voice.

Dementsprechend haben die hiesigen Erfinder erkannt, dass ein Bedarf an besseren Methoden für die Reduktion der Übertragung von Umgebungsgeräuschen durch ANC und andere Arten von Headsets besteht.Accordingly, the present inventors have recognized that there is a need for better methods for reducing ambient noise transmission by ANC and other types of headsets.

ZUSAMMENFASSUNG DER ERFINDUNG SUMMARY OF THE INVENTION

Um eines oder mehrere dieser und/oder anderer Bedürfnisse oder Probleme anzugehen, haben die hiesigen Erfinder nebst anderem ein oder mehrere beispielhafte Systeme, Bausätze, Verfahren, Vorrichtungen, Anordnungen und/oder andere Komponenten ersonnen, die die Anwesenheit oder Abwesenheit von Sprachäußerungen eines Nutzers automatisch erfassen und die eine zugeordnete Stummschaltung oder andere stimm- oder sprachabhängige Funktionalitäten umsetzen. Einige Ausführungsformen umfassen ein Sprachmikrofon, zumindest zwei Steuermikrofone und eine Verarbeitungsschaltung, welche dazu ausgelegt ist, das Sprachmikrofon auf der Basis einer Beziehung der Ausgabesignale der Steuermikrofone untereinander stumm zu schalten.To address one or more of these and / or other needs or problems, the present inventors, among others, have devised one or more exemplary systems, kits, methods, devices, arrangements, and / or other components that automatically detect the presence or absence of a user's utterances record and implement an assigned muting or other voice or language-dependent functionalities. Some embodiments include a voice microphone, at least two control microphones, and processing circuitry configured to mute the voice microphone based on a relationship between the output signals of the control microphones.

In einer ersten Ausführungsform sind die zwei Steuermikrofone, beispielsweise ein an einer linken Hörmuschel angeordnetes Mikrofon und ein an einer rechten Hörmuschel angeordnetes Mikrofon, dazu ausgelegt, ungefähr symmetrisch in einen Stimmbereich eines Nutzers akustisch einzukoppeln. Die Verarbeitungsschaltung bestimmt, ob ein Nutzer spricht, in Abhängigkeit einer gemessenen zeitlichen Symmetrie - beispielweise einer Phasenbeziehung - von Ausgabesignalen der zwei Mikrofone, wobei eine hohe Symmetrie (ungefähr simultanes Ankommen an beiden Mikrofonen) eine Sprachäußerung des Nutzers kennzeichnet, und eine niedrige Symmetrie Umgebungsgeräusche oder anderweitige Sprachäußerungen kennzeichnet. Die zwei Steuermikrofone sind in einigen Varianten der ersten Ausführungsform die linken und rechten Rückkopplungsmikrofone in einem AND-Headset. Einige andere Varianten messen oder schätzen die Phasenbeziehung unter Nutzung komplexer Kohärenz der abgetasteten Mikrofonausgabesignale, und aktivieren die Stummschaltungsvorrichtung immer dann, wenn der Realteil der komplexen Kohärenz unter einen Schwellwert fällt.In a first embodiment, the two control microphones, for example a microphone arranged on a left earpiece and a microphone arranged on a right earpiece, are designed to acoustically couple approximately symmetrically into a user's voice range. The processing circuit determines whether a user speaks depending on a measured temporal symmetry - for example a phase relationship - of output signals of the two microphones, a high symmetry (approximately simultaneous arrival at both microphones) characterizing a speech utterance of the user, and a low symmetry ambient noise or indicates other expressions of language. In some variants of the first embodiment, the two control microphones are the left and right feedback microphones in an AND headset. Some other variants measure or estimate the phase relationship using complex coherence of the sampled microphone output signals and activate the mute device whenever the real part of the complex coherence falls below a threshold.

In einer zweiten Ausführungsform sind die zwei Steuermikrofone dazu ausgelegt, asymmetrisch in einen Stimmbereich eines Nutzers akustisch einzukoppeln, das heißt, ein Mikrofon koppelt stärker akustisch in einen Stimmbereich eines Nutzers ein als das andere. Die Verarbeitungsschaltung ist dazu ausgelegt, die Stummschaltung in Abhängigkeit von der relativen Stärke des Energiepegels der Ausgabesignale der zwei Mikrofone zu aktivieren oder zu deaktivieren. Beispielsweise kann in einigen ANC-Ausführungsformen das Mikrofon mit der stärkeren akustischen Ankopplung das Rückkopplungsfehlermikrofon in einer ANC-Ohrmuschel und das andere das Vorsteuerungsmikrofon sein. Die Verarbeitungsschaltung vergleicht ein Verhältnis des Ausgabesignals des Rückkopplungsfehlermikrofons und des Ausgabesignals des Vorsteuerungsmikrofons mit einem Schwellwert, um zu ermitteln, ob die Stummschaltungsfunktion aktiviert oder deaktiviert werden soll. Einige Varianten können zwei Mikrofone nutzen, die an einem Bügel oder in einem Kabel angeordnet sind, statt der zwei ANC-Steuermikrofone.In a second embodiment, the two control microphones are designed to acoustically couple asymmetrically into a user's voice range, that is, one microphone couples more acoustically into a user's voice range than the other. The processing circuit is designed to activate or deactivate the muting depending on the relative strength of the energy level of the output signals of the two microphones. For example, in some ANC embodiments, the microphone with the stronger acoustic coupling can be the feedback error microphone in an ANC ear cup and the other the pilot microphone. The processing circuit compares a ratio of the output signal of the feedback error microphone and the output signal of the pilot microphone to a threshold value in order to determine whether the muting function should be activated or deactivated. Some variants can use two microphones, which are arranged on a bracket or in a cable, instead of the two ANC control microphones.

Die Verarbeitungsschaltung vergleicht ein Verhältnis des Ausgabesignals des Rückkopplungsfehlermikrofons und des Ausgabesignals des Vorsteuerungsmikrofons mit einem Schwellwert, um zu ermitteln, ob die Stummschaltungsfunktion aktiviert oder deaktiviert werden soll. Einige Varianten können zwei Mikrofone nutzen, die an einem Stock oder einem Kabel angeordnet sind, statt der zwei ANC-Steuermikrofone. Verallgemeinerte Ausführungsformen nutzen zwei oder mehr Mikrofone, um zwei Signale zu erzeugen, wobei ein erstes Signal stärker an die Sprachäußerungen eines Nutzers gekoppelt ist als ein zweites Signal, und wobei das zweite Signal stärker an Umgebungsgeräusche gekoppelt ist als das erste Signal.The processing circuit compares a ratio of the output signal of the feedback error microphone and the output signal of the pilot microphone to a threshold value in order to determine whether the muting function should be activated or deactivated. Some variants can use two microphones, which are arranged on a stick or a cable, instead of the two ANC control microphones. Generalized embodiments use two or more microphones to generate two signals, a first signal being more closely coupled to a user's speech than a second signal, and the second signal being more strongly coupled to ambient noise than the first signal.

Eine dritte Ausführungsform schätzt eine Transferfunktion, die sowohl die Phasen- als auch Amplitudenunterschiede zwischen den Signalen der beiden Mikrofone berücksichtigt, wie etwa das Rückkopplungsfehlermikrofon und das Vorsteuerungsumgebungsmikrofon. Einige Varianten dieser Ausführungsform können auf das ANC-Mikrofon verzichten und benutzen andere Paare von Mikrofonen, wie etwa ein Sprachmikrofon und ein anderes Mikrofon. Die Transferfunktion kann mittels einer Vielzahl von Verfahren geschätzt werden, wie etwa Kalman-Filterung oder eine andere Art von Optimumsschätzer.A third embodiment estimates a transfer function that takes into account both the phase and amplitude differences between the signals from the two microphones, such as the feedback error microphone and the pilot environment microphone. Some variants of this embodiment can dispense with the ANC microphone and use other pairs of microphones, such as a speech microphone and another microphone. The transfer function can be estimated using a variety of methods, such as Kalman filtering or another type of optimum estimator.

Ein oder mehrere Ausführungsformen beinhalten auch andere Merkmale. Beispielsweise umfassen einige Ausführungsformen einen Ausblender, um Musik oder andere Audiosignale, die über einen Lautsprecher innerhalb einer mit einem oder mehreren der Mikrofone bestückten Hörmuschel ausgegeben werden, auszublenden. Einige Ausführungsformen weisen Verzögerungs- und Aufschubfunktionen für die Stummschaltung auf, um das Risiko zu minimieren, zwischen gesprochenen Worten oder während kurzer Pausen stumm zu schalten. Einige andere Ausführungsformen umfassen einen Pufferspeicher und eine Vorhersagefunktionalität, um ein rechtzeitiges Deaktivieren der Stummschaltung des Sprachmikrofons sicherzustellen und dadurch Teilverluste der Sprachäußerungen des Nutzers zu vermeiden.One or more embodiments also include other features. For example, some embodiments include a fader to fade out music or other audio signals that are output through a speaker within an earpiece equipped with one or more of the microphones. Some embodiments have mute delay and defer functions to minimize the risk of being muted between spoken words or during short pauses. Some other embodiments include a buffer memory and a prediction functionality to ensure timely deactivation of the muting of the voice microphone and thereby to avoid partial loss of the user's utterance.

KURZE BESCHREIBUNG DER ZEICHNUNGEN BRIEF DESCRIPTION OF THE DRAWINGS

Verschiedene Ausführungsformen werden hierin unter Bezugnahme auf die folgenden beigeschlossenen Zeichnungen (Fig.) beschrieben. Diese Zeichnungen sind mit Bezugszeichen für verschiedene Merkmale und Komponenten versehen, und diese Zeichen werden in der folgenden Beschreibung als Hilfsmittel für das Verstehen der Lehren verwendet, wobei gleiche Zeichen sich auf die gleichen oder ähnliche Merkmale und Komponenten beziehen.Various embodiments are described herein with reference to the following accompanying drawings (Fig.). These drawings are provided with reference numerals for various features and components, and these characters are used in the following description as an aid to understanding the teachings, where like characters refer to the same or similar features and components.

1 zeigt ein Blockschaubild eines beispielhaften Headset-Systems oder einer Headset-Anordnung 100, die mit einer oder mehreren Ausführungsformen der vorliegenden Erfindung zusammenhängt. 1 shows a block diagram of an exemplary headset system or headset arrangement 100 associated with one or more embodiments of the present invention.

2 zeigt ein Blockschaubild eines beispielhaften Verfahrens zum Betreiben eines Nutzerstimmaktivitätsdetektors als Teil der Anordnung 100, die mit einer oder mehreren Ausführungsformen der vorliegenden Erfindung zusammenhängt. 2 FIG. 4 shows a block diagram of an exemplary method for operating a user voice activity detector as part of the arrangement 100 associated with one or more embodiments of the present invention.

3 zeigt eine konzeptionelles Systemschaubild einer Hälfte eines Headset-Systems 300, das mit einer oder mehreren Ausführungsformen der vorliegenden Erfindung zusammenhängt. 3 shows a conceptual system diagram of half of a headset system 300 associated with one or more embodiments of the present invention.

4 zeigt ein Blockschaubild eines verallgemeinerten elektroakustischen Systems mit mehreren Audioübertragern und Audioeingangssignalen, das mit einer oder mehreren Ausführungsformen der vorliegenden Erfindung zusammenhängt. 4 FIG. 4 shows a block diagram of a generalized electroacoustic system with multiple audio transmitters and audio input signals related to one or more embodiments of the present invention.

5 zeigt ein Blockschaubild eines Nutzerstimmaktivitätsdetektors, der mit einer oder mehreren Ausführungsformen der vorliegenden Erfindung zusammenhängt. 5 FIG. 4 shows a block diagram of a user voice activity detector associated with one or more embodiments of the present invention.

AUSFÜHRLICHE BESCHREIBUNG DER BEISPIELHAFTEN AUSFÜHRUNGSFORM(EN)DETAILED DESCRIPTION OF THE EXEMPLARY EMBODIMENT (S)

Dieses Dokument, welches Zeichnungen und Ansprüche miteinschließt, beschreibt ein oder mehrere bestimmte Ausführungsformen ein oder mehrerer Erfindungen. Diese Ausführungsformen, die nicht zu einschränkenden Zwecken, sondern zur Exemplifizierung und Erklärung der Erfindung gereichen sollen, werden in hinreichendem Detaillierungsgrad gezeigt und beschrieben, so dass es den Fachleuten möglich ist, die Erfindung(en) zu implementieren und in die Praxis umzusetzen. Außerdem kann die Beschreibung, wo es zweckdienlich erscheint, bestimmte Informationen, die den Fachleuten bekannt sind, weglassen, um eine Verschleierung der Erfindung(en) zu vermeiden.This document, which includes drawings and claims, describes one or more specific embodiments of one or more inventions. These embodiments, which are not intended to be limiting, but are intended to exemplify and explain the invention, are shown and described in sufficient detail so that those skilled in the art can implement and implement the invention (s). In addition, where appropriate, the description may omit certain information known to those skilled in the art to avoid obscuring the invention (s).

1 zeigt eine beispielhafte ANR-Headsetanordnung oder ein ANR-Headsetsystem 100, welches in Ohren 102A und 102B des Kopfes 101 eines Nutzers eingesetzt ist (Draufsicht). Der Kopf 101 des Nutzers umfasst entsprechende linke und rechte Ohren 102A und 102B, einen Mund 103 und einen Vokaltrakt 104 des Nutzers. Der Vokaltrakt 104 umfasst den Mund des Nutzers und die Larynx (nicht dargestellt). Die Anordnung 100 weist linke und rechte Hörmuscheln bzw. Ohrstücke 110A und 110B, ein optionales Kopfband 100C, ein eingebautes Sprachmikrofon oder Bügelsprachmikrofon 120, eine Verarbeitungsschaltung 130 und einen Host oder externes Gerät 140 auf. 1 shows an exemplary ANR headset arrangement or an ANR headset system 100 which in ears 102A and 102B Of the head 101 a user is used (top view). The head 101 of the user includes corresponding left and right ears 102A and 102B , a mouth 103 and a vocal tract 104 of the user. The vocal tract 104 includes the user's mouth and larynx (not shown). The order 100 has left and right earcups or earpieces 110A and 110B , an optional headband 100C , a built-in voice microphone or a bow voice microphone 120 , a processing circuit 130 and a host or external device 140 on.

Die Hörmuscheln bzw. Ohrstücke 110A and 110B, die die Gestalt von Gehörganghörern, Ohrpassstücken, ohrumschließenden oder ohraufliegenden Kopfhörern annehmen können und eine senkrechte Achse 110D, umfassen entsprechende ANR-Treiber DA und DB, Vorsteuerungsmikrofone FFA und FFB, und entsprechende Rückkopplungsmikrofone FBA und FBB. ANR-Treiber DA und DB teilen die internen Volumina der entsprechenden Hörmuscheln bzw. Ohrstücke 110A und 110B in vorderseitige Kavitätsbereiche und rückseitige Kavitätsbereiche auf (nicht separat ausgezeichnet). Die Vorsteuerungsumgebungsmikrofone FFA und FFB sind innerhalb der oder angrenzend an die rückseitigen Kavitäten angeordnet, weiter weg von den entsprechenden Ohren 102A und 102B als die Rückkopplungsmikrofone FBA und FBB, so dass sichergestellt ist, dass sie eine stärkere akustische Kopplung an Umgebungsgeräusche und eine schwächere akustische Kopplung an den Kopf 101 des Nutzers, die Gehörgänge des Nutzers und den Vokaltrakt 104 aufweisen als die Rückkopplungsfehlermikrofone FBA und FBB. Die Rückkopplungsfehlermikrofone FBA und FBB sind in ähnlicher Weise innerhalb oder an den entsprechenden Ohrstücken angeordnet, so dass sichergestellt ist, dass sie im Wesentlichen identische oder symmetrische akustische Kopplung über den Kopf- oder (Körper-)Knochenleitpfade 104A und 104B zum auf der Achse 110D liegenden Vokaltrakt 104 des Nutzers aufweisen. Zusätzlich dazu haben die Rückkopplungsmikrofone eine im Wesentlichen symmetrische akustische Kopplung über Luftleitpfade P1 und P2 an außerhalb der Achse befindliche Geräuschquellen, wie etwa die Umgebungsgeräuschquelle N. (Die Rückkopplungs- und Vorsteuerungsmikrofone im selben Ohrstück habe eine sehr asymmetrische Antwortfunktion auf Sprachäußerungen des Nutzers und Umgebungslaute.) Die Mikrofone und Treiber sind über entsprechende drahtgebundene oder drahtlose Kommunikationsverbindungen 131 und 132 mit der Verarbeitungsschaltung 130 gekoppelt.The earpieces or earpieces 110A and 110B, which can take the form of ear canals, earmolds, over-the-ear or on-ear headphones, and a vertical axis 110D , include corresponding ANR drivers DA and DB, feedforward microphones FFA and FFB, and corresponding feedback microphones FBA and FBB. ANR drivers DA and DB share the internal volumes of the corresponding earpieces or earpieces 110A and 110B into front cavity areas and rear cavity areas (not separately marked). The pilot environment microphones FFA and FFB are located within or adjacent to the rear cavities, further away from the corresponding ears 102A and 102B than the FBA and FBB feedback mics, ensuring that they have a stronger acoustic coupling to ambient noise and a weaker acoustic coupling to the head 101 of the user, the auditory canals of the user and the vocal tract 104 have as the feedback error microphones FBA and FBB. The FBA and FBB feedback error microphones are similarly located within or on the corresponding earpieces, ensuring that they have substantially identical or symmetrical acoustic coupling via the head or (body) bone conduction paths 104A and 104B to the on-axis 110D lying vocal tract 104 of the user. In addition, the feedback microphones have an essentially symmetrical acoustic coupling via air conduction paths P1 and P2 to off-axis noise sources, such as the ambient noise source N. (The feedback and pilot microphones in the same earpiece have one very asymmetrical response function to speech utterances of the user and surrounding sounds.) The microphones and drivers are over appropriate wired or wireless communication connections 131 and 132 with the processing circuit 130 coupled.

Die Verarbeitungsschaltung 130, die in einigen Ausführungsformen die Gestalt eines digitalen Signalprozessors mit zugeordnetem Speicher und anderer integrierter Komponentenausstattung annimmt und vollständig von dem Gerät 140 getrennt oder teilweise oder vollständig in dem Gerät 140 integriert ist, weist einen Satz an Eingangs-/Ausgangsknoten 133, ein ANR-Verarbeitungsmodul 134, ein Nutzerstimmerkennungsmodul 135, ein Stummschaltungsmodul 136, sprachabhängige Module 137 und ein Modul zur Erkennung von ohrenaufliegenden Kopfhörern auf.The processing circuit 130 which, in some embodiments, takes the form of a digital signal processor with associated memory and other integrated component equipment and entirely from the device 140 separately or partially or completely in the device 140 is integrated, has a set of input / output nodes 133 , an ANR processing module 134 , a user voice recognition module 135 , a mute module 136 , language-dependent modules 137 and a module for the detection of on-ear headphones.

Die Eingangs-/Ausgangsknoten 133 weisen einen Stimmmikrofonausgangssignalknoten Vm, einen linken Rückkopplungsmikrofonsignalknoten FBA (FBL), einen rechten Rückkopplungsmikrofonsignalknoten FBB (FBR), einen linken Vorsteuerungsmikrofonsignalknoten FFA (FFL), einen rechten Vorsteuerungsmikrofonsignalknoten FFB (FFR), und Signalknoten RxA RxB für ins Gerät eingehende Audio-/Musiksignale auf. (Die Verwendung der Abkürzung „Rx“ bezieht sich hierbei auf RxA oder RxB im Einzelnen oder im Gemeinsamen und kann Telefonaudiosignale mit einschließen.)The input / output nodes 133 have a voice microphone output signal node Vm, a left feedback microphone signal node FBA (FBL), a right feedback microphone signal node FBB (FBR), a left feedforward microphone signal node FFA (FFL), a right feedforward microphone signal node FFB (FFRxA) and R input signal nodes for audio signals RB / FFRxA, and RxBnode for input signals , (The use of the abbreviation "Rx" here refers to RxA or RxB in detail or in common and can include telephone audio signals.)

Das ANR-Verarbeitungsmodul 134 stellt Schaltkreise und maschinen-lesbare Instruktionen bereit, um Umgebungsrauschen innerhalb der vorderseitigen Volumina der Ohrstücke inklusive der Ohrkavitäten der Nutzer zu unterdrücken. Insbesondere erhält das Modul 134 Ausgabesignale von den Vorsteuerungsmikrofonen FFA and FFB, die eine Summe der gesamten akustischen Energie innerhalb ihrer entsprechenden Gehörgängen oder Ohrenkavitäten darstellen. Modul 134 empfängt auch ein Ohrentelefonaudiosignal von dem Gerät 140, wie etwa einem Smartphone, einem Medienabspielgerät, einem Zwei-Wege-Funkgerät oder einer anderen elektronischen Audioquelle. Auf ein Umgebungsgeräuschsignal von den Vorsteuerungsmikrofonen FFA and FFB hin, erzeugt die ANR-Verarbeitungsschaltung Rauschunterdrückungssignale und sendet eine Mischung oder eine Summe der Rauschunterdrückungssignale und des Ohrentelefonaudiosignals (Rx) an die ANR-Treiber DA und DB, welche akustische Energie erzeugen, die wesentliche Teile der wahrgenommenen Umgebungsgeräusche auslöschen und eine akustische Widergabe des Ohrentelefonaudiosignals bereitstellen. In einigen Ausführungsformen umfasst das ANR-Verarbeitungsmodul 134 adaptive ANR-Verarbeitung, wie etwa in der US-Patentanmeldung 15/069,271 , eingereicht am 4. März 2016 beschrieben, deren Offenbarungsgehalt durch Bezugnahme hierin aufgenommen ist.The ANR processing module 134 provides circuitry and machine-readable instructions to suppress ambient noise within the front volumes of the earpieces, including the user's ear cavities. In particular, the module receives 134 Output signals from the pre-control microphones FFA and FFB, which represent a sum of the total acoustic energy within their corresponding ear canals or ear cavities. module 134 also receives an earphone audio signal from the device 140 , such as a smartphone, media player, two-way radio, or other electronic audio source. In response to an ambient noise signal from the pre-control microphones FFA and FFB, the ANR processing circuit generates noise canceling signals and sends a mixture or a sum of the noise canceling signals and the earphone audio signal (Rx) to the ANR drivers DA and DB, which generate acoustic energy, which are essential parts of the extinguish the perceived ambient noise and provide an acoustic reproduction of the earphone audio signal. In some embodiments, the ANR processing module includes 134 adaptive ANR processing, such as in the U.S. Patent Application 15 / 069,271 , filed March 4, 2016, the disclosure of which is incorporated herein by reference.

Das Nutzerstimmaktivitätserfassungsmodul („user voice activity detection“, UVAD) 135 weist Logikschaltungen und/oder gespeicherte maschinen-lesbare Instruktionen auf, um Eingabesignale, die von zwei oder mehr der Vorsteuerungsmikrofone FFA und FFB und der Rückkopplungsmikrofone FBA und FBB abgeleitet sind, zu verarbeiten, um die Anwesenheit oder Abwesenheit von Sprachäußerungen eines Nutzers in dem Ausgabesignal des Sprachmikrofons 120 zu erfassen oder vorherzusagen. Im Speziellen stellt die beispielhafte Ausführungsform zwei Verfahren zur Erfassung von Nutzerstimmaktivität bereit. (Einige Ausführungsformen stellen ein UVAD bereit, welches irgendein an die Umgebung ankoppelndes Mikrofon in Kombination mit dem Rückkopplungsmikrofonnutzt. Daher können beispielsweise das Sprachmikrofon und das Rückkopplungsmikrofon verwendet werden.)The user voice activity detection module (UVAD) 135 has logic circuits and / or stored machine-readable instructions to process input signals derived from two or more of the FFA and FFB pilot microphones and the FBA and FBB feedback microphones. the presence or absence of a user's utterances in the output signal of the voice microphone 120 to capture or predict. Specifically, the exemplary embodiment provides two methods of capturing user voice activity. (Some embodiments provide a UVAD that uses any ambient microphone in combination with the feedback microphone. Therefore, for example, the voice microphone and the feedback microphone can be used.)

Das erste Verfahren nutzt die Einsicht aus, dass akustische Pfade 104A und 104B durch den Kopf des Nutzers im Generellen gleiche Länge aufweisen und im Wesentlichen ähnlich in der Materialzusammensetzung sind, da der Kopf des Nutzers hinreichend symmetrisch ist. Das bedeutet, dass die Sprachkomponente der Ausgabesignale der Rückkopplungsmikrofone im Wesentlichen in ihrer Amplitude und Phase identisch sind, wenn der Nutzer spricht, und im Wesentlichen unterschiedlich sind, wenn der Nutzer nicht spricht. Mit anderen Worten haben die Ausgabesignale der Rückkopplungsmikrofone in etwa den gleichen Sprachdatenanteil und weisen daher eine hohe Kohärenz (in der Phasenbeziehung) auf, wenn der Nutzer spricht. Darüber hinaus ist der Abstand von Umgebungsgeräuschquellen zu den zwei Mikrofonen üblicherweise nicht gleich bzw. Asymmetrisch, wie durch die Pfade P1 und P2 in 1 angedeutet, was bedeutet, dass die Kohärenz in der Phase gedreht sein wird. Es kann immer noch Kohärenz vorliegen, das heißt, dass die Amplitude nahe bei 1 liegt, aber der Winkel nicht 0 ist, was auf eine Situation mit Phasengleichlauf hindeutet.The first method takes advantage of the insight that acoustic paths 104A and 104B through the head of the user generally have the same length and are essentially similar in material composition, since the head of the user is sufficiently symmetrical. This means that the speech component of the output signals of the feedback microphones are essentially identical in amplitude and phase when the user speaks and are essentially different when the user is not speaking. In other words, the output signals of the feedback microphones have approximately the same voice data portion and therefore have a high coherence (in the phase relationship) when the user speaks. In addition, the distance from ambient noise sources to the two microphones is usually not the same or asymmetrical as through the paths P1 and P2 in 1 indicated, which means that the coherence will be rotated in the phase. There may still be coherence, which means that the amplitude is close to 1, but the angle is not 0, which indicates a situation with phase synchronization.

Daher nutzt die beispielhafte Ausführungsform die komplexe Kohärenz der linken und rechten Rückkopplungsfehlermikrofonsignale FBL und FBR in einem Schwellwerttest, um zu ermitteln, ob Nutzerstimmaktivität vermutlich vorliegt oder nicht. Falls das Schwellwertkriterium erfüllt ist, wird ein Stummschaltungsbefehlssignal erzeugt, um das Modul 136 stumm zu schalten, und falls nicht, werden Befehlssignale zur Aufhebung der Stummschaltung bereitgestellt. Genauer gesagt, nimmt der Schwelltest folgende Form an:Therefore, the exemplary embodiment uses the complex coherence of the left and right feedback error microphone signals FBL and FBR in a threshold test to determine whether user voice activity is likely to be present or not. If the threshold criterion is met, a mute command signal is generated to the module 136 mute, and if not, command signals to unmute are provided. More specifically, the swell test takes the following form:

If mean(real(Cxy(freq_range))) > CT then Unmute; else Mute,
wobei mean() eine Mittelwertsfunktion (über die Frequenz) bezeichnet; real() den Realteil eines komplexen Arguments bezeichnet; Cxy(freq_range) die komplexe Kohärenz der Signale x und y über einen mit freq_range benannten Frequenzbereich bezeichnet; tiefgestelltes x das FBL-Fehlermikrofonsignal (linkes Rückkopplungsmikrofonsignal, FBA) und tiefgestelltes y das FBR-Fehlermikrofonsignal (rechtes Rückkopplungsmikrofonsignal, FBB) bezeichnet; CT den Kohärenzschwellwert bezeichnet. Der Realteil der komplexen Kohärenz Cxy wird deswegen verwendet, weil er ein Maß dafür ist, wie „phasengleich“ die zwei Signale sind. Merke: abs(Cxy) beträgt 1, falls nur ein Mittelwert ermittelt wird, aber dies kann nach wie vor nützlich sein, da die wichtige Information immer noch in der Phase steckt. Der freq_range, über welchen der Mittelwert berechnet wird, kann variieren. Allerdings können einige Ausführungsformen einen Bereich von 70 bis 700 Hz oder 100 bis 500 Hz nutzen, da die Körperschallakustik des menschlichen Larynx hauptsächlich tiefe Frequenzen umfasst. Auf eine Indikation von dem Cxy-Detektor hin, dass der Nutzer nicht spricht (dass Sprachäußerungen des Nutzers nicht vorhanden sind), schaltet die beispielhafte Ausführungsform die Ausgabesignal von einem oder mehreren Mikrofonen stumm oder dämpft selbige, wie etwa von dem Sprachmikrofon und/oder den Vorsteuerungsmikrofonen, unter Nutzung des Stummschaltungsmoduls 136.
If mean (real (C xy (freq_range)))> CT then Unmute; else mute,
where mean () denotes an average function (over frequency); real () denotes the real part of a complex argument; C xy (freq_range) denotes the complex coherence of the signals x and y over a frequency range named freq_range; subscript x denotes the FBL error microphone signal (left feedback microphone signal, FBA) and subscript y denotes the FBR error microphone signal (right feedback microphone signal, FBB); CT denotes the coherence threshold. The real part of the complex coherence C xy is used because it is a measure of how "in phase" the two signals are. Note: abs (C xy ) is 1 if only an average is found, but this can still be useful as the important information is still in the phase. The freq_range over which the mean is calculated can vary. However, some embodiments can use a range of 70 to 700 Hz or 100 to 500 Hz because the structure-borne acoustic of the human larynx mainly comprises low frequencies. In response to an indication from the C xy detector that the user is not speaking (that the user's speech is not available), the exemplary embodiment mutes or attenuates the output signal from one or more microphones, such as from the speech microphone and / or the pre-control microphones, using the mute module 136 ,

In einigen Ausführungsformen kann der Kohärenzschwellwert CT im Bereich zwischen 0,7 und inklusive 0,9 liegen, mit leichten Abweichungen in der Performance. Wenn man ihn zu nahe an 1 setzt, wird der Detektor anfälliger gegenüber dem Erkennen falscher Negative (Sprachäußerungen nicht erkannt, wenn sie vorhanden sind), falls es erhebliche Hintergrundgeräusche gibt; und wenn man ihn zu niedrig ansetzt, treten mehr falsch Positive auf (das heißt, Stummschaltung, auch wenn keine Sprachäußerung vorliegt). In einigen Ausführungsformen kann der Kohärenzschwellwert dynamisch angepasst werden, basierend auf System- oder Umgebungsparametern, wie etwa Signal-zu-Rausch-Verhältnis (von Sprachsignalen). Das bedeutet, dass im Falle stärkerer Sprache gegenüber dem Rauschen einige Ausführungsformen den Schwellwert näher an 1 heran setzen, zum Beispiel auf 0,9, und dass im Falle starken Rauschens, jene Ausführungsformen das Schwellwertniveau senken, um es zu vermeiden, dass Sprachäußerungen des Nutzers stumm geschaltet werden. Ein beispielhafter Schwellwert zwischen 0,7 und 0,8, wie etwa 0,75, stellt einen guten Kompromiss dar.In some embodiments, the coherence threshold CT may range between 0.7 and 0.9 inclusive, with slight variations in performance. If you set it too close to 1, the detector becomes more susceptible to recognizing false negatives (utterances are not recognized if they are present) if there is significant background noise; and if you set it too low, there are more false positives (that is, muting even when there is no utterance). In some embodiments, the coherency threshold may be adjusted dynamically based on system or environmental parameters, such as signal-to-noise ratio (of speech signals). That is, in the case of stronger speech versus noise, some embodiments move the threshold closer to 1, for example, 0.9, and in the case of strong noise, those embodiments lower the threshold level to avoid user speech can be muted. An exemplary threshold between 0.7 and 0.8, such as 0.75, is a good compromise.

Dieser auf einer Links-Rechts-Symmetrie basierende Ansatz ist wirksam, kann aber gegenüber auf der Achse liegenden Umgebungsgeräuschen anfällig sein, welche beispielsweise auftreten können, falls sich ein zweiter Sprecher auf einer Achse mit dem Nutzer befindet (oder im Allgemeinen in gleichem Abstand zu sowohl linken als auch rechtem Ohrstück). Der Ansatz leidet auch an schlechtem Signal-zu-Rausch-Verhältnis („signal-to-noise ratio“, SNR). Auf der Achse liegende Geräusche werden hohe Kohärenz an den Rückkopplungsfehlermikrofonen verursachen und daher fälschlicherweise als Sprache erkannt werden. Interessanterweise, besteht eine Möglichkeit zum Nachweis dieser Anfälligkeit darin, ein Headset, welches diese UVAD-Taktik verfolgt (beispielsweise mit links- und rechtsseitigen Vorsteuerungsmikrofonen oder links- und rechtsseitigen Rückkopplungsmikrofonen, oder allgemein gesprochen mit zwei Mikrofonen, die so eingerichtet sind, dass sie ungefähr gleich zum Vokaltrakt beabstandet sind), auf einen konventionellen Kopf-und-Torso-Simulator („Head and Torso Simulator“, HATS) wie etwa dem durch Brüel & Kjaer Sound & Vibration Measurement A/S in Naerum, Dänemark, hergestellten B&K Type 4128-C simulator, einzusetzen. Die Headsets können dann dabei beobachtet werden, wie sie sich als Reaktion auf von den Mikrofonen ungefähr gleich beabstandete Geräuschquellen, wie beispielsweise direkt vor, hinter oder über dem HATS, automatisch in Stummschaltung versetzen.This approach, based on left-right symmetry, is effective, but can be susceptible to on-axis ambient noise, which can occur, for example, if a second speaker is on an axis with the user (or generally equidistant from both) left and right ear piece). The approach also suffers from a poor signal-to-noise ratio (SNR). Noise on the axis will cause high coherence at the feedback error microphones and will therefore be mistakenly recognized as speech. Interestingly, one way to demonstrate this vulnerability is to have a headset that follows this UVAD tactic (for example, with left and right-hand pilot microphones or left and right-hand feedback microphones, or generally speaking with two microphones that are set up to approximate are directly spaced from the vocal tract), on a conventional head and torso simulator ("Head and Torso Simulator", HATS) such as the B&K Type 4128 manufactured by Brüel & Kjaer Sound & Vibration Measurement A / S in Naerum, Denmark -C simulator. The headsets can then be observed as they automatically mute in response to noise sources approximately equally spaced from the microphones, such as directly in front of, behind, or above the HATS.

Um auf der Achse liegende Umgebungsgeräuschquellen, wie etwa Sprachäußerungen durch einen anderen als den Nutzer, zu unterdrücken und eine bessere Leistungsfähigkeit in lauten Umgebungen zu ermöglichen, nutzen einige Ausführungsformen ein zweites Verfahren zur Nutzerstimmaktivitätserfassung, welches den zusätzlichen Vorteil hat, dass es auch für Systeme mit einem einzelnen Ohrstück nützlich ist, oder generell gesprochen für jede Situation, in der zwei Mikrofone eine asymmetrische Kopplung an den Nutzer und die Umgebungsgeräusche aufweisen. Dieses Verfahren nutzt die Einsicht, dass die Menge an Energie, die an den Rückkopplungsmikrofonen (allgemein gesprochen, an dem Mikrofon mit der besseren akustischen Kopplung an den Vokaltrakt des Nutzers) ankommt, erheblich größer ist als diejenige, die an den Vorsteuerungsmikrofonen ankommt, wenn der Nutzer spricht, aufgrund der Asymmetrie in den akustischen Pfaden der Stimmsignale zu den Rückkopplungs- und Vorsteuerungsmikrofonen. Die Rückkopplungsmikrofone werden in der vorderseitigen Kavität der Ohrstücke in oder nahe bei dem Gehörgang des Nutzers platziert. Mit dieser Platzierung empfangen die Rückkopplungsmikrofone Energie aus der Stimme des Nutzers über Knochenleitungspfade 104A und 104B mit sehr geringer Dämpfung und Umgebungsgeräusche über Luftleitung mit starker Dämpfung aufgrund der Versiegelung die üblicherweise in ANR-Systemen vorhanden ist. Daher ist das Verhältnis der Ausgabesignale der Vorsteuerungsmikrofone zu den Rückkopplungsmikrofonen (FB/FF Energieverhältnis) bei Vorhandensein einer Stimme eines Nutzers viel höher als dasjenige der Umgebungsgeräusche ohne Sprachäußerungen, unabhängig von der Richtung der Umgebungsgeräusche. Dazu bestimmen einige Ausführungsformen Nutzerstimmaktivität gemäß der folgenden Logik:

If FB_left/FF_left < DT then Mute; else Unmute,
wobei FB_left/FF_left das Verhältnis der Energie im Ausgabesignal des linken Rückkopplungsmikrofons (FBA) zu der Energie im Ausgabesignal des linken Vorsteuerungsmikrofons (FFA) bezeichnet, und DT einen ausgewählten Erfassungsschwellwert für die Sprachäußerungen des Nutzers bezeichnet. In dieser Ausführungsform ist DT plattformunabhängig; allerdings wird im Allgemeinen, wenn der Nutzer spricht, das Verhältnis gegenüber der Abwesenheit von Sprache merklich ansteigen. (Das Verhältnis ist ein Übertragungsverhältnis, und in diesem Fall eine reelle Zahl.)In order to suppress on-axis ambient noise sources, such as utterances by other than the user, and to enable better performance in noisy environments, some embodiments use a second method for user voice activity detection, which has the additional advantage that it is also suitable for systems with a single ear piece is useful, or generally speaking for any situation in which two microphones have an asymmetrical coupling to the user and the ambient noise. This method takes advantage of the insight that the amount of energy that arrives at the feedback microphones (generally speaking, the microphone with the better acoustic coupling to the vocal tract of the user) is considerably greater than that which arrives at the pilot microphones when the User speaks due to the asymmetry in the acoustic paths of the voice signals to the feedback and pilot microphones. The feedback microphones are placed in the front cavity of the earpieces in or near the user's ear canal. With this placement, the feedback microphones receive energy from the user's voice via bone conduction paths 104A and 104B with very low damping and ambient noise via air line with strong damping due to the seal that is usually present in ANR systems. Therefore, the ratio of the output signals of the pilot microphones to the feedback microphones (FB / FF energy ratio) in the presence of a user's voice is much higher than that of Ambient noises without speech, regardless of the direction of the surrounding noises. To do this, some embodiments determine user voice activity according to the following logic:
 If FB_left / FF_left <DT then Mute; else displeasure, 
where FB_left / FF_left denotes the ratio of the energy in the output signal of the left feedback microphone (FBA) to the energy in the output signal of the left feedforward microphone (FFA), and DT denotes a selected detection threshold for the speech utterances of the user. In this embodiment, DT is platform independent; however, generally, when the user speaks, the ratio to the absence of language will increase markedly. (The ratio is a transfer ratio, and in this case a real number.)

Insbesondere können einige Ausführungsformen ein komplexwertige Übertragungsverhältnis nutzen, welches sowohl Amplituden- als auch Phaseninformationen beinhaltet, und dadurch eine bessere Leistungsfähigkeit bieten. Bei der Berücksichtigung eines Schwellwertes in diesem komplexen Fall, ist der Schwellwert kein Skalar mehr, sondern eine Linie (vielleicht gebogen oder abschnittsweise zusammengesetzt), die die komplexe Ebene durchschneidet. Beispielsweise könnte eine Linie für Werte des Imaginärteils von mehr als 0 einen Schwellwert darstellen. Oder der Schwellwert könnte sein, dass positive Realteile und Imaginärteile Sprachäußerungen kennzeichnen, wobei ein Quadrant der komplexen Ebene abgeteilt wird. Man beachte, dass einige Ausführungsformen die rechtsseitigen Rückkopplungs- und Vorsteuerungsmikrofone und nicht die linksseitigen nutzen können. Weitere Ausführungsformen können automatisch bestimmen, ob das rechte oder das linke Ohrstück benutzt werden soll. Falls beispielsweise das linke Ohrstück entfernt wird, ermittelt eine Schaltung zur Erfassung eines Ohrenaufliegens („on-ear detection“, OED), dass nur das rechtsseitige Ohrstück aufliegt, und betreibt das Stimmerfassungsmodul in Abhängigkeit von den rechtsseitigen Rückkopplungs- und Vorsteuerungsmikrofonen.In particular, some embodiments can use a complex valued transmission ratio that includes both amplitude and phase information, and thereby offer better performance. When a threshold value is taken into account in this complex case, the threshold value is no longer a scalar, but rather a line (perhaps curved or composed in sections) that intersects the complex level. For example, a line for values of the imaginary part greater than 0 could represent a threshold. Or the threshold could be that positive real parts and imaginary parts identify utterances, dividing a quadrant of the complex level. Note that some embodiments can use the right-hand side feedback and feedforward microphones and not the left-hand side. Other embodiments can automatically determine whether the right or left earpiece should be used. If, for example, the left ear piece is removed, an on-ear detection (OED) circuit detects that only the right ear piece is on and operates the voice recording module depending on the right-hand feedback and feedforward microphones.

Bei der Bestimmung der Energiepegel in den Ausgabesignalen der Rückkopplungs- und Vorsteuerungsmikrofone kann eine komplexe Übertragungsfunktion (TF) Txy gemäß T xy = S xy / S xx ,

Figure DE112018000717T5_0001
ausgewertet werden, wobei Sxy die Interkorrelationsspektraldichte zwischen x und y, und Sxx die Leistungsspektraldichte von x ist. Damit kann Sxy über FFTs gemäß dem folgenden Schema bestimmt werden: S xy_hat = sum ( fft ( y ) * conjugate ( fft ( x ) ) / sum ( fft ( x ) * conj ( fft ( x ) * conj ( fft ( x ) ) .
Figure DE112018000717T5_0002
Oder, falls nur eine FFT genutzt wird (ohne Mittelwertbildung), wird Txy definiert als T xy = fft ( y ) / fft ( x )
Figure DE112018000717T5_0003
Für das Verhältnis von FB-Energie (Rückkopplungsmikrofon) zu FF-Energie (Vorsteuerungsmikrofon) ist x das linke Vorsteuerungsmikrofonsignal ffL (FFA) und y das linke Rückkopplungsmikrofonsignal fbL (FBA). Das Verhältnis von FB-Energie zu FF-energie beträgt tatsächlich |Tff2fb|2.A complex transfer function (TF) can be used to determine the energy levels in the output signals of the feedback and feedforward microphones. T xy according to T xy = S xy / S xx .
Figure DE112018000717T5_0001
are evaluated, where Sxy is the intercorrelation spectral density between x and y, and S xx is the power spectral density of x. Sxy can thus be determined using FFTs according to the following scheme: S xy_hat = sum ( fft ( y ) * conjugate ( fft ( x ) ) / sum ( fft ( x ) * conj ( fft ( x ) * conj ( fft ( x ) ) ,
Figure DE112018000717T5_0002
Or, if only one FFT is used (without averaging), T xy defined as T xy = fft ( y ) / fft ( x )
Figure DE112018000717T5_0003
For the ratio of FB energy (feedback microphone) to FF energy (pilot microphone), x is the left pilot microphone signal ffL (FFA) and y is the left feedback microphone signal fbL (FBA). The ratio of FB energy to FF energy is actually | Tff2fb | 2.

Das bedeutet, dass in Ausführungsformen, die FFTs als Kernstück nutzen, das Verhältnis des quadrierten Absolutwertes des FFT-Ergebnisses mit einem Schwellwert in Relation gesetzt werden kann. Oder, falls man eine Implementierung ohne FFTs nutzt, es könnte einfach ein fließendes Mittel der abgetasteten Zeitsignale berechnet werden, nachdem es durch einen Bandpassfilter geschoben worden ist, um ähnliche Ergebnisse zu erzielen. Unter Nutzung der komplexen Transferfunktionsschätzung (Txy..) kann man die Vorteile der aussagekräftigen Phaseninformation nutzen.This means that in embodiments that use FFTs as the core, the ratio of the squared absolute value of the FFT result can be related to a threshold value. Or, if one uses an implementation without FFTs, a moving average of the sampled time signals could simply be calculated after being passed through a bandpass filter to achieve similar results. Using the complex transfer function estimation (Txy ..) one can take advantage of the meaningful phase information.

Der Erfassungsschwellwert DT wird im Allgemeinen in Abhängigkeit der physischen Ausgestaltungsform der Ohrstücke und der Qualität der Verkapselung, die sie für das vorderseitige Kavitätsvolumen bereitstellen, festgelegt. Bei guten ANC-Kopfhörern ist eine Dämpfung von 20dB zu erwarten, wenn der Nutzer nicht spricht. Diese steigt wegen des Knochenleitmechanismus auf etwa 0dB an, wenn der Nutzer spricht.The detection threshold DT is generally determined depending on the physical design of the ear pieces and the quality of the encapsulation that they provide for the front cavity volume. With good ANC headphones, attenuation of 20dB is expected if the user does not speak. Because of the bone conduction mechanism, this increases to around 0dB when the user speaks.

Jedoch ist der Grad der Veränderung für Im-Ohr-Kopfhörer ausgeprägter, für ohrenaufliegende Kopfhörer weniger stark ausgeprägt, und am wenigsten stark ausgeprägt für ohrenumschließende Kopfhörer, was bedeutet, dass für jede Art von Headset unterschiedliche Schwellwerte genutzt werden. Beispielsweise ist es bei ITE-Kopfhörern bei bestimmten Frequenzen, wie etwa 100 Hz, zu erwarten, dass in etwa 20dB bis 30dB mehr Schalldruck im bedeckten Ohr (FB-Mikrofon) als außerhalb (FF-Mikrofon) aufgrund von Sprachäußerungen des Nutzers auftritt. Dieser Effekt kann in ohrenumschließenden Kopfhörern ausgenutzt werden, aber der Unterschied bei In-Ohr-Kopfhörern in Bezug auf den Schalldruck von Sprachäußerungen bei 100 Hz gemessen an dem externen Schalldruck am Vorsteuerungsmikrofon beträgt vielleicht nur ein paar Dezibel. However, the degree of change is more pronounced for in-ear headphones, less pronounced for on-ear headphones, and least pronounced for circumaural headphones, which means that different threshold values are used for each type of headset. For example, it is to be expected with ITE headphones at certain frequencies, such as 100 Hz, that about 20dB to 30dB more sound pressure occurs in the covered ear (FB microphone) than outside (FF microphone) due to the user's utterance. This effect can be exploited in circumaural headphones, but the difference in in-ear headphones in terms of the sound pressure of utterances at 100 Hz compared to the external sound pressure at the pilot microphone may be only a few decibels.

Einige Ausführungsformen können den Schwellwert auch dynamisch variieren, in Abhängigkeit von gemessenen Parametern wie etwa dem Umgebungsrauschen oder mittleren Signal-zu-Rausch-Verhältnissen, oder alternativ dazu dem Nutzer einen Anpassungsmechanismus über eine beispielsweise von dem Gerät 140 gehostete Applikation bereitstellen. Einige Ausführungsformen nutzen einen dynamischen Erfassungsschwellwert, weil das Verhältnis von FB zu FF eine Funktion der Gesamtdämpfung innerhalb des ANC-Headsets ist und daher über einen recht breiten Bereich variieren kann. In einer Ausführungsform wird der Erfassungsschwellwert während der zweiohrigen intelligenten Stummschaltungszeitspanne geschätzt, insbesondere als Funktion des gleitenden Mittelwerts der Energie für eine Stummschaltung und des gleitenden Mittelwerts der Energie für eine Aufhebung der Stummschaltung. Einige Ausführungsformen messen die aktive und passive Dämpfung des Systems, so dass der Schwellwert letztlich eine Funktion der aktiven Dämpfung ist.Some embodiments can also vary the threshold value dynamically, depending on measured parameters such as the ambient noise or average signal-to-noise ratios, or alternatively to the user an adaptation mechanism via, for example, the device 140 Provide hosted application. Some embodiments use a dynamic detection threshold because the FB to FF ratio is a function of the total attenuation within the ANC headset and can therefore vary over a fairly wide range. In one embodiment, the detection threshold is estimated during the two-year intelligent mute period, particularly as a function of the moving average of energy for muting and the moving average of energy for unmuting. Some embodiments measure the system's active and passive damping so that the threshold is ultimately a function of active damping.

Zu Zwecken der TF-Schätzung aktualisieren einige Ausführungsformen den Mittelwert unter bestimmten Bedingungen. Einige Ausführungsformen erkennen auch, dass das Rückkopplungsmikrofonsignal mehrere Komponenten aufweist, nämlich Audioeingangssignal Rx (vom Gerät 140), Umgebungsgeräusche, Nutzersprachäußerungen und gemessenes Rauschen. Dies stellt gute Signalpegel sicher, die mit dem Umgebungsrauschen nicht korrelieren. Alternativ dazu können einige Ausführungsformen zu Zwecken der Schätzung der Rauschübertragungsfunktion den Mittelwert aktualisieren, wenn das Verhältnis der Energie von FB zu FF niedrig oder in hohem Maße korreliert ist, so dass sichergestellt wird, dass die TF-Schätzungen schneller konvergieren als sie ansonsten konvergieren würden.For TF estimation purposes, some embodiments update the mean under certain conditions. Some embodiments also recognize that the feedback microphone signal has several components, namely audio input signal Rx (from the device 140 ), Ambient noise, user utterances and measured noise. This ensures good signal levels that do not correlate with the ambient noise. Alternatively, for purposes of estimating the noise transfer function, some embodiments may update the mean when the FB to FF energy ratio is low or highly correlated to ensure that the TF estimates converge faster than they would otherwise.

Dieser zweite Ansatz für eine Nutzerstimmaktivitätserfassung („user voice activity detection“, UVAD), der auf der komplexen Übertragungscharakteristik innerhalb eines bestimmten Frequenzbereiches basiert, wird als besonders stabil angenommen, wenn er mit jeglichen zwei Mikrofonen genutzt wird, die eine Übertragungscharakteristik mit den nachfolgenden Randbedingungen aufweisen. Die erste Randbedingung ist, dass sich die Übertragungscharakteristik bei Sprachäußerungen verglichen mit Interferenzen in erheblicher Weise ändert. Die zweite Randbedingung ist, dass die Übertragungscharakteristik bei Änderungen in der relativen Richtung der Interferenzen relativ aussagekräftig (d.h. relativ eindeutig) bleibt. Diese Randbedingungen können mit den Vorsteuerungs- und Rückkopplungsmikrofonen in einem In-Ohr-Headset (und in anderen Situationen, in denen ein Mikrofon stärker an den Vokaltrakt des Nutzers ankoppelt als das andere) eingehalten werden.This second approach for user voice activity detection (UVAD), which is based on the complex transmission characteristics within a certain frequency range, is assumed to be particularly stable if it is used with any two microphones that have a transmission characteristic with the following constraints exhibit. The first constraint is that the transmission characteristics of speech utterances change significantly compared to interference. The second constraint is that the transfer characteristic remains relatively meaningful (i.e., relatively unambiguous) when there are changes in the relative direction of the interference. These boundary conditions can be met with the feedforward and feedback microphones in an in-ear headset (and in other situations in which one microphone is more connected to the user's vocal tract than the other).

Das Ausgabesignal für Umgebungsschalldruck am Umgebungsmikrofon reagiert auf Umgebungsgeräusche zuerst und hat aus zweierlei Gründen die führende Phase in Bezug auf das an die Ohren ankoppelnde Vorsteuerungsmikrofon. Zum einen ist es direkt an die Umgebung angekoppelt und üblicherweise in der akustischen Pfadlänge näher an der Geräuschquelle. Zum anderen hat ein übliches Ohrstück eines Headsets eine gewisse passive Dämpfung, so dass es mehr oder weniger wie eine Art Tiefpassfilter wirkt, d.h. es macht keinen Unterschied bei sehr geringen Frequenzen, aber dämpft das an die Ohren ankoppelnde Mikrofon (FB-Mikrofon) umso erheblicher, je höher die Frequenz. Alle kausalen Tiefpassfilter induzieren einen Phasenversatz, und alle physischen Filter sind kausal.The output signal for ambient sound pressure on the ambient microphone responds first to ambient noise and has the leading phase in relation to the pilot microphone coupled to the ears for two reasons. On the one hand, it is directly coupled to the environment and usually closer to the noise source in terms of the acoustic path length. On the other hand, a common earpiece of a headset has a certain passive attenuation, so that it acts more or less like a kind of low-pass filter, i.e. it makes no difference at very low frequencies, but the higher the frequency attenuates the microphone (FB microphone), which is coupled to the ears. All causal low pass filters induce a phase shift, and all physical filters are causal.

Für Sprachäußerungen eines Nutzers gibt es neben dem akustischen Pfad vom Mund des Nutzers zum Ohr und von dort zum an die Ohren ankoppelnden Mikrofon einen weiteren Pfad von den Stimmbändern durch den Körper. Die Schallgeschwindigkeit durch den Körper ist erheblich höher, ungefähr vier- bis fünfmal höher, oder auch unter einer Millisekunde gegenüber etwa 3 bis 4,5 Millisekunden. (Die Schallgeschwindigkeit in Luft ist etwa 340 Meter pro Sekunde; in Muskelfleisch grob gesagt 1500 Meter pro Sekunde; und in Schädel und Knochen über 4000 Meter pro Sekunde). Demzufolge kommt der Schall von einer Sprachäußerung eines Nutzers, der durch den Körper des Nutzers geleitet wird, viel früher an, als das über den Mund und über die Luft übertragene akustische Signal.In addition to the acoustic path from the mouth of the user to the ear and from there to the microphone coupling to the ears, there is a further path from the vocal cords through the body for a user's utterances. The speed of sound through the body is considerably higher, about four to five times higher, or even under one millisecond compared to about 3 to 4.5 milliseconds. (The speed of sound in air is about 340 meters per second; roughly 1500 meters per second in muscle meat; and over 4000 meters per second in skull and bones). As a result, the sound from a user's speech uttered through the user's body arrives much earlier than the acoustic signal transmitted through the mouth and through the air.

Beim Blick auf Übertragungscharakteristiken zwischen einem an die Umgebung ankoppelnden und einem an die Ohren ankoppelnden Mikrofon aus nächster Nähe, wird das Umgebungsmikrofon gegenüber an die Ohren ankoppelnden Mikrofonen immer führen, unabhängig von der Ankunftsrichtung. Bei Sprachäußerungen eines Nutzers wird das die Ohren ankoppelnde Mikrofon immer gegenüber dem an die Umgebung ankoppelnden Mikrofon führen. Daher erkennt man deutlich, dass die Asymmetrie in der komplexen Transferfunktion (oder jeder anderen Basis) und die weitgehende Unempfindlichkeit gegenüber einer Richtung der Interferenzen für an die Umgebung und an die Ohren ankoppelnden Mikrofonen bei demselben Ohr viel besser geeignet ist.When looking at transmission characteristics between a microphone coupling to the environment and a microphone coupling to the ears at close range, the ambient microphone is opposite to the Always guide the ear-coupling microphones, regardless of the direction of arrival. When a user uttered speech, the microphone coupling the ears will always lead opposite the microphone coupling to the surroundings. It is therefore clear to see that the asymmetry in the complex transfer function (or any other basis) and the largely insensitivity to a direction of the interference is much more suitable for microphones coupling to the surroundings and to the ears in the same ear.

Um den Knochenleitungspfad bei dem an die Ohren ankoppelnden Mikrofon, hier Rückkopplungsmikrofon FB genannt, bestmöglich auszunutzen, berücksichtigen einige Ausführungsformen eingehende Audiosignale „Rx“ von einem externen Gerät, wie etwa dem Gerät 140. (In einigen Ausführungsformen kann Rx mit einem oder mehreren intern erzeugten Benachrichtigungssignalen, wie etwa Piepsern, Systemereignistönen, Meldungstönen etc. gemischt werden.) Diese eingehenden Audiosignale werden üblicherweise Charakteristika aufweisen, die knochengeleiteten Sprachäußerungen stark ähneln, was bedeutet, dass sie eine viel stärkere FB-Mikrofon-Amplitude aufweisen als die Amplitude des Umgebungsmikrofons (Vorsteuerungsmikrofon, FF) und somit fälschliche Erfassungen von Nutzersprachäußerungen begünstigen können.In order to make the best possible use of the bone conduction path in the microphone coupling to the ears, here called the feedback microphone FB, some embodiments take into account incoming audio signals “Rx” from an external device, such as the device 140 , (In some embodiments, Rx may be mixed with one or more internally generated notification signals, such as beeps, system event tones, message tones, etc.) These incoming audio signals will typically have characteristics that closely resemble bone-guided utterances, meaning that they have a much stronger FB -Microphone amplitude than the amplitude of the surrounding microphone (pilot microphone, FF) and thus can favor false detections of user utterances.

Ein Ansatz, um diesem Problem zu begegnen, besteht darin, einen Rx-Unterdrücker zu nutzen, welcher auf mathematische Weise den Effekt des Rx-Signal auf die UVAD-Berechnungen löscht oder beseitigt. Die beispielhafte Ausführungsform nutzt einen Rx-Unterdrücker durch Zerlegung des FB-Signals wie folgt: fb = fb Rx + fb ambient + fb speech_BC ,

Figure DE112018000717T5_0004
wobei:

  • fbRx das durch das Rx-Signal verursachte FB-Mikrofonsignal ist, welches von dem an die Ohren ankoppelnden Lautsprecher abgespielt wird;
  • fbambient das durch das Umgebungsrauschen verursachte FB-Mikrofonsignal ist; und
  • fbspeech_BC das durch Knochenleitung verursachte FB-Mikrofonsignal ist.
One approach to addressing this problem is to use an Rx suppressor that mathematically clears or eliminates the effect of the Rx signal on the UVAD calculations. The exemplary embodiment uses an Rx suppressor by decomposing the FB signal as follows: fb = fb Rx + fb ambient + fb speech_BC .
Figure DE112018000717T5_0004
in which:
  • fb Rx is the FB microphone signal caused by the Rx signal, which is played by the loudspeaker coupled to the ears;
  • fb ambient is the FB microphone signal caused by the ambient noise; and
  • fb speech_BC is the FB microphone signal caused by bone conduction.

Man kann fbRx und fbambient auch weiterhin wie folgt definieren: fb RX = Rx * T rx2fb ;

Figure DE112018000717T5_0005
fb ambient = ff * T ff2fb ;
Figure DE112018000717T5_0006
wobei Trx2tb die Übertragungsfunktion von Rx an das FB-Mikrofon ist, bei dem alle anderen Eingaben Null sind, und Tff2fb die Übertragungsfunktion von dem FF-Mikrofon an das FB-Mikrofon ist, ohne Einfluss von Sprachäußerungen oder Rx und nur durch Rauschen induziert. Trx2fb und Tff2fb können mit verschiedenen Verfahren geschätzt werden. Beispielsweise können einige Ausführungsformen einen Kalmanfilter oder eine herkömmliche Schätzung in Abhängigkeit der Autokorrelations- und der Interkorrelationsspektren nutzen, unter Berücksichtigung, dass beispielsweise die Mittelwerte für Tff2fb, wenn Rx vorhanden ist, nicht aktualisiert werden. Es muss auch dafür Sorge getragen werden, nicht die Schätzungen zu aktualisieren, wenn Sprachäußerungen des Nutzers getätigt werden, aber dies ist ein viel entspannteres Problem, da der UVAD für diesen Schritt nicht alle Sprachäußerungen aufnehmen muss, sondern lediglich mit hoher Konfidenz annehmen muss, dass Sprachäußerungen nicht getätigt worden sind.You can still define fb Rx and fb ambient as follows: fb RX = Rx * T rx2fb ;
Figure DE112018000717T5_0005
fb ambient = ff * T ff2fb ;
Figure DE112018000717T5_0006
where T rx2tb is the transfer function from Rx to the FB microphone, for which all other inputs are zero, and T ff2fb is the transfer function from the FF microphone to the FB microphone, without the influence of speech or Rx and only induced by noise , T rx2fb and T ff2fb can be estimated using different methods. For example, some embodiments may use a Kalman filter or a conventional estimate depending on the autocorrelation and intercorrelation spectra, considering that, for example, the mean values for Tff2fb, if Rx is present, are not updated. Care must also be taken not to update the estimates when the user's speech is uttered, but this is a much more relaxed problem since the UVAD does not have to record all the utterances for this step, but only has to assume with high confidence that Speeches have not been made.

Sobald die Schätzungen für diese primär statischen Übertragungsfunktionen verfügbar sind, kann man sie dazu benutzen, das fbspeech_BC-Signal in nahezu Echtzeit zu schätzen. Die Schätzungen von Trx2fb und Tff2fb würden über die Zeit gemittelt werden. Die beispielhafte Ausführungsform nutzt schnelle Fouriertransformationen (FFTs), um die Schätzungen zu berechnen, aber in einigen Ausführungsformen kann jedwede Basis verwendet werden, die den die Knochenleitungsinformationen enthaltenden Unterraum hinreichend gut abdeckt.Once the estimates for these primarily static transfer functions are available, they can be used to estimate the fb speech_BC signal in near real time. The Trx2fb and Tff2fb estimates would be averaged over time. The exemplary embodiment uses Fast Fourier Transforms (FFTs) to compute the estimates, but in some embodiments, any base that covers the subspace containing the bone conduction information well may be used.

Wenn man Trx2fb und Tff2fb kennt, kann man fbspeech_BC ausdrücken als: fb speech_BC = fb fb Rx fb ambient

Figure DE112018000717T5_0007
oder als fb speech_BC = fb Rx * T rx2fb ff * T ff2fb
Figure DE112018000717T5_0008
wobei fb speech_BC die Schätzung von fbspeech_BC ist.If you know Trx2fb and Tff2fb, you can express fb speech_BC as: fb speech_BC = fb - fb Rx - fb ambient
Figure DE112018000717T5_0007
or as fb speech_BC = fb - Rx * T rx2fb - ff * T ff2fb
Figure DE112018000717T5_0008
where fb speech_BC is the estimate of fb speech_BC .

Daher wird die Nutzerspracherfassung in Abhängigkeit von einem geschätzten Signal durchgeführt, welches hauptsächlich interferenzfrei von Umgebungsgeräuschen und eingehenden Audiosignalen ist.Therefore, the user speech detection is carried out depending on an estimated signal, which is mainly interference-free from ambient noise and incoming audio signals.

Bemerkenswerterweise stützt sich diese Version des asymmetrischen Ansatzes (unter Nutzung der Rückkopplungs- und Vorsteuerungsmikrofone auf derselben Seite) auf den Knochenleitungspfad zwischen dem Vokaltrakt des Nutzers und dem Rückkopplungsmikrofon. Daher würde die Platzierung eines dieses asymmetrischen Ansatz verfolgenden Headsets auf einem konventionellen HATS (wie etwa der oben erwähnte B&K 4128-C-Simulator) im Allgemeinen einen vernünftigen Betrieb des UVADs verhindern, da konventionelle HATS keinen Knochenleitungspfad aufweisen. Mit anderen Worten, würde das auf dem HATS aufgesetzte Headset in Abhängigkeit von einem an das HATS eingegebenen Nutzerstimmsignals im entsprechenden Frequenzbereich nicht in der Lage sein, in geeigneter Weise die Stummschaltung zu aktivieren und zu deaktivieren (oder auf andere Weise die Nutzerstimmaktivität korrekt zu erfassen). (Ein Pfad von dem Vokaltrakt zu dem Rückkopplungsmikrofon würde aufgrund von Vibrationen existieren, aber dieser Pfad würde nur sehr schwach im Vergleich zu einer echten Knochenleitung angekoppelt sein.)Remarkably, this version of the asymmetrical approach (using the feedback and feedforward microphones on the same side) relies on the bone conduction path between the user's vocal tract and the feedback microphone. Therefore, placing a headset using this asymmetrical approach on a conventional HATS (such as the B&K 4128-C simulator mentioned above) would generally prevent the UVAD from operating properly since conventional HATS have no bone conduction pathway. In other words, depending on a user voice signal input to the HATS in the corresponding frequency range, the headset put on the HATS would not be able to appropriately activate and deactivate the muting (or otherwise correctly detect the user voice activity). , (A path from the vocal tract to the feedback microphone would exist due to vibrations, but this path would be very weakly coupled compared to real bone conduction.)

Einige Ausführungsformen kombinieren die auf Symmetrie und Asymmetrie basierenden Schwellwertvergleiche gemeinsam, wie folgt:

if (coherence_of_left_and_right < CT), then Mute;

 else {if ((fb_left/ff_left) < ET, Mute; else Unmute}
Bemerkenswerterweise zieht eine Implementierung dieser Erfassungslogik die Nutzung dreier Steuermikrofone, nämlich der links- und rechtsseitigen Rückkopplungsfehlermikrofone sowie einem der Vorsteuerungsmikrofone nach sich. Außerdem erlaubt diese Logik nur den asymmetrischen Schwellwertvergleich (das Verhältnis von Rückkopplungsmikrofonenergie zu Vorsteuerungsmikrofonenergie), um eine Aufhebung der Stummschaltung zu steuern. Andere Ausführungsformen könnten beide Vergleiche zum Auslösen der Aufhebung der Stummschaltung erlauben.Some embodiments combine the threshold comparisons based on symmetry and asymmetry as follows:
 if (coherence_of_left_and_right <CT), then mute;

 else {if ((fb_left / ff_left) <ET, Mute; else Unmute} 
Remarkably, implementation of this detection logic entails the use of three control microphones, namely the left and right side feedback error microphones and one of the pilot microphones. In addition, this logic only allows the asymmetric threshold comparison (the ratio of feedback microphone energy to pilot microphone energy) to control unmute cancellation. Other embodiments could allow both comparisons to trigger unmute.

Zusätzlich schaffen einige Aufhebung der Stummschaltung Puffer innerhalb der Verarbeitungsschaltung 130, um Stimmerfassung in einer verzögerten Version der relevanten Signaldaten durchzuführen. Genauer gesagt, nutzen einige Ausführungsformen einen Vorgriffspuffer („look ahead buffer“) für X Millisekunden, um dem Detektor genug Zeit einzuräumen, das Vorhandensein von Sprachäußerungen eines Nutzers in dem Headset zu erfassen und das System ohne Verlust von Sprachinhalten aus der Stummschaltung zu nehmen. Zum Beispiel speichert eine Ausführungsform 20 Millisekunden an abgetasteten Daten von den Systemmikrofonen, so dass es dem Detektor ermöglicht wird, Sprachäußerungen bei Abtastwert n zu erfassen und dann alle in der vorangehenden Zeitspanne von 20 Millisekunden aufgenommenen vorherigen Abtastwerte von der Stummschaltung auszunehmen, wodurch vermieden wird, dass der erste Teil einer Nutzeräußerung abgeschnitten oder ausgeblendet wird. In einigen Ausführungsformen kann die Länge der Vorgriffszeitspanne durch den Nutzer eingestellt oder kalibriert werden, und in anderen Ausführungsformen kann sie in Abhängigkeit von einer erfassten Sprachkadenz des Nutzers, wie etwa einem durchlaufenden Mittelwert der Abstände zwischen Spitzenwerten im Sprachsignal, dynamisch bestimmt werden.In addition, some unmute buffers create buffers within the processing circuit 130 to perform voice recording in a delayed version of the relevant signal data. More specifically, some embodiments use a look ahead buffer for X milliseconds to give the detector enough time to detect the presence of a user's speech in the headset and to unmute the system without loss of speech. For example, one embodiment stores 20 milliseconds of sampled data from the system microphones, allowing the detector to capture speech at sample n and then mute all previous samples taken in the previous 20 millisecond period, thereby avoiding that the first part of a user statement is cut off or hidden. In some embodiments, the length of the look-ahead period can be set or calibrated by the user, and in other embodiments it can be dynamically determined depending on a sensed speech cadence of the user, such as a running average of the intervals between peaks in the speech signal.

Das Stummschaltungsmodul 136 stellt die Stummschaltungsfunktion in Abhängigkeit von den Befehlssignalen des Nutzerstimmerfassungsmoduls 135 bereit. In einigen Ausführungsformen zieht das ein Abschalten der mit dem Sprachmikrofon und/oder mit einem oder mehreren der anderen Mikrofone in der Anordnung verbundenen Signalpfade nach sich. Um jedoch das Hörerlebnis des Nutzers zu verbessern, verzögern einige Ausführungsformen die Aktivierung oder den Einsatz der Stummschaltung für 3, 5, 10, 15 oder 20 Millisekunden, wodurch ein Sicherheitsspielraum eingeräumt wird, um zu vermeiden, dass die Enden von Äußerungen abgeschnitten werden oder zwischen Wörtern stummgeschaltet wird. In einigen Ausführungsformen kann die Zeitspanne für diese Verzögerung dynamisch in Abhängigkeit von einer gemessenen Sprachkadenz des Nutzers festgelegt werden. Außerdem kann in einigen Ausführungsformen eine visuelle, auditive oder haptische Anzeige als Reaktion auf die Aktivierung oder Deaktivierung der Stummschaltungsfunktion bereitgestellt werden, um den Nutzer über die Änderung des Stummschaltungszustandes zu informieren. In einigen Ausführungsformen können ein oder mehrere dieser Anzeigen am Headset selbst und/oder auf dem Gerät 140 bereitgestellt werden. In einigen Varianten kann die visuelle Anzeige die Form einer beleuchteten und/oder blinkenden LED (lichtemittierende Diode) an dem Headset und/oder ein beleuchtetes oder blinkendes oder farb- oder gestaltwechselndes Symbol eines Mikrofons auf dem Gerätedisplay annehmen. In einigen Ausführungsformen kann der Nutzer die Stummschaltungsfunktion über ein manuelles Steuerelement an dem Headset und/oder Gerät für eine vorbestimmte Zeitspanne außer Kraft setzen, zum Beispiel für 1, 2, oder 3 Minuten, oder bis die laufende Kommunikationssitzung wie etwa ein Telefonanruf beendet ist. Am Ende der Außerkraftsetzungszeitspanne würde die automatische Aktivierung und Deaktivierung der Stummschaltung fortgesetzt werden.The mute module 136 sets the mute function depending on the command signals of the user voice recording module 135 ready. In some embodiments, this results in switching off the signal paths connected to the speech microphone and / or to one or more of the other microphones in the arrangement. However, in order to improve the user's listening experience, some embodiments delay the activation or use of mute for 3, 5, 10, 15 or 20 milliseconds, thereby giving a margin of safety to avoid that the ends of utterances are cut off or between Words is muted. In some embodiments, the time period for this delay can be determined dynamically depending on a measured speech rate of the user. In addition, in some embodiments, a visual, auditory, or haptic display may be provided in response to the activation or deactivation of the mute function to inform the user of the change in the mute state. In some embodiments, one or more of these indicators can be on the headset itself and / or on the device 140 to be provided. In some variants, the visual display can take the form of an illuminated and / or flashing LED (light-emitting diode) on the headset and / or an illuminated or flashing or color or shape-changing symbol of a microphone on the device display. In some embodiments, the user may override the mute function via a manual control on the headset and / or device for a predetermined period of time, for example for 1, 2, or 3 minutes, or until the ongoing communication session, such as a phone call, is ended. At the end of the override period, the automatic activation and deactivation of the mute would continue.

Generell gesprochen, führen einige Ausführungsformen ein Abstufen, absichtliches Verlangsamen oder Abklingen der Zustandsänderungen zwischen Stummschaltungsaktivierung und Stummschaltungsaktivierung (und umgekehrt) durch, um sehr schnelle Verstärkungsänderungen durch das Mikrofon zu vermeiden, die ansonsten hörbare Knack- oder Klickgeräusche erzeugen würden, welche nervig sind und eine schlechte Audiokomponentenqualität suggerieren. Dies wird im Allgemeinen dadurch behoben, dass die Verstärkungsänderungen graduell statt instantan vorgenommen werden. Zum Beispiel kann in einer Ausführungsform der „Angriff“ von An zu Aus über ungefähr 100 Millisekunden hinweg stattfinden, was langsam genug ist, um ein Knacken zu vermeiden, und lang genug ist, um die Speicheranforderungen an den Vorgriffspuffer zu minimieren. Eine Ausführungsform nutzt eine Abklingfunktion des folgenden Ausdrucks:

If start mute {
            static float decayCoef = 1;
            if (decayCoef > 0.00316) decayCoef *= 0.995 // -25dB
            Scale the output with decayCoef }
Generally speaking, some embodiments step, deliberately slow or fade the state changes between mute activation and mute activation (and vice versa) to avoid very rapid gain changes through the microphone that would otherwise produce audible clicks or clicks, which are annoying and one suggest poor audio component quality. This is generally remedied by making the gain changes gradually rather than instantaneously. For example, in one embodiment, the "attack" from on to off can occur for about 100 milliseconds, which is slow enough to avoid cracking and long enough to minimize the memory requirements on the look-ahead buffer. One embodiment uses a decay function of the following expression:
 If start mute {
            static float decayCoef = 1;
            if (decayCoef> 0.00316) decayCoef * = 0.995 // -25dB
            Scale the output with decayCoef} 

Einige Ausführungsformen erleichtern ein effizienteres automatisches Stummschalten, indem sie erfassen, wenn ein System mit zwei Ohrstücken nur ein Ohrstück ordnungsgemäß einsetzt. Einige dieser Ausführungsformen stützen sich auf einen Detektor für ein Ohrenaufliegen („On Ear Detector“, OED), um die Leistungsfähigkeit zu optimieren. Details des OED werden weiter in der US-Patentanmeldung 14/850,859 im Mitbesitz, eingereicht am 10. September 2015, deren Offenbarungsgehalt hierin in seiner Gesamtheit durch Inbezugnahme mit aufgenommen ist.Some embodiments facilitate more efficient automatic mute by sensing when a system with two earpieces properly uses only one earpiece. Some of these embodiments rely on an on-ear detector (OED) to optimize performance. Details of the OED will be continued in the U.S. Patent Application 14 / 850,859 co-owned, filed on September 10, 2015, the disclosure of which is hereby incorporated by reference in its entirety.

Das sprachabhängige Modul 137 stellt ein oder mehrere Funktionen (der Verarbeitungsschaltung 130 und/oder des Geräts 140) dar, die ein binäres Signal zum Sprachvorhandensein oder -nichtvorhandensein von dem Stimmaktivitätsmodul 135 erhalten. Einige dieser Module nutzen das Signal um die Funktion des Moduls zu aktivieren oder zu deaktivieren, um damit Rechenleistung, Speicher und/oder Batterielebensdauer einzusparen. Beispielsweise kann in einigen Ausführungsformen das sprachabhängige Modul 137 ein Sprach- oder Schlüsselworterkennungsmodul aufweisen, welches dazu ausgelegt ist, auf bestimmte Schlüsselwortbefehle zu hören oder verallgemeinerte Spracherkennungsfunktionen durchzuführen.The language-dependent module 137 represents one or more functions (the processing circuit 130 and / or the device 140 ) which is a binary signal for the presence or absence of speech from the voice activity module 135 receive. Some of these modules use the signal to activate or deactivate the function of the module in order to save computing power, memory and / or battery life. For example, in some embodiments, the language dependent module 137 have a speech or keyword recognition module which is designed to listen to certain keyword commands or to carry out generalized speech recognition functions.

In einigen anderen Ausführungsformen umfasst das Modul 137 zudem ein Rauschreduktionsmodul, welches weitere Verarbeitungsstufen durchführt, um Rauschen in dem Stimmmikrofonsignal zu verringern. Dieses Rauschreduktionsmodul kann in einigen Ausführungsformen auf die spezifische Umgebung des Nutzers abgestimmt werden. Und in weiteren Ausführungsformen kann das sprachabhängige Modul 137 ein Nebentonmodul oder eine Nebentonschaltung aufweisen, das/die Stimmmikrofonausgabesignale empfängt und ein drei- bis zehnprozentiges Nebentonsignal für den Nutzer auf einem oder beiden Ohrstücken erzeugt. Die Erzeugung von Nebentönen verbraucht Energie, so dass ein Abschalten dieser Funktion, falls der Nutzer nicht spricht, die Batterielebensdauer verlängert. Siehe vorläufige US-Patentanmeldung 62/530,049 , eingereicht am 7. Juli 2017, die hierin durch Inbezugnahme aufgenommen wird.In some other embodiments, the module comprises 137 also a noise reduction module, which carries out further processing stages in order to reduce noise in the voice microphone signal. In some embodiments, this noise reduction module can be tailored to the specific environment of the user. And in other embodiments, the language dependent module 137 have a sub-tone module or sub-tone circuit that receives the voice microphone output signals and generates a three to ten percent sub-tone signal for the user on one or both earpieces. The generation of secondary tones consumes energy, so switching off this function if the user does not speak extends the battery life. See preliminary U.S. Patent Application 62 / 530,049 , filed on July 7, 2017, which is incorporated herein by reference.

2 zeigt ein Flussdiagramm 200 eines erweiterten automatischen Stummschaltungssystems für ein ANR-Headset mit zwei Ohrstücken. Das Flussdiagramm 200 umfasst Verfahrensblöcke 210 bis 280. 2 shows a flow chart 200 an advanced automatic mute system for an ANR headset with two earpieces. The flow chart 200 includes process blocks 210 to 280 ,

Block 210 umfasst ein Durchführen einer OED (Ohrenaufliegensdetektion), um den Status der Ohrstücke zu bestimmen. (Siehe ebenfalls anhängige US-Patentanmeldung 14/850,859 , eingereicht am 10. September 2015, die hierin durch Inbezugnahme aufgenommen wird.) Die Ausführung wird bei Block 220 fortgesetzt, wo bestimmt wird, ob der Umgebungsgeräuschpegel niedrig ist oder nicht. Falls die Umgebungsgeräusche niedrig sind, wird die intelligente Stummschaltungsfunktion des Moduls 134 bei Block 230 deaktiviert und die Ausführung kehrt zu Block 220 zurück; andernfalls wird die Ausführung bei Block 240 fortgesetzt.block 210 involves performing an OED (on-ear detection) to determine the status of the earpieces. (See also pending U.S. Patent Application 14 / 850,859 , filed on September 10, 2015, which is incorporated herein by reference.) Execution is at block 220 where it is determined whether or not the ambient noise level is low. If the ambient noise is low, the module's intelligent mute function 134 at block 230 disabled and execution returns to block 220 back; otherwise execution at block 240 continued.

Block 240 umfasst ein Bestimmen, ob der Nutzer beide Ohrstücke aufgesetzt hat. In dieser beispielhaften Ausführungsform umfasst dies einen weiteren Aufruf des OED-Moduls. Wenn beide Ohrhörer aufgesetzt sind, zweigt die Ausführung zu Block 250 ab, in dem ermittelt wird, ob stummgeschaltet werden soll oder nicht, unter Nutzung der oben beschriebenen auf Symmetrie basierenden oder der kombinierten Symmetrie-Asymmetrie-Stummschaltungsfunktionen, die beide jeweils Signale von beiden Ohrstücken benötigen. Die Ausführung kehrt von hier zurück zu Block 240, um zu bestimmen, ob beide Ohrstücke nach wie vor aufgesetzt sind. Falls beide Ohrstücke als nicht aufgesetzt ermittelt werden, fährt die Ausführung mit Block 260 fort, in dem bestimmt wird, ob ein Ohrstück aufgesetzt ist. (Es wird auch bestimmt, welches der Ohrstücke aufgesetzt ist.) Falls eines aufgesetzt ist, zweigt die Ausführung zu Block 270 ab, um eine intelligente Stummschaltungsfunktion in Abhängigkeit der asymmetrischen Schwellwertvergleiche wie oben beschrieben durchzuführen. Die Ausführung kehrt dann zu Block 260 zurück, um zu bestimmen, ob ein Ohrstück nach wie vor aufgesetzt ist. (In einigen Ausführungsformen kann das Ohrstück noch aufgesetzt sein, aber nicht genügend Batterieleistung übrig sein.) Falls kein Ohrstück mehr aufgesetzt ist, wird kein intelligentes Stummschalten mehr durchgeführt und die Ausführung kehrt zurück zu Block 220.block 240 includes determining whether the user has put on both ear pieces. In this exemplary embodiment, this includes a further call to the OED module. If both earphones the execution branches to block 250 by determining whether or not to mute using the symmetry-based or combined symmetry-asymmetry mute functions described above, both of which require signals from both earpieces. Execution returns to block from here 240 to determine if both earpieces are still in place. If both earpieces are found not to be in place, the version moves with a block 260 in which it is determined whether an earpiece is attached. (It is also determined which of the earpieces is attached.) If one is attached, the execution branches to block 270 to perform an intelligent mute function depending on the asymmetrical threshold comparisons as described above. Execution then returns to block 260 back to determine if an earpiece is still on. (In some embodiments, the earpiece may still be on, but there may not be enough battery power left.) If no more earpiece is on, intelligent mute is no longer performed and execution returns to block 220 ,

3 zeigt ein einohriges Systemmodell 300 des Systems 100, inklusive der folgenden Blöcke: Tp ist die passive Dämpfungsübertragungsfunktion; Tdm ist die Treiber-zu-Rückkopplungsmikrofon-Übertragungsfunktion; Hff ist der Vorsteuerungsfilter; Hfb ist der Rückkopplungsfilter; V ist der akustische Nutzersprachäußerungs-zu-Vorsteuerungsmikrofon-Pfad (Übertragungsfunktion); W ist der Nutzersprachäußerungs-zu-Vorsteuerungsmikrofon-Knochenleitungspfad (Übertragungsfunktion). Das Modell umfasst ebenfalls die folgenden Signale: s ist das Nutzersprachäußerungssignal; a ist das Umgebungsgeräuschsignal; n ist die Messung des Vorsteuerungsmikrofons (oder allgemein gesagt, das Mikrofon, das am weitesten weg vom oder am wenigsten stark akustisch an den Vokaltrakt gekoppelt ist); m ist die Messung des Rückkopplungsmikrofons (oder allgemein gesagt, das Mikrofon, das am weitesten weg vom oder am stärksten akustisch an den Vokaltrakt gekoppelt ist); u ist das RX-Signal und/oder jedes Systemaudiobenachrichtigungssignal; und d ist die DAC-(Treiber-)Ausgabe. 3 shows a one-ear system model 300 of the system 100 , including the following blocks: T p is the passive damping transfer function; T dm is the driver-to-feedback microphone transfer function; H ff is the feedforward filter; H col is the feedback filter; V is the acoustic user utterance-to-pilot microphone path (transfer function); W is the user speech utterance to pilot microphone bone conduction path (transfer function). The model also includes the following signals: s is the user speech utterance signal; a is the ambient noise signal; n is the measurement of the pilot microphone (or more generally, the microphone that is furthest from or least acoustically coupled to the vocal tract); m is the measurement of the feedback microphone (or generally speaking, the microphone that is furthest away from or most acoustically coupled to the vocal tract); u is the RX signal and / or any system audio notification signal; and d is the DAC (driver) output.

Insbesondere weist das System der 3 sowohl Vorsteuerungs- als auch Rückkopplungsfilter Hff and Hfb auf. Manche Ausführungsformen verzichten jedoch auf diese Filter, was bedeutet, dass (Hff = Hfb = O) und das Headset ist passiv. Die beispielhafte Ausführungsform folgt dem nachstehenden linearen statistischen Modell: M = T d m D + T p N + W

Figure DE112018000717T5_0009
D = H f b M + H f f N + U
Figure DE112018000717T5_0010
N = A + V S
Figure DE112018000717T5_0011
Substitution von D in M ergibt M = T d m ( H f b M + H f f N + U ) + T p N + W S
Figure DE112018000717T5_0012
Aufsammeln der Terme ergibt ( 1 T d m H f b ) M = ( T d m H f f + T p ) N + T d m U + W S
Figure DE112018000717T5_0013
Substitution von N ergibt ( 1 T d m H f b ) M = ( T d m H f f + T p ) ( A + V S ) + T d m U + W S
Figure DE112018000717T5_0014
Aufsammeln der Terme ergibt ( 1 T d m H f b ) M = ( T d m H f f + T p ) A + T d m U + ( ( T d m H f f + T p ) V + w ) S
Figure DE112018000717T5_0015
M = F 1 A + F 2 U + ( F 1 V + F s ) S
Figure DE112018000717T5_0016
wobei F 1 = T d m H f f + T p 1 T d m H f b
Figure DE112018000717T5_0017
F 2 = T m 1 T d m H f b
Figure DE112018000717T5_0018
F s = W 1 T d m H f b
Figure DE112018000717T5_0019
In particular, the system of 3 both feedforward and feedback filters Hff and Hfb. However, some embodiments dispense with these filters, which means that (H ff = H fb = O) and the headset is passive. The exemplary embodiment follows the linear statistical model below: M = T d m D + T p N + W
Figure DE112018000717T5_0009
D = H f b M + H f f N + U
Figure DE112018000717T5_0010
N = A + V S
Figure DE112018000717T5_0011
Substitution of D in M results M = T d m ( H f b M + H f f N + U ) + T p N + W S
Figure DE112018000717T5_0012
Collecting the terms gives ( 1 - T d m H f b ) M = ( T d m H f f + T p ) N + T d m U + W S
Figure DE112018000717T5_0013
Substitution of N results ( 1 - T d m H f b ) M = ( T d m H f f + T p ) ( A + V S ) + T d m U + W S
Figure DE112018000717T5_0014
Collecting the terms gives ( 1 - T d m H f b ) M = ( T d m H f f + T p ) A + T d m U + ( ( T d m H f f + T p ) V + w ) S
Figure DE112018000717T5_0015
M = F 1 A + F 2 U + ( F 1 V + F s ) S
Figure DE112018000717T5_0016
in which F 1 = T d m H f f + T p 1 - T d m H f b
Figure DE112018000717T5_0017
F 2 = T m 1 - T d m H f b
Figure DE112018000717T5_0018
F s = W 1 - T d m H f b
Figure DE112018000717T5_0019

Das Ziel beim linearen Modell ist es, die Messung M des Rückkopplungsmikrofons in eine Linearkombination unabhängiger Komponenten zu zerlegen (Umgebungsgeräusche, Rx und Nutzersprachäußerungen). Dieses Modell lässt sich auf schmalbandige Signale anwenden, d.h. für einen bestimmten Frequenzschlitz. Um ein Breitbandsystem zu modellieren, würde man Frequenzindizes für jeden Term hinzufügen.The goal of the linear model is to break down the measurement M of the feedback microphone into a linear combination of independent components (ambient noise, Rx and user utterances). This model can be applied to narrowband signals, i.e. for a specific frequency slot. To model a broadband system, one would add frequency indices for each term.

Die Varianzen können wie folgt ausgedrückt werden: E [ A A   ] = σ A 2

Figure DE112018000717T5_0020
E [ S S   ] = σ s 2
Figure DE112018000717T5_0021
E [ N N * ] = E [ ( A + V S ) ( A + V S ) * ]
Figure DE112018000717T5_0022
E [ N N * ] = σ A 2 + V V * σ s 2
Figure DE112018000717T5_0023
The variances can be expressed as follows: e [ A A * ] = σ A 2
Figure DE112018000717T5_0020
e [ S S * ] = σ s 2
Figure DE112018000717T5_0021
e [ N N * ] = e [ ( A + V S ) ( A + V S ) * ]
Figure DE112018000717T5_0022
e [ N N * ] = σ A 2 + V V * σ s 2
Figure DE112018000717T5_0023

Wiederum gilt dies für den schmalbandigen Fall. Ein Berechnen der Varianzen bei jeder Frequenz würde das Leistungsspektrum von A, S und N ergeben. Diese Varianzen sind instantane Werte: σ A 2 ( t ) , σ s 2 ( t ) ,

Figure DE112018000717T5_0024
da Umgebungsgeräusche und Sprachäußerungen nicht statisch sind. Die Zeitindizes werden der Einfachheit der Notierung halber weggelassen. Die Kovarianz E[MN*] definiert sich zu E [ M N * ] = E [ ( F 1 A + F 2 U + ( F 1 V + F s ) S ) ( A + V S ) * ]
Figure DE112018000717T5_0025
E [ M N * ] = F 1 σ A 2 + ( F 1 V V * + F s V * ) σ S 2
Figure DE112018000717T5_0026
was umgeschrieben werden kann als E [ M N * ] = F 1 ( σ A 2 + V V * σ s 2 ) + F s V 1 V V * σ s 2
Figure DE112018000717T5_0027
Man beachte, dass die Berechnung der Kovarianz bei jeder Frequenz das Korrelationsleistungsspektrum ergeben würde.Again, this applies to the narrow-band case. Calculating the variances at each frequency would result in the power spectrum of A, S and N. These variances are instantaneous values: σ A 2 ( t ) . σ s 2 ( t ) .
Figure DE112018000717T5_0024
because ambient noise and utterances are not static. The time indices are omitted for the sake of simplicity of notation. The covariance E [MN *] defines itself e [ M N * ] = e [ ( F 1 A + F 2 U + ( F 1 V + F s ) S ) ( A + V S ) * ]
Figure DE112018000717T5_0025
e [ M N * ] = F 1 σ A 2 + ( F 1 V V * + F s V * ) σ S 2
Figure DE112018000717T5_0026
what can be rewritten as e [ M N * ] = F 1 ( σ A 2 + V V * σ s 2 ) + F s V - 1 V V * σ s 2
Figure DE112018000717T5_0027
Note that calculating the covariance at any frequency would result in the correlation power spectrum.

Der Regressionskoeffizient G ist definiert als G = E [ M N * ] E [ N N * ] = F 1 ( σ A 2 + V V * σ s 2 ) + F s V 1 V V * σ s 2 σ A 2 + V V * σ s 2

Figure DE112018000717T5_0028
G = F 1 + F 2 V 1 ( b 1 + b )
Figure DE112018000717T5_0029
wobei b = V V * σ s 2 σ A 2
Figure DE112018000717T5_0030
die Nutzersprachäußerungs-zu-Umgebungsrauschen-SNR ist. Substitution von F1 und Fs in G ergibt G = T d m H f f + T p 1 T d m H f b + W V 1 1 T d m H f b ( b 1 + b )
Figure DE112018000717T5_0031
Falls Nutzersprachäußerungen vorhanden sind, konvergiert das Verhältnis ( b 1 + b )
Figure DE112018000717T5_0032
gegen Eins (da das Nutzersprachäußerungs-zu-Umgebungsrauschen-SNR groß wird). Falls keine Nutzersprachäußerungen vorhanden sind, ist ( b 1 + b )
Figure DE112018000717T5_0033
Null. Das heißt, dass der instantane Regressionskoeffizient, G(t), auf einem Liniensegment mit Endpunkten F1 und F1 + FsV-1 lebt. Man beachte, dass das Berechnen des Regressionskoeffizienten bei jeder Frequenz die Übertragungsfunktion ergeben würde.The regression coefficient G is defined as G = e [ M N * ] e [ N N * ] = F 1 ( σ A 2 + V V * σ s 2 ) + F s V - 1 V V * σ s 2 σ A 2 + V V * σ s 2
Figure DE112018000717T5_0028
G = F 1 + F 2 V - 1 ( b 1 + b )
Figure DE112018000717T5_0029
in which b = V V * σ s 2 σ A 2
Figure DE112018000717T5_0030
is the user speech utterance to ambient noise SNR. Substitution of F 1 and F p in G. G = T d m H f f + T p 1 - T d m H f b + W V - 1 1 - T d m H f b ( b 1 + b )
Figure DE112018000717T5_0031
If there are user voices, the relationship converges ( b 1 + b )
Figure DE112018000717T5_0032
against one (since the user speech to ambient noise SNR becomes large). If there are no user utterances, is ( b 1 + b )
Figure DE112018000717T5_0033
Zero. This means that the instantaneous regression coefficient, G (t), lives on a line segment with end points F 1 and F 1 + F s V -1 . Note that calculating the regression coefficient at any frequency would give the transfer function.

Schätzung: Das Nachverfolgen des Regressionskoeffizienten, G(t), in seinem Änderungsverhalten über die Zeit kann eine Herausforderung darstellen. Noch blöder ist die Tatsache, dass wenn Rx vorhanden ist, die Kohärenz zwischen M und N reduziert ist, was die Varianz der Schätzung erhöht. Das Ausnutzen einer Beziehung zu U vereinfacht das Schätzungsproblem, ist aber nicht notwendigerweise erforderlich. Einige Ausführungsformen formulieren das Schätzungsproblem in einem Zustandsraum-Referenzmodell unter Nutzung des Messmodells M(t), was sich wie folgt definiert M ( t ) = G ( t ) N ( t ) + H ( t ) U ( t ) + σ r r ( t )

Figure DE112018000717T5_0034
wobei r(t) eine Gauß'sche Zufallsvariable mit Mittelwert Null und Einheitsvarianz ist, σr ein abstimmbarer Parameter ist, der nicht modelliertes Systemverhalten erklärt (d.h. geringfügige Nichtlinearitäten in den Messungen). H(t) ist ein Regressionskoeffizient, der den Beitrag des Rx-/Musiksignals zur Messung des Rückkopplungsmikrofons erklärt.Estimation: Tracking the regression coefficient, G (t), in its change behavior over time can be a challenge. Even more stupid is the fact that when Rx is present, the coherence between M and N is reduced, which increases the variance of the estimate. Exploiting a relationship to U simplifies the estimation problem, but is not necessary. Some embodiments formulate the estimation problem in a state space reference model using the measurement model M (t), which is defined as follows M ( t ) = G ( t ) N ( t ) + H ( t ) U ( t ) + σ r r ( t )
Figure DE112018000717T5_0034
where r (t) is a Gaussian random variable with mean zero and unit variance, σ r is a tunable parameter that explains non-modeled system behavior (ie minor non-linearities in the measurements). H (t) is a regression coefficient that explains the contribution of the Rx / music signal to the measurement of the feedback microphone.

Einige Ausführungsformen nutzen das folgende Prozessmodell: [ G ( t + 1 ) H ( t + 1 ) ] = [ α 1 0 0 α 2 ] [ G ( t ) H ( t ) ] + [ ( 1 α 1 2 ) 1 / 2 0 0 ( 1 α 2 2 ) 1 / 2 ] [ q 1 ( t ) q 2 ( t ) ]

Figure DE112018000717T5_0035
wobei q1(t) und q2(t) unabhängige Gauß'sche Zufallsvariablen mit Mittelwert Null und Einheitsvarianz sind. α1 und α2 sind abstimmbare Parameter, die bestimmen, wie schnell G(t) und H(t) sich mit der Zeit ändern können.Some embodiments use the following process model: [ G ( t + 1 ) H ( t + 1 ) ] = [ α 1 0 0 α 2 ] [ G ( t ) H ( t ) ] + [ ( 1 - α 1 2 ) 1 / 2 0 0 ( 1 - α 2 2 ) 1 / 2 ] [ q 1 ( t ) q 2 ( t ) ]
Figure DE112018000717T5_0035
where q 1 (t) and q 2 (t) are independent Gaussian random variables with mean zero and unit variance. α 1 and α 2 are tunable parameters that determine how quickly G (t) and H (t) can change over time.

Das Zustandsraum- Referenzmodell ist nützlich, weil es effiziente Algorithmen für die Zustandsschätzung gibt (z.B. Rekursive Kleinste Quadrate (RLS), Kleinste Mittlere Quadrate (LMS) und Kalmanfilter). Einige Ausführungsformen schätzen die Zustände G(t) und H(t) in mehreren Frequenzschlitzen durch Nutzung eines Kalmanfilters für jeden Schlitz.The state space reference model is useful because there are efficient state estimation algorithms (e.g. Recursive Least Squares (RLS), Least Mean Squares (LMS) and Kalman Filters). Some embodiments estimate the states G (t) and H (t) in multiple frequency slots by using a Kalman filter for each slot.

Einige Ausführungsformen involvieren einen etwas allgemeineren Ansatz für die Nutzerstimmaktivitätsdetektion, welcher die Notwendigkeit der expliziten Charakterisierung der elektroakustischen Parameter des Systems umgeht. Der verallgemeinerte Ansatz nutzt zwei Signale θ (theta) und ϕ (phi), die jeweils eine Funktion von zumindest zweien der Variablen Nutzersprachäußerung s, Umgebungsgeräusche a und/oder eingehendes Audiosignal u sind, jeweils gemäß der Matrix der Übertragungsfunktionen T. (Eingehende Audiosignale u können eine Mischung von extern erzeugten Audiosignalen wie etwa Rx/Musik von einem Kommunikationsgerät und intern erzeugten Audiosignalen, wie etwa Systemereignisbenachrichtigungen, Hinweisen oder Alarmsignalen sein) Die Matrix der Übertragungsfunktionen T wird dadurch bestimmt, wie Sprachäußerungen, Umgebung und eingehende Audiosignale u auf den zwei oder mehr Übertragern erscheinen, und wie die Übertrage mit einer Referenz auf die Rx/Musik kombiniert werden, um phi und theta zu erzeugen. Mathematisch gesprochen kann das ausgedrückt werden als [ θ ϕ ] = T [ s a u ]

Figure DE112018000717T5_0036
wobei T die Matrix der Übertragungsfunktionen bezeichnet und definiert ist als T = [ T s θ T α θ T u θ T s ϕ T α ϕ T u ϕ ]
Figure DE112018000717T5_0037
wobei T eine Übertragungsfunktion von Nutzersprachäußerungen s auf das Signal θ darstellt; T eine Übertragungsfunktion von Umgebungsgeräuschen auf das Signal θ darstellt; T eine Übertragungsfunktion von Nutzersprachäußerungen s auf das Signal Φ darstellt; und Teine Übertragungsfunktion von Umgebungsgeräuschen auf das Signal Φ darstellt. Mit diesem Modell erfordert eine verlässliche Detektion von Nutzerstimmaktivität eine Befolgung der folgenden asymmetrischen Randbedingung: | T s θ T a θ T s φ T a φ | 2 > z
Figure DE112018000717T5_0038
wobei z den Asymmetrieschwellwert z bezeichnet, was angibt, dass das Verhältnis der Empfindlichkeit von Sprachäußerungen-zu-Umgebung in Amplitude und/oder Phase unterschiedlich sein müssen. In einigen Ausführungsformen beträgt z Null und in anderen Ausführungsformen beträgt z 0,01, 0,1, 0,5, 0,75, 1,0, 2,0. In weiteren Ausführungsformen ist z größer als 2.Some embodiments involve a somewhat more general approach to user voice activity detection that avoids the need to explicitly characterize the system's electroacoustic parameters. The generalized approach uses two signals θ (theta) and ϕ (phi), each of which is a function of at least two of the variables user speech expression s, ambient noise a and / or incoming audio signal u, each according to the matrix of the transfer functions T. (incoming audio signals u may be a mixture of externally generated audio signals such as Rx / music from a communication device and internally generated audio signals such as system event notifications or alarm signals) The matrix of the transfer functions T is determined by how speech, environment and incoming audio signals u appear on the two or more transmitters and how the transmissions are combined with a reference to the Rx / music to produce phi and theta , Mathematically speaking, this can be expressed as [ θ φ ] = T [ s a u ]
Figure DE112018000717T5_0036
where T is the matrix of the transfer functions and is defined as T = [ T s θ T α θ T u θ T s φ T α φ T u φ ]
Figure DE112018000717T5_0037
where T sθ represents a transfer function of user utterances s to the signal θ; T aθ represents a transfer function of ambient noise on the signal θ; T sΦ represents a transfer function of user utterances s to the signal Φ; and T aϕ represents a transfer function of ambient noise onto the signal Φ. With this model, reliable detection of user voice activity requires compliance with the following asymmetric constraint: | T s θ T a θ - T s φ T a φ | 2 > z
Figure DE112018000717T5_0038
where z denotes the asymmetry threshold value z, which indicates that the ratio of the sensitivity of utterances to environment must be different in amplitude and / or phase. In some embodiments, z is zero and in other embodiments, z is 0.01, 0.1, 0.5, 0.75, 1.0, 2.0. In further embodiments, z is greater than 2.

Abbilden der Terme dieses verallgemeinerten Modells auf die spezifische elektroakustische Implementierung von 3 ergibt als korrespondierende Matrix T T = [ W 1 T d m H f b T d m H f f + T p 1 T d m H f b T d m 1 T d m H f b V 1 0 ]

Figure DE112018000717T5_0039
wobei T s θ = W 1 T d m H f b , T a θ = V , T a 9 = T d m H f f + T p 1 T d m H f b , T a ϕ = T d m 1 T d m H f b , T u ϕ = 0.
Figure DE112018000717T5_0040
Mapping the terms of this generalized model to the specific electroacoustic implementation of 3 gives T as the corresponding matrix T = [ W 1 - T d m H f b T d m H f f + T p 1 - T d m H f b T d m 1 - T d m H f b V 1 0 ]
Figure DE112018000717T5_0039
in which T s θ = W 1 - T d m H f b . T a θ = V . T a 9 = T d m H f f + T p 1 - T d m H f b . T a φ = T d m 1 - T d m H f b . T u φ = 0th
Figure DE112018000717T5_0040

Einige Ausführungsformen können eine alternative asymmetrische Randbedingung der folgenden Form nutzen | T s θ T a θ | 2 > | T s ϕ T a ϕ | 2

Figure DE112018000717T5_0041
die erfordert, dass das Verhältnis von Sprachäußerungen zur Umgebungssignalstärke im Signal θ größer als das Verhältnis von Sprachäußerungen zur Umgebungssignalstärke im Signal Φ ist.Some embodiments can use an alternative asymmetric constraint of the following form | T s θ T a θ | 2 > | T s φ T a φ | 2
Figure DE112018000717T5_0041
which requires that the ratio of utterances to the ambient signal strength in the signal θ is greater than the ratio of utterances to the ambient signal strength in the signal Φ.

4 zeigt ein Blockschaubild eines allgemeinen elektroakustischen Systems 400, welches die Erzeugung des Signals θ aus einer Linearkombination von Mikrofoneingangssignalen und Rx/Musikeingangssignalen (eingehende Audiosignale) darstellt. Das System 400 umfasst einen Satz an Messungen oder Eingangssignalen M1...MN von Mikrofonen oder Übertragern und Rx/Musiksignal-Referenzwerte U1 und U2, die über entsprechende Verstärkungsmodule oder - blöcke K1-KN an Filter H mit entsprechenden Übertragungsfunktionen H1-HN ausgegeben werden. Die Filterausgänge werden in einen Summierer gespeist, der theta erzeugt. Daher ist das Signal θ eine gefilterte Kombination der Übertrager- und Referenzeingangssignale. 4 shows a block diagram of a general electroacoustic system 400 , which represents the generation of the signal θ from a linear combination of microphone input signals and Rx / music input signals (incoming audio signals). The system 400 comprises a set of measurements or input signals M 1 ... M N from microphones or transmitters and Rx / music signal reference values U1 and U2 , the above Corresponding amplification modules or blocks K 1 -K N are output to filter H with corresponding transfer functions H 1 -H N. The filter outputs are fed into a summer which generates theta. Therefore the signal θ is a filtered combination of the transmitter and reference input signals.

5 zeigt ein Blockschaubild eines verallgemeinerten UVAD-Moduls 500, welches als Teil des UVAD-Moduls 135 innerhalb des Prozesses der 2 eingesetzt werden kann. Zusätzlich zu den Eingangssignalen Nutzersprachäußerungen s, Umgebungsgeräuschen a und eingehenden Audiosignalen a umfasst das Modul 500 einen Block 510 für ein elektroakustisches Systemmodell, einen Schätzerblock 520, einen Summierer 530, einen Varianzverhältnisschätzerblock 540 und einen Entscheidungsblock 550. Block 510 für das elektroakustische Systemmodell kennzeichnet generell T, die Matrix der Übertragungsfunktionen T und jedes elektroakustische System wie etwa System 100 oder 500. 5 shows a block diagram of a generalized UVAD module 500 , which is part of the UVAD module 135 within the process of 2 can be used. In addition to the input signals user speech s, ambient noise a and incoming audio signals a, the module includes 500 a block 510 for an electro-acoustic system model, an estimator block 520 , a totalizer 530 , a variance ratio estimator block 540 and a decision block 550 , block 510 for the electroacoustic system model, T generally denotes the matrix of the transfer functions T and any electroacoustic system such as system 100 or 500 ,

Der Schätzerblock 520 sagt voraus oder schätzt iterativ (theta) aus phi und u, wobei das Vorhersagefehlersignal e von dem Summierblock 530 rückgekoppelt wird, um jede neue Vorhersage zu aktualisieren. In der beispielhaften Ausführungsform nimmt der Schätzerblock 520 die Gestalt eines Kalmanfilters (wie oben beschrieben) an. Jedoch nutzen andere Ausführungsformen Formen von linearen Schätzern, wie etwa RLS- und LMS-Schätzer.The estimator block 520 predicts or iteratively (theta) from phi and u, where the prediction error signal e from the summing block 530 is fed back to update each new prediction. In the exemplary embodiment, the estimator block takes 520 the shape of a Kalman filter (as described above). However, other embodiments use forms of linear estimators, such as RLS and LMS estimators.

Der Varianzverhältnisschätzerblock 540 schätzt die Varianz für den Vorhersagefehler, Se und die Varianz der Signale ϕ, Sϕ, und berechnet das Verhältnis Se/Sϕ. Das Verhältnis wird dem Entscheiderblock 550 bereitgestellt, der das Verhältnis mit dem Detektionsschwellwert DT vergleicht. Falls das Verhältnis den Schwellwert überschreitet, wird das Nutzerstimmaktivitätserfassungssignal auf Eins gesetzt, um damit das Vorhandensein von Sprachäußerungen des Nutzers zu kennzeichnen. Andernfalls wird das Erfassungssignal auf Null gesetzt.The variance ratio estimator block 540 estimates the variance for the prediction error, S e and the variance of the signals ϕ, S ϕ , and calculates the ratio S e / S ϕ . The relationship becomes the decision block 550 provided that compares the ratio with the detection threshold DT. If the ratio exceeds the threshold, the user voice activity detection signal is set to one to indicate the presence of the user's speech. Otherwise the detection signal is set to zero.

SCHLUSSFOLGERUNGCONCLUSION

In der oben stehenden Beschreibung sind bestimmte beispielhafte Ausführungsformen beschrieben worden. Jedoch wird ein durchschnittlicher Fachmann erkennen, dass verschiedentliche Modifikationen und Änderungen vorgenommen werden können, ohne vom Schutzbereich der in den folgenden Ansprüchen festgelegten Erfindung abzuweichen. Dementsprechend sind die Beschreibung und die Figuren in einem beispielhaften und nicht einem einschränkenden Sinne zu verstehen, und alle solche Modifikationen sollen im Offenbarungsgehalt der vorliegenden Lehren als miteingeschlossen gelten.Certain exemplary embodiments have been described in the above description. However, one of ordinary skill in the art will recognize that various modifications and changes can be made without departing from the scope of the invention as defined in the following claims. Accordingly, the description and figures are to be regarded in an exemplary rather than a restrictive sense, and all such modifications are intended to be included in the disclosure of the present teachings.

Die Vorzüge, Vorteile, Problemlösungen und alle Elemente, die jegliche/n Vorzug, Vorteil, oder Problemlösung ermöglichen oder besser zur Geltung bringen, sollen nicht als kritische, notwendige oder essentielle Merkmale oder Elemente jedes einzelnen oder aller der Ansprüche angesehen werden. Die Erfindung wird ausschließlich durch die beigefügten Ansprüche inklusive aller während der Anhängigkeit dieser Anmeldung vorgenommenen Änderungen und aller ihrer Äquivalente dieser erteilten Ansprüche definiert.The merits, advantages, solutions to problems and all elements which enable or better emphasize any merits, advantages or problem solving should not be regarded as critical, necessary or essential features or elements of each or all of the claims. The invention is defined solely by the appended claims, including all changes made during the pending application of this application and all of its equivalents to these claims.

Darüber hinaus können in diesem Dokument relative Angaben wie etwa zweites, oben, unten und dergleichen lediglich verwendet werden, um eine Entität oder Handlung von einer anderen Entität oder Handlung zu differenzieren, ohne notwendigerweise zu verlangen oder zu implizieren, dass eine tatsächliche solche Relation zwischen solchen Entitäten oder Handlungen bestehen muss. Die Begriffe „umfassen“, „umfassend“, „hat“, „mit“, „weist auf“, „aufweisend“, „beinhaltet“, „beinhaltend“ oder jegliche Varianten davon sollen eine nicht-exklusive Inklusionsangabe darstellen, dergestalt, dass ein Vorgang, ein Verfahren, ein Artikel oder ein Apparat, welche/r/s eine Liste von Elementen umfasst, hat, aufweist, beinhaltet, nicht nur jene Elemente aufweist, sondern andere nicht explizit oder in der Liste aufgeführte oder einem solchen Vorgang, Verfahren, Artikel oder Apparat inhärente Elemente ebenfalls aufweisen kann. Ein Element, welches mit „umfasst ein“, „hat ein“, weist ein ... auf", „beinhaltet ein“ schließt ohne weitere Bedingungen nicht die Existenz zusätzlicher identischer Elemente in dem Vorgang, Verfahren, Artikel oder Apparat aus, welches das Element umfasst, hat, aufweist oder beinhaltet. Die Artikel „ein“ und „eine“ werden als „ein/e oder mehrere“ definiert, es sei denn, es wird etwas anderes explizit hierbei angegeben. Die Begriffe „im Wesentlichen“, „substantiell“, „ungefähr“, „in etwa“ oder jede andere Variante davon werden als „nahe dran“ definiert, wie es sich für einen durchschnittlichen Fachmann erschließen wird, und in einer nicht beschränkenden Ausführungsform werden die Begriffe als im Rahmen von 10% Abweichung, in einer anderen Ausführungsform als im Rahmen von 5% Abweichung, in einer anderen Ausführungsform als im Rahmen von 1% in einer anderen Ausführungsform als im Rahmen von 0,5% angesehen. Der Begriff „gekoppelt“ wie hierin verwendet wird definiert als verbunden, aber weder notwendigerweise in direkter Weise noch notwendigerweise auf mechanische Art. Ein Gerät oder eine Struktur, die in einer bestimmten Weise „ausgelegt“ ist, ist zumindest in dieser Art ausgelegt, aber kann auch in nicht aufgeführter Weise ausgelegt sein. Der Begriff „beispielhaft“ ist ebenfalls hierin adjektivisch verwendet, um ein oder mehrere Nomen, wie etwa Ausführungsform, System, Verfahren oder Gerät, zu modifizieren und soll spezifisch angeben, dass das Nomen als nicht einschränkendes Beispiel gemeint ist.In addition, relative references, such as second, top, bottom, and the like, may only be used in this document to differentiate an entity or action from another entity or action, without necessarily requiring or implying that an actual such relationship exists between them Entities or actions must exist. The terms "comprise", "comprehensive", "has", "with", "points to", "showing", "contains", "containing" or any variant thereof are intended to represent a non-exclusive inclusion statement such that a Process, a method, an article or an apparatus, which has, has, includes, includes, not only those elements, but other not explicitly or in the list or such a process, method, Items or apparatus may also have inherent elements. An element that includes "includes a", "has a", has a ... "," includes a "does not exclude the existence of additional identical elements in the process, procedure, article, or apparatus without further conditions, which the Element includes, has, has, or includes The articles "a" and "one" are defined as "one or more", unless explicitly stated otherwise. The terms "essentially", "substantial""," Approximately "," approximately "or any other variant thereof are defined as" close to ", as will be apparent to the average person skilled in the art, and in one non-limiting embodiment, the terms are considered to be within 10% deviation, viewed in another embodiment as within a 5% deviation, in another embodiment as within 1% in another embodiment as within 0.5%. The term “coupled” as used herein is defined as connected, but not necessarily in a direct or mechanical manner. A device or structure that is "designed" in a particular way is designed at least in this way, but can also be in not be designed. The term “exemplary” is also used adjectively herein to modify one or more nouns, such as embodiment, system, method, or device, and is intended to specifically indicate that the noun is meant to be a non-limiting example.

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant has been generated automatically and is only included for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent literature cited

  • US 15711793 [0002]US 15711793 [0002]
  • US 62456100 [0002]US 62456100 [0002]
  • US 15069271 [0025]US 15069271 [0025]
  • US 14/850859 [0055]US 14/850859 [0055]
  • US 62530049 [0057]US 62530049 [0057]
  • US 14850859 [0059]US 14850859 [0059]

Claims (19)

Eine Kommunikationsanordnung, umfassend: einen Knoten für eingehende Audiosignale, welcher dazu ausgelegt ist, sich mit einem Kommunikationsgerät zu verbinden, welches das eingehende Audiosignal Rx bereitstellt; eine Signalverarbeitungsschaltung, welche dazu ausgelegt ist, ein Stimmaktivitätssignal auszugeben, das eine erfasste Anwesenheit oder Abwesenheit einer Sprachäußerung eines Nutzers angibt, und in Abhängigkeit von einem ersten Signal ϕ, einem zweiten Signal θ und einem dritten Signal zu bestimmen, ob eine Sprachäußerung eines Nutzers vorhanden ist oder nicht, wobei die Signale ϕ und θ von zwei oder mehr Übertragern abgeleitet sind, die auf zumindest Umgebungsgeräusche a, Sprachäußerungen eines Nutzers s, und das Audioeingangssignal u reagieren, mit der Randbedingung für die Signal ϕ and θ: | T s θ T a θ T s φ T a φ | 2 > 0,
Figure DE112018000717T5_0042
worin T eine Übertragungsfunktion von Nutzersprachäußerungen s auf das Signal θ darstellt; Tae eine Übertragungsfunktion von Umgebungsgeräuschen auf das Signal θ darstellt; T eine Übertragungsfunktion von Nutzersprachäußerungen s auf das Signal ϕ darstellt; und T eine Übertragungsfunktion von Umgebungsgeräuschen auf das Signal ϕ darstellt; und das dritte Signal zumindest teilweise von dem eingehenden Audiosignal Rx oder zumindest einem Audiobenachrichtigungssignal abhängig ist.
A communication arrangement comprising: an incoming audio signal node configured to connect to a communication device providing the incoming audio signal Rx; a signal processing circuit configured to output a voice activity signal indicating a detected presence or absence of a user's utterance, and depending on a first signal ϕ, a second signal θ and a third signal to determine whether a user's utterance is present is or not, the signals ϕ and θ being derived from two or more transmitters which respond to at least ambient noise a, speech utterances by a user s and the audio input signal u, with the boundary condition for the signals ϕ and θ: | T s θ T a θ - T s φ T a φ | 2 > 0
Figure DE112018000717T5_0042
wherein T sθ represents a transfer function of user utterances s to the signal θ; Tae represents a transfer function of ambient noise on the signal θ; T sΦ represents a transfer function of user utterances s to the signal ϕ; and T aϕ represents a transfer function of ambient noise on the signal ϕ; and the third signal is at least partially dependent on the incoming audio signal Rx or at least one audio notification signal.
Die Kommunikationsanordnung gemäß Anspruch 1, wobei die zwei oder mehr Übertrager erste und zweite Mikrofone umfassen, von denen das erste Mikrofon mit einer wesentlich höheren akustischen Kopplung an einen Vokaltrakt eines Nutzers platziert ist als das zweite Mikrofon.The communication arrangement according to Claim 1 , wherein the two or more transmitters comprise first and second microphones, of which the first microphone is placed with a significantly higher acoustic coupling to a vocal tract of a user than the second microphone. Die Kommunikationsanordnung gemäß Anspruch 2, wobei das erste Mikrofon so angeordnet ist, dass es mehr akustische Energie über einen Knochenleitungspfad von dem Vokaltrakt des Nutzers aufnimmt als das zweite Mikrofon.The communication arrangement according to Claim 2 , wherein the first microphone is arranged so that it absorbs more acoustic energy via a bone conduction path from the user's vocal tract than the second microphone. Die Kommunikationsanordnung gemäß Anspruch 1, weiterhin umfassend: ein automatisches Stummschaltungsmodul, welches dazu ausgelegt ist, ein Sprachmikrofonausgangssignal in Abhängigkeit von einem eine Abwesenheit von Sprachäußerungen des Nutzers angebenden Stimmaktivitätserfassungsignal zu dämpfen und in Abhängigkeit von einem eine Anwesenheit von Sprachäußerungen des Nutzers angebenden Stimmaktivitätserfassungsignal aus der Dämpfung zu nehmen.The communication arrangement according to Claim 1 , further comprising: an automatic muting module, which is designed to attenuate a voice microphone output signal in response to a voice activity detection signal indicating an absence of user utterances and to take it out of the attenuation in response to a voice activity detection signal indicating a presence of user utterances. Die Kommunikationsanordnung gemäß Anspruch 4, wobei das automatische Stummschaltungsmodul dazu ausgelegt ist, das Sprachmikrofonausgangssignal stumm zu schalten oder zu dämpfen, nachdem eine vorbestimmte Zeitspanne nach dem Empfang des Stimmaktivitätserfassungsignals abgelaufen ist.The communication arrangement according to Claim 4 , wherein the automatic mute module is configured to mute or attenuate the voice microphone output signal after a predetermined period of time has elapsed after receipt of the voice activity detection signal. Die Kommunikationsanordnung gemäß Anspruch 1, weiterhin umfassend: ein Schlüsselworterkennungsmodul, welches dazu ausgelegt ist, ein oder mehrere Schlüsselworte in von einem Sprachmikrofonausgangssignal abgeleiteten Nutzersprachäußerungssignalen zu erkennen und als Reaktion auf ein eine erfasste Abwesenheit von Sprachäußerungen des Nutzers angebenden Stimmaktivitätserfassungsignal einen Abschaltungszustand oder Schlafzustand einzunehmen, um Energie oder Speicher zu sparen.The communication arrangement according to Claim 1 , further comprising: a keyword recognition module, which is designed to recognize one or more keywords in user speech utterance signals derived from a speech microphone output signal and to assume a shutdown state or sleep state in response to a voice activity detection signal indicating a detected absence of speech utterances of the user, in order to save energy or memory , Die Kommunikationsanordnung gemäß Anspruch 1, weiterhin umfassend: ein Nebentonmodul, welches auf Sprachäußerungen des Nutzers reagiert, um ein Nebentonsignal für den Nutzer auf einem Lautsprecher innerhalb eines Ohrstücks eines Headsets zu erzeugen und in Abhängigkeit von einem eine erfasste Abwesenheit von Sprachäußerungen des Nutzers angebenden Stimmaktivitätserfassungsignal einen Abschaltungszustand oder Schlafzustand einzunehmen, um Energie oder Speicher zu sparen.The communication arrangement according to Claim 1 , further comprising: an auxiliary sound module which reacts to the user's utterances in order to generate an auxiliary sound signal for the user on a loudspeaker within an earpiece of a headset and, depending on a voice activity detection signal indicating a detected absence of the user's utterances, assume a switch-off state or sleep state, to save energy or storage. Die Kommunikationsanordnung gemäß Anspruch 1, weiterhin umfassend: ein Nebentonmodul, welches auf Sprachäußerungen des Nutzersreagiert, um ein Nebentonsignal für den Nutzer auf einem Lautsprecher innerhalb eines Ohrstücks eines Headsets zu erzeugen und in Abhängigkeit von einem eine erfasste Abwesenheit von Sprachäußerungen des Nutzers angebenden Stimmaktivitätserfassungsignal einen Abschaltungszustand oder Schlafzustand einzunehmen, um Energie oder Speicher zu sparen.The communication arrangement according to Claim 1 , further comprising: an auxiliary sound module, which reacts to the user's utterances in order to generate an auxiliary sound signal for the user on a loudspeaker within an earpiece of a headset and, depending on a voice activity detection signal indicating a detected absence of user utterances, assume a switch-off state or sleep state in order to assume To save energy or storage. Die Kommunikationsanordnung gemäß Anspruch 1, weiterhin umfassend: ein Rauschreduktionsmodul, welches auf ein eine Anwesenheit von Sprachäußerungen des Nutzers angebenden Stimmaktivitätserfassungsignal Rauschen auf eine erste Art reduziert und in Abhängigkeit ein eine Abwesenheit von Sprachäußerungen des Nutzers angebenden Stimmaktivitätserfassungsignal Rauschen auf eine zweite Art reduziert.The communication arrangement according to Claim 1 , still comprehensive: a noise reduction module which reduces noise to a voice activity detection signal indicating a presence of user utterances, and reduces noise in a second manner depending on a voice activity detection signal indicating an absence of user utterances. Die Kommunikationsanordnung gemäß Anspruch 1, weiterhin umfassend zumindest ein sprachabhängiges Modul, welches dazu ausgelegt ist, in einer von einem Sprachinhalt eines Sprachmikrofonausgangssignal abhängigen Art und Weise betrieben zu werden und als Reaktion auf ein eine Abwesenheit von Sprachäußerungen des Nutzers angebendes Stimmaktivitätserfassungsignal einen Energie- und/oder Speichersparmodus einzunehmen.The communication arrangement according to Claim 1 , further comprising at least one language-dependent module which is designed to be operated in a manner dependent on a speech content of a speech microphone output signal and to adopt an energy and / or memory-saving mode in response to a voice activity detection signal indicating an absence of the user's utterance. Die Kommunikationsanordnung gemäß Anspruch 1, wobei die Anordnung einen ersten Knoten zur Verbindung mit einem einem Headsetohrstück zugeordneten Lautsprecher, einen zweiten Knoten zur Verbindung mit einem dem Headsetohrstück zugeordneten Vorsteuerungsumgebungsmikrofon, und einen dritten Knoten zur Verbindung mit einem dem Headsetohrstück zugeordneten Rückkopplungsfehlermikrofon aufweist, wobei die Signalverarbeitungsschaltung mit den ersten, zweiten und dritten Knoten gekoppelt ist und dazu ausgelegt ist, ein Anti-Rausch-Signal an die den Lautsprecher als Reaktion auf von dem Vorsteuerungsumgebungsmikrofon und dem Rückkopplungsfehlermikrofon ausgehende Signale auszugeben, und wobei die Signale ϕ and θ von von dem Vorsteuerungsumgebungsmikrofon und dem Rückkopplungsfehlermikrofon ausgehenden Signalen abgeleitet sind.The communication arrangement according to Claim 1 , wherein the arrangement comprises a first node for connection to a loudspeaker assigned to a headset earpiece, a second node for connection to a pilot environment microphone assigned to the headset earpiece, and a third node for connection to a feedback error microphone assigned to the headset earpiece, the signal processing circuit having the first, second and the third node and is configured to output an anti-noise signal to the speaker in response to signals from the pilot environment microphone and the feedback error microphone, and wherein the signals ϕ and θ are derived from signals from the pilot environment microphone and the feedback error microphone are. Die Kommunikationsanordnung gemäß Anspruch 11, wobei die Signalverarbeitungsschaltung weiterhin dazu ausgelegt ist, Abwesenheit von einer Nutzersprachäußerung anzuzeigen, wenn die ersten und zweiten Übertrager auf einem standardisierten Kopf-und-Torso-Simulator (HATS) platziert sind, der ein Sprachsignal in einem Bereich abgibt.The communication arrangement according to Claim 11 wherein the signal processing circuitry is further configured to indicate absence of a user utterance when the first and second transmitters are placed on a standardized head and torso simulator (HATS) that outputs a speech signal in an area. Die Kommunikationsanordnung gemäß Anspruch 11, wobei das Headsetohrstück ein Gehörganghörer mit einem das Rückkopplungsfehlermikrofon beinhaltenden Gehörgangabschnitt aufweist.The communication arrangement according to Claim 11 wherein the headset earpiece has an ear canal earphone with an ear canal portion containing the feedback error microphone. Ein Verfahren zum Betreiben einer Kommunikationsanordnung, welche ein Stimmmikrofonausgabesignal und einen Satz von zwei oder mehr Übertragern aufweist, das Verfahren umfassend: Bestimmen, ob ein Nutzer der Kommunikationsanordnung spricht, in Abhängigkeit von dem Ausgabesignal der zwei oder mehr Übertrager; und als Reaktion auf ein Bestimmen, dass der Nutzer nicht spricht, Ändern des Betriebszustandes von einem oder mehreren sprachabhängigen der Kommunikationsanordnung zugeordneten Modulen in einen Ressourcen sparenden Zustand.A method of operating a communication arrangement having a voice microphone output signal and a set of two or more transmitters, the method comprising: Determining whether a user of the communication arrangement speaks depending on the output signal of the two or more transmitters; and in response to determining that the user is not speaking, changing the operating state of one or more language-dependent modules associated with the communication arrangement to a resource-saving state. Das Verfahren gemäß Anspruch 14, wobei das eine oder die mehreren sprachabhängigen Module zumindest eines der folgenden umfasst/en: ein Stummschaltungsmodul, welches dazu ausgelegt ist, das Stimmmikrofonausgabesignal als Reaktion auf das Bestimmen, dass der Nutzer nicht spricht, stumm zu schalten; ein Schlüsselworterkennungsmodul, welches dazu ausgelegt ist, ein oder mehrere bestimmte Schlüsselworte oder -ausdrücke zu erkennen; und ein Nebentonmodul, welches dazu ausgelegt ist, ein Nebentonsignal in Abhängigkeit von dem Stimmmikrofonausgabesignal zu erzeugen.The procedure according to Claim 14 wherein the one or more language-dependent modules include at least one of the following: a mute module configured to mute the voice microphone output signal in response to determining that the user is not speaking; a keyword recognition module configured to recognize one or more specific keywords or phrases; and a sub-tone module, which is designed to generate a sub-tone signal in response to the voice microphone output signal. Das Verfahren gemäß Anspruch 14, wobei das Bestimmen, ob ein Nutzer der Kommunikationsanordnung spricht, in Abhängigkeit von dem Ausgabesignal der zwei oder mehr Übertrager, umfasst: Ableiten eines ersten Signals ϕ, eines zweiten Signals θ, und eines dritten Signals, wobei die Signale Φ und θ von den zwei oder mehr ein Umgebungsgeräuschsignal a, ein Nutzersprachäußerungssignal s und ein drittes Signal übertragenden Übertragern abgeleitet sind und eine Randbedingung erfüllen | T s θ T a θ T s φ T a φ | 2 > 0,
Figure DE112018000717T5_0043
worin T eine Übertragungsfunktion von Nutzersprachäußerungen s auf das Signal θ darstellt; T eine Übertragungsfunktion von Umgebungsgeräuschen auf das Signal θ darstellt; T eine Übertragungsfunktion von Nutzersprachäußerungen s auf das Signal Φ darstellt; und T eine Übertragungsfunktion von Umgebungsgeräuschen auf das Signal Φ darstellt und wobei das dritte Signal eine von zumindest einem eingehenden Audiosignal von einem externen Gerät oder zumindest einem Audiobenachrichtigungssignal abhängige Funktion ist.
The procedure according to Claim 14 , wherein determining whether a user of the communication arrangement is dependent on the output signal of the two or more transmitters comprises: deriving a first signal Signals, a second signal θ, and a third signal, the signals Φ and θ from the two or more, an ambient noise signal a, a user speech expression signal s and a third signal-transmitting transmitters are derived and satisfy a constraint | T s θ T a θ - T s φ T a φ | 2 > 0
Figure DE112018000717T5_0043
wherein T sθ represents a transfer function of user utterances s to the signal θ; T aθ represents a transfer function of ambient noise on the signal θ; T sΦ represents a transfer function of user utterances s to the signal Φ; and T aϕ represents a transfer function of ambient noise onto the signal Φ and wherein the third signal is a function dependent on at least one incoming audio signal from an external device or at least one audio notification signal.
Eine Kommunikationsanordnung, umfassend: erste und zweite Übertrager, welche dazu ausgelegt sind, auf einem Kopf eines Nutzers getragen zu werden, von denen der erste Übertrager dazu ausgelegt ist, eine wesentlich höheren akustischen Kopplung an einen Vokaltrakt eines Nutzers aufzuweisen als der zweite Übertrager; und eine Signalverarbeitungsschaltung, welche dazu ausgelegt ist, ein Stimmaktivitätssignal auszugeben, das eine erfasste Anwesenheit oder Abwesenheit einer Sprachäußerung eines Nutzers in einem vorbestimmten Frequenzbereich angibt, wenn die ersten und zweiten Übertrager auf dem Kopf eines Nutzers getragen werden; und wobei die Signalverarbeitungsschaltung weiterhin dazu ausgelegt ist, Abwesenheit von einer Nutzersprachäußerung anzuzeigen, wenn die ersten und zweiten Übertrager auf einem standardisierten Kopf-und-Torso-Simulator (HATS) platziert sind, der ein Sprachsignal in dem vorbestimmten Frequenzbereich abgibt. A communication arrangement comprising: first and second transmitters configured to be carried on a head of a user, of which the first transmitter is configured to have a significantly higher acoustic coupling to a vocal tract of a user than the second transmitter; and a signal processing circuit configured to output a voice activity signal indicating a detected presence or absence of a user's utterance in a predetermined frequency range when the first and second transmitters are worn on a user's head; and wherein the signal processing circuit is further configured to indicate absence of a user utterance when the first and second transmitters are placed on a standardized head-and-torso simulator (HATS) which outputs a speech signal in the predetermined frequency range. Die Kommunikationsanordnung gemäß Anspruch 17, wobei die Anordnung ein Ohrstück mit einem Lautsprecher, einem Vorsteuerungsumgebungsmikrofon, einem Rückkopplungsfehlermikrofon, einem Sprachmikrofon und einem Knoten für eingehende Audiosignale, welcher dazu ausgelegt ist, sich mit einem Kommunikationsgerät zu verbinden, welches das eingehende Audiosignal Rx bereitstellt; wobei die Signalverarbeitungsschaltung dazu ausgelegt ist, in Abhängigkeit von einem ersten Signal ϕ, einem zweiten Signal θ und einem dritten Signal zu bestimmen, ob eine Sprachäußerung eines Nutzers vorhanden ist oder nicht, wobei die Signale ϕ und θ von zumindest zweien des Vorsteuerungsumgebungsmikrofons, des Rückkopplungsfehlermikrofons, und des Sprachmikrofons abgeleitet sind, die auf zumindest Umgebungsgeräusche a, Sprachäußerungen eines Nutzers s, und das Audioeingangssignal u reagieren, mit der Randbedingung für die Signal ϕ and θ: | T s θ T a θ T s φ T a φ | 2 > 0,
Figure DE112018000717T5_0044
worin T eine Übertragungsfunktion von Nutzersprachäußerungen s auf das Signal θ darstellt; T eine Übertragungsfunktion von Umgebungsgeräuschen auf das Signal θ darstellt; T eine Übertragungsfunktion von Nutzersprachäußerungen s auf das Signal ϕ darstellt; und T eine Übertragungsfunktion von Umgebungsgeräuschen auf das Signal ϕ darstellt; und das dritte Signal zumindest teilweise von dem eingehenden Audiosignal Rx oder zumindest einem Audiobenachrichtigungssignal abhängig ist.
The communication arrangement according to Claim 17 , the arrangement comprising an earpiece with a loudspeaker, a pilot environment microphone, a feedback error microphone, a speech microphone and a node for incoming audio signals, which is designed to connect to a communication device which provides the incoming audio signal Rx; wherein the signal processing circuit is configured to determine, based on a first signal ϕ, a second signal θ, and a third signal, whether or not there is a user utterance, the signals ϕ and θ from at least two of the pilot environment microphone, the feedback error microphone , and the speech microphone are derived, which react to at least ambient noise a, speech utterances of a user s, and the audio input signal u, with the boundary condition for the signals ϕ and θ: | T s θ T a θ - T s φ T a φ | 2 > 0
Figure DE112018000717T5_0044
wherein T sθ represents a transfer function of user utterances s to the signal θ; T aθ represents a transfer function of ambient noise on the signal θ; T sΦ represents a transfer function of user utterances s to the signal ϕ; and T aϕ represents a transfer function of ambient noise on the signal ϕ; and the third signal is at least partially dependent on the incoming audio signal Rx or at least one audio notification signal.
Die Kommunikationsanordnung gemäß Anspruch 18, wobei die Signalverarbeitungsschaltung dazu ausgelegt ist, ein Anti-Rausch-Signal an die den Lautsprecher als Reaktion auf von dem Vorsteuerungsumgebungsmikrofon und dem Rückkopplungsfehlermikrofon ausgehende Signale auszugeben; und Wobei die Anordnung weiterhin einen Satz an einem oder mehreren sprachabhängigen Modulen aufweist, von denen jedes dazu ausgelegt ist, als Reaktion auf ein eine Abwesenheit von Sprachäußerungen des Nutzers angebendes Stimmaktivitätserfassungsignal einen Energie- und/oder Speichersparmodus einzunehmen, und als Reaktion auf ein eine Anwesenheit von Sprachäußerungen des Nutzers angebendes Stimmaktivitätserfassungsignal Energie- oder Speichersparmodus zu verlassen; und wobei der Satz an einem oder mehreren sprachabhängigen Modulen umfasst: ein Sprachmikrofonausgabemodul, welches dazu ausgelegt ist, ein Sprachmikrofonsignal an das Kommunikationsgerät abzugeben; ein Schlüsselworterkennungsmodul, welches dazu ausgelegt ist, ein oder mehrere Schlüsselworte oder Schlüsselbegriffe zu erkennen; und ein Nebentonmodul, welches dazu ausgeleg ist, in Abhängigkeit von dem Sprachmikrofonsignal ein Nebentonsignal zu erzeugen.The communication arrangement according to Claim 18 wherein the signal processing circuit is configured to output an anti-noise signal to the speaker in response to signals from the pilot environment microphone and the feedback error microphone; and wherein the arrangement further includes a set of one or more language-dependent modules, each of which is configured to enter a power and / or memory saving mode in response to a voice activity detection signal indicative of an absence of user utterances, and in response to presence exiting voice activity detection signal indicative of user utterances from power or memory saving mode; and wherein the set comprises, on one or more voice-dependent modules: a voice microphone output module, which is designed to output a voice microphone signal to the communication device; a keyword recognition module that is designed to recognize one or more keywords or key terms; and a sub-tone module, which is designed to generate a sub-tone signal as a function of the speech microphone signal.
DE112018000717.0T 2017-02-14 2018-02-13 METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY Pending DE112018000717T5 (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762459055P 2017-02-14 2017-02-14
US62/459,055 2017-02-14
US201762532964P 2017-07-14 2017-07-14
US62/532,964 2017-07-14
US15/711,793 2017-09-21
US15/711,793 US10564925B2 (en) 2017-02-07 2017-09-21 User voice activity detection methods, devices, assemblies, and components
PCT/US2018/018075 WO2018148762A2 (en) 2017-02-07 2018-02-13 User voice activity detection methods, devices, assemblies, and components

Publications (1)

Publication Number Publication Date
DE112018000717T5 true DE112018000717T5 (en) 2020-01-16

Family

ID=68424443

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018000717.0T Pending DE112018000717T5 (en) 2017-02-14 2018-02-13 METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY

Country Status (4)

Country Link
JP (1) JP7123951B2 (en)
KR (1) KR102578147B1 (en)
CN (1) CN110603588A (en)
DE (1) DE112018000717T5 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220322002A1 (en) * 2021-03-31 2022-10-06 Bose Corporation Gain-adaptive active noise reduction (anr) device
US11809151B1 (en) 2020-03-27 2023-11-07 Amazon Technologies, Inc. Activity-based device recommendations

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785300B (en) * 2020-06-12 2021-05-25 北京快鱼电子股份公司 Crying detection method and system based on deep neural network
US11822367B2 (en) * 2020-06-22 2023-11-21 Apple Inc. Method and system for adjusting sound playback to account for speech detection
CN112887871B (en) * 2021-01-04 2023-06-23 深圳千岸科技股份有限公司 Headset voice playing method based on permission, headset and storage medium
CN113450753B (en) * 2021-01-22 2022-10-14 深圳市三诺数字科技有限公司 Voice bone conduction equipment and communication method and storage medium thereof
CN113099338A (en) * 2021-03-08 2021-07-09 头领科技(昆山)有限公司 Intelligent control's audio chip and wireless earphone of making an uproar that falls
KR20230069707A (en) * 2021-11-12 2023-05-19 삼성전자주식회사 Method and electronic device for controlling operation
CN115348049B (en) * 2022-06-22 2024-07-09 北京理工大学 User identity authentication method utilizing earphone inward microphone
CN117198287B (en) * 2023-08-30 2024-07-05 南京汇智互娱网络科技有限公司 A voice recognition system for human-computer interaction of agent

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK1599742T3 (en) * 2003-02-25 2009-07-27 Oticon As A method of detecting a speech activity in a communication device
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
KR20120080409A (en) * 2011-01-07 2012-07-17 삼성전자주식회사 Apparatus and method for estimating noise level by noise section discrimination
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
KR102060949B1 (en) * 2013-08-09 2020-01-02 삼성전자주식회사 Method and apparatus of low power operation of hearing assistance
US9190043B2 (en) * 2013-08-27 2015-11-17 Bose Corporation Assisting conversation in noisy environments
JP6204312B2 (en) 2014-08-28 2017-09-27 日本電信電話株式会社 Sound collector
WO2016130459A1 (en) * 2015-02-09 2016-08-18 Dolby Laboratories Licensing Corporation Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809151B1 (en) 2020-03-27 2023-11-07 Amazon Technologies, Inc. Activity-based device recommendations
US20220322002A1 (en) * 2021-03-31 2022-10-06 Bose Corporation Gain-adaptive active noise reduction (anr) device
US11483655B1 (en) * 2021-03-31 2022-10-25 Bose Corporation Gain-adaptive active noise reduction (ANR) device
US11785382B2 (en) 2021-03-31 2023-10-10 Bose Corporation Gain-adaptive active noise reduction (ANR) device

Also Published As

Publication number Publication date
CN110603588A (en) 2019-12-20
JP7123951B2 (en) 2022-08-23
KR102578147B1 (en) 2023-09-13
KR20190118171A (en) 2019-10-17
JP2020506634A (en) 2020-02-27

Similar Documents

Publication Publication Date Title
DE112018000717T5 (en) METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY
US11614916B2 (en) User voice activity detection
EP3453189B1 (en) Device and method for improving the quality of in- ear microphone signals in noisy environments
DE202018107147U1 (en) Audio device with contextual valve
DE102018221726A1 (en) Audio device with acoustic valve
DE69232313T2 (en) UNIDIRECTIONAL EARPHONE AND METHOD THEREFOR
CN108712703A (en) The high-efficient noise-reducing earphone and noise reduction system of low-power consumption
US20220232310A1 (en) Wearable audio device with inner microphone adaptive noise reduction
DE102020109138A1 (en) IN-EAR HEADPHONE DEVICE WITH ACTIVE NOISE COMPENSATION
DE112016006126T5 (en) Occlusion reduction and noise reduction based on a sealing quality
US9654855B2 (en) Self-voice occlusion mitigation in headsets
DE102009010892A1 (en) Apparatus and method for reducing impact sound effects in hearing devices with active occlusion reduction
DE102015003855A1 (en) Method for operating an electroacoustic system and an electroacoustic system
Borges et al. Impact of the vent size in the feedback-path and occlusion-effect in hearing aids
US11533555B1 (en) Wearable audio device with enhanced voice pick-up
WO2019096781A1 (en) Communication systems, breathing mask and helmet
DE69228951T2 (en) NOISE CANCELLATION SYSTEM
CN116709116A (en) Sound signal processing method and earphone device
WO2021239864A1 (en) Method, device, headphones and computer program for actively suppressing the occlusion effect during the playback of audio signals
EP3913618A1 (en) Hearing aid and method for operating a hearing aid
CA3074050A1 (en) Device and method for improving the quality of in-ear microphone signals in noisy environments
EP3424203B1 (en) Telecommunication device, telecommunication system, method for operating a telecommunication device and computer program
Westerlund et al. In-ear microphone techniques for severe noise situations
DE112022002887T5 (en) Signal processing device, signal processing method and program
DE102021132434A1 (en) Device for active noise and/or occlusion suppression, corresponding method and computer program

Legal Events

Date Code Title Description
R012 Request for examination validly filed