DE112018000717T5 - METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY - Google Patents
METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY Download PDFInfo
- Publication number
- DE112018000717T5 DE112018000717T5 DE112018000717.0T DE112018000717T DE112018000717T5 DE 112018000717 T5 DE112018000717 T5 DE 112018000717T5 DE 112018000717 T DE112018000717 T DE 112018000717T DE 112018000717 T5 DE112018000717 T5 DE 112018000717T5
- Authority
- DE
- Germany
- Prior art keywords
- signal
- user
- microphone
- utterances
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims description 31
- 238000000034 method Methods 0.000 title claims description 25
- 238000004891 communication Methods 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 56
- 238000012546 transfer Methods 0.000 claims description 37
- 230000005236 sound signal Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 23
- 238000010168 coupling process Methods 0.000 claims description 17
- 238000005859 coupling reaction Methods 0.000 claims description 17
- 230000008878 coupling Effects 0.000 claims description 16
- 230000001419 dependent effect Effects 0.000 claims description 15
- 230000001755 vocal effect Effects 0.000 claims description 14
- 210000000988 bone and bone Anatomy 0.000 claims description 12
- 210000003128 head Anatomy 0.000 claims description 11
- 210000000613 ear canal Anatomy 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 210000005069 ears Anatomy 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- RXKGHZCQFXXWFQ-UHFFFAOYSA-N 4-ho-mipt Chemical compound C1=CC(O)=C2C(CCN(C)C(C)C)=CNC2=C1 RXKGHZCQFXXWFQ-UHFFFAOYSA-N 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 239000000872 buffer Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000013016 damping Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000003068 static effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2r,3r,4s,5r)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3287—Power saving characterised by the action undertaken by switching off individual functional units in the computer system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1781—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1781—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
- G10K11/17821—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
- G10K11/17827—Desired external signals, e.g. pass-through audio such as music or speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1787—General system configurations
- G10K11/17879—General system configurations using both a reference signal and an error signal
- G10K11/17881—General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1041—Mechanical or electronic switches, or control elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/10—Applications
- G10K2210/108—Communication systems, e.g. where useful sound is kept and noise is cancelled
- G10K2210/1081—Earphones, e.g. for telephones, ear protectors or headsets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/10—Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
- H04R2201/107—Monophonic and stereophonic headphones with microphone for two-way hands free communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Headphones And Earphones (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Viele Headssets nutzen automatische Rauschunterdrückung (ANC), was den Empfang von wahrgenommenem Hintergrundrauschen dramatisch reduziert und das Hörererlebnis verbessert. Leider erfassen die Sprachmikrofone in diesen Vorrichtungen häufig Umgebungsgeräusche, die diese Headsets während Telefonanrufen oder anderen Kommunikationssitzungen mit anderen Nutzern ausgeben. In Reaktion darauf stellen viele Headset sund Kommunikationsgeräte stellen manuelle Stummschaltungsschaltkreise bereit, aber Nutzer vergessen häufig die Stummschaltung ein- und/oder auszuschalten, wodurch weitere Probleme beim Kommunizieren erzeugt werden. Um dem zu begegnen, haben die hiesigen Erfinder neben anderem ein beispielhaftes Headset ersonnen, welches die Anwesenheit oder Abwesenheit von Nutzersprachäußerungen erfasst und das Sprachmikrofon ohne Zutun des Nutzers automatisch stumm schaltet und wieder aktiviert. Einige Ausführungsformen verwenden Beziehungen zwischen Rückkopplungs- und Vorsteuerungssignalen in der ANC-Schaltung, um Nutzersprachäußerungen zu erfassen, so dass auf zusätzliche Hardware in dem Headset verzichtet werden kann. Andere Ausführungsformen verwenden auch die Sprachäußerungserfassungsfunktion, um Schlüsselwortdetektoren zu aktivieren und zu deaktivieren.Many headsets use Automatic Noise Cancellation (ANC), which dramatically reduces the reception of background noise and improves the listening experience. Unfortunately, the voice microphones in these devices often pick up ambient noise that these headsets emit during phone calls or other communication sessions with other users. In response, many headsets and communication devices provide manual mute circuitry, but users often forget to toggle mute on and / or off, creating additional communication problems. To counteract this, the local inventors have, among other things, devised an exemplary headset that detects the presence or absence of user utterances and automatically mutes and reactivates the voice microphone without the user having to do anything. Some embodiments use relationships between feedback and feedforward signals in the ANC circuit to capture user utterances so that additional hardware in the headset can be eliminated. Other embodiments also use the utterance detection function to enable and disable keyword detectors.
Description
URHEBERRECHTSANMERKUNG UND ERLAUBNISCOPYRIGHT NOTE AND PERMISSION
Ein Teil dieser Patentanmeldung enthält Material, welches urheberrechtlichem Schutz unterliegt. Der Urheberrechtsinhaber hat gegenüber niemandem Einwände, was eine Faksimile-Reproduktion der Patentanmeldung oder der darin enthaltenen Offenbarung, wie sie in den patentamtlichen Akten oder Unterlagen hinterlegt sind, angeht, aber behält sich im Übrigen alle Urheberrechte vor. Die folgende Kennzeichnung gilt für dieses Dokument: Copyright© 2017, AVNERA CORPORATION.Part of this patent application contains material that is subject to copyright protection. The copyright holder has no objection to anyone regarding a facsimile reproduction of the patent application or the disclosure contained therein, as stored in the patent files or documents, but otherwise reserves all copyrights. The following marking applies to this document: Copyright © 2017, AVNERA CORPORATION.
VERWANDTE ANMELDUNGENRELATED APPLICATIONS
Die vorliegende Anmeldung beansprucht die Priorität der
TECHNISCHES GEBIETTECHNICAL AREA
Verschiedene Ausführungsformen der Erfindung beziehen sich im Generellen auf die automatische Erfassung von Nutzerstimmaktivität in Headsets unterschiedlicher Bauart, wie etwa solcher mit automatischer Rauschreduzierung.Various embodiments of the invention generally relate to the automatic detection of user voice activity in headsets of different types, such as those with automatic noise reduction.
HINTERGRUNDBACKGROUND
Sprechgarnituren, oder auch „Headsets“ genannt, haben üblicherweise ein Mikrophon zusammen mit ein oder zwei Ohrteilen oder Ohrsteckern, die über, auf oder in den Ohren von Nutzern getragen werden, um elektronische Kommunikation zu ermöglichen. Viele moderne Headsets weisen auch Schaltungen für eine automatische Rauschreduzierung („automatic noise reduction“, ANR) oder eine automatische Rauschunterdrückung („automatic noise cancellation“, ANC) auf, um automatisch signifikante Anteile von Umgebungsgeräuschen zu erfassen und zu unterdrücken, so dass das Hörerlebnis für den Nutzer verbessert wird. ANC-Schaltungen sind vom Prinzip her einfach, von der Implementierung her jedoch kompliziert, da viele Headsets bis zu sechs Mikrophone („Mics“) aufweisen: zwei für Rückkopplungs-ANC (FB-ANC), zwei für Vorsteuerungs-ANC (FF-ANC) und eines oder zwei zum Aufnehmen von Nutzersprachsignalen.Headsets, or "headsets", usually have a microphone along with one or two ear pieces or ear plugs that are worn over, on or in the ears of users to enable electronic communication. Many modern headsets also have circuits for automatic noise reduction (ANR) or automatic noise cancellation (ANC) to automatically detect and suppress significant amounts of ambient noise, so that the listening experience is improved for the user. ANC circuits are simple in principle, but complicated in implementation, since many headsets have up to six microphones (“mics”): two for feedback ANC (FB-ANC), two for feedforward ANC (FF-ANC ) and one or two for recording user voice signals.
Ein Problem, welches die hiesigen Erfinder erkannt haben, besteht darin, dass ANC-Headsets zwar das Hörerlebnis der sie tragenden Nutzer verbessert, aber nichts oder kaum etwas dazu beitragen, die Qualität der von dem Headset an andere Geräte übertragenen Signale zu verbessern. Beispielsweise ist es in vielen lärmbehafteten Umgebungen für Nutzer, die Headsets für ihre Mobiltelefone tragen, üblicherweise notwendig, ihre Telefone manuell in einen Stummschaltungsmodus zu versetzen, um es zu vermieden, dass Hintergrundlärm von dem Telefon an andere Telefone und Geräte übertragen wird. Auch wenn das prinzipiell effektiv gegen die Übertragung ungewollten Rauschens hilft, führt es häufig zu Kommunikationslücken, da Nutzer, die ihre Telefone stumm geschaltet haben, es vergessen, die Stummschaltung aufzuheben, wenn sie wieder mit dem Sprechen anfangen. Darüber hinaus ist die Problem mit eventuellen Kommunikationslücken in Konferenzschaltungen mit vielen manuell stumm und aufnahmebereit schaltenden Nutzern noch größer.One problem recognized by the present inventors is that ANC headsets improve the listening experience of the users wearing them, but do little or nothing to improve the quality of the signals transmitted from the headset to other devices. For example, in many noisy environments, users who wear headsets for their cell phones typically need to manually mute their phones to avoid background noise being transmitted from the phone to other phones and devices. While this in principle helps effectively against the transmission of unwanted noise, it often leads to communication gaps, since users who have muted their phones forget to unmute them when they start speaking again. In addition, the problem with possible communication gaps in conference calls with many users who manually switch to mute and ready to record is even greater.
Bei dem Versuch der Lösung des Problems haben einige Entwickler Schaltungen vorgesehen, die die Sprachausgabe des Sprachmikrofons überwacht und die Stummschaltung automatisch aktiviert oder deaktiviert, je nachdem ob das Niveau der Sprachmikrofonausgabe ein oder mehrere Schwellwerte überschreitet oder nicht. Allerdings leiden die Überwachungsschaltungen unter zumindest mal zwei Problemen, die ihre Nutzung in Mobiltelefonen verhindert haben. Zum ersten verbrauchen sie eine beachtliche Menge an Energie und verkürzen damit die Batterielebensdauer. Zum zweiten erzeugen die Schaltungen selbst Kommunikationslücken, nicht nur deswegen, weil sie langsam reagieren, wenn ein Sprechen einsetzt oder aufhört, sondern auch deswegen, weil sie externe Geräusche, wie etwa Stimmen von Leuten in der Nähe, mit der Stimme des Nutzers verwechseln.In attempting to solve the problem, some developers have provided circuitry that monitors the voice output of the voice microphone and automatically turns the mute on or off depending on whether or not the level of the voice microphone output exceeds one or more thresholds. However, the monitoring circuits suffer from at least two problems that have prevented their use in mobile phones. First of all, they consume a considerable amount of energy and thus shorten the battery life. Second, the circuits themselves create communication gaps, not only because they react slowly when speech begins or stops, but also because they confuse external noises, such as voices from nearby people, with the user's voice.
Dementsprechend haben die hiesigen Erfinder erkannt, dass ein Bedarf an besseren Methoden für die Reduktion der Übertragung von Umgebungsgeräuschen durch ANC und andere Arten von Headsets besteht.Accordingly, the present inventors have recognized that there is a need for better methods for reducing ambient noise transmission by ANC and other types of headsets.
ZUSAMMENFASSUNG DER ERFINDUNG SUMMARY OF THE INVENTION
Um eines oder mehrere dieser und/oder anderer Bedürfnisse oder Probleme anzugehen, haben die hiesigen Erfinder nebst anderem ein oder mehrere beispielhafte Systeme, Bausätze, Verfahren, Vorrichtungen, Anordnungen und/oder andere Komponenten ersonnen, die die Anwesenheit oder Abwesenheit von Sprachäußerungen eines Nutzers automatisch erfassen und die eine zugeordnete Stummschaltung oder andere stimm- oder sprachabhängige Funktionalitäten umsetzen. Einige Ausführungsformen umfassen ein Sprachmikrofon, zumindest zwei Steuermikrofone und eine Verarbeitungsschaltung, welche dazu ausgelegt ist, das Sprachmikrofon auf der Basis einer Beziehung der Ausgabesignale der Steuermikrofone untereinander stumm zu schalten.To address one or more of these and / or other needs or problems, the present inventors, among others, have devised one or more exemplary systems, kits, methods, devices, arrangements, and / or other components that automatically detect the presence or absence of a user's utterances record and implement an assigned muting or other voice or language-dependent functionalities. Some embodiments include a voice microphone, at least two control microphones, and processing circuitry configured to mute the voice microphone based on a relationship between the output signals of the control microphones.
In einer ersten Ausführungsform sind die zwei Steuermikrofone, beispielsweise ein an einer linken Hörmuschel angeordnetes Mikrofon und ein an einer rechten Hörmuschel angeordnetes Mikrofon, dazu ausgelegt, ungefähr symmetrisch in einen Stimmbereich eines Nutzers akustisch einzukoppeln. Die Verarbeitungsschaltung bestimmt, ob ein Nutzer spricht, in Abhängigkeit einer gemessenen zeitlichen Symmetrie - beispielweise einer Phasenbeziehung - von Ausgabesignalen der zwei Mikrofone, wobei eine hohe Symmetrie (ungefähr simultanes Ankommen an beiden Mikrofonen) eine Sprachäußerung des Nutzers kennzeichnet, und eine niedrige Symmetrie Umgebungsgeräusche oder anderweitige Sprachäußerungen kennzeichnet. Die zwei Steuermikrofone sind in einigen Varianten der ersten Ausführungsform die linken und rechten Rückkopplungsmikrofone in einem AND-Headset. Einige andere Varianten messen oder schätzen die Phasenbeziehung unter Nutzung komplexer Kohärenz der abgetasteten Mikrofonausgabesignale, und aktivieren die Stummschaltungsvorrichtung immer dann, wenn der Realteil der komplexen Kohärenz unter einen Schwellwert fällt.In a first embodiment, the two control microphones, for example a microphone arranged on a left earpiece and a microphone arranged on a right earpiece, are designed to acoustically couple approximately symmetrically into a user's voice range. The processing circuit determines whether a user speaks depending on a measured temporal symmetry - for example a phase relationship - of output signals of the two microphones, a high symmetry (approximately simultaneous arrival at both microphones) characterizing a speech utterance of the user, and a low symmetry ambient noise or indicates other expressions of language. In some variants of the first embodiment, the two control microphones are the left and right feedback microphones in an AND headset. Some other variants measure or estimate the phase relationship using complex coherence of the sampled microphone output signals and activate the mute device whenever the real part of the complex coherence falls below a threshold.
In einer zweiten Ausführungsform sind die zwei Steuermikrofone dazu ausgelegt, asymmetrisch in einen Stimmbereich eines Nutzers akustisch einzukoppeln, das heißt, ein Mikrofon koppelt stärker akustisch in einen Stimmbereich eines Nutzers ein als das andere. Die Verarbeitungsschaltung ist dazu ausgelegt, die Stummschaltung in Abhängigkeit von der relativen Stärke des Energiepegels der Ausgabesignale der zwei Mikrofone zu aktivieren oder zu deaktivieren. Beispielsweise kann in einigen ANC-Ausführungsformen das Mikrofon mit der stärkeren akustischen Ankopplung das Rückkopplungsfehlermikrofon in einer ANC-Ohrmuschel und das andere das Vorsteuerungsmikrofon sein. Die Verarbeitungsschaltung vergleicht ein Verhältnis des Ausgabesignals des Rückkopplungsfehlermikrofons und des Ausgabesignals des Vorsteuerungsmikrofons mit einem Schwellwert, um zu ermitteln, ob die Stummschaltungsfunktion aktiviert oder deaktiviert werden soll. Einige Varianten können zwei Mikrofone nutzen, die an einem Bügel oder in einem Kabel angeordnet sind, statt der zwei ANC-Steuermikrofone.In a second embodiment, the two control microphones are designed to acoustically couple asymmetrically into a user's voice range, that is, one microphone couples more acoustically into a user's voice range than the other. The processing circuit is designed to activate or deactivate the muting depending on the relative strength of the energy level of the output signals of the two microphones. For example, in some ANC embodiments, the microphone with the stronger acoustic coupling can be the feedback error microphone in an ANC ear cup and the other the pilot microphone. The processing circuit compares a ratio of the output signal of the feedback error microphone and the output signal of the pilot microphone to a threshold value in order to determine whether the muting function should be activated or deactivated. Some variants can use two microphones, which are arranged on a bracket or in a cable, instead of the two ANC control microphones.
Die Verarbeitungsschaltung vergleicht ein Verhältnis des Ausgabesignals des Rückkopplungsfehlermikrofons und des Ausgabesignals des Vorsteuerungsmikrofons mit einem Schwellwert, um zu ermitteln, ob die Stummschaltungsfunktion aktiviert oder deaktiviert werden soll. Einige Varianten können zwei Mikrofone nutzen, die an einem Stock oder einem Kabel angeordnet sind, statt der zwei ANC-Steuermikrofone. Verallgemeinerte Ausführungsformen nutzen zwei oder mehr Mikrofone, um zwei Signale zu erzeugen, wobei ein erstes Signal stärker an die Sprachäußerungen eines Nutzers gekoppelt ist als ein zweites Signal, und wobei das zweite Signal stärker an Umgebungsgeräusche gekoppelt ist als das erste Signal.The processing circuit compares a ratio of the output signal of the feedback error microphone and the output signal of the pilot microphone to a threshold value in order to determine whether the muting function should be activated or deactivated. Some variants can use two microphones, which are arranged on a stick or a cable, instead of the two ANC control microphones. Generalized embodiments use two or more microphones to generate two signals, a first signal being more closely coupled to a user's speech than a second signal, and the second signal being more strongly coupled to ambient noise than the first signal.
Eine dritte Ausführungsform schätzt eine Transferfunktion, die sowohl die Phasen- als auch Amplitudenunterschiede zwischen den Signalen der beiden Mikrofone berücksichtigt, wie etwa das Rückkopplungsfehlermikrofon und das Vorsteuerungsumgebungsmikrofon. Einige Varianten dieser Ausführungsform können auf das ANC-Mikrofon verzichten und benutzen andere Paare von Mikrofonen, wie etwa ein Sprachmikrofon und ein anderes Mikrofon. Die Transferfunktion kann mittels einer Vielzahl von Verfahren geschätzt werden, wie etwa Kalman-Filterung oder eine andere Art von Optimumsschätzer.A third embodiment estimates a transfer function that takes into account both the phase and amplitude differences between the signals from the two microphones, such as the feedback error microphone and the pilot environment microphone. Some variants of this embodiment can dispense with the ANC microphone and use other pairs of microphones, such as a speech microphone and another microphone. The transfer function can be estimated using a variety of methods, such as Kalman filtering or another type of optimum estimator.
Ein oder mehrere Ausführungsformen beinhalten auch andere Merkmale. Beispielsweise umfassen einige Ausführungsformen einen Ausblender, um Musik oder andere Audiosignale, die über einen Lautsprecher innerhalb einer mit einem oder mehreren der Mikrofone bestückten Hörmuschel ausgegeben werden, auszublenden. Einige Ausführungsformen weisen Verzögerungs- und Aufschubfunktionen für die Stummschaltung auf, um das Risiko zu minimieren, zwischen gesprochenen Worten oder während kurzer Pausen stumm zu schalten. Einige andere Ausführungsformen umfassen einen Pufferspeicher und eine Vorhersagefunktionalität, um ein rechtzeitiges Deaktivieren der Stummschaltung des Sprachmikrofons sicherzustellen und dadurch Teilverluste der Sprachäußerungen des Nutzers zu vermeiden.One or more embodiments also include other features. For example, some embodiments include a fader to fade out music or other audio signals that are output through a speaker within an earpiece equipped with one or more of the microphones. Some embodiments have mute delay and defer functions to minimize the risk of being muted between spoken words or during short pauses. Some other embodiments include a buffer memory and a prediction functionality to ensure timely deactivation of the muting of the voice microphone and thereby to avoid partial loss of the user's utterance.
KURZE BESCHREIBUNG DER ZEICHNUNGEN BRIEF DESCRIPTION OF THE DRAWINGS
Verschiedene Ausführungsformen werden hierin unter Bezugnahme auf die folgenden beigeschlossenen Zeichnungen (Fig.) beschrieben. Diese Zeichnungen sind mit Bezugszeichen für verschiedene Merkmale und Komponenten versehen, und diese Zeichen werden in der folgenden Beschreibung als Hilfsmittel für das Verstehen der Lehren verwendet, wobei gleiche Zeichen sich auf die gleichen oder ähnliche Merkmale und Komponenten beziehen.Various embodiments are described herein with reference to the following accompanying drawings (Fig.). These drawings are provided with reference numerals for various features and components, and these characters are used in the following description as an aid to understanding the teachings, where like characters refer to the same or similar features and components.
AUSFÜHRLICHE BESCHREIBUNG DER BEISPIELHAFTEN AUSFÜHRUNGSFORM(EN)DETAILED DESCRIPTION OF THE EXEMPLARY EMBODIMENT (S)
Dieses Dokument, welches Zeichnungen und Ansprüche miteinschließt, beschreibt ein oder mehrere bestimmte Ausführungsformen ein oder mehrerer Erfindungen. Diese Ausführungsformen, die nicht zu einschränkenden Zwecken, sondern zur Exemplifizierung und Erklärung der Erfindung gereichen sollen, werden in hinreichendem Detaillierungsgrad gezeigt und beschrieben, so dass es den Fachleuten möglich ist, die Erfindung(en) zu implementieren und in die Praxis umzusetzen. Außerdem kann die Beschreibung, wo es zweckdienlich erscheint, bestimmte Informationen, die den Fachleuten bekannt sind, weglassen, um eine Verschleierung der Erfindung(en) zu vermeiden.This document, which includes drawings and claims, describes one or more specific embodiments of one or more inventions. These embodiments, which are not intended to be limiting, but are intended to exemplify and explain the invention, are shown and described in sufficient detail so that those skilled in the art can implement and implement the invention (s). In addition, where appropriate, the description may omit certain information known to those skilled in the art to avoid obscuring the invention (s).
Die Hörmuscheln bzw. Ohrstücke
Die Verarbeitungsschaltung
Die Eingangs-/Ausgangsknoten
Das ANR-Verarbeitungsmodul
Das Nutzerstimmaktivitätserfassungsmodul („user voice activity detection“, UVAD) 135 weist Logikschaltungen und/oder gespeicherte maschinen-lesbare Instruktionen auf, um Eingabesignale, die von zwei oder mehr der Vorsteuerungsmikrofone FFA und FFB und der Rückkopplungsmikrofone FBA und FBB abgeleitet sind, zu verarbeiten, um die Anwesenheit oder Abwesenheit von Sprachäußerungen eines Nutzers in dem Ausgabesignal des Sprachmikrofons
Das erste Verfahren nutzt die Einsicht aus, dass akustische Pfade
Daher nutzt die beispielhafte Ausführungsform die komplexe Kohärenz der linken und rechten Rückkopplungsfehlermikrofonsignale FBL und FBR in einem Schwellwerttest, um zu ermitteln, ob Nutzerstimmaktivität vermutlich vorliegt oder nicht. Falls das Schwellwertkriterium erfüllt ist, wird ein Stummschaltungsbefehlssignal erzeugt, um das Modul
If mean(real(Cxy(freq_range))) > CT then Unmute; else Mute,
wobei mean() eine Mittelwertsfunktion (über die Frequenz) bezeichnet; real() den Realteil eines komplexen Arguments bezeichnet; Cxy(freq_range) die komplexe Kohärenz der Signale x und y über einen mit freq_range benannten Frequenzbereich bezeichnet; tiefgestelltes x das FBL-Fehlermikrofonsignal (linkes Rückkopplungsmikrofonsignal, FBA) und tiefgestelltes y das FBR-Fehlermikrofonsignal (rechtes Rückkopplungsmikrofonsignal, FBB) bezeichnet; CT den Kohärenzschwellwert bezeichnet. Der Realteil der komplexen Kohärenz Cxy wird deswegen verwendet, weil er ein Maß dafür ist, wie „phasengleich“ die zwei Signale sind. Merke: abs(Cxy) beträgt 1, falls nur ein Mittelwert ermittelt wird, aber dies kann nach wie vor nützlich sein, da die wichtige Information immer noch in der Phase steckt. Der freq_range, über welchen der Mittelwert berechnet wird, kann variieren. Allerdings können einige Ausführungsformen einen Bereich von 70 bis 700 Hz oder 100 bis 500 Hz nutzen, da die Körperschallakustik des menschlichen Larynx hauptsächlich tiefe Frequenzen umfasst. Auf eine Indikation von dem Cxy-Detektor hin, dass der Nutzer nicht spricht (dass Sprachäußerungen des Nutzers nicht vorhanden sind), schaltet die beispielhafte Ausführungsform die Ausgabesignal von einem oder mehreren Mikrofonen stumm oder dämpft selbige, wie etwa von dem Sprachmikrofon und/oder den Vorsteuerungsmikrofonen, unter Nutzung des Stummschaltungsmoduls
where mean () denotes an average function (over frequency); real () denotes the real part of a complex argument; C xy (freq_range) denotes the complex coherence of the signals x and y over a frequency range named freq_range; subscript x denotes the FBL error microphone signal (left feedback microphone signal, FBA) and subscript y denotes the FBR error microphone signal (right feedback microphone signal, FBB); CT denotes the coherence threshold. The real part of the complex coherence C xy is used because it is a measure of how "in phase" the two signals are. Note: abs (C xy ) is 1 if only an average is found, but this can still be useful as the important information is still in the phase. The freq_range over which the mean is calculated can vary. However, some embodiments can use a range of 70 to 700 Hz or 100 to 500 Hz because the structure-borne acoustic of the human larynx mainly comprises low frequencies. In response to an indication from the C xy detector that the user is not speaking (that the user's speech is not available), the exemplary embodiment mutes or attenuates the output signal from one or more microphones, such as from the speech microphone and / or the pre-control microphones, using the
In einigen Ausführungsformen kann der Kohärenzschwellwert CT im Bereich zwischen 0,7 und inklusive 0,9 liegen, mit leichten Abweichungen in der Performance. Wenn man ihn zu nahe an 1 setzt, wird der Detektor anfälliger gegenüber dem Erkennen falscher Negative (Sprachäußerungen nicht erkannt, wenn sie vorhanden sind), falls es erhebliche Hintergrundgeräusche gibt; und wenn man ihn zu niedrig ansetzt, treten mehr falsch Positive auf (das heißt, Stummschaltung, auch wenn keine Sprachäußerung vorliegt). In einigen Ausführungsformen kann der Kohärenzschwellwert dynamisch angepasst werden, basierend auf System- oder Umgebungsparametern, wie etwa Signal-zu-Rausch-Verhältnis (von Sprachsignalen). Das bedeutet, dass im Falle stärkerer Sprache gegenüber dem Rauschen einige Ausführungsformen den Schwellwert näher an 1 heran setzen, zum Beispiel auf 0,9, und dass im Falle starken Rauschens, jene Ausführungsformen das Schwellwertniveau senken, um es zu vermeiden, dass Sprachäußerungen des Nutzers stumm geschaltet werden. Ein beispielhafter Schwellwert zwischen 0,7 und 0,8, wie etwa 0,75, stellt einen guten Kompromiss dar.In some embodiments, the coherence threshold CT may range between 0.7 and 0.9 inclusive, with slight variations in performance. If you set it too close to 1, the detector becomes more susceptible to recognizing false negatives (utterances are not recognized if they are present) if there is significant background noise; and if you set it too low, there are more false positives (that is, muting even when there is no utterance). In some embodiments, the coherency threshold may be adjusted dynamically based on system or environmental parameters, such as signal-to-noise ratio (of speech signals). That is, in the case of stronger speech versus noise, some embodiments move the threshold closer to 1, for example, 0.9, and in the case of strong noise, those embodiments lower the threshold level to avoid user speech can be muted. An exemplary threshold between 0.7 and 0.8, such as 0.75, is a good compromise.
Dieser auf einer Links-Rechts-Symmetrie basierende Ansatz ist wirksam, kann aber gegenüber auf der Achse liegenden Umgebungsgeräuschen anfällig sein, welche beispielsweise auftreten können, falls sich ein zweiter Sprecher auf einer Achse mit dem Nutzer befindet (oder im Allgemeinen in gleichem Abstand zu sowohl linken als auch rechtem Ohrstück). Der Ansatz leidet auch an schlechtem Signal-zu-Rausch-Verhältnis („signal-to-noise ratio“, SNR). Auf der Achse liegende Geräusche werden hohe Kohärenz an den Rückkopplungsfehlermikrofonen verursachen und daher fälschlicherweise als Sprache erkannt werden. Interessanterweise, besteht eine Möglichkeit zum Nachweis dieser Anfälligkeit darin, ein Headset, welches diese UVAD-Taktik verfolgt (beispielsweise mit links- und rechtsseitigen Vorsteuerungsmikrofonen oder links- und rechtsseitigen Rückkopplungsmikrofonen, oder allgemein gesprochen mit zwei Mikrofonen, die so eingerichtet sind, dass sie ungefähr gleich zum Vokaltrakt beabstandet sind), auf einen konventionellen Kopf-und-Torso-Simulator („Head and Torso Simulator“, HATS) wie etwa dem durch Brüel & Kjaer Sound & Vibration Measurement A/S in Naerum, Dänemark, hergestellten B&K Type 4128-C simulator, einzusetzen. Die Headsets können dann dabei beobachtet werden, wie sie sich als Reaktion auf von den Mikrofonen ungefähr gleich beabstandete Geräuschquellen, wie beispielsweise direkt vor, hinter oder über dem HATS, automatisch in Stummschaltung versetzen.This approach, based on left-right symmetry, is effective, but can be susceptible to on-axis ambient noise, which can occur, for example, if a second speaker is on an axis with the user (or generally equidistant from both) left and right ear piece). The approach also suffers from a poor signal-to-noise ratio (SNR). Noise on the axis will cause high coherence at the feedback error microphones and will therefore be mistakenly recognized as speech. Interestingly, one way to demonstrate this vulnerability is to have a headset that follows this UVAD tactic (for example, with left and right-hand pilot microphones or left and right-hand feedback microphones, or generally speaking with two microphones that are set up to approximate are directly spaced from the vocal tract), on a conventional head and torso simulator ("Head and Torso Simulator", HATS) such as the B&K Type 4128 manufactured by Brüel & Kjaer Sound & Vibration Measurement A / S in Naerum, Denmark -C simulator. The headsets can then be observed as they automatically mute in response to noise sources approximately equally spaced from the microphones, such as directly in front of, behind, or above the HATS.
Um auf der Achse liegende Umgebungsgeräuschquellen, wie etwa Sprachäußerungen durch einen anderen als den Nutzer, zu unterdrücken und eine bessere Leistungsfähigkeit in lauten Umgebungen zu ermöglichen, nutzen einige Ausführungsformen ein zweites Verfahren zur Nutzerstimmaktivitätserfassung, welches den zusätzlichen Vorteil hat, dass es auch für Systeme mit einem einzelnen Ohrstück nützlich ist, oder generell gesprochen für jede Situation, in der zwei Mikrofone eine asymmetrische Kopplung an den Nutzer und die Umgebungsgeräusche aufweisen. Dieses Verfahren nutzt die Einsicht, dass die Menge an Energie, die an den Rückkopplungsmikrofonen (allgemein gesprochen, an dem Mikrofon mit der besseren akustischen Kopplung an den Vokaltrakt des Nutzers) ankommt, erheblich größer ist als diejenige, die an den Vorsteuerungsmikrofonen ankommt, wenn der Nutzer spricht, aufgrund der Asymmetrie in den akustischen Pfaden der Stimmsignale zu den Rückkopplungs- und Vorsteuerungsmikrofonen. Die Rückkopplungsmikrofone werden in der vorderseitigen Kavität der Ohrstücke in oder nahe bei dem Gehörgang des Nutzers platziert. Mit dieser Platzierung empfangen die Rückkopplungsmikrofone Energie aus der Stimme des Nutzers über Knochenleitungspfade
If FB_left/FF_left < DT then Mute; else Unmute,wobei FB_left/FF_left das Verhältnis der Energie im Ausgabesignal des linken Rückkopplungsmikrofons (FBA) zu der Energie im Ausgabesignal des linken Vorsteuerungsmikrofons (FFA) bezeichnet, und DT einen ausgewählten Erfassungsschwellwert für die Sprachäußerungen des Nutzers bezeichnet. In dieser Ausführungsform ist DT plattformunabhängig; allerdings wird im Allgemeinen, wenn der Nutzer spricht, das Verhältnis gegenüber der Abwesenheit von Sprache merklich ansteigen. (Das Verhältnis ist ein Übertragungsverhältnis, und in diesem Fall eine reelle Zahl.)In order to suppress on-axis ambient noise sources, such as utterances by other than the user, and to enable better performance in noisy environments, some embodiments use a second method for user voice activity detection, which has the additional advantage that it is also suitable for systems with a single ear piece is useful, or generally speaking for any situation in which two microphones have an asymmetrical coupling to the user and the ambient noise. This method takes advantage of the insight that the amount of energy that arrives at the feedback microphones (generally speaking, the microphone with the better acoustic coupling to the vocal tract of the user) is considerably greater than that which arrives at the pilot microphones when the User speaks due to the asymmetry in the acoustic paths of the voice signals to the feedback and pilot microphones. The feedback microphones are placed in the front cavity of the earpieces in or near the user's ear canal. With this placement, the feedback microphones receive energy from the user's voice via bone conduction paths
If FB_left / FF_left <DT then Mute; else displeasure,where FB_left / FF_left denotes the ratio of the energy in the output signal of the left feedback microphone (FBA) to the energy in the output signal of the left feedforward microphone (FFA), and DT denotes a selected detection threshold for the speech utterances of the user. In this embodiment, DT is platform independent; however, generally, when the user speaks, the ratio to the absence of language will increase markedly. (The ratio is a transfer ratio, and in this case a real number.)
Insbesondere können einige Ausführungsformen ein komplexwertige Übertragungsverhältnis nutzen, welches sowohl Amplituden- als auch Phaseninformationen beinhaltet, und dadurch eine bessere Leistungsfähigkeit bieten. Bei der Berücksichtigung eines Schwellwertes in diesem komplexen Fall, ist der Schwellwert kein Skalar mehr, sondern eine Linie (vielleicht gebogen oder abschnittsweise zusammengesetzt), die die komplexe Ebene durchschneidet. Beispielsweise könnte eine Linie für Werte des Imaginärteils von mehr als 0 einen Schwellwert darstellen. Oder der Schwellwert könnte sein, dass positive Realteile und Imaginärteile Sprachäußerungen kennzeichnen, wobei ein Quadrant der komplexen Ebene abgeteilt wird. Man beachte, dass einige Ausführungsformen die rechtsseitigen Rückkopplungs- und Vorsteuerungsmikrofone und nicht die linksseitigen nutzen können. Weitere Ausführungsformen können automatisch bestimmen, ob das rechte oder das linke Ohrstück benutzt werden soll. Falls beispielsweise das linke Ohrstück entfernt wird, ermittelt eine Schaltung zur Erfassung eines Ohrenaufliegens („on-ear detection“, OED), dass nur das rechtsseitige Ohrstück aufliegt, und betreibt das Stimmerfassungsmodul in Abhängigkeit von den rechtsseitigen Rückkopplungs- und Vorsteuerungsmikrofonen.In particular, some embodiments can use a complex valued transmission ratio that includes both amplitude and phase information, and thereby offer better performance. When a threshold value is taken into account in this complex case, the threshold value is no longer a scalar, but rather a line (perhaps curved or composed in sections) that intersects the complex level. For example, a line for values of the imaginary part greater than 0 could represent a threshold. Or the threshold could be that positive real parts and imaginary parts identify utterances, dividing a quadrant of the complex level. Note that some embodiments can use the right-hand side feedback and feedforward microphones and not the left-hand side. Other embodiments can automatically determine whether the right or left earpiece should be used. If, for example, the left ear piece is removed, an on-ear detection (OED) circuit detects that only the right ear piece is on and operates the voice recording module depending on the right-hand feedback and feedforward microphones.
Bei der Bestimmung der Energiepegel in den Ausgabesignalen der Rückkopplungs- und Vorsteuerungsmikrofone kann eine komplexe Übertragungsfunktion (TF)
Das bedeutet, dass in Ausführungsformen, die FFTs als Kernstück nutzen, das Verhältnis des quadrierten Absolutwertes des FFT-Ergebnisses mit einem Schwellwert in Relation gesetzt werden kann. Oder, falls man eine Implementierung ohne FFTs nutzt, es könnte einfach ein fließendes Mittel der abgetasteten Zeitsignale berechnet werden, nachdem es durch einen Bandpassfilter geschoben worden ist, um ähnliche Ergebnisse zu erzielen. Unter Nutzung der komplexen Transferfunktionsschätzung (Txy..) kann man die Vorteile der aussagekräftigen Phaseninformation nutzen.This means that in embodiments that use FFTs as the core, the ratio of the squared absolute value of the FFT result can be related to a threshold value. Or, if one uses an implementation without FFTs, a moving average of the sampled time signals could simply be calculated after being passed through a bandpass filter to achieve similar results. Using the complex transfer function estimation (Txy ..) one can take advantage of the meaningful phase information.
Der Erfassungsschwellwert DT wird im Allgemeinen in Abhängigkeit der physischen Ausgestaltungsform der Ohrstücke und der Qualität der Verkapselung, die sie für das vorderseitige Kavitätsvolumen bereitstellen, festgelegt. Bei guten ANC-Kopfhörern ist eine Dämpfung von 20dB zu erwarten, wenn der Nutzer nicht spricht. Diese steigt wegen des Knochenleitmechanismus auf etwa 0dB an, wenn der Nutzer spricht.The detection threshold DT is generally determined depending on the physical design of the ear pieces and the quality of the encapsulation that they provide for the front cavity volume. With good ANC headphones, attenuation of 20dB is expected if the user does not speak. Because of the bone conduction mechanism, this increases to around 0dB when the user speaks.
Jedoch ist der Grad der Veränderung für Im-Ohr-Kopfhörer ausgeprägter, für ohrenaufliegende Kopfhörer weniger stark ausgeprägt, und am wenigsten stark ausgeprägt für ohrenumschließende Kopfhörer, was bedeutet, dass für jede Art von Headset unterschiedliche Schwellwerte genutzt werden. Beispielsweise ist es bei ITE-Kopfhörern bei bestimmten Frequenzen, wie etwa 100 Hz, zu erwarten, dass in etwa 20dB bis 30dB mehr Schalldruck im bedeckten Ohr (FB-Mikrofon) als außerhalb (FF-Mikrofon) aufgrund von Sprachäußerungen des Nutzers auftritt. Dieser Effekt kann in ohrenumschließenden Kopfhörern ausgenutzt werden, aber der Unterschied bei In-Ohr-Kopfhörern in Bezug auf den Schalldruck von Sprachäußerungen bei 100 Hz gemessen an dem externen Schalldruck am Vorsteuerungsmikrofon beträgt vielleicht nur ein paar Dezibel. However, the degree of change is more pronounced for in-ear headphones, less pronounced for on-ear headphones, and least pronounced for circumaural headphones, which means that different threshold values are used for each type of headset. For example, it is to be expected with ITE headphones at certain frequencies, such as 100 Hz, that about 20dB to 30dB more sound pressure occurs in the covered ear (FB microphone) than outside (FF microphone) due to the user's utterance. This effect can be exploited in circumaural headphones, but the difference in in-ear headphones in terms of the sound pressure of utterances at 100 Hz compared to the external sound pressure at the pilot microphone may be only a few decibels.
Einige Ausführungsformen können den Schwellwert auch dynamisch variieren, in Abhängigkeit von gemessenen Parametern wie etwa dem Umgebungsrauschen oder mittleren Signal-zu-Rausch-Verhältnissen, oder alternativ dazu dem Nutzer einen Anpassungsmechanismus über eine beispielsweise von dem Gerät
Zu Zwecken der TF-Schätzung aktualisieren einige Ausführungsformen den Mittelwert unter bestimmten Bedingungen. Einige Ausführungsformen erkennen auch, dass das Rückkopplungsmikrofonsignal mehrere Komponenten aufweist, nämlich Audioeingangssignal Rx (vom Gerät
Dieser zweite Ansatz für eine Nutzerstimmaktivitätserfassung („user voice activity detection“, UVAD), der auf der komplexen Übertragungscharakteristik innerhalb eines bestimmten Frequenzbereiches basiert, wird als besonders stabil angenommen, wenn er mit jeglichen zwei Mikrofonen genutzt wird, die eine Übertragungscharakteristik mit den nachfolgenden Randbedingungen aufweisen. Die erste Randbedingung ist, dass sich die Übertragungscharakteristik bei Sprachäußerungen verglichen mit Interferenzen in erheblicher Weise ändert. Die zweite Randbedingung ist, dass die Übertragungscharakteristik bei Änderungen in der relativen Richtung der Interferenzen relativ aussagekräftig (d.h. relativ eindeutig) bleibt. Diese Randbedingungen können mit den Vorsteuerungs- und Rückkopplungsmikrofonen in einem In-Ohr-Headset (und in anderen Situationen, in denen ein Mikrofon stärker an den Vokaltrakt des Nutzers ankoppelt als das andere) eingehalten werden.This second approach for user voice activity detection (UVAD), which is based on the complex transmission characteristics within a certain frequency range, is assumed to be particularly stable if it is used with any two microphones that have a transmission characteristic with the following constraints exhibit. The first constraint is that the transmission characteristics of speech utterances change significantly compared to interference. The second constraint is that the transfer characteristic remains relatively meaningful (i.e., relatively unambiguous) when there are changes in the relative direction of the interference. These boundary conditions can be met with the feedforward and feedback microphones in an in-ear headset (and in other situations in which one microphone is more connected to the user's vocal tract than the other).
Das Ausgabesignal für Umgebungsschalldruck am Umgebungsmikrofon reagiert auf Umgebungsgeräusche zuerst und hat aus zweierlei Gründen die führende Phase in Bezug auf das an die Ohren ankoppelnde Vorsteuerungsmikrofon. Zum einen ist es direkt an die Umgebung angekoppelt und üblicherweise in der akustischen Pfadlänge näher an der Geräuschquelle. Zum anderen hat ein übliches Ohrstück eines Headsets eine gewisse passive Dämpfung, so dass es mehr oder weniger wie eine Art Tiefpassfilter wirkt, d.h. es macht keinen Unterschied bei sehr geringen Frequenzen, aber dämpft das an die Ohren ankoppelnde Mikrofon (FB-Mikrofon) umso erheblicher, je höher die Frequenz. Alle kausalen Tiefpassfilter induzieren einen Phasenversatz, und alle physischen Filter sind kausal.The output signal for ambient sound pressure on the ambient microphone responds first to ambient noise and has the leading phase in relation to the pilot microphone coupled to the ears for two reasons. On the one hand, it is directly coupled to the environment and usually closer to the noise source in terms of the acoustic path length. On the other hand, a common earpiece of a headset has a certain passive attenuation, so that it acts more or less like a kind of low-pass filter, i.e. it makes no difference at very low frequencies, but the higher the frequency attenuates the microphone (FB microphone), which is coupled to the ears. All causal low pass filters induce a phase shift, and all physical filters are causal.
Für Sprachäußerungen eines Nutzers gibt es neben dem akustischen Pfad vom Mund des Nutzers zum Ohr und von dort zum an die Ohren ankoppelnden Mikrofon einen weiteren Pfad von den Stimmbändern durch den Körper. Die Schallgeschwindigkeit durch den Körper ist erheblich höher, ungefähr vier- bis fünfmal höher, oder auch unter einer Millisekunde gegenüber etwa 3 bis 4,5 Millisekunden. (Die Schallgeschwindigkeit in Luft ist etwa 340 Meter pro Sekunde; in Muskelfleisch grob gesagt 1500 Meter pro Sekunde; und in Schädel und Knochen über 4000 Meter pro Sekunde). Demzufolge kommt der Schall von einer Sprachäußerung eines Nutzers, der durch den Körper des Nutzers geleitet wird, viel früher an, als das über den Mund und über die Luft übertragene akustische Signal.In addition to the acoustic path from the mouth of the user to the ear and from there to the microphone coupling to the ears, there is a further path from the vocal cords through the body for a user's utterances. The speed of sound through the body is considerably higher, about four to five times higher, or even under one millisecond compared to about 3 to 4.5 milliseconds. (The speed of sound in air is about 340 meters per second; roughly 1500 meters per second in muscle meat; and over 4000 meters per second in skull and bones). As a result, the sound from a user's speech uttered through the user's body arrives much earlier than the acoustic signal transmitted through the mouth and through the air.
Beim Blick auf Übertragungscharakteristiken zwischen einem an die Umgebung ankoppelnden und einem an die Ohren ankoppelnden Mikrofon aus nächster Nähe, wird das Umgebungsmikrofon gegenüber an die Ohren ankoppelnden Mikrofonen immer führen, unabhängig von der Ankunftsrichtung. Bei Sprachäußerungen eines Nutzers wird das die Ohren ankoppelnde Mikrofon immer gegenüber dem an die Umgebung ankoppelnden Mikrofon führen. Daher erkennt man deutlich, dass die Asymmetrie in der komplexen Transferfunktion (oder jeder anderen Basis) und die weitgehende Unempfindlichkeit gegenüber einer Richtung der Interferenzen für an die Umgebung und an die Ohren ankoppelnden Mikrofonen bei demselben Ohr viel besser geeignet ist.When looking at transmission characteristics between a microphone coupling to the environment and a microphone coupling to the ears at close range, the ambient microphone is opposite to the Always guide the ear-coupling microphones, regardless of the direction of arrival. When a user uttered speech, the microphone coupling the ears will always lead opposite the microphone coupling to the surroundings. It is therefore clear to see that the asymmetry in the complex transfer function (or any other basis) and the largely insensitivity to a direction of the interference is much more suitable for microphones coupling to the surroundings and to the ears in the same ear.
Um den Knochenleitungspfad bei dem an die Ohren ankoppelnden Mikrofon, hier Rückkopplungsmikrofon FB genannt, bestmöglich auszunutzen, berücksichtigen einige Ausführungsformen eingehende Audiosignale „Rx“ von einem externen Gerät, wie etwa dem Gerät
Ein Ansatz, um diesem Problem zu begegnen, besteht darin, einen Rx-Unterdrücker zu nutzen, welcher auf mathematische Weise den Effekt des Rx-Signal auf die UVAD-Berechnungen löscht oder beseitigt. Die beispielhafte Ausführungsform nutzt einen Rx-Unterdrücker durch Zerlegung des FB-Signals wie folgt:
- fbRx das durch das Rx-Signal verursachte FB-Mikrofonsignal ist, welches von dem an die Ohren ankoppelnden Lautsprecher abgespielt wird;
- fbambient das durch das Umgebungsrauschen verursachte FB-Mikrofonsignal ist; und
- fbspeech_BC das durch Knochenleitung verursachte FB-Mikrofonsignal ist.
- fb Rx is the FB microphone signal caused by the Rx signal, which is played by the loudspeaker coupled to the ears;
- fb ambient is the FB microphone signal caused by the ambient noise; and
- fb speech_BC is the FB microphone signal caused by bone conduction.
Man kann fbRx und fbambient auch weiterhin wie folgt definieren:
Sobald die Schätzungen für diese primär statischen Übertragungsfunktionen verfügbar sind, kann man sie dazu benutzen, das fbspeech_BC-Signal in nahezu Echtzeit zu schätzen. Die Schätzungen von Trx2fb und Tff2fb würden über die Zeit gemittelt werden. Die beispielhafte Ausführungsform nutzt schnelle Fouriertransformationen (FFTs), um die Schätzungen zu berechnen, aber in einigen Ausführungsformen kann jedwede Basis verwendet werden, die den die Knochenleitungsinformationen enthaltenden Unterraum hinreichend gut abdeckt.Once the estimates for these primarily static transfer functions are available, they can be used to estimate the fb speech_BC signal in near real time. The Trx2fb and Tff2fb estimates would be averaged over time. The exemplary embodiment uses Fast Fourier Transforms (FFTs) to compute the estimates, but in some embodiments, any base that covers the subspace containing the bone conduction information well may be used.
Wenn man Trx2fb und Tff2fb kennt, kann man fbspeech_BC ausdrücken als:
Daher wird die Nutzerspracherfassung in Abhängigkeit von einem geschätzten Signal durchgeführt, welches hauptsächlich interferenzfrei von Umgebungsgeräuschen und eingehenden Audiosignalen ist.Therefore, the user speech detection is carried out depending on an estimated signal, which is mainly interference-free from ambient noise and incoming audio signals.
Bemerkenswerterweise stützt sich diese Version des asymmetrischen Ansatzes (unter Nutzung der Rückkopplungs- und Vorsteuerungsmikrofone auf derselben Seite) auf den Knochenleitungspfad zwischen dem Vokaltrakt des Nutzers und dem Rückkopplungsmikrofon. Daher würde die Platzierung eines dieses asymmetrischen Ansatz verfolgenden Headsets auf einem konventionellen HATS (wie etwa der oben erwähnte B&K 4128-C-Simulator) im Allgemeinen einen vernünftigen Betrieb des UVADs verhindern, da konventionelle HATS keinen Knochenleitungspfad aufweisen. Mit anderen Worten, würde das auf dem HATS aufgesetzte Headset in Abhängigkeit von einem an das HATS eingegebenen Nutzerstimmsignals im entsprechenden Frequenzbereich nicht in der Lage sein, in geeigneter Weise die Stummschaltung zu aktivieren und zu deaktivieren (oder auf andere Weise die Nutzerstimmaktivität korrekt zu erfassen). (Ein Pfad von dem Vokaltrakt zu dem Rückkopplungsmikrofon würde aufgrund von Vibrationen existieren, aber dieser Pfad würde nur sehr schwach im Vergleich zu einer echten Knochenleitung angekoppelt sein.)Remarkably, this version of the asymmetrical approach (using the feedback and feedforward microphones on the same side) relies on the bone conduction path between the user's vocal tract and the feedback microphone. Therefore, placing a headset using this asymmetrical approach on a conventional HATS (such as the B&K 4128-C simulator mentioned above) would generally prevent the UVAD from operating properly since conventional HATS have no bone conduction pathway. In other words, depending on a user voice signal input to the HATS in the corresponding frequency range, the headset put on the HATS would not be able to appropriately activate and deactivate the muting (or otherwise correctly detect the user voice activity). , (A path from the vocal tract to the feedback microphone would exist due to vibrations, but this path would be very weakly coupled compared to real bone conduction.)
Einige Ausführungsformen kombinieren die auf Symmetrie und Asymmetrie basierenden Schwellwertvergleiche gemeinsam, wie folgt:
if (coherence_of_left_and_right < CT), then Mute; else {if ((fb_left/ff_left) < ET, Mute; else Unmute}Bemerkenswerterweise zieht eine Implementierung dieser Erfassungslogik die Nutzung dreier Steuermikrofone, nämlich der links- und rechtsseitigen Rückkopplungsfehlermikrofone sowie einem der Vorsteuerungsmikrofone nach sich. Außerdem erlaubt diese Logik nur den asymmetrischen Schwellwertvergleich (das Verhältnis von Rückkopplungsmikrofonenergie zu Vorsteuerungsmikrofonenergie), um eine Aufhebung der Stummschaltung zu steuern. Andere Ausführungsformen könnten beide Vergleiche zum Auslösen der Aufhebung der Stummschaltung erlauben.Some embodiments combine the threshold comparisons based on symmetry and asymmetry as follows:
if (coherence_of_left_and_right <CT), then mute; else {if ((fb_left / ff_left) <ET, Mute; else Unmute}Remarkably, implementation of this detection logic entails the use of three control microphones, namely the left and right side feedback error microphones and one of the pilot microphones. In addition, this logic only allows the asymmetric threshold comparison (the ratio of feedback microphone energy to pilot microphone energy) to control unmute cancellation. Other embodiments could allow both comparisons to trigger unmute.
Zusätzlich schaffen einige Aufhebung der Stummschaltung Puffer innerhalb der Verarbeitungsschaltung
Das Stummschaltungsmodul
Generell gesprochen, führen einige Ausführungsformen ein Abstufen, absichtliches Verlangsamen oder Abklingen der Zustandsänderungen zwischen Stummschaltungsaktivierung und Stummschaltungsaktivierung (und umgekehrt) durch, um sehr schnelle Verstärkungsänderungen durch das Mikrofon zu vermeiden, die ansonsten hörbare Knack- oder Klickgeräusche erzeugen würden, welche nervig sind und eine schlechte Audiokomponentenqualität suggerieren. Dies wird im Allgemeinen dadurch behoben, dass die Verstärkungsänderungen graduell statt instantan vorgenommen werden. Zum Beispiel kann in einer Ausführungsform der „Angriff“ von An zu Aus über ungefähr 100 Millisekunden hinweg stattfinden, was langsam genug ist, um ein Knacken zu vermeiden, und lang genug ist, um die Speicheranforderungen an den Vorgriffspuffer zu minimieren. Eine Ausführungsform nutzt eine Abklingfunktion des folgenden Ausdrucks:
If start mute { static float decayCoef = 1; if (decayCoef > 0.00316) decayCoef *= 0.995 // -25dB Scale the output with decayCoef }Generally speaking, some embodiments step, deliberately slow or fade the state changes between mute activation and mute activation (and vice versa) to avoid very rapid gain changes through the microphone that would otherwise produce audible clicks or clicks, which are annoying and one suggest poor audio component quality. This is generally remedied by making the gain changes gradually rather than instantaneously. For example, in one embodiment, the "attack" from on to off can occur for about 100 milliseconds, which is slow enough to avoid cracking and long enough to minimize the memory requirements on the look-ahead buffer. One embodiment uses a decay function of the following expression:
If start mute { static float decayCoef = 1; if (decayCoef> 0.00316) decayCoef * = 0.995 // -25dB Scale the output with decayCoef}
Einige Ausführungsformen erleichtern ein effizienteres automatisches Stummschalten, indem sie erfassen, wenn ein System mit zwei Ohrstücken nur ein Ohrstück ordnungsgemäß einsetzt. Einige dieser Ausführungsformen stützen sich auf einen Detektor für ein Ohrenaufliegen („On Ear Detector“, OED), um die Leistungsfähigkeit zu optimieren. Details des OED werden weiter in der
Das sprachabhängige Modul
In einigen anderen Ausführungsformen umfasst das Modul
Block
Block
Insbesondere weist das System der
Das Ziel beim linearen Modell ist es, die Messung M des Rückkopplungsmikrofons in eine Linearkombination unabhängiger Komponenten zu zerlegen (Umgebungsgeräusche, Rx und Nutzersprachäußerungen). Dieses Modell lässt sich auf schmalbandige Signale anwenden, d.h. für einen bestimmten Frequenzschlitz. Um ein Breitbandsystem zu modellieren, würde man Frequenzindizes für jeden Term hinzufügen.The goal of the linear model is to break down the measurement M of the feedback microphone into a linear combination of independent components (ambient noise, Rx and user utterances). This model can be applied to narrowband signals, i.e. for a specific frequency slot. To model a broadband system, one would add frequency indices for each term.
Die Varianzen können wie folgt ausgedrückt werden:
Wiederum gilt dies für den schmalbandigen Fall. Ein Berechnen der Varianzen bei jeder Frequenz würde das Leistungsspektrum von A, S und N ergeben. Diese Varianzen sind instantane Werte:
Der Regressionskoeffizient G ist definiert als
Schätzung: Das Nachverfolgen des Regressionskoeffizienten, G(t), in seinem Änderungsverhalten über die Zeit kann eine Herausforderung darstellen. Noch blöder ist die Tatsache, dass wenn Rx vorhanden ist, die Kohärenz zwischen M und N reduziert ist, was die Varianz der Schätzung erhöht. Das Ausnutzen einer Beziehung zu U vereinfacht das Schätzungsproblem, ist aber nicht notwendigerweise erforderlich. Einige Ausführungsformen formulieren das Schätzungsproblem in einem Zustandsraum-Referenzmodell unter Nutzung des Messmodells M(t), was sich wie folgt definiert
Einige Ausführungsformen nutzen das folgende Prozessmodell:
Das Zustandsraum- Referenzmodell ist nützlich, weil es effiziente Algorithmen für die Zustandsschätzung gibt (z.B. Rekursive Kleinste Quadrate (RLS), Kleinste Mittlere Quadrate (LMS) und Kalmanfilter). Einige Ausführungsformen schätzen die Zustände G(t) und H(t) in mehreren Frequenzschlitzen durch Nutzung eines Kalmanfilters für jeden Schlitz.The state space reference model is useful because there are efficient state estimation algorithms (e.g. Recursive Least Squares (RLS), Least Mean Squares (LMS) and Kalman Filters). Some embodiments estimate the states G (t) and H (t) in multiple frequency slots by using a Kalman filter for each slot.
Einige Ausführungsformen involvieren einen etwas allgemeineren Ansatz für die Nutzerstimmaktivitätsdetektion, welcher die Notwendigkeit der expliziten Charakterisierung der elektroakustischen Parameter des Systems umgeht. Der verallgemeinerte Ansatz nutzt zwei Signale θ (theta) und ϕ (phi), die jeweils eine Funktion von zumindest zweien der Variablen Nutzersprachäußerung s, Umgebungsgeräusche a und/oder eingehendes Audiosignal u sind, jeweils gemäß der Matrix der Übertragungsfunktionen T. (Eingehende Audiosignale u können eine Mischung von extern erzeugten Audiosignalen wie etwa Rx/Musik von einem Kommunikationsgerät und intern erzeugten Audiosignalen, wie etwa Systemereignisbenachrichtigungen, Hinweisen oder Alarmsignalen sein) Die Matrix der Übertragungsfunktionen T wird dadurch bestimmt, wie Sprachäußerungen, Umgebung und eingehende Audiosignale u auf den zwei oder mehr Übertragern erscheinen, und wie die Übertrage mit einer Referenz auf die Rx/Musik kombiniert werden, um phi und theta zu erzeugen. Mathematisch gesprochen kann das ausgedrückt werden als
Abbilden der Terme dieses verallgemeinerten Modells auf die spezifische elektroakustische Implementierung von
Einige Ausführungsformen können eine alternative asymmetrische Randbedingung der folgenden Form nutzen
Der Schätzerblock
Der Varianzverhältnisschätzerblock
SCHLUSSFOLGERUNGCONCLUSION
In der oben stehenden Beschreibung sind bestimmte beispielhafte Ausführungsformen beschrieben worden. Jedoch wird ein durchschnittlicher Fachmann erkennen, dass verschiedentliche Modifikationen und Änderungen vorgenommen werden können, ohne vom Schutzbereich der in den folgenden Ansprüchen festgelegten Erfindung abzuweichen. Dementsprechend sind die Beschreibung und die Figuren in einem beispielhaften und nicht einem einschränkenden Sinne zu verstehen, und alle solche Modifikationen sollen im Offenbarungsgehalt der vorliegenden Lehren als miteingeschlossen gelten.Certain exemplary embodiments have been described in the above description. However, one of ordinary skill in the art will recognize that various modifications and changes can be made without departing from the scope of the invention as defined in the following claims. Accordingly, the description and figures are to be regarded in an exemplary rather than a restrictive sense, and all such modifications are intended to be included in the disclosure of the present teachings.
Die Vorzüge, Vorteile, Problemlösungen und alle Elemente, die jegliche/n Vorzug, Vorteil, oder Problemlösung ermöglichen oder besser zur Geltung bringen, sollen nicht als kritische, notwendige oder essentielle Merkmale oder Elemente jedes einzelnen oder aller der Ansprüche angesehen werden. Die Erfindung wird ausschließlich durch die beigefügten Ansprüche inklusive aller während der Anhängigkeit dieser Anmeldung vorgenommenen Änderungen und aller ihrer Äquivalente dieser erteilten Ansprüche definiert.The merits, advantages, solutions to problems and all elements which enable or better emphasize any merits, advantages or problem solving should not be regarded as critical, necessary or essential features or elements of each or all of the claims. The invention is defined solely by the appended claims, including all changes made during the pending application of this application and all of its equivalents to these claims.
Darüber hinaus können in diesem Dokument relative Angaben wie etwa zweites, oben, unten und dergleichen lediglich verwendet werden, um eine Entität oder Handlung von einer anderen Entität oder Handlung zu differenzieren, ohne notwendigerweise zu verlangen oder zu implizieren, dass eine tatsächliche solche Relation zwischen solchen Entitäten oder Handlungen bestehen muss. Die Begriffe „umfassen“, „umfassend“, „hat“, „mit“, „weist auf“, „aufweisend“, „beinhaltet“, „beinhaltend“ oder jegliche Varianten davon sollen eine nicht-exklusive Inklusionsangabe darstellen, dergestalt, dass ein Vorgang, ein Verfahren, ein Artikel oder ein Apparat, welche/r/s eine Liste von Elementen umfasst, hat, aufweist, beinhaltet, nicht nur jene Elemente aufweist, sondern andere nicht explizit oder in der Liste aufgeführte oder einem solchen Vorgang, Verfahren, Artikel oder Apparat inhärente Elemente ebenfalls aufweisen kann. Ein Element, welches mit „umfasst ein“, „hat ein“, weist ein ... auf", „beinhaltet ein“ schließt ohne weitere Bedingungen nicht die Existenz zusätzlicher identischer Elemente in dem Vorgang, Verfahren, Artikel oder Apparat aus, welches das Element umfasst, hat, aufweist oder beinhaltet. Die Artikel „ein“ und „eine“ werden als „ein/e oder mehrere“ definiert, es sei denn, es wird etwas anderes explizit hierbei angegeben. Die Begriffe „im Wesentlichen“, „substantiell“, „ungefähr“, „in etwa“ oder jede andere Variante davon werden als „nahe dran“ definiert, wie es sich für einen durchschnittlichen Fachmann erschließen wird, und in einer nicht beschränkenden Ausführungsform werden die Begriffe als im Rahmen von 10% Abweichung, in einer anderen Ausführungsform als im Rahmen von 5% Abweichung, in einer anderen Ausführungsform als im Rahmen von 1% in einer anderen Ausführungsform als im Rahmen von 0,5% angesehen. Der Begriff „gekoppelt“ wie hierin verwendet wird definiert als verbunden, aber weder notwendigerweise in direkter Weise noch notwendigerweise auf mechanische Art. Ein Gerät oder eine Struktur, die in einer bestimmten Weise „ausgelegt“ ist, ist zumindest in dieser Art ausgelegt, aber kann auch in nicht aufgeführter Weise ausgelegt sein. Der Begriff „beispielhaft“ ist ebenfalls hierin adjektivisch verwendet, um ein oder mehrere Nomen, wie etwa Ausführungsform, System, Verfahren oder Gerät, zu modifizieren und soll spezifisch angeben, dass das Nomen als nicht einschränkendes Beispiel gemeint ist.In addition, relative references, such as second, top, bottom, and the like, may only be used in this document to differentiate an entity or action from another entity or action, without necessarily requiring or implying that an actual such relationship exists between them Entities or actions must exist. The terms "comprise", "comprehensive", "has", "with", "points to", "showing", "contains", "containing" or any variant thereof are intended to represent a non-exclusive inclusion statement such that a Process, a method, an article or an apparatus, which has, has, includes, includes, not only those elements, but other not explicitly or in the list or such a process, method, Items or apparatus may also have inherent elements. An element that includes "includes a", "has a", has a ... "," includes a "does not exclude the existence of additional identical elements in the process, procedure, article, or apparatus without further conditions, which the Element includes, has, has, or includes The articles "a" and "one" are defined as "one or more", unless explicitly stated otherwise. The terms "essentially", "substantial""," Approximately "," approximately "or any other variant thereof are defined as" close to ", as will be apparent to the average person skilled in the art, and in one non-limiting embodiment, the terms are considered to be within 10% deviation, viewed in another embodiment as within a 5% deviation, in another embodiment as within 1% in another embodiment as within 0.5%. The term “coupled” as used herein is defined as connected, but not necessarily in a direct or mechanical manner. A device or structure that is "designed" in a particular way is designed at least in this way, but can also be in not be designed. The term “exemplary” is also used adjectively herein to modify one or more nouns, such as embodiment, system, method, or device, and is intended to specifically indicate that the noun is meant to be a non-limiting example.
ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant has been generated automatically and is only included for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent literature cited
- US 15711793 [0002]US 15711793 [0002]
- US 62456100 [0002]US 62456100 [0002]
- US 15069271 [0025]US 15069271 [0025]
- US 14/850859 [0055]US 14/850859 [0055]
- US 62530049 [0057]US 62530049 [0057]
- US 14850859 [0059]US 14850859 [0059]
Claims (19)
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762459055P | 2017-02-14 | 2017-02-14 | |
US62/459,055 | 2017-02-14 | ||
US201762532964P | 2017-07-14 | 2017-07-14 | |
US62/532,964 | 2017-07-14 | ||
US15/711,793 | 2017-09-21 | ||
US15/711,793 US10564925B2 (en) | 2017-02-07 | 2017-09-21 | User voice activity detection methods, devices, assemblies, and components |
PCT/US2018/018075 WO2018148762A2 (en) | 2017-02-07 | 2018-02-13 | User voice activity detection methods, devices, assemblies, and components |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112018000717T5 true DE112018000717T5 (en) | 2020-01-16 |
Family
ID=68424443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112018000717.0T Pending DE112018000717T5 (en) | 2017-02-14 | 2018-02-13 | METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP7123951B2 (en) |
KR (1) | KR102578147B1 (en) |
CN (1) | CN110603588A (en) |
DE (1) | DE112018000717T5 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220322002A1 (en) * | 2021-03-31 | 2022-10-06 | Bose Corporation | Gain-adaptive active noise reduction (anr) device |
US11809151B1 (en) | 2020-03-27 | 2023-11-07 | Amazon Technologies, Inc. | Activity-based device recommendations |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785300B (en) * | 2020-06-12 | 2021-05-25 | 北京快鱼电子股份公司 | Crying detection method and system based on deep neural network |
US11822367B2 (en) * | 2020-06-22 | 2023-11-21 | Apple Inc. | Method and system for adjusting sound playback to account for speech detection |
CN112887871B (en) * | 2021-01-04 | 2023-06-23 | 深圳千岸科技股份有限公司 | Headset voice playing method based on permission, headset and storage medium |
CN113450753B (en) * | 2021-01-22 | 2022-10-14 | 深圳市三诺数字科技有限公司 | Voice bone conduction equipment and communication method and storage medium thereof |
CN113099338A (en) * | 2021-03-08 | 2021-07-09 | 头领科技(昆山)有限公司 | Intelligent control's audio chip and wireless earphone of making an uproar that falls |
KR20230069707A (en) * | 2021-11-12 | 2023-05-19 | 삼성전자주식회사 | Method and electronic device for controlling operation |
CN115348049B (en) * | 2022-06-22 | 2024-07-09 | 北京理工大学 | User identity authentication method utilizing earphone inward microphone |
CN117198287B (en) * | 2023-08-30 | 2024-07-05 | 南京汇智互娱网络科技有限公司 | A voice recognition system for human-computer interaction of agent |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK1599742T3 (en) * | 2003-02-25 | 2009-07-27 | Oticon As | A method of detecting a speech activity in a communication device |
US20110288860A1 (en) | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
KR20120080409A (en) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | Apparatus and method for estimating noise level by noise section discrimination |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
KR102060949B1 (en) * | 2013-08-09 | 2020-01-02 | 삼성전자주식회사 | Method and apparatus of low power operation of hearing assistance |
US9190043B2 (en) * | 2013-08-27 | 2015-11-17 | Bose Corporation | Assisting conversation in noisy environments |
JP6204312B2 (en) | 2014-08-28 | 2017-09-27 | 日本電信電話株式会社 | Sound collector |
WO2016130459A1 (en) * | 2015-02-09 | 2016-08-18 | Dolby Laboratories Licensing Corporation | Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants |
-
2018
- 2018-02-13 DE DE112018000717.0T patent/DE112018000717T5/en active Pending
- 2018-02-13 CN CN201880016579.7A patent/CN110603588A/en active Pending
- 2018-02-13 JP JP2019542604A patent/JP7123951B2/en active Active
- 2018-02-13 KR KR1020197026035A patent/KR102578147B1/en active IP Right Grant
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11809151B1 (en) | 2020-03-27 | 2023-11-07 | Amazon Technologies, Inc. | Activity-based device recommendations |
US20220322002A1 (en) * | 2021-03-31 | 2022-10-06 | Bose Corporation | Gain-adaptive active noise reduction (anr) device |
US11483655B1 (en) * | 2021-03-31 | 2022-10-25 | Bose Corporation | Gain-adaptive active noise reduction (ANR) device |
US11785382B2 (en) | 2021-03-31 | 2023-10-10 | Bose Corporation | Gain-adaptive active noise reduction (ANR) device |
Also Published As
Publication number | Publication date |
---|---|
CN110603588A (en) | 2019-12-20 |
JP7123951B2 (en) | 2022-08-23 |
KR102578147B1 (en) | 2023-09-13 |
KR20190118171A (en) | 2019-10-17 |
JP2020506634A (en) | 2020-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112018000717T5 (en) | METHOD, DEVICES, ARRANGEMENTS AND COMPONENTS FOR DETERMINING THE ACTIVITY OF USER VOICE ACTIVITY | |
US11614916B2 (en) | User voice activity detection | |
EP3453189B1 (en) | Device and method for improving the quality of in- ear microphone signals in noisy environments | |
DE202018107147U1 (en) | Audio device with contextual valve | |
DE102018221726A1 (en) | Audio device with acoustic valve | |
DE69232313T2 (en) | UNIDIRECTIONAL EARPHONE AND METHOD THEREFOR | |
CN108712703A (en) | The high-efficient noise-reducing earphone and noise reduction system of low-power consumption | |
US20220232310A1 (en) | Wearable audio device with inner microphone adaptive noise reduction | |
DE102020109138A1 (en) | IN-EAR HEADPHONE DEVICE WITH ACTIVE NOISE COMPENSATION | |
DE112016006126T5 (en) | Occlusion reduction and noise reduction based on a sealing quality | |
US9654855B2 (en) | Self-voice occlusion mitigation in headsets | |
DE102009010892A1 (en) | Apparatus and method for reducing impact sound effects in hearing devices with active occlusion reduction | |
DE102015003855A1 (en) | Method for operating an electroacoustic system and an electroacoustic system | |
Borges et al. | Impact of the vent size in the feedback-path and occlusion-effect in hearing aids | |
US11533555B1 (en) | Wearable audio device with enhanced voice pick-up | |
WO2019096781A1 (en) | Communication systems, breathing mask and helmet | |
DE69228951T2 (en) | NOISE CANCELLATION SYSTEM | |
CN116709116A (en) | Sound signal processing method and earphone device | |
WO2021239864A1 (en) | Method, device, headphones and computer program for actively suppressing the occlusion effect during the playback of audio signals | |
EP3913618A1 (en) | Hearing aid and method for operating a hearing aid | |
CA3074050A1 (en) | Device and method for improving the quality of in-ear microphone signals in noisy environments | |
EP3424203B1 (en) | Telecommunication device, telecommunication system, method for operating a telecommunication device and computer program | |
Westerlund et al. | In-ear microphone techniques for severe noise situations | |
DE112022002887T5 (en) | Signal processing device, signal processing method and program | |
DE102021132434A1 (en) | Device for active noise and/or occlusion suppression, corresponding method and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed |