EP4435781B1 - Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren - Google Patents
Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahrenInfo
- Publication number
- EP4435781B1 EP4435781B1 EP23163841.2A EP23163841A EP4435781B1 EP 4435781 B1 EP4435781 B1 EP 4435781B1 EP 23163841 A EP23163841 A EP 23163841A EP 4435781 B1 EP4435781 B1 EP 4435781B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- audio
- output
- audio data
- provision
- uncertainty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Claims (14)
- Ein Audiogerät (10), das aus Speicher, einer Schnittstelle und einem oder mehreren Prozessoren (10C) besteht, wobei ein oder mehrere Prozessoren (10C) so konfiguriert sind:Erhalten (S102) Audiodaten;Ablauf (S106) die Audiodaten zur Bereitstellung eines Audioausgangs;Ablauf (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter, die auf eine oder mehrere Eigenschaften der Audiodaten hinweisen;Karte (S110) einen oder mehrere Audioparameter zu einem ersten latenten Raum eines ersten neuronalen Netzwerks zur Bereitstellung eines Abbildungsparameters, der darauf hinweist, ob ein oder mehrere Audioparameter zu einer Trainingsmannigfaltigkeit des ersten latenten Raums gehören; Bestimmen (S112), basierend auf dem Abbildungsparameter, einem Unsicherheitsparameter, der auf eine Unsicherheit der Verarbeitungsqualität hinweist; undSteuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs basierend auf dem Unschärfeparameter.
- Das Audiogerät (10) gemäß Anspruch 1, wobei zur Verarbeitung (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter zur Kodierung (S108A) der Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter mittels des ersten neuronalen Netzwerks bestehen.
- Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, bei dem ein oder mehrere Prozessoren (10C) einen digitalen Signalprozessor (14B) mit einem zweiten neuronalen Netzwerk bilden, und bei dem die Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs die Bereitstellung (S106A) der Audiodaten als Eingang für das zweite neuronale Netzwerk und zur Verarbeitung (S106B) bestehen die Audiodaten verwenden das zweite neuronale Netzwerk zur Bereitstellung eines primären Ausgangs basierend auf dem Unsicherheitsparameter, wobei der Audioausgang auf dem primären Ausgang basiert.
- Das Audiogerät (10) gemäß Anspruch 3, wobei das zweite neuronale Netzwerk ein tiefes neuronales Netzwerk bildet.
- Das Audiogerät (10) gemäß einem der Ansprüche 3-4, wobei der digitale Signalprozessor (14B) einen Controller (14A) umfasst, der darauf konfiguriert ist, einen Controller-Ausgang basierend auf dem Unsicherheitsparameter zu bestimmen, und wobei die Steuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs zur Steuerung (S114A) die Verarbeitung der Audiodaten basierend auf dem Controller-Ausgang umfasst.
- Das Audiogerät (10) gemäß einem der Ansprüche 3-5, wobei ein oder mehrere Prozessoren (10C) einen sekundären Prozessor (14D) bilden, der sich vom digitalen Signalprozessor (14B) unterscheidet, wobei zur Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs zur Verarbeitung (S106C) bestehen die Audiodaten für die Bereitstellung eines sekundären Ausgangs, der sich vom primären Ausgang unterscheidet, mittels des sekundären Prozessors (14D), wobei der Audioausgang auf dem sekundären Ausgang basiert.
- Das Audiogerät (10) gemäß Anspruch 6, bei dem ein oder mehrere Prozessoren (10C) einen Mischer (14C) bilden und bei dem (S106) die Audiodaten zur Bereitstellung eines Audioausgangs zum Mischen (S106D) des primären Ausgangs und des sekundären Ausgangs zur Bereitstellung eines gemischten Ausgangs bestehen, wobei der Audioausgang auf dem gemischten Ausgang basiert.
- Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei die Trainingsmannigfaltigkeit (26) eine Wahrscheinlichkeitsverteilung umfasst und bei der die Abbildung (S110) der ein oder mehrere Audioparameter die Abbildung (S110A) eines oder mehrerer Audioparameter auf die Wahrscheinlichkeitsverteilung zur Bereitstellung des Mapping-Parameters umfasst.
- Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei die Abbildung (S110) der einen oder mehrerer Audioparameter mit einem ersten latenten Raum (22) eines ersten neuronalen Netzwerks zur Bestimmung (S110B) eines Abstands zwischen einem oder mehreren Audioparametern und der Trainingsmannigfaltigkeit (26) besteht.
- Das Audiogerät (10) gemäß einer der vorherigen Ansprüche, wobei ein oder mehrere Prozessoren (10C) konfiguriert sind, um:
Bestimmen (S104) ob der Unschärfeparameter ein erstes Kriterium erfüllt, und gemäß dem Unsicherheitsparameter, der das erste Kriterium erfüllt, wird der Prozess (S106E) die Audiodaten gemäß einem ersten Signalverarbeitungsschema zur Bereitstellung des Audioausgangs. - Das Audiogerät (10) gemäß Anspruch 10, bei dem ein oder mehrere Prozessoren (10C) konfiguriert sind, um: gemäß dem Unsicherheitsparameter, der das erste Kriterium nicht erfüllt, und/oder gemäß dem Unsicherheitsparameter, der ein zweites Kriterium erfüllt, die Audiodaten (S106F) gemäß einem zweiten Signalverarbeitungsverfahren zur Bereitstellung des Audioausgangs zu verarbeiten.
- Das Audiogerät (10) gemäß Anspruch 11, bei dem ein oder mehrere Prozessoren (10C) konfiguriert sind, um: gemäß dem Unsicherheitsparameter, der das erste Kriterium nicht erfüllt, und entsprechend dem Unsicherheitsparameter, der das zweite Kriterium nicht erfüllt, die Audiodaten gemäß einem dritten Signalverarbeitungsschema zur Bereitstellung des Audioausgangs zu verarbeiten.
- Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei ein oder mehrere Prozessoren (10C) so konfiguriert sind, dass sie den Audioausgang über das Interface (10A) ausgeben.
- Methode (100) zum Betrieb eines Audiogeräts, wobei die Methode Folgendes umfasst:Erwerb (S102) Audiodaten;Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs;Verarbeitung (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter, die auf eine oder mehrere Eigenschaften der Audiodaten hinweisen;Kartierung (S110) einen oder mehrere Audioparameter zu einem ersten latenten Raum eines ersten neuronalen Netzwerks zur Bereitstellung eines Abbildungsparameters, der darauf hinweist, ob ein oder mehrere Audioparameter zu einer Trainingsmannigfaltigkeit des ersten latenten Raums gehören;Bestimmung (S112), basierend auf dem Abbildungsparameter, einem Unsicherheitsparameter, der auf eine Unsicherheit der Verarbeitungsqualität hinweist; undSteuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs basierend auf dem Unschärfeparameter.
Priority Applications (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP23163841.2A EP4435781B1 (de) | 2023-03-23 | 2023-03-23 | Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren |
| EP23205237.3A EP4435782A1 (de) | 2023-03-23 | 2023-10-23 | Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren |
| US18/604,634 US20240321281A1 (en) | 2023-03-23 | 2024-03-14 | Audio device with uncertainty quantification and related methods |
| US18/604,624 US12248727B2 (en) | 2023-03-23 | 2024-03-14 | Audio device with uncertainty quantification and related methods |
| CN202410330075.XA CN118692488A (zh) | 2023-03-23 | 2024-03-21 | 具有不确定性量化的音频设备及相关方法 |
| CN202410329143.0A CN118692487A (zh) | 2023-03-23 | 2024-03-21 | 具有不确定性量化的音频设备及相关方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP23163841.2A EP4435781B1 (de) | 2023-03-23 | 2023-03-23 | Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| EP4435781A1 EP4435781A1 (de) | 2024-09-25 |
| EP4435781B1 true EP4435781B1 (de) | 2026-03-18 |
Family
ID=85726289
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP23163841.2A Active EP4435781B1 (de) | 2023-03-23 | 2023-03-23 | Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren |
| EP23205237.3A Pending EP4435782A1 (de) | 2023-03-23 | 2023-10-23 | Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP23205237.3A Pending EP4435782A1 (de) | 2023-03-23 | 2023-10-23 | Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren |
Country Status (3)
| Country | Link |
|---|---|
| US (2) | US20240321281A1 (de) |
| EP (2) | EP4435781B1 (de) |
| CN (2) | CN118692487A (de) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102021204974A1 (de) * | 2021-05-17 | 2022-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein | Vorrichtung und Verfahren zum Bestimmen von Audio-Verarbeitungsparametern |
| US12505845B1 (en) * | 2024-06-21 | 2025-12-23 | VoxEQ, Inc. | Artificial intelligence modeling for an audio analytics system |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10734006B2 (en) * | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
| EP3620983B1 (de) * | 2018-09-05 | 2023-10-25 | Sartorius Stedim Data Analytics AB | Computerimplementiertes verfahren, computerprogrammprodukt und system zur datenanalyse |
| US11049308B2 (en) * | 2019-03-21 | 2021-06-29 | Electronic Arts Inc. | Generating facial position data based on audio data |
| US12475911B2 (en) * | 2020-06-22 | 2025-11-18 | Dolby International Ab | Method for learning an audio quality metric combining labeled and unlabeled data |
| JP2023548670A (ja) * | 2020-10-15 | 2023-11-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ニューラルネットワークを用いたオーディオの処理方法および装置 |
| US20240274150A1 (en) * | 2021-06-04 | 2024-08-15 | Widex A/S | Method of operating an audio device system and audio device system |
-
2023
- 2023-03-23 EP EP23163841.2A patent/EP4435781B1/de active Active
- 2023-10-23 EP EP23205237.3A patent/EP4435782A1/de active Pending
-
2024
- 2024-03-14 US US18/604,634 patent/US20240321281A1/en active Pending
- 2024-03-14 US US18/604,624 patent/US12248727B2/en active Active
- 2024-03-21 CN CN202410329143.0A patent/CN118692487A/zh active Pending
- 2024-03-21 CN CN202410330075.XA patent/CN118692488A/zh active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| EP4435781A1 (de) | 2024-09-25 |
| US20240321281A1 (en) | 2024-09-26 |
| CN118692487A (zh) | 2024-09-24 |
| US12248727B2 (en) | 2025-03-11 |
| EP4435782A1 (de) | 2024-09-25 |
| US20240319955A1 (en) | 2024-09-26 |
| CN118692488A (zh) | 2024-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12248727B2 (en) | Audio device with uncertainty quantification and related methods | |
| US10897675B1 (en) | Training a filter for noise reduction in a hearing device | |
| US9699554B1 (en) | Adaptive signal equalization | |
| US9378754B1 (en) | Adaptive spatial classifier for multi-microphone systems | |
| DE112009002617T5 (de) | Wahlweises Schalten zwischen mehreren Mikrofonen | |
| AU2011200494A1 (en) | A speech intelligibility predictor and applications thereof | |
| US20070055513A1 (en) | Method, medium, and system masking audio signals using voice formant information | |
| US9589572B2 (en) | Stepsize determination of adaptive filter for cancelling voice portion by combining open-loop and closed-loop approaches | |
| US20230206936A1 (en) | Audio device with audio quality detection and related methods | |
| US10993048B2 (en) | Speech intelligibility-based hearing devices and associated methods | |
| US12543003B2 (en) | Speakerphone with beamformer-based conference characterization and related methods | |
| US12462828B2 (en) | Personalized bandwidth extension | |
| KR101715198B1 (ko) | 가변 전력 예산을 이용한 음성 강화 방법 | |
| CN110944089A (zh) | 双讲检测方法及电子设备 | |
| EP4325823A1 (de) | Lautsprechertelefon mit umgebungsakustischer charakterisierung und zugehörige verfahren | |
| EP4325824A1 (de) | Lautsprechertelefon und servervorrichtung zur umgebungsakustikbestimmung und zugehörige verfahren | |
| EP4576082A1 (de) | Audiovorrichtung mit effizienter verarbeitung neuronaler netze und zugehörige verfahren | |
| EP4672237A1 (de) | Audiovorrichtung mit unsicherheitsquantifizierung unter verwendung stochastischer inferenz und zugehörige verfahren | |
| CN116597856B (zh) | 基于蛙人对讲的语音质量增强方法 | |
| US20250111855A1 (en) | Audio device with codec information-based processing, related methods and systems | |
| EP4375999A1 (de) | Audiovorrichtung mit signalparameterbasierter verarbeitung, zugehörige verfahren und systeme | |
| US12401945B2 (en) | Subband domain acoustic echo canceller based acoustic state estimator | |
| EP4482173A1 (de) | Multimikrofon-audiosystem | |
| EP4576077A1 (de) | Verfahren zur verarbeitung von audiodaten in einer audiovorrichtung unter verwendung eines neuronalen netzwerks | |
| Barfuss et al. | Improving blind source separation performance by adaptive array geometries for humanoid robots |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED |
|
| AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC ME MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
| 17P | Request for examination filed |
Effective date: 20250131 |
|
| GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: GRANT OF PATENT IS INTENDED |
|
| INTG | Intention to grant announced |
Effective date: 20251024 |
|
| GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
| GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE PATENT HAS BEEN GRANTED |
|
| AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC ME MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
| REG | Reference to a national code |
Ref country code: CH Ref legal event code: F10 Free format text: ST27 STATUS EVENT CODE: U-0-0-F10-F00 (AS PROVIDED BY THE NATIONAL OFFICE) Effective date: 20260318 Ref country code: GB Ref legal event code: FG4D Ref country code: CH Ref legal event code: W10 Free format text: ST27 STATUS EVENT CODE: U-0-0-W10-W00 (AS PROVIDED BY THE NATIONAL OFFICE) Effective date: 20260318 |
|
| REG | Reference to a national code |
Ref country code: DE Ref legal event code: R081 Ref document number: 602023013564 Country of ref document: DE Owner name: GN HEARING A/S, DK Free format text: FORMER OWNER: GN AUDIO A/S, BALLERUP, DK |