EP4435781B1 - Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren - Google Patents

Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren

Info

Publication number
EP4435781B1
EP4435781B1 EP23163841.2A EP23163841A EP4435781B1 EP 4435781 B1 EP4435781 B1 EP 4435781B1 EP 23163841 A EP23163841 A EP 23163841A EP 4435781 B1 EP4435781 B1 EP 4435781B1
Authority
EP
European Patent Office
Prior art keywords
audio
output
audio data
provision
uncertainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP23163841.2A
Other languages
English (en)
French (fr)
Other versions
EP4435781A1 (de
Inventor
Clément LAROCHE
Diego Caviedes NOZAL
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GN Audio AS
Original Assignee
GN Audio AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GN Audio AS filed Critical GN Audio AS
Priority to EP23163841.2A priority Critical patent/EP4435781B1/de
Priority to EP23205237.3A priority patent/EP4435782A1/de
Priority to US18/604,634 priority patent/US20240321281A1/en
Priority to US18/604,624 priority patent/US12248727B2/en
Priority to CN202410330075.XA priority patent/CN118692488A/zh
Priority to CN202410329143.0A priority patent/CN118692487A/zh
Publication of EP4435781A1 publication Critical patent/EP4435781A1/de
Application granted granted Critical
Publication of EP4435781B1 publication Critical patent/EP4435781B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Claims (14)

  1. Ein Audiogerät (10), das aus Speicher, einer Schnittstelle und einem oder mehreren Prozessoren (10C) besteht, wobei ein oder mehrere Prozessoren (10C) so konfiguriert sind:
    Erhalten (S102) Audiodaten;
    Ablauf (S106) die Audiodaten zur Bereitstellung eines Audioausgangs;
    Ablauf (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter, die auf eine oder mehrere Eigenschaften der Audiodaten hinweisen;
    Karte (S110) einen oder mehrere Audioparameter zu einem ersten latenten Raum eines ersten neuronalen Netzwerks zur Bereitstellung eines Abbildungsparameters, der darauf hinweist, ob ein oder mehrere Audioparameter zu einer Trainingsmannigfaltigkeit des ersten latenten Raums gehören; Bestimmen (S112), basierend auf dem Abbildungsparameter, einem Unsicherheitsparameter, der auf eine Unsicherheit der Verarbeitungsqualität hinweist; und
    Steuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs basierend auf dem Unschärfeparameter.
  2. Das Audiogerät (10) gemäß Anspruch 1, wobei zur Verarbeitung (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter zur Kodierung (S108A) der Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter mittels des ersten neuronalen Netzwerks bestehen.
  3. Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, bei dem ein oder mehrere Prozessoren (10C) einen digitalen Signalprozessor (14B) mit einem zweiten neuronalen Netzwerk bilden, und bei dem die Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs die Bereitstellung (S106A) der Audiodaten als Eingang für das zweite neuronale Netzwerk und zur Verarbeitung (S106B) bestehen die Audiodaten verwenden das zweite neuronale Netzwerk zur Bereitstellung eines primären Ausgangs basierend auf dem Unsicherheitsparameter, wobei der Audioausgang auf dem primären Ausgang basiert.
  4. Das Audiogerät (10) gemäß Anspruch 3, wobei das zweite neuronale Netzwerk ein tiefes neuronales Netzwerk bildet.
  5. Das Audiogerät (10) gemäß einem der Ansprüche 3-4, wobei der digitale Signalprozessor (14B) einen Controller (14A) umfasst, der darauf konfiguriert ist, einen Controller-Ausgang basierend auf dem Unsicherheitsparameter zu bestimmen, und wobei die Steuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs zur Steuerung (S114A) die Verarbeitung der Audiodaten basierend auf dem Controller-Ausgang umfasst.
  6. Das Audiogerät (10) gemäß einem der Ansprüche 3-5, wobei ein oder mehrere Prozessoren (10C) einen sekundären Prozessor (14D) bilden, der sich vom digitalen Signalprozessor (14B) unterscheidet, wobei zur Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs zur Verarbeitung (S106C) bestehen die Audiodaten für die Bereitstellung eines sekundären Ausgangs, der sich vom primären Ausgang unterscheidet, mittels des sekundären Prozessors (14D), wobei der Audioausgang auf dem sekundären Ausgang basiert.
  7. Das Audiogerät (10) gemäß Anspruch 6, bei dem ein oder mehrere Prozessoren (10C) einen Mischer (14C) bilden und bei dem (S106) die Audiodaten zur Bereitstellung eines Audioausgangs zum Mischen (S106D) des primären Ausgangs und des sekundären Ausgangs zur Bereitstellung eines gemischten Ausgangs bestehen, wobei der Audioausgang auf dem gemischten Ausgang basiert.
  8. Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei die Trainingsmannigfaltigkeit (26) eine Wahrscheinlichkeitsverteilung umfasst und bei der die Abbildung (S110) der ein oder mehrere Audioparameter die Abbildung (S110A) eines oder mehrerer Audioparameter auf die Wahrscheinlichkeitsverteilung zur Bereitstellung des Mapping-Parameters umfasst.
  9. Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei die Abbildung (S110) der einen oder mehrerer Audioparameter mit einem ersten latenten Raum (22) eines ersten neuronalen Netzwerks zur Bestimmung (S110B) eines Abstands zwischen einem oder mehreren Audioparametern und der Trainingsmannigfaltigkeit (26) besteht.
  10. Das Audiogerät (10) gemäß einer der vorherigen Ansprüche, wobei ein oder mehrere Prozessoren (10C) konfiguriert sind, um:
    Bestimmen (S104) ob der Unschärfeparameter ein erstes Kriterium erfüllt, und gemäß dem Unsicherheitsparameter, der das erste Kriterium erfüllt, wird der Prozess (S106E) die Audiodaten gemäß einem ersten Signalverarbeitungsschema zur Bereitstellung des Audioausgangs.
  11. Das Audiogerät (10) gemäß Anspruch 10, bei dem ein oder mehrere Prozessoren (10C) konfiguriert sind, um: gemäß dem Unsicherheitsparameter, der das erste Kriterium nicht erfüllt, und/oder gemäß dem Unsicherheitsparameter, der ein zweites Kriterium erfüllt, die Audiodaten (S106F) gemäß einem zweiten Signalverarbeitungsverfahren zur Bereitstellung des Audioausgangs zu verarbeiten.
  12. Das Audiogerät (10) gemäß Anspruch 11, bei dem ein oder mehrere Prozessoren (10C) konfiguriert sind, um: gemäß dem Unsicherheitsparameter, der das erste Kriterium nicht erfüllt, und entsprechend dem Unsicherheitsparameter, der das zweite Kriterium nicht erfüllt, die Audiodaten gemäß einem dritten Signalverarbeitungsschema zur Bereitstellung des Audioausgangs zu verarbeiten.
  13. Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei ein oder mehrere Prozessoren (10C) so konfiguriert sind, dass sie den Audioausgang über das Interface (10A) ausgeben.
  14. Methode (100) zum Betrieb eines Audiogeräts, wobei die Methode Folgendes umfasst:
    Erwerb (S102) Audiodaten;
    Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs;
    Verarbeitung (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter, die auf eine oder mehrere Eigenschaften der Audiodaten hinweisen;
    Kartierung (S110) einen oder mehrere Audioparameter zu einem ersten latenten Raum eines ersten neuronalen Netzwerks zur Bereitstellung eines Abbildungsparameters, der darauf hinweist, ob ein oder mehrere Audioparameter zu einer Trainingsmannigfaltigkeit des ersten latenten Raums gehören;
    Bestimmung (S112), basierend auf dem Abbildungsparameter, einem Unsicherheitsparameter, der auf eine Unsicherheit der Verarbeitungsqualität hinweist; und
    Steuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs basierend auf dem Unschärfeparameter.
EP23163841.2A 2023-03-23 2023-03-23 Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren Active EP4435781B1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP23163841.2A EP4435781B1 (de) 2023-03-23 2023-03-23 Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren
EP23205237.3A EP4435782A1 (de) 2023-03-23 2023-10-23 Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren
US18/604,634 US20240321281A1 (en) 2023-03-23 2024-03-14 Audio device with uncertainty quantification and related methods
US18/604,624 US12248727B2 (en) 2023-03-23 2024-03-14 Audio device with uncertainty quantification and related methods
CN202410330075.XA CN118692488A (zh) 2023-03-23 2024-03-21 具有不确定性量化的音频设备及相关方法
CN202410329143.0A CN118692487A (zh) 2023-03-23 2024-03-21 具有不确定性量化的音频设备及相关方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP23163841.2A EP4435781B1 (de) 2023-03-23 2023-03-23 Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren

Publications (2)

Publication Number Publication Date
EP4435781A1 EP4435781A1 (de) 2024-09-25
EP4435781B1 true EP4435781B1 (de) 2026-03-18

Family

ID=85726289

Family Applications (2)

Application Number Title Priority Date Filing Date
EP23163841.2A Active EP4435781B1 (de) 2023-03-23 2023-03-23 Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren
EP23205237.3A Pending EP4435782A1 (de) 2023-03-23 2023-10-23 Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren

Family Applications After (1)

Application Number Title Priority Date Filing Date
EP23205237.3A Pending EP4435782A1 (de) 2023-03-23 2023-10-23 Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren

Country Status (3)

Country Link
US (2) US20240321281A1 (de)
EP (2) EP4435781B1 (de)
CN (2) CN118692487A (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021204974A1 (de) * 2021-05-17 2022-11-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Vorrichtung und Verfahren zum Bestimmen von Audio-Verarbeitungsparametern
US12505845B1 (en) * 2024-06-21 2025-12-23 VoxEQ, Inc. Artificial intelligence modeling for an audio analytics system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10734006B2 (en) * 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
EP3620983B1 (de) * 2018-09-05 2023-10-25 Sartorius Stedim Data Analytics AB Computerimplementiertes verfahren, computerprogrammprodukt und system zur datenanalyse
US11049308B2 (en) * 2019-03-21 2021-06-29 Electronic Arts Inc. Generating facial position data based on audio data
US12475911B2 (en) * 2020-06-22 2025-11-18 Dolby International Ab Method for learning an audio quality metric combining labeled and unlabeled data
JP2023548670A (ja) * 2020-10-15 2023-11-20 ドルビー ラボラトリーズ ライセンシング コーポレイション ニューラルネットワークを用いたオーディオの処理方法および装置
US20240274150A1 (en) * 2021-06-04 2024-08-15 Widex A/S Method of operating an audio device system and audio device system

Also Published As

Publication number Publication date
EP4435781A1 (de) 2024-09-25
US20240321281A1 (en) 2024-09-26
CN118692487A (zh) 2024-09-24
US12248727B2 (en) 2025-03-11
EP4435782A1 (de) 2024-09-25
US20240319955A1 (en) 2024-09-26
CN118692488A (zh) 2024-09-24

Similar Documents

Publication Publication Date Title
US12248727B2 (en) Audio device with uncertainty quantification and related methods
US10897675B1 (en) Training a filter for noise reduction in a hearing device
US9699554B1 (en) Adaptive signal equalization
US9378754B1 (en) Adaptive spatial classifier for multi-microphone systems
DE112009002617T5 (de) Wahlweises Schalten zwischen mehreren Mikrofonen
AU2011200494A1 (en) A speech intelligibility predictor and applications thereof
US20070055513A1 (en) Method, medium, and system masking audio signals using voice formant information
US9589572B2 (en) Stepsize determination of adaptive filter for cancelling voice portion by combining open-loop and closed-loop approaches
US20230206936A1 (en) Audio device with audio quality detection and related methods
US10993048B2 (en) Speech intelligibility-based hearing devices and associated methods
US12543003B2 (en) Speakerphone with beamformer-based conference characterization and related methods
US12462828B2 (en) Personalized bandwidth extension
KR101715198B1 (ko) 가변 전력 예산을 이용한 음성 강화 방법
CN110944089A (zh) 双讲检测方法及电子设备
EP4325823A1 (de) Lautsprechertelefon mit umgebungsakustischer charakterisierung und zugehörige verfahren
EP4325824A1 (de) Lautsprechertelefon und servervorrichtung zur umgebungsakustikbestimmung und zugehörige verfahren
EP4576082A1 (de) Audiovorrichtung mit effizienter verarbeitung neuronaler netze und zugehörige verfahren
EP4672237A1 (de) Audiovorrichtung mit unsicherheitsquantifizierung unter verwendung stochastischer inferenz und zugehörige verfahren
CN116597856B (zh) 基于蛙人对讲的语音质量增强方法
US20250111855A1 (en) Audio device with codec information-based processing, related methods and systems
EP4375999A1 (de) Audiovorrichtung mit signalparameterbasierter verarbeitung, zugehörige verfahren und systeme
US12401945B2 (en) Subband domain acoustic echo canceller based acoustic state estimator
EP4482173A1 (de) Multimikrofon-audiosystem
EP4576077A1 (de) Verfahren zur verarbeitung von audiodaten in einer audiovorrichtung unter verwendung eines neuronalen netzwerks
Barfuss et al. Improving blind source separation performance by adaptive array geometries for humanoid robots

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC ME MK MT NL NO PL PT RO RS SE SI SK SM TR

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20250131

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20251024

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC ME MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: CH

Ref legal event code: F10

Free format text: ST27 STATUS EVENT CODE: U-0-0-F10-F00 (AS PROVIDED BY THE NATIONAL OFFICE)

Effective date: 20260318

Ref country code: GB

Ref legal event code: FG4D

Ref country code: CH

Ref legal event code: W10

Free format text: ST27 STATUS EVENT CODE: U-0-0-W10-W00 (AS PROVIDED BY THE NATIONAL OFFICE)

Effective date: 20260318

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 602023013564

Country of ref document: DE

Owner name: GN HEARING A/S, DK

Free format text: FORMER OWNER: GN AUDIO A/S, BALLERUP, DK