DK2405673T3 - Fremgangsmåde til lokalisering af en lydkilde og et multi-kanallydsystem - Google Patents
Fremgangsmåde til lokalisering af en lydkilde og et multi-kanallydsystem Download PDFInfo
- Publication number
- DK2405673T3 DK2405673T3 DK11169403.0T DK11169403T DK2405673T3 DK 2405673 T3 DK2405673 T3 DK 2405673T3 DK 11169403 T DK11169403 T DK 11169403T DK 2405673 T3 DK2405673 T3 DK 2405673T3
- Authority
- DK
- Denmark
- Prior art keywords
- signal
- source
- input signal
- audio system
- prescribed
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000001514 detection method Methods 0.000 description 20
- 230000004807 localization Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/55—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
- H04R25/552—Binaural
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/41—Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
FREMGANGSMÅDE TIL LOKALISERING AF EN LYDKILDE OG ET MULTI-KANALLYDSYSTEM
Beskrivelse [0001] Arbejdet der har ført til den foreliggende opfindelse, er blevet finansieret under Det Europæiske Fællesskabs syvende rammeprogram (FP7/2007-2013) under tilskudsaftale nr. 214699.
[0002] Den foreliggende opfindelse angår en fremgangsmåde til lokalisering af mindst en lydkilde med et multikanallydsystem. Endvidere angår den foreliggende opfindelse et tilsvarende multikanallydsystem med et antal indgangskanaler og især et binauralt lydsystem. Ved et "binauralt lydsystem" forstås her et system, hvor begge ører af en bruger kan forsynes med lyd. Især forstås derved et binauralt høreapparatsystem, hvori brugeren bærer et høreapparat på begge ører, som forsyner det respektive øre.
[0003] Høreapparater er bærbare høreindretninger, der tjener til at passe til hørehæmmede. For at imødekomme de mange individuelle behov er der forskellige typer af høreapparater til rådighed, såsom bag-øret-høreapparater (BTE), høreapparat med ekstern modtager (RIC: ”receiver-in the-canal”) og i-øret-høre-apparater (ITE), f.eks. også concha-høreapparater eller kanal-høreapparater (ITE, CIC). De høreapparater der er opført som eksempler, bæres på yderøret eller i øregangen. Derudover er der også mulighed for at levere høreapparater til implantation af implanterbare eller vibrotaktile hørehjælpemidler på markedet. Derved foregår stimuleringen af den beskadigede hørelse enten mekanisk eller elektrisk.
[0004] Høreapparater har i princippet som væsentlige komponenter en indgangstransducer, en forstærker og en udgangstransducer. Indgangstransduceren er som regel en lydmodtager, f.eks. en mikrofon og/eller en elektromagnetisk modtager, f.eks. en induktionsspole. Udgangstransduceren er som regel realiseret som en elektroakustisk transducer, f.eks. en miniaturehøjttaler, eller som en elektromekanisk transducer, f.eks. en knogleledningsmodtager. Forstærkeren er normalt integreret i en signalbehandlingsenhed. Denne grundlæggende struktur er vist i Fig. 1 under anvendelse af eksemplet på et bag-øret-hø-reapparat. I et høreapparathus 1 til at bære bag øret er en eller flere mikrofoner 2 indbygget til at modtage lyden fra miljøet. En signalbehandlingsenhed 3, som også er integreret i høreapparathuset 1, bearbejder mikrofonsignalerne og forstærker dem. Signalbehandlingsenhedens 3 udgangssignal overføres til en højttaler eller modtager 4, som udsender et akustisk signal. Lyden overføres eventuelt via et lydrør der er fastgjort med en otoplastik i øregangen, til trommehinden af apparatbæreren. Strømforsyning af høreapparatet og især signalbehandlingsenheden 3 udføres ved et ligeledes i høreapparathuset 1 integreret batteri 5.
[0005] Generelt er et computerunderstøttet sceneanalysesystem (CASA: Computational Scene Analysis System) rettet mod at beskrive en akustisk scene ved at lokalisere og klassificere de akustiske kilder, og fortrinsvis også det akustiske miljø. For at illustrere dette er her et eksempel på det såkaldte "party cocktail problem" vist. Mange underholdende talere producerer en baggrundstalestøj, to personer taler sammen nær ved observatøren (retningsbestemt lyd), noget musik kommer fra en anden retning, og rumakustikken er noget død. På samme måde som det menneskelige øre er i stand til at lokalisere og skelne mellem de forskellige lydkilder, forsøger et CASA-system at efterligne denne funktion på en lignende måde, så den kan lokalisere og klassificere mindst hver kilde fra lydblandingen (fx sprog, musik, forstyrrende støj, osv.). Sådanne oplysninger er værdifulde ikke kun for et høreapparatprogramvalg, men også for eksempel for en såkaldt beamformer (lokalt filter), som kan styres i den ønskede retning for at forstærke det ønskede signal til en høreapparatbærer.
[0006] Et konventionelt CASA-system virker således, at lydsignalet omdannes ved en Fourier-transformation eller ved en lignende transformation, såsom f.eks. wavelets, gamma-tone-filterbank, osv., i tid-frekvens-domænet (T-F). Derved overføres signalet altså til en række kortsigtede spektra.
[0007] Fig. 2 viser et blokdiagram over et sådant konventionelt CASA-system. Signalerne fra en mikrofon 10 af et venstre høreapparat og en mikrofon 11 af et højre høreapparat føres sammen til en filterbank 12, som udfører den nævnte transformation i T-F-området. Signalet i T-F-området segmenteres efterfølgende i en segmenteringsenhed 12 i separate T-F-blokke. Ved T-F-blokkene handler det om kortsigtede spektra, hvor blokkene normalt begynder efter en såkaldt "T-F-onset-detektering", det vil sige når spektret af et signal overstiger et bestemt niveau. Længden af blokkene bestemmes ved at analysere andre træk. Til disse træk hører typisk et offset og/eller en kohærens. Derfor er der tilvejebragt en ekstraktionsenhed for træk 14, som ekstraherer træk fra signalet i T-F-området. Sådanne træk omfatter eksempelvis interaural tidsforskel (ITD), interaural niveauforskel (ILD), blok-krydskorrelation, grundfrekvens og lignende. En lokalisering 15 af hver kilde kan udføres ved hjælp af de estimerede eller ekstraherede træk (ITD, ILD). De ekstraherede træk fra ekstraktionsenheden 14 kan imidlertid også anvendes til at styre segmenteringsenheden 13.
[0008] De relativt små blokke der er opnået efter segmenteringsenheden 13, samles igen i en grupperingsenhed 16 for at repræsentere de forskellige kilder. Til dette formål underkastes de ekstraherede træk fra ekstraktionsenheden 14 en analyse af træk 15, hvis analyseresultater anvendes til grupperingen. De således grupperede blokke føres til en klassificeringsenhed 18, med hvilken det skal erkendes, fra hvilken slags kilde signalet fra en blokgruppe er produceret. Resultatet af denne klassifikation og trækkene af analysen 17 anvendes til at beskrive en scene 19.
[0009] Beskrivelsen af en akustisk scene på denne måde er imidlertid ofte utilstrækkelig. Især er det ikke let at adskille eller beskrive flere kilder fra en retning, fordi de små T-F-blokke kun indeholder en lille mængde information.
[0010] I dokumentet EP 1 962 556 A2 er for eksempel beskrevet en fremgangsmåde og en høreindretning til forbedring af rumlig opfattelse, hvorved et indgangssignal kan klassificeres af en klassificeringsenhed og muliggøre styring af høreindretningen som en funktion af klassificeringsresultatet. Klassificeringsenheden kan efterfølges af en retningsmikrofon eller en blindkilde-adskillelsesal-goritme. De derved opdelte signaler fra lydkilden kan derefter behandles ved en rumlig behandling til akustisk gengivelse på en sådan måde, at de ser ud til at komme fra virtuelle kilder, der har forskellige positioner i rummet end de egentlige lydkilder.
[0011] I dokumentet EP 2 200 341 A1 er et hørehjælpemiddelsystem beskrevet, ved hvilket interferenssignaler kan undertrykkes, og nyttige signaler kan fremhæves. Ved hjælp af en kildeseparationsindretning opdeles et indgangssignal i et antal kildespecifikke modtagne signaler. For hvert enkelt kildespecifikt indgangssignal udføres en mærkning som en interferens eller et nyttigt signal ved manuel aktivering af et styreelement af brugeren. De således kildespecifikke modtagne signaler der er klassificeret som interferens eller brugbart signal, overføres efterfølgende til en analyseindretning, hvor blandt andet indfaldsretningen af akustiske signaler i mi krofon syste met kan bestemmes.
[0012] I dokumentet US 2005/027528 A1 er en fremgangsmåde til højttaleridentifikation beskrevet, hvori talekomponenterne der kan anvendes til identifikationen, genkendes i et forstyrret talesignal. For at kunne bruge så mange talekom-ponenter som muligt, vælges en optimal identifikationsalgoritme for hver tale-komponent, hvor udvælgelsen finder sted som en funktion af træk ved talen der er indeholdt i den respektive talekomponent, for eksempel vokaler, nasaler, plosiver eller spektralt flade talelyde.
[0013] I dokumentet WO 2009/072040 A1 er beskrevet et hørehjælpemiddel til en binaural forsyning af en bruger. For at overføre et akustisk signal mellem to høreapparater er der tilvejebragt en båndbreddereduktion for at reducere mængden af data, der skal overføres.
[0014] I dokumentet EP 1 858 291 A1 er et høreapparat beskrevet, hvori en klassifikationsenhed efterfølges af en beamformer til retningsdetektering og ekstraktion af træk. Oplysningerne til retningsdetektering af lydkilder, dvs. lokalisering, foregår på høreapparatet langs databehandlingsbanen foran en beam-former-kontroller.
[0015] Formålet med den foreliggende opfindelse er således at forbedre detektering og lokalisering af akustiske kilder i et multikanallydsystem.
[0016] Ifølge opfindelsen opnås dette formål ved en fremgangsmåde til lokalisering af mindst en lydkilde med et multikanallydsystem som defineret i krav 1. Derudover tilvejebringer opfindelsen et multikanallydsystem med flere indgangskanaler ifølge krav 7. Der udføres fortrinsvis en detektion eller klassificering af kendte signalkomponenter forud for lokaliseringen. Som et resultat kan signalkomponenter systematisk opsummeres i overensstemmelse med deres indhold, før lokalisering finder sted. Summen af signalkomponenterne resulterer i en øget mængde information i forhold til en bestemt kilde, således at deres lokalisering kan udføres mere pålideligt.
[0017] I opfindelsen filtreres signalkomponenter fra indgangssignalet før lokalisering som en funktion af det detekterede signal. Detektionstrinnet anvendes således til at forøge den anvendelige signalkomponent i forhold til den kilde, der skal lokaliseres. Forstyrrende signalkomponenter filtreres eller undertrykkes således.
[0018] Ved detektionen undersøges forudbestemte træk af indgangssignalet, og ved tilstedeværelse af de forudbestemte træk i en intensitet der er specificeret for klassen, gælder signalet fra den givne klasse i et bestemt tidsvindue af indgangssignalet som detekteret. Der sker således en detektion ved hjælp af en klassificering.
[0019] De givne træk kan være harmoniske signalkomponenter eller være udtryk af formanter. Som et resultat opnås især karakteristiske træk omkring f.eks. signalklassen "sprog".
[0020] I en specifik udførelsesform detekteres et antal signaler fra den forudbestemte klasse i indgangssignalet og tildeles forskellige lydkilder i overensstemmelse med foruddefinerede kriterier. Således adskilles f.eks. forskellige talere på basis af den grundlæggende frekvens af de stemte lyde.
[0021] Lokalisering af en lydkilde kan ske ved kendte lokaliseringsalgoritmer og efterfølgende kumulative statistikker. Dette kan bruges på kendte fremgangsmåder til lokalisering.
[0022] Til lokalisering er det normalt nødvendigt at udveksle signaler mellem enhederne i et binauralt lydsystem. Da en detektion af relevante signaler har fundet sted på forhånd, er det kun nødvendigt for lokaliseringen at overføre detekterede og muligvis filtrerede signalkomponenter af indgangssignalet mellem de individuelle enheder i det binaurale lydsystem. Ikke registrerede med hensyn til en bestemt klasse eller uklassificerede signalkomponenter overføres derfor ikke, således at mængden af data, der skal overføres, reduceres væsentligt.
[0023] Den foreliggende opfindelse vil blive yderligere forklaret under henvisning til de ledsagende tegninger, der viser:
Fig. 1 et skematisk diagram af et høreapparat ifølge den kendte teknik;
Fig. 2 et blokdiagram over et kendt sceneanalysesystem Fig. 3 et blokdiagram over et system ifølge opfindelsen og Fig. 4 et signaldiagram over forskellige signaler fra systemet i Fig. 3 for to separate lydkilder.
[0024] Udførelsesformerne der er beskrevet mere detaljeret nedenfor repræsenterer foretrukne udførelsesformer for den foreliggende opfindelse.
[0025] Den væsentlige ide med den foreliggende opfindelse er i et første trin at detektere og filtrere dele af et indgangssignal af et multikanallydsystem, især binauralt lydsystem, og at lokalisere en tilsvarende kilde i et andet trin. Til detektion ekstraheres visse træk fra indgangssignalet, således at en klassificering kan udføres.
[0026] Et blokdiagram af et (her binauralt) lydsystem ifølge opfindelsen er vist i Fig. 3. Kun de væsentlige bestanddele ifølge opfindelsen er vist. De andre komponenter i et binauralt lydsystem er vist for eksempel i Fig. 1 og deres beskrivelse. Det binaurale lydsystem ifølge eksemplet i Fig. 3 omfatter en mikrofon 20 i et venstre apparat, især et høreapparat, og en yderligere mikrofon 21 i et højre (høre)apparat. Alternativt kan der vælges et andet multikanallydsystem med flere indgangskanaler, f.eks. et enkelt høreapparat med flere mikrofoner. Som i eksemplet i Fig. 2 transformeres de to mikrofonsignaler af en filterbank 22 ind i tid-frekvensdomænet (T-F), således at der opnås tilsvarende kortsigtede spek-tra af et binauralt overordnet signal. Med en sådan filterbank 22 kan indgangssignalet imidlertid også transformeres til en anden repræsentation.
[0027] Udgangssignalet fra filterbanken 22 føres til en enhed til ekstraktion af træk 23. Funktionen af trækekstraktionsenheden 23 er at estimere de træk, der er nyttige til pålidelig (modelbaseret) detektion og unik forskel mellem signalklasser. Sådanne træk er for eksempel det harmoniske indhold (intensitet af harmoniske signalkomponenter), startegenskaber af signalkomponenter, grundfrekvens af stemte lyde (tonehøjde) og selvfølgelig et udvalg af flere sådanne træk.
[0028] Baseret på de ekstraherede træk af ekstraktionsenheden 23 forsøger en detekteringsenhed 24 at detektere og ekstrahere (isolere) kendte signalkomponenter fra signalet fra filterbanken 22 i f.eks. T-F-området. Hvis for eksempel estimeringen af retningen for en eller flere talere ønskes, kan de søgte signalkomponenter være vokaler. For at detektere vokaler kan systemet søge efter signalkomponenter med høj harmonicitet (dvs. udtalt harmonisk) og en specifik formantstruktur. Vokaldetektering er imidlertid en heuristisk eller usikker tilgang, og et universelt CASA-system skal kunne registrere andre klasser end sprog. Derfor bør der anvendes en mere teoretisk tilgang baseret på overvåget læring og den bedst mulige ekstraktion af træk.
[0029] Det primære mål for denne detekteringsblok 24 er ikke at detektere nogen forekomst af de særlige signalkomponenter, men kun at detektere de komponenter, hvis detektion er pålidelig. Hvis nogle blokke ikke kan tildeles af systemet, er det stadig muligt at tildele andre. En forkert detektering af et signal reducerede dog gyldigheden af de efterfølgende signalblokke.
[0030] I et næste trin i en algoritme ifølge opfindelsen følger en beslutningskontrolleret filtrering 25 (DDF: Decision Directed Filtering). Det detekterede signal filtreres ud af signalblandingen for at forøge ydeevnen af de efterfølgende behandlingsblokke (her lokalisering). For eksempel kan detekteringen af vokaler i et talesignal igen overvejes. Når en vokal er detekteret, kan den estimerede for-mantstruktur for eksempel bruges til at filtrere uønskede interferenser, der er registreret udenfor formantstrukturen.
[0031] I et sidste trin i algoritmen udføres en fri valgbar lokaliseringsfremgangsmåde 26 ud fra de ekstraherede signalkomponenter i filteret 25. Signalkildens position sammen med den relevante klasse anvendes derefter til at beskrive den akustiske scene 27. Lokalisering kan udføres f.eks. ved simpel kumulativ statistik 28 eller ved brug af sofistikerede tilgange, såsom sporing af hver kilde i lokalet omkring modtageren.
[0032] Den væsentligste fordel ved fremgangsmåden ifølge opfindelsen i forhold til andre algoritmer er, at problemet med gruppering af bestemte T-F-vær-dier eller blokke (svarende til det kendte problem med blindkildeseparation) ikke skal løses. Skønt de kendte systemer varierer meget (antal funktioner og forskellige grupperingstilgange), har alle disse systemer i det væsentlige de samme begrænsninger. Når T-F-blokkene er isoleret fra hinanden ved en fast beslutningsregel, skal de grupperes igen. Oplysningerne i de enkelte små blokke er dog normalt utilstrækkelige til gruppering i reelle scenarier. I modsætning til anvendelsen af hele frekvensområdet (ikke kun individuelle frekvenser eller individuelle frekvensbånd), gør fremgangsmåden ifølge opfindelsen det muligt at lokalisere enkeltkilder med høj præcision.
[0033] Et andet bemærkelsesværdigt træk ved det foreslåede system er evnen til at opdage og lokalisere flere kilder i samme retning, hvis de tilhører forskellige klasser. For eksempel kan en musikkilde og en sprogkilde med samme DOA (Direction of Arrival) korrekt identificeres som to signaler i to klasser.
[0034] Systemet ifølge opfindelsen kan også udvides med en taleridentifikationsblok, således at en sporing af et ønsket signal bliver muligt. For eksempel kan den praktiske fordel være at lokalisere og identificere en ønsket kilde (f.eks. en dominerende taler eller en sprogkilde der er valgt af høreapparatbrugeren). Når kilden bevæger sig i rummet, sporer høreapparatsystemet automatisk dens position og kan f.eks. henlede en beamformer i den nye retning.
[0035] Algoritmen ifølge opfindelsen kan også være i stand til at reducere en datahastighed mellem et venstre og et højre høreapparat (trådløs forbindelse). For lokaliseringen transmitteres kun de detekterede komponenter (eller endda kun deres repræsentanter) af venstre og højre signaler mellem høreapparaterne, så meget færre data skal overføres som i den fuldstændige signaloverførsel.
[0036] Algoritmen ifølge opfindelsen muliggør samtidig lokalisering af akustiske kilder med høj rumlige opløsning sammen med deres klassificering. For at illustrere udførelsen af denne nye tilgang er en lokalisering af vokaler i en kompleks akustisk scene vist i Fig. 4. Scenen består i, at der findes en talekilde i retning af φ = 30° der har en effekt P = -25 dB. En musikkilde er ved φ = -30° og har en effekt P = -25 dB. Derudover er der diffus talestøj med en effekt på P = -27 dB såvel som en Gaussisk støj med en effekt på P = -70 dB. I diagrammet i Fig. 4, hvor intensiteten er tegnet opad og vinklen er tegnet i grader til højre, skal der i det væsentlige fastslås to signalkilder, som repræsenterer de to signalkilder (talekilde og musikkilde). Kurven I viser indgangssignalet i hele frekvensspektret efter filterbanken 22 (se Fig. 3). Signalet behandles ikke yderligere her. Kurven II viser signalet efter detektion af vokaler ved detekteringsenheden 24 (se Fig. 3). Endelig repræsenterer kurven III lokaliseringsresultatet ef ter filterenheden 25 (se også Fig. 3) ved anvendelse af en kendt, ideel formant-maske. Ifølge kurven III kan talekilden derfor være tydeligt placeret.
[0037] Algoritmen ifølge opfindelsen kan modificeres. Således kan for eksempel et signal eller dets kilde ikke kun lokaliseres og klassificeres, men den tilsvarende information kan også kobles tilbage til klassifikationsdetektoren 24, således at lokaliseringsresultatet kan forbedres iterativt. Tilbagekoblingen kan også bruges til at spore en kilde. Desuden kan denne fremgangsmåde bruges til at bestemme en hoveddrejning. Derved kan systemet bruges alene eller som led i et fysisk hovedbevægelsesdetekteringssystem med accelerometre.
[0038] En yderligere modifikation af systemet kan være, at en estimeret retning (DOA) af et ønsket signal anvendes til at styre en beamformer foran en detektor for at forbedre ydeevnen af et samlet system.
[0039] Eksemplet ovenfor henviser til placeringen af en talekilde. Det foreslåede system kan imidlertid også registrere andre klasser af signaler. For at opdage og klassificere forskellige signaler skal forskellige træk og muligvis forskellige repræsentanter for signalerne anvendes. For eksempel, hvis detektion af et musiksignal ønskes, skal systemet trænes med forskellige musikinstrumenter, og en passende detektor skal anvendes.
[0040] Princippet for systemet ifølge opfindelsen realiseres primært som en algoritme til høreapparater. Brugen er ikke begrænset til høreapparater. En sådan fremgangsmåde kan derimod også anvendes til navigationssystemer til blinde personer, for eksempel til at lokalisere specielle lyde på offentlige steder, eller i endnu en anden applikation akustisk at finde defekte dele i en stor maskine.
Liste over henvisninqstal [0041] 1 høreapparathus 2 mikrofon 3 signalbehandlingsenhed 4 højttaler eller modtager 5 batteri 10 mikrofon 11 mikrofon 12 filterbank 13 segmenteringsenhed 14 trækekstraheringsenhed 15 lokalisering 16 grupperingsenhed 17 analyse 18 klassificeringsenhed 19 scene 20 mikrofon 21 mikrofon 22 filterbank 23 trækekstraheringsenhed 24 detektionsenhed 25 filter 26 lokaliseringsfremgangsmåde 27 scene 28 statistik I, II, III kurver
Claims (7)
1. Fremgangsmåde til lokalisering af mindst en lydkilde ved anvendelse af et lydsystem med flere kanaler, kendetegnet ved, at - detektere (24) et signal af en foreskrevet klasse i et indgangssignal (I) af lydsystemet med flere kanaler, hvilket signal stammer fra lydkilden, hvor der ved detekteringen undersøges for foreskrevne træk i indgangssignalet (I), og ved tilstedeværelse af de foreskrevne træk ved en intensitet som er foreskrevet for klassen, gælder signalet i den foreskrevne klasse som det detekterede signal i indgangssignalet, hvor signalkomponenter af indgangssignalet afhængigt af det detekterede signal filtreres før lokaliseringen (26) for at øge andelen af brugbart signal i forhold til den kilde, der skal lokaliseres, og - efterfølgende at lokalisere (26) lydkilden ved hjælp af de fra indgangssignalet filtrerede komponenter af signalet.
2. Fremgangsmåden ifølge krav 1, hvor de foreskrevne træk er harmoniske signalkomponenter eller formanter.
3. Fremgangsmåden ifølge krav 2, hvor den foreskrevne klasse er "sprog".
4. Fremgangsmåde ifølge et af de foregående krav, hvor et antal signaler i den foreskrevne klasse detekteres i indgangssignalet og er forbundet med forskellige lydkilder på basis af foruddefinerede kriterier.
5. Fremgangsmåden ifølge krav 4, hvor de forskellige lydkilder er et antal talere.
6. Fremgangsmåde ifølge et af de foregående krav, hvor multikanallydsystemet er et binauralt lydsystem, og lokaliseringen (26) involverer kun filtrerede signalkomponenter af indgangssignalet, der skal overføres mellem de individuelle apparater i det binaurale lydsystem.
7. Multikanallydsystem med flere indgangskanaler, hvilket system er konfigureret til at udføre fremgangsmåden ifølge krav 1.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102010026381A DE102010026381A1 (de) | 2010-07-07 | 2010-07-07 | Verfahren zum Lokalisieren einer Audioquelle und mehrkanaliges Hörsystem |
Publications (1)
Publication Number | Publication Date |
---|---|
DK2405673T3 true DK2405673T3 (da) | 2018-12-03 |
Family
ID=44759396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DK11169403.0T DK2405673T3 (da) | 2010-07-07 | 2011-06-10 | Fremgangsmåde til lokalisering af en lydkilde og et multi-kanallydsystem |
Country Status (5)
Country | Link |
---|---|
US (1) | US20120008790A1 (da) |
EP (1) | EP2405673B1 (da) |
CN (1) | CN102316404B (da) |
DE (1) | DE102010026381A1 (da) |
DK (1) | DK2405673T3 (da) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102012200745B4 (de) * | 2012-01-19 | 2014-05-28 | Siemens Medical Instruments Pte. Ltd. | Verfahren und Hörvorrichtung zum Schätzen eines Bestandteils der eigenen Stimme |
DE102012214081A1 (de) * | 2012-06-06 | 2013-12-12 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum Fokussieren eines Hörinstruments-Beamformers |
CN102670384B (zh) * | 2012-06-08 | 2014-11-05 | 北京美尔斯通科技发展股份有限公司 | 无线语音导盲系统 |
KR101963440B1 (ko) * | 2012-06-08 | 2019-03-29 | 삼성전자주식회사 | 복수의 뉴런 회로들을 이용하여 음원의 방향을 추정하는 뉴로모픽 신호 처리 장치 및 그 장치를 이용한 방법 |
CN104980869A (zh) * | 2014-04-04 | 2015-10-14 | Gn瑞声达A/S | 改进的单声道信号源定位的助听器 |
DE102015211747B4 (de) * | 2015-06-24 | 2017-05-18 | Sivantos Pte. Ltd. | Verfahren zur Signalverarbeitung in einem binauralen Hörgerät |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
EP3504888B1 (en) * | 2016-08-24 | 2021-09-01 | Advanced Bionics AG | Systems and methods for facilitating interaural level difference perception by enhancing the interaural level difference |
CN108806711A (zh) * | 2018-08-07 | 2018-11-13 | 吴思 | 一种提取方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
US6978159B2 (en) * | 1996-06-19 | 2005-12-20 | Board Of Trustees Of The University Of Illinois | Binaural signal processing using multiple acoustic sensors and digital filtering |
US7177808B2 (en) * | 2000-11-29 | 2007-02-13 | The United States Of America As Represented By The Secretary Of The Air Force | Method for improving speaker identification by determining usable speech |
US7319769B2 (en) * | 2004-12-09 | 2008-01-15 | Phonak Ag | Method to adjust parameters of a transfer function of a hearing device as well as hearing device |
EP1858291B1 (en) * | 2006-05-16 | 2011-10-05 | Phonak AG | Hearing system and method for deriving information on an acoustic scene |
DE102006047982A1 (de) * | 2006-10-10 | 2008-04-24 | Siemens Audiologische Technik Gmbh | Verfahren zum Betreiben einer Hörfilfe, sowie Hörhilfe |
DE102007008738A1 (de) * | 2007-02-22 | 2008-08-28 | Siemens Audiologische Technik Gmbh | Verfahren zur Verbesserung der räumlichen Wahrnehmung und entsprechende Hörvorrichtung |
ATE504010T1 (de) * | 2007-06-01 | 2011-04-15 | Univ Graz Tech | Gemeinsame positions-tonhöhenschätzung akustischer quellen zu ihrer verfolgung und trennung |
WO2009072040A1 (en) * | 2007-12-07 | 2009-06-11 | Koninklijke Philips Electronics N.V. | Hearing aid controlled by binaural acoustic source localizer |
DE102008015263B4 (de) * | 2008-03-20 | 2011-12-15 | Siemens Medical Instruments Pte. Ltd. | Hörsystem mit Teilbandsignalaustausch und entsprechendes Verfahren |
US8391507B2 (en) * | 2008-08-22 | 2013-03-05 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of uncorrelated component |
DK2200341T3 (da) * | 2008-12-16 | 2015-06-01 | Siemens Audiologische Technik | Fremgangsmåde til drivningen af et hørehjælpeapparat samt hørehjælpeapparat med en kildeadskillelsesindretning |
-
2010
- 2010-07-07 DE DE102010026381A patent/DE102010026381A1/de not_active Withdrawn
-
2011
- 2011-06-10 DK DK11169403.0T patent/DK2405673T3/da active
- 2011-06-10 EP EP11169403.0A patent/EP2405673B1/de active Active
- 2011-07-04 CN CN201110185872.6A patent/CN102316404B/zh active Active
- 2011-07-07 US US13/177,632 patent/US20120008790A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
DE102010026381A1 (de) | 2012-01-12 |
EP2405673B1 (de) | 2018-08-08 |
US20120008790A1 (en) | 2012-01-12 |
EP2405673A1 (de) | 2012-01-11 |
CN102316404A (zh) | 2012-01-11 |
CN102316404B (zh) | 2017-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DK2405673T3 (da) | Fremgangsmåde til lokalisering af en lydkilde og et multi-kanallydsystem | |
US8873779B2 (en) | Hearing apparatus with own speaker activity detection and method for operating a hearing apparatus | |
US9978397B2 (en) | Wearer voice activity detection | |
Li et al. | Factors influencing intelligibility of ideal binary-masked speech: Implications for noise reduction | |
Kokkinakis et al. | A channel-selection criterion for suppressing reverberation in cochlear implants | |
EP2192794B1 (en) | Improvements in hearing aid algorithms | |
US11223909B2 (en) | Neural network-driven frequency translation | |
EP3013070A2 (en) | Hearing system | |
EP3684074A1 (en) | Hearing device for own voice detection and method of operating the hearing device | |
US11689869B2 (en) | Hearing device configured to utilize non-audio information to process audio signals | |
Hummersone | A psychoacoustic engineering approach to machine sound source separation in reverberant environments | |
CN108696813A (zh) | 用于运行听力设备的方法和听力设备 | |
Hazrati et al. | Reverberation suppression in cochlear implants using a blind channel-selection strategy | |
Mi et al. | Comparison of a target-equalization-cancellation approach and a localization approach to source separation | |
US20080175423A1 (en) | Adjusting a hearing apparatus to a speech signal | |
EP2688067B1 (en) | System for training and improvement of noise reduction in hearing assistance devices | |
DK2982136T3 (da) | Fremgangsmåde til evaluering af et ønsket signal og høreindretning | |
Courtois | Spatial hearing rendering in wireless microphone systems for binaural hearing aids | |
Li et al. | Effect of the division between early and late reflections on intelligibility of ideal binary-masked speech | |
US11929071B2 (en) | Hearing device system and method for operating same | |
EP4300491A1 (en) | A method for transforming audio input data into audio output data and a hearing device thereof | |
Grant et al. | An objective measure for selecting microphone modes in OMNI/DIR hearing aid circuits | |
Levitt | Future directions in hearing aid research | |
Amin et al. | Impact of microphone orientation and distance on BSS quality within interaction devices | |
Magadum et al. | An Innovative Method for Improving Speech Intelligibility in Automatic Sound Classification Based on Relative-CNN-RNN |