DK2405673T3

DK2405673T3 - Fremgangsmåde til lokalisering af en lydkilde og et multi-kanallydsystem

Info

Publication number: DK2405673T3
Application number: DK11169403.0T
Authority: DK
Inventors: Vaclav Bouse
Original assignee: Sivantos Pte Ltd
Priority date: 2010-07-07
Filing date: 2011-06-10
Publication date: 2018-12-03
Also published as: DE102010026381A1; EP2405673B1; US20120008790A1; EP2405673A1; CN102316404A; CN102316404B

Description

FREMGANGSMÅDE TIL LOKALISERING AF EN LYDKILDE OG ET MULTI-KANALLYDSYSTEM

Beskrivelse [0001] Arbejdet der har ført til den foreliggende opfindelse, er blevet finansieret under Det Europæiske Fællesskabs syvende rammeprogram (FP7/2007-2013) under tilskudsaftale nr. 214699.

[0002] Den foreliggende opfindelse angår en fremgangsmåde til lokalisering af mindst en lydkilde med et multikanallydsystem. Endvidere angår den foreliggende opfindelse et tilsvarende multikanallydsystem med et antal indgangskanaler og især et binauralt lydsystem. Ved et "binauralt lydsystem" forstås her et system, hvor begge ører af en bruger kan forsynes med lyd. Især forstås derved et binauralt høreapparatsystem, hvori brugeren bærer et høreapparat på begge ører, som forsyner det respektive øre.

[0003] Høreapparater er bærbare høreindretninger, der tjener til at passe til hørehæmmede. For at imødekomme de mange individuelle behov er der forskellige typer af høreapparater til rådighed, såsom bag-øret-høreapparater (BTE), høreapparat med ekstern modtager (RIC: ”receiver-in the-canal”) og i-øret-høre-apparater (ITE), f.eks. også concha-høreapparater eller kanal-høreapparater (ITE, CIC). De høreapparater der er opført som eksempler, bæres på yderøret eller i øregangen. Derudover er der også mulighed for at levere høreapparater til implantation af implanterbare eller vibrotaktile hørehjælpemidler på markedet. Derved foregår stimuleringen af den beskadigede hørelse enten mekanisk eller elektrisk.

[0004] Høreapparater har i princippet som væsentlige komponenter en indgangstransducer, en forstærker og en udgangstransducer. Indgangstransduceren er som regel en lydmodtager, f.eks. en mikrofon og/eller en elektromagnetisk modtager, f.eks. en induktionsspole. Udgangstransduceren er som regel realiseret som en elektroakustisk transducer, f.eks. en miniaturehøjttaler, eller som en elektromekanisk transducer, f.eks. en knogleledningsmodtager. Forstærkeren er normalt integreret i en signalbehandlingsenhed. Denne grundlæggende struktur er vist i Fig. 1 under anvendelse af eksemplet på et bag-øret-hø-reapparat. I et høreapparathus 1 til at bære bag øret er en eller flere mikrofoner 2 indbygget til at modtage lyden fra miljøet. En signalbehandlingsenhed 3, som også er integreret i høreapparathuset 1, bearbejder mikrofonsignalerne og forstærker dem. Signalbehandlingsenhedens 3 udgangssignal overføres til en højttaler eller modtager 4, som udsender et akustisk signal. Lyden overføres eventuelt via et lydrør der er fastgjort med en otoplastik i øregangen, til trommehinden af apparatbæreren. Strømforsyning af høreapparatet og især signalbehandlingsenheden 3 udføres ved et ligeledes i høreapparathuset 1 integreret batteri 5.

[0005] Generelt er et computerunderstøttet sceneanalysesystem (CASA: Computational Scene Analysis System) rettet mod at beskrive en akustisk scene ved at lokalisere og klassificere de akustiske kilder, og fortrinsvis også det akustiske miljø. For at illustrere dette er her et eksempel på det såkaldte "party cocktail problem" vist. Mange underholdende talere producerer en baggrundstalestøj, to personer taler sammen nær ved observatøren (retningsbestemt lyd), noget musik kommer fra en anden retning, og rumakustikken er noget død. På samme måde som det menneskelige øre er i stand til at lokalisere og skelne mellem de forskellige lydkilder, forsøger et CASA-system at efterligne denne funktion på en lignende måde, så den kan lokalisere og klassificere mindst hver kilde fra lydblandingen (fx sprog, musik, forstyrrende støj, osv.). Sådanne oplysninger er værdifulde ikke kun for et høreapparatprogramvalg, men også for eksempel for en såkaldt beamformer (lokalt filter), som kan styres i den ønskede retning for at forstærke det ønskede signal til en høreapparatbærer.

[0006] Et konventionelt CASA-system virker således, at lydsignalet omdannes ved en Fourier-transformation eller ved en lignende transformation, såsom f.eks. wavelets, gamma-tone-filterbank, osv., i tid-frekvens-domænet (T-F). Derved overføres signalet altså til en række kortsigtede spektra.

[0007] Fig. 2 viser et blokdiagram over et sådant konventionelt CASA-system. Signalerne fra en mikrofon 10 af et venstre høreapparat og en mikrofon 11 af et højre høreapparat føres sammen til en filterbank 12, som udfører den nævnte transformation i T-F-området. Signalet i T-F-området segmenteres efterfølgende i en segmenteringsenhed 12 i separate T-F-blokke. Ved T-F-blokkene handler det om kortsigtede spektra, hvor blokkene normalt begynder efter en såkaldt "T-F-onset-detektering", det vil sige når spektret af et signal overstiger et bestemt niveau. Længden af blokkene bestemmes ved at analysere andre træk. Til disse træk hører typisk et offset og/eller en kohærens. Derfor er der tilvejebragt en ekstraktionsenhed for træk 14, som ekstraherer træk fra signalet i T-F-området. Sådanne træk omfatter eksempelvis interaural tidsforskel (ITD), interaural niveauforskel (ILD), blok-krydskorrelation, grundfrekvens og lignende. En lokalisering 15 af hver kilde kan udføres ved hjælp af de estimerede eller ekstraherede træk (ITD, ILD). De ekstraherede træk fra ekstraktionsenheden 14 kan imidlertid også anvendes til at styre segmenteringsenheden 13.

[0008] De relativt små blokke der er opnået efter segmenteringsenheden 13, samles igen i en grupperingsenhed 16 for at repræsentere de forskellige kilder. Til dette formål underkastes de ekstraherede træk fra ekstraktionsenheden 14 en analyse af træk 15, hvis analyseresultater anvendes til grupperingen. De således grupperede blokke føres til en klassificeringsenhed 18, med hvilken det skal erkendes, fra hvilken slags kilde signalet fra en blokgruppe er produceret. Resultatet af denne klassifikation og trækkene af analysen 17 anvendes til at beskrive en scene 19.

[0009] Beskrivelsen af en akustisk scene på denne måde er imidlertid ofte utilstrækkelig. Især er det ikke let at adskille eller beskrive flere kilder fra en retning, fordi de små T-F-blokke kun indeholder en lille mængde information.

[0010] I dokumentet EP 1 962 556 A2 er for eksempel beskrevet en fremgangsmåde og en høreindretning til forbedring af rumlig opfattelse, hvorved et indgangssignal kan klassificeres af en klassificeringsenhed og muliggøre styring af høreindretningen som en funktion af klassificeringsresultatet. Klassificeringsenheden kan efterfølges af en retningsmikrofon eller en blindkilde-adskillelsesal-goritme. De derved opdelte signaler fra lydkilden kan derefter behandles ved en rumlig behandling til akustisk gengivelse på en sådan måde, at de ser ud til at komme fra virtuelle kilder, der har forskellige positioner i rummet end de egentlige lydkilder.

[0011] I dokumentet EP 2 200 341 A1 er et hørehjælpemiddelsystem beskrevet, ved hvilket interferenssignaler kan undertrykkes, og nyttige signaler kan fremhæves. Ved hjælp af en kildeseparationsindretning opdeles et indgangssignal i et antal kildespecifikke modtagne signaler. For hvert enkelt kildespecifikt indgangssignal udføres en mærkning som en interferens eller et nyttigt signal ved manuel aktivering af et styreelement af brugeren. De således kildespecifikke modtagne signaler der er klassificeret som interferens eller brugbart signal, overføres efterfølgende til en analyseindretning, hvor blandt andet indfaldsretningen af akustiske signaler i mi krofon syste met kan bestemmes.

[0012] I dokumentet US 2005/027528 A1 er en fremgangsmåde til højttaleridentifikation beskrevet, hvori talekomponenterne der kan anvendes til identifikationen, genkendes i et forstyrret talesignal. For at kunne bruge så mange talekom-ponenter som muligt, vælges en optimal identifikationsalgoritme for hver tale-komponent, hvor udvælgelsen finder sted som en funktion af træk ved talen der er indeholdt i den respektive talekomponent, for eksempel vokaler, nasaler, plosiver eller spektralt flade talelyde.

[0013] I dokumentet WO 2009/072040 A1 er beskrevet et hørehjælpemiddel til en binaural forsyning af en bruger. For at overføre et akustisk signal mellem to høreapparater er der tilvejebragt en båndbreddereduktion for at reducere mængden af data, der skal overføres.

[0014] I dokumentet EP 1 858 291 A1 er et høreapparat beskrevet, hvori en klassifikationsenhed efterfølges af en beamformer til retningsdetektering og ekstraktion af træk. Oplysningerne til retningsdetektering af lydkilder, dvs. lokalisering, foregår på høreapparatet langs databehandlingsbanen foran en beam-former-kontroller.

[0015] Formålet med den foreliggende opfindelse er således at forbedre detektering og lokalisering af akustiske kilder i et multikanallydsystem.

[0016] Ifølge opfindelsen opnås dette formål ved en fremgangsmåde til lokalisering af mindst en lydkilde med et multikanallydsystem som defineret i krav 1. Derudover tilvejebringer opfindelsen et multikanallydsystem med flere indgangskanaler ifølge krav 7. Der udføres fortrinsvis en detektion eller klassificering af kendte signalkomponenter forud for lokaliseringen. Som et resultat kan signalkomponenter systematisk opsummeres i overensstemmelse med deres indhold, før lokalisering finder sted. Summen af signalkomponenterne resulterer i en øget mængde information i forhold til en bestemt kilde, således at deres lokalisering kan udføres mere pålideligt.

[0017] I opfindelsen filtreres signalkomponenter fra indgangssignalet før lokalisering som en funktion af det detekterede signal. Detektionstrinnet anvendes således til at forøge den anvendelige signalkomponent i forhold til den kilde, der skal lokaliseres. Forstyrrende signalkomponenter filtreres eller undertrykkes således.

[0018] Ved detektionen undersøges forudbestemte træk af indgangssignalet, og ved tilstedeværelse af de forudbestemte træk i en intensitet der er specificeret for klassen, gælder signalet fra den givne klasse i et bestemt tidsvindue af indgangssignalet som detekteret. Der sker således en detektion ved hjælp af en klassificering.

[0019] De givne træk kan være harmoniske signalkomponenter eller være udtryk af formanter. Som et resultat opnås især karakteristiske træk omkring f.eks. signalklassen "sprog".

[0020] I en specifik udførelsesform detekteres et antal signaler fra den forudbestemte klasse i indgangssignalet og tildeles forskellige lydkilder i overensstemmelse med foruddefinerede kriterier. Således adskilles f.eks. forskellige talere på basis af den grundlæggende frekvens af de stemte lyde.

[0021] Lokalisering af en lydkilde kan ske ved kendte lokaliseringsalgoritmer og efterfølgende kumulative statistikker. Dette kan bruges på kendte fremgangsmåder til lokalisering.

[0022] Til lokalisering er det normalt nødvendigt at udveksle signaler mellem enhederne i et binauralt lydsystem. Da en detektion af relevante signaler har fundet sted på forhånd, er det kun nødvendigt for lokaliseringen at overføre detekterede og muligvis filtrerede signalkomponenter af indgangssignalet mellem de individuelle enheder i det binaurale lydsystem. Ikke registrerede med hensyn til en bestemt klasse eller uklassificerede signalkomponenter overføres derfor ikke, således at mængden af data, der skal overføres, reduceres væsentligt.

[0023] Den foreliggende opfindelse vil blive yderligere forklaret under henvisning til de ledsagende tegninger, der viser:

Fig. 1 et skematisk diagram af et høreapparat ifølge den kendte teknik;

Fig. 2 et blokdiagram over et kendt sceneanalysesystem Fig. 3 et blokdiagram over et system ifølge opfindelsen og Fig. 4 et signaldiagram over forskellige signaler fra systemet i Fig. 3 for to separate lydkilder.

[0024] Udførelsesformerne der er beskrevet mere detaljeret nedenfor repræsenterer foretrukne udførelsesformer for den foreliggende opfindelse.

[0025] Den væsentlige ide med den foreliggende opfindelse er i et første trin at detektere og filtrere dele af et indgangssignal af et multikanallydsystem, især binauralt lydsystem, og at lokalisere en tilsvarende kilde i et andet trin. Til detektion ekstraheres visse træk fra indgangssignalet, således at en klassificering kan udføres.

[0026] Et blokdiagram af et (her binauralt) lydsystem ifølge opfindelsen er vist i Fig. 3. Kun de væsentlige bestanddele ifølge opfindelsen er vist. De andre komponenter i et binauralt lydsystem er vist for eksempel i Fig. 1 og deres beskrivelse. Det binaurale lydsystem ifølge eksemplet i Fig. 3 omfatter en mikrofon 20 i et venstre apparat, især et høreapparat, og en yderligere mikrofon 21 i et højre (høre)apparat. Alternativt kan der vælges et andet multikanallydsystem med flere indgangskanaler, f.eks. et enkelt høreapparat med flere mikrofoner. Som i eksemplet i Fig. 2 transformeres de to mikrofonsignaler af en filterbank 22 ind i tid-frekvensdomænet (T-F), således at der opnås tilsvarende kortsigtede spek-tra af et binauralt overordnet signal. Med en sådan filterbank 22 kan indgangssignalet imidlertid også transformeres til en anden repræsentation.

[0027] Udgangssignalet fra filterbanken 22 føres til en enhed til ekstraktion af træk 23. Funktionen af trækekstraktionsenheden 23 er at estimere de træk, der er nyttige til pålidelig (modelbaseret) detektion og unik forskel mellem signalklasser. Sådanne træk er for eksempel det harmoniske indhold (intensitet af harmoniske signalkomponenter), startegenskaber af signalkomponenter, grundfrekvens af stemte lyde (tonehøjde) og selvfølgelig et udvalg af flere sådanne træk.

[0028] Baseret på de ekstraherede træk af ekstraktionsenheden 23 forsøger en detekteringsenhed 24 at detektere og ekstrahere (isolere) kendte signalkomponenter fra signalet fra filterbanken 22 i f.eks. T-F-området. Hvis for eksempel estimeringen af retningen for en eller flere talere ønskes, kan de søgte signalkomponenter være vokaler. For at detektere vokaler kan systemet søge efter signalkomponenter med høj harmonicitet (dvs. udtalt harmonisk) og en specifik formantstruktur. Vokaldetektering er imidlertid en heuristisk eller usikker tilgang, og et universelt CASA-system skal kunne registrere andre klasser end sprog. Derfor bør der anvendes en mere teoretisk tilgang baseret på overvåget læring og den bedst mulige ekstraktion af træk.

[0029] Det primære mål for denne detekteringsblok 24 er ikke at detektere nogen forekomst af de særlige signalkomponenter, men kun at detektere de komponenter, hvis detektion er pålidelig. Hvis nogle blokke ikke kan tildeles af systemet, er det stadig muligt at tildele andre. En forkert detektering af et signal reducerede dog gyldigheden af de efterfølgende signalblokke.

[0030] I et næste trin i en algoritme ifølge opfindelsen følger en beslutningskontrolleret filtrering 25 (DDF: Decision Directed Filtering). Det detekterede signal filtreres ud af signalblandingen for at forøge ydeevnen af de efterfølgende behandlingsblokke (her lokalisering). For eksempel kan detekteringen af vokaler i et talesignal igen overvejes. Når en vokal er detekteret, kan den estimerede for-mantstruktur for eksempel bruges til at filtrere uønskede interferenser, der er registreret udenfor formantstrukturen.

[0031] I et sidste trin i algoritmen udføres en fri valgbar lokaliseringsfremgangsmåde 26 ud fra de ekstraherede signalkomponenter i filteret 25. Signalkildens position sammen med den relevante klasse anvendes derefter til at beskrive den akustiske scene 27. Lokalisering kan udføres f.eks. ved simpel kumulativ statistik 28 eller ved brug af sofistikerede tilgange, såsom sporing af hver kilde i lokalet omkring modtageren.

[0032] Den væsentligste fordel ved fremgangsmåden ifølge opfindelsen i forhold til andre algoritmer er, at problemet med gruppering af bestemte T-F-vær-dier eller blokke (svarende til det kendte problem med blindkildeseparation) ikke skal løses. Skønt de kendte systemer varierer meget (antal funktioner og forskellige grupperingstilgange), har alle disse systemer i det væsentlige de samme begrænsninger. Når T-F-blokkene er isoleret fra hinanden ved en fast beslutningsregel, skal de grupperes igen. Oplysningerne i de enkelte små blokke er dog normalt utilstrækkelige til gruppering i reelle scenarier. I modsætning til anvendelsen af hele frekvensområdet (ikke kun individuelle frekvenser eller individuelle frekvensbånd), gør fremgangsmåden ifølge opfindelsen det muligt at lokalisere enkeltkilder med høj præcision.

[0033] Et andet bemærkelsesværdigt træk ved det foreslåede system er evnen til at opdage og lokalisere flere kilder i samme retning, hvis de tilhører forskellige klasser. For eksempel kan en musikkilde og en sprogkilde med samme DOA (Direction of Arrival) korrekt identificeres som to signaler i to klasser.

[0034] Systemet ifølge opfindelsen kan også udvides med en taleridentifikationsblok, således at en sporing af et ønsket signal bliver muligt. For eksempel kan den praktiske fordel være at lokalisere og identificere en ønsket kilde (f.eks. en dominerende taler eller en sprogkilde der er valgt af høreapparatbrugeren). Når kilden bevæger sig i rummet, sporer høreapparatsystemet automatisk dens position og kan f.eks. henlede en beamformer i den nye retning.

[0035] Algoritmen ifølge opfindelsen kan også være i stand til at reducere en datahastighed mellem et venstre og et højre høreapparat (trådløs forbindelse). For lokaliseringen transmitteres kun de detekterede komponenter (eller endda kun deres repræsentanter) af venstre og højre signaler mellem høreapparaterne, så meget færre data skal overføres som i den fuldstændige signaloverførsel.

[0036] Algoritmen ifølge opfindelsen muliggør samtidig lokalisering af akustiske kilder med høj rumlige opløsning sammen med deres klassificering. For at illustrere udførelsen af denne nye tilgang er en lokalisering af vokaler i en kompleks akustisk scene vist i Fig. 4. Scenen består i, at der findes en talekilde i retning af φ = 30° der har en effekt P = -25 dB. En musikkilde er ved φ = -30° og har en effekt P = -25 dB. Derudover er der diffus talestøj med en effekt på P = -27 dB såvel som en Gaussisk støj med en effekt på P = -70 dB. I diagrammet i Fig. 4, hvor intensiteten er tegnet opad og vinklen er tegnet i grader til højre, skal der i det væsentlige fastslås to signalkilder, som repræsenterer de to signalkilder (talekilde og musikkilde). Kurven I viser indgangssignalet i hele frekvensspektret efter filterbanken 22 (se Fig. 3). Signalet behandles ikke yderligere her. Kurven II viser signalet efter detektion af vokaler ved detekteringsenheden 24 (se Fig. 3). Endelig repræsenterer kurven III lokaliseringsresultatet ef ter filterenheden 25 (se også Fig. 3) ved anvendelse af en kendt, ideel formant-maske. Ifølge kurven III kan talekilden derfor være tydeligt placeret.

[0037] Algoritmen ifølge opfindelsen kan modificeres. Således kan for eksempel et signal eller dets kilde ikke kun lokaliseres og klassificeres, men den tilsvarende information kan også kobles tilbage til klassifikationsdetektoren 24, således at lokaliseringsresultatet kan forbedres iterativt. Tilbagekoblingen kan også bruges til at spore en kilde. Desuden kan denne fremgangsmåde bruges til at bestemme en hoveddrejning. Derved kan systemet bruges alene eller som led i et fysisk hovedbevægelsesdetekteringssystem med accelerometre.

[0038] En yderligere modifikation af systemet kan være, at en estimeret retning (DOA) af et ønsket signal anvendes til at styre en beamformer foran en detektor for at forbedre ydeevnen af et samlet system.

[0039] Eksemplet ovenfor henviser til placeringen af en talekilde. Det foreslåede system kan imidlertid også registrere andre klasser af signaler. For at opdage og klassificere forskellige signaler skal forskellige træk og muligvis forskellige repræsentanter for signalerne anvendes. For eksempel, hvis detektion af et musiksignal ønskes, skal systemet trænes med forskellige musikinstrumenter, og en passende detektor skal anvendes.

[0040] Princippet for systemet ifølge opfindelsen realiseres primært som en algoritme til høreapparater. Brugen er ikke begrænset til høreapparater. En sådan fremgangsmåde kan derimod også anvendes til navigationssystemer til blinde personer, for eksempel til at lokalisere specielle lyde på offentlige steder, eller i endnu en anden applikation akustisk at finde defekte dele i en stor maskine.

Liste over henvisninqstal [0041] 1 høreapparathus 2 mikrofon 3 signalbehandlingsenhed 4 højttaler eller modtager 5 batteri 10 mikrofon 11 mikrofon 12 filterbank 13 segmenteringsenhed 14 trækekstraheringsenhed 15 lokalisering 16 grupperingsenhed 17 analyse 18 klassificeringsenhed 19 scene 20 mikrofon 21 mikrofon 22 filterbank 23 trækekstraheringsenhed 24 detektionsenhed 25 filter 26 lokaliseringsfremgangsmåde 27 scene 28 statistik I, II, III kurver

Claims

1. Fremgangsmåde til lokalisering af mindst en lydkilde ved anvendelse af et lydsystem med flere kanaler, kendetegnet ved, at - detektere (24) et signal af en foreskrevet klasse i et indgangssignal (I) af lydsystemet med flere kanaler, hvilket signal stammer fra lydkilden, hvor der ved detekteringen undersøges for foreskrevne træk i indgangssignalet (I), og ved tilstedeværelse af de foreskrevne træk ved en intensitet som er foreskrevet for klassen, gælder signalet i den foreskrevne klasse som det detekterede signal i indgangssignalet, hvor signalkomponenter af indgangssignalet afhængigt af det detekterede signal filtreres før lokaliseringen (26) for at øge andelen af brugbart signal i forhold til den kilde, der skal lokaliseres, og - efterfølgende at lokalisere (26) lydkilden ved hjælp af de fra indgangssignalet filtrerede komponenter af signalet.

2. Fremgangsmåden ifølge krav 1, hvor de foreskrevne træk er harmoniske signalkomponenter eller formanter.

3. Fremgangsmåden ifølge krav 2, hvor den foreskrevne klasse er "sprog".

4. Fremgangsmåde ifølge et af de foregående krav, hvor et antal signaler i den foreskrevne klasse detekteres i indgangssignalet og er forbundet med forskellige lydkilder på basis af foruddefinerede kriterier.

5. Fremgangsmåden ifølge krav 4, hvor de forskellige lydkilder er et antal talere.

6. Fremgangsmåde ifølge et af de foregående krav, hvor multikanallydsystemet er et binauralt lydsystem, og lokaliseringen (26) involverer kun filtrerede signalkomponenter af indgangssignalet, der skal overføres mellem de individuelle apparater i det binaurale lydsystem.

7. Multikanallydsystem med flere indgangskanaler, hvilket system er konfigureret til at udføre fremgangsmåden ifølge krav 1.