DK3257043T3

DK3257043T3 - Højttalergenkendelse i et multimediesystem

Info

Publication number: DK3257043T3
Application number: DK16703795.1T
Authority: DK
Inventors: Sven Ewan Shepstone; Jensen Søren Borup
Original assignee: Bang & Olufsen As
Priority date: 2015-02-11
Filing date: 2016-02-10
Publication date: 2019-01-14
Also published as: US10354657B2; CN107210038A; EP3257043A1; CN107210038B; US20170372706A1; EP3257043B1; WO2016128475A1

Claims

1. Fremgangsmåde til at identificere en bruger blandt flere brugere af et multimediesystem, der indbefatter én eller flere indretninger til at tilvejebringe multimedieindhold fra én eller flere kilder til digital information, med henblik på at tilvejebringe individuelt tilpasset adgang og styring af multimedieindhold fra multimediesystemet, hvor fremgangsmåden omfatter trinnene: at tilvejebringe en samling af i-vektorsæt, hvor hvert i-vektorsæt indbefatter i-vektorer, der er baseret på ét eller flere ord, som en bruger af multimediesystemet har udtalt, og som er tilknyttet med en adgangsprofil af denne bruger, at skaffe en talt udtalelse fra en nuværende bruger og at uddrage en i-vektor for den talte udtalelse ved anvendelse af samlet-variabilitetsmodellering, at sammenligne den uddragne i-vektor med hvert i-vektorsæt i samlingen med henblik på at identificere et målsæt, der er mest lignende den uddragne i-vektor, at tildele den nuværende bruger adgang til multimediasystemet i overensstemmelse med adgangsprofilen, der er tilknyttet det identificerede målsæt, hvor den talte udtalelse skaffes ved anvendelse af én af flere kilder, og hvor fremgangsmåden yderligere omfatter at minimere kildevariationen i samletvariabilitetsmodelleringen ved at: estimere en kildespecifik informativ a-priori-fordeling, som er defineret ved hjælp af en middelværdi og en kovarians, for hver datakilde, og for hver talte udtalelse, som er skaffet ved anvendelse af en specifik datakilde, at gencentrere førsteordensstatistikker af den talte udtalelse omkring middelværdien af den informative a-priori-fordeling, der er tilknyttet kilden, og at anvende kovariansen af den informative a-priori-fordeling, som er tilknyttet kilden, når i-vektoren for den talte udtalelse uddrages.

2. Fremgangsmåde ifølge krav 1, hvor estimeringen af en kildespecifik informativ a-priori-fordeling indbefatter: at uddrage et kildespecifikt sæt af i-vektorer fra data, som er skaffet fra datakilden, og at anvende det kildespecifikke sæt af i-vektorer til at estimere den kildespecifikke informative a-priori-fordeling.

3. Fremgangsmåde ifølge krav 2, hvor uddragningen af at et kildespecifikt sæt af i-vektorer udføres ved anvendelse af en forudtrænet samlet-variabilitetsmatrix og en ikke-informativ a-priori-fordeling.

4. Fremgangsmåde ifølge krav 2, hvor uddragningen af at et kildespecifikt sæt af i-vektorer udføres ved anvendelse af en informativ samlet-variabilitetsmatrix og en ikke-informativ a-priori-fordeling, og hvor den informative samlet-variabilitetsmatrix beregnes ved: at udføre flere træningsiterationer, f.eks. forventningsmaksimeringstræningsiteratio- ner, hvor hver iteration indbefatter at beregne en foreløbig kildespecifik informativ a-priori-fordeling og at opdatere den informative samlet-variabilitetsmatrix ved anvendelse af den foreløbige kildespecifikke informative a-priori-fordeling.

5. Fremgangsmåde ifølge ét af de foregående krav ydermere omfattende at lagre samlingen af i-vektorsæt og tilknyttede adgangsprofiler i en fjern database og at gøre dem tilgængelige for mere end ét multimediesystem.

6. Fremgangsmåde ifølge krav 5 ydermere omfattende at lagre indholdsforbrugsmønstre af hver bruger og at forsyne den nuværende bruger med anbefalinger baseret på valg, der er lignende den nuværende brugers, af andre brugere.

7. Fremgangsmåde ifølge ét af de foregående krav ydermere omfattende: at tilvejebringe en samling af i-vektorklasser, hvor hver i-vektorklasse indbefatter et sæt af i-vektorer, som er baseret på tale fra brugere med lignende karakteristika, og at sammenligne den uddragne i-vektor med hver i-vektorklasse for at identificere en i-vektorklasse, som er mest lignende den uddragne i-vektor.

8. Fremgangsmåde ifølge krav 7, hvor karakteristikaene indbefatter mindst én af alder, køn og humør.

9. Fremgangsmåde ifølge et hvilket som helst af de foregående krav ydermere indbefattende at identificere og registrere en ny bruger, udelukkende hvis en i-vektor, som er uddraget fra en talt udtalelse af den nye bruger, er tilstrækkelig forskellige fra alle tidligere lagrede i-vektorer ifølge en forudbestemt betingelse.

10. Fremgangsmåde ifølge krav 9, hvor betingelsen er baseret på en cosinusafstand mellem den uddragne i-vektor og alle tidligere lagrede i-vektorer.

11. Fremgangsmåde ifølge et hvilket som helst af de foregående krav, hvor samlingen af i-vektorsæt indbefatter et første i-vektorsæt, der er baseret på ét eller flere ord, som er udtalt af en første bruger og tilknyttet en første adgangsprofil, og et andet i-vektorsæt baseret på ét eller flere ord, der er udtalt af en anden bruger og tilknyttet en anden adgangsprofil, hvor fremgangsmåden ydermere omfatter: at allokere en første brugeridentifikation til den første bruger; at allokere en anden brugeridentifikation til den anden bruger; at identificere den første bruger som den nuværende bruger; at modtage en indlæsning, som indikerer den anden brugeridentifikation, fra den første bruger; og at tildele den første bruger adgang i overensstemmelse med den anden adgangsprofil.

12. Fremgangsmåde ifølge krav 11, hvor hver adgangsprofil definerer brugerafhængige adgangsrettigheder.

13. Fremgangsmåde ifølge krav 11 eller 12, hvor hver brugeridentifikation er allokeret til en funktionstast, såsom en knap på en fysisk indretning eller et grafisk billede/ikon på en virtuel indretning.

14. Multimediesystem omfattende: én eller flere kilder til digital information, én eller flere indretninger til at tilvejebringe multimedieindhold fra kilderne, en database, der lagrer en samling af i-vektorsæt, hvor hvert i-vektorsæt indbefatter i-vektorer baseret på ét eller flere ord, som en bruger af multimediesystemet har udtalt, og er tilknyttet en adgangsprofil af denne bruger, flere taleoptagelsesdatakilder, et behandlingskredsløb, der er konfigureret til: at uddrage en i-vektor for en talt udtalelse, der er skaffet fra én af datakilderne ved anvendelse af samlet-variabilitetsmodellering, mens kildevarationen minimeres ved: at estimere en kildespecifik informativ a-priori-fordeling, som er defineret ved hjælp af en middelværdi og en kovarians, for hver datakilde, og for hver talte udtalelse, som er skaffet ved anvendelse af en specifik datakilde, at gencentrere førsteordensstatistikker af den talte udtalelse omkring middelværdien af den informative a-priori-fordeling, der er tilknyttet kilden, og at anvende kovariansen af den informative a-priori-fordeling, som er tilknyttet kilden, når i-vektoren for den talte udtalelse uddrages, at sammenligne den uddragne i-vektor med hvert i-vektorsæt i samlingen med henblik på at identificere et målsæt, der er mest lignende den uddragne i-vektor, at tildele den nuværende bruger adgang til multimediasystemet i overensstemmelse med adgangsprofilen, der er tilknyttet det identificerede målsæt.

15. Fremgangsmåde ifølge krav 13, hvor databasen er fjern i forhold til multimediesystemet og deles af adskillige multimediesystemer.