DK3257043T3 - Højttalergenkendelse i et multimediesystem - Google Patents

Højttalergenkendelse i et multimediesystem Download PDF

Info

Publication number
DK3257043T3
DK3257043T3 DK16703795.1T DK16703795T DK3257043T3 DK 3257043 T3 DK3257043 T3 DK 3257043T3 DK 16703795 T DK16703795 T DK 16703795T DK 3257043 T3 DK3257043 T3 DK 3257043T3
Authority
DK
Denmark
Prior art keywords
vector
user
source
informative
access
Prior art date
Application number
DK16703795.1T
Other languages
English (en)
Inventor
Sven Ewan Shepstone
Jensen Søren Borup
Original Assignee
Bang & Olufsen As
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bang & Olufsen As filed Critical Bang & Olufsen As
Application granted granted Critical
Publication of DK3257043T3 publication Critical patent/DK3257043T3/da

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Claims (15)

1. Fremgangsmåde til at identificere en bruger blandt flere brugere af et multimediesystem, der indbefatter én eller flere indretninger til at tilvejebringe multimedieindhold fra én eller flere kilder til digital information, med henblik på at tilvejebringe individuelt tilpasset adgang og styring af multimedieindhold fra multimediesystemet, hvor fremgangsmåden omfatter trinnene: at tilvejebringe en samling af i-vektorsæt, hvor hvert i-vektorsæt indbefatter i-vektorer, der er baseret på ét eller flere ord, som en bruger af multimediesystemet har udtalt, og som er tilknyttet med en adgangsprofil af denne bruger, at skaffe en talt udtalelse fra en nuværende bruger og at uddrage en i-vektor for den talte udtalelse ved anvendelse af samlet-variabilitetsmodellering, at sammenligne den uddragne i-vektor med hvert i-vektorsæt i samlingen med henblik på at identificere et målsæt, der er mest lignende den uddragne i-vektor, at tildele den nuværende bruger adgang til multimediasystemet i overensstemmelse med adgangsprofilen, der er tilknyttet det identificerede målsæt, hvor den talte udtalelse skaffes ved anvendelse af én af flere kilder, og hvor fremgangsmåden yderligere omfatter at minimere kildevariationen i samletvariabilitetsmodelleringen ved at: estimere en kildespecifik informativ a-priori-fordeling, som er defineret ved hjælp af en middelværdi og en kovarians, for hver datakilde, og for hver talte udtalelse, som er skaffet ved anvendelse af en specifik datakilde, at gencentrere førsteordensstatistikker af den talte udtalelse omkring middelværdien af den informative a-priori-fordeling, der er tilknyttet kilden, og at anvende kovariansen af den informative a-priori-fordeling, som er tilknyttet kilden, når i-vektoren for den talte udtalelse uddrages.
2. Fremgangsmåde ifølge krav 1, hvor estimeringen af en kildespecifik informativ a-priori-fordeling indbefatter: at uddrage et kildespecifikt sæt af i-vektorer fra data, som er skaffet fra datakilden, og at anvende det kildespecifikke sæt af i-vektorer til at estimere den kildespecifikke informative a-priori-fordeling.
3. Fremgangsmåde ifølge krav 2, hvor uddragningen af at et kildespecifikt sæt af i-vektorer udføres ved anvendelse af en forudtrænet samlet-variabilitetsmatrix og en ikke-informativ a-priori-fordeling.
4. Fremgangsmåde ifølge krav 2, hvor uddragningen af at et kildespecifikt sæt af i-vektorer udføres ved anvendelse af en informativ samlet-variabilitetsmatrix og en ikke-informativ a-priori-fordeling, og hvor den informative samlet-variabilitetsmatrix beregnes ved: at udføre flere træningsiterationer, f.eks. forventningsmaksimeringstræningsiteratio- ner, hvor hver iteration indbefatter at beregne en foreløbig kildespecifik informativ a-priori-fordeling og at opdatere den informative samlet-variabilitetsmatrix ved anvendelse af den foreløbige kildespecifikke informative a-priori-fordeling.
5. Fremgangsmåde ifølge ét af de foregående krav ydermere omfattende at lagre samlingen af i-vektorsæt og tilknyttede adgangsprofiler i en fjern database og at gøre dem tilgængelige for mere end ét multimediesystem.
6. Fremgangsmåde ifølge krav 5 ydermere omfattende at lagre indholdsforbrugsmønstre af hver bruger og at forsyne den nuværende bruger med anbefalinger baseret på valg, der er lignende den nuværende brugers, af andre brugere.
7. Fremgangsmåde ifølge ét af de foregående krav ydermere omfattende: at tilvejebringe en samling af i-vektorklasser, hvor hver i-vektorklasse indbefatter et sæt af i-vektorer, som er baseret på tale fra brugere med lignende karakteristika, og at sammenligne den uddragne i-vektor med hver i-vektorklasse for at identificere en i-vektorklasse, som er mest lignende den uddragne i-vektor.
8. Fremgangsmåde ifølge krav 7, hvor karakteristikaene indbefatter mindst én af alder, køn og humør.
9. Fremgangsmåde ifølge et hvilket som helst af de foregående krav ydermere indbefattende at identificere og registrere en ny bruger, udelukkende hvis en i-vektor, som er uddraget fra en talt udtalelse af den nye bruger, er tilstrækkelig forskellige fra alle tidligere lagrede i-vektorer ifølge en forudbestemt betingelse.
10. Fremgangsmåde ifølge krav 9, hvor betingelsen er baseret på en cosinusafstand mellem den uddragne i-vektor og alle tidligere lagrede i-vektorer.
11. Fremgangsmåde ifølge et hvilket som helst af de foregående krav, hvor samlingen af i-vektorsæt indbefatter et første i-vektorsæt, der er baseret på ét eller flere ord, som er udtalt af en første bruger og tilknyttet en første adgangsprofil, og et andet i-vektorsæt baseret på ét eller flere ord, der er udtalt af en anden bruger og tilknyttet en anden adgangsprofil, hvor fremgangsmåden ydermere omfatter: at allokere en første brugeridentifikation til den første bruger; at allokere en anden brugeridentifikation til den anden bruger; at identificere den første bruger som den nuværende bruger; at modtage en indlæsning, som indikerer den anden brugeridentifikation, fra den første bruger; og at tildele den første bruger adgang i overensstemmelse med den anden adgangsprofil.
12. Fremgangsmåde ifølge krav 11, hvor hver adgangsprofil definerer brugerafhængige adgangsrettigheder.
13. Fremgangsmåde ifølge krav 11 eller 12, hvor hver brugeridentifikation er allokeret til en funktionstast, såsom en knap på en fysisk indretning eller et grafisk billede/ikon på en virtuel indretning.
14. Multimediesystem omfattende: én eller flere kilder til digital information, én eller flere indretninger til at tilvejebringe multimedieindhold fra kilderne, en database, der lagrer en samling af i-vektorsæt, hvor hvert i-vektorsæt indbefatter i-vektorer baseret på ét eller flere ord, som en bruger af multimediesystemet har udtalt, og er tilknyttet en adgangsprofil af denne bruger, flere taleoptagelsesdatakilder, et behandlingskredsløb, der er konfigureret til: at uddrage en i-vektor for en talt udtalelse, der er skaffet fra én af datakilderne ved anvendelse af samlet-variabilitetsmodellering, mens kildevarationen minimeres ved: at estimere en kildespecifik informativ a-priori-fordeling, som er defineret ved hjælp af en middelværdi og en kovarians, for hver datakilde, og for hver talte udtalelse, som er skaffet ved anvendelse af en specifik datakilde, at gencentrere førsteordensstatistikker af den talte udtalelse omkring middelværdien af den informative a-priori-fordeling, der er tilknyttet kilden, og at anvende kovariansen af den informative a-priori-fordeling, som er tilknyttet kilden, når i-vektoren for den talte udtalelse uddrages, at sammenligne den uddragne i-vektor med hvert i-vektorsæt i samlingen med henblik på at identificere et målsæt, der er mest lignende den uddragne i-vektor, at tildele den nuværende bruger adgang til multimediasystemet i overensstemmelse med adgangsprofilen, der er tilknyttet det identificerede målsæt.
15. Fremgangsmåde ifølge krav 13, hvor databasen er fjern i forhold til multimediesystemet og deles af adskillige multimediesystemer.
DK16703795.1T 2015-02-11 2016-02-10 Højttalergenkendelse i et multimediesystem DK3257043T3 (da)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DKPA201500077 2015-02-11
DKPA201500225 2015-04-13
DKPA201500230 2015-04-15
PCT/EP2016/052841 WO2016128475A1 (en) 2015-02-11 2016-02-10 Speaker recognition in multimedia system

Publications (1)

Publication Number Publication Date
DK3257043T3 true DK3257043T3 (da) 2019-01-14

Family

ID=55345829

Family Applications (1)

Application Number Title Priority Date Filing Date
DK16703795.1T DK3257043T3 (da) 2015-02-11 2016-02-10 Højttalergenkendelse i et multimediesystem

Country Status (5)

Country Link
US (1) US10354657B2 (da)
EP (1) EP3257043B1 (da)
CN (1) CN107210038B (da)
DK (1) DK3257043T3 (da)
WO (1) WO2016128475A1 (da)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169295B (zh) * 2016-07-15 2019-03-01 腾讯科技(深圳)有限公司 身份向量生成方法和装置
JP6972149B2 (ja) * 2017-09-28 2021-11-24 京セラ株式会社 音声命令システム及び音声命令方法
US10950244B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs LLC. System and method for speaker authentication and identification
US10950243B2 (en) 2017-11-29 2021-03-16 ILLUMA Labs Inc. Method for reduced computation of t-matrix training for speaker recognition
US10832683B2 (en) 2017-11-29 2020-11-10 ILLUMA Labs LLC. System and method for efficient processing of universal background models for speaker recognition
WO2019132896A1 (en) 2017-12-27 2019-07-04 Rovi Guides, Inc. Systems and methods for identifying users based on voice data and media consumption data
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
US10825458B2 (en) 2018-10-31 2020-11-03 Rev.com, Inc. Systems and methods for a two pass diarization, automatic speech recognition, and transcript generation
SG11202113302UA (en) * 2019-05-30 2021-12-30 Insurance Services Office Inc Systems and methods for machine learning of voice attributes
JP7207578B2 (ja) * 2019-07-10 2023-01-18 日本電気株式会社 話者埋め込み装置、方法、およびプログラム
US11776550B2 (en) * 2021-03-09 2023-10-03 Qualcomm Incorporated Device operation based on dynamic classifier
CN113361969B (zh) * 2021-07-07 2022-03-08 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统
CN114093383B (zh) * 2022-01-17 2022-04-12 北京远鉴信息技术有限公司 一种参会者语音的确定方法、装置、电子设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US6457043B1 (en) * 1998-10-23 2002-09-24 Verizon Laboratories Inc. Speaker identifier for multi-party conference
US20130097302A9 (en) * 2003-10-01 2013-04-18 Robert Khedouri Audio visual player apparatus and system and method of content distribution using the same
US7631119B2 (en) * 2004-06-25 2009-12-08 Apple Inc. Techniques for providing audio for synchronized playback by multiple devices
US8255223B2 (en) * 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
CN101385073A (zh) * 2006-02-14 2009-03-11 知识风险基金21有限责任公司 具有不依赖于说话者的语音识别的通信设备
US8060366B1 (en) * 2007-07-17 2011-11-15 West Corporation System, method, and computer-readable medium for verbal control of a conference call
US9602295B1 (en) * 2007-11-09 2017-03-21 Avaya Inc. Audio conferencing server for the internet
US8510247B1 (en) * 2009-06-30 2013-08-13 Amazon Technologies, Inc. Recommendation of media content items based on geolocation and venue
US10042993B2 (en) * 2010-11-02 2018-08-07 Homayoon Beigi Access control through multifactor authentication with multimodal biometrics
US20120257766A1 (en) * 2011-04-05 2012-10-11 Continental Automotive Systems, Inc. Apparatus and method for media presentation
CN102201236B (zh) * 2011-04-06 2012-12-19 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US8880398B1 (en) * 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US9898723B2 (en) * 2012-12-19 2018-02-20 Visa International Service Association System and method for voice authentication
US9208777B2 (en) * 2013-01-25 2015-12-08 Microsoft Technology Licensing, Llc Feature space transformation for personalization using generalized i-vector clustering
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9489965B2 (en) * 2013-03-15 2016-11-08 Sri International Method and apparatus for acoustic signal characterization
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
US9401143B2 (en) * 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
US9431021B1 (en) * 2014-03-27 2016-08-30 Amazon Technologies, Inc. Device grouping for audio based interactivity
CN104064189A (zh) * 2014-06-26 2014-09-24 厦门天聪智能软件有限公司 一种声纹动态口令的建模和验证方法

Also Published As

Publication number Publication date
US10354657B2 (en) 2019-07-16
CN107210038A (zh) 2017-09-26
EP3257043A1 (en) 2017-12-20
CN107210038B (zh) 2020-11-10
US20170372706A1 (en) 2017-12-28
EP3257043B1 (en) 2018-12-12
WO2016128475A1 (en) 2016-08-18

Similar Documents

Publication Publication Date Title
DK3257043T3 (da) Højttalergenkendelse i et multimediesystem
Landini et al. Bayesian hmm clustering of x-vector sequences (vbx) in speaker diarization: theory, implementation and analysis on standard tasks
US11152006B2 (en) Voice identification enrollment
JP7126613B2 (ja) ドメイン分類器を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法
US9454958B2 (en) Exploiting heterogeneous data in deep neural network-based speech recognition systems
US11430449B2 (en) Voice-controlled management of user profiles
WO2020018212A1 (en) Eyes-off training for automatic speech recognition
US20160365096A1 (en) Training classifiers using selected cohort sample subsets
US20220130395A1 (en) Voice-Controlled Management of User Profiles
JP2014502375A (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
Hechmi et al. Voxceleb enrichment for age and gender recognition
US12028176B2 (en) Machine-learning-model based name pronunciation
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR102389995B1 (ko) 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
WO2021139589A1 (zh) 一种语音处理方法、介质及系统
KR102408455B1 (ko) 음성 인식 학습을 위한 음성 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR102395399B1 (ko) 음성 인식 학습을 위한 음성 데이터 분해 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US11741971B1 (en) Accessing and encoding data using a least significant bit encoding algorithm
JP6114210B2 (ja) 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム
US10950231B1 (en) Skill enablement
WO2021033233A1 (ja) 推定装置、推定方法、および、推定プログラム
Folorunso et al. Laughter signature, a new approach to gender recognition
Samarakoon et al. Low-rank bases for factorized hidden layer adaptation of DNN acoustic models