DK3257043T3 - Højttalergenkendelse i et multimediesystem - Google Patents
Højttalergenkendelse i et multimediesystem Download PDFInfo
- Publication number
- DK3257043T3 DK3257043T3 DK16703795.1T DK16703795T DK3257043T3 DK 3257043 T3 DK3257043 T3 DK 3257043T3 DK 16703795 T DK16703795 T DK 16703795T DK 3257043 T3 DK3257043 T3 DK 3257043T3
- Authority
- DK
- Denmark
- Prior art keywords
- vector
- user
- source
- informative
- access
- Prior art date
Links
- 239000013598 vector Substances 0.000 claims description 136
- 238000000034 method Methods 0.000 claims description 47
- 238000009826 distribution Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 230000036651 mood Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 15
- 238000009877 rendering Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Claims (15)
1. Fremgangsmåde til at identificere en bruger blandt flere brugere af et multimediesystem, der indbefatter én eller flere indretninger til at tilvejebringe multimedieindhold fra én eller flere kilder til digital information, med henblik på at tilvejebringe individuelt tilpasset adgang og styring af multimedieindhold fra multimediesystemet, hvor fremgangsmåden omfatter trinnene: at tilvejebringe en samling af i-vektorsæt, hvor hvert i-vektorsæt indbefatter i-vektorer, der er baseret på ét eller flere ord, som en bruger af multimediesystemet har udtalt, og som er tilknyttet med en adgangsprofil af denne bruger, at skaffe en talt udtalelse fra en nuværende bruger og at uddrage en i-vektor for den talte udtalelse ved anvendelse af samlet-variabilitetsmodellering, at sammenligne den uddragne i-vektor med hvert i-vektorsæt i samlingen med henblik på at identificere et målsæt, der er mest lignende den uddragne i-vektor, at tildele den nuværende bruger adgang til multimediasystemet i overensstemmelse med adgangsprofilen, der er tilknyttet det identificerede målsæt, hvor den talte udtalelse skaffes ved anvendelse af én af flere kilder, og hvor fremgangsmåden yderligere omfatter at minimere kildevariationen i samletvariabilitetsmodelleringen ved at: estimere en kildespecifik informativ a-priori-fordeling, som er defineret ved hjælp af en middelværdi og en kovarians, for hver datakilde, og for hver talte udtalelse, som er skaffet ved anvendelse af en specifik datakilde, at gencentrere førsteordensstatistikker af den talte udtalelse omkring middelværdien af den informative a-priori-fordeling, der er tilknyttet kilden, og at anvende kovariansen af den informative a-priori-fordeling, som er tilknyttet kilden, når i-vektoren for den talte udtalelse uddrages.
2. Fremgangsmåde ifølge krav 1, hvor estimeringen af en kildespecifik informativ a-priori-fordeling indbefatter: at uddrage et kildespecifikt sæt af i-vektorer fra data, som er skaffet fra datakilden, og at anvende det kildespecifikke sæt af i-vektorer til at estimere den kildespecifikke informative a-priori-fordeling.
3. Fremgangsmåde ifølge krav 2, hvor uddragningen af at et kildespecifikt sæt af i-vektorer udføres ved anvendelse af en forudtrænet samlet-variabilitetsmatrix og en ikke-informativ a-priori-fordeling.
4. Fremgangsmåde ifølge krav 2, hvor uddragningen af at et kildespecifikt sæt af i-vektorer udføres ved anvendelse af en informativ samlet-variabilitetsmatrix og en ikke-informativ a-priori-fordeling, og hvor den informative samlet-variabilitetsmatrix beregnes ved: at udføre flere træningsiterationer, f.eks. forventningsmaksimeringstræningsiteratio- ner, hvor hver iteration indbefatter at beregne en foreløbig kildespecifik informativ a-priori-fordeling og at opdatere den informative samlet-variabilitetsmatrix ved anvendelse af den foreløbige kildespecifikke informative a-priori-fordeling.
5. Fremgangsmåde ifølge ét af de foregående krav ydermere omfattende at lagre samlingen af i-vektorsæt og tilknyttede adgangsprofiler i en fjern database og at gøre dem tilgængelige for mere end ét multimediesystem.
6. Fremgangsmåde ifølge krav 5 ydermere omfattende at lagre indholdsforbrugsmønstre af hver bruger og at forsyne den nuværende bruger med anbefalinger baseret på valg, der er lignende den nuværende brugers, af andre brugere.
7. Fremgangsmåde ifølge ét af de foregående krav ydermere omfattende: at tilvejebringe en samling af i-vektorklasser, hvor hver i-vektorklasse indbefatter et sæt af i-vektorer, som er baseret på tale fra brugere med lignende karakteristika, og at sammenligne den uddragne i-vektor med hver i-vektorklasse for at identificere en i-vektorklasse, som er mest lignende den uddragne i-vektor.
8. Fremgangsmåde ifølge krav 7, hvor karakteristikaene indbefatter mindst én af alder, køn og humør.
9. Fremgangsmåde ifølge et hvilket som helst af de foregående krav ydermere indbefattende at identificere og registrere en ny bruger, udelukkende hvis en i-vektor, som er uddraget fra en talt udtalelse af den nye bruger, er tilstrækkelig forskellige fra alle tidligere lagrede i-vektorer ifølge en forudbestemt betingelse.
10. Fremgangsmåde ifølge krav 9, hvor betingelsen er baseret på en cosinusafstand mellem den uddragne i-vektor og alle tidligere lagrede i-vektorer.
11. Fremgangsmåde ifølge et hvilket som helst af de foregående krav, hvor samlingen af i-vektorsæt indbefatter et første i-vektorsæt, der er baseret på ét eller flere ord, som er udtalt af en første bruger og tilknyttet en første adgangsprofil, og et andet i-vektorsæt baseret på ét eller flere ord, der er udtalt af en anden bruger og tilknyttet en anden adgangsprofil, hvor fremgangsmåden ydermere omfatter: at allokere en første brugeridentifikation til den første bruger; at allokere en anden brugeridentifikation til den anden bruger; at identificere den første bruger som den nuværende bruger; at modtage en indlæsning, som indikerer den anden brugeridentifikation, fra den første bruger; og at tildele den første bruger adgang i overensstemmelse med den anden adgangsprofil.
12. Fremgangsmåde ifølge krav 11, hvor hver adgangsprofil definerer brugerafhængige adgangsrettigheder.
13. Fremgangsmåde ifølge krav 11 eller 12, hvor hver brugeridentifikation er allokeret til en funktionstast, såsom en knap på en fysisk indretning eller et grafisk billede/ikon på en virtuel indretning.
14. Multimediesystem omfattende: én eller flere kilder til digital information, én eller flere indretninger til at tilvejebringe multimedieindhold fra kilderne, en database, der lagrer en samling af i-vektorsæt, hvor hvert i-vektorsæt indbefatter i-vektorer baseret på ét eller flere ord, som en bruger af multimediesystemet har udtalt, og er tilknyttet en adgangsprofil af denne bruger, flere taleoptagelsesdatakilder, et behandlingskredsløb, der er konfigureret til: at uddrage en i-vektor for en talt udtalelse, der er skaffet fra én af datakilderne ved anvendelse af samlet-variabilitetsmodellering, mens kildevarationen minimeres ved: at estimere en kildespecifik informativ a-priori-fordeling, som er defineret ved hjælp af en middelværdi og en kovarians, for hver datakilde, og for hver talte udtalelse, som er skaffet ved anvendelse af en specifik datakilde, at gencentrere førsteordensstatistikker af den talte udtalelse omkring middelværdien af den informative a-priori-fordeling, der er tilknyttet kilden, og at anvende kovariansen af den informative a-priori-fordeling, som er tilknyttet kilden, når i-vektoren for den talte udtalelse uddrages, at sammenligne den uddragne i-vektor med hvert i-vektorsæt i samlingen med henblik på at identificere et målsæt, der er mest lignende den uddragne i-vektor, at tildele den nuværende bruger adgang til multimediasystemet i overensstemmelse med adgangsprofilen, der er tilknyttet det identificerede målsæt.
15. Fremgangsmåde ifølge krav 13, hvor databasen er fjern i forhold til multimediesystemet og deles af adskillige multimediesystemer.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DKPA201500077 | 2015-02-11 | ||
DKPA201500225 | 2015-04-13 | ||
DKPA201500230 | 2015-04-15 | ||
PCT/EP2016/052841 WO2016128475A1 (en) | 2015-02-11 | 2016-02-10 | Speaker recognition in multimedia system |
Publications (1)
Publication Number | Publication Date |
---|---|
DK3257043T3 true DK3257043T3 (da) | 2019-01-14 |
Family
ID=55345829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DK16703795.1T DK3257043T3 (da) | 2015-02-11 | 2016-02-10 | Højttalergenkendelse i et multimediesystem |
Country Status (5)
Country | Link |
---|---|
US (1) | US10354657B2 (da) |
EP (1) | EP3257043B1 (da) |
CN (1) | CN107210038B (da) |
DK (1) | DK3257043T3 (da) |
WO (1) | WO2016128475A1 (da) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106169295B (zh) * | 2016-07-15 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 身份向量生成方法和装置 |
JP6972149B2 (ja) * | 2017-09-28 | 2021-11-24 | 京セラ株式会社 | 音声命令システム及び音声命令方法 |
US10950244B2 (en) * | 2017-11-29 | 2021-03-16 | ILLUMA Labs LLC. | System and method for speaker authentication and identification |
US10950243B2 (en) | 2017-11-29 | 2021-03-16 | ILLUMA Labs Inc. | Method for reduced computation of t-matrix training for speaker recognition |
US10832683B2 (en) | 2017-11-29 | 2020-11-10 | ILLUMA Labs LLC. | System and method for efficient processing of universal background models for speaker recognition |
WO2019132896A1 (en) | 2017-12-27 | 2019-07-04 | Rovi Guides, Inc. | Systems and methods for identifying users based on voice data and media consumption data |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
US10825458B2 (en) | 2018-10-31 | 2020-11-03 | Rev.com, Inc. | Systems and methods for a two pass diarization, automatic speech recognition, and transcript generation |
SG11202113302UA (en) * | 2019-05-30 | 2021-12-30 | Insurance Services Office Inc | Systems and methods for machine learning of voice attributes |
JP7207578B2 (ja) * | 2019-07-10 | 2023-01-18 | 日本電気株式会社 | 話者埋め込み装置、方法、およびプログラム |
US11776550B2 (en) * | 2021-03-09 | 2023-10-03 | Qualcomm Incorporated | Device operation based on dynamic classifier |
CN113361969B (zh) * | 2021-07-07 | 2022-03-08 | 北京容联七陌科技有限公司 | 一种灵活可配置模板的智能质检系统 |
CN114093383B (zh) * | 2022-01-17 | 2022-04-12 | 北京远鉴信息技术有限公司 | 一种参会者语音的确定方法、装置、电子设备及存储介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US6457043B1 (en) * | 1998-10-23 | 2002-09-24 | Verizon Laboratories Inc. | Speaker identifier for multi-party conference |
US20130097302A9 (en) * | 2003-10-01 | 2013-04-18 | Robert Khedouri | Audio visual player apparatus and system and method of content distribution using the same |
US7631119B2 (en) * | 2004-06-25 | 2009-12-08 | Apple Inc. | Techniques for providing audio for synchronized playback by multiple devices |
US8255223B2 (en) * | 2004-12-03 | 2012-08-28 | Microsoft Corporation | User authentication by combining speaker verification and reverse turing test |
CN101385073A (zh) * | 2006-02-14 | 2009-03-11 | 知识风险基金21有限责任公司 | 具有不依赖于说话者的语音识别的通信设备 |
US8060366B1 (en) * | 2007-07-17 | 2011-11-15 | West Corporation | System, method, and computer-readable medium for verbal control of a conference call |
US9602295B1 (en) * | 2007-11-09 | 2017-03-21 | Avaya Inc. | Audio conferencing server for the internet |
US8510247B1 (en) * | 2009-06-30 | 2013-08-13 | Amazon Technologies, Inc. | Recommendation of media content items based on geolocation and venue |
US10042993B2 (en) * | 2010-11-02 | 2018-08-07 | Homayoon Beigi | Access control through multifactor authentication with multimodal biometrics |
US20120257766A1 (en) * | 2011-04-05 | 2012-10-11 | Continental Automotive Systems, Inc. | Apparatus and method for media presentation |
CN102201236B (zh) * | 2011-04-06 | 2012-12-19 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
US9042867B2 (en) * | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
US8880398B1 (en) * | 2012-07-13 | 2014-11-04 | Google Inc. | Localized speech recognition with offload |
US9898723B2 (en) * | 2012-12-19 | 2018-02-20 | Visa International Service Association | System and method for voice authentication |
US9208777B2 (en) * | 2013-01-25 | 2015-12-08 | Microsoft Technology Licensing, Llc | Feature space transformation for personalization using generalized i-vector clustering |
US9406298B2 (en) * | 2013-02-07 | 2016-08-02 | Nuance Communications, Inc. | Method and apparatus for efficient i-vector extraction |
US9865266B2 (en) * | 2013-02-25 | 2018-01-09 | Nuance Communications, Inc. | Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system |
US9489965B2 (en) * | 2013-03-15 | 2016-11-08 | Sri International | Method and apparatus for acoustic signal characterization |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US9514753B2 (en) * | 2013-11-04 | 2016-12-06 | Google Inc. | Speaker identification using hash-based indexing |
US9858919B2 (en) * | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
US20150154002A1 (en) * | 2013-12-04 | 2015-06-04 | Google Inc. | User interface customization based on speaker characteristics |
US9401143B2 (en) * | 2014-03-24 | 2016-07-26 | Google Inc. | Cluster specific speech model |
US9431021B1 (en) * | 2014-03-27 | 2016-08-30 | Amazon Technologies, Inc. | Device grouping for audio based interactivity |
CN104064189A (zh) * | 2014-06-26 | 2014-09-24 | 厦门天聪智能软件有限公司 | 一种声纹动态口令的建模和验证方法 |
-
2016
- 2016-02-10 EP EP16703795.1A patent/EP3257043B1/en active Active
- 2016-02-10 US US15/540,647 patent/US10354657B2/en active Active
- 2016-02-10 DK DK16703795.1T patent/DK3257043T3/da active
- 2016-02-10 WO PCT/EP2016/052841 patent/WO2016128475A1/en active Application Filing
- 2016-02-10 CN CN201680007725.0A patent/CN107210038B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US10354657B2 (en) | 2019-07-16 |
CN107210038A (zh) | 2017-09-26 |
EP3257043A1 (en) | 2017-12-20 |
CN107210038B (zh) | 2020-11-10 |
US20170372706A1 (en) | 2017-12-28 |
EP3257043B1 (en) | 2018-12-12 |
WO2016128475A1 (en) | 2016-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DK3257043T3 (da) | Højttalergenkendelse i et multimediesystem | |
Landini et al. | Bayesian hmm clustering of x-vector sequences (vbx) in speaker diarization: theory, implementation and analysis on standard tasks | |
US11152006B2 (en) | Voice identification enrollment | |
JP7126613B2 (ja) | ドメイン分類器を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法 | |
US9454958B2 (en) | Exploiting heterogeneous data in deep neural network-based speech recognition systems | |
US11430449B2 (en) | Voice-controlled management of user profiles | |
WO2020018212A1 (en) | Eyes-off training for automatic speech recognition | |
US20160365096A1 (en) | Training classifiers using selected cohort sample subsets | |
US20220130395A1 (en) | Voice-Controlled Management of User Profiles | |
JP2014502375A (ja) | 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム | |
Hechmi et al. | Voxceleb enrichment for age and gender recognition | |
US12028176B2 (en) | Machine-learning-model based name pronunciation | |
Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
JP7347217B2 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
KR102389995B1 (ko) | 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
WO2021139589A1 (zh) | 一种语音处理方法、介质及系统 | |
KR102408455B1 (ko) | 음성 인식 학습을 위한 음성 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
WO2019150708A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
KR102395399B1 (ko) | 음성 인식 학습을 위한 음성 데이터 분해 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
US11741971B1 (en) | Accessing and encoding data using a least significant bit encoding algorithm | |
JP6114210B2 (ja) | 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム | |
US10950231B1 (en) | Skill enablement | |
WO2021033233A1 (ja) | 推定装置、推定方法、および、推定プログラム | |
Folorunso et al. | Laughter signature, a new approach to gender recognition | |
Samarakoon et al. | Low-rank bases for factorized hidden layer adaptation of DNN acoustic models |