JP5853029B2 - 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム - Google Patents
話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム Download PDFInfo
- Publication number
- JP5853029B2 JP5853029B2 JP2013542330A JP2013542330A JP5853029B2 JP 5853029 B2 JP5853029 B2 JP 5853029B2 JP 2013542330 A JP2013542330 A JP 2013542330A JP 2013542330 A JP2013542330 A JP 2013542330A JP 5853029 B2 JP5853029 B2 JP 5853029B2
- Authority
- JP
- Japan
- Prior art keywords
- passphrase
- speaker
- frames
- gaussian
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims description 50
- 238000000034 method Methods 0.000 title claims description 46
- 238000012360 testing method Methods 0.000 claims description 28
- 230000006978 adaptation Effects 0.000 claims description 23
- 239000000203 mixture Substances 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Description
jt,s(1≦s≦N、0≦t≦T)
と表すことが可能である。
Claims (14)
- 話者照合のためのパスフレーズ・モデリング・デバイスであって、
前記パスフレーズ・モデリング・デバイスが備えるデータベースは、
話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、
前記パスフレーズ・モデリング・デバイスが備えるフロント・エンドは、
目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、
前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、
前記複数のフレームの各々から音響特性および/または内容を表す特徴パラメータを抽出し、
前記パスフレーズ・モデリング・デバイスが備えるテンプレート生成ユニットは、
前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、
前記算出した尤度スコアの上位N(Nは自然数)個のガウス成分を、前記複数のフレーム毎に抽出し、
同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、
前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、
前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する、
パスフレーズ・モデリング・デバイス。 - 前記受信した登録音声は、サイズが等しい前記複数のセグメントに分割され、
前記複数のセグメントの各々は、複数のフレームを含む、
請求項1に記載のパスフレーズ・モデリング・デバイス。 - 前記受信した登録音声は、サイズの等しくない前記複数のセグメントに分割され、
前記複数のセグメントの各々は、複数のフレームを含む、
請求項1に記載のパスフレーズ・モデリング・デバイス。 - 同一セグメントから得られた前記一以上のガウス混合モデルは、前記隠れマルコフ・モデル・ネットにおいて、並列状態である、
請求項1に記載のパスフレーズ・モデリング・デバイス。 - 連続するセグメントから得られた前記一以上のガウス混合モデル同士は、前記隠れマルコフ・モデル・ネットにおいてリンクしている、
請求項1に記載のパスフレーズ・モデリング・デバイス。 - 前記生成されたパスフレーズ・テンプレートは、MAPまたはMLLRの適応方法によって前記登録音声に従って適応される、
請求項1に記載のパスフレーズ・モデリング・デバイス。 - 話者照合のためのパスフレーズ・モデリング方法であって、
話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、
目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、
前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、
前記複数のフレームの各々から音響特性および/または内容を表す特徴パラメータを抽出し、
前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、
前記算出した尤度スコアの上位N(Nは自然数)個のガウス成分を、前記複数のフレーム毎に抽出し、
同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、
前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、
前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する、
パスフレーズ・モデリング方法。 - 前記受信した登録音声は、サイズが等しい前記複数のセグメントに分割され、
前記複数のセグメントの各々は、複数のフレームを含む、
請求項7に記載のパスフレーズ・モデリング方法。 - 前記受信した登録音声は、サイズの等しくない前記複数のセグメントに分割され、
前記複数のセグメントの各々は、複数のフレームを含む、
請求項7に記載のパスフレーズ・モデリング方法。 - 同一セグメントから得られた前記一以上のガウス混合モデルは、前記隠れマルコフ・モデル・ネットにおいて、並列状態である、
請求項7に記載のパスフレーズ・モデリング方法。 - 連続するセグメントから得られた前記一以上のガウス混合モデル同士は、前記隠れマルコフ・モデル・ネットにおいてリンクしている、
請求項7に記載のパスフレーズ・モデリング方法。 - 前記生成されたパスフレーズ・テンプレートは、MAPまたはMLLRの適応方法によって前記登録音声に従って適応される、
請求項7に記載のパスフレーズ・モデリング方法。 - 音声を用いて話者を照合する話者照合システムであって、
テスト話者のテスト音声を受信する、フロント・エンドと、
前記テスト音声と、請求項7に記載のパスフレーズ・モデリング方法によってパスフレーズ・テンプレートを生成し、前記パスフレーズ・テンプレートから選択されたデータとを比較して、前記テスト音声の尤度スコアを算出する動的照合ユニットとを備え、
前記尤度スコアが所定の閾値以上である場合、前記テスト話者は申告話者として受理される、
話者照合システム。 - 前記フロント・エンドは、さらに、前記テスト話者の話者識別情報を受信し、
前記動的照合ユニットは、前記受信した話者識別情報に基づいて、前記パスフレーズ・テンプレートから比較のための前記データを選択する、
請求項13に記載の話者照合システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2010/079654 WO2012075641A1 (en) | 2010-12-10 | 2010-12-10 | Device and method for pass-phrase modeling for speaker verification, and verification system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014502375A JP2014502375A (ja) | 2014-01-30 |
JP5853029B2 true JP5853029B2 (ja) | 2016-02-09 |
Family
ID=46206544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013542330A Active JP5853029B2 (ja) | 2010-12-10 | 2010-12-10 | 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9257121B2 (ja) |
JP (1) | JP5853029B2 (ja) |
CN (1) | CN103221996B (ja) |
WO (1) | WO2012075641A1 (ja) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9147400B2 (en) * | 2011-12-21 | 2015-09-29 | Sri International | Method and apparatus for generating speaker-specific spoken passwords |
US9147401B2 (en) * | 2011-12-21 | 2015-09-29 | Sri International | Method and apparatus for speaker-calibrated speaker detection |
US9837078B2 (en) * | 2012-11-09 | 2017-12-05 | Mattersight Corporation | Methods and apparatus for identifying fraudulent callers |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
CN104217149B (zh) | 2013-05-31 | 2017-05-24 | 国际商业机器公司 | 基于语音的生物认证方法及设备 |
US9646613B2 (en) * | 2013-11-29 | 2017-05-09 | Daon Holdings Limited | Methods and systems for splitting a digital signal |
US9767787B2 (en) | 2014-01-01 | 2017-09-19 | International Business Machines Corporation | Artificial utterances for speaker verification |
US10157272B2 (en) | 2014-02-04 | 2018-12-18 | Qualcomm Incorporated | Systems and methods for evaluating strength of an audio password |
US8812320B1 (en) | 2014-04-01 | 2014-08-19 | Google Inc. | Segment-based speaker verification using dynamically generated phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105869641A (zh) * | 2015-01-22 | 2016-08-17 | 佳能株式会社 | 语音识别装置及语音识别方法 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
CN106683661B (zh) * | 2015-11-05 | 2021-02-05 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
EP3433856B1 (en) * | 2016-03-23 | 2019-07-17 | Telefonaktiebolaget LM Ericsson (PUBL) | Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model |
CN105933323B (zh) * | 2016-06-01 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 声纹注册、认证方法及装置 |
CN106128464B (zh) * | 2016-06-12 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | Ubm分字模型的建立方法、声纹特征生成方法及装置 |
US10249314B1 (en) * | 2016-07-21 | 2019-04-02 | Oben, Inc. | Voice conversion system and method with variance and spectrum compensation |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US11295748B2 (en) * | 2017-12-26 | 2022-04-05 | Robert Bosch Gmbh | Speaker identification with ultra-short speech segments for far and near field voice assistance applications |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
KR102595184B1 (ko) * | 2018-05-25 | 2023-10-30 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체 |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110931022B (zh) * | 2019-11-19 | 2023-09-15 | 天津大学 | 基于高低频动静特征的声纹识别方法 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11508380B2 (en) * | 2020-05-26 | 2022-11-22 | Apple Inc. | Personalized voices for text messaging |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185181A (ja) * | 1997-09-10 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声モデルの生成方法並びにその音声モデルを用いた話者認識方法及び話者認識装置 |
JP2001255887A (ja) * | 2000-03-09 | 2001-09-21 | Rikogaku Shinkokai | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 |
US20040186724A1 (en) * | 2003-03-19 | 2004-09-23 | Philippe Morin | Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience |
JP4717872B2 (ja) * | 2006-12-06 | 2011-07-06 | 韓國電子通信研究院 | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
US8099288B2 (en) | 2007-02-12 | 2012-01-17 | Microsoft Corp. | Text-dependent speaker verification |
EP2182512A1 (en) * | 2008-10-29 | 2010-05-05 | BRITISH TELECOMMUNICATIONS public limited company | Speaker verification |
CN101814159B (zh) * | 2009-02-24 | 2013-07-24 | 南京工程学院 | 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 |
CN101833951B (zh) * | 2010-03-04 | 2011-11-09 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
-
2010
- 2010-12-10 CN CN201080070323.8A patent/CN103221996B/zh active Active
- 2010-12-10 JP JP2013542330A patent/JP5853029B2/ja active Active
- 2010-12-10 WO PCT/CN2010/079654 patent/WO2012075641A1/en active Application Filing
- 2010-12-10 US US13/989,577 patent/US9257121B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2012075641A1 (en) | 2012-06-14 |
CN103221996A (zh) | 2013-07-24 |
CN103221996B (zh) | 2015-09-30 |
US20130238334A1 (en) | 2013-09-12 |
US9257121B2 (en) | 2016-02-09 |
JP2014502375A (ja) | 2014-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5853029B2 (ja) | 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム | |
Desai et al. | Feature extraction and classification techniques for speech recognition: A review | |
Chavan et al. | An overview of speech recognition using HMM | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
US10490182B1 (en) | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks | |
KR20140082157A (ko) | 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법 | |
CN102024455A (zh) | 说话人识别系统及其方法 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
US11495234B2 (en) | Data mining apparatus, method and system for speech recognition using the same | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
Verma et al. | Indian language identification using k-means clustering and support vector machine (SVM) | |
JP2008146054A (ja) | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 | |
Kumar et al. | Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review | |
CN114023336A (zh) | 模型训练方法、装置、设备以及存储介质 | |
Ons et al. | A self learning vocal interface for speech-impaired users | |
Soni et al. | Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Indumathi et al. | Speaker identification using bagging techniques | |
Vasudev et al. | Query-by-example spoken term detection using bessel features | |
Djellali et al. | Random vector quantisation modelling in automatic speaker verification | |
Shahsavari et al. | Speech activity detection using deep neural networks | |
Gubka et al. | Universal approach for sequential audio pattern search | |
Farhood et al. | Investigation on model selection criteria for speaker identification | |
Daqrouq et al. | An investigation of wavelet average framing LPC for noisy speaker identification environment | |
Doungpaisan et al. | Language and Text-Independent Speaker Recognition System Using Energy Spectrum and MFCCs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20140606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5853029 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |