JP3927559B2 - 話者認識装置、プログラム及び話者認識方法 - Google Patents
話者認識装置、プログラム及び話者認識方法 Download PDFInfo
- Publication number
- JP3927559B2 JP3927559B2 JP2004163071A JP2004163071A JP3927559B2 JP 3927559 B2 JP3927559 B2 JP 3927559B2 JP 2004163071 A JP2004163071 A JP 2004163071A JP 2004163071 A JP2004163071 A JP 2004163071A JP 3927559 B2 JP3927559 B2 JP 3927559B2
- Authority
- JP
- Japan
- Prior art keywords
- time series
- feature parameter
- speech feature
- distance
- sum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 13
- 230000001755 vocal effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000000354 decomposition reaction Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
A=α1,α2,…,αi,…,αI
B=β1,β2,…,βj,…,βJ
特徴パラメータ
αi=pi,αi1,αi2,…,αik,…,αi16
βj=qj,βj1,βj2,…,βjk,…,βj16
A=α1,α2,…,αi,…,αI
B=β1,β2,…,βj,…,βJ
特徴パラメータ
αi=αi1,αi2,…,αik,…,αi16
βj=βj1,βj2,…,βjk,…,βj16
Claims (10)
- 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識装置において、
音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める手段と、
前記第1距離の総和が最小となるように最適マッチング系列を求める手段と、
前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める手段と、
求めた前記第2距離の総和に基づいて話者の同定を行う手段と、
を備えることを特徴とする話者認識装置。 - 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識装置において、
声道の共鳴情報から得られるケプストラム係数時系列である前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める手段と、
前記第1距離の総和が最小となるように最適マッチング系列を求める手段と、
前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める手段と、
求めた前記第2距離の総和に基づいて話者の同定を行う手段と、
を備えることを特徴とする話者認識装置。 - 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識機能を実行するコンピュータに読取可能なプログラムであって、
音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める機能と、
前記第1距離の総和が最小となるように最適マッチング系列を求める機能と、
前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める機能と、
求めた前記第2距離の総和に基づいて話者の同定を行う機能と、
を前記コンピュータに実行させることを特徴とするプログラム。 - 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識機能を実行するコンピュータに読取可能なプログラムであって、
声道の共鳴情報から得られるケプストラム係数時系列である前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める機能と、
前記第1距離の総和が最小となるように最適マッチング系列を求める機能と、
前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める機能と、
求めた前記第2距離の総和に基づいて話者の同定を行う機能と、
を前記コンピュータに実行させることを特徴とするプログラム。 - 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識方法において、
音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求めるステップと、
前記第1距離の総和が最小となるように最適マッチング系列を求めるステップと、
前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求めるステップと、
求めた前記第2距離の総和に基づいて話者の同定を行うステップと、
を備えることを特徴とする話者認識方法。 - 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識方法において、
声道の共鳴情報から得られるケプストラム係数時系列である前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求めるステップと、
前記第1距離の総和が最小となるように最適マッチング系列を求めるステップと、
前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求めるステップと、
求めた前記第2距離の総和に基づいて話者の同定を行うステップと、
を備えることを特徴とする話者認識方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004163071A JP3927559B2 (ja) | 2004-06-01 | 2004-06-01 | 話者認識装置、プログラム及び話者認識方法 |
CN200580003955A CN100593194C (zh) | 2004-06-01 | 2005-05-31 | 说话人识别装置、及说话人识别方法 |
PCT/JP2005/009963 WO2005119654A1 (ja) | 2004-06-01 | 2005-05-31 | 話者認識装置、プログラム及び話者認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004163071A JP3927559B2 (ja) | 2004-06-01 | 2004-06-01 | 話者認識装置、プログラム及び話者認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005345598A JP2005345598A (ja) | 2005-12-15 |
JP3927559B2 true JP3927559B2 (ja) | 2007-06-13 |
Family
ID=35463096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004163071A Expired - Lifetime JP3927559B2 (ja) | 2004-06-01 | 2004-06-01 | 話者認識装置、プログラム及び話者認識方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP3927559B2 (ja) |
CN (1) | CN100593194C (ja) |
WO (1) | WO2005119654A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102354496B (zh) * | 2011-07-01 | 2013-08-21 | 中山大学 | 一种基于psm变调的语音识别及其还原方法及其装置 |
CN103730121B (zh) * | 2013-12-24 | 2016-08-24 | 中山大学 | 一种伪装声音的识别方法及装置 |
JP6946499B2 (ja) * | 2020-03-06 | 2021-10-06 | 株式会社日立製作所 | 発話支援装置、発話支援方法、および発話支援プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792678B2 (ja) * | 1985-12-17 | 1995-10-09 | 株式会社東芝 | 音声パタ−ンマツチング方式 |
JP2543528B2 (ja) * | 1987-06-29 | 1996-10-16 | 沖電気工業株式会社 | 音声認識装置 |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
JPH0786759B2 (ja) * | 1994-03-14 | 1995-09-20 | 株式会社東芝 | 音声認識用辞書学習方法 |
JPH1020883A (ja) * | 1996-07-02 | 1998-01-23 | Fujitsu Ltd | ユーザ認証装置 |
JPH1097274A (ja) * | 1996-09-24 | 1998-04-14 | Kokusai Denshin Denwa Co Ltd <Kdd> | 話者認識方法及び装置 |
JP2001034294A (ja) * | 1999-07-21 | 2001-02-09 | Matsushita Electric Ind Co Ltd | 話者照合装置 |
-
2004
- 2004-06-01 JP JP2004163071A patent/JP3927559B2/ja not_active Expired - Lifetime
-
2005
- 2005-05-31 CN CN200580003955A patent/CN100593194C/zh not_active Expired - Fee Related
- 2005-05-31 WO PCT/JP2005/009963 patent/WO2005119654A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN1914667A (zh) | 2007-02-14 |
WO2005119654A1 (ja) | 2005-12-15 |
CN100593194C (zh) | 2010-03-03 |
JP2005345598A (ja) | 2005-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
WO2010116549A1 (ja) | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
US20190392839A1 (en) | System for creating speaker model, recognition system, computer program product, and controller | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
JP2022516784A (ja) | 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
JP2009128490A (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP3927559B2 (ja) | 話者認識装置、プログラム及び話者認識方法 | |
KR102198597B1 (ko) | 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법 | |
KR102198598B1 (ko) | 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
JP2005345599A (ja) | 話者認識装置、プログラム及び話者認識方法 | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
JP6000326B2 (ja) | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP2017134321A (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
Shahnawazuddin et al. | A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070302 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100309 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110309 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110309 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120309 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120309 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130309 Year of fee payment: 6 |