JPH0695690A - 話者認識方法 - Google Patents
話者認識方法Info
- Publication number
- JPH0695690A JPH0695690A JP4244671A JP24467192A JPH0695690A JP H0695690 A JPH0695690 A JP H0695690A JP 4244671 A JP4244671 A JP 4244671A JP 24467192 A JP24467192 A JP 24467192A JP H0695690 A JPH0695690 A JP H0695690A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- speaker
- degree
- section
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
う)であると主張する話者の入力音声を、特徴パラメー
タを用いた表現形式に変換し、これと予め話者対応に登
録された特徴パラメータを用いた表現形式との類似度を
求めて申告話者が本人であるか否かを判定する話者認識
方法において、正規化のための特定の言葉を発声するこ
となく、上記類似度の、発声内容、収録時期、伝送系、
マイクロホンなどの違いによる変動を吸収して話者認識
を行う方法を提供することを目的とする。 【構成】本発明による話者認識方法は、申告話者の入力
音声を、申告話者を含めた複数の話者の特徴パラメータ
の標準パターンと比較して類似度を計算し、その上位n
名(nは1以上の整数)の平均類似度を、申告話者の標
準パターンとの類似度から差し引くことによって、上記
類似度のばらつきを正規化し、その正規化された類似度
を使って本人か否かを判定することを特徴とする。
Description
の音声から訪問者は誰であるかを認識したり、入力され
た音声により暗証番号の人と同一人であることを同定し
てりするためなどに用いられ、入力音声を、特徴パラメ
ータを用いた表現形式に変換し、その表現形式による入
力音声と、予め話者対応に登録された上記表現形式によ
る標準パターンとの類似度を求めて、入力音声を発声し
た話者を認識する話者認識方法、特にその類似度の正規
化方法に関する。
音声に含まれる特徴パラメータ(例えばケプストラム、
ピッチなど)を求め、登録話者の特徴パラメータの標準
パターンとの類似度によって判定する手法がよく用いら
れる。この類似度は、発声内容、収録時期、伝送系、マ
イクロホンなどの違いによって大きく変動するために、
話者認識性能を低下させてきた。
規化のために、特定の言葉を話者に発声させ、その音声
を申告話者以外の話者の標準パターンに与えて、その音
声と申告話者以外の話者の標準パターンとの類似度を計
算し、その類似度を使って、本人が認識のために発声し
た音声と標準パターンとの類似度の値を正規化する方法
が試みられてきた(「A.Higgins,L.Bahler,and J.Porte
r,"Speaker verification using randomized phrase pr
ompting",Digital Signal Processing 1,pp.89-106(199
1))。 しかし、この方法では、特定の言葉を必ず発声す
る必要があった。
声することなく、上記類似度の、発声内容、収録時期、
伝送系、マイクロホンなどの違いによる変動を吸収する
方法を提供することを目的とする。
音声を申告話者を含めた複数の話者の標準パターンに与
えて、その音声と申告話者を含めた話者の標準パターン
との類似度を計算し、その上位n名の平均類似度を、申
告話者の標準パターンとの類似度から差し引くことによ
って、上記類似度のばらつきを正規化する。
準パターンとの類似度を、正規化のために特定の言葉の
発声を要すること無く、正規化することができる。
用いて説明する。図3において矩形で囲んだア、イ、
ウ、エ、は申告話者を含む複数の話者(ア、イ、ウ、
エ、)の標準パターンであり、円形で囲んだA、B、C
は時期A、B、Cにおける申告話者の入力音声である
(当然標準パターンおよび入力音声は、特徴パラメータ
による表現形式に変換されたものであるが、図3での説
明では省略する)。この図は、標準パターンが各話者ご
とに異なること、さらに入力音声の標準パターンに対す
る類似度が時期により異なる(これは発声内容による違
いも含む)ことを示している。従って、たとえその入力
音声が申告どおり本人のものであったとしても、その本
人の標準パターンとの類似度の値は、時期によりばらつ
き、その類似度の値にしきい値を設定して本人か否かを
判定する話者認識の性能を低下させる。
に行う。まず入力音声を各話者の標準パターンと比較し
て類似度を計算し(図の矩形と円形をつなぐ線分が類似
度に相当)、その上位n名の平均類似度を求め、入力音
声と申告話者の標準パターンとの類似度と、平均類似度
との差を求める。平均類似度の値は発声内容、伝送系、
マイクロホンなどによる違いをあらわす尺度となってい
るため、この差は入力音声が本人のものである場合には
安定して大きく、他の場合には小さくなる可能性が高
い。そのために時期がA、B、Cと変化しても安定して
本人か否かを判定することができる。
明では、図1に示すように、登録用音声データを特徴パ
ラメータ抽出部1に入力する。特許パラメータ抽出部1
では、入力された音声を例えばケプストラム、ピッチな
どの特徴パラメータを用いた表現形式に変換する。次
に、特徴パラメータの時系列に変換された登録用音声デ
ータが、標準パターン作成部2に入力され、登録用音声
データに含まれる特徴パラメータの標準パターンが、例
えばベクトル量子化の符号帳、複数のガウス分布の組合
せなどで表現される。符号帳あるいは複数のガウス分布
の組合せを作成する方法としては、例えば文献「松井知
子、古井貞▲煕▼:“VQ、離散/連続HMMによるテ
キスト独立形話者認識法の比較検討"、電子情報通信学会
音声研究会資料、SP91-89、1991」 に述べられている方法
などを用いることができる。次に、その標準パターンを
標準パターン蓄積部3に蓄える。
声データを特徴パラメータ抽出部4に入力する。特徴パ
ラメータ抽出部4では、入力された音声を特徴パラメー
タ抽出部1と同じ表現形式に変換する。特徴パラメータ
の時系列と、標準パターン蓄積部3に蓄えられた申告話
者を含む複数の話者の登録用音声データに含まれる特徴
パラメータの標準パターンが、類似度計算部5に入力さ
れて、それぞれの類似の度合が計算される。この具体的
方法としては、例えば文献「松井知子、古井貞▲煕▼:
“音源・声道特徴を用いたテキスト独立形話者認識"、電
子情報通信学会音声研究会資料、SP90-26、1990」 に述べ
られている方法などを用いることができる。計算された
類似度の値は、類似度正規化部6に入力される。類似度
正規化部6では、上位n名の平均類似度を、申告話者の
標準パターンに対する類似度の値から差し引くことによ
って、申告話者の標準パターンに対する類似度の値を正
規化する。nの値は、予め1以上の整数の適当な値に設
定しておく。なお、実験的に3名程度に設定すればよい
ことがわかっている。その正規化された類似度の値は話
者認識判定部7に送られ、話者の判定を行う。話者認識
判定部7では、しきい値蓄積部8から、その申告話者の
声とみなせる類似度の変動の範囲を示すしきい値を読み
出して、上記の類似度の値と比較し、その類似度の値が
読み出されたしきい値よりも大きければ本人の音声であ
ると判定し、しきい値よりも小さければ他人の音声であ
ると判定する。
話者を含めた複数の話者の標準パターンとの類似度を使
って、申告話者の標準パターンに対する類似度の値を正
規化しており、発声内容、収録時期、伝送系、マイクロ
ホンなどの違いによる類似度の変動の影響を受け難い話
者認識を行うことができる。
名、女性は13名が約5ヵ月に渡る3つの時期(時期
A、B、C)に発声した文章データ(1文章長は平均4
秒)を対象とする。これらの音声を、従来から使われて
いる特徴量、つまり、ケプストラムの細かい時間毎の時
系列に変換する。ケプストラムは標本化周波数12kH
z、フレーム長32ms、フレーム周期8ms、LPC分析
(Linear Predictive Coding、線形予測分析)次数16
で抽出した。学習には、時期Aに発声した10文章を用
い、テストでは、時期B、Cに発声した5文章を1文章
づつ用いた。
分布の組合せ(「松井知子、古井貞▲煕▼:“VQ、離
散/連続HMMによるテキスト独立形話者認識法の比較
検討"、電子情報通信学会音声研究会資料、SP91-89、199
1」)で表した。結果は平均照合誤り率で評価した。その
結果を図2に示す。図2は時期Aを基準とした話者照合
の5文章での平均誤り率を示したものである。これよ
り、この発明方法は類似度の正規化を施さない場合と比
較して、平均照合誤り率がほぼ一桁小さくなった。以上
より、この発明方法は有効であることが実証された。
ある。
る図である。
Claims (1)
- 【請求項1】 申告した話者(以降申告話者という)で
あると主張する話者の入力音声を、特徴パラメータを用
いた表現形式に変換し、その表現形式による入力音声
と、予め話者対応に登録された上記表現形式による特徴
パラメータの標準パターンとの類似度を求めて、上記入
力音声を発声した話者が本人であるか否かを判定する話
者認識方法において、 上記入力音声を申告話者を含めた複数の話者の標準パタ
ーンと比較して類似度を計算し、その上位n名(nは1
以上の整数)の平均類似度を、申告話者の標準パターン
との類似度から差し引くことによって、上記申告話者の
標準パターンの類似度の発声内容、収録時期、伝送系、
マイクロホンなどによるばらつきを正規化し、その正規
化された類似度を使って本人か否かを判定することを特
徴とする話者認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04244671A JP3113408B2 (ja) | 1992-09-14 | 1992-09-14 | 話者認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04244671A JP3113408B2 (ja) | 1992-09-14 | 1992-09-14 | 話者認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0695690A true JPH0695690A (ja) | 1994-04-08 |
JP3113408B2 JP3113408B2 (ja) | 2000-11-27 |
Family
ID=17122220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04244671A Expired - Lifetime JP3113408B2 (ja) | 1992-09-14 | 1992-09-14 | 話者認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3113408B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR980011004A (ko) * | 1996-07-20 | 1998-04-30 | 구자홍 | 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치 |
WO2000036530A1 (fr) * | 1998-12-15 | 2000-06-22 | Matsushita Electric Industrial Co., Ltd. | Methode de recherche et dispositif correspondant, support enregistre |
JP2006003452A (ja) * | 2004-06-15 | 2006-01-05 | Asahi Kasei Corp | 音声認証装置 |
-
1992
- 1992-09-14 JP JP04244671A patent/JP3113408B2/ja not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR980011004A (ko) * | 1996-07-20 | 1998-04-30 | 구자홍 | 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치 |
WO2000036530A1 (fr) * | 1998-12-15 | 2000-06-22 | Matsushita Electric Industrial Co., Ltd. | Methode de recherche et dispositif correspondant, support enregistre |
JP2006003452A (ja) * | 2004-06-15 | 2006-01-05 | Asahi Kasei Corp | 音声認証装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3113408B2 (ja) | 2000-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Desai et al. | Feature extraction and classification techniques for speech recognition: A review | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US20090171660A1 (en) | Method and apparatus for verification of speaker authentification and system for speaker authentication | |
US7315819B2 (en) | Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof | |
US7072750B2 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
Campbell | Speaker recognition | |
Shahin | Employing second-order circular suprasegmental hidden Markov models to enhance speaker identification performance in shouted talking environments | |
Wildermoth | Text-independent speaker recognition using source based features | |
Pandey et al. | Multilingual speaker recognition using ANFIS | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
Kakade et al. | An automatic real time speech-speaker recognition system: a real time approach | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
Petrovska-Delacrétaz et al. | Text-independent speaker verification: state of the art and challenges | |
JP3092788B2 (ja) | 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JPH0695690A (ja) | 話者認識方法 | |
Singh et al. | Features and techniques for speaker recognition | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
Tanprasert et al. | Comparative study of GMM, DTW, and ANN on Thai speaker identification system | |
JPH07271392A (ja) | 話者認識用類似度正規化方法及びこの方法を用いた話者認識装置 | |
JP3090122B2 (ja) | 話者照合装置 | |
Furui | Speaker recognition | |
JP3036509B2 (ja) | 話者照合における閾値決定方法及び装置 | |
JPH05323990A (ja) | 話者認識方法 | |
Sangwan | Feature Extraction for Speaker Recognition: A Systematic Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070922 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080922 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080922 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100922 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100922 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110922 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120922 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term |