JPH04163600A - 話者認識方法 - Google Patents
話者認識方法Info
- Publication number
- JPH04163600A JPH04163600A JP2292731A JP29273190A JPH04163600A JP H04163600 A JPH04163600 A JP H04163600A JP 2292731 A JP2292731 A JP 2292731A JP 29273190 A JP29273190 A JP 29273190A JP H04163600 A JPH04163600 A JP H04163600A
- Authority
- JP
- Japan
- Prior art keywords
- block
- speaker
- input
- average
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 abstract description 13
- 238000012935 Averaging Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000012795 verification Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 101100073493 Rattus norvegicus Kcnn4 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその話者を同定又は照合するに好適な話者
認識方法に関する。
入力音声からその話者を同定又は照合するに好適な話者
認識方法に関する。
[従来の技術]
話者認識とは、入力音声からその話者を認識することて
あり、話者同定と話者照合の2つの形態がある。
あり、話者同定と話者照合の2つの形態がある。
話者同定とは入力音声が登録話者のうちのだれの声であ
るかを判定することであり、話者照合とは入力音声が登
録話者の声であるとみなせるか否かを判定することであ
る。
るかを判定することであり、話者照合とは入力音声が登
録話者の声であるとみなせるか否かを判定することであ
る。
本出願人は、容易に★時間処理できる話者認識方法とし
て、特願平1−96’131号により、ニューラルネッ
トワークを用いて入力音声からその話者を認識するもの
を提案している。この話者認識方法にあっては、ニュー
ラルネットワークへの入力とじて、入力音声の周波数特
性を算出し、各帯域のそれぞれにおいて時間的に等分割
した音声区間のそれぞれを1つのブロックとして、各ブ
ロックの中で周波数特性の平均を算出し、それらの平均
を話者のパワー全体で正規化したものを用いることとし
ている。
て、特願平1−96’131号により、ニューラルネッ
トワークを用いて入力音声からその話者を認識するもの
を提案している。この話者認識方法にあっては、ニュー
ラルネットワークへの入力とじて、入力音声の周波数特
性を算出し、各帯域のそれぞれにおいて時間的に等分割
した音声区間のそれぞれを1つのブロックとして、各ブ
ロックの中で周波数特性の平均を算出し、それらの平均
を話者のパワー全体で正規化したものを用いることとし
ている。
[発明か解決しようとする課題]
然しながら、上述の従来技術による場合には、ニューラ
ルネットワークを構築するために標準入カバターン(学
習人カバターン)を作製する時と、構築されたニューラ
ルネットワークを使用して話者認識するために評価入カ
バターンを作製する時との間て、定常雑音の混入や回線
等の入力系の相違等によってそれらの作製条件が異なる
と、認識率の低下か見られることとなる。
ルネットワークを構築するために標準入カバターン(学
習人カバターン)を作製する時と、構築されたニューラ
ルネットワークを使用して話者認識するために評価入カ
バターンを作製する時との間て、定常雑音の混入や回線
等の入力系の相違等によってそれらの作製条件が異なる
と、認識率の低下か見られることとなる。
この認識率の低下は、以下に解析する如く、話者のパワ
ー全体て正規化するために、スペクトル歪を消去できな
いことによる。即ち、iをブロック番号、kを帯域番号
、Akをに帯域の周波数伝送特性、S mikを学習段
階でのに帯域iブロックの音声信号、S tikを評価
段階で電話回線を通した後における如く、定常的な周波
数伝送特性Akの影響によりスペクトルか歪んだ、k帯
域iブロックの音声信号とする時、 5tik =A k−3mi である。そして、評価段階での各音声信号S tikを
話者のパワー全体で正規化したものは、S tik
A k S mikであって、右辺の周波数伝
送特性Akを消去てきない、即ち、スペクトル歪を消去
できないのである。
ー全体て正規化するために、スペクトル歪を消去できな
いことによる。即ち、iをブロック番号、kを帯域番号
、Akをに帯域の周波数伝送特性、S mikを学習段
階でのに帯域iブロックの音声信号、S tikを評価
段階で電話回線を通した後における如く、定常的な周波
数伝送特性Akの影響によりスペクトルか歪んだ、k帯
域iブロックの音声信号とする時、 5tik =A k−3mi である。そして、評価段階での各音声信号S tikを
話者のパワー全体で正規化したものは、S tik
A k S mikであって、右辺の周波数伝
送特性Akを消去てきない、即ち、スペクトル歪を消去
できないのである。
本発明は、容易に実時間処理でき、かつ高い認識率を確
保てきる話者認識方法を提供することを目的とする。
保てきる話者認識方法を提供することを目的とする。
[課題を解決するための手段]
本発明は、ニューラルネットワークを用いて入力音声か
らその話者を認識する話者認識方法てあって、入力音声
の周波数特性を算出し、各帯域のそれぞれにおいて時間
的に等分割した音声区間のそれぞれを1つのブロックと
して、各ブロックの中で周波数特性の平均を算出し、そ
れらの平均を対応する帯域毎に正規化したものを、ニュ
ーラルネットワークへの入力として用いるようにしたも
のである。
らその話者を認識する話者認識方法てあって、入力音声
の周波数特性を算出し、各帯域のそれぞれにおいて時間
的に等分割した音声区間のそれぞれを1つのブロックと
して、各ブロックの中で周波数特性の平均を算出し、そ
れらの平均を対応する帯域毎に正規化したものを、ニュ
ーラルネットワークへの入力として用いるようにしたも
のである。
[作用]
本発明によれば、下記■〜■の作用効果かある。
■ニューラルネットワークへ入力する特徴パラメータと
して「周波数特性」を用いたから、入力を得るための前
処理が、LPG相関やLPCケプストラムの如くの複雑
な特徴量抽出に比して単純て並列的に周波数分析でき、
その前処理に要する時間か短くて足りる。
して「周波数特性」を用いたから、入力を得るための前
処理が、LPG相関やLPCケプストラムの如くの複雑
な特徴量抽出に比して単純て並列的に周波数分析でき、
その前処理に要する時間か短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理か単純かつ迅速である。
全体の演算処理か単純かつ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理か可能である。従って、演算処理か迅速である。
ている各ユニットが独立に動作しており、並列的な演算
処理か可能である。従って、演算処理か迅速である。
■上記■〜■により、話者認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。
よることなく容易に実時間処理できる。
■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、以下に解析する如く、入力音声の各ブロッ
クでの周波数特性の平均を同一帯域内で正規化するもの
であるため、スペクトル歪を消去てきることによる。即
ち、前述の如く、1をブロック番号、kを帯域番号、A
kをに帯域の周波数伝送特性、S■ikを学習段階ての
に帯域1ブロツクの音声信号、S tikを評価段階で
電話回線を通した後における如く、定常的な周波数伝送
特性Akの影響によりスペクトルか歪んだ、k帯域iブ
ロックの音声信号とする時、 S tik = A k−8aik
−(1)である。そして、評価段階ての各音声信号S
tikを帯域毎に正規化したものは、 であって、周波数伝送特性Akを消去てきる、即ち、ス
ペクトル歪を消去できるのである。
る。これは、以下に解析する如く、入力音声の各ブロッ
クでの周波数特性の平均を同一帯域内で正規化するもの
であるため、スペクトル歪を消去てきることによる。即
ち、前述の如く、1をブロック番号、kを帯域番号、A
kをに帯域の周波数伝送特性、S■ikを学習段階ての
に帯域1ブロツクの音声信号、S tikを評価段階で
電話回線を通した後における如く、定常的な周波数伝送
特性Akの影響によりスペクトルか歪んだ、k帯域iブ
ロックの音声信号とする時、 S tik = A k−8aik
−(1)である。そして、評価段階ての各音声信号S
tikを帯域毎に正規化したものは、 であって、周波数伝送特性Akを消去てきる、即ち、ス
ペクトル歪を消去できるのである。
[実施例]
第1図は本発明か適用された話者認識システムの一例を
示す模式図である。
示す模式図である。
認識システム1は、32チヤンネルのバンドパスフィル
タ11、平均化回路12、正規化回路13、ニューラル
ネットワーク20、判定回路30の結合にて構成される
(第1図参照)。
タ11、平均化回路12、正規化回路13、ニューラル
ネットワーク20、判定回路30の結合にて構成される
(第1図参照)。
ここて、学習単語は「タタイマ」、入力単語は「タダイ
マ」とし、入力単語と学習単語との時期差は3か月とし
た。
マ」とし、入力単語と学習単語との時期差は3か月とし
た。
また、話者は(a)、(b)とした。
(a)話者同定
登録話者9名とした。
(b)話者照合
登録話者9名、詐称者27名を学習用話者とし、詐称者
10名を未学習用話者とした。
10名を未学習用話者とした。
以下、認識システム1の学習動作と評価動作について詳
述する。
述する。
(学習)
1、入力作成
■各話者の音声波形「タダイマ」を32チヤンネルのバ
ントパスフィルタ11に通し、入力音声の周波数特性を
算出する。
ントパスフィルタ11に通し、入力音声の周波数特性を
算出する。
■バントパスフィルタ11の各帯域のそれぞれにおいて
音声波形を時間的に8等分割した音声区間のそれぞれを
1つのブロックとして、平均化回路12により、各ブロ
ックの中で、上記■て求めた周波数特性の平均を算出す
る。この学習段階における音声信号のに帯域iブロワつ
ての周波数特性の平均を、S iikとする。
音声波形を時間的に8等分割した音声区間のそれぞれを
1つのブロックとして、平均化回路12により、各ブロ
ックの中で、上記■て求めた周波数特性の平均を算出す
る。この学習段階における音声信号のに帯域iブロワつ
ての周波数特性の平均を、S iikとする。
■上記■て各帯域にて求めた各ブロックの周波数特性の
平均を、対応する帯域の全ブロックのレベルの和Σ5I
Ilikで除算し、対応する帯域毎に、 ΣS mik として正規化する。
平均を、対応する帯域の全ブロックのレベルの和Σ5I
Ilikで除算し、対応する帯域毎に、 ΣS mik として正規化する。
■上記■で求めた値をニューラルネットワーク20への
入力とする。入力個数は32チャンネル×8ブロック=
256個となる。
入力とする。入力個数は32チャンネル×8ブロック=
256個となる。
2、学習
■256個の入力層と、同定の時9個、照合の時2個の
出力層をもつニューラルネットワーク2oをそれぞれ用
いる。
出力層をもつニューラルネットワーク2oをそれぞれ用
いる。
■発声話者と出力層とを対応させ、入力話者に対応した
出力層か「1」、その他の出力層か「0」という値を目
標値にして、バックプロパゲーションにより十分学習す
る。
出力層か「1」、その他の出力層か「0」という値を目
標値にして、バックプロパゲーションにより十分学習す
る。
(評価)
1、入力作成
■上記単語の未知話者音声波形を32チヤンネルのバン
ドパスフィルタ11に通し、入力音声の周波数特性を算
出する。
ドパスフィルタ11に通し、入力音声の周波数特性を算
出する。
■バントパスフィルタ11の各帯域のそれぞれにおいて
音声波形を時間的に8等分割した音声区間のそれぞれを
1つのブロックとして、平均化回路12により、各ブロ
ックの中で、上記■で求めた周波数特性の平均を算出す
る。この評価段階における音声信号のに帯域iブロワつ
ての周波数特性の平均を、S tikとする。
音声波形を時間的に8等分割した音声区間のそれぞれを
1つのブロックとして、平均化回路12により、各ブロ
ックの中で、上記■で求めた周波数特性の平均を算出す
る。この評価段階における音声信号のに帯域iブロワつ
ての周波数特性の平均を、S tikとする。
■上記■て各帯域にて求めた各ブロックの周波数特性の
平均を、対応する帯域の全ブロックのレベルの和ΣS
tikて除算し、対応する帯域毎に、 tik Σ S tik として正規化する。
平均を、対応する帯域の全ブロックのレベルの和ΣS
tikて除算し、対応する帯域毎に、 tik Σ S tik として正規化する。
2、学習
■上記■て求めた値をニューラルネットワーク20へ入
力する。
力する。
■ニューラルネットワーク20の出力層の値より判定回
路30にて話者を同定又は照合する。
路30にて話者を同定又は照合する。
以下、本発明の実験結果について説明する。
実験は電話音声について認識した。
(実験1:話者同定)
音声入力として、登録話者9名の学習直後の「タタイマ
」を学習し、3か月後の「タダイマ」を評価した結果、
同定率98.0%てあった。
」を学習し、3か月後の「タダイマ」を評価した結果、
同定率98.0%てあった。
■従来法でマイク音声を学習させ電話音声て同定した時
、同定率38.0%てあった。
、同定率38.0%てあった。
■本発明方法でマイク音声を学習させ電話音声で同定し
た時、同定率94.0%であった。
た時、同定率94.0%であった。
(実験2:話者照合)
音声入力として、登録話者9名と詐称者27名(学習用
話者)の学習直後の「タタイマ」を学習し、登録話者9
名と詐称者27名(学習用話者)と詐称者10名(未学
習用話者)の3か列後の「タダイマ」を評価した結果、
照合率99.0%であった。
話者)の学習直後の「タタイマ」を学習し、登録話者9
名と詐称者27名(学習用話者)と詐称者10名(未学
習用話者)の3か列後の「タダイマ」を評価した結果、
照合率99.0%であった。
■従来法でマイク音声を学習させ電話音声て同定した時
、照合率36.0%てあった。
、照合率36.0%てあった。
■本発明方法てマイク音声を学習させ電話音声で同定し
た時、照合率99.0%てあった。
た時、照合率99.0%てあった。
以下、上記実施例の作用について説明する。
■ニューラルネットワーク20へ入力する特徴パラメー
タとして「周波数特性」を用いたから、入力を得るため
の前処理か、LPG相関やLPCケプストラムの如くの
複雑な特徴量抽出に比して単純で並列的に周波数分析で
き、その前処理に要する時間が短くて足りる。
タとして「周波数特性」を用いたから、入力を得るため
の前処理か、LPG相関やLPCケプストラムの如くの
複雑な特徴量抽出に比して単純で並列的に周波数分析で
き、その前処理に要する時間が短くて足りる。
■ニューラルネットワーク20は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。
ーク全体の演算処理が単純かつ迅速である。
■ニューラルネットワーク20は、原理的に、それを構
成している各ユニットか独立に動作しており、並列的な
演算処理か可能である。従って、演算処理か迅速である
。
成している各ユニットか独立に動作しており、並列的な
演算処理か可能である。従って、演算処理か迅速である
。
■上記■〜■により、話者認識処理を複雑な処理装置に
よることなく容易に実時間処理てきる。
よることなく容易に実時間処理てきる。
■定常的なスペクトル歪に強く、高い認識率を維持てき
る。これは、[作用]の■にて前述の如く、評価段階で
正規化された(4)式の如くの値か、(2)式にて解析
された如くに周波数伝送特性Akを消去されて、学習段
階で正規化された(3)式の如くの値と同等となり、雑
音の影響や回線等の入力系の相違に起因するスペクトル
歪を消去できるからである。
る。これは、[作用]の■にて前述の如く、評価段階で
正規化された(4)式の如くの値か、(2)式にて解析
された如くに周波数伝送特性Akを消去されて、学習段
階で正規化された(3)式の如くの値と同等となり、雑
音の影響や回線等の入力系の相違に起因するスペクトル
歪を消去できるからである。
[発明の効果]
以上のように本発明によれば、容易に実時間処理てき、
かつ高い認識率を確保できる話者認識方法を得ることが
てきる。
かつ高い認識率を確保できる話者認識方法を得ることが
てきる。
第1図は本発明が適用された話者認識システムの一例を
示す模式図である。 1・・・認識システム、 10・・・バンドパスフィルタ、 12・・・平均化回路、 13・・・正規化回路、 2o・・・ニューラルネットワーク、 30・・・判定回路。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨
示す模式図である。 1・・・認識システム、 10・・・バンドパスフィルタ、 12・・・平均化回路、 13・・・正規化回路、 2o・・・ニューラルネットワーク、 30・・・判定回路。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨
Claims (1)
- (1)ニューラルネットワークを用いて入力音声からそ
の話者を認識する話者認識方法であって、入力音声の周
波数特性を算出し、各帯域のそれぞれにおいて時間的に
等分割した音声区間のそれぞれを1つのブロックとして
、各ブロックの中で周波数特性の平均を算出し、それら
の平均を対応する帯域毎に正規化したものを、ニューラ
ルネットワークへの入力として用いる話者認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2292731A JPH04163600A (ja) | 1990-10-29 | 1990-10-29 | 話者認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2292731A JPH04163600A (ja) | 1990-10-29 | 1990-10-29 | 話者認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04163600A true JPH04163600A (ja) | 1992-06-09 |
Family
ID=17785596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2292731A Pending JPH04163600A (ja) | 1990-10-29 | 1990-10-29 | 話者認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04163600A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
-
1990
- 1990-10-29 JP JP2292731A patent/JPH04163600A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR0139949B1 (ko) | 미지인 사람의 신원을 확인하기 위한 음성 검증 회로 | |
US8078463B2 (en) | Method and apparatus for speaker spotting | |
JPH02238495A (ja) | 時系列信号認識装置 | |
CN110364168B (zh) | 一种基于环境感知的声纹识别方法及系统 | |
Jadhav et al. | Audio splicing detection using convolutional neural network | |
Stefanus et al. | GMM based automatic speaker verification system development for forensics in Bahasa Indonesia | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
Singh et al. | Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection. | |
JPH04163600A (ja) | 話者認識方法 | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
Sukor et al. | Speaker identification system using MFCC procedure and noise reduction method | |
Close et al. | Non intrusive intelligibility predictor for hearing impaired individuals using self supervised speech representations | |
JPH04163599A (ja) | 話者認識方法 | |
US5425127A (en) | Speech recognition method | |
Higgins et al. | Text-independent speaker verification by discriminator counting | |
Gupta et al. | A predictive approach for speaker verification by machine learning and MFCC | |
Neelima et al. | Spoofing det ection and count ermeasure is aut omat ic speaker verificat ion syst em using dynamic feat ures | |
JPH04121799A (ja) | 音声認識方法 | |
Camacho et al. | A semi-supervised speaker identification method for audio forensics using cochleagrams | |
Kurian et al. | PNCC for forensic automatic speaker recognition | |
Varshney et al. | Snmf based speech denoising with wavelet decomposed signal selection | |
Muruganantham et al. | Biometric of speaker authentication using CNN | |
JPH03230200A (ja) | 音声認識方法 | |
JPH02135500A (ja) | 話者認識方式 | |
JPH03230255A (ja) | 音声認識方法 |