JPH0415697A - 話者照合システム - Google Patents

話者照合システム

Info

Publication number
JPH0415697A
JPH0415697A JP2120864A JP12086490A JPH0415697A JP H0415697 A JPH0415697 A JP H0415697A JP 2120864 A JP2120864 A JP 2120864A JP 12086490 A JP12086490 A JP 12086490A JP H0415697 A JPH0415697 A JP H0415697A
Authority
JP
Japan
Prior art keywords
speaker
registered
data
neural network
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2120864A
Other languages
English (en)
Inventor
Shingo Nishimura
新吾 西村
Masayuki Unno
海野 雅幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP2120864A priority Critical patent/JPH0415697A/ja
Publication of JPH0415697A publication Critical patent/JPH0415697A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は話者照合システムに関する。
[従来の技術] 本出願人は、ニューラルネットワークを用いて、今回の
入力話者が登録話者と非登録話者のいずれに属するかの
判定用出力値を出力できる話者照合システムを提案して
いる(音響講論2−6−4、PP、 53−54.19
89.3) 。
この話者照合システムにあっては、登録話者と学習用非
登録話者とからなる学習用入力話者の入力音声に前処理
を施し、この登録話者と非登録話者の前処理データをニ
ューラルネットワークに入力し、登録話者の音声に対し
ては対応する出カニニットの出力値が1、その他の出カ
ニニットの出力値か0となり、非登録話者の音声に対し
てはすべての出カニニットの出力値が0となるように、
ニューラルネットワークの重みと変換関数を学習するよ
うにしている。
そして、学習済のニューラルネットワークに音声パター
ンを入力し、その入出カバターン(各出カニニットの出
力値の組)をしきい値θと比較する等により、今回の話
者が登録話者か否かを判定する。
即ち、本出願人によって提案済のニューラルネットワー
クを用いた話者照合システムにあっては、登録話者たけ
でなく非登録話者についても学習する必要があるが、従
来は実際に非登録話者の発声した音声から抽出したデー
タにより学習を行なっている。
[発明が解決しようとする課題] ニューラルネットワークを用いた話者照合システムにお
いて、非登録話者を学習に用いる理由は、特徴空間を「
登録話者」と「その他」の2つのカテゴリーに分けるた
めであり、照合率を向上させるには、登録話者のカテゴ
リーの周辺に、非登録話者のデータを配置して、登録話
者のカテゴリーをなるべく厳しい閉じた空間にする必要
かある。
然しながら、従来の実際の音声から非登録話者の学習用
入力データを作成する方法ては、有効な境界を形成する
ためには、多数の非登録話者のデータを用意する必要が
あり、又、用意したデータで有効な境界を形成できる保
証もない。
本発明は、ニューラルネットワークを用いた話者照合シ
ステムを構築するに際し、「登録話者」と「その他」と
の有効な境界を効率的に形成して意図的に照合率の向上
を図るとともに、処理時間の短縮を図ることを目的とす
る。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワークを
用いて、今回の入力話者か登録話者と非登録話者のいず
れに属するかの判定用出力値を出力できる話者照合シス
テムであって、登録話者の学習用入力音声に前処理を施
し、この登録話者の学習用入力データに基づき、特徴空
間上で(A)「登録話者」の領域により近いデータ、及
び/又は(B)「その他」の領域全域をより効果的に埋
めるデータを選択し、選択したデータを用いて非登録話
者のための学習用入力データを演算により決定し、上述
の登録話者と非登録話者の学習用入力データなニューラ
ルネットワークに入力して該ニューラルネットワークの
学習を行なうようにしたものである。
請求項2記載の本発明は、前記ニューラルネットワーク
への入力として、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用するようにしたものである。
[作用コ 請求項1に記載の本発明によれば、下記■〜■の作用効
果がある。
■非登録話者の学習用入力データを演算て作成すること
により、「登録話者」と「その他」の2つのカテゴリー
間の境界を有効に決めることかでき、照合率が向上する
■非登録話者の音声か必要なくなる。
■理想的な非登録話者の学習用入力データを作成するこ
とにより、非登録話者の学習データ数を少なくでき、処
理時間が短縮できる。
請求項2に記載の本発明によれば、下記■の作用効果が
ある。
■ニューラルネットワークへの入力として、請求項2に
記載の■〜■の各要素のうちの1つ以上を用いるから、
入力を得るための前処理が単純となり、この前処理に要
する時間が短くて足りるため、話者照合システムを複雑
な処理装置によることなく容易に実時間処理できる。
[実施例コ 第1図は登録話者の学習用入力データ作成系統を示すブ
ロック図、第2図は非登録話者の学習用入力データ作成
系統を示すブロック図、第3図はニューラルネットワー
クの学習系統を示すブロック図、第4図はニューラルネ
ットワークによる話者照合系統を示すブロック図である
(1)先ず、登録話者の学習用入力データ作成系統につ
いて説明する(第1図参照)。
この系統は、音声入力部11、前処理部12、登録話者
用学習データ記憶部13にて構成される。
この時、前処理部12は、入力音声に簡単な前処理を施
して、ニューラルネットワーク14への入力データを作
成する。
(2)次に、非登録話者の学習用入力データ作成系統に
ついて説明する(第2図参照)。
この系統は、上述(1)の登録話者用学習データ記憶部
13、主成分分析部15、非登録話者用学習データ設定
部16、非登録話者用学習データ記憶部17にて構成さ
れる。
この非登録話者の学習用入力データの作成は、特徴空間
上での登録話者の学習用入力データと非登録話者の学習
用入力データとの配置によるが、一般に特徴空間の次元
(入力の次元)は高いので、主成分分析やその他の変換
を用いて、次元を落した特徴空間上で行なう、主成分分
析による非登録話者データの作成方法の一例を以下に説
明する。
■登録話者の学習用入力データを主成分分析にかけ、変
換行列を得る。
■分析結果をI−m軸、n−m軸、I−m軸上にプロッ
トする。
■非登録話者の学習用入力データを、例えば次の2つの
点を基準として選択する。尚、選択は、目視により行な
い、或いは登録話者の分布からの距離かあるしきい値に
近いものを演算により採取することにて行なうことがで
きる。
(A)登録話者のデータに近く、「登録話者」の領域を
厳しく制限するもの。
(B)「その他」の領域全域を、効果的に埋めるもの。
■選択したデータと主成分分析で得た変換行列の逆行列
の積をとり、非登録話者の学習用人カバターンとする。
(3)次に、ニューラルネットワークの学習系統につい
て説明する(第3図参照)。
この系統は、上述(1)の登録話者用学習データ記憶部
13、(2)の非登録話者用学習データ記憶部17、及
びニューラルネットワーク14にて構成される。
即ち、登録話者データと非登録話者データを入カバター
ンとしてニューラルネットワーク14で学習することに
より、「登録話者」と「その他」の有効な境界を形成す
る。
この時、登録話者については、対応する出カニニットの
出力値か目標値”1”、非登録話者については、対応す
る出カニニットの出力値が目標値”0”に近づくように
、ニューラルネットワーク14の重みと変換関数を修正
する。
(4)次に、ニューラルネットワークによる話者照合系
統について説明する(第4図参照)。
この系統は、前述(1)の音声入力部11、前処理部1
2、ニューラルネットワーク14、及び判定部18にて
構成される。
この時、判定部18は、ニューラルネットワーク14の
出カバターンを転送され、ニューラルネットワーク14
の各出カニニットのうちのいずれかの出力値があるしき
い値を超えて”1”に近ければ今回の入力話者を登録話
者として認識する。
以下、上記話者照合システムの具体的実施結果について
説明する。
■登録話者5人につき、前処理を行ない、64次元の特
徴ベクトルを得る。
05人の特徴ベクトルについて主成分分析を行ない、第
3軸までの3次元空間上で登録話者のデータの分布を考
慮して10人分の非登録話者のデータを作成する。
■上記5人の登録話者データと10人分の非登録話者デ
ータを、ニューラルネットワークの入力とし、十分学習
する。
■学習後のニューラルネットワークに、登録話者、及び
非登録話者の評価用データを入力として与え判定した結
果、非登録話者の実際の音声を使用して学習した時に比
べ、誤り率において20%の改善がみられた。
尚、前述の前処理部12により、入力音声を前処理され
て作成されるニューラルネットワーク14への入力とし
ては、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なPARCOR係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性 のうちの1つ以上を使用できる。
そして、上記■の要素は「音声の一定時間内における平
均的な周波数特性の時間的変化」、上記■の要素は「音
声の一定時間内における平均的な線形予測係数の時間的
変化」、上記■の要素は「音声の一定時間内における平
均的なPARCOR係数の時間的変化」、上記■の要素
は「音声の一定時間内における平均的な周波数特性、及
びピッチ周波数の時間的変化」、上記■の要素は、「高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化」として用いることかできる
尚、上記■の線形予測係数は、以下の如く定義される。
即ち、音声波形のサンプル値(χ。)の間には、−Mに
高い近接相関があることが知られている。
そこで次のような線形予測が可能であると仮定する。
線形予測値  χ、=−Σαムχ、−1・・・(1)線
形予測誤差 εt=χt−χし  ・・・(2)ここで
、χt=@刻tにおける音声波形のサンプル値、(α1
)(i=1.・・・、p): (p次の)線形予測係数 さて、本発明の実施においては、線形予測誤差ε、の2
乗平均値が最小となるように線形予測係数(α、)を求
める。
具体的には (εt)2を求め、その時間平均を(「コ
2と表わして、θ(讃)2/θαI==o、i=1.2
.−・・、pとおくことによって、次の式から(al)
が求められる。
又、上記■のPARCOR係数は以下の如く定義される
即ち、[kn](n=t、・・・、p)を(p次の)P
ARCOR係数(偏自己相関係数)とする時、PARC
OR係数k nilは、線形予測による前向き残差ε、
 (ffi)と後向き残差εt−,,,1,(b1間の
正規化相関係数として、次の式によって定義される。
ここて、εを目)=χ、−Σ α、χt−1、(α1)
 :前向き予測係数、 ε、−3わ。、(bl=χ、−1゜。1.−Vβ4.χ
t−J 、J*Q (βj):後向き予測係数 又、上記■の音声のピッチ周波数とは、声帯波の繰り返
し周期(ピッチ周期)の逆数である。
尚、ニューラルネットワークへの入力として、個人差が
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人/小人、男性/女性間の話者の認
識率を向上することかできる。
又、上記■の高域強調とは、音声波形のスベクトルの平
均的な傾きを補償して、低域にエネルギか集中すること
を防止することである。然るに、音声波形のスペクトル
の平均的な傾きは話者に共通のものてあり、話者の認識
には無関係である。
ところか、このスペクトルの平均的な傾きか補償されて
いない音声波形をそのままニューラルネットワークへ入
力する場合には、ニューラルネットワークか学習する時
にスペクトルの平均的な傾きの特徴の方を抽出してしま
い、話者の認識に必要なスペクトルの山と谷を抽出する
のに時間かかかる。これに対し、ニューラルネットワー
クへの入力を高域強調する場合には、話者に共通で、認
識には無間係てありながら、学習に影響を及ぼすスペク
トルの平均的な傾きを補償できるため、学習速度か速く
なるのである。
上記実施例によれば、下記■〜■の作用効果がある。
■ 非登録話者の学習用入力データを演算で作成するこ
とにより、「登録話者」と「その他」の2つのカテゴリ
ー間の境界を有効に決めることかでき、照合率か向上す
る。
■非登録話者の音声が必要なくなる。
■理想的な非登録話者の学習用入力データを作成するこ
とにより、非登録話者の学習データ数を少なくでき、処
理時間が短縮てきる。
■照合ニューラルネットワークへの入力として、「音声
の一定時間内における平均的な周波数特性の時間的変化
」等、前述■〜■の各要素のうちの1つ以上を用いるか
ら、入力を得るための前処理が単純となり、この前処理
に要する時間か短くて足りるため、話者照合システムを
複雑な処理装置によることなく容易に実時間処理てきる
[発明の効果] 以上のように本発明によれば、ニューラルネットワーク
を用いた話者照合システムを構築するに際し、「登録話
者」と「その他」との有効な境界を効率的に形成して意
図的に照合率の向上を図るとともに、処理時間の短縮を
図ることができる。
【図面の簡単な説明】
第1図は登録話者の学習用入力データ作成系統を示すブ
ロック図、第2図は非登録話者の学習用入力データ作成
系統を示すブロック図、第3図はニューラルネットワー
クの学習系統を示すブロック図、第4図はニューラルネ
ットワークによる話者照合系統を示すブロック図である
。 11・・・音声入力部、 12・・・前処理部、 13・・・登録話者用学習データ記憶部、14・・・ニ
ューラルネットワーク、 15・・・主成分分析部、 16・・・非登録話者用学習データ設定部、17・・・
非登録話者用学習データ記憶部、18・・・判定部。 第1図 第3図 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨 第4図

Claims (2)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて、今回の入力話
    者が登録話者と非登録話者のいずれに属するかの判定用
    出力値を出力できる話者照合システムであって、登録話
    者の学習用入力音声に前処理を施し、この登録話者の学
    習用入力データに基づき、特徴空間上で(A)「登録話
    者」の領域により近いデータ、及び/又は(B)「その
    他」の領域全域をより効果的に埋めるデータを選択し、
    選択したデータを用いて非登録話者のための学習用入力
    データを演算により決定し、上述の登録話者と非登録話
    者の学習用入力データをニューラルネットワークに入力
    して該ニューラルネットワークの学習を行なうこととす
    る話者照合システム。
  2. (2)前記ニューラルネットワークへの入力として、 [1]音声の周波数特性の時間的変化、 [2]音声の平均的な線形予測係数、 [3]音声の平均的なPARCOR係数、 [4]音声の平均的な周波数特性、及びピッチ周波数、 [5]高域強調を施された音声波形の平均的な周波数特
    性、並びに [6]音声の平均的な周波数特性 のうちの1つ以上を使用する請求項1記載の話者照合シ
    ステム。
JP2120864A 1990-05-09 1990-05-09 話者照合システム Pending JPH0415697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2120864A JPH0415697A (ja) 1990-05-09 1990-05-09 話者照合システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2120864A JPH0415697A (ja) 1990-05-09 1990-05-09 話者照合システム

Publications (1)

Publication Number Publication Date
JPH0415697A true JPH0415697A (ja) 1992-01-21

Family

ID=14796845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2120864A Pending JPH0415697A (ja) 1990-05-09 1990-05-09 話者照合システム

Country Status (1)

Country Link
JP (1) JPH0415697A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020037127A (ko) * 2000-11-13 2002-05-18 이원상 콘크리트 타설공법과 이것에 사용되는 콘크리트 타설배관전환장치
JP2014063251A (ja) * 2012-09-20 2014-04-10 Toshiba Corp 人物認識装置、及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020037127A (ko) * 2000-11-13 2002-05-18 이원상 콘크리트 타설공법과 이것에 사용되는 콘크리트 타설배관전환장치
JP2014063251A (ja) * 2012-09-20 2014-04-10 Toshiba Corp 人物認識装置、及び方法
US9477876B2 (en) 2012-09-20 2016-10-25 Kabushiki Kaisha Toshiba Person recognition apparatus and method thereof

Similar Documents

Publication Publication Date Title
Chen et al. A deep generative architecture for postfiltering in statistical parametric speech synthesis
Kang et al. NMF-based target source separation using deep neural network
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
Wu et al. Conditional restricted boltzmann machine for voice conversion
Cheng et al. Replay detection using CQT-based modified group delay feature and ResNeWt network in ASVspoof 2019
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
Su et al. Bandwidth extension is all you need
Liu et al. Fundamental frequency estimation based on the joint time-frequency analysis of harmonic spectral structure
Nørholm et al. Instantaneous fundamental frequency estimation with optimal segmentation for nonstationary voiced speech
Do et al. Speech source separation using variational autoencoder and bandpass filter
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
Zhu et al. FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions
CN106782599A (zh) 基于高斯过程输出后滤波的语音转换方法
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
Kheder et al. A unified joint model to deal with nuisance variabilities in the i-vector space
Cheng et al. A deep adaptation network for speech enhancement: Combining a relativistic discriminator with multi-kernel maximum mean discrepancy
Esmaeilpour et al. Cyclic defense gan against speech adversarial attacks
Khan et al. Using visual speech information in masking methods for audio speaker separation
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
CN103886859A (zh) 基于一对多码书映射的语音转换方法
JPH0415697A (ja) 話者照合システム
Liu et al. Hierarchical component-attention based speaker turn embedding for emotion recognition
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
Ge et al. Dynamic acoustic compensation and adaptive focal training for personalized speech enhancement
CN115881157A (zh) 音频信号的处理方法及相关设备