JP2561553B2 - 標準話者選択装置 - Google Patents

標準話者選択装置

Info

Publication number
JP2561553B2
JP2561553B2 JP2126110A JP12611090A JP2561553B2 JP 2561553 B2 JP2561553 B2 JP 2561553B2 JP 2126110 A JP2126110 A JP 2126110A JP 12611090 A JP12611090 A JP 12611090A JP 2561553 B2 JP2561553 B2 JP 2561553B2
Authority
JP
Japan
Prior art keywords
speaker
feature vector
memory
dictionary
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2126110A
Other languages
English (en)
Other versions
JPH0420999A (ja
Inventor
鈴木  忠
邦男 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2126110A priority Critical patent/JP2561553B2/ja
Publication of JPH0420999A publication Critical patent/JPH0420999A/ja
Application granted granted Critical
Publication of JP2561553B2 publication Critical patent/JP2561553B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、音声認識において、標準話者母集団の中
から複数の標準話者を選択する標準話者選択装置に関す
るものである。
〔従来の技術〕 第2図は例えば、日本音響学会昭和57年度秋季研究発
表会講演論文集2−7−13“距離最小化に基づく単語マ
ルチテンプレート抽出法”(相川,鹿野,杉山;昭和57
年10月)に示された、従来の標準話者選択装置を示すブ
ロック図である。図において、1は標準話者母集団に属
する標準話者の一人が発声した音声が入力される入力端
子である。2は入力端子1より入力された音声を分析し
て、特徴ベクトル時系列に変換する音響分析手段であ
り、3はその特徴ベクトル時系列を保存する特徴ベクト
ルメモリである。
4はこの特徴ベクトルメモリ3に保存されている特徴
ベクトル時系列を用いてダイナミックプログラミング
(以下DPという)マッチングを行い、マッチング歪を計
算するパタンマッチング手段である。5はこのパタンマ
ッチング手段4にて算出されたマッチング歪より平均歪
を計算する平均歪演算手段である。6はこの平均歪演算
手段5にて算出された平均歪を話者間距離として記憶す
る話者間距離マトリクスメモリであり、7はこの話者間
距離のマトリクスデータを用いてクラスタリングを行
い、各クラスタのセントロイドに対応する話者番号の出
力を行うクラスタリング手段、8はその話者番号が出力
される出力端子である。
次に動作について説明する。ここでは、標準話者母集
団の大きさをN人とし、その中からM人の標準話者を選
択する場合について説明する。
標準話者母集団において話者番号n(nは1からNの
整数をとる)が付された標準話者が発声したカテゴリi
(iは1からIの整数で、Iはカテゴリ数を示す)の音
声は、入力端子1より入力される。入力端子1より入力
された前記カテゴリiの音声は音響分析手段2において
音響分析され、特徴ベクトル時系列に変換されて特徴ベ
クトルメモリ3に記録される。
パタンマッチング手段4は、特徴ベクトルメモリ3に
記録されている話者番号n1が付された標準話者のカテゴ
リiの音声に対応する特徴ベクトル時系列と、話者番号
n2に付された標準話者のカテゴリiの音声に対応する特
徴ベクトル時系列とのDPマッチングを行い、di(n1,n
2)で表現されるマッチング歪を計算する。これを、1
≦n1≦N,1≦n2≦N,1≦i≦Iについて求める。
平均歪演算手段5は、パタンマッチング手段4におい
て求められたマッチング歪di(n1,n2)を用いて、
(1)式のように平均歪D(n1,n2)を求める。
これにより求められた平均歪D(n1,n2)を話者番号n
1が付された標準話者と話者番号n2が付された標準話者
との話者間距離として、話者間距離マトリクスメモリ6
に記憶する。これを、1≦n1≦N,1≦n2≦Nについて行
う。
クラスタリング手段7は、話者間距離マトリクスメモ
リ6の話者間距離データD(n1,n2)(ただし、1≦n1
≦N,1≦n2≦N)を用い、標準話者の選択を以下のよう
に行う。
標準話者母集団に対し、任意のM人の標準話者を選択
した時のクラスタリング歪Dqを(2)式のように定義す
る。
ここで、Smは選択された標準話者に付された話者番号
である。
全ての標準話者選択の組み合わせに対してクラスタリ
ング歪Dqを求め、そのクラスタリング歪Dqを最小化する
M人の標準話者を選択する。クラスタリング手段7はこ
のようにして選択したM人の標準話者の話者番号を出力
端子8に出力する。
〔発明が解決しようとする課題〕
従来の標準話者選択装置は以上のように構成されてい
るので、話者間距離が各標準話者の発声した同一カテゴ
リ音声間のDP歪をもとに定義されることとなり、話者に
よる音韻スペクトルの差も調音様態の差も含めて標準話
者選択が行われてしまい、このような標準話者選択装置
を、複数の標準話者を学習に用いる話者適応化認識シス
テムに、その学習効率向上のために採用した場合、この
話者適応化認識システムでは、話者による音韻スペクト
ルの差が適応化処理にて取り除かれてしまい、話者によ
る調音様態の差のみに注目した話者選択が要求されるた
め、選択された話者が最適な標準話者とはならないとい
う課題があった。
この発明は上記のような課題を解消するためになされ
たもので、このような話者適応化認識システムに適用し
ても最適な標準話者の選択が可能な標準話者選択装置を
得ることを目的とする。
〔課題を解決するための手段〕
この発明に係る標準話者選択装置は、標準話者母集団
に属する任意の標準話者が発声した音声の特徴ベクトル
時系列を用いて、ベクトル量子化コードブックと辞書と
で構成されるベクトル量子化辞書を作成するベクトル量
子化辞書作成手段と、前記標準話者母集団に属する任意
の標準話者の音声の特徴ベクトル時系列を用いて、ベク
トル量子化辞書作成手段により作成されたベクトル量子
化辞書のベクトル量子化コードブックの話者適応化を行
うコードブック適応化手段と、前記コードブック適応化
手段の出力である適応化コードブックデータを用いて適
応化コードブックの平均分散値を求め、話者間距離マト
リクスメモリに書き込む平均分散値演算手段とを設けた
ものである。
〔作用〕
この発明におけるベクトル量子化辞書作成手段は、特
徴ベクトルメモリに記録されている任意の標準話者が発
声した全ての音声の特徴ベクトル時系列を入力として、
クラスタリングによるベクトル量子化コードブックの作
成とこのベクトル量子化コードブックを用いた前記標準
話者音声の特徴ベクトル時系列のベクトル量子化による
辞書作成を行い、この2つの構成要素とするベクトル量
子化辞書をベクトル量子化辞書メモリに書き込む。
また、コードブック適応化手段は、ベクトル量子化辞
書メモリ上に記憶されている任意の話者のベクトル量子
化辞書に対し、特徴ベクトルメモリ上に記憶されている
任意の標準話者が発声した音声の特徴ベクトル時系列を
用いて話者適応化処理を行い、適応化コードブックデー
タを出力する。
加えて、平均分散値演算手段は、コードブック適応化
手段の出力であるところの適応化コードブックデータを
入力として、この適応化コードブックの平均分散値を求
め、この値を話者間距離として話者間距離メモリに書き
込む。
以上の所作により、話者適応化音声認識システムに最
適な標準話者の選択が可能な標準話者選択装置を実現す
る。
〔実施例〕
以下、この発明の一実施例を図について説明する。第
1図において、1は入力端子、2は音響分析手段、3は
特徴ベクトルメモリ、6は話者間距離マトリクスメモ
リ、7はクラスタリング手段、8は出力端子であり、第
2図に同一符号を付した従来のそれらと同一、あるいは
相当部分であるため詳細な説明は省略する。
また、9は前記特徴ベクトルメモリ3に保存されてい
る特徴ベクトル時系列を入力として、クラスタリングに
よるベクトル量子化コードブックの作成と、ベクトル量
子化による辞書の作成を行うベクトル量子化辞書作成手
段である。10はこのベクトル量子化量子化辞書作成手段
9にて作成されたベクトル量子化コードブックと辞書を
構成要素とするベクトル量子化辞書の保存を行うベクト
ル量子化辞書メモリである。
11はこのベクトル量子化辞書メモリ10に記録されてい
る任意の標準話者のベクトル量子化辞書のベクトル量子
化コードブックに対して、前記特徴ベクトルメモリ3に
保存されている。適応対象者たる任意の標準話者の音声
の特徴ベクトル時系列を用いた話者適応化処理を施し、
その適応化コードブックデータを出力するコードブック
適応化手段である。12はこのコードブック適応化手段11
より出力される適応化コードブックデータを用いて適応
化コードブックの平均分散値を計算し、算出された平均
分散値を話者間距離として話者間距離マトリクスメモリ
6に書き込む平均分散値演算手段である。
次に動作について説明する。この場合も、従来の場合
と同様に、標準話者母集団の大きさはN人とする。
ベクトル量子化辞書作成手段9は特徴ベクトルメモリ
3に記録されている標準話者母集団の中のすべての話者
の音声の特徴ベクトル時系列を入力として次に示す一連
の処理を行う。
まず、話者番号n(ただし1≦n≦N)が付されてい
る標準話者が発声した音声に対応するすべての特徴ベク
トルを対象としてクラスタリングを行い、各クラスタの
セントロイドをコードワードとするベクトル量子化コー
ドブックを作成する。続いて、このベクトル量子化コー
ドブックを用いて、話者番号nが付された標準話者の音
声に対応する特徴ベクトル時系列をベクトル量子化し、
コードラベルの時系列で構成される辞書を作成する。最
後に、上記の処理により作成されたベクトル量子化コー
ドブックと辞書とを構成要素とし、話者番号nが付され
た標準話者に対応するベクトル量子化辞書Rnを作成して
ベクトル量子化辞書メモリ10に書き込む。
この処理を標準話者母集団に含まれる全話者に対して
行うことで、ベクトル量子化辞書メモリ10の上にベクト
ル量子化辞書群Rn(nは1・・・N)が生成される。
コードブック適応化手段11は、特徴ベクトルメモリ3
に記録されている標準話者母集団の中のすべての話者の
音声の特徴ベクトル時系列と、ベクトル量子化辞書メモ
リ10に記録されている標準話者母集団の中の全ての話者
のベクトル量子化辞書を用いて以下のような処理を行
う。
まず、話者番号n1(ただし、1≦n1≦N)が付された
標準話者に対応するベクトル量子化辞書Rn1において、
コードラベル時系列{Li(t)|t=1・・・Ti}(Tiは
ラベル数)とベクトル量子化コードブック{Cn1(j)|
j=1・・・J}(Jはコードブックサイズ)により{C
n1(k)|k=Li(t),t=1・・・Ti}と表現されるカ
テゴリiの音声の特徴ベクトル時系列と、話者番号n2
(ただし、1≦n2≦N)が付された標準話者のカテゴリ
iの音声に対応する特徴ベクトル時系列{Vn2i(s)|
s=1・・・Si}(Siは系列数)とのDPマッチングを行
うことで、ふたつの特徴ベクトル時系列間の時間対応関
係を求める。
これをすべてのカテゴリiに対し行った後、コードワ
ードCn1(j)との対応がとられたすべての話者番号n2
が付された標準話者の音声の特徴ベクトル{Vn2}か
ら、その特徴ベクトルの数Nj(n1->n2)、特徴ベクトルの
各次元要素の平均を求めてえられる平均特徴ベクトルXj
(n1->n2)、各次元要素の2乗平均を求めてえられる2乗
平均ベクトルYj(n1->n2)、の3つの構成要素とする適応
化コードブックデータを出力する。
なお、このような話者適応化手法については、例えば
日本音響学会昭和58年度秋季研究発表会講演論文集1−
1−6“大語彙音声認識における話者適応化法”(中
島,高橋;昭和58年10月)などで詳しく論じられてい
る。
以上の処理を1≦n1≦N、1≦n2≦Nについて行う。
平均分散値演算手段12は、コードブック適応化手段11
の出力であるところの適応化コードブックデータを用い
て、(3)式を計算する。
ここで、Jはコードブックサイズ、Pは特徴ベクトルの
次数、yj(p)は2乗平均特徴ベクトルYj(n1->n2)のP
次元要素、xj(p)は平均特徴ベクトルXj(n1->n2)のP
次元要素である。
このようにして求められた平均分散値v(n1,n2)を、
話者番号n1が付された標準話者と話者番号n2が付された
標準話者との話者間距離として話者間距離マトリクスメ
モリ6に書き込む。これを1≦n1≦N、1≦n2≦Nにつ
いて行う。
以上述べたように、(3)式で得られる平均分散値v
(n1,n2)は、話者番号n1が付された標準話者のベクト
ル量子化辞書Rn1のベクトル量子化コードブックにおい
て、同一のコードワードCn1(j)に対応づけられた話
者番号n2が付された標準話者音声の特徴ベクトル
{Vn2}から求めているため、話者番号n1が付された話
者と話者番号n2が付された話者との調音様態に差があれ
ば、その特徴ベクトル{Vn2}の分散が大きくなり、結
果として平均分散値v(n1,n2)の値も大きくなる。
クラスタリング手段7は、このような平均分散値v(n
1,n2)を話者間距離として生成された話者間距離マトリ
クスを用いてクラスタリングを行い、標準話者を選択し
てその話者番号を出力端子8より出力する。従って、選
択された標準話者は、調音様態の違いにのみ注目して選
択されることとなり、話者適応化認識システムに対する
学習対象話者として最適になっている。
なお、上記実施例では専用のハードウェアにて構成す
るものを示したが、汎用の計算機や信号処理プロセッサ
におけるソフトウェア処理によって実現するようにして
もよい。
〔発明の効果〕
以上のようにこの発明によれば、標準話者母集団に属
する任意の標準話者が発声した音声の特徴ベクトル時系
列を用いて、ベクトル量子化コードブックと辞書とで構
成されるベクトル量子化辞書を作成し、標準話者母集団
に属する任意の標準話者の音声の特徴ベクトル時系列を
用いて、前記ベクトル量子化辞書のベクトル量子化コー
ドブックの話者適応化を行い、その適応化コードブック
データを用いて話者間距離としての適応化コードブック
の平均分散値を求めるように構成したので、標準話者に
よる調音様態の差を話者間距離とする話者間距離マトリ
クスが生成でき、話者適応化認識を考慮した標準話者選
択が行えるようになり、その結果、複数の標準話者を学
習対象とした話者適応化認識システムにおいて学習の効
率化が実現できる標準話者選択装置が得られる効果があ
る。
【図面の簡単な説明】
第1図はこの発明の一実施例による標準話者選択装置を
示すブロック図、第2図は従来の標準話者選択装置を示
すブロック図である。 2は音響分析手段、3は特徴ベクトルメモリ、6は話者
間距離マトリクスメモリ、7はクラスタリング手段、9
はベクトル量子化辞書作成手段、10はベクトル量子化辞
書メモリ、11はコードブック適応化手段、12は平均分散
値演算手段。 なお、図中、同一符号は同一、又は相当部分を示す。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】標準話者母集団に属している標準話者が発
    声した音声を分析して、特徴ベクトル時系列に変換する
    音響分析手段と、前記音響分析手段により出力される前
    記特徴ベクトル時系列を保存する特徴ベクトルメモリ
    と、前記特徴ベクトルメモリに保存されている特徴ベク
    トル時系列を用いてベクトル量子化コードブックを作成
    し、さらにコードラベル列で登録音声を表す辞書の作成
    を行うベクトル量子化辞書作成手段と、前記ベクトル量
    子化辞書作成手段にて作成されたベクトル量子化辞書を
    保存するベクトル量子化辞書メモリと、前記特徴ベクト
    ルメモリに保存されている特徴ベクトル時系列を用い
    て、前記ベクトル量子化辞書メモリに保存されているベ
    クトル量子化辞書のベクトル量子化コードブックの話者
    適応化を行うコードブック適応化手段と、前記コードブ
    ック適応化手段より出力される適応化コードブックデー
    タを用いて適応化コードブックの平均分散値を計算する
    平均分散値演算手段と、前記平均分散値演算手段にて算
    出された平均分散値を話者間距離として記憶する話者間
    距離マトリクスメモリと、前記話者間距離マトリクスメ
    モリに保存されている話者間距離マトリクスデータを用
    いてクラスタリングを行い、各クラスタのセントロイド
    に対応する話者番号を出力するクラスタリング手段とを
    備えた標準話者選択装置。
JP2126110A 1990-05-16 1990-05-16 標準話者選択装置 Expired - Fee Related JP2561553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2126110A JP2561553B2 (ja) 1990-05-16 1990-05-16 標準話者選択装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2126110A JP2561553B2 (ja) 1990-05-16 1990-05-16 標準話者選択装置

Publications (2)

Publication Number Publication Date
JPH0420999A JPH0420999A (ja) 1992-01-24
JP2561553B2 true JP2561553B2 (ja) 1996-12-11

Family

ID=14926874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2126110A Expired - Fee Related JP2561553B2 (ja) 1990-05-16 1990-05-16 標準話者選択装置

Country Status (1)

Country Link
JP (1) JP2561553B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009122780A1 (ja) * 2008-03-31 2011-07-28 日本電気株式会社 適応話者選択装置および適応話者選択方法並びにプログラム
CN106469192B (zh) * 2016-08-30 2021-07-30 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
テレビジョン学会誌(平成元年)Vol.43,No.9,P.929〜934
日本音響学会講演論文集(平成元年3月)2−6−11,P.67〜68

Also Published As

Publication number Publication date
JPH0420999A (ja) 1992-01-24

Similar Documents

Publication Publication Date Title
JP2733955B2 (ja) 適応型音声認識装置
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPH0585916B2 (ja)
JP2004109464A (ja) 音声認識装置及び音声認識方法
JPH11242494A (ja) 話者適応化装置と音声認識装置
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
JP3014177B2 (ja) 話者適応音声認識装置
JP2898568B2 (ja) 声質変換音声合成装置
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JP2561553B2 (ja) 標準話者選択装置
US5930748A (en) Speaker identification system and method
JPH0486899A (ja) 標準パターン適応化方式
JP2545914B2 (ja) 音声認識方法
JPH01204099A (ja) 音声認識装置
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JP3008520B2 (ja) 標準パタン作成装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH071434B2 (ja) 標準パタン作成方式
JP2961797B2 (ja) 音声認識装置
JPH1097270A (ja) 音声認識装置
JP3518195B2 (ja) 音声認識装置
JP2000181486A (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees