JP2701500B2 - 音声認識装置のための標準パターン学習方式 - Google Patents

音声認識装置のための標準パターン学習方式

Info

Publication number
JP2701500B2
JP2701500B2 JP2008790A JP879090A JP2701500B2 JP 2701500 B2 JP2701500 B2 JP 2701500B2 JP 2008790 A JP2008790 A JP 2008790A JP 879090 A JP879090 A JP 879090A JP 2701500 B2 JP2701500 B2 JP 2701500B2
Authority
JP
Japan
Prior art keywords
standard pattern
learning
variance
speakers
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2008790A
Other languages
English (en)
Other versions
JPH03212696A (ja
Inventor
和永 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008790A priority Critical patent/JP2701500B2/ja
Publication of JPH03212696A publication Critical patent/JPH03212696A/ja
Application granted granted Critical
Publication of JP2701500B2 publication Critical patent/JP2701500B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声認識装置に用いる標準パターンの学習
方式の改良に関するものである。
〔従来の技術〕
従来、音声を認識する方法として、例えば(社)電子
情報通信学会編、中川聖一著「確率モデルによる音声認
識」(以下文献1と称す)の第29頁以下に述べられてい
るような「隠れマルコフモデル」(以下HMMと呼ぶ)を
標準パターンとして用いた方法があった。この方法で
は、まず、音声パターンの生成過程をマルコフ過程によ
り状態遷移モデルとしてモデル化する。この状態遷移モ
デルがHMMである。認識対象のカテゴリ(たとえば単
語)毎にHMMを用意する。観測された音声認識パターン
Y=yt(t=1…T)が、HMMにより生成される確率P
が最大となるカテゴリが認識結果となる。
第3図にHMMの例を示す。状態Siにおいて音声パター
ンytを出力する確率bi(yt)、状態SiからSjに遷移する
確率をa ijとする。音声パターンYが出力される確率P
は以下の前向き確率αに関する漸化式を解くことにより
求めることができる。
ここで、音声パターンytを出力する確率bi(yt)を、
文献1の第69頁に述べられているような、連続確率密度
分布を用いるとする。無相関正規分布を仮定すると確率
bi(yt)は、以下のように表せる。
ここで、μ ikは平均特徴ベクトル、σ ik2は分散を
示す。また、添字kはベクトルのk番目の要素(1≦k
≦K)を表す。
HMMのパラメータは、文献1の第55頁に述べられてい
るようなForward Backwardアルゴリズム(以下FBアルゴ
リズムと呼ぶ)により学習することができる。この学習
法は、学習データの音声パターンを用いてパラメータを
繰り返し更新することにより行う。HMMのパラメータに
は、予め適当な初期値(初期モデル)が設定されてい
る。以下にアルゴリズムを示す。
(1)式のように前向き確率αを求めると共に、後向
き確率βを以下のように求める。
パラメータを更新する。
求められたパラメータを新しいパラメータとして用い
て、以下をパラメータが収束するまで繰り返す。
以上のアルゴリズムにより、学習データにたいする出
力確率の極大値を与えるHMMのパラメータを求めること
ができる。求められる結果は最大値でなく、あくまで極
大値であり、得られた結果は初期モデルの値に依存す
る。初期モデルのパラメータが適当でない場合、最大値
からかけ離れた極大値が求められてしまうおそれがあ
る。初期モデルの求めかたとして、文献1の第64頁に述
べられているように、学習データをHMMの状態数で分割
し、各区間のデータからパラメータを求める方法があ
る。また、このようにして求められたパラメータを初期
モデルとして、ある学習データに対して学習した結果
を、あらたな学習データに対する初期モデルとする方法
もある。
〔発明が解決しようとする課題〕
HMMは確率モデルであるので、精度よくパラメータを
推定するためには多重の学習データが必要である。ま
た、発声の変形を学習するためには、様々な変形が含ま
れているような学習データが必要である。認識装置を使
用する特定話者毎に多量のデータを収集するのは、使用
者に対する負担が大きく好ましくないので、多数の話者
により発声された音声を用いると良い。多数の話者によ
り発声された音声を用いてHMMを学習することにより、
音声の様々な変形を含んだHMMを求めることができる。
しかし、音声パターンは話者による差が大きいので、
特定話者の音声を認識する場合は、多数話者により学習
されたHMMをそのまま用いたのでは高い認識性能を得る
のは困難である。そこで、特定話者のなるべく少ない学
習データを用いてHMMをその話者に適応化する必要があ
る。
多数話者の音声から求められたHMMを初期モデルとし
て、特定話者の学習データに対して前述のFBアルゴリズ
ムを用いてHMMの学習をおこなうと、HMMのパラメータは
特定話者の学習データを反映するものとなり、初期モデ
ルの持つ情報は無くなってしまう。このため特定話者の
学習データ量が少ない時は、HMMのパラメータを精度良
く推定するのが困難となり、かつ発声変形を十分反映す
ることもできなくなるという問題があった。
本発明は、標準パターンを、多数の話者による発声か
ら得られた発声変形の情報を持ち、特定話者に特有の情
報についてはその話者に適した情報を有するように学習
するための方式の提供を目的とする。
〔課題を解決するための手段〕
本願の第1の発明による音声認識装置のための標準パ
ターン学習方式は、あらかじめ作成された標準パターン
を、学習データに対して適応化する際に、複数の話者間
の標準パターンのパラメータの分散を表す値が予め定め
られた閾値より大きい場合、対応するパラメータを学習
により更新することを特徴とする。
本願の第2の発明による音声認識装置のための標準パ
ターン学習方式は、前記本願の第1の発明に加え、少な
くとも複数の話者間の標準パターンのパラメータの分散
を表す値および一人の話者の標準パターンのパラメータ
の分散を表す値とを含む値により更新するパラメータを
決定することを特徴とする。
本願の第3の発明による音声認識装置のための標準パ
ターン学習方式は、前記本願の第1および第2の発明に
加え、少なくともあらかじめ作成された標準パターンの
持つ値および学習データを前記分散を表す値とを含む値
により重み付けして学習することを特徴とする。
〔作用〕
本発明による音声認識装置のための標準パターン学習
方式について説明する。音声パターンには、母音のよう
に話者による違いが大きい部分と、破裂音などのように
発声変形は大きいが話者による違いはそれほど重要でな
い部分がある。本発明は、あらかじめ多数の話者によっ
て発声された学習データをもとに作成された標準パター
ンを特定話者の学習データに対して適応化する場合、パ
ラメータの話者間の分散を表す値が大きい、すなわち話
者による違いが大きいパラメータのみを更新するもので
ある。これにより、話者による変動の大きいパラメータ
は特定話者の特徴に適応化し、話者の違いによる変動が
少ないパラメータに対しては、多数話者が発声した多量
データにより学習された標準パターンのパラメータを用
いることにより精度良く、かつ話者の特徴を反映した学
習が行える。以下、文献1に述べられているようなHMM
を用いた場合について説明する。
まず、標準パターンを、多数の話者により発声された
学習データを用いて作成する。作成方法は、前述のFBア
ルゴリズムを用いることができる。作成された標準パタ
ーンのパラメータの分散を表す値として、(3)式の分
散σ ik2を用いる。
続いて、特定話者の学習データを用いてFBアルゴリズ
ムによる学習を行う。この時、分散σ ik2がある定めら
れた閾値cよりも大きい。
σ ik2>c (8) なる分散に対するパラメータμ ikのみを学習により更
新する。
学習により更新されるパラメータとしては、対応する
kの要素だけでなく、どれか一つの要素が閾値を上回っ
た場合や、分散を表すベクトルのノルムの値が閾値を上
回った場合などの様々な基準を用いることができる。ま
た、この場合、対応する遷移確率a ijの更新を行うか否
かの制御も可能である。
また、学習による更新を行うか否かの判別に、多数の
話者間のパラメータの分散σ extだけでなく、一人の話
者内のパラメータの分散σ intを用いることにより、き
め細かな判別ができるようになる。話者内の分散σ int
は、一人の話者が多数回発声した学習データからもとめ
られた話者内の分散を用いる。複数の話者の話者内分散
をもとに、それらを統合しても良い。このように、話者
内の分散が小さいパラメータは、少ない学習データによ
り高精度に学習を行うことができるので特定話者に対し
て学習することは好ましい。
多数話者の学習データを用いて学習したHMMから求め
たパラメータの分散σ extと、そのHMMの各状態に対応
する、一人の話者の複数の発声により求められたパラメ
ータの分散σ intが予め定められた閾値c int、C extと
の比較により、 σ ext>c extかつ (9) σ int<c int (10) なるパラメータに対応する標準パターンのパラメータ
を学習によって更新する。この更新を行うか否かの判別
法として(9)式と(10)式が同時に成立した場合、
(9)式または(10)式が成立した場合等を用いること
ができる。また分散σ extとσ intとの比や、差を用い
ることもできる。
また、以上の述べた方式では、分散を表す値と閾値と
の比較により更新を行うか否かを決定している。このよ
うな判別による制御は、処理は簡単であるが閾値の付近
で更新を行うか否かの不連続が生じることや、特定話者
の学習データが少ない場合は、少ない学習データのみか
らパラメータを推定することになるという問題がある。
そこで、これらの分散を表す値を用いて、学習データの
学習の際に重み付けを行う。この方法として、たとえ
ば、(6)式において、学習データytの内、1≦t≦T
orgを、初期モデルを作成した学習データ、Torg<t≦
Tを特定話者の学習データとし、(6)式のかわりに次
に示す式を用いてFBアルゴリズムによる学習を行う。
ここで、f(σ ref)は、重み関数であり、話者内お
よび/または話者間の分散を表す値σ refの値により重
みの値を決定するものである。この関数は任意の関数で
あるが、たとえば話者間の分散σ extに対する単調増加
関数を用いることができる。これにより、多数の話者に
より学習された特徴と、特定の話者の特徴を兼ね備えた
標準パターンを作成することができる。
〔実施例〕
本発明による標準パターン学習方式を用いた音声認識
装置の実施例について図面を参照して説明する。第1図
は本願の第1の発明による一実施例を示す構成図であ
る。メモリ1の中に保持されている多数話者学習データ
を用いて、学習部2において前述のFBアルゴリズムによ
り多数話者の標準パターン(HMM)を作成しメモリ3中
に保持する。学習部4では、メモリ3中に保持されてい
る多数話者の標準パターンを初期モデルとして、メモリ
5中に保持されている特定話者の学習データを用いてFB
アルゴリズムにより標準パターンの学習を行う。この
時、比較部6では、メモリ3から多数話者の標準パター
ンの分散σ extを読みだし、それが予め定められた閾値
cより大きい場合、学習部4に対し制御信号を出力す
る。学習部4では、この制御信号に対するパラメータの
み更新を行うようにする。学習部4により求められた標
準パターンはメモリ7に保持される。以上が学習部の動
作である。認識部8では、メモリ7中の標準パターンを
用いて、文献1に述べられているようなHMMを用いた認
識方式により、入力された音声を認識する。
続いて、本願の第2の発明による一実施例における標
準パターン学習部について説明する。第2図は本願の第
2の発明による一実施例を示す構成図である。メモリ11
の中に保持されている多数話者の学習データを用いて、
学習部12において前述のFBアルゴリズムにより多数話者
の標準パターンを作成しメモリ13中に保持する。同時に
多数話者の標準パターンのパラメータに対応する話者間
の分散σ extがメモリ21に、話者内の分散σ intがメモ
リ22に保持される。学習部14では、メモリ13中に保持さ
れている多数話者の標準パターンを初期モデルとして、
メモリ15中に保持されている特定話者の学習データを用
いてFBアルゴリズムにより標準パターンの学習を行う。
この時、比較部16では、メモリ21から標準パターンのパ
ラメータに対応する話者間の分散σ ext、メモリ22から
標準パターンのパラメータに対応する話者内の分散σ i
ntを読みだし、予め定められた閾値c ext、c intを用い
て、式(9)(10)をみたす場合、学習部14に対し制御
信号を出力する。学習部14では、この制御信号に対する
パラメータのみ更新を行うようにする。学習部14により
求められた標準パターンはメモリ17に保持される。
続いて、本願の第3の発明による一実施例における標
準パターン学習部について説明する。以下第1図を用い
て説明する。本願発明による第1の発明と同様、学習部
4では、メモリ3中に保持されている多数話者の標準パ
ターンを初期モデルとして、メモリ5中に保持されてい
る特定話者の学習データを用いてFBアルゴリズムにより
標準パターンの学習を行う。この時、比較部6では、メ
モリ3から多数話者の標準パターンの分散σ extを読み
だし、重み関数f(σ ext)を用いて重みwを求め、学
習部4に対し制御信号として出力する。学習部4では、
この制御信号wに対し、(11)式を用いて更新を行う。
以下第1の発明と同様である。
第2の発明に適する場合は、比較部16での処理が、メ
モリ21から標準パターンのパラメータに対応する話者間
の分散σ ext、メモリ22から標準パターンのパラメータ
に対応する話者内の分散σ intを読みだし、重み関数f
(σ ext,σ int)を用いて重みwを求め、学習部14に
対して制御信号として出力するようにする。
〔発明の効果〕
本発明によれば、少ない学習データで標準パターンを
特定話者に適応させることにより、高性能の音声認識装
置を実現することができる。
【図面の簡単な説明】
第1図は本願発明による第1の発明による一実施例を示
す構成図、第2図は本願発明による第2の発明による一
実施例を示す構成図、第3図は従来例を説明するための
図である。 1,3,5,7,11,13,15,17,21,22……メモリ、2,4,12,14……
学習部、6,16……比較部、8……認識部。
フロントページの続き (56)参考文献 特開 昭63−192098(JP,A) Proceedings of IE EE International C onference on Acous tics,Speech and Si gnal Processing 1989,Vol.1,P.544〜547 新美 「情報科学講座E・19・3 音 声認識」 共立出版株式会社,昭和54 年,P.119〜124 電子情報通信学会技術研究報告 [音 声] SP90−16,P.57〜64,平成元 年6月28日

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】あらかじめ作成された標準パターンを、学
    習データに対して適応化する際に、複数の話者間の標準
    パターンのパラメータの分散を表す値が予め定められた
    閾値より大きい場合、対応するパラメータを学習により
    更新することを特徴とする音声認識装置のための標準パ
    ターン学習方式。
  2. 【請求項2】少なくとも複数の話者間の標準パターンの
    パラメータの分散を表す値および、一人の話者の標準パ
    ターンのパラメータの分散を表す値とを含む値により更
    新するパラメータを決定することを特徴とする請求項1
    記載の音声認識装置のための標準パターン学習方式。
  3. 【請求項3】少なくともあらかじめ作成された標準パタ
    ーンの持つ値および学習データを前記分散を表す値とを
    含む値により重み付けして学習することを特徴とする請
    求項1または2記載の音声認識装置のための標準パター
    ン学習方式。
JP2008790A 1990-01-17 1990-01-17 音声認識装置のための標準パターン学習方式 Expired - Lifetime JP2701500B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008790A JP2701500B2 (ja) 1990-01-17 1990-01-17 音声認識装置のための標準パターン学習方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008790A JP2701500B2 (ja) 1990-01-17 1990-01-17 音声認識装置のための標準パターン学習方式

Publications (2)

Publication Number Publication Date
JPH03212696A JPH03212696A (ja) 1991-09-18
JP2701500B2 true JP2701500B2 (ja) 1998-01-21

Family

ID=11702661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008790A Expired - Lifetime JP2701500B2 (ja) 1990-01-17 1990-01-17 音声認識装置のための標準パターン学習方式

Country Status (1)

Country Link
JP (1) JP2701500B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918318B2 (en) 2007-01-16 2014-12-23 Nec Corporation Extended recognition dictionary learning device and speech recognition system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing 1989,Vol.1,P.544〜547
新美 「情報科学講座E・19・3 音声認識」 共立出版株式会社,昭和54年,P.119〜124
電子情報通信学会技術研究報告 [音声] SP90−16,P.57〜64,平成元年6月28日

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918318B2 (en) 2007-01-16 2014-12-23 Nec Corporation Extended recognition dictionary learning device and speech recognition system

Also Published As

Publication number Publication date
JPH03212696A (ja) 1991-09-18

Similar Documents

Publication Publication Date Title
JP2986792B2 (ja) 話者正規化処理装置及び音声認識装置
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
JP6246777B2 (ja) 音声合成方法、装置及びプログラム
Woodland Speaker adaptation for continuous density HMMs: A review
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
US5983178A (en) Speaker clustering apparatus based on feature quantities of vocal-tract configuration and speech recognition apparatus therewith
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
Richardson et al. Hidden-articulator Markov models for speech recognition
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JPH0372998B2 (ja)
US20050228666A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
KR100574769B1 (ko) 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JP2701500B2 (ja) 音声認識装置のための標準パターン学習方式
JP3589044B2 (ja) 話者適応化装置
Zen et al. Decision tree-based simultaneous clustering of phonetic contexts, dimensions, and state positions for acoustic modeling.
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP2705537B2 (ja) 話者学習装置
JP2976795B2 (ja) 話者適応化方式
JPH0990981A (ja) パターン認識のためのモデル学習方法
JP3044741B2 (ja) 標準パターン学習方法
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
JP2004279454A (ja) 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体