JPH06282292A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH06282292A
JPH06282292A JP6833093A JP6833093A JPH06282292A JP H06282292 A JPH06282292 A JP H06282292A JP 6833093 A JP6833093 A JP 6833093A JP 6833093 A JP6833093 A JP 6833093A JP H06282292 A JPH06282292 A JP H06282292A
Authority
JP
Japan
Prior art keywords
speaker
input
adaptation
model
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6833093A
Other languages
English (en)
Other versions
JPH0792676B2 (ja
Inventor
Yasunaga Miyazawa
康永 宮沢
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
ATR JIDO HONYAKU DENWA
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
ATR JIDO HONYAKU DENWA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK, ATR JIDO HONYAKU DENWA filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP5068330A priority Critical patent/JPH0792676B2/ja
Publication of JPH06282292A publication Critical patent/JPH06282292A/ja
Publication of JPH0792676B2 publication Critical patent/JPH0792676B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力音声に最も類似した「話者適応を行なっ
た後の標準話者モデル」を選択することによって、音声
認識の性能を向上させる。 【構成】 N人の標準話者の音素HMMを用意し、すべ
ての標準話者の音素HMMを、入力話者Aの学習用単語
データをK個用いて、移動ベクトル場平滑化方式により
入力話者Aに話者適応し、話者適応された各話者の音素
HMMを入力話者Aの学習用単語の音素列に従って連結
された連結モデルを、話者毎にK個ずつ作成する。入力
話者Aの学習用単語を入力したときの各話者の連結モデ
ルの出力尤度のK個の和を求め、出力尤度の和が最も大
きい話者を選択し、選択した話者の話者適応後の音素H
MMを用いて入力話者Aの認識用単語データを認識す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識方式に関し、
特に、話者適応,発話様式適応,発話環境適応を用いた
ような音声認識方式に関する。
【0002】
【従来の技術】従来より、話者適応を用いた音声認識に
おいて、複数の標準話者モデルの中から1つの標準話者
モデルを選択する方法として、Review of Electoric. C
ommu.Lab., Vol.34,No.3,第357頁〜第362頁(1
986)で知られているように、ベクトル量子化歪みな
どを用いて、話者適応を行なう前に、複数の標準話者モ
デルの中から最も入力音声の特徴に類似した1つの標準
話者モデルを選択し、選択された標準話者モデルを入力
音声で話者適応し、その適応されたモデルを音声認識に
用いる技術が知られている。
【0003】
【発明が解決しようとする課題】しかしながら、上述の
従来の方法では、選択された標準話者モデルが話者適応
を行なって特質が変化した後にも、入力音声の特徴に最
も類似しているとは限らず、話者適応を行なう上で最適
な標準話者選択を行なっていないという問題点があっ
た。
【0004】それゆえに、この発明の主たる目的は、入
力音声に最も類似した話者適応を行なった後の標準話者
モデルを選択することによって、音声認識の性能を向上
させることのできるような音声認識方式を提供すること
である。
【0005】
【課題を解決するための手段】この発明は複数の音響モ
デルからなる音響モデル群を、入力音声データを用いて
入力音声の特徴空間にモデル適応し、モデル適応された
後の音響モデル群を用いて音声認識を行なう音声認識方
式であって、音響モデル群を複数組準備し、すべての音
響モデル群を、入力音声を用いて入力音声の特徴空間に
それぞれモデル適応し、モデル適応された後の各音響モ
デル群と入力音声との類似度をそれぞれ求め、求められ
た類似度の値が最も大きいモデル適応後の音響モデル群
を1つ選択し、選択されたモデル適応後の音響モデル群
を用いて音声認識を行なうように構成される。
【0006】請求項2に係る発明は、請求項1の音響モ
デル群は、1人の発話者が発声した音声データから求め
た複数の音響モデルの集合によって構成される。
【0007】請求項3に係る発明は、請求項1の音響モ
デルを音素の離散型あるいは連続分布型隠れマルコフモ
デルとし、類似度を入力音声を入力とする隠れマルコフ
モデルの出力尤度とされる。
【0008】
【作用】この発明に係る音声認識方式は、音響モデル群
を複数組準備し、すべての音響モデル群を、入力音声を
用いた入力音声の特徴空間にそれぞれモデル適応し、モ
デル適応された後の各音響モデル群と入力音声との類似
度をそれぞれ求め、求められた類似度の値が最も大きい
モデル適応後の音響モデル群を1つ選択し、選択された
モデル適応後の音響モデル群を用いた音声認識を行なう
ことにより、入力話者の音声の特徴に適した標準話者を
選択することが可能となり、認識性能を高めることがで
きる。
【0009】
【実施例】図1はこの発明の一実施例の電気的構成を説
明するための概略ブロック図である。この発明に係る音
声認識方式を実現するために、図1に示すように、アン
プ1と、ローパスフィルタ2と、A/D変換器3と、処
理装置4とが設けられる。アンプ1は入力された音声信
号を増幅し、ローパスフィルタ2は増幅された音声信号
から繰返し雑音を除去する。A/D変換器3は音声信号
を12kHzのサンプリング信号により、16ビットの
デジタル信号に変換する。処理装置4はコンピュータ5
と磁気ディスク6と端末類7とプリンタ8とを含む。コ
ンピュータ5はA/D変換器3から入力された音声のデ
ジタル信号に基づいて、後述の図2に示す手法を用いて
音声認識を行なう。
【0010】図2はこの発明の音声認識方式のアルゴリ
ズムを説明するための図である。この図2に示すアルゴ
リズムは、図1のコンピュータ5によって実行される。
まず、N人の標準話者の音素隠れマルコフモデル(HM
M,Hidden Malkov Model )が容易される。各話者の音
素HMMは、予め各話者が発話した単語データで学習し
た混合連続分布型HMMであり、音素数は、各話者23
個用意される。次に、すべての標準話者の音素HMMが
入力話者Aの学習用単語データK個を用いて、移動ベク
トル場平滑化方式により入力話者Aに話者適応される。
ここで用いられる入力話者Aの学習用単語データは発話
内容がわかっている単語データである。
【0011】次に、話者適応された各話者の音素HMM
を入力話者Aの学習用単語の音素列に従って連結させた
連結モデルが話者毎にK個ずつ作成される。さらに、入
力話者Aの学習用単語を入力としたときの各話者の連結
モデルの出力尤度のK個の和が求められ、出力尤度の和
が最も大きい話者が選択される。ここで用いた話者適応
後の音素HMMの連結モデルの出力尤度を「話者正規化
HMM尤度」と名付ける。このようにして選択した話者
の話者適応後の音素HMMを用いて、入力話者Aの認識
用単語データを認識する。
【0012】以上のように説明した「話者正規化HMM
尤度」に基づく標準話者選択方法のアルゴリズムを数式
を用いて以下に示す。 記号の定義 A={a1 ,…,aK }:入力話者の適応用単語の集合 i:標準話者名(1<i<I) j:音素名(1<j<J) Bi ={bi1,…,biJ}:標準話者iの音素HMMの
集合 B′i ={b′i1,…,b′iJ}:Bi を話者適応した
後の音素HMMの集合 Λ′ik:話者適応後の音素HMMB′i を基に形成した
単語ak の連結モデル L(ak ,Λ′ik):入力話者の単語ak に対する連結
モデルΛ′ikの出力尤度 定式化
【0013】
【数1】
【0014】ここで、si が選択された標準話者名であ
る。前述の移動ベクトル場平滑化方式について、以下に
簡単に説明する。最尤推定法により入力音声で音素HM
Mの出力確率の平均値を再学習する。再学習された音素
HMMの出力確率の平均値と、適応前の平均値との差分
ベクトルを、標準話者空間から入力話者空間への移動ベ
クトルと考え、その集合を移動ベクトル場とする。ここ
で、少量の学習データで再学習された音素HMMの出力
確率の平均値には推定誤差が含まれており、このように
得られた移動ベクトルの方向は、非連続的な動きをして
いると考えられる。
【0015】さらに、少量サンプルでは再学習されない
出力確率の平均値も存在する。そこで、移動ベクトル場
に「連続性の拘束条件」を導入することにより、移動ベ
クトルを平滑化することで平均値を補正する。さらに、
未学習の平均値に対する移動ベクトルを他の移動ベクト
ルの内外挿で補間する。ここで、移動ベクトルの平滑化
の強さはfuzziness の値で制御し、この値が大きいほ
ど、強い平滑化が行なわれる。すなわち、fuzziness の
値が無限大では、すべての音素モデルは平行移動する。
【0016】次に、標準話者を12名,入力話者を10
名を用いて、この発明の音声認識方式で音素認識実験を
行なった結果について説明する。まず、入力話者の学習
データを100単語用いて12名の標準話者を各入力話
者に話者適応した。入力話者毎に標準話者を1名選択
し、その話者適応後の音素HMMで入力話者音声の音素
認識を行なった。入力話者10名の音素認識率は、従来
の方法である話者適応前のHMMの出力尤度を用いて1
名の標準話者を選択し、その話者適応後の音素HMMで
入力話者音声の音素認識を行なった場合、音素認識率の
平均値は85.5%であった。また、この発明である話
者適応後のHMMの出力尤度「話者正規化HMM尤度」
を用いて標準話者を選択し、その話者の話者適応後の音
素HMMで入力話者音声の音素認識を行なった場合、音
素認識率の平均値は86.3%であった。この結果か
ら、この発明による音声認識方式が認識性能の向上に有
効であることがわかる。
【0017】
【発明の効果】以上のように、この発明によれば、音響
モデル群を複数組準備し、すべての音響モデル群を入力
音声を用いて入力音声の特徴空間にそれぞれモデル適応
し、モデル適応された後の音響モデル群と入力音声との
類似度をそれぞれ求め、求められた類似度の値が最も大
きいモデル適応後の音響モデル群を1つ選択し、選択さ
れたモデル適応後の音響モデル群を用いて音声認識を行
なうことにより、話者適応を行なう上で、入力話者の音
声の特徴に適した標準話者を選択することが可能とな
り、認識性能を高めることができる。
【図面の簡単な説明】
【図1】この発明の一実施例が適用される音声認識装置
の概略ブロック図である。
【図2】この発明の一実施例における音声認識方式のア
ルゴリズムを示す図である。
【符号の説明】
1 アンプ 2 ローパスフィルタ 3 A/D変換器 4 処理装置 5 コンピュータ 6 磁気ディスク 7 端末類 8 プリンタ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の音響モデルからなる音響モデル群
    を、入力音声データを用いて前記入力音声の特徴空間に
    モデル適応し、モデル適応された後の音響モデル群を用
    いて音声認識を行なう音声認識方式において、 前記音響モデル群を複数組準備するステップ、 前記すべての音響モデル群を、入力音声を用いて前記入
    力音声の特徴空間にそれぞれモデル適応するステップ、 前記モデル適応された後の各前記音響モデル群と前記入
    力音声との類似度をそれぞれ求めるステップ、 前記求められた前記類似度の値が最も大きいモデル適応
    後の前記音響モデル群を1つ選択するステップ、および
    前記選択されたモデル適応後の前記音響モデル群を用い
    て音声認識を行なうステップを含む、音声認識方式。
  2. 【請求項2】 前記音響モデル群は、1人の発話者が発
    声した音声データから求めた複数の音響モデルの集合で
    あることを特徴とする、請求項1の音声認識方式。
  3. 【請求項3】 前記音響モデルを音素の離散型あるいは
    連続分布型隠れマルコフモデルとし、前記類似度を前記
    入力音声を入力とする隠れマルコフモデルの出力尤度と
    することを特徴とする、請求項1の音声認識方式。
JP5068330A 1993-03-26 1993-03-26 音声認識方法 Expired - Fee Related JPH0792676B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5068330A JPH0792676B2 (ja) 1993-03-26 1993-03-26 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5068330A JPH0792676B2 (ja) 1993-03-26 1993-03-26 音声認識方法

Publications (2)

Publication Number Publication Date
JPH06282292A true JPH06282292A (ja) 1994-10-07
JPH0792676B2 JPH0792676B2 (ja) 1995-10-09

Family

ID=13370720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5068330A Expired - Fee Related JPH0792676B2 (ja) 1993-03-26 1993-03-26 音声認識方法

Country Status (1)

Country Link
JP (1) JPH0792676B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
KR100574769B1 (ko) * 1998-04-30 2006-04-28 마쯔시다덴기산교 가부시키가이샤 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6170594A (ja) * 1984-09-14 1986-04-11 日立電子エンジニアリング株式会社 不特定話者音声認識方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6170594A (ja) * 1984-09-14 1986-04-11 日立電子エンジニアリング株式会社 不特定話者音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100574769B1 (ko) * 1998-04-30 2006-04-28 마쯔시다덴기산교 가부시키가이샤 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号

Also Published As

Publication number Publication date
JPH0792676B2 (ja) 1995-10-09

Similar Documents

Publication Publication Date Title
JP2733955B2 (ja) 適応型音声認識装置
JP3457431B2 (ja) 信号識別方法
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
JPH075892A (ja) 音声認識方法
EP1465154A2 (en) Method of speech recognition using variational inference with switching state space models
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
Rodríguez et al. Comparative study of the baum-welch and viterbi training algorithms applied to read and spontaneous speech recognition
US6934681B1 (en) Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients
EP1074019B1 (en) Adaptation of a speech recognizer for dialectal and linguistic domain variations
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP3589044B2 (ja) 話者適応化装置
JP2003330484A (ja) 音声認識装置及び音声認識方法
JP2545914B2 (ja) 音声認識方法
JP2003005785A (ja) 音源の分離方法および分離装置
JPH0486899A (ja) 標準パターン適応化方式
JPH06282292A (ja) 音声認識方式
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
EP2107554B1 (en) Generation of multilingual codebooks for speech recognition
Takahashi et al. Tied-structure HMM based on parameter correlation for efficient model training
JP2976795B2 (ja) 話者適応化方式
JPH06259089A (ja) 音声認識方法
JP3256979B2 (ja) 音響モデルの入力音声に対する尤度を求める方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960326

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees