JP3505967B2 - 適応型音声認識装置 - Google Patents

適応型音声認識装置

Info

Publication number
JP3505967B2
JP3505967B2 JP20577597A JP20577597A JP3505967B2 JP 3505967 B2 JP3505967 B2 JP 3505967B2 JP 20577597 A JP20577597 A JP 20577597A JP 20577597 A JP20577597 A JP 20577597A JP 3505967 B2 JP3505967 B2 JP 3505967B2
Authority
JP
Japan
Prior art keywords
acoustic model
model
voice
acoustic
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20577597A
Other languages
English (en)
Other versions
JPH1152978A (ja
Inventor
康成 大淵
明雄 天野
俊之 小高
信夫 畑岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP20577597A priority Critical patent/JP3505967B2/ja
Publication of JPH1152978A publication Critical patent/JPH1152978A/ja
Application granted granted Critical
Publication of JP3505967B2 publication Critical patent/JP3505967B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、あらかじめ使用者
が発声した音声をもとに、システムが保持している音響
モデルを修正することによって、その使用者に対する性
能を向上させることが可能な、音声認識装置に関する。
【0002】
【従来の技術】従来の適応型音声認識装置では、適応用
の入力音声をもとに、対応する音響モデルの修正を行な
った後、入力音声に対応しない音響モデルの修正を行な
う。その際、音響モデル相互の間の類似性をもとに、修
正された音響モデルの修正量から修正されていない音響
モデルの修正量を推定するという手法(大倉他、電子情
報通信学会論文誌、Vol.J76-D-II、 No.12、 pp.2469-2
476)が用いられていた。また、音響モデルをクラスタ
リングして木構造を作り、入力音声に対応しない音響モ
デルに対しては、同じ部分木に含まれる音響モデルのデ
ータを代用する方式(篠田、渡辺、電子情報通信学会論
文誌、Vol.J79-D-II、 No.12、 pp.2054-2061)が用い
られる場合もあった。
【0003】
【発明が解決しようとする課題】従来の方式では、入力
音声に対応する音響モデルと、入力音声に対応しない音
響モデルとの間の関係が、単に両者の間の類似度だけで
扱われてきたため、入力音声に対応しない音響モデルの
推定精度が不十分であった。また、音響モデルの推定量
の間の相互関係に関する記述も不十分であり、入力音声
に対応する音響モデルの推定量についても、他の音響モ
デルとの関係に基づく補正が十分にできていなかった。
本発明では、これらの推定に用いる情報の新しい利用方
法を示すことによって、より精度の高い推定が可能な音
声認識装置を実現する。
【0004】
【課題を解決するための手段】本発明においては、事前
に複数の使用環境における音声データを収集し、それぞ
れの状況で、音響モデルの修正量が相互にどのような関
係を持つかを学習し、その結果を事前知識として保持し
ておく。実際に使用する際には、まず少量の音声データ
を入力し、音響モデルの修正を行なった後、事前知識に
基づき、その他の音響モデルについても修正を行なう。
さらに、音響モデル相互間の修正量の関係に関する事前
知識に基づき、修正量を補正する。このような操作によ
って、精度の高い音響モデルを作成することができる。
【0005】
【発明の実施の形態】以下、図を用いて本発明の実施例
を説明する。
【0006】図1は、本発明を用いた適応型音声認識装
置の一実施例の構成を表わしている。装置は大きく分け
ると、事前学習部(102)、音響モデル適応部(10
4)、音声認識部(106)の三つの部分から成る。
【0007】事前学習部では、教師信号(108)と事
前学習用音声データ(110)の入力を適応後モデル作
成部(112)に送り、適応後モデル作成部では、それ
らの入力を、あらかじめ保持してあった適応前音響モデ
ル(114)と比較して、適応後音響モデルを作る。こ
の際、事前学習用音声データが十分に与えられる場合に
は、事前学習用音声データと教師信号のみから適応後音
響モデルを作っても良い。その後、適応後モデル作成部
は、適応後音響モデルと適応前音響モデルを比較し、音
響モデル修正量(115)を出力する。音響モデル修正
量は、事前知識抽出部(116)に送られ、事前知識の
抽出が行なわれる。抽出された事前知識は、事前知識保
持部(118)に送られて保持される。
【0008】音響モデル適応部では、実際に認識装置が
使われる環境で採取された適応用音声データ(122)
が入力される。適応用音声データとは、具体的に言う
と、認識用音声を発声するのと同じ人物による発声や、
認識用音声が採取されるのと同じ雑音環境で採取された
音声や、認識用音声が採取されるときに使われるものと
同じ機器によって収録された音声などのことである。さ
らに、教師信号(120)が一緒に入力される場合もあ
るが、常に必要というわけではない。これらの入力は、
適応実行部(124)に送られる。適応実行部では、こ
れらの入力と適応前音響モデルに基づき適応を実行し、
音響モデルを修正するが、それに加えて、事前知識保持
部から取り出した事前知識を利用して、修正量を補正す
る。こうして得られた結果は、適応後音響モデル(12
6)として保持される。
【0009】音声認識部では、入力された認識用音声デ
ータ(129)が、認識用単語辞書(128)と共に認
識実行部(130)に送られる。認識実行部では、これ
らを適応後音響モデルと比較照合することによって、認
識結果(132)を出力する。
【0010】図2は、適応後モデル作成部の動作の一例
を表わすブロック図である。入力された事前学習用音声
データ(202)は、音声分析部(204)で分析さ
れ、特徴ベクトルに変換された形で音声照合部(20
6)に送られる。また、教師信号(210)と適応前音
響モデル(214)は、モデル連結部(212)で連結
され、同じく音声照合部に送られる。音声照合部では、
両者を照合し、対応付けを取ってモデル更新部(20
8)に送る。モデル更新部では、対応するモデルの修正
を行ない、適応後音響モデル(216)を差分計算部
(218)に送る。差分計算部では、適応前音響モデル
と、適応後音響モデルを比較し、差分を取ることによっ
て、音響モデル修正量(220)を出力する。
【0011】図3は、事前知識抽出部の動作の一例を表
わすブロック図である。まず、各音響モデルに対する修
正量(302)が入力される。それをもとに、各モデル
に対してあらかじめ定めた個数の近傍モデルを選択する
(304)。選択の基準としては、音響モデル自身の類
似度、音響モデル修正量の類似度などの他に、後述する
誤差関数の値を小さくするようなモデルを選択すること
もできる。こうして個々の音響モデルに対して近傍モデ
ルが選択されたら、次に、これらの近傍モデルにおける
修正量の線形結合によって、もとの音響モデルの修正量
を近似する(306)。これを式で表現すると以下のよ
うになる。
【0012】
【数1】
【0013】ただし、左辺のVは近似したい音響モデル
の修正量であり、その番号をpで表わし、その第i成分を
沿字iで表わしている。同様に、右辺のVは近傍モデルの
修正量、Cは線形結合係数であり、その番号をqで、その
第i成分を沿字iで表わしている。また、Nは近傍モデル
の集合を表わし、kは近傍に含まれるモデルの個数であ
る。線形結合係数Cは、以下の式で表わされる誤差関数
の値を最小にするように求められる。
【0014】
【数2】
【0015】ただし、沿字sは異なる環境における音響
モデル修正量を表わしている。ひとつひとつの音響モデ
ルに対して、この式で表わされる誤差関数の値を求める
ことができ、これを最小化するような線形結合係数Cの
組をそれぞれのモデルに対して求めることができる。こ
うして得られた線形結合係数の組を、事前知識として出
力する。なお、上記のように表わされた誤差関数の最小
化は、この関数をCで微分したものの値が0になるとす
れば、簡単な行列演算で解くことができる。
【0016】図4は、適応実行部の動作の一例を表わす
ブロック図である。入力された適応用音声データ(40
2)は、音声分析部(404)で分析され、特徴ベクト
ルに変換された形で音声照合部(406)に送られる。
また、教師信号(410)と適応前音響モデル(41
4)は、モデル連結部(412)で連結され、同じく音
声照合部に送られる。音声照合部では、両者を照合し、
対応付けを取ってモデル更新部(408)に送る。モデ
ル更新部では、対応するモデルの修正を行ない、補正前
の適応後音響モデル(416)を出力する。この出力は
修正量補正部(418)に送られ、事前知識(420)
と組み合わせて補正される。補正には、例えば(数1)
などの式が用いられる。こうして補正された修正量に基
づき、補正後の適応後音響モデル(422)が作られ、
出力される。
【0017】図5は、認識実行部の動作の一例を表わす
ブロック図である。入力された認識用音声データ(50
2)は、音声分析部(504)で分析され、特徴ベクト
ルに変換された形で音声照合部(506)に送られる。
また、認識用単語辞書(510)と適応後音響モデル
(514)は、モデル連結部(512)で連結され、同
じく音声照合部に送られる。音声照合部では、両者を照
合した上で、個々の単語に対する照合結果の整合性を比
較し、最も適していると判断された単語を、認識結果
(508)として出力する。
【0018】
【発明の効果】適応型の音声認識装置においては、入力
音声によって適応されたモデルの修正量をもとに、入力
音声によって適応されないモデルをどのように修正する
かが問題である。これまでの方法では、適応されたモデ
ルと適応されないモデルをその場で比較し、その類似度
だけに基づいて修正を行なっていたが、本発明による方
法では、この関係を事前に学習して事前知識として保持
しておくことにより、より精度の高い修正を行ない、高
い認識率を持つ適応モデルを作成することが可能とな
る。
【図面の簡単な説明】
【図1】本発明の装置の構成図。
【図2】適応後モデル作成部の動作を表わすブロック
図。
【図3】事前知識抽出部の動作を表わすブロック図。
【図4】適応実行部の動作を表わすブロック図。
【図5】認識実行部の動作を表わすブロック図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 畑岡 信夫 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (56)参考文献 特開 平7−306690(JP,A) 大倉, 大西, 飯田,複数代表話者 の話者空間移動ベクトルに基づく不特定 話者HMMの話者適応化,電子情報通信 学会論文誌 D−II,日本,1996年 5月25日,Vol.J79−D−II, No.5,Pages 667−674 大淵, 天野, 小高, 畑岡,移動 ベクトルの相関に関する事前知識を利用 した話者適応,日本音響学会平成9年度 秋季研究発表会講演論文集,日本,1997 年 9月17日,1−1−12,Pages 23−24 大淵, 天野, 畑岡,事前知識を利 用した話者適応方式の改良と教師なし適 応への応用,日本音響学会平成10年度春 季研究発表会講演論文集,日本,1998年 3月17日,2−6−6,Pages 65−66 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】あらかじめ保持してある音響モデルと、入
    力音声との比較照合によって入力音声を認識する装置で
    あって、一定の入力音声をもとに、音響モデルを修正
    し、使用条件に適応した認識を行なう装置において、 入力音声に対応する音響モデルの修正量をもとに、入力
    音声に対応しない音響モデルの修正量を推定することを
    可能にする手段と、 入力音声に対応する音響モデルの修正量と、入力音声に
    対応しない音響モデルの修正量との間の関係を、事前に
    集められたデータから計算し、事前知識として保持して
    おくことを可能にする手段と、 を有することを特徴とする適応型音声認識装置。
  2. 【請求項2】個々の音響モデルの修正量の間の関係を、
    事前に集められたデータから計算し、事前知識として保
    持しておくことを可能にする手段と、上記 入力音声に対応する音響モデルと上記入力音声に対
    応しない音響モデル相互間の修正量の関係に関する事前
    知識をもとに、上記修正量を補正することを可能にする
    手段と、 を有することを特徴とする、請求項1記載の適応型音声
    認識装置。
  3. 【請求項3】個々の音響モデルの修正量の間の関係は、
    重み付き和の形で表わされ、それらの重み係数が事前知
    識として保持されることを特徴とする、請求項1もしく
    は請求項2記載の適応型音声認識装置。
JP20577597A 1997-07-31 1997-07-31 適応型音声認識装置 Expired - Fee Related JP3505967B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20577597A JP3505967B2 (ja) 1997-07-31 1997-07-31 適応型音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20577597A JP3505967B2 (ja) 1997-07-31 1997-07-31 適応型音声認識装置

Publications (2)

Publication Number Publication Date
JPH1152978A JPH1152978A (ja) 1999-02-26
JP3505967B2 true JP3505967B2 (ja) 2004-03-15

Family

ID=16512471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20577597A Expired - Fee Related JP3505967B2 (ja) 1997-07-31 1997-07-31 適応型音声認識装置

Country Status (1)

Country Link
JP (1) JP3505967B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4877113B2 (ja) * 2007-07-12 2012-02-15 ヤマハ株式会社 音響モデル処理装置およびプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
大倉, 大西, 飯田,複数代表話者の話者空間移動ベクトルに基づく不特定話者HMMの話者適応化,電子情報通信学会論文誌 D−II,日本,1996年 5月25日,Vol.J79−D−II, No.5,Pages 667−674
大淵, 天野, 小高, 畑岡,移動ベクトルの相関に関する事前知識を利用した話者適応,日本音響学会平成9年度秋季研究発表会講演論文集,日本,1997年 9月17日,1−1−12,Pages 23−24
大淵, 天野, 畑岡,事前知識を利用した話者適応方式の改良と教師なし適応への応用,日本音響学会平成10年度春季研究発表会講演論文集,日本,1998年 3月17日,2−6−6,Pages 65−66

Also Published As

Publication number Publication date
JPH1152978A (ja) 1999-02-26

Similar Documents

Publication Publication Date Title
Anastasakos et al. Speaker adaptive training: A maximum likelihood approach to speaker normalization
US6493667B1 (en) Enhanced likelihood computation using regression in a speech recognition system
US6343267B1 (en) Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
JP4217275B2 (ja) 個別話者に適応した音声認識のための方法及び装置
CA2652302C (en) Intersession variability compensation for automatic extraction of information from voice
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US6327565B1 (en) Speaker and environment adaptation based on eigenvoices
Friedland et al. The ICSI RT-09 speaker diarization system
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
US6263309B1 (en) Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6895376B2 (en) Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
JPH02238496A (ja) 音声認識装置
US6421641B1 (en) Methods and apparatus for fast adaptation of a band-quantized speech decoding system
Hazen A comparison of novel techniques for rapid speaker adaptation
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
KR100574769B1 (ko) 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP3505967B2 (ja) 適応型音声認識装置
JPH11143486A (ja) 話者適応装置および方法
JPH0486899A (ja) 標準パターン適応化方式
JP2003330484A (ja) 音声認識装置及び音声認識方法
Matsui et al. N-best-based instantaneous speaker adaptation method for speech recognition
JP2570448B2 (ja) 標準パターン学習方法
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3871774B2 (ja) 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031208

LAPS Cancellation because of no payment of annual fees