JP3505967B2 - 適応型音声認識装置 - Google Patents
適応型音声認識装置Info
- Publication number
- JP3505967B2 JP3505967B2 JP20577597A JP20577597A JP3505967B2 JP 3505967 B2 JP3505967 B2 JP 3505967B2 JP 20577597 A JP20577597 A JP 20577597A JP 20577597 A JP20577597 A JP 20577597A JP 3505967 B2 JP3505967 B2 JP 3505967B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- model
- voice
- acoustic
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【発明の属する技術分野】本発明は、あらかじめ使用者
が発声した音声をもとに、システムが保持している音響
モデルを修正することによって、その使用者に対する性
能を向上させることが可能な、音声認識装置に関する。
が発声した音声をもとに、システムが保持している音響
モデルを修正することによって、その使用者に対する性
能を向上させることが可能な、音声認識装置に関する。
【0002】
【従来の技術】従来の適応型音声認識装置では、適応用
の入力音声をもとに、対応する音響モデルの修正を行な
った後、入力音声に対応しない音響モデルの修正を行な
う。その際、音響モデル相互の間の類似性をもとに、修
正された音響モデルの修正量から修正されていない音響
モデルの修正量を推定するという手法(大倉他、電子情
報通信学会論文誌、Vol.J76-D-II、 No.12、 pp.2469-2
476)が用いられていた。また、音響モデルをクラスタ
リングして木構造を作り、入力音声に対応しない音響モ
デルに対しては、同じ部分木に含まれる音響モデルのデ
ータを代用する方式(篠田、渡辺、電子情報通信学会論
文誌、Vol.J79-D-II、 No.12、 pp.2054-2061)が用い
られる場合もあった。
の入力音声をもとに、対応する音響モデルの修正を行な
った後、入力音声に対応しない音響モデルの修正を行な
う。その際、音響モデル相互の間の類似性をもとに、修
正された音響モデルの修正量から修正されていない音響
モデルの修正量を推定するという手法(大倉他、電子情
報通信学会論文誌、Vol.J76-D-II、 No.12、 pp.2469-2
476)が用いられていた。また、音響モデルをクラスタ
リングして木構造を作り、入力音声に対応しない音響モ
デルに対しては、同じ部分木に含まれる音響モデルのデ
ータを代用する方式(篠田、渡辺、電子情報通信学会論
文誌、Vol.J79-D-II、 No.12、 pp.2054-2061)が用い
られる場合もあった。
【0003】
【発明が解決しようとする課題】従来の方式では、入力
音声に対応する音響モデルと、入力音声に対応しない音
響モデルとの間の関係が、単に両者の間の類似度だけで
扱われてきたため、入力音声に対応しない音響モデルの
推定精度が不十分であった。また、音響モデルの推定量
の間の相互関係に関する記述も不十分であり、入力音声
に対応する音響モデルの推定量についても、他の音響モ
デルとの関係に基づく補正が十分にできていなかった。
本発明では、これらの推定に用いる情報の新しい利用方
法を示すことによって、より精度の高い推定が可能な音
声認識装置を実現する。
音声に対応する音響モデルと、入力音声に対応しない音
響モデルとの間の関係が、単に両者の間の類似度だけで
扱われてきたため、入力音声に対応しない音響モデルの
推定精度が不十分であった。また、音響モデルの推定量
の間の相互関係に関する記述も不十分であり、入力音声
に対応する音響モデルの推定量についても、他の音響モ
デルとの関係に基づく補正が十分にできていなかった。
本発明では、これらの推定に用いる情報の新しい利用方
法を示すことによって、より精度の高い推定が可能な音
声認識装置を実現する。
【0004】
【課題を解決するための手段】本発明においては、事前
に複数の使用環境における音声データを収集し、それぞ
れの状況で、音響モデルの修正量が相互にどのような関
係を持つかを学習し、その結果を事前知識として保持し
ておく。実際に使用する際には、まず少量の音声データ
を入力し、音響モデルの修正を行なった後、事前知識に
基づき、その他の音響モデルについても修正を行なう。
さらに、音響モデル相互間の修正量の関係に関する事前
知識に基づき、修正量を補正する。このような操作によ
って、精度の高い音響モデルを作成することができる。
に複数の使用環境における音声データを収集し、それぞ
れの状況で、音響モデルの修正量が相互にどのような関
係を持つかを学習し、その結果を事前知識として保持し
ておく。実際に使用する際には、まず少量の音声データ
を入力し、音響モデルの修正を行なった後、事前知識に
基づき、その他の音響モデルについても修正を行なう。
さらに、音響モデル相互間の修正量の関係に関する事前
知識に基づき、修正量を補正する。このような操作によ
って、精度の高い音響モデルを作成することができる。
【0005】
【発明の実施の形態】以下、図を用いて本発明の実施例
を説明する。
を説明する。
【0006】図1は、本発明を用いた適応型音声認識装
置の一実施例の構成を表わしている。装置は大きく分け
ると、事前学習部(102)、音響モデル適応部(10
4)、音声認識部(106)の三つの部分から成る。
置の一実施例の構成を表わしている。装置は大きく分け
ると、事前学習部(102)、音響モデル適応部(10
4)、音声認識部(106)の三つの部分から成る。
【0007】事前学習部では、教師信号(108)と事
前学習用音声データ(110)の入力を適応後モデル作
成部(112)に送り、適応後モデル作成部では、それ
らの入力を、あらかじめ保持してあった適応前音響モデ
ル(114)と比較して、適応後音響モデルを作る。こ
の際、事前学習用音声データが十分に与えられる場合に
は、事前学習用音声データと教師信号のみから適応後音
響モデルを作っても良い。その後、適応後モデル作成部
は、適応後音響モデルと適応前音響モデルを比較し、音
響モデル修正量(115)を出力する。音響モデル修正
量は、事前知識抽出部(116)に送られ、事前知識の
抽出が行なわれる。抽出された事前知識は、事前知識保
持部(118)に送られて保持される。
前学習用音声データ(110)の入力を適応後モデル作
成部(112)に送り、適応後モデル作成部では、それ
らの入力を、あらかじめ保持してあった適応前音響モデ
ル(114)と比較して、適応後音響モデルを作る。こ
の際、事前学習用音声データが十分に与えられる場合に
は、事前学習用音声データと教師信号のみから適応後音
響モデルを作っても良い。その後、適応後モデル作成部
は、適応後音響モデルと適応前音響モデルを比較し、音
響モデル修正量(115)を出力する。音響モデル修正
量は、事前知識抽出部(116)に送られ、事前知識の
抽出が行なわれる。抽出された事前知識は、事前知識保
持部(118)に送られて保持される。
【0008】音響モデル適応部では、実際に認識装置が
使われる環境で採取された適応用音声データ(122)
が入力される。適応用音声データとは、具体的に言う
と、認識用音声を発声するのと同じ人物による発声や、
認識用音声が採取されるのと同じ雑音環境で採取された
音声や、認識用音声が採取されるときに使われるものと
同じ機器によって収録された音声などのことである。さ
らに、教師信号(120)が一緒に入力される場合もあ
るが、常に必要というわけではない。これらの入力は、
適応実行部(124)に送られる。適応実行部では、こ
れらの入力と適応前音響モデルに基づき適応を実行し、
音響モデルを修正するが、それに加えて、事前知識保持
部から取り出した事前知識を利用して、修正量を補正す
る。こうして得られた結果は、適応後音響モデル(12
6)として保持される。
使われる環境で採取された適応用音声データ(122)
が入力される。適応用音声データとは、具体的に言う
と、認識用音声を発声するのと同じ人物による発声や、
認識用音声が採取されるのと同じ雑音環境で採取された
音声や、認識用音声が採取されるときに使われるものと
同じ機器によって収録された音声などのことである。さ
らに、教師信号(120)が一緒に入力される場合もあ
るが、常に必要というわけではない。これらの入力は、
適応実行部(124)に送られる。適応実行部では、こ
れらの入力と適応前音響モデルに基づき適応を実行し、
音響モデルを修正するが、それに加えて、事前知識保持
部から取り出した事前知識を利用して、修正量を補正す
る。こうして得られた結果は、適応後音響モデル(12
6)として保持される。
【0009】音声認識部では、入力された認識用音声デ
ータ(129)が、認識用単語辞書(128)と共に認
識実行部(130)に送られる。認識実行部では、これ
らを適応後音響モデルと比較照合することによって、認
識結果(132)を出力する。
ータ(129)が、認識用単語辞書(128)と共に認
識実行部(130)に送られる。認識実行部では、これ
らを適応後音響モデルと比較照合することによって、認
識結果(132)を出力する。
【0010】図2は、適応後モデル作成部の動作の一例
を表わすブロック図である。入力された事前学習用音声
データ(202)は、音声分析部(204)で分析さ
れ、特徴ベクトルに変換された形で音声照合部(20
6)に送られる。また、教師信号(210)と適応前音
響モデル(214)は、モデル連結部(212)で連結
され、同じく音声照合部に送られる。音声照合部では、
両者を照合し、対応付けを取ってモデル更新部(20
8)に送る。モデル更新部では、対応するモデルの修正
を行ない、適応後音響モデル(216)を差分計算部
(218)に送る。差分計算部では、適応前音響モデル
と、適応後音響モデルを比較し、差分を取ることによっ
て、音響モデル修正量(220)を出力する。
を表わすブロック図である。入力された事前学習用音声
データ(202)は、音声分析部(204)で分析さ
れ、特徴ベクトルに変換された形で音声照合部(20
6)に送られる。また、教師信号(210)と適応前音
響モデル(214)は、モデル連結部(212)で連結
され、同じく音声照合部に送られる。音声照合部では、
両者を照合し、対応付けを取ってモデル更新部(20
8)に送る。モデル更新部では、対応するモデルの修正
を行ない、適応後音響モデル(216)を差分計算部
(218)に送る。差分計算部では、適応前音響モデル
と、適応後音響モデルを比較し、差分を取ることによっ
て、音響モデル修正量(220)を出力する。
【0011】図3は、事前知識抽出部の動作の一例を表
わすブロック図である。まず、各音響モデルに対する修
正量(302)が入力される。それをもとに、各モデル
に対してあらかじめ定めた個数の近傍モデルを選択する
(304)。選択の基準としては、音響モデル自身の類
似度、音響モデル修正量の類似度などの他に、後述する
誤差関数の値を小さくするようなモデルを選択すること
もできる。こうして個々の音響モデルに対して近傍モデ
ルが選択されたら、次に、これらの近傍モデルにおける
修正量の線形結合によって、もとの音響モデルの修正量
を近似する(306)。これを式で表現すると以下のよ
うになる。
わすブロック図である。まず、各音響モデルに対する修
正量(302)が入力される。それをもとに、各モデル
に対してあらかじめ定めた個数の近傍モデルを選択する
(304)。選択の基準としては、音響モデル自身の類
似度、音響モデル修正量の類似度などの他に、後述する
誤差関数の値を小さくするようなモデルを選択すること
もできる。こうして個々の音響モデルに対して近傍モデ
ルが選択されたら、次に、これらの近傍モデルにおける
修正量の線形結合によって、もとの音響モデルの修正量
を近似する(306)。これを式で表現すると以下のよ
うになる。
【0012】
【数1】
【0013】ただし、左辺のVは近似したい音響モデル
の修正量であり、その番号をpで表わし、その第i成分を
沿字iで表わしている。同様に、右辺のVは近傍モデルの
修正量、Cは線形結合係数であり、その番号をqで、その
第i成分を沿字iで表わしている。また、Nは近傍モデル
の集合を表わし、kは近傍に含まれるモデルの個数であ
る。線形結合係数Cは、以下の式で表わされる誤差関数
の値を最小にするように求められる。
の修正量であり、その番号をpで表わし、その第i成分を
沿字iで表わしている。同様に、右辺のVは近傍モデルの
修正量、Cは線形結合係数であり、その番号をqで、その
第i成分を沿字iで表わしている。また、Nは近傍モデル
の集合を表わし、kは近傍に含まれるモデルの個数であ
る。線形結合係数Cは、以下の式で表わされる誤差関数
の値を最小にするように求められる。
【0014】
【数2】
【0015】ただし、沿字sは異なる環境における音響
モデル修正量を表わしている。ひとつひとつの音響モデ
ルに対して、この式で表わされる誤差関数の値を求める
ことができ、これを最小化するような線形結合係数Cの
組をそれぞれのモデルに対して求めることができる。こ
うして得られた線形結合係数の組を、事前知識として出
力する。なお、上記のように表わされた誤差関数の最小
化は、この関数をCで微分したものの値が0になるとす
れば、簡単な行列演算で解くことができる。
モデル修正量を表わしている。ひとつひとつの音響モデ
ルに対して、この式で表わされる誤差関数の値を求める
ことができ、これを最小化するような線形結合係数Cの
組をそれぞれのモデルに対して求めることができる。こ
うして得られた線形結合係数の組を、事前知識として出
力する。なお、上記のように表わされた誤差関数の最小
化は、この関数をCで微分したものの値が0になるとす
れば、簡単な行列演算で解くことができる。
【0016】図4は、適応実行部の動作の一例を表わす
ブロック図である。入力された適応用音声データ(40
2)は、音声分析部(404)で分析され、特徴ベクト
ルに変換された形で音声照合部(406)に送られる。
また、教師信号(410)と適応前音響モデル(41
4)は、モデル連結部(412)で連結され、同じく音
声照合部に送られる。音声照合部では、両者を照合し、
対応付けを取ってモデル更新部(408)に送る。モデ
ル更新部では、対応するモデルの修正を行ない、補正前
の適応後音響モデル(416)を出力する。この出力は
修正量補正部(418)に送られ、事前知識(420)
と組み合わせて補正される。補正には、例えば(数1)
などの式が用いられる。こうして補正された修正量に基
づき、補正後の適応後音響モデル(422)が作られ、
出力される。
ブロック図である。入力された適応用音声データ(40
2)は、音声分析部(404)で分析され、特徴ベクト
ルに変換された形で音声照合部(406)に送られる。
また、教師信号(410)と適応前音響モデル(41
4)は、モデル連結部(412)で連結され、同じく音
声照合部に送られる。音声照合部では、両者を照合し、
対応付けを取ってモデル更新部(408)に送る。モデ
ル更新部では、対応するモデルの修正を行ない、補正前
の適応後音響モデル(416)を出力する。この出力は
修正量補正部(418)に送られ、事前知識(420)
と組み合わせて補正される。補正には、例えば(数1)
などの式が用いられる。こうして補正された修正量に基
づき、補正後の適応後音響モデル(422)が作られ、
出力される。
【0017】図5は、認識実行部の動作の一例を表わす
ブロック図である。入力された認識用音声データ(50
2)は、音声分析部(504)で分析され、特徴ベクト
ルに変換された形で音声照合部(506)に送られる。
また、認識用単語辞書(510)と適応後音響モデル
(514)は、モデル連結部(512)で連結され、同
じく音声照合部に送られる。音声照合部では、両者を照
合した上で、個々の単語に対する照合結果の整合性を比
較し、最も適していると判断された単語を、認識結果
(508)として出力する。
ブロック図である。入力された認識用音声データ(50
2)は、音声分析部(504)で分析され、特徴ベクト
ルに変換された形で音声照合部(506)に送られる。
また、認識用単語辞書(510)と適応後音響モデル
(514)は、モデル連結部(512)で連結され、同
じく音声照合部に送られる。音声照合部では、両者を照
合した上で、個々の単語に対する照合結果の整合性を比
較し、最も適していると判断された単語を、認識結果
(508)として出力する。
【0018】
【発明の効果】適応型の音声認識装置においては、入力
音声によって適応されたモデルの修正量をもとに、入力
音声によって適応されないモデルをどのように修正する
かが問題である。これまでの方法では、適応されたモデ
ルと適応されないモデルをその場で比較し、その類似度
だけに基づいて修正を行なっていたが、本発明による方
法では、この関係を事前に学習して事前知識として保持
しておくことにより、より精度の高い修正を行ない、高
い認識率を持つ適応モデルを作成することが可能とな
る。
音声によって適応されたモデルの修正量をもとに、入力
音声によって適応されないモデルをどのように修正する
かが問題である。これまでの方法では、適応されたモデ
ルと適応されないモデルをその場で比較し、その類似度
だけに基づいて修正を行なっていたが、本発明による方
法では、この関係を事前に学習して事前知識として保持
しておくことにより、より精度の高い修正を行ない、高
い認識率を持つ適応モデルを作成することが可能とな
る。
【図1】本発明の装置の構成図。
【図2】適応後モデル作成部の動作を表わすブロック
図。
図。
【図3】事前知識抽出部の動作を表わすブロック図。
【図4】適応実行部の動作を表わすブロック図。
【図5】認識実行部の動作を表わすブロック図。
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 畑岡 信夫
東京都国分寺市東恋ケ窪一丁目280番地
株式会社日立製作所中央研究所内
(56)参考文献 特開 平7−306690(JP,A)
大倉, 大西, 飯田,複数代表話者
の話者空間移動ベクトルに基づく不特定
話者HMMの話者適応化,電子情報通信
学会論文誌 D−II,日本,1996年
5月25日,Vol.J79−D−II,
No.5,Pages 667−674
大淵, 天野, 小高, 畑岡,移動
ベクトルの相関に関する事前知識を利用
した話者適応,日本音響学会平成9年度
秋季研究発表会講演論文集,日本,1997
年 9月17日,1−1−12,Pages
23−24
大淵, 天野, 畑岡,事前知識を利
用した話者適応方式の改良と教師なし適
応への応用,日本音響学会平成10年度春
季研究発表会講演論文集,日本,1998年
3月17日,2−6−6,Pages
65−66
(58)調査した分野(Int.Cl.7,DB名)
G10L 15/06
JICSTファイル(JOIS)
Claims (3)
- 【請求項1】あらかじめ保持してある音響モデルと、入
力音声との比較照合によって入力音声を認識する装置で
あって、一定の入力音声をもとに、音響モデルを修正
し、使用条件に適応した認識を行なう装置において、 入力音声に対応する音響モデルの修正量をもとに、入力
音声に対応しない音響モデルの修正量を推定することを
可能にする手段と、 入力音声に対応する音響モデルの修正量と、入力音声に
対応しない音響モデルの修正量との間の関係を、事前に
集められたデータから計算し、事前知識として保持して
おくことを可能にする手段と、 を有することを特徴とする適応型音声認識装置。 - 【請求項2】個々の音響モデルの修正量の間の関係を、
事前に集められたデータから計算し、事前知識として保
持しておくことを可能にする手段と、上記 入力音声に対応する音響モデルと上記入力音声に対
応しない音響モデル相互間の修正量の関係に関する事前
知識をもとに、上記修正量を補正することを可能にする
手段と、 を有することを特徴とする、請求項1記載の適応型音声
認識装置。 - 【請求項3】個々の音響モデルの修正量の間の関係は、
重み付き和の形で表わされ、それらの重み係数が事前知
識として保持されることを特徴とする、請求項1もしく
は請求項2記載の適応型音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20577597A JP3505967B2 (ja) | 1997-07-31 | 1997-07-31 | 適応型音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20577597A JP3505967B2 (ja) | 1997-07-31 | 1997-07-31 | 適応型音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1152978A JPH1152978A (ja) | 1999-02-26 |
JP3505967B2 true JP3505967B2 (ja) | 2004-03-15 |
Family
ID=16512471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20577597A Expired - Fee Related JP3505967B2 (ja) | 1997-07-31 | 1997-07-31 | 適応型音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3505967B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4877113B2 (ja) * | 2007-07-12 | 2012-02-15 | ヤマハ株式会社 | 音響モデル処理装置およびプログラム |
-
1997
- 1997-07-31 JP JP20577597A patent/JP3505967B2/ja not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
大倉, 大西, 飯田,複数代表話者の話者空間移動ベクトルに基づく不特定話者HMMの話者適応化,電子情報通信学会論文誌 D−II,日本,1996年 5月25日,Vol.J79−D−II, No.5,Pages 667−674 |
大淵, 天野, 小高, 畑岡,移動ベクトルの相関に関する事前知識を利用した話者適応,日本音響学会平成9年度秋季研究発表会講演論文集,日本,1997年 9月17日,1−1−12,Pages 23−24 |
大淵, 天野, 畑岡,事前知識を利用した話者適応方式の改良と教師なし適応への応用,日本音響学会平成10年度春季研究発表会講演論文集,日本,1998年 3月17日,2−6−6,Pages 65−66 |
Also Published As
Publication number | Publication date |
---|---|
JPH1152978A (ja) | 1999-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anastasakos et al. | Speaker adaptive training: A maximum likelihood approach to speaker normalization | |
US6493667B1 (en) | Enhanced likelihood computation using regression in a speech recognition system | |
US6343267B1 (en) | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques | |
JP4217275B2 (ja) | 個別話者に適応した音声認識のための方法及び装置 | |
CA2652302C (en) | Intersession variability compensation for automatic extraction of information from voice | |
US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
US6327565B1 (en) | Speaker and environment adaptation based on eigenvoices | |
Friedland et al. | The ICSI RT-09 speaker diarization system | |
US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
US6263309B1 (en) | Maximum likelihood method for finding an adapted speaker model in eigenvoice space | |
US6895376B2 (en) | Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification | |
JPH02238496A (ja) | 音声認識装置 | |
US6421641B1 (en) | Methods and apparatus for fast adaptation of a band-quantized speech decoding system | |
Hazen | A comparison of novel techniques for rapid speaker adaptation | |
JP3092491B2 (ja) | 記述長最小基準を用いたパターン適応化方式 | |
KR100574769B1 (ko) | 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP3505967B2 (ja) | 適応型音声認識装置 | |
JPH11143486A (ja) | 話者適応装置および方法 | |
JPH0486899A (ja) | 標準パターン適応化方式 | |
JP2003330484A (ja) | 音声認識装置及び音声認識方法 | |
Matsui et al. | N-best-based instantaneous speaker adaptation method for speech recognition | |
JP2570448B2 (ja) | 標準パターン学習方法 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP3871774B2 (ja) | 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20031208 |
|
LAPS | Cancellation because of no payment of annual fees |