JP3289670B2 - 音声認識方法および音声認識装置 - Google Patents
音声認識方法および音声認識装置Info
- Publication number
- JP3289670B2 JP3289670B2 JP06279098A JP6279098A JP3289670B2 JP 3289670 B2 JP3289670 B2 JP 3289670B2 JP 06279098 A JP06279098 A JP 06279098A JP 6279098 A JP6279098 A JP 6279098A JP 3289670 B2 JP3289670 B2 JP 3289670B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- standard pattern
- word
- frame
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
する音声認識方法および音声認識装置に関する。
した場合、例え同じ語彙発声しても、喉頭、舌、唇など
で構成される調音器官の特性が個人ごとによって異なる
ため、音声信号を音響分析した結果得られる音響パラメ
ータは、人ごとの調音器官の特性に依存して、微妙な差
が生じる。これを音声信号の個人性と呼ぶ。多くの音声
認識装置では、識別のための特徴量パラメータとして、
調音器官の特性の影響を受けやすい、音響パラメータを
用いている。不特定話者用音声認識装置の標準パターン
は、不特定多数の話者が発声した音声信号から学習され
た音響パラメータの平均値から構成されるため、調音器
官の特性が著しく平均的な特性から異なる話者に対して
は、認識性能が低下してしまうという問題がある。そこ
で、従来、こうした話者の個人性に基づく問題を対処す
るためには、話者の発声した音声信号から、不特定話者
標準パターンをその話者に適した値に適応することで、
音声認識装置に話者適応機能をもたせて、認識性能を維
持する方法がとられてきた。こうした、話者の個人性に
基づく認識率低下を防ぐ話者適応方式としては、特開平
8−22296号公報に記載されたものが知られてい
る。このような、話者の個人性にもとづく認識率の低下
に対して標準パターンを話者適応学習することで対処す
る従来法の一例の構成を、図3に示す。
部301において、音響パラメータ系列に変換される。
音響パラメータとしては、例えば中川著、「確率モデル
による音声認識」、電子情報通信学会(昭和63年)に
あげられている、LPCケプストラム係数、LPCメル
ケプストラム係数などが用いられる。話者適応時、単語
辞書303は、話者学習用入力音声に対応した単語がい
かなる音声片から構成されるかを表す音声片情報を、不
特定話者用音声片標準パターン格納部304に送る。こ
こで、音声片の単位としては、後続の音素環境を考慮し
た音素バイグラム、あるいは、前後の音素環境を考慮し
た音素トライグラムなどが考えられる。不特定話者用音
声片標準パターン格納部304では、単語辞書303か
ら送られた音声片情報に基づき、音響パラメータから構
成される音声片標準パターンの接続により不特定話者用
単語標準パターンを作成し、パターンマッチング部30
2と音声片標準パターン適応部305に送る。パターン
マッチング部302では、入力音声から得られた音響パ
ラメータ時系列と、不特定話者単語標準パターンが時間
照合され、時間対応結果が算出される。パターンマッチ
ング部302での時間照合の方法としては、例えばDP
マッチング、HMM(Hidden Markov M
odel)などが利用される。話者適応時には、パター
ンマッチング部302から、入力音声の音響パラメータ
時系列と不特定話者用単語標準パターンの時間対応結果
と、入力音声の音響パラメータ時系列が、音声片標準パ
ターン適応部305に送られる。音声片標準パターン適
応部305では、入力音声の音響パラメータ時系列と単
語標準パターンの線形結合などの方法により、単語標準
パターンを特定話者用に適応する。適応後の単語標準パ
ータンは、音声片標準パターン適応部において音声片単
位に分割され、特定話者用音声片標準パターン格納部3
06に格納される。認識時には、特定話者用音声片標準
パターン格納部306に格納された特定話者用音声片標
準パターンを用いて特定話者用単語標準パターンを、単
語辞書303中全ての単語に対して構成し、パターンマ
ッチング部302にて、入力音声の音響パラメータ時系
列と時間照合計算を行い、最も照合スコアの高かった辞
書単語を最終的な認識結果として出力する。
ラメータで表される音声片標準パターンを、入力音声の
音響パラメータ時系列との時間照合により、特定話者用
に話者適応する従来の方法においては、認識対象となる
単語辞書の語彙が大きく、単語標準パターンを構成する
ために必要な音声片標準パターンの種類が大きい場合に
は、全ての語彙に対して話者適応学習済みの特定話者用
音声片標準パターンを用意するためには、話者適応学習
のために、大量の学習サンプル音声を話者が発声する必
要があり、全ての音声片標準パターンを学習するのに充
分な発声を行うことは話者に多大な負担をかけるという
課題があった。また、話者が膨大な話者適応学習用の発
声を行う場合にも、音声片標準パターンの格納に必要な
メモリー量が膨大な場合には、特定話者用の音声片標準
パターン用にさらに膨大なメモリー量を必要とすること
になり、音声認識装置自体に必要とされるメモリー量
が、大きくなってしまうという課題があった。さらに、
従来の方法において、限られた少量の話者適応学習音声
データから、発声外の音声片標準パターンを適応する場
合には、例えば電子通信情報学会 SP92−16(1
992年)に記載されたVFS(ベクトル場平滑化)な
どの工夫が必要となり、音声認識装置の構成が複雑にな
ってしまうという課題があった。
り、少ないメモリー量によって、少量の話者適応学習デ
ータでも効率的な話者適応を実現できる、高性能な音声
認識装置を提供することを目的とする。
法は、入力音声に対して分析時間毎にm個の特徴パラメ
ータ系列を求め、分析時間毎にn種類の音素標準パター
ンとマッチングを行い、分析時間毎に求めたn個の類似
度と、予め作成しておいた音素類似度の時系列で構成さ
れる単語標準パターンとマッチングすることにより単語
を認識する音声認識方法において、前記単語標準パター
ンから音素類似度が高いフレームを抽出しておき、入力
音声と単語標準パターンのマッチングで得られる時間対
応の結果から、単語標準パターンの音素類似度が高いフ
レームに対応した入力音声フレームを求め、このフレー
ムの入力音声の特徴パラメータを音素標準パターン学習
データとして抽出し、前記音素標準パターンと前記音素
標準パターン学習データとを統合し、新たな音素標準パ
ターンを作成するものである。
少数の話者適応学習データでも効率的な話者適応を実現
できる高性能な音声認識装置を提供することができる。
は、入力音声に対して分析時間毎にm個の特徴パラメー
タ系列を求め、分析時間毎にn種類の音素標準パターン
とマッチングを行い、分析時間毎に求めたn個の類似度
と、予め作成しておいた音素類似度の時系列で構成され
る単語標準パターンとマッチングすることにより単語を
認識する音声認識方法において、前記単語標準パターン
から音素類似度が高いフレームを抽出しておき、入力音
声と単語標準パターンのマッチングで得られる時間対応
の結果から、単語標準パターンの音素類似度が高いフレ
ームに対応した入力音声フレームを求め、このフレーム
の入力音声の特徴パラメータを音素標準パターン学習デ
ータとして抽出し、前記音素標準パターンと前記音素標
準パターン学習データとを統合し、新たな音素標準パタ
ーンを作成するもので、話者適応学習用音声データが少
量の場合にも、あるいは、話者適応機能の実現のために
多くのメモリー量もつことができない場合にも、音素標
準パターンと音響パラメータ時系列との照合によって得
られる音素類似度を単語パターンマッチング時の特徴量
パラメータとし、音素標準パターンの話者適応学習を行
うことにより、少ないメモリー量によって、少量の話者
適応学習データでも効率的な話者適応が可能になるとい
う作用を有する。
て分析時間毎にm個の特徴パラメータ系列を求め、分析
時間毎にn種類の音素標準パターンとマッチングを行
い、分析時間毎に求めたn個の類似度と、予め作成して
おいた音素類似度の時系列で構成される単語標準パター
ンとマッチングすることにより単語を認識する音声認識
装置において、前記単語標準パターンから音素類似度が
高いフレームを抽出する高音素類似度フレーム情報抽出
手段と、入力音声と単語標準パターンのマッチングで得
られる時間対応の結果から、単語標準パターンの音素類
似度が高いフレームに対応した入力音声フレームを求
め、このフレームの入力音声の特徴パラメータを音素標
準パターン学習データとして抽出する適応学習パターン
抽出手段と、前記音素標準パターンと前記音素標準パタ
ーン学習データとを統合し、新たな音素標準パターンを
作成する音素標準パターン適応手段とを具備するもの
で、話者適応学習用音声データが少量の場合にも、ある
いは、話者適応機能の実現のために多くのメモリー量も
つことができない場合にも、あるいは、話者適応機能の
実現のために音声認識装置の構成を複雑な構成にできな
い場合にも、音素標準パターンと音響パラメータ時系列
との照合によって得られる音素類似度を単語パターンマ
ッチング時の特徴量パラメータとし、音素標準パターン
の話者適応学習を行うことにより、少ないメモリー量に
よって、少量の話者適応学習データでも効率的な話者適
応が可能になるという作用を有する。
態について具体的に説明する。 (実施の形態)図1は、本発明の実施の形態による音声
認識装置のブロック構成図を示す。図1において、10
1は入力音声を分析時間毎に音響パラメータに変換する
音響分析部、102は音響分析部101で得られた音響
パラメータとあらかじめ用意された音素種ごとの不特定
話者用音素標準パターンと照合する音素類似度計算部、
103は得られた音響パラメータ時系列を格納する不特
定話者用音素標準パターン格納部、104は音素類似度
時系列を特徴量パラメータとして、単語標準パターンと
時間照合するパターンマッチング部、105は単語辞
書、106は単語辞書106から送られた音声片情報に
基づき、あらかじめ学習された音素類似度からなる音声
片標準パターンを接続する不特定話者用音声片標準パタ
ーン格納部、107は音素類似度時系列で構成される単
語標準パターンから、いずれかの音素に対する音素類似
度が高いフレームを抽出する高音素類似度フレーム情報
抽出部、108は単語標準パターン中の高音素類似度フ
レームに対応した入力音声フレーム近傍から話者適応学
習サンプルパターンを抽出する適応学習パターン抽出
部、109は音素標準パターンの話者学習を行う音素標
準パターン適応部、110は特定話者用音素標準パター
ンを格納した特定話者用音素標準パターン格納部であ
る。
作を以下に説明する。まず、話者適応時について説明す
る。
(フレームと呼ぶ、本実施例では1フレーム=10ms
ec)毎に、10次元のLPCケプストラム系列、パワ
ーの時間差分、正規化残差の、合計12次元の音響パラ
メータに変換する。
01で得られた音響パラメータ時系列と、あらかじめ不
特定話者用音素標準パターン格納部103に格納され
た、音素種ごとに用意された不特定話者用音素標準パタ
ーンと照合する。ここで音素は、日本語の一般的な定義
に従い{a、o、u、i、e、z、s、hv、hu、
p、t、k、c、b,d、N、j、w、yv、yu、
m、n、ng、r}の24音素分類を用いる。また、各
音素標準パターンは、音素毎に定義されたの特徴フレー
ム(その音素の特徴をよく表現する時間的位置)を目視
によって正確に検出し、この特徴フレームを中心とした
音響パラメータの時間パターンを使用して作成する。本
実施例では、時間パターンとして特徴フレームの近傍1
0フレーム分の音響パラメータによって計120次元
(音響パラメータ12次元×時間パターン10フレー
ム)のパターンを構成し、不特定多数の話者の発声デー
タから、あらかじめ音素標準パターンを学習しておく。
また、音素類似度は、共分散行列を共通化したマハラノ
ビス距離を用いて求める。
話者用音素標準パターンと照合した結果得られた音素類
似度時系列は、音素種の次元(本実施例では24次元)
をもち、単語パターンマッチング時の特徴量パラメータ
として、パターンマッチング部104に送られる。
対応した単語がいかなる音声片から構成されるかを表す
音声片情報を、音素類似度時系列で構成される不特定話
者用音声片標準パターンを格納する、不特定話者用音声
片標準パターン格納部106に送る。ここで、本実施例
においては、音声片の単位は、前後の音素環境を考慮し
たCV/VC単位で、536種類が存在する。
06では、単語辞書105から送られた音声片情報に基
づき、あらかじめ学習された音素類似度からなる音声片
標準パターンを接続し、単語標準パターンをパターンマ
ッチング部104と高音素類似度フレーム情報抽出部1
07に送る。
声から得られた音素類似度時系列と、単語標準パターン
がDPマッチングにより時間照合され、時間対応結果が
算出される。
は、音素類似度時系列で構成される単語標準パターンか
ら、いずれかの音素に対する音素類似度が高いフレーム
を抽出し、どの音素がどのフレームで高い音素類似度を
もつかを表す、高音素類似度フレーム情報として、適応
学習パターン抽出部108に送る。本実施例において
は、高音素類似度フレーム情報抽出部107では、24
音素に対するいずれかの音素類似度がしきい値Thより
高いフレームを全て高音素類似度フレームとした。ま
た、しきい値Thは実験により最適値を求めた。
単語標準パターン中の高音素類似度フレーム情報と、入
力音声と単語標準パターンの時間対応結果から、単語標
準パターン中の高音素類似度フレームに対応した入力音
声フレームが算出され、このフレーム近傍の入力音声の
音響パラメータパターンを話者適応学習サンプルパター
ンとして抽出し、音素標準パターン適応部109に送
る。
学習パターン抽出部108からの話者適応学習サンプル
パターンと、不特定話者用音素標準パターン格納部10
3からの不特定話者用音素標準パターンとから、特定話
者用音素標準パターンを算出し、特定話者用音素標準パ
ターン格納部110に格納する。本実施例においては、
特定話者用音素標準パターンの平均値(数1)が、
平均(数2)と、
3)の線形結合として、
最適値を用いる。
響分析部101は、入力音声を分析時間(フレームと呼
ぶ、本実施例では1フレーム=10msec)毎に、1
0次元のLPCケプストラム系列、パワーの時間差分、
正規化残差の、合計12次元の音響パラメータに変換す
る。音素類似度計算部102は、音響分析部101で得
られた音響パラメータ時系列と、特定話者用音素標準パ
ターン格納部110に格納された特定話者用音素標準パ
ターンを用いて音素類似度時系列を算出する。
者用音声片標準パターン格納部106からの単語標準パ
ターンと照合計算を行い、最も照合スコアの高い辞書単
語を最終的な認識結果として出力する。
を示す、音素類似度時系列の概念図であり、発声『ZA
MA(ざま)』における、音素/a/の音素類似度の時
間変化を示す。上段a)は、不特定話者用音声片標準パ
ターンを接続して作成した単語標準パターンの時間変
化、下段b)の点線は、入力音声と不特定話者用音素標
準パターン/a/とを照合して得られた音素類似度時系
列、下段b)の実線は、入力音声と適応後の特定話者音
素標準パターン/a/とを照合して得られた音素類似度
時系列である。単語標準パターン中の、高音素類似度フ
レームの一つであるフレーム(数5)は高い音素類似度
を持つ。
/a/との照合で得られる音素類似度時系列で、DPマ
ッチングにより(数5)に対応した入力フレーム(数
6)は、(数5)に比べて小さい類似度である。
定話者用音素標準パターン/a/との照合で得られた音
素類似度系列では、(数5)に対応した入力フレーム
(数7)では、(数5)同様、高い音素類似度を持ち、
本実施例による話者適応効果が確認できる。
語を発声した11名の音声データの認識実験を行った。
音素標準パターンの話者適応学習は、評価発声データと
は異なる20単語を用いて行った。11名の平均認識率
が、本実施例に基づく話者適応を行う前は93.2%で
あったのに対し、本実施例に基づく話者適応後は、9
6.1%に認識率が改善され、誤り率が約40%改善さ
れた。
グ時の特徴量パラメータである音素類似度の計算に、音
響パラメータの時間パタンを用い、距離尺度として共分
散行列を共通化したマハラノビス距離を用いたが、HM
Mから構成される音素モデルから音素類似度を計算する
こともできる。
単語としたが、これを連続発声を認識する際に利用する
ことも可能である。
響パラメータ時系列との照合によって得られる音素類似
度を単語パターンマッチング時の特徴量パラメータと
し、音素標準パターンの話者適応学習を行うことによ
り、少ないメモリー量によって、少量の話者適応学習デ
ータでも効率的な話者適応を実現できる、高性能な音声
認識装置を提供できるという効果を得る。
ロック構成図
す概念図
Claims (2)
- 【請求項1】 入力音声に対して分析時間毎にm個の特
徴パラメータ系列を求め、分析時間毎にn種類の音素標
準パターンとマッチングを行い、分析時間毎に求めたn
個の類似度と、予め作成しておいた音素類似度の時系列
で構成される単語標準パターンとマッチングすることに
より単語を認識する音声認識方法において、前記単語標
準パターンから音素類似度が高いフレームを抽出してお
き、入力音声と単語標準パターンのマッチングで得られ
る時間対応の結果から、単語標準パターンの音素類似度
が高いフレームに対応した入力音声フレームを求め、こ
のフレームの入力音声の特徴パラメータを音素標準パタ
ーン学習データとして抽出し、前記音素標準パターンと
前記音素標準パターン学習データとを統合し、新たな音
素標準パターンを作成することを特徴とする音声認識方
法。 - 【請求項2】 入力音声に対して分析時間毎にm個の特
徴パラメータ系列を求め、分析時間毎にn種類の音素標
準パターンとマッチングを行い、分析時間毎に求めたn
個の類似度と、予め作成しておいた音素類似度の時系列
で構成される単語標準パターンとマッチングすることに
より単語を認識する音声認識装置において、前記単語標
準パターンから音素類似度が高いフレームを抽出する高
音素類似度フレーム情報抽出手段と、入力音声と単語標
準パターンのマッチングで得られる時間対応の結果か
ら、単語標準パターンの音素類似度が高いフレームに対
応した入力音声フレームを求め、このフレームの入力音
声の特徴パラメータを音素標準パターン学習データとし
て抽出する適応学習パターン抽出手段と、前記音素標準
パターンと前記音素標準パターン学習データとを統合
し、新たな音素標準パターンを作成する音素標準パター
ン適応手段とを具備することを特徴とする音声認識装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06279098A JP3289670B2 (ja) | 1998-03-13 | 1998-03-13 | 音声認識方法および音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06279098A JP3289670B2 (ja) | 1998-03-13 | 1998-03-13 | 音声認識方法および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11259086A JPH11259086A (ja) | 1999-09-24 |
JP3289670B2 true JP3289670B2 (ja) | 2002-06-10 |
Family
ID=13210505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06279098A Expired - Lifetime JP3289670B2 (ja) | 1998-03-13 | 1998-03-13 | 音声認識方法および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3289670B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101904423B1 (ko) * | 2014-09-03 | 2018-11-28 | 삼성전자주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
CN111276127B (zh) * | 2020-03-31 | 2023-02-24 | 北京字节跳动网络技术有限公司 | 语音唤醒方法、装置、存储介质及电子设备 |
-
1998
- 1998-03-13 JP JP06279098A patent/JP3289670B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
日本音響学会研究発表会講演論文集 平成8年秋季▲I▼ 123−124ページ「音素環境の環境構造と特定話 |
Also Published As
Publication number | Publication date |
---|---|
JPH11259086A (ja) | 1999-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sukkar et al. | Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition | |
JP3114468B2 (ja) | 音声認識方法 | |
EP1269464B1 (en) | Discriminative training of hidden markov models for continuous speech recognition | |
EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
Vadwala et al. | Survey paper on different speech recognition algorithm: challenges and techniques | |
JP3444108B2 (ja) | 音声認識装置 | |
JP3289670B2 (ja) | 音声認識方法および音声認識装置 | |
Phyu et al. | Building Speaker Identification Dataset for Noisy Conditions | |
JP2943473B2 (ja) | 音声認識方法 | |
JP3277522B2 (ja) | 音声認識方法 | |
JP2943445B2 (ja) | 音声認識方法 | |
JP2879989B2 (ja) | 音声認識方法 | |
JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 | |
JP3115016B2 (ja) | 音声認識方法および装置 | |
JP3291073B2 (ja) | 音声認識方式 | |
JP2574557B2 (ja) | 音声認識方法 | |
JP2692382B2 (ja) | 音声認識方法 | |
JP3285047B2 (ja) | 不特定話者用音声認識装置 | |
JP2827590B2 (ja) | 音声認識装置 | |
JPH0455518B2 (ja) | ||
JPS6336678B2 (ja) | ||
JP3105708B2 (ja) | 音声認識装置 | |
JP3357752B2 (ja) | パターンマッチング装置 | |
JPH05323990A (ja) | 話者認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080322 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090322 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100322 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110322 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110322 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120322 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130322 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130322 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140322 Year of fee payment: 12 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |