JP2570448B2 - 標準パターン学習方法 - Google Patents

標準パターン学習方法

Info

Publication number
JP2570448B2
JP2570448B2 JP1344214A JP34421489A JP2570448B2 JP 2570448 B2 JP2570448 B2 JP 2570448B2 JP 1344214 A JP1344214 A JP 1344214A JP 34421489 A JP34421489 A JP 34421489A JP 2570448 B2 JP2570448 B2 JP 2570448B2
Authority
JP
Japan
Prior art keywords
standard pattern
evaluation function
determined
standard
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1344214A
Other languages
English (en)
Other versions
JPH03200999A (ja
Inventor
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1344214A priority Critical patent/JP2570448B2/ja
Priority to CA002033311A priority patent/CA2033311C/en
Priority to EP90125726A priority patent/EP0435336B1/en
Priority to DE69030301T priority patent/DE69030301T2/de
Publication of JPH03200999A publication Critical patent/JPH03200999A/ja
Priority to US08/384,457 priority patent/US6275799B1/en
Application granted granted Critical
Publication of JP2570448B2 publication Critical patent/JP2570448B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、標準パターンとのパターンマッチングに基
づく音声認識において、各カテゴリの標準パターンを特
徴づける複数のパラメータを複数の学習用発声データを
基に決定する標準パターン学習方法に関する。
(従来の技術) 音声信号などの特徴ベクトルの時系列として表された
パターンを認識する方法として、隠れマルコフモデル
(以下HMMと略記する)が広く用いられている。HMMの詳
細に関しては「確率モデルによる音声認識」(電子情報
通信学会編、中川聖一著、1988年、以下文献1と略記す
る)に詳しく解説されている。HMMでは特徴ベクトル時
系列がマルコフ確率過程によって生成されたとしてモデ
ル化を行っている。HMMの標準パターンは複数の状態と
その状態間で遷移で表わされており、各状態はあらかじ
め決められた確率密度分布に従って特徴ベクトルを出力
し、状態間の遷移にはあらかじめ決められた遷移確率が
付随している。入力パターンと標準パターンの間の整合
度が表す尤度値は、標準パターンであるマルコフ確率モ
デルが入力パターンベルトル列を生成する確率によって
与えられる。各標準パターンを特徴づける状態間の遷移
確率と確率密度分布関数を規定するパラメータは複数の
学習用発声データを用いた「バーム・ウェルチ(Baum−
Welch)アルゴリズム」を用いて決定することができ
る。
しかし統計的な学習手法である「バーム・ウェルチ・
アルゴリズム」はモデルのパラメータを決めるために大
量の学習用データを必要とするため、新しい使用者の発
音の負担が非常に大きくなるという問題点を有してお
り、実用化の大きな障害になっている。そこで新しい使
用者の負担を低減する方策として、新しい話者の比較的
少量の発音を用いて認識装置を新しい話者に適応化させ
る話者適応方法がこれまでにもいくつか提案されてい
る。話者適応化方法の詳細に関しては「音声認識におけ
る話者適用化技術」(テレビジョン学会誌、古井負煕
著、Vol.43,No.9,1989,pp.929−934、以下文献2と略記
する)に解説されている。
話者適応化方法において最も重要な点は、新しい使用
者の適応化用の少量の発音には含まれていなかった音響
的事象を表すモデルのパラメータをどのように推定して
適応化するかという点である。これまでに提案されてい
る話者適応化方法は、基本的に特徴ベクトルの間の物理
的な距離を尺度として音響的事象の類似性を定義し、そ
の類似度に基づいて適応化用の発音には出現しなかった
音響的事象を表すモデルのパラメータを推定して、適応
化を行うことを特徴としている。
(発明が解決しようとする課題) 上記のようにこれまでに提案されている話者適応化方
法は、あらかじめ用意された標準パターンと新しい使用
者の適用化用発声データを用いて、基本的に特徴ベクト
ルの間の物理的な距離を尺度として音響的事象の類似性
を定義し、その類似度に基づいて適応化用の発音には出
現しなかった音響的事象を表すモデルのパラメータを推
定して、適応化を行うことを特徴としている。
しかしこのような物理的な距離だけに頼った推定に基
づく適応化では適応化前に比べて認識性能は向上する
が、十分な量の発声データから構成された特定話者の標
準パターンによる認識性能にはなかなか近づけないこと
が上記文献などに示された実験結果からも明かである。
本発明の目的は、新しい使用者が発音した少量の適用
化用発声データに加えて、あらかじめ多数の話者の大量
の発音から求めたすべての音響的事象の間の相互関係に
関する情報を用いることによって、特定話者の大量発声
データから作成された標準パターンに極めて近い、精度
の高い標準パターンの推定を可能にする標準パターン学
習方法を提供することにある。
(課題を解決するための手段) 本発明による第1の標準パターン学習方法は、標準パ
ターンとのパターンマッチングに基づく音声認識におい
て、各カテゴリの標準パターンを特徴づける第1のパラ
メータ集合を複数の学習用発声データから決定するに際
して、全学習用発声と対応する標準パターンの間の整合
性を表す第1の評価関数と、前記第1のパラメータ集合
の要素間の整合性を表す第2の評価関数との和で表され
る第3の評価関数を最大化あるいは極大化するように前
記第1のパラメータ集合を決定することを特徴とする。
本発明による第2の標準パターン学習方法は、前記第
1の標準パターン学習方法において、前記第2の評価関
数を特徴づける第2のパラメータ集合をあらかじめ用意
された複数の標準パターンに対する前記第2の評価関数
の総和を最大化あるいは極大化するように決定すること
を特徴とする。
本発明による第3の標準パターン学習方法は、標準パ
ターンとのパターンマッチングに基づく音声認識におい
て、各カテゴリの標準パターンを特徴づける第1のパラ
メータ集合を複数の学習用発声データから決定するに際
して、全学習用発声と対応する標準パターンの間の整合
性を表す第1の評価関数と、前記第1のパラメータ集合
の全要素の初期値からの修正量の間の整合性を表す第2
の評価関数との和で表される第3の評価関数を最大化あ
るいは極大化するように前記第1のパラメータ集合の全
要素の修正量を決定することを特徴とする。
本発明による第4の標準パターン学習方法は、前記第
3の標準パターン学習方法において、前記第2の評価関
数を特徴づける第2のパラメータ集合をあらかじめ用意
された複数の第1のパラメータ集合の全要素の修正量に
対する前記第2の評価関数の総和を最大化あるいは極大
化するように決定することを特徴とする。
(作用) 本発明は不特定話者に関する知識を利用した標準パタ
ーン学習方法であり、以下にその作用について詳しく述
べる。
各認識対称カテゴリの標準パターンはD次元のベクト
ルパラメータの集合で表されるとする。各標準パターン
は他に付加的なパラメータを有する場合も考えられ、以
下の説明はそれらのパラメータを含めた場合にも容易に
適用することができるが、記号が煩雑になるためにここ
では表記に含めないことにする。各標準パターンを構成
するベクトルパラメータの集合を、全標準パターンに関
して統合し、互いに異なるベクトルパラメータに通し番
号をつけ、第i番目のベクトルパラメータをμと記す
ことにする。このとき全ベクトルパラメータ(μ12,
…,μ)に関する学習の評価関数L(μ12,…,μ
)を次式で定義する。
L(μ1,…,μ)=L1(μ1,…,μ) +λL2(μ1,…,μ) (1) 上式において変数wは学習用の発声データを表し、w
に関する和は全学習用発声に関する和である。λは適当
な定数とする。L1(μ1,…,μ)は全学習用発声と対
応する標準パターンの間の整合性を表す尤度値である。
この値は認識方法としてHMMを用いた場合は各HMM標準パ
ターンが学習用発声を生成する対数尤度に対応し、DPマ
ッチング等を用いた場合にはパターン間距離の総和に対
応する。HMM、DPマッチングに関しては文献1に詳しく
解説されている。
L2(μ1,…,μ)は一般的にはすべてのベクトルパ
ラメータの間の整合性を表す尤度値であるが、表記を簡
単化するため以下ではベクトルパラメータμとμ
間の2点間の整合性を表す尤値度1nQ(μij(ij)
のすべてのベクトルパラメータの組(i,j)に関する総
和で表現できる場合を例として説明する。なお2点以上
の同時相関を考慮する場合へも以下の方法は直接適用す
ることができる。上式においてΛ(ij)は尤度値関数InQ
を規定する複数のパラメータを代表して表記したもので
ある。関数Qは確率変数(μi)の同時確率密度分
布関数などを対応させることができ、その具体的表式と
しては多次元のガウス分布などが考えられる。その場合
にはΛ(ij)はガウス分布の平均ベクトルと相関行列にな
る。
あらかじめ多数の話者の大量の発声から求めたすべて
の音響的事象の間の相互関係に関する情報は、このパラ
メータΛ(ij)によって表現することができる。次にその
一例を示す。多数の話者の大量の発声から、採用した認
識方法に対応する標準パターン作成法(HMMの場合はバ
ーム・ウェルチ法など、DPマッチグンの場合はクラスタ
リング法など)に従って構築した複数のベクトルパラメ
ータの組を とする。ここで上付き添字(k)は複数のベクトルパラ
メータを区別する添字で、たとえば各話者ごとに標準パ
ターンを作成した場合には話者の区別を示すことにな
る。このとき関数Q(μij(ij))を規定する複数
のパラメータΛ(ij)を、多数のデータ を用いて関数Qを最大化あるいは極大化するように推定
する。
関数Qとしては多次元ガウス分布を採用した場合には
その具体的な表式は次式で与えられる。
Q(μij(ij)) =Gauss(z(ij)−w(ij),R(ij)), (4) Λ(ij)={w(ij),R(ij)}, (6) この場合のパラメータΛ(ij)の推定は、M=2D次元の
多次元ガウス分布で表された確率変数μとμに対す
る同時確率密度分布関数の2D次元の平均ベクトルw(ij)
と2D行2D列の相関行列R(ij)を推定することに対応す
る。この推定値は多数の話者の大量の発音から構築され
た上述のK個(k=1…K)のベクトルパラメータの組 から次式で与えられる。
このような多数の話者の大量の発声データから音響的
事象の間の相互関係に関する情報を表すパラメータΛ
(ij)が決定されているときに、この情報を利用して新し
い使用者が発声した小量の適応化発声データから新しい
標準パターンを構成するベクトルパラメータμを決定
するためには式1で定義された学習の評価関数をμ
関して最大化あるいは極大化すればよい。このとき評価
関数のパラメータに上述のように決定されたΛ(ij)を用
いることによって不特定話者に関する知識を学習に反映
させることができる。
認識方法として状態のベクトル出力確率密度分布関数
を単一ガウス分布関数としたHMMを考え、関数Qとして
上記の多次元ガウス分布を採用すると、評価関数の極大
化は以下のように最急降下法に基づいて行うことができ
る。
このとき標準パターンを特徴づけるベクトルパターン
μをHMMの状態iのガウス分布の平均ベクトルとす
る。HMMに関する記号を文献1に示されているように次
式で定義する。
ここでP(w)は学習用の発声w(単語や文など)に
対するHMMの尤度で、α(i)の状態iの時刻tにお
ける前向き確率、β(i)は状態iの時刻tにおける
後ろ向き確率、aijは状態iと状態jの間の遷移確率、b
i(x)は状態iがベクトルxを出力する確率、パラメ
ータΣは状態iの共分散行列を表している。これらの
記号の意味に関しては文献1に記述されている。
式1の評価関数Lに関する最急降下法を行うために
は、Lのμによる導関数が必要になるが、その表式は
次式のように与えられる。
最急降下法においては全ベクトルパラメータを適当な
初期値からこの導関数に比例するように逐次更新してい
けばよい。ベクトルパラメータμi (n)の更新式は次式で
与えられる。
ここでnは逐次更新の繰り返し回数、εは定数、Σ
は導関数の次元を合わせるための共分散行列である。
以上においては請求項1および2の内容に関して説明
した。次に請求項3および4に関する説明に移る。この
場合も多数の話者の多量の発声データから構成された複
数のベクトルパラメータの組を とする。ここで上付き添字(k)は複数のベクトルパラ
メータを区別する添字で、たとえば各話者ごとに標準パ
ターンを作成した場合には話者の区別を示す。さらに何
らかの方法により作成された標準的なベクトルパラメー
タをi,(i=1…N)とする。これにはたとえば代表
的な話者の標準パターンなどを対応させることができ
る。このときk番目のベクトルパラメータ と標準的なベクトルパラメータの間の差ベクトルを
修正ベクトルΔのサンプルデータΔi (k)とする。
学習の評価関数は標準的なベクトルパラメータ
と、その新しい話者の標準パターンへの修正ベクトル
Δから次式のように定義する。
ここで学習の対象がベクトルパラメータ自身ではな
く、その修正ベクトルになっている点が、請求項1およ
び2の方法と異なっている。このとき多数の話者の多量
発声データから得られる情報を表すパラメータΛ
(ij)は、ベクトルパラメータμの修正ベトルΔとΔ
の間に整合性に関する知識を表現することになる。こ
のパラメータΛ(ij)の決定は上述の多数話者の多量発声
から得られたサンプルデータΔi (k)を用いて請求項2の
方法と同様に行うことができる。
新しい使用者に対する標準パターンの学習は、上式の
評価関数をすべての修正ベクトルに関して最小化あるい
は極小化して得られる修正ベクトルを、対応するベクト
ルパラメータに加えることによって行うことができる。
その具体的方法として請求項1および2に関する具体例
で示したような急降下法が考えられることは言うまでも
ない。
以上本作用においては認識方法としてHMMを具体的な
例として説明を行ったが本発明は標準パターンとのパタ
ーンマッチングに基づくその他の音声認識方法に対して
もまったく同様に適用することができることは言うまで
もない。
(実施例) 以下、本発明による実施例を図面を参照して説明す
る。第1図は本発明の請求項1の標準パターン学習方法
による標準パターン学習の流れを示すフローチャートで
ある。このフローチャートは認識方法として文献1に示
されているような単一ガウス分布HMMを用い、標準パタ
ーンを構成するベクトルパラメータの間の整合性を表す
尤度関数として多次元ガウス分布を採用した場合の例を
具体化したものである。これはちょうど作用の中で説明
した計算例に対応しており、変数などの表記はそこで与
えたものに従うことにする。以下処理の流れに沿って説
明する。
ステップ101は必要なパラメータの初期設定を行う。
設定されるパラメータはλ、ε、すべてのiおよびjに
関するμ、Σ、w(ij)、R(ij)である。ステップ102
と103はカウンターの初期設定を行う。
ステップ104から108は式13に従って、∂L1/∂Liを算
出している部分である。ステップ104はベクトルパラメ
ータμの第1の修正量δμ(1)の初期値を0に設定
している。ステップ105は学習用発生に関するカウンタ
ーの初期設定を行う。ステップ106では、HMMの場合式14
に従って計算される。ステップ107でカウンターを1増
やし、学習用発声の最大数Wまでステップ106の計算を
行う。
ステップ109から114は式15に従って、∂L2/∂μ
算出している部分である。ステップ109はベクトルパラ
メータμの第2の修正量δμ(2)の初期値を0に設
定している、ステップ110はカウンターの初期設定を行
う。ステップ111,112では、式15に従って第2の修正量
が累積される。ステップ113でカウンターを1増やし、
ベクトルパラメータの最大数Nまでステップ112の計算
を行う。
ステップ115は式16に従ってベクトルパラメータの修
正を行う。ステップ119はベクトルパラメータの最急降
下法による逐次修正の収束性を判定して、収束していな
ければステップ103に戻って、修正量の計算を続ける。
収束性の判定条件としては、逐次修正の回数nがある一
定数を越えたかどうかを調べて判定する条件や、評価関
数Lの改善量がある一定値を下回ったかどうかを調べて
判定する条件や、その組み合わせなどが用いられる。
第2図は本発明の請求項2の方法を用いて、多数の話
者の大量の発声からすべての音響的事象の間の相互関係
に関する情報を表すパラメータを決定するフローチャー
トを示したものである。このフローチャートは作用の中
で説明した具体例に対応して、標準パターンを構成する
ベクトルパラメータの間の整合性を表す尤度関数として
多次元ガウス分布を採用した場合を示しており、変数な
どの表記はそこで与えたものに従うことにする。この場
合は尤度数を最大にするパラメータΛ(ij)={w(ij),R
(ij)}は式9,10に従って直接計算することができる。以
下処理の流れに沿って説明する。ステップ201はあらか
じめ多数の話者の大量の発声データから決定された複数
の標準パターンの初期設定を行っている。ステップ202
から219は式9と10に従ってその平均値w(ij)と分散R
(ij)を算出している。
第3図は本発明の請求項3の標準パターン学習方法に
よる標準パターン学習のフローチャートを示すものであ
る。このフローチャートは認識方法として単一ガウス分
布HMMを用い、標準パターンを構成するベクトルパラメ
ータの修正量の間の整合性を多次元ガウス分布で表現し
た場合の例を示したものである。これはちょうど作用の
中で説明した計算例に対応しており、変数などの表記は
そこで与えたものに従うことにする。以下処理の流れに
沿って説明する。
ステップ301は必要なパラメータの初期設定を行う。
設定されるパラメータはλ、ε、すべてのiおよびjに
関する、Δ、Σ、w(ij)、R(ij)である。
多数の話者の大量の発声データからあらかじめ求められ
た代表的な標準パターンである。ステップ302から319ま
での処理は第1図においてベクトルパラメータμをそ
の修正量Δに置き換えたものと同じである。ステップ
320から323は、算出された修正ベクトルΔを代表的な
標準パターンを表すベクトルパラメータに加えるこ
とによって、新しい使用者の最適な標準パターンへの変
換を行っている。
ここでベクトルパラメータの修正量の間の整合性を表
す尤度関数を規定するパラメータw(ij)とR(ij)は、本発
明の請求項4の方法に従って多数の話者の大量の発声デ
ータを用いて自動的に決定することができる。そして尤
度関数として多次元ガウス分布を採用した場合には実施
例の第2図のフローチャートに示した方法においてμを
Δに置き換えることによってまったく同様にして、パラ
メータの最適値を算出することができる。
(発明の効果) 以上に述べたように本発明によれば、新しい使用者が
発声した少量の適用化用発声データに加えて、あらかじ
め多数の話者の大量の発声から求めておいたすべての音
響的事象の間の相互関係に関する情報を用いることによ
って、特定話者の大量発声データから作成された標準パ
ターンに極めて近い、精度の高い標準パターンの推定を
可能にする標準パターン学習方法を提供することができ
る。
【図面の簡単な説明】
第1図は本発明の請求項1による標準パターン学習方法
によって新しい使用者の少量の発声データから標準パタ
ーンを自動作成するためのフローチャートを示す図、第
2図は本発明の請求項2による方法によって標準パター
ンを構成するベクトルパラメータの間の整合性を表す尤
度関数を規定するパラメータを、多数の話者の大量の発
声データから自動決定するためのフローチャートを示す
図、第3図は本発明の請求項3による標準パターン学習
方法によって新しい使用者の少量の発声データから標準
パターンを自動作成するためのフローチャートを示す図
である。

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】標準パターンとのパターンマッチングに基
    づく音声認識において、各カテゴリの標準パターンを特
    徴づける第1のパラメータ集合を複数の学習用発声デー
    タから決定するに際して、全学習用発声と対応する標準
    パターンの間の整合性を表す第1の評価関数と、前記第
    1のパラメータ集合の要素間の整合性を表す第2の評価
    関数との和で表される第3の評価関数を最大化あるいは
    極大化するように前記第1のパラメータ集合を決定する
    ことを特徴とする標準パターン学習方法。
  2. 【請求項2】請求項1記載の標準パターン学習方法にお
    いて、前記第2の評価関数を特徴づける第2のパラメー
    タ集合をあらかじめ用意された複数の標準パターンに対
    する前記第2の評価関数の総和を最大化あるいは極大化
    するように決定することを特徴とする標準パターン学習
    方法。
  3. 【請求項3】標準パターンとのパターンマッチングに基
    づく音声認識において、各カテゴリの標準パターンを特
    徴づける第1のパラメータ集合を複数の学習用発声デー
    タから決定するに際して、全学習用発声と対応する標準
    パターンの間の整合性を表す第1の評価関数と、前記第
    1のパラメータ集合の全要素の初期値からの修正量の間
    の整合性を表す第2の評価関数との和で表される第3の
    評価関数を最大化あるいは極大化するように前記第1の
    パラメータ集合の全要素の修正量を決定することを特徴
    とする標準パターン学習方法。
  4. 【請求項4】請求項3記載の標準パターン学習方法にお
    いて、前記第2の評価関数を特徴づける第2のパラメー
    タ集合をあらかじめ用意された複数の第1のパラメータ
    集合の全要素の修正量に対する前記第2の評価関数の総
    和を最大化あるいは極大化するように決定することを特
    徴とする標準パターン学習方法。
JP1344214A 1989-12-28 1989-12-28 標準パターン学習方法 Expired - Fee Related JP2570448B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP1344214A JP2570448B2 (ja) 1989-12-28 1989-12-28 標準パターン学習方法
CA002033311A CA2033311C (en) 1989-12-28 1990-12-27 Reference pattern learning system
EP90125726A EP0435336B1 (en) 1989-12-28 1990-12-28 Reference pattern learning system
DE69030301T DE69030301T2 (de) 1989-12-28 1990-12-28 System zur Erzeugung von Referenzmustern
US08/384,457 US6275799B1 (en) 1989-12-28 1995-02-02 Reference pattern learning system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1344214A JP2570448B2 (ja) 1989-12-28 1989-12-28 標準パターン学習方法

Publications (2)

Publication Number Publication Date
JPH03200999A JPH03200999A (ja) 1991-09-02
JP2570448B2 true JP2570448B2 (ja) 1997-01-08

Family

ID=18367515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1344214A Expired - Fee Related JP2570448B2 (ja) 1989-12-28 1989-12-28 標準パターン学習方法

Country Status (5)

Country Link
US (1) US6275799B1 (ja)
EP (1) EP0435336B1 (ja)
JP (1) JP2570448B2 (ja)
CA (1) CA2033311C (ja)
DE (1) DE69030301T2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3077943B2 (ja) * 1990-11-29 2000-08-21 シャープ株式会社 信号符号化装置
EP0559349B1 (en) * 1992-03-02 1999-01-07 AT&T Corp. Training method and apparatus for speech recognition
DE10022586A1 (de) 2000-05-09 2001-11-22 Siemens Ag Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
US7243071B1 (en) 2003-01-16 2007-07-10 Comverse, Inc. Speech-recognition grammar analysis
JP2006170949A (ja) * 2004-12-20 2006-06-29 Fujitsu Ltd ビットパターン学習プログラムおよびビットパターン学習方法
US9129602B1 (en) * 2012-12-14 2015-09-08 Amazon Technologies, Inc. Mimicking user speech patterns

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
JPS572099A (en) * 1980-06-05 1982-01-07 Tokyo Shibaura Electric Co Voice recognizing device
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
JPS5842098A (ja) * 1981-09-04 1983-03-11 電子計算機基本技術研究組合 音声認識装置
JPS5879300A (ja) * 1981-11-06 1983-05-13 日本電気株式会社 パタ−ン距離計算方式
JPS58129684A (ja) * 1982-01-29 1983-08-02 Toshiba Corp パタ−ン認識装置
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
JPS6273391A (ja) * 1985-09-27 1987-04-04 Toshiba Corp パタ−ン認識学習装置
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
US4918731A (en) * 1987-07-17 1990-04-17 Ricoh Company, Ltd. Speech recognition method and apparatus
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
US5293451A (en) * 1990-10-23 1994-03-08 International Business Machines Corporation Method and apparatus for generating models of spoken words based on a small number of utterances
US5479523A (en) * 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
テレビジョン学会誌Vol.43,No.9,P.929〜934(平成元年)

Also Published As

Publication number Publication date
JPH03200999A (ja) 1991-09-02
CA2033311C (en) 1995-05-30
EP0435336A2 (en) 1991-07-03
US6275799B1 (en) 2001-08-14
EP0435336B1 (en) 1997-03-26
DE69030301T2 (de) 1997-10-09
EP0435336A3 (en) 1993-05-12
DE69030301D1 (de) 1997-04-30

Similar Documents

Publication Publication Date Title
JP3053711B2 (ja) 音声認識装置およびそのトレーニング方法ならびに装置
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
EP0966736B1 (en) Method for discriminative training of speech recognition models
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
WO1998040876A9 (en) Speech recognition system employing discriminatively trained models
JP2001195084A (ja) 音声認識のための文脈依存モデルの作成方法
US6725196B2 (en) Pattern matching method and apparatus
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
US6934681B1 (en) Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients
WO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US6173076B1 (en) Speech recognition pattern adaptation system using tree scheme
JP2570448B2 (ja) 標準パターン学習方法
US6226610B1 (en) DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point
McDermott et al. A derivation of minimum classification error from the theoretical classification risk using Parzen estimation
McDermott et al. Prototype-based discriminative training for various speech units
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2852298B2 (ja) 標準パターン適応化方式
JPH11184491A (ja) 音声認識装置
JP3589044B2 (ja) 話者適応化装置
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JPH09258783A (ja) 音声認識装置
JP3368989B2 (ja) 音声認識方法
JP3044741B2 (ja) 標準パターン学習方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees