JP2000267691A - 音声認識システムにおける認識辞書選択方法 - Google Patents

音声認識システムにおける認識辞書選択方法

Info

Publication number
JP2000267691A
JP2000267691A JP11075426A JP7542699A JP2000267691A JP 2000267691 A JP2000267691 A JP 2000267691A JP 11075426 A JP11075426 A JP 11075426A JP 7542699 A JP7542699 A JP 7542699A JP 2000267691 A JP2000267691 A JP 2000267691A
Authority
JP
Japan
Prior art keywords
dictionary
word
frames
recognition
stat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11075426A
Other languages
English (en)
Inventor
Shintaro Murakami
伸太郎 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP11075426A priority Critical patent/JP2000267691A/ja
Publication of JP2000267691A publication Critical patent/JP2000267691A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 話者の発声速度に応じて、辞書を適宜選択す
ることによって、音声認識の性能の向上を図ったもので
ある。 【解決手段】 音声認識システムのマッチング部から認
識結果として出力された単語または単語列を単語または
単語列抽出手段1で抽出する。この抽出手段1で抽出さ
れた単語または単語列について、ワードスポットされた
フレーム数aと、標準の発声速度に対応した標準辞書内
のフレーム数bとが比較判定手段2で比較判定される。
この比較判定手段2での比較判定の結果の出力は、辞書
切替選択手段3に供給される。この辞書切替選択手段3
は、フレーム数aがフレーム数bより一定以上大きい
か、小さいかにより、次段の発声速度の遅い辞書格納手
段4と発声速度の速い辞書格納手段5の中から適切な辞
書を選択する。両辞書格納手段4、5は、それぞれ複数
の辞書から構成され、選択された辞書は音声認識時に使
用される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音素認識部を前
段に持つ連続単語音声認識システムにおける認識辞書選
択方法に関する。
【0002】
【従来の技術】音声認識装置の一例として図3に示す離
散単語音声認識システムがある。このシステムは、図3
に示すように、電話やマイクロフォンなどの音声入力装
置11から音声データが音声入力部12に入力される。
この音声入力部12に入力された音声データは、特徴抽
出部13に供給され、ここで、音声データは周波数分析
される。この周波数分析の結果からスペクトル列を得
て、このスペクトル列が音素認識部14に入力される。
音素認識部14は、出力を二重化したニューラルネット
ワーク(図示省略)によって構成されている。
【0003】上記ニューラルネットワークは入力層、隠
れ層、出力層からなり、入力層に例えば、1時刻毎に5
フレームのスペクトルが入力され、それの中央のスペク
トルに該当する音素がどれであるかを、出力層のユニッ
トの値によって送出する。出力ユニットは、二重化され
ているため、各音素カテゴリ毎にユニットは2個づつ対
応づけられている。それに対して結果は、最大の出力値
を示すものから2つのユニットを選び、それが対応する
音素を第1位、第2位音素候補として得る。
【0004】その認識された音素候補列と、認識させた
い語彙の音素パターンを持たせた辞書テンプレート15
との類似度は、DP(Dynamic Programming)法によって
マッチング部16でマッチングされる。そして、最も類
似する単語又は単語列を認識結果としてマッチング部1
6から出力する。
【0005】ここで、一般的な連続単語認識アルゴリズ
ムの概要について述べる。いま、単語の接続条件(文
法)が、図4に示す有限状態オートマトンで記述されて
いるとする。これは認識単語数、単語間の接続等を制限
する働きがある。入力パターンを音素認識した結果 T=
{a(1),a(2),a(3),……a(t)}(フレーム数t)の、第iフ
レームから第jフレーム{ai,……,aj}と、辞書単語テン
プレートn={b(1),b(2),……,bN(n)}とのDPマッチング距
離をdist[n][i][j]と書く(N(n):テンプレートnの長
さ)。dist[n][i][j]はDPマッチングなどにより求めら
れる。この値はワードスポット値とも呼ばれる。また、
iをワードスポット始端、jをワードスポット終端と呼
ぶことにする。
【0006】なお、図4は2桁数字を処理するオートマ
トンの例(状態数=3)である。2桁数字の場合、状態
1に遷移する時に2桁目を状態1から状態2に遷移する
ときに1桁目を出力する。それ以外の遷移(状態0から
状態2など)では2桁数字は出力されない。
【0007】今、状態数stat numのオートマトン、入力
音素フレーム数len obj(つまり、t=len obj)、辞書単
語数word numの場合を考える。オートマトン状態stat,
入力音素の第kフレームまでのマッチング累積距離frm s
cr[stat][k]を求めたいとすると(0<=stat<last stat,0<
=k<last frm)、それは次の式(1)のようになる。
【0008】 frm scr[stat][k]=min{frm scr[from stat][m]+dist[n][m+1][k]}…(1) ただし、状態pから単語nを生成して状態qへ遷移でき
ることを f(p,n)=q ……(2) と表すと、from statとnは、0<n<word num,f(from sta
t,n)=statを満たすようなもの、また、0<m<kであり(実
際にはmの範囲は計算量などの関係からさらに制限され
る)、minは、from stat,n,mを、その範囲内で動かした
ときの最小を取ることを示す。
【0009】上記式(1)、(2)を満たすfrom stat,
n,mをそれぞれ、frm stt[stat][k],frm tpl[stat][k],
frm frm[stat][k](stt:状態、tpl:テンプレート、frm:
フレーム)とする。このような手順を、0<=k<len obj,0
<=stat<stat numについて求める。実際のプログラムで
は、次のような処理を行うのが一般的である。
【0010】まず、第kフレームにおける累積距離のア
ルゴリズムについて述べる。
【0011】すべての状態stat(0<=stat<stat num)に
ついて、次の以下を実行 すべての辞書単語n(0<=n<word num)について、次の
以下を実行 累積距離scr=min{frm scr[from stat][m]+dist[n][m+
1][k]}を求める。ここで、minは、m,from statだけを動
かしたときの最小値を示す。また、from statは、上記
式(2)を満たすものである。
【0012】frm scr[stat][k]>scrならば、を実行
する。
【0013】frm scr[stat][k]=scr,frm tpl[stat]
[k]=n,frm frm[stat][k]=(を満たすm),frm stt[stat]
[k]=(を満たすfrom stat) 図5に上記累積距離のアルゴリズム(入力第jフレー
ム)のフローチャートを示す。図5において、ステップ
S1で上記の処理を実行した後、ステップS2の処理
を実行する。ステップS2は上記の処理を実行する。
ステップS2の処理が実行されたなら、上記の処理を
ステップS3で実行する。その後、ステップS4で上記
の判断を実行し、「yes」なら上記におけるステッ
プS5の処理を実行し、「no」ならステップS6の処理
に進む。ステップS5の実行が終了したなら、辞書単語
テンプレートnが、辞書単語数word numより大きいかを
ステップS6で判断する。この判断の結果「yes」な
ら、ステップS7でオートマトン状態statが状態数stat
numより大きいかを判断し、「yes」なら累積距離計算
を終了する。なお、ステップS6、7で「no」ならステ
ップS3とステップS2の処理に戻る。
【0014】その後、次のようにしてバックトレースを
行い、認識単語列を得る。なお、バックトレースのアル
ゴリズムは次のように行われる。
【0015】 k=len obj,stat=stat num(len obj:入
力フレーム数、stat num:有限状態オートマトンの終状
態の番号) frm tpl[stat][k]を認識結果として出力し、その
後、k= frm frm[stat][k] ,stat=frm stt[stat][k]と
する。
【0016】 k=0なら終了、それ以外なら上記
へ。
【0017】図6に上記バックトレースのアルゴリズム
のフローチャートを示す。図6において、ステップS1
で入力フレーム数と有限状態オートマトンの終状態の番
号を設定した後、ステップS2でオートマトン状態sta
t、入力音素の第kフレームまでのテンプレートtplを認
識結果として出力する。その後、ステップS3でオート
マトン状態stat、入力音素の第kフレームまでのフレー
ムをkおよびオートマトン状態stat、入力音素の第kフ
レームまでの状態をstatとする。そして、ステップS4
でk=0なら処理を終了し、それ以外ならステップS2の
処理に戻る。
【0018】
【発明が解決しようとする課題】上述した図3に示す離
散単語音声認識システムにおいて、話者の音声を認識す
る際に、話者によっては発声の速度が大きく異なってく
る。このため、辞書テンプレート15の認識用の辞書を
固定して使用した場合、ある話者によっては、辞書の単
語長が長すぎたり、別の話者によっては、短すぎたりす
ることがある。このとき、DPマッチング計算用のパス
の内、図7(2)に示すような。傾斜制限のあるDPパ
スをワードスポット計算時に使用すると、入力音素列と
辞書の音素列の対応が大きくなり、マッチング部16で
のマッチングがうまく働かなくなって音声認識の性能が
低下する問題がある。
【0019】この発明は上記の事情に鑑みてなされたも
ので、話者の発声速度に応じて、辞書を適宜選択するこ
とによって、音声認識の性能の向上を図った音声認識シ
ステムにおける認識辞書選択方法を提供することを課題
とする。
【0020】
【課題を解決するための手段】この発明は、上記の課題
を達成するために、第1発明は、音声入力部に入力され
た音声データを特徴抽出部により周波数分析してスペク
トル列を得、そのスペクトル列を音素認識部に入力し
て、その出力に音素列を得、その音素列をマッチング部
に供給して辞書テンプレートとマッチングさせる際に、
入力音素と辞書テンプレートとのマッチング距離の入力
音素のnフレームまでの累積距離を求めた後、最も類似
する単語または単語列を認識結果として出力するように
した音声認識システムにおいて、あらかじめ、発声速度
に対応した複数の辞書と標準の発声速度に対応した標準
認識辞書とを用意しておき、前記単語または単語列につ
いて、ワードスポットされたフレーム数と、標準認識辞
書内でのフレーム数とを比較し、その比較の結果に応じ
て、前記複数の辞書から最適な辞書を選択して、音声認
識に使用することを特徴とするものである。
【0021】第2発明は、前記比較の結果、ワードスポ
ットされたフレーム数が一定以上大きいときには、発声
速度の遅い辞書を、逆のときには、発声速度の速い辞書
を選択することを特徴とするものである。
【0022】第3発明は、前記発声速度の遅い辞書及び
発声速度の速い辞書は、順次発声速度を遅くまたは速く
した複数の辞書からなることを特徴とするものである。
【0023】
【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図1はこの発明の実施の第1形態
を示す工程説明図で、図1において、1は、図3に示す
音声認識システムのマッチング部16から認識結果とし
て出力された単語または単語列を抽出する単語または単
語列抽出手段である。この抽出手段1で抽出された単語
または単語列について、ワードスポットされたフレーム
数aと、標準の発声速度に対応した標準辞書内のフレー
ム数bとが比較判定手段2で比較判定される。この比較
判定手段2での比較判定の結果の出力は、辞書切替選択
手段3に供給される。この辞書切替選択手段3は、フレ
ーム数aがフレーム数bより一定以上大きいか、小さい
かにより、次段の発声速度の遅い辞書格納手段4と発声
速度の速い辞書格納手段5の中から適切な辞書を選択す
る機能がある。
【0024】両辞書格納手段4、5は、それぞれ複数の
辞書から構成され、例えば、発声速度が順次遅くなるよ
うに設定された第1〜第n辞書と、発声速度が順次速く
なるように設定された第1〜第n辞書とから構成されて
いる。選択された辞書は以降の音声認識時に使用され
る。
【0025】次に、上記第1形態の動作説明を図2に示
すフローチャートにより述べるに、フローチャートに示
した変数を以下のように定義する。その他の変数は前述
したものと同様である。
【0026】dict len[word]:単語wordの、現在の辞書
における音素フレーム数 parameter big:発声速度の遅さを判定するパラメータ parameter small:発声速度の速さを判定するパラメー
タ cntr big:発声の遅い場合のカウンタ cntr small:発声の速い場合のカウンタ 図2はバックトレース時の処理のフローチャートで、図
2において、まず、cntr small=cntr big=0を設定す
る。
【0027】次に、S1は、k=len obj、stat=stat num
(len obj:入力フレーム数、stat num:有限状態オートマ
トンの終状態の番号)を設定処理するステップで、入力
フレーム数をkに、有限状態オートマトンの終状態の番
号をstatにする。その後、ステップS2でオートマトン
状態stat、入力音素の第kフレームまでのテンプレートt
plをwordとした処理を行ってそれを認識結果として出力
する。ステップS3は、 spot len=k-frm frm[stat]
[k]を計算するステップで、その後、計算の結果をステ
ップS4の判断処理に与えてステップS4の処理を行
う。判断処理の後、k=frm frm[stat][k]、stat=frm stt
[stat][k]とする。
【0028】ステップS4は、次式が成立するかを判断
する。
【0029】 spot len>dict len[word] ×parameter big? この式で「yes」なら発声の遅いカウンタcntr big++処
理を行って発声速度の遅い辞書を選択する。その後、ス
テップS6で、k=frm frm[stat][k]、stat=frmstt[sta
t][k]の処理を行って、第kフレームがk<=0である
かをステップS7で判断処理する。ステップS7で「n
o」ならステップS2から再び処理を行い、「yes」なら
処理が進む。
【0030】ここで、前記ステップS4で前記式が成立
しない、すなわち「no」ならステップS8の判断処理を
行う。ステップS8は、次式の判断処理を行う。
【0031】 spot len<dict len[word] ×parameter small? この式で「yes」なら発声の速いカウンタcntr small++
処理を行って発声速度の速い辞書を選択する。その後、
ステップS8で「no」である場合の出力とともに、ステ
ップS6の処理を行った後に、第kフレームがk<=0
であるかをステップS7で判断処理する。ステップS7
の処理は上述と同様に行われ、「yes」ならステップS
10で、「cntr big−cntr small>0」の判断処理を行
って、「yes」なら、さらに1段階発声速度の遅い辞書
を選択するように処理を変更して終了する。
【0032】ステップS10で「no」ならステップS1
1で「cntr small−cntr big>0」の判断処理を行う。
このステップS11の判断処理で「yes」なら、さらに
1段階発声速度の速い辞書を選択するように処理を変更
して終了する。なお、ステップS11で「no」の場合に
は、辞書の変更を行わないで処理を終了する。
【0033】上記のように、話者の発声速度に応じて、
辞書を適宜選択することにより、特にDPパスに傾斜制
限がある場合に認識性能が著しく向上する。
【0034】
【発明の効果】以上述べたように、この発明によれば、
話者の発声速度に応じて、辞書を適宜選択することによ
って、音声認識の性能の向上を図ることができる利点が
ある。
【図面の簡単な説明】
【図1】この発明の実施の第1形態を示す工程説明図。
【図2】第1形態のバックトレースアルゴリズムを示す
フローチャート。
【図3】離散単語音声認識システムのブロック構成図。
【図4】有限状態オートマトンの説明図。
【図5】一般的な累積計算部のアルゴリズムを示すフロ
ーチャート。
【図6】バックトレースアルゴリズムを示すフローチャ
ート。
【図7】DPマッチング計算用パスの特性図。
【符号の説明】
1…単語または単語列抽出手段 2…比較判定手段 3…辞書切替選択手段 4…発声速度の遅い辞書格納手段 5…発声速度の速い辞書格納手段 11…音声入力装置 12…音声入力部 13…特徴抽出部 14…音素認識部 15…辞書テンプレート 16…マッチング部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声入力部に入力された音声データを特
    徴抽出部により周波数分析してスペクトル列を得、その
    スペクトル列を音素認識部に入力して、その出力に音素
    列を得、その音素列をマッチング部に供給して辞書テン
    プレートとマッチングさせる際に、入力音素と辞書テン
    プレートとのマッチング距離の入力音素のnフレームま
    での累積距離を求めた後、最も類似する単語または単語
    列を認識結果として出力するようにした音声認識システ
    ムにおいて、 あらかじめ、発声速度に対応した複数の辞書と標準の発
    声速度に対応した標準認識辞書とを用意しておき、前記
    単語または単語列について、ワードスポットされたフレ
    ーム数と、標準認識辞書内でのフレーム数とを比較し、
    その比較の結果に応じて、前記複数の辞書から最適な辞
    書を選択して、音声認識に使用することを特徴とする音
    声認識システムにおける認識辞書選択方法。
  2. 【請求項2】 前記比較の結果、ワードスポットされた
    フレーム数が一定以上大きいときには、発声速度の遅い
    辞書を、逆のときには、発声速度の速い辞書を選択する
    ことを特徴とする請求項1記載の音声認識システムにお
    ける認識辞書選択方法。
  3. 【請求項3】 前記発声速度の遅い辞書及び発声速度の
    速い辞書は、順次発声速度を遅くまたは速くした複数の
    辞書からなることを特徴とする請求項2に記載の音声認
    識システムにおける認識辞書選択方法。
JP11075426A 1999-03-19 1999-03-19 音声認識システムにおける認識辞書選択方法 Pending JP2000267691A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11075426A JP2000267691A (ja) 1999-03-19 1999-03-19 音声認識システムにおける認識辞書選択方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11075426A JP2000267691A (ja) 1999-03-19 1999-03-19 音声認識システムにおける認識辞書選択方法

Publications (1)

Publication Number Publication Date
JP2000267691A true JP2000267691A (ja) 2000-09-29

Family

ID=13575882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11075426A Pending JP2000267691A (ja) 1999-03-19 1999-03-19 音声認識システムにおける認識辞書選択方法

Country Status (1)

Country Link
JP (1) JP2000267691A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100933895B1 (ko) * 2009-04-27 2009-12-28 주식회사 예스피치 음성 분할 인식 장치 및 방법
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer
JP7400112B2 (ja) 2020-01-17 2023-12-18 グーグル エルエルシー 自動音声認識のための英数字列のバイアス付加

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100933895B1 (ko) * 2009-04-27 2009-12-28 주식회사 예스피치 음성 분할 인식 장치 및 방법
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer
JP7400112B2 (ja) 2020-01-17 2023-12-18 グーグル エルエルシー 自動音声認識のための英数字列のバイアス付加
US11942091B2 (en) 2020-01-17 2024-03-26 Google Llc Alphanumeric sequence biasing for automatic speech recognition using a grammar and a speller finite state transducer

Similar Documents

Publication Publication Date Title
JP3453456B2 (ja) 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
US7299179B2 (en) Three-stage individual word recognition
Xue et al. Online end-to-end neural diarization with speaker-tracing buffer
JPH0422276B2 (ja)
Zhang et al. Improved context-dependent acoustic modeling for continuous Chinese speech recognition
JP2000267691A (ja) 音声認識システムにおける認識辞書選択方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP3437492B2 (ja) 音声認識方法及び装置
JP2880436B2 (ja) 音声認識装置
JP3315565B2 (ja) 音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH11311994A (ja) 情報処理装置および方法、並びに提供媒体
JPH0997095A (ja) 音声認識装置
JPH10143190A (ja) 音声認識装置
Ariff et al. Malay speaker recognition system based on discrete HMM
JPH07230295A (ja) 話者適応化方式
JP3105708B2 (ja) 音声認識装置
JPH11175088A (ja) 音声認識システムにおける音素認識計算処理削減方法
JP3254933B2 (ja) 音声認識方法
JPH11237893A (ja) 音声認識システムにおける音素認識方法
JPH03149598A (ja) 音声認識装置
JP2986703B2 (ja) 音声認識装置