JPH06289894A - 日本語音声認識方法 - Google Patents

日本語音声認識方法

Info

Publication number
JPH06289894A
JPH06289894A JP5073315A JP7331593A JPH06289894A JP H06289894 A JPH06289894 A JP H06289894A JP 5073315 A JP5073315 A JP 5073315A JP 7331593 A JP7331593 A JP 7331593A JP H06289894 A JPH06289894 A JP H06289894A
Authority
JP
Japan
Prior art keywords
likelihood
speech recognition
speech
recognition
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5073315A
Other languages
English (en)
Inventor
Toshiaki Tsuboi
俊明 坪井
Shoichi Matsunaga
昭一 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5073315A priority Critical patent/JPH06289894A/ja
Publication of JPH06289894A publication Critical patent/JPH06289894A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 処理時間を短縮させる。 【構成】 アイウエオ順に単語辞書を2分割することに
より共通の日本語の構文と文字音素変換規則からなる文
法を6a,6bに分けておき、入力音声を特徴抽出部2
で特徴パラメータの時系列に変換し、言語処理ユニット
3a,3bによりそれぞれ文法6a,6bを用いて、L
Rパーザを用いた音素推定処理により、複数の音声認識
候補を選出し、これら各候補について、入力音声特徴パ
ラメータの時系列と標準パターンメモリ4内の標準パタ
ーンと、複数のHMM音素認識ユニット7を用いて類似
尤度を求める。また上記音声認識候補の生起尤度をメモ
リ5の統計的言語モデル(文字トライグラム)より求
め、これら両類似尤度と生起尤度を加算して総合尤度を
求め、入力音声特徴パラメータ時系列についてソーティ
ング部8で総合尤度の高い順に複数認識結果として出力
する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、例えば隠れマルコフ
モデル(例えば、中川聖一「確率モデルによる音声認
識」電子情報通信学会編(1988))のような標準パ
ターンと、文法として用いる日本語の構文(例えば、北
他「HMM音韻認識と予測LRパーザを用いた文節認
識」電子情報通信学会技術報告、SP88−88(19
88))、及び日本語統計モデル(例えば、山田他「か
な漢字の文字連鎖情報を利用した統計的言語モデル」電
子情報通信学会技術報告、SP91−26(199
1))とを用いた日本語音声認識装置に関するものであ
る。
【0002】
【従来の技術】従来の隠れマルコフモデル等を用いた音
声認識装置の高速化の手法としては、一番処理量が多い
音声認識部(隠れマルコフモデルのような標準パターン
と入力音声の特徴パラメータ時系列との照合を行う)に
ついて処理ユニットを複数持ち、並列処理を行って処理
速度を向上させる方法が提案されている。
【0003】また日本語の構文、単語辞書、および文字
音素変換規則などからなる文法を用いて、文の最初に生
じる文字のすべてを音声認識候補として、これらについ
て、入力音声の特徴パラメータ時系列と標準パターンと
をそれぞれ照合して、その類似の尤度を求め、その尤度
の高い順に予め決めた複数の文字について、その次に来
る可能性のある文字を前記文法から求めて、これらを音
声認識候補として、同様に入力音声の特徴パラメータ時
系列と標準パターンとをそれぞれ照合して類似の尤度を
求めることを以下同様に繰返す。
【0004】このようなことを行うと同時に、テキスト
データベースより作成された生起順序に関する統計的言
語モデルを用いて、各音声認識候補について、それまで
の認識結果からその音声認識候補(文字)が発生する尤
度(生起尤度)を求め、この生起尤度と、その音声認識
候補の類似の尤度とを総合した尤度を求めることにより
認識率を高めることが提案されている。
【0005】
【発明が解決しようとする課題】しかしこのような文法
を用いた音声認識候補の選出と、統計的言語モデルを用
いた生起尤度とを求める言語処理は比較的処理量が多
く、処理時間が長くなる。例えば処理時間全体に対し、
HMM音素認識処理時間が68%、言語処理時間が27
%、その他の処理時間が5%それぞれかかる。従ってH
MM音素認識処理を並列化して処理時間を1/10にで
きたとしても、全体の処理時間は約40%にしか短縮で
きない。
【0006】
【課題を解決するための手段】この発明によれば文法を
複数に分割して、その分割された文法をそれぞれ用い
て、音声認識候補の選出を並列に行い、異なる音声認識
候補を選出し、これら選出された音声認識候補につい
て、入力音声の特徴パラメータ時系列と標準パターンと
の照合を複数並列に行う。
【0007】前記文法の分割は、例えば、先頭音素が異
なるように、単語辞書を複数に分割することにより、日
本語の構文と文字音素変換規則などは変更することなく
行う、あるいは名詞と名詞以外とに単語辞書を分割して
行う。
【0008】
【実施例】図1にこの発明の実施例を示す。入力端子1
から入力された音声は、特徴抽出部2においてディジタ
ル信号に変換され、更にLPCケプストラム分析された
後、1フレーム(1時点、例えば8ミリ秒)ごとに特徴
パラメータに変換される。この特徴パラメータは例えば
LPCケプストラム係数である。
【0009】学習用音声データベースより、上記特徴パ
ラメータと同一形式で、隠れマルコフモデルの音素標準
パターンを作り、標準パターンメモリ4に記憶してお
き、また学習用テキストデータベースより、文字の生起
順序に関する統計的言語モデルを作り統計的言語モデル
メモリ5に記憶してある。同様に、上記学習用テキスト
データベースから、日本語文節の構造が単語の遷移規則
として記述されている文節構文と、単語辞書と、および
かな・漢字を音素の記号列に変化する文字音素変換規則
とからなる文法を、この例では先頭音素が異なるように
前記単語辞書を二つに分割することにより(例えばアイ
ウエオ順に単語辞書をソーティングした後、二つに分割
する)、共通の日本語文節の構文と文字音素変換規則等
からなる二つに分割された文法6a,6bを作成し、こ
れら文法6a,6bを言語処理ユニット3a,3bにそ
れぞれ分担させる。言語処理ユニット3a,3bでは、
それぞれ文法を用いて選出した複数の音声認識候補につ
いて、その音素系列の標準パターンを標準パターンメモ
リ4から読みだし、複数のHMM音素認識ユニット7を
用いて入力音声の特徴パラメータの類似度(尤度)を求
める。また上記音声認識候補の生起尤度を統計的言語モ
デルより求める。これらの類似の尤度と生起の尤度を加
算して総合尤度を求める。
【0010】前記単語辞書の分割は、名詞、動詞及び複
合語は先頭音素が異なるように分割するが、助詞、助動
詞のような附属語は分割することなく文法6a,6bの
両方の単語辞書に共通に用意しておき、言語処理ユニッ
ト3a,3bはそれぞれ文法6a,6bのみを用いれば
よく、例えば言語処理ユニット3aが文法6bを必要と
しないようにする。また言語処理ユニット3a,3bと
してはそれぞれLRパーザを用いた言語処理(音素推定
処理)を行うものとし、統計的言語モデルとしては文字
トライグラム、つまり認識した二つ前の文字から次に発
生する文字の確率を用いる。
【0011】言語処理ユニット3a,3bはそれぞれ文
法6a,6bを用いて、文の最初に出現する可能性のあ
る文字のすべてを音声認識候補とし、その各音声認識候
補について入力音声の特徴パラメータ時系列と標準パタ
ーンと類似の尤度を、複数のHMM音素認識ユニット7
をそれぞれ用いて求める。各言語処理ユニット3a,3
bは各音声認識候補についての生起の尤度をメモリ5の
統計的言語モデルを用いて求め、更に各音声認識候補に
ついて生起の尤度と類似の尤度との例えば和により総合
尤度を求め、各言語処理ユニット3a,3bごとにそれ
ぞれ総合尤度の高いものから、例えば50個ずつを音声
認識候補として残し、これらについて、文法6a,6b
を用いて次の文字の音声認識候補をすべて求め、以下同
様のことを行う。
【0012】このようにして入力音声の特徴パラメータ
時系列について両言語処理ユニット3a,3bの処理が
終了すると、それぞれのそれまでの総合尤度が高いもの
から、例えば10個ずつの音声認識候補をソーティング
部8へ送り、総合尤度の高い順にソーティングし、上位
の例えば10個を認識結果として出力する。上述におい
ては単語辞書を2分割して2つの文法を用いて並列処理
したが、3つ以上に分割して3つ以上の文法を用いて3
つ以上の並列処理を行ってもよい。また単語辞書の分割
は先頭音素が異なるように分割するのみならず、例えば
名詞と、名詞以外とに分割してもよい。この場合は両言
語処理ユニット3a,3bが、同一音素を認識候補とす
る場合があり、このような場合は2重に処理されること
になるが、このような場合は少ないため、それ程処理量
が増加するおそれはない。
【0013】頭部X線CTの正常および異常5所見ず
つ、合計543文節を認識対象とし、音素HMMモデル
の学習は女性1名の発声した音素バランス216単語、
115単音節および2所見(89文節)であり、目視に
より音素ラベル付けを行ったものを使用し、音素HMM
は母音が2状態1ループ、子音が4状態3ループであ
り、処理速度を高めるためのビーム幅の制限、つまり認
識候補を絞って次の認識に移る場合に絞る認識候補の数
を変化させて認識実験を行った。その結果を図2に示
す。この図のビーム幅200、100、および50のと
ころを比較すると、文法を分割した場合、文法非分割の
場合の大体半分のビーム幅でほぼ同じ認識率となってい
る。つまり文法を分割した場合HMM認識処理量を増や
すことなく、言語処理を並列化できることが確認され
た。また文法の分割法は、文法カテゴリを用いた方が認
識率が高い場合もあるが、多くの場合アイウエオ順に分
割した方が認識率が高く、並列度を高めることが簡易で
ある点でも有利である。
【0014】
【発明の効果】以上述べたようにこの発明によれば文法
を分割して言語処理を並列に行うことにより認識率を低
下することなく、処理速度を向上させることができる。
例えばHMM音素認識処理を並列化してその処理時間を
1/10にし、かつ言語処理を並列化して、その処理を
半分にすると、全体の処理時間は、並列処理を全く行わ
ない場合の1/4程度に短縮できる。
【0015】特に統計的言語モデルとして文字トライグ
ラムを用い、言語処理としてLRパーザを用いることに
より、オートマントを用いる場合よりも、並列化し易
い。
【図面の簡単な説明】
【図1】この発明の実施例を示すブロック図。
【図2】音声認識実験結果を示す図。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を特徴パラメータの時系列と
    し、その特徴パラメータの時系列について、日本語の構
    文、単語辞書、および文字音素変換規則などからなる文
    法を用いて、複数の音声認識候補を選出し、 これら各音声認識候補について、上記入力音声の特徴パ
    ラメータ時系列と標準パターンとをそれぞれ照合して、
    その類似の尤度を求め、 上記各音声認識候補について、それまでの認識結果を基
    に、統計的言語モデルを用いて生起の尤度を求め、 その生起の尤度と上記類似の尤度との総合の尤度の高い
    候補を認識結果とする日本語音声認識方法において、 上記文法を複数に分割して、その分割された文法をそれ
    ぞれ用いて、上記音声認識候補の選出を並列に行って異
    なる音声認識候補を選出し、 これら選出された音声認識候補について、上記入力音声
    の特徴パラメータ時系列と標準パターンとの照合を複数
    並列に行うことを特徴とする日本語音声認識方法。
JP5073315A 1993-03-31 1993-03-31 日本語音声認識方法 Pending JPH06289894A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5073315A JPH06289894A (ja) 1993-03-31 1993-03-31 日本語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5073315A JPH06289894A (ja) 1993-03-31 1993-03-31 日本語音声認識方法

Publications (1)

Publication Number Publication Date
JPH06289894A true JPH06289894A (ja) 1994-10-18

Family

ID=13514624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5073315A Pending JPH06289894A (ja) 1993-03-31 1993-03-31 日本語音声認識方法

Country Status (1)

Country Link
JP (1) JPH06289894A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100349656B1 (ko) * 2000-12-20 2002-08-24 한국전자통신연구원 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
KR101424193B1 (ko) * 2007-12-10 2014-07-28 광주과학기술원 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100349656B1 (ko) * 2000-12-20 2002-08-24 한국전자통신연구원 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
KR101424193B1 (ko) * 2007-12-10 2014-07-28 광주과학기술원 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법

Similar Documents

Publication Publication Date Title
US8185376B2 (en) Identifying language origin of words
US6236964B1 (en) Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US9978364B2 (en) Pronunciation accuracy in speech recognition
US7606710B2 (en) Method for text-to-pronunciation conversion
US20050197838A1 (en) Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously
JP3444108B2 (ja) 音声認識装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Stefan-Adrian et al. Rule-based automatic phonetic transcription for the Romanian language
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JPH06289894A (ja) 日本語音声認識方法
JP3378547B2 (ja) 音声認識方法及び装置
JP3240691B2 (ja) 音声認識方法
Vazirnezhad et al. Hybrid statistical pronunciation models designed to be trained by a medium-size corpus
Puurula et al. Vocabulary decomposition for Estonian open vocabulary speech recognition
JP3009709B2 (ja) 日本語音声認識方法
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JPH04291399A (ja) 音声認識方法
Saychum et al. A great reduction of wer by syllable toneme prediction for thai grapheme to phoneme conversion
Okawa et al. Phrase recognition in conversational speech using prosodic and phonemic information
JPH0612091A (ja) 日本語音声認識方法
Çömez Large vocabulary continuous speech recognition for Turkish using HTK
JP2005534968A (ja) 漢字語の読みの決定