JPH0667686A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0667686A
JPH0667686A JP4219296A JP21929692A JPH0667686A JP H0667686 A JPH0667686 A JP H0667686A JP 4219296 A JP4219296 A JP 4219296A JP 21929692 A JP21929692 A JP 21929692A JP H0667686 A JPH0667686 A JP H0667686A
Authority
JP
Japan
Prior art keywords
voice
phoneme
learning
group
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4219296A
Other languages
English (en)
Inventor
Shigeaki Komatsu
慈明 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP4219296A priority Critical patent/JPH0667686A/ja
Publication of JPH0667686A publication Critical patent/JPH0667686A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、話者に対して少ない負担で比較的
高い認識精度を得ることができる音声認識装置を提供す
ること。 【構成】 本発明の音声認識装置におけるCPUは、A
/D変換装置により標本化され、RAMに格納されてい
る音声信号データに対し、一定時間間隔毎に線形予測
(LPC)分析によりLPCケプストラム係数を算出す
る(S41)。次に、CPUは前記ケプストラム係数に
対しベクトル量子化処理を行い、シンボル時系列を出力
する(S42)。次に、CPUは利用する話者の発声し
た学習用音声データより学習されている出現頻度の高い
第一のグループの音素HMMと、予め不特定多数の話者
が発声した音声データより学習されている出現頻度の低
い第2のグループの音素HMMとを使用し、入力された
シンボル時系列を認識する(S43)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音素等を識別単位とする
音声モデルにより、連続音声を認識することのできる音
声認識装置に係わり、特に、その学習および認識方法に
関する。
【0002】
【従来の技術】近年、隠れマルコフモデル等のように、
音声を統計的、確率的モデルで表現するような音声認識
方式が例えばS.E.Levinson,L.R.Rabiner,and M.M.Sondh
i"An Introduction to the Application of the Theory
of Probabilistic Functionsof a Markov Process to
Automatic Speech Recognition",The Bell System Tech
nical Journal Vol.62,No.4,April 1983 において提案
されている。これらの音声認識方式には音声の持つ揺ら
ぎを確率として表現できるという利点がある。しかしな
がら、認識精度の良いモデルを得るためには多くの学習
用音声データを必要とするという欠点があった。
【0003】そして、従来、音素を識別単位とし、隠れ
マルコフモデル等の音声認識方式を使った音声認識装置
としては、話者毎に音素モデルを作り替え、認識処理を
行う特定話者用音声認識装置と、予め不特定多数の話者
が発声した音声データより音素モデルを作成して、認識
処理を行う不特定話者用音声認識装置があった。
【0004】
【発明が解決しようとする課題】しかしながら、上述の
特定話者用音声認識装置においては、認識精度の良いモ
デルを得るためには多くの学習用音声データを必要とす
るため、話者の負担が大きくなるという欠点があった。
【0005】また、上述の不特定話者用音声認識装置に
おいては、話者が学習用音声データを発声する必要は無
いが、話者独自の音素モデルではないため、認識精度は
特定話者用音声認識装置に比べてかなり落ちてしまうと
いう欠点があった。
【0006】本発明は、上述した問題点を解決するもの
で、話者に対して少ない負担で比較的高い認識精度を得
ることができる音声認識装置を提供することを目的とし
ている。
【0007】
【課題を解決するための手段】この目的を達成するため
に本発明の音声認識装置は、音素やそれに類する識別単
位の音声モデルにより連続音声を認識するものであり、
更に前記識別単位を出現頻度により2つのグループに分
け、出現頻度の高いグループに対して、利用話者の発声
した学習用音声データにより音声モデルを学習する学習
手段と、その学習手段により学習された音声モデルを格
納する第1の音声辞書と、不特定多数の話者が発声した
音声データにより予め学習されている、出現頻度の低い
グループに対する音声モデルを格納する第2の音声辞書
と、前記第1および第2の音声辞書を参照して、入力さ
れた音声を認識する認識手段とを備えている。
【0008】
【作用】上記の構成を有する本発明の音声認識装置にお
ける学習手段は、出現頻度により2つのグループに分け
られた識別単位の内、出現頻度の高いグループに対し
て、利用話者の発声した学習用音声データより音声モデ
ルを学習する。認識手段は、前記学習手段により学習さ
れた出現頻度の高いグループに対する音声モデルを格納
する第1の音声辞書、および不特定多数の話者が発声し
た音声データより予め学習されている出現頻度の低いグ
ループに対する音声モデルを格納する第2の音声辞書と
を参照し、入力された音声を認識する。
【0009】
【実施例】以下、本発明を具体化した一実施例を図面を
参照して説明する。
【0010】本実施例においては、識別単位として音素
を使い、出現頻度の高い第1のグループの音素とし
て、”a,i,u,e,o,Q(無音)”、出現頻度の
低い第2のグループの音素として”k,s,t,n,
h,m,y,r,w,g,z,d,b,p,sh,c
h,ts,j,N(溌音)”を選ぶ。そして第1のグル
ープの音素に対しては話者毎に学習された音素隠れマル
コフモデル(以後、音素HMM)を、第2のグループの
音素に対しては不特定多数の話者の発声した音声データ
より予め学習されている音素HMMを使い認識処理を行
う。隠れマルコフモデル(HMM)は音声を状態遷移確
率、出力確率の2種類のパラメータにより記述する音声
モデルである。
【0011】図1は本実施例による音声認識装置のブロ
ック図である。本実施例を構成するオーディオ・アンプ
1は入力された音声信号を適切な電圧値に増幅する。ロ
ーパス・フィルター2はオーディオ・アンプ1により増
幅された信号における5.5kHz以下の周波数成分のみ
を通過させることにより、サンプリング時の折返し歪を
抑えている。A/D変換装置3はローパス・フィルター
通過信号を、サンプリング周波数12kHz、16ビット
のディジタル信号に変換する。I/Oポート4はCPU
5と、A/D変換装置3、ディスプレイ8、外部記憶装
置9とを接続している。CPU5は音声信号データの線
形予測(LPC)分析処理、学習処理、および認識処理
を行ない、RAM6、およびROM7に接続されてい
る。
【0012】前記RAM6にはA/D変換装置3により
ディジタル化された音声信号データ、CPU5により処
理されたLPC分析結果、出現頻度の高い第1のグルー
プに対する第1の音素辞書等が格納されるエリアが用意
されている。前記ROM7にはLPC分析ロジック、学
習ロジック、認識ロジック、および出現頻度の低い第2
のグループに対する第2の音素辞書等が格納されてい
る。前記ディスプレイ8は処理結果等の表示を行なう。
前記外部記憶装置9には、利用話者が発声し、A/D変
換装置3によりディジタル化された第1のグループの音
素HMMパラメータの学習用音声データが格納されるエ
リアが用意されている。
【0013】以下、本実施例の動作について図2〜図4
を参照して説明する。
【0014】図2は本実施例により行なわれる第1のグ
ループの音素HMMの学習処理を示すフローチャートで
ある。以下において、この学習処理の動作について説明
する。但し、各音素HMMは図3に示すように4状態3
ループのモデルとする。また第2のグループの音素HM
Mは、不特定多数の話者が発声した音声データより各音
素毎に学習され、そのパラメータはROM7上の第2の
音素辞書に予め格納されている。また第1のグループの
音素HMMパラメータの初期値はランダムな値を設定
し、RAM6上の第1の音素辞書に格納しておく。また
ベクトル量子化用コードブックは、第2のグループの音
素HMMを学習時に使用した不特定多数の話者が発声し
た音声データを分析し得られた特徴ベクトルに対し、L
BGアルゴリズムによるクラスタリング処理により生成
され、ROM7上に予め格納されている。LBGアルゴ
リズムに関しては、中川、”確率モデルによる音声認
識”、電子情報通信学会に詳述されている。コードブッ
クのサイズは512であり、コードブックには各シンボ
ルとそれを代表するベクトル(以後、セントロイド)が
記憶されている。
【0015】また第1のグループの音素HMMの学習用
音声データとして、第1のグループの音素がバランス良
く含まれるように選ばれた数十文を、利用話者が指示通
りに発声し、前記A/D変換装置3によりディジタル化
し、前記外部記憶装置9上に予め格納しておく。
【0016】まず始めに、CPU5は前記外部記憶装置
9上に格納されている学習用音声データの最初の学習文
に対して、96ポイント(8msec)間隔に設定され
たフレーム毎に、線形予測(LPC)分析を行いLPC
ケプストラム係数を算出し、特徴ベクトルとする。LP
Cケプストラム係数の算出方法については 古井、”デ
ィジタル音声処理”、東海大学出版会に詳述されてい
る。また分析次数は16次とする(S21)。
【0017】次に、CPU5は前記フレーム毎に分析さ
れた特徴ベクトルに対し、前記ROM6上に格納されて
いるコードブックを参照しベクトル量子化処理を行い、
シンボル時系列を生成する。具体的には、CPU5はフ
レーム毎に特徴ベクトルとコードブック内の全てのセン
トロイドとのユークリッド距離を計算し、前記ユークリ
ッド距離の最も小さいセントロイドに対するシンボルを
出力する(S22)。
【0018】次に、CPU5は前記第1のグループに対
する音素HMMパラメータの学習を連結学習処理により
行う(S23)。
【0019】連結学習処理S23においては、まずCP
U5は学習用に発声された音声の内容に基づき第1のグ
ループおよび第2のグループの音素HMMパラメータ
を、RAM6上の第1の音素辞書およびROM7上の第
2の音素辞書より呼び出し連結し、文HMMを作成す
る。音素HMMの連結は図3に示すように音素HMMの
最終状態を次の音素HMMの初期状態とすることにより
行う。また連結されたHMMの両端には無音モデルをつ
け加えた。例えば発声文の内容が"解説する"であった場
合、Q-k-a-i-s-e-ts-u-s-u-r-u-Qという音素HMMを上
述した方法で連結した文HMMを作成する(S23
a)。
【0020】次に、CPU5は前記連結された文HMM
に対し、S22の処理により得られたシンボル時系列を
入力とし、Baum-WelchアルゴリズムによってHMMパラ
メータの学習を行う。Baum-Welchアルゴリズムに関して
は、上述のS.E.Levinson,L.R.Rabiner,and M.M.Sondhi"
An Introduction to the Application of the Theoryof
Probabilistic Functions of a Markov Process to Au
tomatic Speech Recognition",The Bell System Techni
cal Journal Vol.62,No.4,April 1983 において詳述さ
れている(S23b)。
【0021】次に、CPU5は前記S21〜S23の処
理を、学習用音声データの全ての学習文に対して繰り返
し、全ての学習用音声データに対し前記処理が終了した
場合に処理をS25に移す(S24)。
【0022】S25では、前記S21〜S24の処理に
より更新された第1のグループの音素HMMパラメータ
をRAM6上の第1の音素辞書に格納する(S25)。
【0023】本実施例では学習を効果適にするために、
上述のS21〜S25の処理を5回繰り返した後、第1
のグループの音素HMMの学習処理を終了する。
【0024】以上説明した学習処理により学習された第
1のグループの音素HMMと、第2のグループの音素H
MMとを使い認識処理を行う。図4は本実施例により行
なわれる認識処理の動作を示すフローチャートである。
以下において、この認識処理の動作について説明する。
【0025】始めに、CPU5は前記A/D変換装置3
により標本化され、前記RAM6に格納されている音声
データに対して、96ポイント(8msec)間隔に設
定されたフレーム毎に、上述のLPC分析を行いLPC
ケプストラム係数を算出し、特徴ベクトルとする(S4
1)。
【0026】次に、CPU5は前記フレーム毎に分析さ
れた特徴ベクトルに対し、前記ROM6上に格納されて
いるコードブックを参照し、上述のベクトル量子化処理
を行い、シンボル時系列を生成する(S42)。
【0027】次に、CPU5は前記コード時系列に対
し、前記学習処理により学習されRAM6上の第1の音
素辞書に格納されている第1のグループの音素HMMパ
ラメータと、不特定多数の話者の発声した音声データよ
り予め学習されROM7上の第2の音素辞書に格納され
ている第2のグループの音素HMMパラメータを使い連
続音声認識処理を行なう。本発明においては、連続音声
認識処理の手法としてどのような手法を利用しても差し
支えないが、本実施例においては、文脈自由文法を高速
に解析できるLR文法を用いたHMM−LR法を、前記
第1のグループの音素HMMおよび第2のグループの音
素HMMにより実現し、連続音声認識処理を行う。HM
M−LR法は拡張LR構文解析法で用いられる構文解析
動作表から入力された音声データ中の音素を予測し、予
測された音素の尤度をHMM音素照合で調べることによ
り、音声認識と言語処理を同時進行させる方式であり、
北、川端、斉藤、”HMM音素認識と拡張LR解析法を
用いた連続音声認識”、情報処理学会論文誌(1990-3)に
詳述されている(S43)。
【0028】本発明は、以上詳述した構成に限定される
ものではなく、その主旨を逸脱しない範囲において種々
の変更を加えることができる。例えば本実施例において
は、連続音声認識処理の手法としてHMM−LR法を用
いたが、一般に良く知られている他の手法で処理しても
良い。また第1および第2のグループの音素の選択方法
も変更する事ができる。
【0029】
【発明の効果】以上説明したことから明かなように、本
発明の音声認識装置は、識別単位を出現頻度により2つ
のグループに分け、出現頻度の高いグループに対して、
利用話者の発声した学習用音声データにより音声モデル
を学習する学習手段と、その学習手段により学習された
音声モデルを格納する第1の音声辞書と、不特定多数の
話者が発声した音声データにより予め学習されている、
出現頻度の低いグループに対する音声モデルを格納する
第2の音声辞書と、前記第1および第2の音声辞書を参
照して、入力された音声を認識する認識手段とを備えた
ことにより、話者の発声する学習用音声データ数を少な
くし、話者に対して少ない負担で比較的高い認識精度を
得ることができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置を具体化した一実施例の
構成を示すブロック図である。
【図2】本発明の音声認識装置の一実施例における学習
処理の動作を示すフローチャートである。
【図3】本発明の音声認識装置の一実施例における音素
HMM、および連結学習処理の説明図である。
【図4】本発明の音声認識装置の一実施例における認識
処理の動作を示すフローチャートである。
【符号の説明】
1 オーディオ・アンプ 5 CPU 6 RAM 7 ROM 9 外部記憶装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 音素やそれに類する識別単位の音声モデ
    ルにより連続音声を認識する音声認識装置において、 前記識別単位を出現頻度により2つのグループに分け、
    出現頻度の高いグループに対して、利用話者の発声した
    学習用音声データにより音声モデルを学習する学習手段
    と、 その学習手段により学習された音声モデルを格納する第
    1の音声辞書と、 不特定多数の話者が発声した音声データにより予め学習
    されている、出現頻度の低いグループに対する音声モデ
    ルを格納する第2の音声辞書と、 前記第1および第2の音声辞書を参照して、入力された
    音声を認識する認識手段とを備えたことを特徴とする音
    声認識装置。
JP4219296A 1992-08-18 1992-08-18 音声認識装置 Pending JPH0667686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4219296A JPH0667686A (ja) 1992-08-18 1992-08-18 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4219296A JPH0667686A (ja) 1992-08-18 1992-08-18 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0667686A true JPH0667686A (ja) 1994-03-11

Family

ID=16733277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4219296A Pending JPH0667686A (ja) 1992-08-18 1992-08-18 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0667686A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253180B1 (en) 1998-06-19 2001-06-26 Nec Corporation Speech recognition apparatus
JP2010145784A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253180B1 (en) 1998-06-19 2001-06-26 Nec Corporation Speech recognition apparatus
JP2010145784A (ja) * 2008-12-19 2010-07-01 Casio Computer Co Ltd 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム

Similar Documents

Publication Publication Date Title
JP4221379B2 (ja) 音声特性に基づく電話発信者の自動識別
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US5791904A (en) Speech training aid
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JPH0422276B2 (ja)
NO309750B1 (no) Talegjenkjenning
JPH07114395A (ja) 音声認識用データ圧縮
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP3535292B2 (ja) 音声認識システム
US20020095282A1 (en) Method for online adaptation of pronunciation dictionaries
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
JP2001195087A (ja) 音声認識システム
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JPH0667686A (ja) 音声認識装置
JP3277579B2 (ja) 音声認識方法および装置
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
Thalengala et al. Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database.
KR100369478B1 (ko) 음성 모델의 생성 방법
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPH08110790A (ja) 音声認識装置
Mohanty et al. Design of an Odia Voice Dialler System
JPH0997095A (ja) 音声認識装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 10

Free format text: PAYMENT UNTIL: 20090618

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090618

Year of fee payment: 10