JPH05224692A - 連続音声認識方式 - Google Patents

連続音声認識方式

Info

Publication number
JPH05224692A
JPH05224692A JP4027019A JP2701992A JPH05224692A JP H05224692 A JPH05224692 A JP H05224692A JP 4027019 A JP4027019 A JP 4027019A JP 2701992 A JP2701992 A JP 2701992A JP H05224692 A JPH05224692 A JP H05224692A
Authority
JP
Japan
Prior art keywords
word
model
phoneme
speech recognition
continuous speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4027019A
Other languages
English (en)
Other versions
JP3033322B2 (ja
Inventor
Ryosuke Isotani
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4027019A priority Critical patent/JP3033322B2/ja
Publication of JPH05224692A publication Critical patent/JPH05224692A/ja
Application granted granted Critical
Publication of JP3033322B2 publication Critical patent/JP3033322B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 環境に依存する認識単位を用いる場合に、単
語境界において処理量を増やさずに、単語を連続的に発
声した音声でも精度よく認識することができるようにす
る。 【構成】 認識単位として、音素を後続の音素によって
細分化したダイフォンと後続の音素に依存しない音素を
使う。単語の語尾には音素モデルを、それ以外にはダイ
フォンモデルを用いるよう単語辞書3に記述する。単語
辞書、モデルパラメータ、文法の情報から認識ネットワ
ーク4を作成して連続音声を認識する。音素モデルのパ
ラメータは、ダイフォンモデルのパラメータを平均して
求める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、連続音声を認識する方
式に関する。
【0002】
【従来の技術】音声認識で用いる認識単位としては、大
語彙への拡張や認識対象語彙の変更が容易であることか
ら、音素など単語より小さい単位(サブワード)が用い
られることが多い。さらに調音結合などの影響を考慮す
るため、これを隣接する音素の並び(以下環境とよぶ)
に応じて細分化するのが有効であることが知られてい
る。このような認識単位の例としては、日本語における
半音節(「半音節を単位としたHMMによる音声認
識」、日本音響学会昭和63年秋季研究発表会2−P−
4.以下文献1と称する)、英語におけるgenera
lized triphone(“Large−voc
abulary speaker−independe
nt continuous speech reco
gnition:the SPHINX syste
m”,PH.D,Thesis, Carnegie−
Mellon University, CMU−CS
−88−148.以下文献2と称する)などが知られて
いる。
【0003】一方、連続的に発声された文書などを認識
する連続音声認識の手法の一つとして、語彙中の各単語
をサブワードの列ないしネットワークで記述した辞書
と、受け付ける文を規定する文法ルールにしたがって単
語を連結して認識を行う方法がある。単語の連結は、あ
らかじめ前処理として行っておくことも、認識時に動的
に行うことも可能である。文献1を連続音声認識に拡張
した手法(「半音節HMMによる連続音声認識」電子情
報通信学会技術研究報告SP89−15.以下文献3)
では、文法をオートマトンで記述し、辞書の情報とオー
トマトンの情報を前処理で単一のネットワークに表現し
ておく。
【0004】前述の環境に依存した認識単位を用いてこ
のような連続音声認識を行う場合、単語間の接続部に用
いる認識単位の選択に問題が生じる。たとえば、後続の
音素に依存する音素を認識単位として用いている場合、
単語の最後の音素は後続の単語が決まらないとどの認識
単位で表すべきか決まらず、辞書で一意に記述できな
い。
【0005】文献2では、前後各1個の音素環境に依存
する音素を認識単位として用いているが、「語頭」と
「語尾」をそれぞれ一つの音素環境として扱うことによ
り、単語内で閉じた処理を可能としている。すなわち、
語頭の音素の前には「語頭」という特別な音素、語尾の
音素の後ろには「語尾」という特別な音素がそれぞれあ
ると考えてgeneralized triphone
を決定している。また文献3では、辞書と文法を単一の
ネットワークに変換する際、単語の接続部に先行する単
語の語尾音素と後続の単語の語頭の音素に依存して決ま
る単語間モデルを挿入することによりこの問題に対処し
ている。
【0006】
【発明が解決しようとする課題】前述の、「語頭」と
「語尾」をそれぞれ一つの音素環境として扱う方法は、
発声の際に単語間に必ずポーズ(発声の切れ目)が入る
など、語頭や語尾の音素を語中の音素と異なる音素環境
にある音素として扱った方がよいような場合には有効で
あると考えられる。しかし、一般には単語間も単語内と
同様連続的に発声されることが多く、語頭、語尾の音素
のパターンも語中の音素と同様前後の単語に応じてさま
ざまに変動する。このような場合に語頭、語尾を独立の
音素環境とすると認識性能の低下は避けられない。また
それらの音素環境を含む認識単位のモデル(あるいは標
準パターン)のパラメータを学習データから精度よく求
めようとすれば、単語の接続部に関するさまざまな環境
を含む多量の文発声のデータを必要とする。
【0007】一方、文献3の方法は単語間にも単語内と
同様に前後の単語に応じて環境に依存した認識単位を用
いているので、性能の低下はない。また、語頭、語尾と
いった単語内の位置を考慮しなくてよいので、認識単位
のモデル(あるいは標準パターン)のパラメータを学習
データから求める場合でも、文発声のデータは必ずしも
必要としない。しかし一般にある単語と接続しうる単語
は複数存在するので、語頭あるいは語尾にそのそれぞれ
の接続単語に応じた認識単位をすべて用意しなければな
らず、認識時の処理量が増大するという欠点がある。
【0008】本発明の目的は、このような欠点を除去し
た連続音声認識方式を提供することにある。
【0009】
【課題を解決するための手段】第1の発明は、隣接する
音素の並びに依存して決定されるサブワードを認識単位
とし、語彙中の各単語をサブワードの列ないしネットワ
ークで記述したサブワード表記辞書と単語の接続の制約
を記述した文法とにより連続音声を認識する音声認識方
式において、環境の長さの異なる複数のサブワードを用
意しておき、単語中での位置に応じて単語内に存在する
環境のみに依存するサブワードを用いることを特徴とす
る。
【0010】第2の発明は、第1の発明の連続音声認識
方式において、環境の一部分が共通であるサブワードの
モデルのパラメータを平均化した値をサブワードのモデ
ルのパラメータとして用いることを特徴とする。
【0011】第3の発明は、第1の発明の連続音声認識
方式において、各サブワードを隠れマルコフモデルでモ
デル化し、環境の一部分が共通であるサブワードについ
てモデルのパラメータが等しくなるという拘束条件のも
とで、フォワード・バックワードアルゴリズムによる学
習を行うことによって得られたパラメータをサブワード
のモデルのパラメータとして用いることを特徴とする。
【0012】第4の発明は、第3の発明の連続音声認識
方式において、フォワード・バックワードアルゴリズム
による学習を1ループだけに限定して得られるパラメー
タをサブワードのモデルのパラメータとして用いること
を特徴とする。
【0013】
【作用】第1の発明によれば、環境の長さの長いサブワ
ードを使用する場合、単語内だけでは環境が決まらない
語頭や語尾については、単語内だけで決まるより短い環
境だけに依存するサブワードを使用する。これによっ
て、接続する単語によらない処理が可能となり、文献3
のような処理量の増大を防ぐことができる。さらに、こ
のサブワードはその外側の環境には依存しないものであ
って、とくに語頭、語尾といった特殊な環境に限定して
しない。したがって、単語間が単語内と同様連続的に発
声される場合にも対処できる。また認識単位のモデル
(あるいは標準パターン)のパラメータを学習データか
ら求める場合でも、文発声のデータは必ずしも必要とせ
ず、単語内にあらわれるサブワードのデータだけから学
習することもできる。
【0014】環境の長さの短いサブワードのパラメータ
を環境の長さの長いサブワードのパラメータとは独立に
求めることもできるが、本方式のように環境の長さの長
いサブワードと環境の長さの短いサブワードを併用して
使用する場合には、環境の長さの異なるサブワードが隣
合って現れる場所でこれらが時間的に連続していること
が必要である。たとえば、セグメンテーションを陽に与
えず単語単位に学習するような学習法でそれぞれのパラ
メータを独立に求めると、この条件が満たされる保証は
ない。第2の発明によれば、環境の短いサブワードのパ
ラメータをその環境を含む環境の長さの長いサブワード
のパラメータを平均して求めるので、環境の長さの異な
るサブワードの間で時間的な連続性が保たれる。
【0015】サブワードを隠れマルコフモデルでモデル
化する場合、第2の発明におけるパラメータ平均化の方
法は自明ではない。第3の発明では、フォワード・バッ
クワードアルゴリズムにおけるパラメータの「結び」の
手法を利用して、パラメータの平均化と同等のことが行
える。パラメータの「結び」については、刊行物「確率
モデルによる音声認識」中川聖一著に詳しく説明されて
いる。
【0016】第4の発明では、さらに学習のループを1
回だけに制限している。学習の1回目では学習データの
セグメンテーションが初期モデルによって行われるの
で、初期モデルとして環境の長さの長いサブワードのモ
デルを用いて学習を1回だけに制限することにより、上
記の時間的連続性の条件も満たされる。
【0017】
【実施例】本発明の実施例について説明する。認識単位
として、音素を後続の1音素に依存して分類した「ダイ
フォン」と前後の音素に依存しない(すなわち環境の長
さ0)音素そのものを用いる例について説明する。
【0018】図1は、第1の発明の認識方式を実施する
装置の全体のブロック図である。文法情報格納部1で
は、受理する文を有限状態ネットワークで表している。
モデルパラメータ格納部2には各ダイフォンおよび音声
モデルのパラメータが格納され、単語辞書情報格納部3
には語彙中の各単語の発音表記がダイフォンと音素から
なる列で記述されている。文法、辞書、モデルパラメー
タの情報から、あらかじめ単一の認識ネットワーク4を
作成しておく。認識時には、入力音声は音声分析部5で
特徴パラメータの時系列に変換され、認識ネットワーク
との間で照合が行われて、認識結果として出力される。
認識ネットワーク4の作成の方法および特徴パラメータ
の時系列と認識ネットワークとの間の照合の方法は、文
献3に詳しく述べられている。
【0019】図2に本実施例における単語辞書情報の一
例を示す。単語“cook”が音素列で“k”“uh”
“k”と表されるとすると、ダイフォン表記では最初の
2音素はそれぞれ“k.uh”,“uh.k”と表され
る。ここで、たとえば“k.uh”は後続音素が“u
h”である音素“k”を表す。第3の音素については、
単語内の情報だけからではこのようにダイフォンで表す
ことができないので、後続の音素に依存しない音素
“k.*”を用いている。モデルパラメータ格納部に
は、“k.ax”,“k.ih”,...,“s.a
x”,“s.ih”,...などのダイフォンのモデル
のパラメータに加え、“k.*”,“s.*”,...
などの後続の音素に依存しない音素のモデルのパラメー
タも格納されている。
【0020】図3に第2の発明の実施例における音素モ
デルのパラメータの決定法を示す。認識方式を実施する
装置の全体のブロック図は第1の発明と同じである。後
続音素に依存しない音素のモデルのパラメータをダイフ
ォンのモデルのパラメータを平均化することによって求
める。たとえば、“k.*”のモデルのパラメータは
“k.ax”,“k.ih”,...のパラメータを平
均することによって求める。平均する際に、各ダイフォ
ンのあらかじめ学習データなどから求めた出現頻度に応
じて重みづけすることも可能である。
【0021】図4に第3の発明の実施例における音素モ
デルのパラメータの決定法を示す。認識方式を実施する
装置の全体のブロック図は第1の発明と同じである。ダ
イフォンおよび音素は隠れマルコフモデル(HMM)で
モデル化する。ダイフォンのHMMモデルのパラメータ
は通常の学習法で求める。音素のHMMモデルのパラメ
ータは、その音素を後続の音素で分類したダイフォンの
HMMモデルの対応するパラメータがすべて等しくなる
ような拘束条件のもとでフォワードバックワードアルゴ
リズムで学習する。すなわち、{“k.ax”,“k.
ih”,...},{“s.ax”,“s.i
h”,...},...のモデルの対応するパラメータ
がそれぞれ等しくなるように「結び」の関係にして学習
し、結果を“k.*”,“s.*”,...のHMMモ
デルとする。ダイフォンのモデルはもとのものを用い
る。
【0022】第4の発明では、図4におけるフォワード
・バックワードアルゴリズムによる学習ループを1回で
止める。
【0023】
【発明の効果】以上述べたように、第1の発明によれば
環境に依存するサブワードを連続音声認識に用いる場合
に、単語の接続部において処理量を増大させることな
く、連続的に発声された場合も高精度に認識することが
可能である。また、第2、第3、4の発明によれば、第
1の発明において、環境の長さの短いサブワードのモデ
ルのパラメータを環境の長さの長いサブワードのモデル
のパラメータから効率よく求めることができる。
【図面の簡単な説明】
【図1】第1の発明の実施例の認識方式を実施する装置
の全体のブロック図である。
【図2】実施例における単語辞書情報の一例を示す図で
ある。
【図3】第2の発明の実施例における音素モデルのパラ
メータの決定法を示す図である。
【図4】第3の発明の実施例における音素モデルのパラ
メータの決定法を示す図である。
【符号の説明】
1 文法情報格納部 2 モデルパラメータ格納部 3 単語辞書情報格納部 4 認識ネットワーク 5 音声分析部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】隣接する音素の並びに依存して決定される
    サブワードを認識単位とし、語彙中の各単語をサブワー
    ドの列ないしネットワークで記述したサブワード表記辞
    書と単語の接続の制約を記述した文法とにより連続音声
    を認識する音声認識方式において、 環境の長さの異なる複数のサブワードを用意しておき、
    単語中での位置に応じて単語内に存在する環境のみに依
    存するサブワードを用いることを特徴とする連続音声認
    識方式。
  2. 【請求項2】請求項1記載の連続音声認識方式におい
    て、 環境の一部分が共通であるサブワードのモデルのパラメ
    ータを平均化した値をサブワードのモデルのパラメータ
    として用いることを特徴とする連続音声認識方式。
  3. 【請求項3】請求項1記載の連続音声認識方式におい
    て、 各サブワードを隠れマルコフモデルでモデル化し、環境
    の一部分が共通であるサブワードについてモデルのパラ
    メータが等しくなるという拘束条件のもとで、フォワー
    ド・バックワードアルゴリズムによる学習を行うことに
    よって得られたパラメータをサブワードのモデルのパラ
    メータとして用いることを特徴とする連続音声認識方
    式。
  4. 【請求項4】請求項3記載の連続音声認識方式におい
    て、 フォワード・バックワードアルゴリズムによる学習を1
    ループだけに限定して得られるパラメータをサブワード
    のモデルのパラメータとして用いることを特徴とする連
    続音声認識方式。
JP4027019A 1992-02-14 1992-02-14 連続音声認識方法 Expired - Lifetime JP3033322B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4027019A JP3033322B2 (ja) 1992-02-14 1992-02-14 連続音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4027019A JP3033322B2 (ja) 1992-02-14 1992-02-14 連続音声認識方法

Publications (2)

Publication Number Publication Date
JPH05224692A true JPH05224692A (ja) 1993-09-03
JP3033322B2 JP3033322B2 (ja) 2000-04-17

Family

ID=12209382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4027019A Expired - Lifetime JP3033322B2 (ja) 1992-02-14 1992-02-14 連続音声認識方法

Country Status (1)

Country Link
JP (1) JP3033322B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009300830A (ja) * 2008-06-16 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体
US8099280B2 (en) 2005-06-30 2012-01-17 Canon Kabushiki Kaisha Speech recognition method and speech recognition apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3534196B2 (ja) 1994-06-01 2004-06-07 ソニー株式会社 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8099280B2 (en) 2005-06-30 2012-01-17 Canon Kabushiki Kaisha Speech recognition method and speech recognition apparatus
JP2009300830A (ja) * 2008-06-16 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体

Also Published As

Publication number Publication date
JP3033322B2 (ja) 2000-04-17

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US5333275A (en) System and method for time aligning speech
US5865626A (en) Multi-dialect speech recognition method and apparatus
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
US6801892B2 (en) Method and system for the reduction of processing time in a speech recognition system using the hidden markov model
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US5706397A (en) Speech recognition system with multi-level pruning for acoustic matching
Ostendorf et al. The impact of speech recognition on speech synthesis
Boite et al. A new approach towards keyword spotting.
JPH10254475A (ja) 音声認識方法
Huang et al. From Sphinx-II to Whisper—making speech recognition usable
Lee et al. Improved acoustic modeling for continuous speech recognition
Lee et al. Acoustic modeling of subword units for speech recognition
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
JP3033322B2 (ja) 連続音声認識方法
JP4732030B2 (ja) 情報処理装置およびその制御方法
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JPH09292899A (ja) 音声認識装置
Steinbiss et al. Continuous speech dictation—From theory to practice
JP3277579B2 (ja) 音声認識方法および装置
JP2976795B2 (ja) 話者適応化方式
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
Hwang et al. Between-word coarticulation modeling for continuous speech recognition
Schwartz et al. Hidden markov models and speaker adaptation

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080218

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090218

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120218

Year of fee payment: 12

EXPY Cancellation because of completion of term