JP3033322B2 - 連続音声認識方法 - Google Patents

連続音声認識方法

Info

Publication number
JP3033322B2
JP3033322B2 JP4027019A JP2701992A JP3033322B2 JP 3033322 B2 JP3033322 B2 JP 3033322B2 JP 4027019 A JP4027019 A JP 4027019A JP 2701992 A JP2701992 A JP 2701992A JP 3033322 B2 JP3033322 B2 JP 3033322B2
Authority
JP
Japan
Prior art keywords
word
speech recognition
subword
model
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4027019A
Other languages
English (en)
Other versions
JPH05224692A (ja
Inventor
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4027019A priority Critical patent/JP3033322B2/ja
Publication of JPH05224692A publication Critical patent/JPH05224692A/ja
Application granted granted Critical
Publication of JP3033322B2 publication Critical patent/JP3033322B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、連続音声を認識する
に関する。
【0002】
【従来の技術】音声認識で用いる認識単位としては、大
語彙への拡張や認識対象語彙の変更が容易であることか
ら、音素など単語より小さい単位(サブワード)が用い
られることが多い。さらに調音結合などの影響を考慮す
るため、これを隣接する音素の並び(以下環境とよぶ)
に応じて細分化するのが有効であることが知られてい
る。このような認識単位の例としては、日本語における
半音節(「半音節を単位としたHMMによる音声認
識」、日本音響学会昭和63年秋季研究発表会2−P−
4.以下文献1と称する)、英語におけるgenera
lized triphone(“Large−voc
abulary speaker−independe
nt continuous speech reco
gnition:the SPHINX syste
m”,PH.D,Thesis, Carnegie−
Mellon University, CMU−CS
−88−148.以下文献2と称する)などが知られて
いる。
【0003】一方、連続的に発声された文書などを認識
する連続音声認識の手法の一つとして、語彙中の各単語
をサブワードの列ないしネットワークで記述した辞書
と、受け付ける文を規定する文法ルールにしたがって単
語を連結して認識を行う方法がある。単語の連結は、あ
らかじめ前処理として行っておくことも、認識時に動的
に行うことも可能である。文献1を連続音声認識に拡張
した手法(「半音節HMMによる連続音声認識」電子情
報通信学会技術研究報告SP89−15.以下文献3)
では、文法をオートマトンで記述し、辞書の情報とオー
トマトンの情報を前処理で単一のネットワークに表現し
ておく。
【0004】前述の環境に依存した認識単位を用いてこ
のような連続音声認識を行う場合、単語間の接続部に用
いる認識単位の選択に問題が生じる。たとえば、後続の
音素に依存する音素を認識単位として用いている場合、
単語の最後の音素は後続の単語が決まらないとどの認識
単位で表すべきか決まらず、辞書で一意に記述できな
い。
【0005】文献2では、前後各1個の音素環境に依存
する音素を認識単位として用いているが、「語頭」と
「語尾」をそれぞれ一つの音素環境として扱うことによ
り、単語内で閉じた処理を可能としている。すなわち、
語頭の音素の前には「語頭」という特別な音素、語尾の
音素の後ろには「語尾」という特別な音素がそれぞれあ
ると考えてgeneralized triphone
を決定している。また文献3では、辞書と文法を単一の
ネットワークに変換する際、単語の接続部に先行する単
語の語尾音素と後続の単語の語頭の音素に依存して決ま
る単語間モデルを挿入することによりこの問題に対処し
ている。
【0006】
【発明が解決しようとする課題】前述の、「語頭」と
「語尾」をそれぞれ一つの音素環境として扱う方法は、
発声の際に単語間に必ずポーズ(発声の切れ目)が入る
など、語頭や語尾の音素を語中の音素と異なる音素環境
にある音素として扱った方がよいような場合には有効で
あると考えられる。しかし、一般には単語間も単語内と
同様連続的に発声されることが多く、語頭、語尾の音素
のパターンも語中の音素と同様前後の単語に応じてさま
ざまに変動する。このような場合に語頭、語尾を独立の
音素環境とすると認識性能の低下は避けられない。また
それらの音素環境を含む認識単位のモデル(あるいは標
準パターン)のパラメータを学習データから精度よく求
めようとすれば、単語の接続部に関するさまざまな環境
を含む多量の文発声のデータを必要とする。
【0007】一方、文献3の方法は単語間にも単語内と
同様に前後の単語に応じて環境に依存した認識単位を用
いているので、性能の低下はない。また、語頭、語尾と
いった単語内の位置を考慮しなくてよいので、認識単位
のモデル(あるいは標準パターン)のパラメータを学習
データから求める場合でも、文発声のデータは必ずしも
必要としない。しかし一般にある単語と接続しうる単語
は複数存在するので、語頭あるいは語尾にそのそれぞれ
の接続単語に応じた認識単位をすべて用意しなければな
らず、認識時の処理量が増大するという欠点がある。
【0008】本発明の目的は、このような欠点を除去し
た連続音声認識方法を提供することにある。
【0009】
【課題を解決するための手段】第1の発明は、隣接する
音素の並びに依存して決定されるサブワードを認識単位
とし、語彙中の各単語をサブワードの列ないしネットワ
ークで記述したサブワード表記辞書と単語の接続の制約
を記述した文法とにより連続音声を認識する音声認識
において、環境の長さの異なる複数のサブワードを用
意しておき、単語中での位置に応じて単語内に存在する
環境のみに依存するサブワードを用いることを特徴とす
る。
【0010】第2の発明は、第1の発明の連続音声認識
方法において、環境の一部分が共通であるサブワードの
モデルのパラメータを平均化した値をサブワードのモデ
ルのパラメータとして用いることを特徴とする。
【0011】第3の発明は、第1の発明の連続音声認識
方法において、各サブワードを隠れマルコフモデルでモ
デル化し、環境の一部分が共通であるサブワードについ
てモデルのパラメータが等しくなるという拘束条件のも
とで、フォワード・バックワードアルゴリズムによる学
習を行うことによって得られたパラメータをサブワード
のモデルのパラメータとして用いることを特徴とする。
【0012】第4の発明は、第3の発明の連続音声認識
方法において、フォワード・バックワードアルゴリズム
による学習を1ループだけに限定して得られるパラメー
タをサブワードのモデルのパラメータとして用いること
を特徴とする。
【0013】
【作用】第1の発明によれば、環境の長さの長いサブワ
ードを使用する場合、単語内だけでは環境が決まらない
語頭や語尾については、単語内だけで決まるより短い環
境だけに依存するサブワードを使用する。これによっ
て、接続する単語によらない処理が可能となり、文献3
のような処理量の増大を防ぐことができる。さらに、こ
のサブワードはその外側の環境には依存しないものであ
って、とくに語頭、語尾といった特殊な環境に限定して
しない。したがって、単語間が単語内と同様連続的に発
声される場合にも対処できる。また認識単位のモデル
(あるいは標準パターン)のパラメータを学習データか
ら求める場合でも、文発声のデータは必ずしも必要とせ
ず、単語内にあらわれるサブワードのデータだけから学
習することもできる。
【0014】環境の長さの短いサブワードのパラメータ
を環境の長さの長いサブワードのパラメータとは独立に
求めることもできるが、本方法のように環境の長さの長
いサブワードと環境の長さの短いサブワードを併用して
使用する場合には、環境の長さの異なるサブワードが隣
合って現れる場所でこれらが時間的に連続していること
が必要である。たとえば、セグメンテーションを陽に与
えず単語単位に学習するような学習法でそれぞれのパラ
メータを独立に求めると、この条件が満たされる保証は
ない。第2の発明によれば、環境の短いサブワードのパ
ラメータをその環境を含む環境の長さの長いサブワード
のパラメータを平均して求めるので、環境の長さの異な
るサブワードの間で時間的な連続性が保たれる。
【0015】サブワードを隠れマルコフモデルでモデル
化する場合、第2の発明におけるパラメータ平均化の方
法は自明ではない。第3の発明では、フォワード・バッ
クワードアルゴリズムにおけるパラメータの「結び」の
手法を利用して、パラメータの平均化と同等のことが行
える。パラメータの「結び」については、刊行物「確率
モデルによる音声認識」中川聖一著に詳しく説明されて
いる。
【0016】第4の発明では、さらに学習のループを1
回だけに制限している。学習の1回目では学習データの
セグメンテーションが初期モデルによって行われるの
で、初期モデルとして環境の長さの長いサブワードのモ
デルを用いて学習を1回だけに制限することにより、上
記の時間的連続性の条件も満たされる。
【0017】
【実施例】本発明の実施例について説明する。認識単位
として、音素を後続の1音素に依存して分類した「ダイ
フォン」と前後の音素に依存しない(すなわち環境の長
さ0)音素そのものを用いる例について説明する。
【0018】図1は、第1の発明の認識方法を実施する
装置の全体のブロック図である。文法情報格納部1で
は、受理する文を有限状態ネットワークで表している。
モデルパラメータ格納部2には各ダイフォンおよび音声
モデルのパラメータが格納され、単語辞書情報格納部3
には語彙中の各単語の発音表記がダイフォンと音素から
なる列で記述されている。文法、辞書、モデルパラメー
タの情報から、あらかじめ単一の認識ネットワーク4を
作成しておく。認識時には、入力音声は音声分析部5で
特徴パラメータの時系列に変換され、認識ネットワーク
との間で照合が行われて、認識結果として出力される。
認識ネットワーク4の作成の方法および特徴パラメータ
の時系列と認識ネットワークとの間の照合の方法は、文
献3に詳しく述べられている。
【0019】図2に本実施例における単語辞書情報の一
例を示す。単語“cook”が音素列で“k”“uh”
“k”と表されるとすると、ダイフォン表記では最初の
2音素はそれぞれ“k.uh”,“uh.k”と表され
る。ここで、たとえば“k.uh”は後続音素が“u
h”である音素“k”を表す。第3の音素については、
単語内の情報だけからではこのようにダイフォンで表す
ことができないので、後続の音素に依存しない音素
“k.*”を用いている。モデルパラメータ格納部に
は、“k.ax”,“k.ih”,...,“s.a
x”,“s.ih”,...などのダイフォンのモデル
のパラメータに加え、“k.*”,“s.*”,...
などの後続の音素に依存しない音素のモデルのパラメー
タも格納されている。
【0020】図3に第2の発明の実施例における音素モ
デルのパラメータの決定法を示す。認識方法を実施する
装置の全体のブロック図は第1の発明と同じである。後
続音素に依存しない音素のモデルのパラメータをダイフ
ォンのモデルのパラメータを平均化することによって求
める。たとえば、“k.*”のモデルのパラメータは
“k.ax”,“k.ih”,...のパラメータを平
均することによって求める。平均する際に、各ダイフォ
ンのあらかじめ学習データなどから求めた出現頻度に応
じて重みづけすることも可能である。
【0021】図4に第3の発明の実施例における音素モ
デルのパラメータの決定法を示す。認識方法を実施する
装置の全体のブロック図は第1の発明と同じである。ダ
イフォンおよび音素は隠れマルコフモデル(HMM)で
モデル化する。ダイフォンのHMMモデルのパラメータ
は通常の学習法で求める。音素のHMMモデルのパラメ
ータは、その音素を後続の音素で分類したダイフォンの
HMMモデルの対応するパラメータがすべて等しくなる
ような拘束条件のもとでフォワードバックワードアルゴ
リズムで学習する。すなわち、{“k.ax”,“k.
ih”,...},{“s.ax”,“s.i
h”,...},...のモデルの対応するパラメータ
がそれぞれ等しくなるように「結び」の関係にして学習
し、結果を“k.*”,“s.*”,...のHMMモ
デルとする。ダイフォンのモデルはもとのものを用い
る。
【0022】第4の発明では、図4におけるフォワード
・バックワードアルゴリズムによる学習ループを1回で
止める。
【0023】
【発明の効果】以上述べたように、第1の発明によれば
環境に依存するサブワードを連続音声認識に用いる場合
に、単語の接続部において処理量を増大させることな
く、連続的に発声された場合も高精度に認識することが
可能である。また、第2、第3、4の発明によれば、第
1の発明において、環境の長さの短いサブワードのモデ
ルのパラメータを環境の長さの長いサブワードのモデル
のパラメータから効率よく求めることができる。
【図面の簡単な説明】
【図1】第1の発明の実施例の認識方法を実施する装置
の全体のブロック図である。
【図2】実施例における単語辞書情報の一例を示す図で
ある。
【図3】第2の発明の実施例における音素モデルのパラ
メータの決定法を示す図である。
【図4】第3の発明の実施例における音素モデルのパラ
メータの決定法を示す図である。
【符号の説明】
1 文法情報格納部 2 モデルパラメータ格納部 3 単語辞書情報格納部 4 認識ネットワーク 5 音声分析部
フロントページの続き (56)参考文献 特開 平4−251300(JP,A) 特開 昭60−229099(JP,A) 電子情報通信学会論文誌 Vol.J 71−D No.9「単語遷移ネットワー クと音声セグメントの選択的スコアリン グによる連続単語認識」p.1640−1649 (昭和63年9月25日発行) 日本音響学会誌 Vol.44,No. 6,「語中VCV音節を用いた予備選択 法と大語彙単語音声認識法」p.407− 418(昭和63年6月1日発行) 日本音響学会誌 Vol.43,No. 10,「ベクトル量子化された語中VCV 音節パターンと後処理を用いた大語彙単 語音声認識法」p.752−763(昭和62年 10月1日発行) 電子情報通信学会技術研究報告[音声 ]Vol.86,No.283,SP86−76, 「規則とVCV・CVC環境別標準パタ ーンによる音韻の変動記述と単語認識実 験」p.41−48(1986年12月19日発行) 電子情報通信学会技術研究報告[音声 ]Vol.91,No.434,SP91− 115,「自動通訳のための不特定話者連 続音声認識システム」p.57−64(1992 年1月24日発行) 電子情報通信学会技術研究報告[音声 ]Vol.90,No.423,SP90−83, 「半音節を認識単位とする不特定話者連 続音声認識システム」p.45−52(1991 年1月28日発行) 電子情報通信学会技術研究報告[音声 ]Vol.89,No.90,SP89−15, 「半音節HMMによる連続音声認識」 p.23−28(1989年6月22日発行) 電子情報通信学会論文誌 Vol.J 75−D−▲II▼,No.8,Augu st1992,「半音節を単位とするHMM を用いた不特定話者音声認識」」p. 1281−1289,(平成4年8月25日発行) 日本音響学会平成4年度春季研究発表 会講演論文集▲I▼ 1−P−10「英語 不特定話者連続音声認識の試作」p. 123−124(平成4年3月17日発行) 日本音響学会平成4年度春季研究発表 会講演論文集▲I▼ 1−P−11「音声 認識のための適応尤度補正の評価」p. 125−124(平成4年3月17日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/06 G10L 15/10 G10L 15/18 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】隣接する音素の並びに依存して決定される
    サブワードを認識単位とし、語彙中の各単語をサブワー
    ドの列ないしネットワークで記述したサブワード表記辞
    書と単語の接続の制約を記述した文法とにより連続音声
    を認識する音声認識方法において、 環境の長さの異なる複数のサブワードを用意しておき、
    単語中での位置に応じて単語内に存在する環境のみに依
    存するサブワードを用いることを特徴とする連続音声認
    方法
  2. 【請求項2】請求項1記載の連続音声認識方法におい
    て、 環境の一部分が共通であるサブワードのモデルのパラメ
    ータを平均化した値をサブワードのモデルのパラメータ
    として用いることを特徴とする連続音声認識方法
  3. 【請求項3】請求項1記載の連続音声認識方法におい
    て、 各サブワードを隠れマルコフモデルでモデル化し、環境
    の一部分が共通であるサブワードについてモデルのパラ
    メータが等しくなるという拘束条件のもとで、フォワー
    ド・バックワードアルゴリズムによる学習を行うことに
    よって得られたパラメータをサブワードのモデルのパラ
    メータとして用いることを特徴とする連続音声認識
  4. 【請求項4】請求項3記載の連続音声認識方法におい
    て、 フォワード・バックワードアルゴリズムによる学習を1
    ループだけに限定して得られるパラメータをサブワード
    のモデルのパラメータとして用いることを特徴とする連
    続音声認識方法
JP4027019A 1992-02-14 1992-02-14 連続音声認識方法 Expired - Lifetime JP3033322B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4027019A JP3033322B2 (ja) 1992-02-14 1992-02-14 連続音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4027019A JP3033322B2 (ja) 1992-02-14 1992-02-14 連続音声認識方法

Publications (2)

Publication Number Publication Date
JPH05224692A JPH05224692A (ja) 1993-09-03
JP3033322B2 true JP3033322B2 (ja) 2000-04-17

Family

ID=12209382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4027019A Expired - Lifetime JP3033322B2 (ja) 1992-02-14 1992-02-14 連続音声認識方法

Country Status (1)

Country Link
JP (1) JP3033322B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3534196B2 (ja) 1994-06-01 2004-06-07 ソニー株式会社 音声認識装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4732030B2 (ja) 2005-06-30 2011-07-27 キヤノン株式会社 情報処理装置およびその制御方法
JP4909318B2 (ja) * 2008-06-16 2012-04-04 日本電信電話株式会社 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成4年度春季研究発表会講演論文集▲I▼ 1−P−10「英語不特定話者連続音声認識の試作」p.123−124(平成4年3月17日発行)
日本音響学会平成4年度春季研究発表会講演論文集▲I▼ 1−P−11「音声認識のための適応尤度補正の評価」p.125−124(平成4年3月17日発行)
日本音響学会誌 Vol.43,No.10,「ベクトル量子化された語中VCV音節パターンと後処理を用いた大語彙単語音声認識法」p.752−763(昭和62年10月1日発行)
日本音響学会誌 Vol.44,No.6,「語中VCV音節を用いた予備選択法と大語彙単語音声認識法」p.407−418(昭和63年6月1日発行)
電子情報通信学会技術研究報告[音声]Vol.86,No.283,SP86−76,「規則とVCV・CVC環境別標準パターンによる音韻の変動記述と単語認識実験」p.41−48(1986年12月19日発行)
電子情報通信学会技術研究報告[音声]Vol.89,No.90,SP89−15,「半音節HMMによる連続音声認識」p.23−28(1989年6月22日発行)
電子情報通信学会技術研究報告[音声]Vol.90,No.423,SP90−83,「半音節を認識単位とする不特定話者連続音声認識システム」p.45−52(1991年1月28日発行)
電子情報通信学会技術研究報告[音声]Vol.91,No.434,SP91−115,「自動通訳のための不特定話者連続音声認識システム」p.57−64(1992年1月24日発行)
電子情報通信学会論文誌 Vol.J71−D No.9「単語遷移ネットワークと音声セグメントの選択的スコアリングによる連続単語認識」p.1640−1649(昭和63年9月25日発行)
電子情報通信学会論文誌 Vol.J75−D−▲II▼,No.8,August1992,「半音節を単位とするHMMを用いた不特定話者音声認識」」p.1281−1289,(平成4年8月25日発行)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3534196B2 (ja) 1994-06-01 2004-06-07 ソニー株式会社 音声認識装置

Also Published As

Publication number Publication date
JPH05224692A (ja) 1993-09-03

Similar Documents

Publication Publication Date Title
US5333275A (en) System and method for time aligning speech
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
US5913193A (en) Method and system of runtime acoustic unit selection for speech synthesis
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP2733955B2 (ja) 適応型音声認識装置
US7181391B1 (en) Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2001521193A (ja) パラメータ共用音声認識方法及び装置
US5819221A (en) Speech recognition using clustered between word and/or phrase coarticulation
US5812974A (en) Speech recognition using middle-to-middle context hidden markov models
Ostendorf et al. The impact of speech recognition on speech synthesis
Boite et al. A new approach towards keyword spotting.
Lee et al. Improved acoustic modeling for continuous speech recognition
Lee et al. Acoustic modeling of subword units for speech recognition
JP3033322B2 (ja) 連続音声認識方法
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
Atal et al. Speech research directions
Tolba et al. Speech recognition by intelligent machines
Steinbiss et al. Continuous speech dictation—From theory to practice
Murveit et al. Training set issues in sri’s decipher speech recognition system
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP2976795B2 (ja) 話者適応化方式
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
Hwang et al. Between-word coarticulation modeling for continuous speech recognition
Ney et al. Prototype systems for large-vocabulary Speech Recognition: Polyglot and Spicos

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080218

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090218

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120218

Year of fee payment: 12

EXPY Cancellation because of completion of term