JPH09258775A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置

Info

Publication number
JPH09258775A
JPH09258775A JP8068047A JP6804796A JPH09258775A JP H09258775 A JPH09258775 A JP H09258775A JP 8068047 A JP8068047 A JP 8068047A JP 6804796 A JP6804796 A JP 6804796A JP H09258775 A JPH09258775 A JP H09258775A
Authority
JP
Japan
Prior art keywords
word
voice
search
voice recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8068047A
Other languages
English (en)
Inventor
Masaaki Yamada
雅章 山田
Yasuhiro Komori
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP8068047A priority Critical patent/JPH09258775A/ja
Publication of JPH09258775A publication Critical patent/JPH09258775A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 単語境界を考慮した音声認識の処理を高速化
し、かつ認識率を向上させる。 【解決手段】 単語音声内で探索して単語の尤度を求め
(S1)、前記単語の尤度を用いて後続の単語に結び付
けるデータを作成し(S2〜S5)、前記作成されたデ
ータに従って単語駆動探索を行う単語を選択し(S
6)、前記選択された単語について単語境界のモデルを
環境依存化し(S7)、その単語データについて単語内
探索を行って音声認識を行う(S11)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識を行なう
音声認識方法及び装置に関するものである。
【0002】
【従来の技術】従来より、音声認識の手法として、音素
等の、単語より小さい音声単位をモデル化して用いる手
法がある。また、この時、前後のモデルの種類等の前後
環境によって、モデルを詳細に分類して用いる方法があ
る。例えば、音楽「o」をその前後の音素によって
「a.O.i」(先行音素が「a」で後続音素が「i」
の時)、「k.O.s」(先行が「k」、後続が「s」
の時)の様に分類し、それぞれをモデル化して用いる方
法がある。これにより、音素等をそのままモデル化する
よりも高い認識率を得ることができる。また、認識結果
として尤もらしい順に複数個の結果を出力する方法とし
て、時間軸に沿って過去のデータから未来のデータに向
かって進む探索(前向き探索)と時間軸に逆行する方法
に進む探索(後向き探索)を併用する方法がある。この
方法では、前向き探索時には時間同期のViterbi
アルゴリズムを用い、後向き探索時には単語駆動のVi
terbiアルゴリズムを用いる。また、この方法で
は、後向き探索時において、次のViterbiアルゴ
リズムの対象となる単語を決定するための評価値として
前向き探索時のスコアと後向き探索時のスコアとの和が
用いられる。
【0003】ところで、前述の前後環境によって異なる
詳細なモデルを用いて連続音声認識を行なおうとした場
合、単語と単語の境界のモデルの用法に問題がある。す
なわち、単語境界では、複数の単語が多対多に接続され
るため、前後の環境が一意に決定しないという問題があ
る。
【0004】そこで、単語境界では前後環境による詳細
化を行なわないモデルを用いる方法や、単語境界のモデ
ルを前後環境の組み合せで並列にして用いる方法(図
3)が用いられている。
【0005】
【発明が解決しようとする課題】しかし、上記従来例で
は、以下のような課題があった。
【0006】1.単語境界では前後環境によって詳細化
しないモデルを用いる方法では、前後環境を詳細化した
場合に比べて認識率が低下する。
【0007】2.また、単語境界のモデルを前後環境の
組み合せで並列にして用いる方法では、単語間のモデル
数が増大し、前向き探索時の計算処理量が増大する。
【0008】
【課題を解決するための手段】上記課題を解決するため
に、本発明は好ましくは単語音声を入力し、前記単語音
声内で探索して単語の尤度を求め、前記単語の尤度を用
いて後続の単語に結び付けるデータを作成し、前記作成
されたデータに従って単語駆動探索を行う単語を選択
し、前記選択された単語について単語データの変換を行
い、前記変換された単語データについて単語内探索を行
う音声認識方法及び装置を提供する。
【0009】上記課題を解決するために、本発明は好ま
しくは前記単語音声は入力した音声から切り出した単語
単位とみなす音声とする。
【0010】上記課題を解決するために、本発明は好ま
しくは前記単語内探索の結果に従って入力音声を認識す
る。
【0011】上記課題を解決するために、本発明は好ま
しくは前記音声認識の結果を出力する。
【0012】上記課題を解決するために、本発明は音声
を入力し、前記入力音声に含まれる各単語について単語
内探索を行い、前記単語内探索の結果を後続の単語に結
び付け、前記入力音声から単語駆動探索の対象とする単
語を選択し、前記選択された単語について単語境界のモ
デルを前後環境に応じて入れ替え、前記単語について単
語内探索を行う音声認識方法及び装置を提供する。
【0013】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態を説明する。
【0014】図1は本発明の音声認識装置のハードウェ
ア構成である。
【0015】図1において、H1は音声認識の結果ある
いは音声認識の結果得られた応答を出力する出力装置で
あり、CRTや液晶表示器等である。また、表示器の他
に、印字装置(例えばLBPやインクジェットプリンタ
等)を備え、音声認識の結果の文字列を印字するように
しても良い。
【0016】H2は音声を入力する入力装置であり、マ
イクロフォン等である。
【0017】H3は数値演算・制御等の処理を行なう中
央処理装置であり、記憶装置H4に記憶された制御プロ
グラムに従って演算を行ない、後述する本発明に係わる
各処理を実行するよう制御する。
【0018】H4はディスク装置等の外部メモリ装置や
RAM・ROM等の内部メモリ或いはCDROMやFD
等の本体に着脱可能な記憶装置であり、本発明の手順や
処理に必要な一時的データおよび認識対象を示した文
法、音声モデル制御プログラムが格納されている。
【0019】H6は通信I/Fであり、公衆回線やLA
N等の通信手段を介して音声データや記憶装置H4に記
憶されているものとして上述した各データを本装置にと
り込み、記憶装置H4に記憶させるよう制御する。ま
た、図13は記憶装置H4に記憶されている制御プログ
ラムのメモリマップであり、1301〜1311に示す
ような制御プログラムを記憶している。
【0020】以上のハードウェア構成を踏まえて本発明
の一実施例を説明する。
【0021】図2は本発明の一処理を示すフローチャー
トである。
【0022】図4は、音声認識対象を示した文法ネット
ワークである。図4の単語「tokyo」、「osak
a」等枠で囲まれたデータは音素モデルで構成されてい
る(図5)。また、各音素モデルは、その両側の音素環
境によって細分類され環境依存モデルとなっている。例
えば、「tokyo」の「k」は、その両側がそれぞれ
「O」、「Y」なので、「o.k.y」というラベルが
付けられている。一方、語頭の「T」、語尾の「O」は
片側の音素のみが決定されているため片側音素環境依存
モデルとなっている。また、各音素は、複数の状態の連
結として構成されている。(図6)。また、図4中、
「S」および「E」は、文の始端と終端を示す仮想的な
単語である。
【0023】また、入力音声のパラメータ時系列を
【0024】
【外1】 以下のように表す。ここで、Tは入力音声の継続時間で
ある。
【0025】まず、単語内ViterbiステップS1
で、単語内Viterbiプログラム1301に従って
入力(x)に関して単語内の尤度更新を行なう。各単語
を構成する状態sの尤度ps,t は次の式で更新される。
【0026】
【外2】 ここで、Sは状態sおよびsの前に接続された状態から
なる集合、as′,s は状態s′から状態sへ遷移する際
の対数遷移確率bs (xt )は入力(x)に対する状態
sの尤度である。単語内ViterbiステップS1の
結果、単語の尤度pw,t が得られる。これは、単語の最
終音素の最終状態(s)の尤度p(s),tと(s)か
ら単語外へ遷移する対数遷移確率a(s),φの和であ
る。
【0027】
【外3】
【0028】次に、前向きスタック作成ステップS2
で、前向きスタック作成プログラム1302に従って各
単語に対応するスタックZw,t を作成する、スタックZ
w,t には、対応する単語w、作成された時刻tを記録し
ておく。
【0029】次に、前向きスタック更新ステップS3
で、前向きスタック更新プログラム1303に従って前
記前向きスタック作成ステップS2で作成されたスタッ
クZw,t に前向きスタック要素の挿入を行なう。前向き
スタック要素は、単語wの前に接続されている単語w′
およびその尤度pw′,t である(図7、図8)。また、
この時、スタックZw,t の要素数の上限を設定し、p
w′,t が大きいw′についてのみ挿入を行なっても良
い。
【0030】以上の単語内ViterbiステップS1
から前向きスタック更新ステップS3を、時刻t=0か
らt=T−1まで繰り返す。
【0031】次に、後向きスタック作成ステップS4
で、後向きスタック作成プログラム1304に従って、
後向きスタックZB を作成する。後向きスタックの要素
は、{w,τ,PB ,R,(p)}と表現される。ここ
で、wは後向き探索の対象となる単語、τはwの終了時
刻の集合、PB はwが各時刻t(∈τ)で終了した時の
後向き尤度の集合、Rは後向き探索の履歴、(p)はw
・Rという系列で終了する探索経路の最大尤度である。
【0032】
【外4】
【0033】次に、後向きスタック初期化ステップS5
で、後向きスタック初期化プログラム1305に従っ
て、後向きスタックZB に初期要素を入れる。初期要素
は、前記仮想単語「E」および時刻(T−1)に対応す
る前向きスタックZE,T-1 の全要素{w′,pw′T-1
}について生成された後向きスタック要素{w′,
{T−1},{0},φ,pw′T-1 }である。ここ
で、φは履歴が空であることを示している(図9)。
【0034】次に、後向き探索対象取り出しステップS
6で、探索対象取り出しプログラム1306に従って、
後向き探索の対象となる後向きスタックZB の要素を取
り出し、要素判定プログラム1307に従って取り出し
た要素を判定する。取り出される要素は、ZB の要素の
うちで(p)が最大のものである。ここで、ZB に要素
が1つも含まれていないならば、処理を終了する。ま
た、取り出された要素中の単語w′が文の始端を示す仮
想的な単語「S」であるならば、認識結果出力ステップ
S11へ処理を移す。それ以外の場合はステップS7に
移る。
【0035】次に、単語境界モデル環境依存化ステップ
S7で、要素入れ換えプログラム1308に従って前記
後向き探索対象取り出しステップS6で取り出された後
向き探索対象の要素{w,τ,PB ,R,(p)}の単
語wにおける単語境界のモデルを環境依存モデルに入れ
換え(w)′とする。前記のように、語頭・語尾の音素
は片側音素環境依存モデルとなっている(図5)。この
語頭・語尾の音素を、より左右環境依存モデルに分類す
る。まず、後向き探索の履歴Rによって、単語wに後続
する単語が規定されているため、語尾の音素の右音素環
境が決定される。また、語頭の音素は木構造に細分類さ
れる(図10)。
【0036】次に、後向き単語内Viterbiステッ
プS8で、後向き単語内Viterbi探索を行なう。
後向き単語内Viterbi探索の対象となる単語は、
前記単語境界モデル環境依存化ステップS7の結果の単
語(w)′である。また、前記後向き探索対象取り出し
ステップS6で取り出された要素{w,τ,PB ,R,
(p)}に示されている各時刻t∈τにおいて、後向き
尤度pt∈PB を単語(w)′への入力として後向きV
iterbi探索を行なう(図11)。該後向き単語内
ViterbiステップS8の結果は、各時刻における
単語(w)′の左端の後向き尤度PL,tおよびwに接続
し得る前向きスタックZw,t である(図12)。前記後
向き尤度PL,t は、(w)′の先頭が前記単語境界モデ
ル環境依存化ステップS7で木構造に構成されているた
めに、複数の尤度の集合となっている。
【0037】次に、後向きスタック要素生成ステップS
9で、スタック要素生成プログラム1309に従って後
向きスタックの要素を前記後向き単語内Viterbi
ステップS8の結果から生成する。前記後向き単語内V
iterbiステップS8の結果得られた尤度PL,t
よび前向きスタックZw,t の要素{(w′,
w′t),…}を単語w′毎にまとめ、後向きスタッ
ク要素{w′,τ′,P′B ,R′,(p)′}を生成
する。ここで、τ′は、要素としてw′を含むスタック
w,t の生成された時刻tの集合、PB は該時刻tにお
けるw′の最終音素に対応する(w)の後向き尤度の集
合pL,w′,t ,R′はwとRを接続したもの、(p)′
はmin(pw′,t +pL,w′,t )である。
【0038】次に、後向きスタック要素挿入ステップS
10で、スタック要素挿入プログラム1310に従って
前記後向きスタック要素生成ステップS9で生成された
後向きスタック要素を後向きスタックに挿入し、前記後
向き探索対象取り出しステップS6に処理を移す。
【0039】認識結果出力ステップS11では、認識結
果出力プログラム1311に従って前記後向き探索対象
取り出しステップS6で取り出された後向きスタックの
要素中のRを認識結果として出力し、前記後向き探索対
象取り出しステップS6に処理を移す。
【0040】先の説明では、前記後向きスタック要素生
成ステップS9において、τ′を、要素としてw′を含
む前向きスタックZw,t の生成された時刻tの集合、P
B を該時刻tにおけるw′の最終音素に対応するwの後
向き尤度の集合pL, w′,tとしたが、これを集合ではな
く代表的なt,pL, w′,t の1要素に縮退させても良
い。この場合、pw′,t +pL,w′,t =(p)′となる
ようなtを代表として選べば良い。
【0041】先の説明では、複数の認識結果が必ずしも
尤らしい順番で出力されるわけではない。そこで、認識
結果出力ステップS11の代わりに認識結果を一時的に
保持する認識結果一時保持ステップS12を設け、前記
実施の形態の終了後に尤度順に並べ直して出力してもよ
い。
【0042】先の説明において一直線に連なる音素モデ
ル連鎖は、たとえ言語的には単語とみなされない場合で
あっても単語とみなして良い。
【0043】
【発明の効果】以上説明したように、本発明によれば、
探索時間の増加を招くことなく単語間の前後環境を考慮
した音声認識を実現することが可能となる。
【図面の簡単な説明】
【図1】音声認識装置のハードウェア構成を示したブロ
ック図。
【図2】本発明に係る処理手順を示したフローチャー
ト。
【図3】従来法における単語境界を前後環境に応じて展
開した様子の図。
【図4】本発明に係る、文法ネットワークの例を示す
図。
【図5】文法ネットワーク上での単語が音素で構成され
ている様子を示した図。
【図6】各音素が複数の状態で構成されている様子を示
した図。
【図7】前向きスタック更新ステップS3の様子を模式
的に示した図。
【図8】前向きスタックの様子の一例を示す図。
【図9】後向きスタックの一例を示す図。
【図10】単語境界モデル環境依存化ステップS7の様
子を示した図。
【図11】後向き単語内ViterbiステップS8の
過程を模式的に示した図1。
【図12】後向き単語内ViterbiステップS8の
過程を模式的に示した図2。
【図13】メモリマップ例示図。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 単語音声を入力し、 前記単語音声内で探索して単語の尤度を求め、 前記単語の尤度を用いて後続の単語に結び付けるデータ
    を作成し、 前記作成されたデータに従って単語駆動探索を行う単語
    を選択し、 前記選択された単語について単語データの変換を行い、 前記変換された単語データについて単語内探索を行うこ
    とを特徴とする音声認識方法。
  2. 【請求項2】 前記単語音声は入力した音声から切り出
    した単語単位とみなす音声とすることを特徴とする請求
    項1に記載の音声認識方法。
  3. 【請求項3】 前記単語内探索の結果に従って入力音声
    を認識することを特徴とする請求項1に記載の音声認識
    方法。
  4. 【請求項4】 前記音声認識の結果を出力することを特
    徴とする請求項3に記載の音声認識方法。
  5. 【請求項5】 音声を入力し、 前記入力音声に含まれる各単語について単語内探索を行
    い、 前記単語内探索の結果を後続の単語に結び付け、 前記入力音声から単語駆動探索の対象とする単語を選択
    し、 前記選択された単語について単語境界のモデルを前後環
    境に応じて入れ替え、 前記単語について単語内探索を行うことを特徴とする音
    声認識方法。
  6. 【請求項6】 前記単語内探索の結果に従って入力音声
    を認識することを特徴とする請求項5に記載の音声認識
    方法。
  7. 【請求項7】 前記音声認識の結果を出力することを特
    徴とする請求項6に記載の音声認識方法。
  8. 【請求項8】 単語音声を入力する入力手段と、 前記単語音声内で探索して単語の尤度を求める単語尤度
    導出手段と、 前記単語の尤度を用いて後続の単語に結び付けるデータ
    を作成するデータ作成手段と、 前記作成されたデータに従って単語駆動探索を行う単語
    を選択する単語選択手段と、 前記選択された単語について単語データの変換を行う単
    語データ変換手段と、 前記変換された単語データについて単語内探索を行う単
    語内探索手段とを有することを特徴とする音声認識装
    置。
  9. 【請求項9】 前記単語音声は入力した音声から切り出
    した単語単位とみなす音声とすることを特徴とする請求
    項8に記載の音声認識装置。
  10. 【請求項10】 前記単語内探索の結果に従って入力音
    声を認識する手段を有することを特徴とする請求項8に
    記載の音声認識装置。
  11. 【請求項11】 前記音声認識の結果を出力する出力手
    段を有することを特徴とする請求項10に記載の音声認
    識装置。
  12. 【請求項12】 前記音声認識装置は前記各処理の制御
    プログラムを記憶した記憶媒体とすることを特徴とする
    請求項8に記載の音声認識装置。
  13. 【請求項13】 音声を入力する入力手段と、 前記入力音声に含まれる各単語について単語内探索を行
    う第一の単語内探索手段と、 前記単語内探索の結果を後続の単語に結び付ける手段
    と、 前記入力音声から単語駆動探索の対象とする単語を選択
    する単語選択手段と、 前記選択された単語について単語境界のモデルを前後環
    境に応じて入れ替る入れ替え手段と、 前記単語について単語内探索を行う第二の単語内探索手
    段とを有することを特徴とする音声認識装置。
  14. 【請求項14】 前記単語内探索の結果に従って入力音
    声を認識することを特徴とする請求項13に記載の音声
    認識装置。
  15. 【請求項15】 前記音声認識の結果を出力する出力手
    段を有することを特徴とする請求項14に記載の音声認
    識装置。
  16. 【請求項16】 前記音声認識装置は前記各処理の制御
    プログラムを記憶した記憶媒体とすることを特徴とする
    請求項13に記載の音声認識装置。
JP8068047A 1996-03-25 1996-03-25 音声認識方法及び装置 Pending JPH09258775A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8068047A JPH09258775A (ja) 1996-03-25 1996-03-25 音声認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8068047A JPH09258775A (ja) 1996-03-25 1996-03-25 音声認識方法及び装置

Publications (1)

Publication Number Publication Date
JPH09258775A true JPH09258775A (ja) 1997-10-03

Family

ID=13362493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8068047A Pending JPH09258775A (ja) 1996-03-25 1996-03-25 音声認識方法及び装置

Country Status (1)

Country Link
JP (1) JPH09258775A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877786A (zh) * 2018-06-29 2018-11-23 恒信东方文化股份有限公司 指令识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877786A (zh) * 2018-06-29 2018-11-23 恒信东方文化股份有限公司 指令识别方法

Similar Documents

Publication Publication Date Title
CN108305641B (zh) 情感信息的确定方法和装置
EP0321410B1 (en) Method and apparatus for constructing markov model word baseforms
US10847151B2 (en) Dialogue system and dialogue method
JP7407968B2 (ja) 音声認識方法、装置、設備及び記憶媒体
EP0705473B1 (en) Speech recognition method using a two-pass search
EP0590925A1 (en) Method of speech modelling and a speech recognizer
JPH0772839B2 (ja) 自動音声認識用に音類似に基づく文脈依存カテゴリへ音素の発音をグループ化する方法と装置
JPH0581918B2 (ja)
EP1178466B1 (en) Recognition system using lexical trees
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
JPS62231995A (ja) 音声認識方法
JP2001215985A (ja) 視覚的音声のトランスリンガル合成
US20200233908A1 (en) Interactive system and computer program therefor
JP2694062B2 (ja) 多辺マルコフで単語をモデル化する方法と装置
CN111783455B (zh) 文本生成模型的训练方法及装置、文本生成方法及装置
CN108231066A (zh) 语音识别系统及其方法与词汇建立方法
CN113779972A (zh) 语音识别纠错方法、系统、装置及存储介质
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置
CN111489737A (zh) 语音命令识别方法、装置、存储介质及计算机设备
US6507815B1 (en) Speech recognition apparatus and method
CN112951211A (zh) 一种语音唤醒方法及装置
JP2002215187A (ja) 音声認識方法及びその装置
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JPH11161464A (ja) 日本語文章作成装置
JP3948260B2 (ja) テキスト入力方法及びその装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060620