JP3265864B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3265864B2
JP3265864B2 JP26517594A JP26517594A JP3265864B2 JP 3265864 B2 JP3265864 B2 JP 3265864B2 JP 26517594 A JP26517594 A JP 26517594A JP 26517594 A JP26517594 A JP 26517594A JP 3265864 B2 JP3265864 B2 JP 3265864B2
Authority
JP
Japan
Prior art keywords
syntax
search history
search
network
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26517594A
Other languages
English (en)
Other versions
JPH08123471A (ja
Inventor
圭輔 渡邉
明人 永井
泰 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP26517594A priority Critical patent/JP3265864B2/ja
Publication of JPH08123471A publication Critical patent/JPH08123471A/ja
Application granted granted Critical
Publication of JP3265864B2 publication Critical patent/JP3265864B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、自然言語によるマン
・マシン・インタフェースに用いられる音声認識装置に
関するものである。
【0002】
【従来の技術】図25は、例えば、Proceedings of 199
1 International Conference on Acoustics, Speech &
Signal Processingの701-704頁に示された従来の連続音
声認識装置である。3は構文ネットワークを保持する構
文ネットワーク記憶部、4は音響モデルの標準パタンを
保持する音響辞書部、5は前記構文ネットワークと前記
音響モデルを用いて、入力音声に対する構文仮説の探索
を構文ネットワークにしたがって行ない、構文ネットワ
ークの構文ノード、前記構文ノードに到達した時刻、前
記構文ノードで前記時刻での探索スコア、前記構文ノー
ドの1つ前に到達した構文ノード、前記1つ前に到達し
た構文ノードに到達した時刻、前記構文ノードと前記1
つ前の構文ノード間の単語を含む探索履歴を出力する前
向き探索部、5は前向き探索部から出力される探索履歴
を保持する探索履歴記憶部、8は探索履歴記憶部に保持
された探索履歴を読み出し、探索履歴にしたがって構文
ネットワーク上を辿り、認識結果を生成する後向き探索
部である。
【0003】図26は、前向き探索部5に入力される入
力音声を示す図である。入力される音声は、t0
1 ,t2 ,・・・のような一定時間間隔でフレーム単
位に抽出される。そして、抽出された音声は、周波数分
析がなされ、例えば、16次元の特徴パラメータv0
1 ,v2 ,・・・が抽出される。この特徴パラメータ
0 ,v1 ,v2 ,・・・は、前向き探索部5に入力さ
れる。
【0004】図27は、音響辞書部4に記憶された音響
モデルの標準パタンを示す図である。例えば、音素/a
/の音響モデルとして、HMM(隠れマルコフモデル)
によるパタンAが登録されている。前向き探索部5は、
入力した特徴パラメータv0,v1 ,v2 ,・・・の系
列を図27に示すパタンA,パタンB,パタンC,・・
・と比較することにより、入力された特徴パラメータの
系列に対して各音素/a/,/i/,/u/,・・・の
尤度計算を行う。
【0005】図28は、構文ネットワークを生成するた
めの構文の一例を示す図である。構文規則は、規則部と
辞書部に分けられている。図28の辞書部の右辺に記述
されたものは、終端記号と呼ばれる。終端記号は、それ
以上展開されることはない。即ち、規則部及び辞書部に
おいて、終端記号が左辺に記述されることはない。一
方、規則部及び辞書部において、〈 〉で挟まれた記号
は、非終端記号である。非終端記号は、辞書部におい
て、左辺に記述される。また、規則部は、左辺、右辺と
も非終端記号によって記述される。
【0006】図29は、図28に示した構文により作成
された構文ネットワークを示す図である。図29に示す
構文ネットワークは、構文ネットワーク記憶部3に記憶
されているネットワークである。図29において、N
1,N2,N3・・・は、構文ノードである。また、1
つの構文ノードから他の構文ノードへの矢印は、構文ア
ークと呼ばれるものである。
【0007】前向き探索部5は、例えば、音響分析され
たある時刻t23の特徴パラメータv23が入力されると、
構文ネットワーク記憶部3に保持された構文ネットワー
ク、及び音響辞書部4に保持された標準パタンを参照し
て、構文ネットワークのすべての構文ノードに対して、
特徴パラメータとその構文ノードに接続している単語の
標準パタンを用いて尤度を計算する。この尤度が探索ス
コアである。そして、例えば、図30に示すような探索
履歴を出力する。図30に示す探索履歴は、図29の構
文ネットワークにおける構文ノードN3での、単語hj
akuに対する時刻t23での探索履歴を示しており、g
nには構文ノードN3、frmには構文ノードN3に到
達した時刻t23、probには構文ノードN3で時刻t
23の探索スコア、pgnには構文ノードN3の1つ前
に到達した構文ノードN2、sfrm には1つ前に到
達した構文ノードN2に到達した時刻t15、wordに
は構文ノードN3と1つ前に到達した構文ノードN2間
の単語hjaku、が保持されている。
【0008】次に、後向き探索部8の動作を図31及び
図32を用いて説明する。図32に示すように、最終時
刻t73において生成された探索履歴の中で、最大の探索
スコアを持つ探索履歴を選択し、その後同様にして時刻
35においても最大の探索スコアを持つ探索履歴を選択
する。このようにして、探索履歴の系列(j)−(h)
−(f)−(c)−(a)を得る。このようにして、正
解候補の1つとして「go hjaku en deo
negaisimasu」という単語の系列を得る。ま
た、第2番目の探索スコア、あるいは、第3番目の探索
スコアの単語等を組み合せることにより、上位N個の正
解候補を得て、音声認識の結果とする。そして、これら
出力された単語の系列に対してその後、意味素性を抽出
する処理を行う。
【0009】このように従来の音声認識装置において
は、前向き探索部5から出力されるすべての探索履歴が
探索履歴記憶部6に保持され、後向き探索部8において
索履歴記憶部6に保持された探索履歴を読み出し、探索
履歴にしたがって構文ネットワーク上を辿ることで認識
結果を生成することができる。
【0010】
【発明が解決しようとする課題】音声認識装置を、自然
言語によるマン・マシン・インタフェースに用いる場
合、例えば、電話によるホテル予約システムに用いる場
合、システムを駆動するために認識結果に含まれる意味
を抽出する必要がある。しかしながら、上記のような従
来の音声認識装置では、後向き探索部8から出力される
認識結果が単語の系列であるので、認識処理の後に単語
から例えば意味素性を抽出する処理を行なう必要があっ
た。
【0011】また、探索履歴記憶部6には、前向き探索
部5から出力されるすべての探索履歴が保持されるの
で、意味的には同じであるが、助詞や語尾などがわずか
に異なる構文仮説がすべて保持されることになる。この
結果、後向き探索部8から出力される上位N個の認識結
果は、意味的に同じ候補で占められ、正解が上位N個に
含まれないため、正しい認識結果が得られないという問
題点があった。
【0012】この発明は、上述のような課題を解決する
ためになされたもので、第1の目的は、後向き探索にお
いて認識と同時に発話に含まれる意味素性を抽出し、意
味素性の系列としての認識結果を出力する音声認識装置
を得るものである。
【0013】また、第2の目的は、上位N個の認識結果
が意味的に同じ候補で占められることなく、意味的に異
なった正解候補を多く出力する音声認識装置を得るもの
である。
【0014】
【課題を解決するための手段】この発明に係る音声認識
装置は、意味情報を付与した構文ネットワークを保持す
る構文ネットワーク記憶部と、音響モデルの標準パタン
を保持する音響辞書部と、前記構文ネットワークと前記
音響モデルを用いて、入力音声に対する構文仮説の探索
を前記構文ネットワークにしたがって行ない、探索履歴
を出力する前向き探索部と、前記前向き探索部から出力
される探索履歴を保持する探索履歴記憶部と、前記構文
ネットワークに付与された意味情報を参照して、前記探
索履歴記憶部に保持される探索履歴を書き換える探索履
歴書き換え部と、前記探索履歴記憶部に保持された探索
履歴を読み出し、前記探索履歴にしたがって前記構文ネ
ットワーク上を辿ることによって、認識結果を生成する
後向き探索部を備えたことを特徴とする。
【0015】前記音声認識装置は、更に、入力音声の文
法を規定する構文知識に意味情報を対応づけた構文・意
味知識を保持する構文・意味知識記憶部と、前記構文・
意味知識から意味情報を付与した構文ネットワークを生
成する構文ネットワーク生成部を備えたことを特徴とす
る。
【0016】この発明に係る音声認識装置は、意味情報
と演算規則を付与した構文ネットワークを保持する構文
ネットワーク記憶部と、音響モデルの標準パタンを保持
する音響辞書部と、前記構文ネットワークと前記音響モ
デルを用いて、入力音声に対する構文仮説の探索を前記
構文ネットワークにしたがって行ない、探索履歴を出力
する前向き探索部と、前記前向き探索部から出力される
探索履歴を保持する探索履歴記憶部と、前記構文ネット
ワークに付与された意味情報を参照して、前記探索履歴
記憶部に保持される探索履歴を書き換える探索履歴書き
換え部と、前記探索履歴記憶部に保持された探索履歴を
読み出し、前記探索履歴にしたがって構文ネットワーク
上を辿り、前記構文ネットワーク上に付与された意味情
報及び演算規則により意味情報の演算を行ない、認識結
果を出力する後向き探索部を備えたことを特徴とする。
【0017】前記音声認識装置は、更に、入力音声の文
法を規定する構文知識の中で、単語を規定する辞書部に
おいて単語に意味情報を対応づけ、規則部において意味
情報の演算規則を対応づけた構文・意味知識を保持す
る、構文・意味知識記憶部と、前記構文・意味知識か
ら、意味情報と演算規則を付与した構文ネットワークを
生成する構文ネットワーク生成部を備えたことを特徴と
する。
【0018】この発明に係る音声認識装置は、前記前向
き探索部が前記構文ネットワークの構文ノード、前記構
文ノードに到達した時刻、前記構文ノードで前記時刻で
の探索スコア、前記構文ノードの1つ前に到達した構文
ノード、前記1つ前に到達した構文ノードに到達した時
刻、前記構文ノードと前記1つ前の構文ノード間の単語
を探索履歴として出力するとともに、前記探索履歴書き
換え部は、探索履歴記憶部に保持されている同時刻・同
構文ノードに対する探索履歴で、単語の意味情報が同一
であるものが複数存在する場合、前記意味情報が同一で
ある探索履歴の中の一部の探索履歴を前記探索履歴記憶
部に残して、前記意味情報が同一である他の探索履歴を
前記探索履歴記憶部から削除することを特徴とする。
【0019】前記探索履歴書き換え部は、探索履歴記憶
部に保持されている探索履歴で、単語の意味情報が特定
のものである探索履歴を、その探索履歴が保持する1つ
前に到達した構文ノード及び1つ前に到達した構文ノー
ドに到達した時刻に対応する探索履歴で書き換えること
を特徴とする。
【0020】
【作用】上記のように構成された音声認識装置において
は、探索履歴書き換え部が、構文ネットワークに付与さ
れた意味情報を参照して、探索履歴記憶部に保持される
探索履歴を書き換えるので、後向き探索部において認識
と同時に発話に含まれる意味を抽出し、意味の系列とし
ての認識結果を出力できるようになる。
【0021】また、構文・意味知識記憶部が構文知識に
対して意味情報を対応づけて保持しているので、構文ネ
ットワーク生成部は、意味情報を付与した構文ネットワ
ークを自動的に生成する。
【0022】更に、また、後向き探索部で、構文ネット
ワーク上に付与された意味情報及び意味情報の演算規則
により意味情報の演算を行なうので、意味情報の演算結
果を認識結果として出力できるようになる。
【0023】また、構文・意味知識記憶部が意味情報と
演算規則を保持しているので、構文ネットワーク生成部
が意味情報と演算規則を付与した構文ネットワークを自
動的に生成する。
【0024】また、探索履歴書き換え部が、探索履歴記
憶部に保持されている同時刻・同構文ノードで単語の意
味情報が同一である探索履歴のうち、一部を探索履歴記
憶部に残し、他の探索履歴を探索履歴記憶部から削除す
るため、探索履歴記憶部に保持される、同時刻・同構文
ノードで意味的に同じ構文仮説を持つ探索履歴の数が減
少し、後向き探索部が出力する上位N個の認識結果は、
意味的に異なった正解候補を多く含むようになる。
【0025】更に、探索履歴書き換え部が、探索履歴記
憶部に保持されている探索履歴で、単語の意味素性が特
定のものである探索履歴を、その探索履歴が保持する1
つ前に到達した構文ノードかつ1つ前に到達した構文ノ
ードに到達した時刻に対応する探索履歴で書き換えるた
め、意味素性が特定のものである単語が構文仮説から削
除され、後向き探索部が出力する上位N個の認識結果
は、意味的に異なった正解候補を多く含むようになる。
【0026】
【実施例】
実施例1.図1は、この発明の一実施例である音声認識
装置を示すもので、1は入力音声の文法を規定する構文
知識に意味情報を対応づけた、構文・意味知識を保持す
る構文・意味知識記憶部、2は前記構文・意味知識か
ら、意味情報を付与した構文ネットワークを生成する構
文ネットワーク生成部、3は前記構文ネットワーク生成
部が生成した構文ネットワークを保持する構文ネットワ
ーク記憶部である。4は音響モデルの標準パタンを保持
する音響辞書部、5は前記構文ネットワークと前記音響
モデルを用いて、入力音声に対する構文仮説の探索を前
記構文ネットワークにしたがって行ない、前記構文ネッ
トワークの構文ノード、前記構文ノードに到達した時
刻、前記構文ノードで前記時刻での探索スコア、前記構
文ノードの1つ前に到達した構文ノード、前記1つ前に
到達した構文ノードに到達した時刻、前記構文ノードと
前記1つ前の構文ノード間の単語を含む探索履歴を出力
する前向き探索部である。6は前記前向き探索部から出
力される探索履歴を保持する探索履歴記憶部、7は前記
構文ネットワークに付与された意味情報を参照して、前
記探索履歴記憶部に保持される探索履歴を書き換える探
索履歴書き換え部である。8は前記探索履歴記憶部に保
持された探索履歴を読み出し、前記探索履歴にしたがっ
て前記構文ネットワーク上を辿ることによって、認識結
果を生成する後向き探索部である。
【0027】図2は、構文・意味知識記憶部1に保持さ
れる構文・意味知識の一例を示すものである。例えば、
右辺が終端記号hjakuである規則〈百〉:=hja
kuでは、意味情報として意味素性100を終端記号h
jakuに対して定義している。
【0028】図3は、構文・意味知識記憶部1に保持さ
れる構文・意味知識から、構文ネットワーク生成部2に
よって生成され、構文ネットワーク記憶部3に保持され
る構文ネットワークの一例を示すものである。各々の構
文アークには、構文知識の終端記号が付与され、同時に
終端記号に対する意味素性も付与される。例えば、終端
記号hjakuの構文アークには、終端記号hjaku
に対する意味情報として意味素性100が付与されてい
る。
【0029】図2及び図3において、格助詞と語尾に対
する意味情報として、意味素性NULLを付与してい
る。格助詞と語尾に対してNULLを付与しているの
は、音声認識処理において、重要な意味を持たないと考
えているからである。例えば、ホテル予約システムにお
いて金額を質問した場合、音声認識装置は回答として金
額を認識できれば良い。したがって、回答が「500円
でお願いします」、あるいは、「500円がいいで
す」、あるいは、「500円なんですが」等である場
合、音声認識装置は、「500円」を認識できれば良
く、その他の単語に意味を持たせる必要がない。したが
って、図2及び図3に示すように、格助詞及び語尾に対
しては、NULLという意味素性を付与している。
【0030】この実施例においても、従来例と同様、前
向き探索部5は、図4に示すような探索履歴を出力す
る。探索履歴書き換え部7は、構文ネットワーク記憶部
3に保持される構文ネットワークを参照することによ
り、探索履歴のword欄に記された単語を、その単語
の意味素性に書き換える。即ち、hjakuを100に
書き換える。図4の探索履歴を書き換えた例を図5に示
す。
【0031】後向き探索部8の動作を、図6に示す探索
履歴が探索履歴記憶部6に保持されている場合について
説明する。まず、入力音声の最終時刻t73、且つ、構文
ネットワークでの最終構文ノードN6に対応する探索履
歴の中で、最大の探索スコアを持つ探索履歴(j)で示
される探索履歴を、探索履歴記憶部6から選ぶ。次に、
探索履歴(j)のpgnの値N5と等しい値をgnに持
ち、探索履歴(j)のsfrmの値t35と等しい値をf
rmに持つ探索履歴(g),(h),(i)のうち、探
索スコアが最大の探索履歴(h)を探索履歴記憶部6か
ら選ぶ。以下、同様に探索履歴を辿ることにより、探索
履歴の系列(j)−(h)−(f)−(c)−(a)が
得られる。得られる探索履歴の系列は、時間的に逆向き
であるので、系列の最後の探索履歴(a)から順次wo
rd欄を参照することで、意味素性の系列「5 100
MONEY NULL NULL」を認識結果として出
力する。
【0032】以上のように、この実施例に係わる音声認
識装置は、入力音声の文法を規定する構文知識に意味情
報を対応づけた、構文・意味知識を保持する構文・意味
知識記憶部と、前記構文・意味知識から、意味情報を付
与した構文ネットワークを生成する構文ネットワーク生
成部と、前記構文ネットワーク生成部が生成した構文ネ
ットワークを保持する構文ネットワーク記憶部と、音響
モデルの標準パタンを保持する音響辞書部と、前記構文
ネットワークと前記音響モデルを用いて、入力音声に対
する構文仮説の探索を前記構文ネットワークにしたがっ
て行ない、前記構文ネットワークの構文ノード、前記構
文ノードに到達した時刻、前記構文ノードで前記時刻で
の探索スコア、前記構文ノードの1つ前に到達した構文
ノード、前記1つ前に到達した構文ノードに到達した時
刻、前記構文ノードと前記1つ前の構文ノード間の単語
を含む探索履歴を出力する前向き探索部と、前記前向き
探索部から出力される探索履歴を保持する探索履歴記憶
部と、前記構文ネットワークに付与された意味情報を参
照して、前記探索履歴記憶部に保持される探索履歴を書
き換える探索履歴書き換え部と、前記探索履歴記憶部に
保持された探索履歴を読み出し、前記探索履歴にしたが
って前記構文ネットワーク上を辿ることによって、認識
結果を生成する後向き探索部を備えたものである。
【0033】実施例2. この発明の一実施例である、図1の探索履歴書き換え部
7の動作について説明する。なお、実施例2において、
の1〜6及び8の動作は、実施例1と同じなので省
略する。この実施例では、意味的に同様な正解候補が多
数発生することを防止する例について説明する。例え
ば、認識結果が「go hjaku」、あるいは、「g
o bjaku」、あるいは、「go pjaku」の
いずれの場合であっても「5 100」を意味するもの
であり、これら3つの認識結果を1つの認識結果にまと
めてしまう例について説明する。
【0034】図7は、探索履歴記憶部6に保持された探
索履歴の中で、gn,frm,pgn,sfrmがすべ
て等しい3つの探索履歴の一例を示すものである。探索
履歴書き換え部7は、ネットワーク記憶部3に保持され
る構文ネットワークを参照することにより、それぞれの
探索履歴のword欄に記された単語の意味素性を得
る。図7に示す3つの探索履歴に記された単語は、すべ
て同じ意味素性100を持つので、探索履歴書き換え部
7は、探索スコアprobが最大でない探索履歴(b)
及び探索履歴(c)を探索履歴記憶部6から削除する。
これは、時刻t23において構文ノードN3に到達する意
味的に同じ2つの構文仮説を棄却したことに他ならな
い。したがって、後向き探索部8において、これら2つ
の構文仮説に基づいた認識結果が生成されることはな
い。
【0035】図8は、探索履歴書き換え部の7の動作を
示すタイミングチャート図である。図6に示すような
(a)〜(l)までの探索履歴は、図8に示すような時
刻に前向き探索部5により生成され、探索履歴記憶部6
に記憶される。例えば、時刻t23において、探索履歴
(c),(d),(e)が探索履歴記憶部6に一度記憶
される。探索履歴書き換え部7は、時刻t23に生成され
た3つの探索履歴を検査し、前述したように、gn,f
rm,pgn,sfrmがすべて等しい場合に、探索ス
コアが最大のものを除き、他のものを削除する。図8に
示す例においては、探索履歴(c)が残され、探索履歴
(d)と(e)が削除される。同様のことが時刻t35
も行われ、探索履歴(h)のみが残され、他の探索履歴
(g)と(i)が削除される。更に、時刻t73において
は、探索履歴(g)が残され、他の探索履歴(k)と
(l)が削除される。
【0036】図9は、探索履歴が削除される前と削除さ
れた後の状態を示す図である。図9(a)は、探索履歴
書き換え部が実施例1による意味素性付与機能を有して
いる場合の認識結果を示す図である。図9(b)は、探
索履歴書き換え部が実施例2による探索履歴削除機能を
有する場合の認識結果を示すものである。図9(a)の
場合、2×3×3×3=54通りの組み合せが考えら
れ、上位N個の正解候補は、54通りの中からN個のも
のを選び出すことになる。しかし、54通りの組み合せ
の中には、意味素性が同じ物が多数含まれているため、
上位N個には、結果として同じ物が多数含まれてしま
う。しかし、図9(b)に示すように、意味的に同じも
のを削除した場合には、2通りの組み合せしか存在せ
ず、上位N個に対して、意味の異なる正解候補を多く得
ることが可能になる。
【0037】なお、図8において、探索履歴書き換え部
7が探索履歴を削除するのは、探索履歴が新たに生成さ
れたそれぞれの時刻において行う場合を説明したが、探
索履歴記憶部6に探索履歴が記憶される時刻には削除を
行わず、後向き探索部8が後向きの探索を実行する直前
に、探索履歴書き換え部7が探索履歴記憶部に記憶され
た不必要な探索履歴を削除するようにしても構わない。
なお、図9(c)については、後述する実施例3におい
て説明する。
【0038】以上のように、この実施例は、探索履歴記
憶部に保持されている同時刻・同構文ノードに対する探
索履歴で、単語の意味素性が同一であるものが複数存在
する場合、前記意味素性が同一である探索履歴の中で最
大のスコアを持つもののみを前記探索履歴記憶部に残し
て、他の前記意味素性が同一である探索履歴を前記探索
履歴記憶部から削除する探索履歴書き換え部を備えたも
のである。
【0039】実施例3.この発明の一実施例である、図
1の探索履歴書き換え部7の動作を、探索履歴記憶部6
に図10に示す探索履歴が保持されている場合について
説明する。なお、実施例3において、図1の1〜6及び
8の動作は、実施例1と同じなので省略する。この実施
例においては、認識結果に対して影響を与えない意味素
性のものを予め削除してしまう場合について説明する。
例えば、「500円で」という認識結果があった場合
に、これを「500円」としてしまうような場合であ
る。「で」の意味素性がNULLである場合に、「で」
はなくても良いと考え、この「で」を削除する場合につ
いて以下に説明する。
【0040】探索履歴書き換え部7は、探索履歴記憶部
6に保持された探索履歴の中で、ある特定の意味素性、
例えば、認識結果として必要でない意味素性NULLを
持つ単語の探索履歴(d)に対して以下のような書き換
えを行なう。まず、探索履歴(d)のpgnの値N4と
等しい値をgnに持ち、探索履歴(d)のsfrmの値
30と等しい値をfrmに持つ探索履歴(a),
(b),(c)を探索履歴記憶部6から選ぶ。次に、探
索履歴(d)の探索スコア182.395と、探索履歴
(a),(b),(c)のうの最大探索スコアである1
58.962との差delta=23.433を求め
る。そして、探索履歴(d)を探索履歴記憶部6から削
除し、その代わりに、図11に示すような、gnの値が
探索履歴(d)のgnの値N5、frmの値が探索履歴
(d)のfrmの値t35、probの値がそれぞれ探索
履歴(a),(b),(c)のprobの値にdelt
aを加算したもの、sfrmの値がそれぞれ探索履歴
(a),(b),(c)のsfrmの値、wordの値
がそれぞれ探索履歴(a),(b),(c)のword
の値である探索履歴(e),(f),(g)を作成し、
探索履歴記憶部6に書き込む。
【0041】図12は、探索履歴記憶部6の状態を示す
図である。図12(a)は、図10に示した探索履歴記
憶部を示している。また、図12(b)は、図11に示
す探索履歴記憶部の状態を示している。また、図13
は、認識結果を示す図である。図13(a)は、図10
に示す認識結果を示している。図13(b)は、図11
に示す認識結果を示している。
【0042】図9(c)は、実施例1及び実施例2にお
いて認識された結果に対して、更に、実施例3による認
識結果として必要でない意味素性NULLを持つ単語の
探索履歴を削除した場合の状態を示す図である。図9
(c)に示すように、構文ノードN3〜N6間の「MO
NEY NULLNULL」は、2つの「NULL」が
削除され、「MONEY」として認識されることにな
る。
【0043】図14は、更に、実施例2及び実施例3に
よる探索履歴の削除を組み合せた場合の他の例を示す図
である。図14(a)のような探索履歴が記憶されてい
る場合、実施例3に示したような不必要な探索履歴を
(意味素性がNULLである探索履歴)書き換えること
により、図14(b)に示すような状態になる。この図
14(b)に示す状態に対して、実施例2に示したよう
な同一の意味素性を持つ探索履歴を削除することによ
り、図14(c)のような状態となる。このように、実
施例2と実施例3を組み合せることにより、認識結果と
して必要でない探索履歴や同一の意味を持つ探索履歴を
少なくすることができる。図9(c)に示す例は、実施
例2を先に適用し、その後実施例3を適用した場合を示
している。図14の場合は、実施例3を先に適用し、そ
の後実施例2を適用した場合を示している。いずれかの
実施例を先に適用することにより、効果的に探索履歴の
数を減少させることができる。したがって、例えば、実
施例2を適用し、その後実施例3を適用し、再び実施例
2を適用するようにし、実施例2と実施例3のいずれか
が先に適用される場合の両方を実行することが望まし
い。
【0044】以上のように、この実施例は、探索履歴記
憶部に保持されている探索履歴で、単語の意味素性がN
ULLという特定のものである探索履歴を、その探索履
歴が保持する1つ前に到達した構文ノード及び1つ前に
到達した構文ノードに到達した時刻に対応する探索履歴
で、書き換える探索履歴書き換え部を備えたものであ
る。
【0045】実施例4. この発明の一実施例である、図1の構文・意味知識記憶
部1、構文ネットワーク生成部2、構文ネットワーク記
憶部3及び後向き探索部8について説明する。なお、実
施例4において、図1の4〜7の動作は、実施例1と同
じなので省略する。前述した実施例においては、例え
ば、「5 100」という認識結果を得ることができる
が、実際の意味は、5×100=500という認識結果
を得ることが望ましい。この実施例では、5×100と
いうような演算を行い、その結果を認識結果として出力
できるような場合について説明する。
【0046】図15は、構文・意味知識記憶部1に保持
される構文・意味知識の一例であって、単語を規定する
辞書部において単語に意味素性を対応づけ、規則部にお
いて意味素性の演算規則を対応づけたものである。例え
ば、sem(〈数1〉)は、非終端記号〈数1〉から得
られる意味素性を表す。また、図15の(2)の構文規
則に定義された意味素性の演算規則sem(〈料金
2〉)=sem(〈数1〉)×sem(〈数2〉)は、
非終端記号〈料金2〉に対する意味素性が、sem
(〈数1〉)とsem(〈数2〉)の積から得られるこ
とを表す。
【0047】図16は、構文・意味知識記憶部1に保持
される構文・意味知識から、構文ネットワーク生成部2
によって生成され、構文ネットワーク記憶部3に保持さ
れる構文ネットワークの一例を示すものである。各々の
構文アークには、構文知識の終端記号が付与され、同時
に終端記号に対する意味素性も付与される。例えば、終
端記号hjakuの構文アークには、終端記号hjak
uに対する意味素性100が付与される。また、例え
ば、構文ノードN1には意味素性の演算規則sem
(〈料金2〉)=sem(〈数1〉)×sem(〈数
2〉)及びsem(〈数1〉)=sem(go〉)が付
与される。
【0048】後向き探索部8の動作を、探索履歴記憶部
6に図17に示す探索履歴が保持されている場合につい
て説明する。入力音声の最終時刻t23、且つ、構文ネッ
トワークでの最終構文ノードN3に対応する探索履歴の
中で、最大の探索スコアを持つ探索履歴(c)を、探索
履歴記憶部6から選ぶ。そして、意味素性の演算を以下
のように行なう。まず、wordの値である単語hja
kuの意味素性sem(hjaku)=100を、構文
ネットワークを参照することにより得る。次に、pgn
の値である構文ノードN2に付与された意味素性の演算
規則を参照して、意味素性の演算 sem(〈百〉)=sem(hjaku) sem(〈数2〉)=sem(〈百〉) を行い、sem(〈数2〉)=100を得る。意味素性
の演算が終ると、探索履歴(c)のpgnの値N2と等
しい値をgnに持ち、探索履歴(c)のsfrmの値t
15と等しい値をfrmに持つ探索履歴(a)を探索履歴
記憶部6から選ぶ。そして、意味素性の演算を以下のよ
うに行なう。まず、wordの値である単語goの意味
素性sem(go)=5を、構文ネットワークを参照す
ることにより得る。次に、pgnの値である構文ノード
N1に付与された意味素性の演算規則を参照して、意味
素性の演算を行い、sem(〈数1〉)=5を得る。更
に、構文ノードN2における意味素性の演算により、s
em(〈数2〉)=100が得られているので、sem
(〈料金2〉)=sem(〈数1〉)×sem(〈数
2〉)=5×100=500が得られる。
【0049】後向き探索部8は、図15の構文ノードN
1に付与された意味素性の演算規則sem(文)=se
m(〈料金2〉)より、認識結果として意味素性500
を出力する。
【0050】以上のように、この実施例は、入力音声の
文法を規定する構文知識の、単語を規定する辞書部にお
いて単語に意味素性を対応づけ、規則部において意味素
性の演算規則を対応づけた構文・意味知識を保持する構
文・意味知識記憶部と、探索履歴記憶部に保持された探
索履歴を読み出し、前記探索履歴にしたがって構文ネッ
トワーク上を辿り、前記構文ネットワーク上に付与され
た意味素性及び意味素性の演算規則により意味素性の演
算を行ない、意味素性の系列を認識結果として出力する
後向き探索部を備えたものである。
【0051】実施例5. この実施例においては、フレーム同期を用いた連続音声
認識において、N−Bestパラダイムに基づく場合を
説明する。また、この実施例においては、前述した実施
例1〜4に用いた手法を、特に従来のlattice
N−Best法と比較する場合を説明する。連続音声認
識において、N−Bestパラダイムに基づく効率的な
サーチアルゴリズムとして、R. Schwartz and Y.-L. Ch
ow: ■The N-Best algorithm: An efficient and exact
procedure for finding the N most likely sentence
hypotheses■, Proc. ICASSP, pp.81-84(1990).とR. Sc
hwartz and S. Austin: ■Acomparison of several app
roximate algorithms for finding multiple (N-BEST)
sentence hypotheses■, Proc. ICASSP, pp.701-704(1
991). が提案されている。このアプローチでは、助詞や
語尾などがわずかに異なる意味的に同じ構文仮説が、前
向き探索時に多く生成され、得られる上位N個の正解候
補は、意味的に同じ候補を多く含んだものとなる。この
結果、正解である候補が上位N個に含まれず、正しい認
識結果が得られないという問題点がある。そこで、この
実施例5では、前述した実施例1〜4と同様に、小さな
Nに対して意味的に異なった正解候補を多く得るため
に、意味的に同じ仮説を前向き探索時に枝刈りし、認識
と同時に発話に含まれる意味素性を抽出する手法を提案
する。
【0052】システムにおける音声認識の目的は、シス
テムへの入力パラメータとしての意味素性系列をユーザ
の発話から得ることである。したがって、正解である意
味素性系列が認識結果から失われないように、限られた
N個の正解候補の中により多くの意味的に異なった正解
候補を得ることが重要である。認識時に意味を用いる手
法として、南,山田,吉岡,鹿野:“自由発声音声認識
における意味を考慮した2段LRパーザ”、日本音響学
会平成5年度秋季研究発表会講演論文集,pp.69−
70(1993)がHMM−LRの枠組において、意味
を用いたビームサーチを提案しているが、本手法は、フ
レーム同期N−Bestサーチの前向き探索において、
構文ネットワークに付与した意味情報を用いて意味的に
同じ仮説の枝刈りを行うものである。
【0053】対話システムの認識部で用いる構文は、図
18に示すように、最上位の規則(文開始記号を左辺に
持つ規則)をシステムの動作を指定する項目の系列で定
義する。各項目は項目内文法により定義し、文法の辞書
部では非終端記号に対する音素系列と、その単語に対す
る意味素性を定義する。また、文法の規則部には、意味
素性に対する演算規則を定義する。演算規則は、トレー
スバック時に複数の意味素性から1つの意味素性を生成
するために用いられるものである。図18の例では、
〈料金3〉の意味素性は、非終端記号〈数〉に対する意
味素性$1と、〈千〉に対する意味素性$2の積として
得られる。単語に対して定義する意味素性の1つに、意
味を持たないという意味素性「NULL」を定義する。
例えば、「8月26日」と「8月の26日」の2つの発
話は、どちらも同じ意味素性を表し、格助詞の「の」に
意味素性を持たない。このような語に対して「NUL
L」を与える。以上述べた意味情報は、構文を構文ネッ
トワークに展開する際に、構文アーク及び構文ノード内
に埋め込まれる。
【0054】R. Schwartz and S. Austin: ■A compari
son of several approximate algorithms for finding
multiple (N-BEST) sentence hypotheses■, Proc. ICA
SSP,pp.701-704(1991).のlattice N−Bes
t法では、構文ノードに入ってくるすべての単語に対す
るトレースバックポインタを保持するが、この実施例で
提案する手法では、以下に述べる2つの方法で仮説の枝
刈りを行う。 (1)開始フレーム時刻及び遷移元の構文ノードが等し
く、且つ、意味素性が等しいトレースバックポインタ
は、最大スコアの物のみを残す(図19参照)。 (2)意味素性が「NULL」である単語のトレースバ
ックポインタを、遷移元の構文ノードに保持されたその
単語の開始時刻のトレースバックポインタを用いて書き
換える(図20参照)。
【0055】(1)により、意味素性が等しく時刻t’
にノードS’を出て時刻tにノードSに入る複数の仮説
は、1つに削減される。また、(2)により、意味素性
が「NULL」の単語は仮説から削除される(図21参
照)。更に、図22に示すように、途中の構文ノードで
の時刻が異なっていても意味素性が同一の仮説は、最大
スコアのものだけを残し、他をすべて仮説から削除する
ために、(2)による「NULL」の削除を行った後、
(1)を適用する。
【0056】この実施例による手法の評価を、ホテル予
約をタスクとする不特定話者・連続音声認識実験で行っ
た。用いた構文規則は、不要語などを含む比較的自由度
の高いもので、語構文規則数286、語彙146語であ
る。入力文は、25種類の文を成人男性5人が発声した
計125文を用いた。認識結果として出力される正解候
補数Nを5,10,20,・・・,100と変えて、意
味素性の系列が異なる候補がいくつ含まれるかを調べ
た。図23に125文の実験結果の平均を示す。また、
意味素性系列での認識率を図24に示す。従来のlat
tice N−Best法では、上位100位までの正
解候補の中で、意味素性系列が異なる候補は4.9個で
あり、意味的には同じ候補が大部分をしめているといえ
る。これに対し、この実施例で提案する手法では10位
までに意味素性系列が異なる候補が5.1個存在し、l
attice N−Best法に比べ、小さいNで意味
的に異なる正解候補が多く得られている。また、認識率
においても、本手法での10位までの結果は、latt
ice N−Best法での100位までの結果より良
いものとなっている。ただし、本手法を適用した後で
も、N個の候補がすべて互いに異なる意味を持つもので
はない。これは、前向き探索においては、「NULL」
以外の意味素性を持つ開始時刻の異なる仮説を枝刈りで
きないからである。これに対しては、後向きのトレース
バック時に、同じ意味素性系列を持つ候補を枝刈りする
ことで、更に多くの意味的に異なる候補を得ることがで
きる。
【0057】以上のように、この実施例は、前向き探索
において、意味的に同じ仮説を枝刈りして効率良く探索
を行い、小さなNに対して異なる意味を持つ正解候補を
が多く得られる手法を提案した。認識実験の結果、la
ttice N−Best法は、100位まで考慮して
も得られない意味素性系列の候補が、10位までのトレ
ースバックによって得られ、本手法の有効性を認識し
た。
【0058】
【発明の効果】この発明は、以上説明したように構成さ
れているので、以下に示すような効果を奏する。
【0059】構文ネットワークに付与された意味情報を
参照して、探索履歴記憶部に保持される探索履歴を書き
換える探索履歴書き換え部を設けたことにより、後向き
探索部において認識と同時に発話に含まれる意味を抽出
し、意味の系列としての認識結果を出力できる。
【0060】また、意味情報を付与した構文ネットワー
クを自動的に生成することができる。
【0061】また、構文ネットワーク上に付与された意
味情報及び意味情報の演算規則により意味情報の演算を
行ない、意味情報の系列を認識結果として出力する後向
き探索を設けたことにより、認識と同時に発話に含まれ
る意味情報を抽出できる。
【0062】また、意味情報と演算規則を付与した構文
ネットワークを自動的に生成することができる。
【0063】また、探索履歴記憶部に保持されている同
時刻・同構文ノードで単語の意味情報が同一である探索
履歴のうち、不要な探索履歴を探索履歴記憶部から削除
する探索履歴書き換え部を設けたことにより、探索履歴
部に保持される、同時刻・同構文ノードで意味的に同じ
構文仮説を持つ探索履歴の数が減少し、後向き探索部が
出力する上位N個の認識結果として、意味的に異なった
正解候補を多く含むものが得られる。
【0064】更に、探索履歴記憶部に保持されている探
索履歴で、単語の意味情報が特定のものである探索履歴
を、その探索履歴が保持する1つ前に到達した構文ノー
ド及び1つ前に到達した構文ノードに到達した時刻に対
応する探索履歴で書き換える探索履歴書き換え部を設け
たことにより、意味情報が特定のものである単語が構文
仮説から削除され、後向き探索部が出力する上位N個の
認識結果として、意味的に異なった正解候補を多く含む
ものが得られる。
【図面の簡単な説明】
【図1】 本発明の一実施例を示す音声認識装置の機能
ブロック構成図。
【図2】 本発明の実施例1での構文・意味知識記憶部
に保持される構文・意味知識の一例を示す図。
【図3】 本発明の構文・意味知識記憶部に保持される
構文・意味知識から、構文ネットワーク生成部によって
生成され、構文ネットワーク記憶部に保持される構文ネ
ットワークの一例を示す図。
【図4】 本発明の実施例1における探索履歴の一例を
示す図。
【図5】 本発明の実施例1における探索履歴書き換え
部によって、書き換えられた探索履歴の一例を示す図。
【図6】 本発明の実施例1における探索履歴記憶部に
保持された探索履歴の一例を示す図。
【図7】 本発明の実施例2における、gn,frm,
pgn,sfrmがすべて等しく、且つ、wordの意
味素性が等しい探索履歴の一例を示す図。
【図8】 本発明の実施例における探索履歴書き換え部
の動作を示す図。
【図9】 本発明の実施例における探索履歴書き換え部
の動作を示す図。
【図10】 本発明の実施例3における探索履歴の一例
を示す図。
【図11】 本発明の実施例3における探索履歴書き換
え部によって新たに作成される探索履歴の一例を示す
図。
【図12】 本発明の実施例3における探索履歴書き換
え部の動作を示す図。
【図13】 本発明の実施例3における探索履歴書き換
え部の動作を示す図。
【図14】 本発明の実施例2及び実施例3における探
索履歴書き換え部の動作を示す図。
【図15】 本発明の実施例4での構文・意味知識記憶
部に保持される構文・意味知識の一例を示す図。
【図16】 本発明の実施例4における構文・意味知識
記憶部に保持される構文・意味知識から、構文ネットワ
ーク生成部によって生成され、構文ネットワーク記憶部
に保持される構文ネットワークの一例を示す図。
【図17】 本発明の実施例4における探索履歴記憶部
に保持された探索履歴の一例を示す図。
【図18】 本発明の実施例5における構文の例を示す
図。
【図19】 本発明の実施例5における前向き探索にお
ける意味素性単位での枝刈りを示す図。
【図20】 本発明の実施例4における意味素性NUL
Lに対するトレースバックポインタの書き換えを示す
図。
【図21】 本発明の実施例5における意味素性がNU
LLである単語の削除を示す図。
【図22】 本発明の実施例5における途中のノードで
の時刻が異なる仮説の枝刈りを示す図。
【図23】 本発明の実験結果を示す図。
【図24】 本発明の意味素性系列での認識率を示す
図。
【図25】 従来の音声認識装置を示す図。
【図26】 入力音声を示す図。
【図27】 音響辞書部を示す図。
【図28】 従来の構文を示す図。
【図29】 従来の構文ネットワークを示す図。
【図30】 従来の探索履歴を示す図。
【図31】 従来の音声認識装置の動作を説明する図。
【図32】 従来の音声認識装置の動作を説明する図。
【符号の説明】 1 構文・意味知識記憶部、2 構文ネットワーク生成
部、3 構文ネットワーク記憶部、4 音響辞書部、5
前向き探索部、6 探索履歴記憶部、7 探索履歴書
き換え部、8 後向き探索部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−247452(JP,A) 特開 平5−216491(JP,A) 特開 平1−36798(JP,A) 特開 平4−253099(JP,A) 特開 平4−153398(JP,A) Schwartz,R;Austi n,S,A comparison o f several approxim ate algorithms for finding multiple (N−best)sentence h ypotheses,Acoustic s Speech,and Signa l Processing,1991.IC ASSP 1991 Internatio nal Conference on, 1991,米国,IEEE,vol 1, 701−704 (58)調査した分野(Int.Cl.7,DB名) G10L 15/18

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 意味情報を付与した構文ネットワークを
    保持する構文ネットワーク記憶部と、 音響モデルの標準パタンを保持する音響辞書部と、 前記構文ネットワークと前記音響モデルを用いて、入力
    音声に対する構文仮説の探索を前記構文ネットワークに
    したがって行ない、探索履歴を出力する前向き探索部
    と、 前記前向き探索部から出力される探索履歴を保持する探
    索履歴記憶部と、 前記構文ネットワークに付与された意味情報を参照し
    て、前記探索履歴記憶部に保持される探索履歴を書き換
    える探索履歴書き換え部と、 前記探索履歴記憶部に保持された探索履歴を読み出し、
    前記探索履歴にしたがって前記構文ネットワーク上を辿
    ることによって、認識結果を生成する後向き探索部を備
    えたことを特徴とする音声認識装置。
  2. 【請求項2】 前記音声認識装置は、更に、入力音声の
    文法を規定する構文知識に意味情報を対応づけた構文・
    意味知識を保持する構文・意味知識記憶部と、 前記構文・意味知識から意味情報を付与した構文ネット
    ワークを生成する構文ネットワーク生成部を備えたこと
    を特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 意味情報と演算規則を付与した構文ネッ
    トワークを保持する構文ネットワーク記憶部と、 音響モデルの標準パタンを保持する音響辞書部と、 前記構文ネットワークと前記音響モデルを用いて、入力
    音声に対する構文仮説の探索を前記構文ネットワークに
    したがって行ない、探索履歴を出力する前向き探索部
    と、 前記前向き探索部から出力される探索履歴を保持する探
    索履歴記憶部と、 前記構文ネットワークに付与された意味情報を参照し
    て、前記探索履歴記憶部に保持される探索履歴を書き換
    える探索履歴書き換え部と、 前記探索履歴記憶部に保持された探索履歴を読み出し、
    前記探索履歴にしたがって構文ネットワーク上を辿り、
    前記構文ネットワーク上に付与された意味情報及び演算
    規則により意味情報の演算を行ない、認識結果を出力す
    る後向き探索部を備えたことを特徴とする音声認識装
    置。
  4. 【請求項4】 前記音声認識装置は、更に、入力音声の
    文法を規定する構文知識の中で、単語を規定する辞書部
    において単語に意味情報を対応づけ、規則部において意
    味情報の演算規則を対応づけた構文・意味知識を保持す
    る構文・意味知識記憶部と、 前記構文・意味知識から、意味情報と演算規則を付与し
    た構文ネットワークを生成する構文ネットワーク生成部
    を備えたことを特徴とする請求項3記載の音声認識装
    置。
  5. 【請求項5】 前記前向き探索部は、前記構文ネットワ
    ークの構文ノード、前記構文ノードに到達した時刻、前
    記構文ノードで前記時刻での探索スコア、前記構文ノー
    ドの1つ前に到達した構文ノード、前記1つ前に到達し
    た構文ノードに到達した時刻、前記構文ノードと前記1
    つ前の構文ノード間の単語を探索履歴として出力すると
    ともに、 前記探索履歴書き換え部は、探索履歴記憶部に保持され
    ている同時刻・同構文ノードに対する探索履歴で、単語
    の意味情報が同一であるものが複数存在する場合、前記
    意味情報が同一である探索履歴の中の一部の探索履歴を
    前記探索履歴記憶部に残して、前記意味情報が同一であ
    る他の探索履歴を前記探索履歴記憶部から削除すること
    を特徴とする請求項1〜4いずれかに記載の音声認識装
    置。
  6. 【請求項6】 前記探索履歴書き換え部は、探索履歴記
    憶部に保持されている探索履歴で、単語の意味情報が特
    定のものである探索履歴を、その探索履歴が保持する1
    つ前に到達した構文ノード及び1つ前に到達した構文ノ
    ードに到達した時刻に対応する探索履歴で書き換えるこ
    とを特徴とする請求項1〜5いずれかに記載の音声認識
    装置。
JP26517594A 1994-10-28 1994-10-28 音声認識装置 Expired - Fee Related JP3265864B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26517594A JP3265864B2 (ja) 1994-10-28 1994-10-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26517594A JP3265864B2 (ja) 1994-10-28 1994-10-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH08123471A JPH08123471A (ja) 1996-05-17
JP3265864B2 true JP3265864B2 (ja) 2002-03-18

Family

ID=17413629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26517594A Expired - Fee Related JP3265864B2 (ja) 1994-10-28 1994-10-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP3265864B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
WO2001091108A1 (fr) * 2000-05-23 2001-11-29 Thomson Licensing S.A. Analyse syntaxique et semantique de commandes vocales
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
JP2004334193A (ja) * 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
CN112530437B (zh) * 2020-11-18 2023-10-20 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Schwartz,R;Austin,S,A comparison of several approximate algorithms for finding multiple(N−best)sentence hypotheses,Acoustics Speech,and Signal Processing,1991.ICASSP 1991 International Conference on,1991,米国,IEEE,vol 1,701−704

Also Published As

Publication number Publication date
JPH08123471A (ja) 1996-05-17

Similar Documents

Publication Publication Date Title
US8666745B2 (en) Speech recognition system with huge vocabulary
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JPH08227298A (ja) クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識
Boite et al. A new approach towards keyword spotting.
WO2002029615A1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
Chen et al. Automatic pronunciation assessment for Mandarin Chinese
JP3265864B2 (ja) 音声認識装置
JP2003208195A5 (ja)
CN112084791A (zh) 一种对话过程意图提取及说法提示方法、系统及其电子设备
Cremelie et al. Automatic rule-based generation of word pronunciation networks.
Ström Continuous speech recognition in the WAXHOLM dialogue system
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP2886117B2 (ja) 音声認識装置
Huang et al. A fast algorithm for large vocabulary keyword spotting application
JPH08248980A (ja) 音声認識装置
JP2871420B2 (ja) 音声対話システム
JP2905674B2 (ja) 不特定話者連続音声認識方法
Huang et al. Internet-accessible speech recognition technology
JP3535688B2 (ja) 音声認識方法
JP2731133B2 (ja) 連続音声認識装置
JP2975540B2 (ja) 自由発話音声認識装置
JP3818154B2 (ja) 音声認識方法
Cremelie et al. Generation of word pronunciation networks from automatically learned inter-word coarticulation rules

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees