JPH09281989A - 音声認識装置および方法 - Google Patents

音声認識装置および方法

Info

Publication number
JPH09281989A
JPH09281989A JP8086635A JP8663596A JPH09281989A JP H09281989 A JPH09281989 A JP H09281989A JP 8086635 A JP8086635 A JP 8086635A JP 8663596 A JP8663596 A JP 8663596A JP H09281989 A JPH09281989 A JP H09281989A
Authority
JP
Japan
Prior art keywords
evaluation
graph
score
recognition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8086635A
Other languages
English (en)
Inventor
Mitsuhisa Kamei
光久 亀井
Kazuhiko Sumiya
和彦 住谷
Nobuyuki Saito
伸行 斎藤
Masao Nukaga
雅夫 額賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP8086635A priority Critical patent/JPH09281989A/ja
Publication of JPH09281989A publication Critical patent/JPH09281989A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 言語的な評価処理において無駄な照合を省略
し、もって現実的な時間で認識処理を行えるようにす
る。 【解決手段】 入力された音声をサブワード単位に音声
認識をして、その認識結果を、認識結果の候補として有
効かどうかの判定基準となる情報とともに、グラフ構造
で出力し、そのグラフの表現の上で、構文解析や統計的
評価などの言語処理を行う。そして、言語処理が済んだ
部分の音響認識スコアと言語評価結果とに加え、言語処
理が済んでいない部分のグラフ上にふられたスコアとに
よって、有力な候補を選び、この有力な候補から処理を
継続して行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、比較的自由度が
高くて連続的に発声された音声を認識する方式に関し、
特に認識の処理効率が高く短時間で結果が得られる音声
認識装置および方法に関する。
【0002】
【従来の技術】文節や連文節文などの比較的自由な長さ
で連続的に発声された音声を認識する方法においては、
受理できる単語数の増加に伴って、単語単位の音声モデ
ルを用意しておくことが困難となる。したがって、音節
や音素などのサブワード単位の音声モデルと音声信号と
の照合と、言語的処理とを組み合せる方法が取られる。
特に自由度が高く語彙数の多い音声を対象とする時に
は、言語処理の結果に従って、音声照合を制限しない方
法が有力である。この時、サブワード単位の音声照合の
結果を有効に表現する方法として、グラフ表現を利用し
た音声認識手法がある。
【0003】しかし、サブワード単位に表現されたグラ
フの上を、言語的な評価処理を行う音声認識において
は、グラフの上のさまざまな経路の上を照合処理を行う
必要がある。一般にグラフの経路は非常に膨大になる。
特に自由度の高い音声に対しては、膨大な経路に対して
言語的処理を必要とするため、現実的な時間で認識結果
を得ることができなかった。
【0004】
【発明が解決しようとする課題】この発明は、以上の事
情を考慮してなされたものであり、言語的な評価処理に
おいて無駄な照合を省略し、もって現実的な時間で認識
処理を行えるようにすることを目的としている。
【0005】
【課題を解決するための手段】この発明によれば、上述
の目的を達成するために、音声認識装置に、入力された
音声を、音素、音節、半音節などの音韻を単位として照
合しその照合結果を表現するグラフを生成する手段と、
上記グラフ上の複数の音韻列について、音響的評価と、
少なくと文法情報や統計情報のいずれかを含む言語情報
を利用した言語評価とに基づいて、所定の程度に確から
しいと判別される音韻列を認識結果とする認識手段と、
上記言語情報を利用した評価を算出していく途中におい
て、上記グラフを作成するときに算出された評価スコア
と、それまでに済んだ部分的な上記言語評価のスコアと
に基づいて、最も認識結果として有望な音韻列を判定
し、上記有望な音韻列について、優先して、上記認識手
段における上記言語評価を進めさせる手段とを設けるよ
うにしている。
【0006】この構成においては、言語評価を順次に進
めていく際に、グラフ作成時にすでに生成されている情
報を有効に利用して、有望な音韻列(認識候補)につい
て優先的に言語的評価を行うようにしているので、不要
な言語評価を極力行わないですみ、迅速に認識を行うこ
とができる。
【0007】また、この構成においては、上記グラフを
作成するときに算出された評価スコアとして、少なくと
も、音韻照合時の照合スコアと、音韻の並びだけで評価
されるスコアとを利用し、かつ、上記言語評価として、
単語の並びに関する統計情報と、構文解析の結果とを利
用した評価を行うようにしてもよい。
【0008】また、上記グラフを作成するときに算出さ
れる、各ノードからグラフの末尾までの最良スコアを、
上記グラフを作成するときに、上記評価スコアとして上
記各ノードに保持させておき、上記保持された最良スコ
アを上記言語処理を行うときに利用するようにしてもよ
い。
【0009】また、上記グラフを作成する時に算出され
るスコアが、最終的な評価スコアと同じになるか、より
良いように評価されるように制限を加えるようにしても
よい。このようにすると、最も良いスコアの結果から順
番に得られることを保証できる。より良いように評価す
るとは、値が大きければ大きいほど良いスコアの場合に
は、より大きい値とすることを意味し、また値が小さけ
れば小さいほど良いスコアの場合には、より小さい値を
与えることを意味する。
【0010】また、この発明によれば、上述の目的を達
成するために、入力された音声を、音素、音節、半音節
などの音韻を単位として照合しその照合結果をグラフの
形式で表現し、上記グラフ上の複数の音韻列について、
音響的評価と、少なくと文法情報や統計情報のいずれか
を含む言語情報を利用した言語評価とに基づいて、所定
の程度に確からしいと判別される音韻列を認識結果とす
る音声認識方法において、上記言語情報を利用した評価
を算出していく途中において、上記グラフを作成すると
きに算出された評価スコアと、それまでに済んだ部分的
な上記言語評価のスコアとに基づいて、最も認識結果と
して有望な音韻列を判定し、上記有望な音韻列につい
て、優先して、上記言語評価を進めるようにしている。
【0011】この構成においても、不要な言語評価を極
力行わないですみ、迅速に認識を行うことができる。
【0012】つぎに、この発明の原理的な説明を行う。
【0013】この発明は、上記のサブワード単位に表現
されたグラフ上で構文解析や統計的評価などの言語処理
を行う時の処理効率の問題に対して、認識結果として有
力な候補(音韻列)を優先して認識処理を進めて、有力
でない候補の認識処理を省略することで、処理効率を高
くする。この時、認識候補として有力であるかないかの
判定が処理効率を上げる上で非常に重要になる。
【0014】言語処理は、発話の開始時点から終了時点
へ向けてとか、終了時点から開始時点へ、途中の特徴の
ある点から開始時点と終了時点へ向けてなどのように差
があるにせよ、いずれにしても順に処理が進められる。
この順に処理を進めている時に、それまでの処理がすで
に済み、評価が判明した情報だけを利用していたので
は、判定の精度が悪くなってしまう。特に、処理がまだ
進まない前半では、判定に利用できる情報量が少なくさ
まざまな候補を生じさせてしまい、全体の効率を上げる
ことができない。
【0015】そこで、処理の進んでいない部分に対して
も、候補として有望であるかないかの情報を推定して、
その情報とそれまでに処理が済んだ部分の情報と合わせ
て判定する方法が有力となる。しかし、処理の進んでい
ない部分に対して候補として有望であるかないかの情報
を推定する作業に時間を要していては、全体の処理効率
に影響をきたしてしまう。
【0016】この発明では、サブワード単位のグラフを
作成する時点で、少なくともサブワード単位の音声照合
の結果のスコアに加えて、例えばサブワード単位のNグ
ラムなど、サブワード単位の並びによって容易に得られ
るスコアを、グラフ上に付加する。言語処理時に、言語
処理が済んだ部分の音響認識スコアと言語評価結果とに
加え、言語処理が済んでいない部分のグラフ上にふられ
たスコアとを合わせて評価基準として、認識結果として
有望な候補から次の処理を進めていくことで、有望な候
補を先に処理を進めて、有望でない候補の処理を省略し
て処理を進めることを可能とする。
【0017】さらには、グラフ上に付加されたスコア
が、照合を進めた実際の評価結果よりも過大に、すなわ
ち、より有望な方向に評価することを保証する。その結
果として、後から照合が進む候補が、その前に照合が済
んだ候補よりもよいスコアになることがない。従って、
最終的によい認識結果となるべき候補から認識処理が終
了することができる。ある決まった数までの最もよい候
補を、認識結果として出力する時に有効に働く。
【0018】この発明によれば、入力された音声をサブ
ワード単位に音声認識をして、その認識結果を、認識結
果の候補として有効かどうかの判定基準となる情報(少
なくともサブワード単位の音響認識スコアなどを含む)
とともに、グラフ構造で出力し、そのグラフの表現の上
で、構文解析や統計的評価などの言語処理を行う。そし
て、言語処理が済んだ部分の音響認識スコアと言語評価
結果とに加え、言語処理が済んでいない部分のグラフ上
にふられたスコアとによって、有力な候補を選び、この
有力な候補から処理を継続して行う。さらには、グラフ
上にふられたスコアが照合を進めた実際の評価結果より
も過大に評価することを保証して、よい候補の順に認識
結果を出力する。
【0019】
【発明の実施の形態】以下この発明の実施例について説
明する。まず、図1〜図6を参照してこの発明の第1の
実施例について説明する。この実施例は、サブワード単
位として音節を採用したものである。
【0020】図2は第1の実施例の構成を示し、図1お
よび図3は実施例における処理の全体の流れを示す。図
1〜図3において、この実施例の音声認識装置は音韻認
識手段10、音素モデル記憶手段11、言語処理手段2
0、候補記憶手段21、結果記憶手段22、辞書記憶手
段30、構文規則記憶手段40、言語情報記憶手段50
を有している。
【0021】まず音声が入力されると、音韻認識手段1
0は入力された音声について音韻認識処理を行い音節単
位のグラフ表現を出力する(ステップS101)。この
グラフ表現を出力する方法としては、例えば、音響学会
平成7年春季研究発表会講演論文集pp.169−17
0にあるようなモーラ単位のグラフ作成方法が利用でき
る。
【0022】この方法に従うと、まず入力された音声に
対し、アナログデジタル変換や周波数解析などを始めと
する信号処理を行って、特徴パラメータの系列を生成す
る。次に発話の先頭から木構造上に音素単位のトレリス
を設定して、先の特徴パラメータの系列に対してビタビ
探索を行う。順次スコアの低いトレリスを消去しなが
ら、受理されたトレリスでまとめられるものをまとめて
いく作業を行う。ビタピ探索が発話の最後まで到達した
ら、後ろから発話の最後まできても受理されないトレリ
スなどを削除して、音韻照合のスコアと音節のモノグラ
ムのスコアを合わせて計算を行う。この結果として図4
に全体を、図5に一部を拡大して示すような、音節単位
のグラフ表現によって音韻の認識結果が出力される。
【0023】発話の開始が開始ノードに相当し、発話の
終了が終了ノードに相当する音節グラフの各アークが得
られる。開始ノードから終了ノードまで、左から右へた
どって得られるすべての経路が音韻の認識結果となって
いる。各アークは認識された各音節に対応する。図5に
示すように、その各アークには、音韻照合スコアと音節
のモノグラムのスコアが認識スコアとして付与されてい
る。また図5の表部分に示すように、各ノードにはそこ
から発話の終了までの最良スコアが付与されている。
【0024】言語処理手段20は、認識できる単語の情
報を蓄えた辞書記憶手段30と、品詞から受理できる文
を記述した構文規則記憶手段40と、たとえば統計的な
言語情報を蓄えた言語情報記憶手段50とを参照しなが
ら、音韻グラフからもっともらしい音声認識結果を抽出
する。このとき、各候補の照合中のデータを候補機邑久
手段21に記憶しておく。また照合に成功した候補を認
識結果記憶手段22に記憶しておく。
【0025】辞書記憶手段30は、特に、各単語の音節
のつながりと品詞とその表記との組合せを記憶してお
く。辞書引きの速度を速くするために、音節のつながり
をハッシュ法やトライ法などのキー検索の手法を取るの
が一般的である。なお、この実施例における単語とは、
構文を記述する形態素に相当する単位である。
【0026】構文規則記憶手段40には、一区切りの発
話がどのような品詞の並びになりうるのかが記述されて
いる。構文規則記憶手段40の記述と辞書記憶手段30
の照合の結果を比較しながら、入力された音声として正
しいかどうかを判定する。特に、文法を文脈自由文法で
記述しておき、LRテーブルの形にしておくことで、記
述能力が高くなり、かつ照合が速く済む。また言語情報
記憶手段50に蓄える言語情報としては、音節のバイグ
ラム、トライグラム、単語のモノグラム、バイグラム、
などの統計情報や品詞列の最少コスト法などの経験的情
報などがある。これらを用いると簡単に評価を行え、し
かもこれらは有力な情報源となる。
【0027】候補記憶手段21は、言語処理手段20が
照合処理を進めている候補を記憶している。図6は記憶
する最低限の情報の概念図を示す。表の各行が1つの候
補を表している。スコアは、候補の認識結果としてのも
っともらしさを表し、結果として有望そうな候補から処
理を進める、この発明の方式において、処理順番を決め
る基準ともなっている。本実施例では、各候補は、スコ
アが少ないほど候補としてもっともらしいとされる。ま
た、スコアの少ない順に並びかえを行っており、最も有
望な候補をすぐ取り出せるようになっている。ノード
は、音節グラフ上でその候補の探索がどこまで達してい
るかを示している。単語列は、その候補に対してすでに
照合が進んだ部分で適合した単語である。ここでは記憶
領域を省き、処理時間を短くする目的で、単語の情報を
辞書記憶手段30から複写してくるのではなく、辞書記
憶手段30上の該当する部分へのラベルやポインタなど
の参照手掛かりを記入している。従って、品詞や音節列
などの単語に関する情報を得たいときには、参照手掛か
りをもとに、辞書記憶手段30を参照することになる。
構文解析状態は、それまで照合してきたその時の構文解
析状態である。構文解析にLRパーザを利用する場合に
は、状態のスタツクとなっている。以上、最低限記憶し
ておく例を示したが、情報の参照速度を速めるために、
もっと多くの情報を蓄える方法もある。例えば、スコア
はトータルだけではなく、各言語情報や、音韻などに分
けて細かく記憶しておくと、さらに照合が進んだ時のス
コア計算に利用できる。また、音節列や、品詞列を、単
語列とは別に記憶すれば、言語情報によるスコア計算時
に利用できる。
【0028】結果記憶手段22は、照合の済んだ認識結
果を記憶する。最終的に、結果を出力するために必要な
ので、記憶しておく情報は、出力時に求められる情報と
なる。かな漢字混じりの表現だけ出力する場合には、そ
の文字列だけを保持していればよいが、一般には最終的
なスコアなども保持しておく。
【0029】言語処理手段20における言語処理の流れ
を、図1の後半部分に示す。まず、前記の音節単位のグ
ラフ表現を受け取り、処理を開始する。まず処理中の候
補を記憶しておく候補記憶手段21を初期状態の候補を
一つだけ入っている状態にして、処理の終了した認識候
補を記憶しておく認識結果記憶手段22をクリアする
(ステップS102)。次に、候補記憶手段21から最
もスコアのよい候補を取り出す(ステップS103、S
104)。ただし最初は、ステップS102で用意した
候補を取り出すことになる。取り出した候補が、照合が
音節グラフの最後まで到達していれば、その候補を結果
記憶手段22に移す(ステップS106)。ただし、最
初に初期化された候補は、最後まで到達した候補ではあ
り得ないので、言語照合の手続きに入る(ステップS2
00)。
【0030】本実施例における言語照合の手続きの流れ
を図3に示す。取り出した候補の探索が済んだ終端のノ
ードから辞書に含まれる音節列をグラフから捜し出す
(ステップS211)。ただし、最初の候補では、グラ
フの先頭から辞書引きを行う。例えば図5の1番のノー
ドからは、辞書に従い、名詞の「尾(お)」形容詞の語
幹の「重(おも)」名詞の「斧(おの)」などが辞書引
きの結果として得られる。
【0031】次に、照合に成功した各単語の品詞を言語
処理手段20に渡して、文法構造上正しい単語の並びで
あるか判定する(ステップS212)。LRパージング
を利用する場合には、照合に成功した単語の品詞を先読
み記号として入力する。その結果として最終的に、先読
み記号として入力された品詞が、シフトされれば受理さ
れたことを意味し、シフトまでたどり着かない場合は文
法的に誤った候補を意味する。
【0032】文法照合の結果、誤った単語の並びである
と判断された場合には、その候補は消去される。他方、
受理しうると判断された場合には、その候補の言語的評
価を行いスコアを付ける(ステップS213)。具体的
には、言語情報記憶手段50を参照して、必要なデータ
を手掛かりにして評価スコアを得る。必要なデータと
は、音節のバイグラムやトライグラムを使う場合には音
節列を、単語のモノグラムやバイグラムを使う場合には
単語列を、品詞列の最少コスト法を使う場合には、品詞
列の各情報である。
【0033】評価されたスコアに応じて、候補記憶手段
21へ候補を戻す(ステップS214)。候補記憶手段
21へ記憶する情報は、少なくとも、候補の単語列、構
文解析の状態、音節グラフ上の到達ノード、スコア、グ
ラフ上の未探索部分の最良スコアである。音節列や、品
詞列などは単語列から導けるので必ずしも記憶しておく
必要がないが、探索の時間の問題で別途記憶しておくこ
とも有効である。ただし、あらかじめ決められた条件を
満たさない場合には、その候補は消去される。決められ
た条件とは、候補記憶手段21に入っている候補のうち
もっともよいスコアの候補からのスコアの差や、あらか
じめ決められたスコア、候補記憶手段21へ入れる候補
の数に上限を決めて、その候補がその数に入らないなど
の条件である。
【0034】候補記憶手段21から最もスコアのよい候
補を認識結果として有望な候補として取り出し、上記の
照合処理を行う。ただし、取り出した候補が音声の終わ
りまで達していて文として成立していれば、認識結果と
して認識結果記憶手段22に情報を移す。この時、認識
結果記憶手段22に認識結果が決められた数だけ存在す
れば、認識処理は終了して結果を出力して、次の音声認
識処理に移る。また、候補記憶手段21から候補を取り
出そうとした時に、候補が一つも無い場合にも、処理は
終了する。この場合に、認識結果記憶手段22に結果が
1つ以上あればそれを認識結果とし、1つも無い場合に
は、認識に失敗したことを表す。この認識結果を、外部
に出力して一つまとまりの音声に対する認識処理が終了
する(ステップS108)。
【0035】上記の実施例では、音節グラフに乗ってい
るスコアを未探索部分の予測スコアとして用い、他方、
音節のバイグラム、トライグラム、単語のモノグラム、
バイグラム、品詞列の最少コスト法などの評価のスコア
をすでに言語処理の済んだ部分のスコアとして用い、両
者を合わせてスコアに基づいて最も有力な候補を取り出
し、言語処理を進めている。この時、予測スコアを含め
て有望かどうかの判定に利用したスコアが、最終的に照
合が済んだ時の実際のスコアよりもよい、すなわち有望
である方向へ予測スコアを推定することが必ず守られて
いるとする。この場合は、後から照合が終了した候補
が、先に照合が終了した候補よりよいスコアになること
がない。この性質を利用して、先に照合が終了した候補
から、第1番目にもっともらしい認識結果、2番目にも
っともらしい認識結果と決めていき、あらかじめ決めて
おいた数の認識結果まで照合が終了した時点で、認識処
理を終了しても、認識性能を落とすとこがない。
【0036】上記の手順で、音声認識を進めることで、
有望な候補から照合が進む効率のよい認識が実現され
る。
【0037】つぎにこの発明の第2の実施例について説
明する。この発明では、音韻認識の結果として出力され
るサブワードグラフの単位は音節に限定されない。音響
的特徴の区切りとして音素レベルの認識にもこの発明は
適用できる。音素単位もしくはそれ以下の単位の音響モ
デルを用意しておき、前記実施例と同様の方法で音素単
位のグラフ表現を作成してこの発明を適用することがで
きる。第2の実施例は音素レベルでこの発明を適用する
ものである。グラフ表現に乗せるスコアは、音素の照合
スコアと、音素のモノグラムのスコアである。第1の実
施例と同様に、各ノードには、グラフの終端までの最良
スコアがふられている。
【0038】文法は、音素を終端記号とする文法を記述
しておき、それをLRテーブルに構成しておく。言語処
理手段20では、音素グラフの先頭から言語照合をして
いくが、先の実施例では、候補記憶手段21から一つの
候補を取り出したら、単語単位に照合を進めていた。本
実施例では、音素を1つ分だけ照合を進めたら、候補記
憶手段21に候補を戻すようになっており、この点で先
の実施例と異なる。
【0039】本実施例のステップS200の言語照合の
手順を図7にフローチヤートで示す。図7において、取
り出した候補の探索が済んだ末尾のノードにつながる音
素を先読み記号として、LRパーザに入力する(ステッ
プS221)。LRパージングの結果、先読み記号がシ
フトされればそれを候補として、スコア計算をして候補
記憶手段21に入れ、シフトまでたどり着くことができ
なければ候補として適切でない音素列であったとして消
去する(ステップS222)。
【0040】スコア計算では、まず音素列のトライグラ
ム・スコアを計算する。また、音素列が単語としてリデ
ユースされた時には、その受理された単語の品詞ごとの
トライグラムを計算する(ステップS223)。スコア
が計算された候補は、候補記憶手段21に戻される(ス
テップS224)。この時、スコアが低く候補記憶手段
21に記憶するに値しない候補は消去する。
【0041】次に、候補記憶手段21から最もスコアの
高い候補を取り出して、上記の言語照合手続きを行うこ
とを、順次繰り返す。以下第1の実施例と同様に、取り
出した候補が音声の終わりまで達していて文として成立
していれば、認識結果として認識結果記憶手段22に情
報を移す。この時、決められた数だけ認識結果記憶手段
22に認識結果がたまれば、認識処理は終了して結果を
出力して次の音声認識処理に移る。候補記憶手段21か
ら候補を取り出そうとした時に、候補が一つも無い場合
には、処理は終了する。
【0042】この場合に、認識結果記憶手段22に結果
が1つ以上あればそれを認識結果とし、1つも無い場合
には、認識に失敗したことを表す。
【0043】
【発明の効果】この発明によれば、サブワード単位のグ
ラフ表現を利用して文節や連文節文などの比較的自由な
長さで連続的に発声された音声を認識する方法において
も、無駄な照合処理を省略して、短時間で認識処理を行
うことが可能となるという効果を有する。
【図面の簡単な説明】
【図1】この発明の第1の実施例の処理の流れを示すフ
ローチャートである。
【図2】上述第1の実施例の構成を示すブロック図であ
る。
【図3】上述第1の実施例の言語照合処理の流れを示す
フローチャートである。
【図4】上述第1の実施例の音節グラフの1例の概念図
である。
【図5】図4に示した音節グラフの一部の拡大図であ
る。
【図6】上述第1の実施例の候補記憶手段21に保持す
るデータの概念図である。
【図7】この発明の第2の実施例の言語照合処理の流れ
を示すフローチャートである。
【符号の説明】
10 音韻認識手段 11 音素モデル記憶手段 20 言語処理手段 21 候補記憶手段 22 結果記憶手段 30 辞書記憶手段 40 構文規則記憶手段 50 言語情報記憶手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 額賀 雅夫 神奈川県足柄上郡中井町境430 グリーン テクなかい 富士ゼロックス株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を、音素、音節、半音節
    などの音韻を単位として照合しその照合結果を表現する
    グラフを生成する手段と、 上記グラフ上の複数の音韻列について、音響的評価と、
    少なくと文法情報や統計情報のいずれかを含む言語情報
    を利用した言語評価とに基づいて、所定の程度に確から
    しいと判別される音韻列を認識結果とする認識手段と、 上記言語情報を利用した評価を算出していく途中におい
    て、上記グラフを作成するときに算出された評価スコア
    と、それまでに済んだ部分的な上記言語評価のスコアと
    に基づいて、認識結果として最も有望な音韻列を判定
    し、上記有望な音韻列について、優先して、上記認識手
    段における上記言語評価を進めさせる手段とを有するこ
    とを特徴とする音声認識装置。
  2. 【請求項2】 上記グラフを作成するときに算出された
    評価スコアとして、少なくとも、音韻照合時の照合スコ
    アと、音韻の並びだけで評価されるスコアとを利用し、
    かつ、上記言語評価として、単語の並びに関する統計情
    報と、構文解析の結果とを利用した評価を行う請求項1
    記載の音声認識装置。
  3. 【請求項3】 上記グラフを作成するときに算出され
    る、各ノードからグラフの末尾までの最良スコアを、上
    記グラフを作成するときに、上記評価スコアとして上記
    各ノードに保持させておき、上記保持された最良スコア
    を上記言語処理を行うときに利用する請求項1または2
    記載の音声認識装置。
  4. 【請求項4】 上記グラフを作成する時に算出されるス
    コアが、最終的な評価スコアと同じにまたは上記最終的
    な評価スコアよりも良く評価されるようにした請求項
    1、2または3記載の音声認識装置。
  5. 【請求項5】 入力された音声を、音素、音節、半音節
    などの音韻を単位として照合しその照合結果をグラフの
    形式で表現し、上記グラフ上の複数の音韻列について、
    音響的評価と、少なくと文法情報や統計情報のいずれか
    を含む言語情報を利用した言語評価とに基づいて、所定
    の程度に確からしいと判別される音韻列を認識結果とす
    る音声認識方法において、上記言語情報を利用した評価
    を算出していく途中において、上記グラフを作成すると
    きに算出された評価スコアと、それまでに済んだ部分的
    な上記言語評価のスコアとに基づいて、最も認識結果と
    して有望な音韻列を判定し、上記有望な音韻列につい
    て、優先して、上記言語評価を進めることを特徴とする
    音声認識方法。
JP8086635A 1996-04-09 1996-04-09 音声認識装置および方法 Pending JPH09281989A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8086635A JPH09281989A (ja) 1996-04-09 1996-04-09 音声認識装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8086635A JPH09281989A (ja) 1996-04-09 1996-04-09 音声認識装置および方法

Publications (1)

Publication Number Publication Date
JPH09281989A true JPH09281989A (ja) 1997-10-31

Family

ID=13892490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8086635A Pending JPH09281989A (ja) 1996-04-09 1996-04-09 音声認識装置および方法

Country Status (1)

Country Link
JP (1) JPH09281989A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258439A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
CN109243428A (zh) * 2018-10-15 2019-01-18 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258439A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
CN109243428A (zh) * 2018-10-15 2019-01-18 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及系统

Similar Documents

Publication Publication Date Title
Ward et al. Recent improvements in the CMU spoken language understanding system
US8719021B2 (en) Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
US5241619A (en) Word dependent N-best search method
EP0801378B1 (en) Method and apparatus for speech recognition
Ward Extracting information in spontaneous speech.
Schwartz et al. Multiple-pass search strategies
JP2000075895A (ja) 連続音声認識用n最良検索方法
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
Hakkinen et al. N-gram and decision tree based language identification for written words
JP4684409B2 (ja) 音声認識方法及び音声認識装置
US20050038647A1 (en) Program product, method and system for detecting reduced speech
US6980954B1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
KR100726875B1 (ko) 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
Fosler-Lussier et al. On the road to improved lexical confusability metrics
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JPH08248980A (ja) 音声認識装置
JP2000056795A (ja) 音声認識装置
Vu et al. Vietnamese automatic speech recognition: The flavor approach
JPH09281989A (ja) 音声認識装置および方法
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
Lau Subword lexical modelling for speech recognition
JPH1097275A (ja) 大語彙音声認識装置
Smaïli et al. An hybrid language model for a continuous dictation prototype
JP3494338B2 (ja) 音声認識方法