JPH08248979A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08248979A
JPH08248979A JP7070435A JP7043595A JPH08248979A JP H08248979 A JPH08248979 A JP H08248979A JP 7070435 A JP7070435 A JP 7070435A JP 7043595 A JP7043595 A JP 7043595A JP H08248979 A JPH08248979 A JP H08248979A
Authority
JP
Japan
Prior art keywords
phoneme
phonemes
fluctuation
recognition
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7070435A
Other languages
English (en)
Inventor
Mitsuhisa Kamei
光久 亀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7070435A priority Critical patent/JPH08248979A/ja
Publication of JPH08248979A publication Critical patent/JPH08248979A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 発声の揺らぎに対して、認識候補としての音
素片列を情報量を減少させることなく少ない数で表現
し、処理効率を向上させる。 【構成】 入力された音声データから特徴量抽出手段3
で特徴量を抽出し、モデル記憶手段5に保持された音素
片モデルを参照しつつ、音素片照合手段4で抽出した特
徴量に基づいて対応する音素片を認識し、記号記憶手段
8には予め発声が揺らぐ可能性のある音素片ついて揺ら
ぎの関係にある音素片とこれら音素片を代表して表す代
表記号とを対応付けて保持しておき、認識結果として受
理した発声が揺らぐ可能性のある音素片を音素片列表現
生成手段7でいずれの音素片に近いものかの重みを付加
して代表記号で表現する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、発声された音声を音響
的照合によって音素或いは音節等といった音素片の単位
に認識し、その音素片の並びを言語的処理して最終的に
認識結果を決定する音声認識装置に関し、特に、発声に
揺らぎのある音素片について、その認識結果の表現方式
を工夫して言語的処理の負荷を軽減する音声認識装置に
関する。
【0002】
【従来の技術】機械によって音声を認識する場合、音響
モデルを単語の単位で用意して音声と照合する方式で
は、単語数が増えると膨大な音響モデルを用意しなけれ
ばならない。そこで、ある程度以上の語彙数でも認識で
きるようにするためには、音声と音響モデルとの照合は
音素、音節、半音節等といった音素片の単位で行い、n
−gramや共起関係等の統計データ、および、辞書や
文法等の音素片のつながりや、更には上位の単語の並び
に対する別の知識(以下、まとめて言語知識とする)と
組み合せて行う方式が有力である。
【0003】ところで、人間の発声には揺らぎがあり、
例えば、「映画」という言葉に対しても、発声者、状
況、発声の速度等に応じて「えーが」と発声したり「え
いが」と発声したりする。このように揺らぎの起こる音
声を機械に認識させる場合には、どちらか一方で発声す
るように予め規定しておき、その音声だけを認識する方
式が存在する。しかしながら、発声者に発声方法を規制
するのは使い勝手が非常に悪く、語彙数が増えた時等に
は全ての規定を記憶するのは不可能に近く、実用的な方
式ではない。
【0004】そこで、発声に揺らぎがあっても、揺らぎ
の関係にあるいずれの発声でも受理できるようにする必
要があるが、発声の揺らぎに対して単純にどちらで発声
しても受理できるようにすると、言語知識を用いた処理
において効率が極めて悪くなる。例えば、「映画」とい
う発声に対して、音素片単位の照合の結果として「えー
が(ええが)」と「えいが」のいずれの音素片列も受理
できた場合には、同じ「映画」という単語に対して複数
の認識候補が発生する。すなわち、「ええが」から導か
れる「映画」と「えいが」から導かれる「映画」という
候補が2個発生する。したがって、言語知識を利用して
評価する手続きをそれぞれの候補に対して行う必要が生
じてしまい、計算量が大幅に増大してしまう。
【0005】これに対して、これらの認識候補は同じ単
語であることを見い出して1つにまとめるようにすれ
ば、上記の問題は解消できるが、一つにまとめるために
多数の認識候補を互いに同じ候補になり得るか照合して
いては、その照合のために多くの計算量が必要となり時
間を要してしまう。特に、大語彙を扱う音声認識では、
上記のような発声の揺らぎによる現象が少なくない頻度
で発生し、処理効率を大幅に低下させる原因となってい
る。
【0006】ところで、現在の音節認識技術では誤り易
さに関係のない誤認識も発生し、周辺の雑音の影響など
により避けられないものである。このような誤認識に対
して、複数ある音節列の認識候補の一つに正解の音節列
を含んでいれば、言語知識を利用した修復が可能であ
る。そのためには、音節列の認識候補を一つだけではな
く、可能性のあるものは全て持たせる必要がある。
【0007】ここで、発声の揺らぎとは目的が異なる
が、認識誤りを起こし易い音節に対処する音声認識シス
テムが提案されている(特開昭60−142733号公
報)。この音声認識システムは、音節認識の後処理とし
て、単音節認識された音節列に対して、その音節列と誤
り易い音節列も更に加えて、最終的な認識候補を確定す
るものであり、誤り易い単音節情報、音韻連結情報、類
似度等を参照して候補単音節文字列に対して修正、削除
若しくは追加等の処理を施している。
【0008】この音声認識システムを拡張して考え、発
声の揺らぎも認識誤りし易い音節として扱い、揺らぎを
起こす単語の代表的な発声だけを単語として登録してお
き、揺らいだ音声が入力されたら、後処理によって誤り
易い単語として代表的なパターンを発生させる方法が考
えられる。先の例を用いて説明すると、言語知識を利用
した処理では「映画」という単語に対して「ええが」と
いう発声しか認めないようにしておくとともに、誤りを
起こし易い音節として「え」の次の「え」と「い」を用
意しておくことで、「えいが」と利用者が発声しても、
音声認識の後処理において、「えいが」から「ええが」
を生成して、言語知識を利用した処理において受理でき
るようにすることが考えられる。しかしながら、このよ
うにしても、「ええが」と「えいが」の両方の音素片列
を、音素片の照合の結果として受理できた場合におい
て、「映画」という候補が2個発生する。すなわち、上
記の処理効率の低下の問題は、この方法においても解決
できていない。
【0009】
【発明が解決しようとする課題】上記のように人間の音
声発声には揺らぎが生じるため、音声認識装置は揺らぎ
に対応する必要がある。しかしながら、従来では、発声
の揺らぎには対応できるが、同じ単語になるべき候補を
複数保持したり、或いは、それを回避するために煩雑な
照合処理が必要となって、長時間を要する膨大な量の計
算処理を行わなければならず、認識処理が迅速に行えな
いという問題があった。このような事情は、認識対象が
大語彙になればなるほど顕著であり、この問題点を解決
しなければ大語彙の音声認識の実現は困難である。
【0010】本発明の音声認識装置は上記従来の事情に
鑑みなされたもので、発声に揺らぎの可能性のある音声
を認識し、それに伴う処理効率の低下を最小限に止める
ことを目的とする。また、本発明の音声認識装置は、発
声の揺らぎに対して、認識候補としての音素片列をそれ
が有する情報量を減少させることなく表現することを目
的とする。また、本発明の音声認識装置は、発声の揺ら
ぎに対して適切な言語処理を実現することを目的とす
る。
【0011】
【課題を解決するための手段】上記の目的を達成するた
め、請求項1に記載した音声認識装置は、入力された音
声データを音素或いは音節等の音素片単位に認識し、当
該音素片を表す記号で表現する音声認識装置において、
発声が揺らぐ可能性のある音素片について揺らぎの関係
にある音素片とこれら音素片を代表して表す代表記号と
を対応付けて保持した記号記憶手段と、認識結果として
受理した発声が揺らぐ可能性のある音素片をいずれの音
素片に近いものかの重みを付加して代表記号で表現する
音素片列表現手段と、を備えたことを特徴とする。
【0012】また、請求項2に記載した音声認識装置
は、請求項1に記載の音声認識装置において、入力され
た音声データから特徴量を抽出する特徴量抽出手段と、
音素片モデルを保持したモデル記憶手段と、音素片モデ
ルを参照しつつ抽出した特徴量に基づいて音声データに
対応する音素片を認識する音素片照合手段と、を更に備
えたことを特徴とする。なお、音素片モデルとしては、
HMM(隠れマルコフモデル)の形式で保持しておき、
入力された音声データとの照合もこのHMMを辿ること
で行うのが、照合の精度、照合時間、モデルの記憶領域
の大きさが小さくて良いこと等の点から有効である。
【0013】また、請求項3に記載した音声認識装置
は、請求項1又は請求項2に記載の音声認識装置におい
て、代表記号による出力表記と重みを付加した読みとを
含んだ辞書と、辞書を利用して音素片表現手段が出力し
た音素片表現を文法的に受理できるか判定する言語処理
手段と、を更に備えたことを特徴とする。なお、認識単
位である音素片は、音素、音節、半音節等とするのが、
音素片モデルの表現のし易さや、照合の行い易さ、単語
等の辞書表現との整合性等の点で有効である。
【0014】
【作用】本発明の趣旨は、揺らぎの可能性のある音素片
を同じ代表記号で表現するとともに、後の処理で、その
揺らぎの関係にある音素片の内のどの音素片に近いかを
識別するのに必要な重みを付加し、情報量を減らすこと
なく統一的な表現を行うことにある。そのために、請求
項1の音声認識装置では、発声が揺らぐ可能性のある音
素片ついて、予め記号記憶手段に揺らぎの関係にある音
素片とこれら音素片を代表して表す代表記号とを対応付
けて保持しておき、認識結果として受理した発声が揺ら
ぐ可能性のある音素片を、音素片表現手段でいずれの音
素片に近いものかの重みを付加して代表記号で統一的に
表現する。
【0015】例えば、二つの音素片間で揺らぎの可能性
がある場合には、1から0までの数字で、1に近いほど
一方の音素片に近く、0に近いほど他方の音素に近いと
いう重みをもたせる。そして、音節「え」と「い」を同
じ代表記号「A」で表現するとすると、或る音節に対し
て認識処理をした結果「え」を0.1の確からしさで
「い」を0.05の確からしさで受理した場合に、「A
0.67」を0.15の確からしさで受理したと表現す
る。この重み0.67は「え」と「い」の音節に対し
て、2:1の比で「え」に近いことを意味する。
【0016】このように代表記号を用いて統一的に表現
することで、「え」と「い」を別の候補として分けてし
まうことなく認識候補としての音節数が減少する。そし
て、このように候補を減少させても、重みを付加するこ
とによって本来の情報量を減らすことなく表現できる。
したがって、「ええが」と「えいが」を統一的に「A
1、A0.67、が」と表現できる。そして、「え」と
「い」を識別する必要のある時には、その重みを利用す
ることで可能となる。例えば、「いえ」と「ええ」のど
ちらに近い音声かは、最初の音節「A」の重みが0.5
より大きいか小さいかによって表現でき、従来の表現方
法に比べても持っている情報量が減らないので、識別能
力が低下しない。
【0017】また、請求項2の音声認識装置では、入力
された音声データから候補としての音素片を認識するた
めに、特徴量抽出手段で音声データから特徴量を抽出
し、モデル記憶手段に保持されたHMM等の音素片モデ
ルを音素片照合手段で参照しつつ抽出した特徴量に基づ
いて音声データに対応する音素片を認識する。
【0018】また、請求項3の音声認識装置では、音素
片表現手段が出力した音素片表現を文法的に受理できる
かを言語処理手段で判定する際に、音素片の表現に対応
して、代表記号による読みを含んだ辞書を用いる。すな
わち、辞書内の音素片の表現部分を代表記号を用いて表
現し、期待されるその音素片の重み情報を付加しておく
ことで、上記の音素片の表現に適合した音声認識装置が
実現できる。
【0019】上記の例では、辞書の中に「A1,A0.
5,が」という表記の単語を持たせることによって、最
初の音節Aは「え」で受理でき、次の音節Aは「え」で
も「い」でも受理でき、最後の音節は「が」の単語を示
すことができ、「ええが」でも「えいが」でも受理でき
ることとなる。したがって、「A1,A0.7,が」と
すると、「ええが」でも「えいが」でも受理できるが、
0.7という重みだけ「ええが」と発声されることを期
待していることを示す。
【0020】
【実施例】本発明を単語認識に適用した第1の実施例に
ついて図面を参照して説明する。なお、本実施例では認
識単位を音素としており、このように音素片として音素
を対象とする場合には、音節を対象とする場合と比べ
て、比較的音声データの特徴と対応した単位を認識対象
とするので、音素片の認識機構が単純に構成され且つ音
素モデルを比較的用意に作成できるという利点がある。
【0021】図1に示すように、本実施例の音声認識装
置は、音声データから音素を認識して候補音素列を生成
する構成部分として、マイクロフォン1、信号処理手段
2、特徴量抽出手段3、音素照合手段4、音素モデル記
憶手段5、音素連結情報記憶手段6、音素列表現生成手
段7、及び、音素対記憶手段8を備えている。また、本
実施例の音声認識装置は、生成された候補音素列に文法
的な照合を行う構成部分として、辞書照合手段9及び辞
書記憶手段10を備えている。なお、単語認識を行う本
実施例では文法照合に単語の情報だけ持っていればよい
ので、辞書照合だけを行う。
【0022】なお、図中の11は制御手段であり、音声
認識装置の各構成手段の動作を統括して制御する。ま
た、12は応用プログラム、13は入出力ターミナルで
あり、認識結果としての単語は応用プログラム12で処
理されてディスプレイやキーボード等から成る入出力タ
ーミナル13に出力される。上記の各記憶手段5、6、
8、10は、通常は定常的に情報を外部記憶装置に保存
しておき、装置の起動時に高速に情報を取り出せるラン
ダムアクセス記憶装置に書き出すことで構成される。
【0023】処理対象の音声はマイクロフォン1から入
力され、信号処理手段2によって音圧レベルの強さとそ
の継続時間によって音声部分を切り出され、アナログデ
ジタル変換された後に、5msから20ms程度の微小
時間(フレーム)毎にFFT(高速フーリエ変換)によ
って周波数解析される。そして、特微量抽出手段3によ
って、その後の照合を行い易くするために、周波数解析
された音声データの特微量を抽出し、音素照合手段4に
よって、特微量で表現された音声信号を予め作成されて
記憶手段5及び6に格納された音素モデル及び音素連結
情報と照合して、照合結果が音素列表現生成手段7へ出
力される。
【0024】音素列表現生成手段7は音素列を音素のそ
れぞれに対応した音素記号(a,k,s,t,・・・
等)を用いて表現するものであり、特に、発声に揺らぎ
の可能性がある音素については音素対記憶手段8に格納
されている代表音素記号を用いて表現する。音素対記憶
手段8には、その一部を表す図2に示すように、揺らぎ
の関係にある音素(/e/と/i/或いは/o/と/u
/等)と、これら音素を代表して表す代表記号(A或い
はO)とが対応付けて格納されている。なお、これら揺
らぎの関係にある音素及び代表音素記号は、予め設定さ
れている。
【0025】上記のように音素毎に認識されて音素記号
や代表音素記号を用いて表現された候補音素列は、リス
トという形式で辞書照合手段9へ出力される。なお、候
補音素列はツリー状やネット状の形式で出力することも
可能である。辞書照合手段9は候補音素列を辞書記憶手
段10に格納された辞書と照合して言語的処理を施し、
最終的に候補を絞り込んで単語等の出力表記を用いて音
素列を表現して応用プログラム12へ出力する。
【0026】辞書記憶手段10は、図3に示すように、
木構造の音素列から成るトライ辞書(同図中の上部)
と、アドレス、出力表記、読みを対応付けた表部分とを
含んでいる。なお、トライ辞書における音素を○印で囲
んだ位置は当該音音素までの音素列が単語として受理し
得ることを示し、また、○印で囲んだ位置に付記した数
字は表部分へのアドレスを示している。また、この辞書
は揺らぎの可能性のある音素にも対応しており、出力表
記及び読みは代表音素記号で記述されている。例えば、
トライ辞書の「A−A−g−a」という音素列で単語と
して受理でき、アドレス”104”で示される表部分の
出力表記「映画」、読み「A1,A0.6,g,a」に
対応付けられる。
【0027】上記した候補音素列を生成する構成部分1
〜8と、生成された候補音素列に文法的な照合を行う構
成部分9及び10を、それぞれ図4及び図5と図6に示
すフローチャートを用いて、その動作と共に更に詳しく
説明する。まず、候補音素列を生成する構成部分1〜8
について、図4及び図5を用いて説明する。
【0028】まず、構成部分に備えられているバッファ
を空にする等して、入力音声の単語の最初に来る可能性
のある音素モデルを全て照合開始状態にするといった初
期化を行う(S1)。単語の最初に来る可能性のある音
素は、音素連結情報記憶手段6の中にbi−gramの
一つの項目として記録してあり、この音素連結情報記憶
手段6を音素照合手段4が検索することで、音素モデル
記憶手段5から最初に起動する音素モデルを決定するこ
とができる。なお、音素モデルを全て起動しない理由
は、本実施例では利用者が発声する音声は辞書の中にあ
る単語に限られるという仮定をしており、単語としてあ
り得ない音素は照合しても無駄となるからである。
【0029】初期化が終了した後、入力された音声信号
の最後に到達するまで(ステップS2)、フレームを1
つずつ進めて次のフレームの特微量を取り出し(ステッ
プS3)、起動された音素モデルがなくなる等の照合を
行うべき音声信号がなくなるまで(ステップS4)、以
下の処理を繰り返し行う。
【0030】すなわち、取り出された特徴量と起動され
ている音素モデル群との照合を音素照合手段4が行う
(ステップS5)。この照合の方法には、DPマッチン
グ、HMMマッチング、ニューラルネット等が用いられ
る。次いで、照合の結果、音素モデルが受理された場合
には(ステップS6)、図5に基づいて後述する音素列
表現生成手段7による音素表現の処理を行い(ステップ
S7)、この音素表現処理が終了した後に、音素照合手
段4が音素連結情報記憶手段23のbi−gramを参
照して、受理された音素に基づいて次に起動する音素モ
デルを決定してそのモデルを起動する(S8)。なお、
音素モデルを受理とする或る基準以上のスコアでその音
素モデルの終了状態まで達した場合、その音素モデルの
音素が受理されたことを意味する。
【0031】一方、上記の照合の結果、音素モデルが受
理されない場合には、その音素モデルを棄却して(ステ
ップS10)、次の音素モデルへと照合を続ける処理を
全ての音素モデルについて繰り返し行う(ステップS
4)。ただし、決められた下限のスコアを下回った場合
には、それ以上、照合を続けても受理される見込みがな
いので、照合を終了する(S9)。
【0032】以上の処理を、入力された音声の最後のフ
レームまで処理が終わるか、途中で照合中の全ての音素
モデルのスコアが下限値より低くなってしまうまで繰り
返し行う。なお、全ての音素モデルのスコアが下限値よ
り低くなってしまった場合には、認識に失敗したことを
意味し、認識失敗を意味する記号を出力して音素認識の
処理を終了する。一方、音声の最後まで処理が到達した
場合には、未だ受理まで到達せずに動いている音素モデ
ルを全て停止して(S11)、認識した候補音素列のリ
ストを結果として辞書照合手段9へ出力する(S1
2)。
【0033】ここで、上記した音素表現の出力処理(ス
テップS7)を図5のフローチャートに従って説明す
る。まず、音素列表現生成手段7が、受理された音素モ
デルが、音素対記憶手段8に格納されている揺らぎの可
能性のある音素に含まれるかを調べる(S21)。この
結果、揺らぎの可能性のある音素である場合には、対応
する代表音素記号を音素対記憶手段8から読み出して、
受理された音素モデルに対応する音素を代表音素記号を
用いて表現する(S23)。また、この際、揺らぎの関
係にあるいずれの音素であるかを示す重みを0か1の値
で付記する。例えば、音素/e/を受理した場合にはA
1、音素/i/を受理した場合にはA0と表現する。な
お、受理された音素モデルが揺らぎの関係にない音素で
ある場合には、対応する一般的な音素記号を用いて表現
する。
【0034】音素列表現生成手段7は、上記のように受
理された音素モデルを音素記号或いは代表音素記号で表
現した後、この表現結果を書き出す場所を確認し、表現
結果を書き出す場所に既に受理された別の音素記号が書
かれているかを確認する(S24)。この結果、接続す
べき候補音素列に未だ別の音素が受理されて接続されて
いない場合には、受理された音素記号を照合スコアとと
もに接続すべき候補音素列に続けて書き出す(S2
9)。例えば、/k//a/まで受理された後に、音素
モデル/g/が受理された時に、未だ/k//a//k
/等のように別の候補音素が接続されていない場合は、
受理された音素モデルを記号/g/で照合スコアととも
に書き出す。
【0035】このような別の音素が既に受理されたかど
うかの判定を楽に行うには、候補毎にフラッグを用意し
ておき、その候補に初めて音素が受理されて接続した
ら、そのフラッグを立てておくようにすればよい。な
お、この場合には、フラッグは1フレームの照合が終わ
る度に、全て倒しておく必要がある。
【0036】一方、別の音素が既に受理されて接続され
ている場合には、この別の音素の記号が新たに受理した
音素モデルの記号と同じかどうかを音素列表現生成手段
7が調べる(S26)。ただし、この実施例においては
一つの候補が受理された後に同じ音素モデルが複数起動
されないので、このような場合が生ずるのは揺らぎの可
能性のある音素に限られる。
【0037】この結果、同じ記号がないと判断された場
合には、候補が重複するので複写して新たな候補を作成
し、新たに受理された音素記号とその照合スコアを書き
加える(S27)。例えば、先の例では、/k//a/
/k/の候補から、/k//a/までをスコアとともに
複写して別の候補とし、新たに受理された記号/g/と
その照合スコアを書き加える。
【0038】一方、揺らぎの可能性のある音素で同じ代
表記号が既に受理されている場合には、候補の複写は行
わずに、揺らぎの関係にある音素間の重みの計算をする
(S28)。例えば、/k/が受理された後に/i/が
受理されて、その音素に対応する出力表記である代表記
号/A/を書き出そうとした時に、既に/k//A/が
受理されている場合である。
【0039】例えば、/k//A/の/A/に対して最
初に受理した/e/が0.12のスコアで受理されてい
るとすると、/i/が受理される前は、/A/,1.
0,0.12という状態になっている。これは、/A/
という代表記号が0.12というスコアで受理されてい
て、揺らぎの関係にある/e/と/i/との間におい
て、1.0の重みで/e/に近いことを示す。ここで、
新たに/i/がスコア0.06で受理されたとすると、
/A/,0.67,0.18という重みとスコアに書き
換えられる。これは、/A/という記号が、/e/と/
i/のスコアの合計である0.18というスコアを持
ち、0.67の重み、すなわち/e/と/i/の間で
2:1の比で/e/に近いことを示している。
【0040】以上のようにして受理された音素列は音素
記号或いは代表音素記号で表現され、これら候補音素列
のリストは辞書照合手段9において辞書を参照した言語
処理によって確定される。次に、辞書照合手段9による
処理を図6に示すフローチャートに従って説明する。候
補音素列リストから候補を一つずつ取り出して(S3
2)、以下の辞書参照処理を行い(ステップS33〜S
36)、全ての候補について処理を終了したところで
(ステップS31)、最も高いスコアの候補音素列を認
識結果として応用プログラム12へ出力する(ステップ
S37)。
【0041】辞書参照処理では、まず、辞書照合手段9
がリストから取り出した候補音素列に対して、図3に示
したような、辞書記憶手段10に記憶された辞書のトラ
イ部分を照合し(S33)、音素の並びとの照合を調べ
て該当する単語が辞書中にあるかを判断する(ステップ
S34)。すなわち、候補の音素列に従ってトライ辞書
を辿り、最後に辿り着いた音素記号に単語受理の記号○
が付いているかを調べる。この結果、辞書の中の単語で
ある場合には、その単語受理の記号に付随している辞書
の表部分へのアドレスを調べるとともにスコアの計算を
行う(S35)。一方、辞書が引けなかった場合には、
その候補音素列を破棄して、次の候補音素列の処理に移
る(S36)。
【0042】なお、上記のスコアの計算を行う時に、単
語受理の記号に複数のアドレスが付いており、1つの候
補音素列が複数の単語に該当する場合がある。このよう
な場合には、全ての単語と照合してスコア計算を行う。
例えば、”A1,0.3;A0.7,0.1;g0.
1;a0.2”という認識候補が得られたとする。これ
は、/e/と/i/の揺らぎの可能性のある代表記号A
が/e/に1の重み(すなわち/i/は十分なスコアで
照合できなかった)で0.3のスコアで受理され、次に
Aが重み0.7でスコア0.1で受理され、次に音素/
g/がスコア0.1で受理され、次に音素/a/がスコ
ア0.2で受理されたことを示す。
【0043】このとき図3に示したトライ辞書を辿る
と、”A,A,g,a”は受理されてアドレス104の
単語を示すので、その読み”A1,A0.6,g,a”
に従ってスコア計算を行う。最初のAについては、候補
の重みも辞書の重みも1なので1×1×0.3=0.3
であり、次のAについては、/e/に対して候補の重み
が0.7で、辞書の重みが0.6なので、/i/に対し
てはそれぞれ1より減算して0.3と0.4となり、/
e/のスコアと/i/のスコアを合計して(0.7×
0.6+0.3×0.4)×0.1=0.054であ
り、/g/はそのまま0.1であり、/a/は0.2で
あり、全スコアはこれらスコアを合計して0.654と
なる。
【0044】このようなスコアリングを行って、最後に
最もスコアが高かった候補音素列が認識結果として出力
されて終了する(S37)。なお、誤った結果を出力す
る確率を下げるために、全スコアが一定の基準を下回っ
た場合は認識できなかったという結果を出力することも
可能である。上記のように、本実施例の音声認識装置に
よれば、同じ「映画」という認識結果に導かれる”ei
ga”や”eega”等の揺らぎの可能性のある認識候
補を複数出力しない音素列表現を用いた単語音声認識が
可能となる。したがって、重複した言語知識を利用した
処理を省くことができ処理効率が上昇する。
【0045】本発明を連続音声認識に適用した第2の実
施例について説明する。なお、本実施例では認識単位を
音節としており、前述した第1の実施例と重複する説明
は省略する。図7に示すように、本実施例の音声認識装
置は第1の実施例と同様な構成を有しており、連続音声
認識で認識単位を音節としたことに対応して、音節列表
現生成手段17、音節対記憶手段18、文法照合手段1
9、文法記憶手段20、応用プログラムとしてのワード
プロセッサ22が備えられている。
【0046】音節列表現生成手段17は音素照合手段4
で得られた候補を音節記号或いは代表音節記号を用いて
表現すると共にスコア計算を行うものであり、図8に示
すような、音節記号(あ、さ、た、・・・等)や代表音
節記号(C、・・・等)を用いて表現し且つ各音節にそ
のスコアを付記したツリー状の候補音節列を生成する。
音節対記憶手段18には、図9に示すように、揺らぎの
関係にある音節(/え/と/い/、/お/と/う/、/
し/と/ひ/等)がそれぞれ代表記号(A、O、C等)
に対応付けて格納されており、音節列表現生成手段17
は発声に揺らぎの可能性がある音節の表現にこれら代表
記号を用いる。
【0047】文法記憶手段20には、ワードプロセッサ
22の入力として受け付ける語彙を辞書としてその接続
関係を統語規則として記述し、それらの文法を図10に
示すようにLR(Left to Right)テーブ
ルの形式にコンパイルした文法規則が格納されている。
【0048】ここで、第1の実施例と同様に、揺らぎの
可能性のある音節に対しては対応する代表記号を用いて
表現し、重みを付加する(例えば、「引く」は「C
(0.0)く」となる)。この場合、第1の実施例にお
いては辞書の中に重みを記入できたが、本実施例ではL
Rテーブルにコンパイルしてしまうので、記入の仕方に
工夫をする必要がある。そこで、この重みは音節のLR
パージングのシフト操作に相当するので、シフト操作に
重みを記入しておけばよい。更に加えて、文法規則に対
してもその規則の出現頻度等に応じて重みを加えてお
き、LRテーブルにコンパイルした時に、テーブル内に
リデュースや受理の部分に重みを記述しておく。そし
て、パージングの最中に上記の重みが記入されたシフ
ト、リデュース、受理等が実行された時は、その重みに
従ってスコア計算を行うようにする。
【0049】本実施例の音声認識装置では、第1の実施
例と同様にして、入力された音声を認識し、候補音節列
を音節記号或いは代表音節記号を用いて表現する。すな
わち、利用者がワードプロセッサ52に入力したい文字
列を音声によって発声すると、この音声はマイクロフォ
ン1によって電気信号に変換されて信号処理手段10に
入力され、フレーム毎に周波数変換されて特微量抽出手
段11により特微量が抽出される。そして、この特徴量
は音素照合手段4で音素単位に用意されたHMM等によ
り照合処理され、基準以上のスコアで受理できた音素が
ツリー構造で出力される。
【0050】そして、音節列表現生成手段17におい
て、音素のつながりによってどのような音節が構成され
るかの情報を保持している音素連結情報記憶手段6を参
照して、図8に示すような音節列のツリー構造に変換す
る。例えば、/t/と/a/から「た」を生成する。こ
こで、この変換処理に際して、図9に示す揺らぎの可能
性がある音節が生成された時には、第1の実施例と同様
の方法で代表記号による出力表現に置き換える。この結
果、揺らぎの関係にある音節の表現を含んだ音節認識の
ツリー構造が生成される。例えば、音節「し」は代表記
号でC1.0と表現され、これと揺らぎの関係にある音
節「ひ]は代表記号C0で表現される。なお、図8中
で、右端の記号”$”は音節列の終端を表す記号であ
り、文法照合時に利用される。また、音節列表現生成手
段17では、音節列の表現と共に、各音素の照合スコア
より音節のスコアを計算する。
【0051】そして、このツリー構造に作られた候補音
節列に対して、本実施例では第1の実施例とは異なる処
理が文法照合手段19において行われる。文法照合手段
19による文法照合処理を図11に示すフローチャート
を参照して説明する。基本的には、文法照合手段19が
LRテーブルを引いてそれに応じた動作をするといった
一般のLRパージングを行いながら、途中で文法記憶手
段20に格納されている構文規則と揺らぎ音節の重みに
よる照合スコアの計算を進める形式で処理は進行する。
【0052】まず、ツリー構造の最初の音節を取り出
し、図10に示すアクションテーブルを参照する(S4
2)。この結果リデュースであれば(ステップS4
3)、対応するルールに付随するスコアを今までの候補
のスコアに乗じてスコアを計算し(S44)、状態のス
タックを書き換えた後に(S45)、Go−toテーブ
ルを引いて次の状態をスタックに積み(S46)、更に
アクションテーブルを引いてその指示に従う(S4
2)。一方、シフトの場合は(ステップS47)、シフ
ト操作を行って状態をスタックに積むが、揺らぎを含む
代表記号の場合にはその重みが記入されているので、第
1の実施例の重み計算と同様にして、スコアを計算し直
す(S51)。
【0053】また一方、受理の場合には(ステップS4
8)、リデュースと同様に最後の音節までスコア計算を
して、認識成功のリストにその候補音節列を移す(S5
0)。その候補音節列に対してどのようなリデュースが
それまでに適用されたかによって、文の構造とその構成
する単語列が決定するので、出力形式となる漢字かな交
じり文を認識成功リストに書き出す。また一方、失敗の
場合には(ステップS48)、その候補音節列を候補リ
ストから消去する(S49)。
【0054】以上の処理を候補音節列のリストが空にな
るまで繰り返し行い、最終的に、認識成功リストの中の
最もスコアの高い候補音節列が認識結果として文法照合
手段19から出力される。すなわち、認識結果となった
候補音節列(文)は、漢字かな交じりの出力文の形式で
ワードプロセッサ52へと出力され、入出力ターミナル
13から出力される。
【0055】上記した第2の実施例においては、ワード
プロセッサへの入力といった連続音声の認識において
も、揺らぎの可能性を含んだ音声に対して、揺らいだ音
節による認識候補音節列を複数出力しない表現を用いた
連続音声認識が可能となる。したがって、重複した言語
知識を利用した処理を省くことができ処理効率が上昇す
る。
【0056】なお、上記した各実施例では、音素照合手
段4が音素モデルを起動して認識結果の候補音素片列を
言語処理手段9、19へ渡す方式を示したが、本発明で
は、単語認識においては辞書から予想した次に来得る音
素片を、連続音声認識においては文法照合手段の予想し
た次に来うる音素片を音素片照合手段4へ送り、音素片
照合手段4でそれに該当する音素片モデルを起動する形
態とすることも可能である。この時、重みが1や0でな
い揺らぎの可能性のある音素片の代表記号が文法照合手
段19によって予測された場合には、その揺らぎの音素
片を示す代表記号で音素片照合手段4へ指示を出し、音
素片照合手段4が音素片対表18を参照してその揺らぎ
の可能性のある音素片のモデルを全て起動するように
し、この結果受理された音素を文法照合手段19へ渡す
ようにすれば、第1や第2の実施例と同様に処理が進む
ことになる。
【0057】
【発明の効果】以上詳細に説明したように、本発明の音
声認識装置によれば、発声が揺らぐ可能性のある音声が
入力されて、音素片の音響的照合が揺らぎの関係にある
いずれの音素片で受理された場合においても、揺らぎの
関係にある音素片を共通の代表記号によって統一的に表
現して出力するため、同じ単語や文に認識される候補が
複数生成されてしまうのを防止することができる。加え
て、同一の代表記号で表現された音素片群の音響的照合
の度合い(重み)を付加するため、揺らぐ可能性のある
音素片をそれぞれ表現する従来の音声認識装置に比べ、
表現された候補音素片列の持っている情報量は減少しな
い。
【0058】したがって、本発明の音声認識装置によれ
ば、情報量の減少による各音素片の識別性の低下を招く
ことなく、無駄な候補を削減して迅速な音声認識を実現
することができる。更に、請求項3の音声認識装置で
は、辞書の内容も同一の代表記号で表現される音素片群
に対して、期待される音響的照合度の重みをもたせるよ
うにしたため、発声の揺らぎに対して適切な言語処理を
実現して、例えば同意の「ええ」とアルファベットの
「えい」等の微妙な発声に対しての認識の精度を上げる
ことができる。
【図面の簡単な説明】
【図1】 本発明の第1の実施例に係る音声認識装置の
構成図である。
【図2】 音素対記憶手段の格納内容を示す概念図であ
る。
【図3】 辞書記憶手段の格納内容を示す概念図であ
る。
【図4】 本発明の第1の実施例に係る音声認識装置の
処理手順を示すフローチャートである。
【図5】 本発明の第1の実施例に係る音声認識装置の
処理手順を示すフローチャートである。
【図6】 本発明の第1の実施例に係る音声認識装置の
処理手順を示すフローチャートである。
【図7】 本発明の第2の実施例に係る音声認識装置の
構成図である。
【図8】 受理された音節列をの一例を示す概念図であ
る。
【図9】 音節対記憶手段の格納内容を示す概念図であ
る。
【図10】 文法記憶手段の格納内容を示す概念図であ
る。
【図11】 本発明の第2の実施例に係る音声認識装置
の処理手順を示すフローチャートである。
【符号の説明】
3・・・特徴量抽出手段、 4・・・音素照合手段、5
・・・音素モデル記憶手段、 7・・・音素列表現生成
手段、8・・・音素対記憶手段、 9・・・辞書照合手
段、10・・・辞書記憶手段、 17・・・音節列表現
生成手段、18・・・音節対記憶手段、 19・・・文
法照合手段、20・・・文法記憶手段

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声データを音素或いは音節
    等の音素片単位に認識し、当該音素片を表す記号で表現
    する音声認識装置において、 発声が揺らぐ可能性のある音素片について揺らぎの関係
    にある音素片とこれら音素片を代表して表す代表記号と
    を対応付けて保持した記号記憶手段と、 認識結果として受理した発声が揺らぐ可能性のある音素
    片をいずれの音素片に近いものかの重みを付加して代表
    記号で表現する音素片列表現手段と、を備えたことを特
    徴とする音声認識装置。
  2. 【請求項2】 入力された音声データから特徴量を抽出
    する特徴量抽出手段と、 音素片モデルを保持したモデル記憶手段と、 音素片モデルを参照しつつ抽出した特徴量に基づいて音
    声データに対応する音素片を認識する音素片照合手段
    と、を更に備えたことを特徴とする請求項1に記載の音
    声認識装置。
  3. 【請求項3】 代表記号による出力表記と重みを付加し
    た読みとを含んだ辞書と、 辞書を利用して音素片表現手段が出力した音素片表現を
    文法的に受理できるか判定する言語処理手段と、を更に
    備えたことを特徴とする請求項1又は請求項2に記載の
    音声認識装置。
JP7070435A 1995-03-06 1995-03-06 音声認識装置 Pending JPH08248979A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7070435A JPH08248979A (ja) 1995-03-06 1995-03-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7070435A JPH08248979A (ja) 1995-03-06 1995-03-06 音声認識装置

Publications (1)

Publication Number Publication Date
JPH08248979A true JPH08248979A (ja) 1996-09-27

Family

ID=13431409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7070435A Pending JPH08248979A (ja) 1995-03-06 1995-03-06 音声認識装置

Country Status (1)

Country Link
JP (1) JPH08248979A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319990A (ja) * 1997-05-20 1998-12-04 Denso Corp 単語辞書データの圧縮方法、単語辞書データの展開方法、音声認識装置、音声認識機能付きナビゲーションシステム及び記録媒体
WO2000073975A1 (fr) * 1999-05-31 2000-12-07 Cai Co., Ltd. Systeme de reecriture
JP2001083983A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
JP2003502702A (ja) * 1999-06-24 2003-01-21 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムにおける発音辞書の精度の自動的決定
US8738378B2 (en) 2007-07-09 2014-05-27 Fujitsu Limited Speech recognizer, speech recognition method, and speech recognition program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319990A (ja) * 1997-05-20 1998-12-04 Denso Corp 単語辞書データの圧縮方法、単語辞書データの展開方法、音声認識装置、音声認識機能付きナビゲーションシステム及び記録媒体
WO2000073975A1 (fr) * 1999-05-31 2000-12-07 Cai Co., Ltd. Systeme de reecriture
JP2003502702A (ja) * 1999-06-24 2003-01-21 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムにおける発音辞書の精度の自動的決定
JP2001083983A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
JP4520555B2 (ja) * 1999-09-09 2010-08-04 クラリオン株式会社 音声認識装置および音声認識ナビゲーション装置
US8738378B2 (en) 2007-07-09 2014-05-27 Fujitsu Limited Speech recognizer, speech recognition method, and speech recognition program

Similar Documents

Publication Publication Date Title
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US5333275A (en) System and method for time aligning speech
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US6499013B1 (en) Interactive user interface using speech recognition and natural language processing
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US7251600B2 (en) Disambiguation language model
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US20070073540A1 (en) Apparatus, method, and computer program product for speech recognition allowing for recognition of character string in speech input
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP2006039120A (ja) 対話装置および対話方法、並びにプログラムおよび記録媒体
JP2002520664A (ja) 言語に依存しない音声認識
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JPH08248979A (ja) 音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JPH08248980A (ja) 音声認識装置
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2000056795A (ja) 音声認識装置
JP2975542B2 (ja) 音声認識装置