JPH08211893A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08211893A
JPH08211893A JP7010841A JP1084195A JPH08211893A JP H08211893 A JPH08211893 A JP H08211893A JP 7010841 A JP7010841 A JP 7010841A JP 1084195 A JP1084195 A JP 1084195A JP H08211893 A JPH08211893 A JP H08211893A
Authority
JP
Japan
Prior art keywords
word
learning
recognition
word candidate
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7010841A
Other languages
English (en)
Inventor
Mitsuyoshi Tatemori
三慶 舘森
Hiroshi Kanazawa
博史 金澤
Yoichi Takebayashi
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7010841A priority Critical patent/JPH08211893A/ja
Publication of JPH08211893A publication Critical patent/JPH08211893A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】語彙の変更や追加が容易で、高い認識性能を得
ることができ、さらに自由発話にも容易に対処すること
が可能な音声認識装置を提供する。 【構成】入力音声の特徴パラメータを抽出する音声分析
部101と、特徴パラメータを単語標準パターンと照合
する照合部104と、特徴パラメータを音韻標準パター
ンから作成した単語標準パターンと照合する照合部11
0と、照合部104および110の照合結果から第1段
階の単語候補系列をそれぞれ抽出する類似度判定部10
6および尤度判定部113と、第1段階の単語候補系列
に対して構文・意味解析を行い、第2段階の単語候補系
列を出力する構文・意味解析部107および114と、
第2段階の単語候補系列を総合判定して最終段階の単語
候補系列を出力する総合判定部109と、最終段階の単
語候補系列に対して構文・意味解析を行い、音声認識結
果を得る構文・意味解析部115とを有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置に関する
ものである。
【0002】
【従来の技術】一般に、音声認識装置においては単語認
識の認識単位として単語全体のパターンを用いる方法
と、音韻や音節等の単語構成要素の単位を用いる方法が
あるが、これらはいずれも一長一短がある。
【0003】すなわち、単語全体のパターンを用いる前
者の方法では、入力音声の時間的変動や周波数変動など
の動的な特徴を単語標準パターンに含んだ単語全体での
マッチングを行うため、高い認識性能を得ることができ
るが、単語毎に標準パターンを用意しなければならない
ため、標準パターンの作成に多大な労力を必要とし、語
彙の変更や追加が容易ではない。また、音韻や音節など
の単語構成要素を単位とする後者の方法によると、高々
100種類程度の標準パターンを用意すればよく、さら
に例えば認識対象となる単語の文字列を入力することに
より、語彙の変更、追加等を容易に行うことができると
いう利点がある。しかし、単語全体のパターンを用いる
方法に比べて、音韻間あるいは音節間の動的特徴を十分
に標準パターンとして反映できないため、高い認識性能
を得るのが困難であるといった問題があった。
【0004】さらに、これら単語全体のパターンを単位
とする方法と単語構成要素を単位とする方法を併用して
単語認識を行う認識手法も提案されているが、そのよう
な方法によっても、認識対象語彙以外の単語や様々な不
要語(例えば、「あー」や「えーと」など)や言い淀み
等を含んだ自由発話に対しては、付加誤りが発生すると
いう問題があった。
【0005】一方、単語の音声パターンはその単語の前
後に他の単語を伴って連続発声された場合には、前後の
単語と調音結合を起こし、その単語が単独で発声された
場合の音声パターンから変形する。この調音結合の影響
のため、連続単語認識の際には、孤立発声の音声パター
ンに基づいて作成された孤立単語辞書を用いて認識を行
うよりも、調音結合の影響を加味して作成された連続単
語辞書を用いた方が認識性能が良いことが知られてい
る。これは単語に限らず、音韻、音節などを認識単位と
する連続音声認識においても同様である。
【0006】ここで、連続単語辞書の作成に当たり、従
来では連続音声パターンを人間の目視によってセグメン
テーションし、そのセグメンテーションに従って音声パ
ターンに含まれる単語の特徴パターンを切り出して辞書
作成用のパターンを作成する方法がとられていた。この
方法では連続単語辞書の作成に十分な量のデータに対し
て正しいセグメーションを行うために、複数の熟練した
作業者が必要である。従って、辞書作成には膨大な時間
が必要となる。また、作業者達が如何に熟練していよう
とも、同じ発声データに対し作業者によってセグメンテ
ーションが異なる場合もある。このため、人手によるセ
グメンテーションによって得られたデータには、作業者
によるばらつきが起こったり、セグメンテーションの誤
りによる不適切なデータが混入するため、辞書の認識性
能の低下を招く。さらに、人手により正しいとされるセ
グメンテーションが音声認識にとって最適であるという
保証はない。
【0007】
【発明が解決しようとする課題】上述したように、音声
認識装置における単語認識の認識単位として、単語全体
のパターンを用いる方法、単語構成要素を用いる方法、
あるいは両者を併用する方法では、語彙の変更や追加が
容易でない、認識性能が低い、認識対象外の単語や不要
語等を含んだ自由発話に良好に対処できないなどの問題
があった。
【0008】本発明の第1の目的は、語彙の変更や追加
が容易で、高い認識性能を得ることができ、さらに自由
発話にも容易に対処することが可能な音声認識装置を提
供することにある。
【0009】また、従来では連続音声認識用辞書の作成
に当たり、人手による音声パターンのセグメンテーショ
ンを必要とするため、辞書作成の膨大な時間を要するの
みでなく、セグメンテーションにより得られたデータに
作業者によるばらつきやセグメンテーションの誤りによ
る不適切なデータが混入することにより、辞書の認識性
能が低下するという問題があった。
【0010】本発明の第2の目的は、連続音声認識用辞
書の作成に必要な音声パターンのセグメンテーションを
適確かつ自動的に行うことができ、もって高い認識性能
が得られる音声認識装置を提供することにある。
【0011】
【課題を解決するための手段】第1の発明は、単語全体
パターンを認識単位とする単語認識と、単語よりも細か
い単語構成要素である音韻パターンを認識単位とする単
語認識を併用し、それぞれの認識方式により得られた単
語候補系列結果に対して、構文・意味解析を行った後
に、総合判定を行うことにより、付加誤りの単語候補の
削減を行い、発話内容を正しく理解するようにしたもの
である。
【0012】すなわち、第1の発明に係る音声認識装置
は、外部から入力される入力音声を分析して該入力音声
の特徴を表わす特徴パラメータを求める入力音声分析手
段と、この入力音声分析手段により求められた特徴パラ
メータを複数の単語のそれぞれの標準的なパターンを示
す単語標準パターンと照合する第1の照合手段と、音声
分析手段により求められた特徴パラメータを複数の音韻
のそれぞれの標準的なパターンを示す音韻標準パターン
から作成した認識対象単語の標準的なパターンを示す単
語標準パターンと照合する第2の照合手段と、第1およ
び第2の照合手段の照合結果から入力音声に対応する第
1段階の単語候補系列をそれぞれ抽出する第1および第
2の単語候補系列抽出手段と、第1および第2の単語候
補系列抽出手段により抽出された単語候補系列に対して
それぞれ構文および意味解析を行い、第2段階の単語候
補系列をそれぞれ出力する第1および第2の構文・意味
解析手段と、第1および第2の構文・意味解析手段から
それぞれ出力される第2段階の単語候補系列を総合判定
して最終段階の単語候補系列を出力する判定手段と、こ
の判定手段から出力される最終段階の単語候補系列に対
して構文および意味解析を行い、入力音声に対する音声
認識結果を得る第3の構文・意味解析手段とを具備する
ことを特徴とする。
【0013】ここで、第1の照合手段では、例えば単語
標準パターンを用いて単語全体を認識単位として始終端
非固定の連続パターン照合を行い、第2の照合手段では
標準パターンから認識対象単語リストに基づいて作成し
た単語標準パターンを用いて音韻を認識単位として始終
端非固定の連続パターン照合を行う。この場合、第1の
照合手段の照合結果は、始終端非固定の連続パターン照
合により得られた複数の単語候補と単語標準パターンと
の類似度を示す類似度系列として得られ、第2の照合手
段の照合結果は、始終端非固定の連続パターン照合によ
り得られた複数の単語候補の尤度を表わす尤度系列とし
て得られる。
【0014】第1の単語候補系列抽出手段では、例えば
類似度系列に対して認識対象単語毎に定められたしきい
値を用いて判定を行い、類似度がしきい値を越える単語
候補を第1段階の単語候補系列として抽出し、第2の単
語候補系列抽出手段では尤度系列に対して予め定められ
たしきい値を用いて判定を行い、尤度がしきい値を越え
る単語候補を第1段階の単語候補系列として抽出する。
【0015】第1および第2の構文・意味解析手段で
は、例えば第1および第2の単語候補系列抽出手段によ
りそれぞれ抽出された第1段階の単語候補系列に対し構
文および意味解析を行い、その結果得られる複数の発話
意味表現のうち上位N個に含まれる単語候補のみを第2
段階の単語候補系列として出力する。
【0016】判定手段は、例えば第1および第2の構文
・意味解析手段からそれぞれ出力される第2段階の単語
候補系列中の各単語候補に対し、該単語候補のカテゴリ
名と継続時間の重なりおよび尤度を用いて最終段階の単
語候補系列として残すか否かの判定を行う。
【0017】なお、第1の単語候補系列抽出手段が類似
度判定を行い、第2の単語候補系列抽出手段が尤度判定
を行う場合、判定手段において第1および第2の構文・
意味解析手段からそれぞれ出力される第2段階の単語候
補系列を同一尺度で比較判定するために、第1の単語候
補系列抽出手段から出力される単語候補系列について類
似度−尤度変換を行ってから判定手段に入力することが
望ましい。
【0018】また、第1の発明に係る他の音声認識装置
は、外部から入力された入力音声を分析して該入力音声
の特徴を表わす特徴パラメータを求める入力音声分析手
段と、この入力音声分析手段により求められた前記特徴
パラメータを複数の単語のそれぞれの標準的なパターン
を示す単語標準パターンと照合して、該特徴パターンと
該単語標準パターンとの類似度を表わす類似度系列を生
成する照合手段と、この照合手段により生成された類似
度系列から入力音声に対する第1段階の単語候補系列を
抽出する第1の単語候補系列抽出手段と、この第1の単
語候補系列抽出手段により抽出された第1段階の単語候
補系列に対して構文および意味解析を行い、第2段階の
単語候補系列を出力する第1の構文・意味解析手段と、
この第1の構文・意味解析手段から出力される第2段階
の単語候補系列の各単語候補に対して、入力音声分析手
段により求められた該単語候補系列中の各単語区間の特
徴パラメータと複数の音韻のそれぞれの標準的なパター
ンを示す音韻標準パターンとを照合することにより尤度
を計算する尤度計算手段と、この尤度計算手段により計
算された尤度を用いて類似度系列中の類似度に重み付け
を行って該類似度を変更する類似度変更手段と、この類
似度変更手段により類似度が変更された類似度系列から
入力音声に対応する最終単語候補系列を抽出する第2の
単語候補系列抽出手段と、この第2の単語候補系列抽出
手段により抽出された最終単語候補系列に対して構文お
よび意味解析を行い、入力音声に対する音声認識結果を
得る第2の構文・意味解析手段とを具備することを特徴
とする。
【0019】第2の発明は、音声認識の際のセグメンテ
ーションと同様の処理を行って音声パターンのセグメン
テーションを行うことにより、音声認識に対して最適な
セグメンテーションを可能とすると同時に、調音結合の
影響を認識辞書に学習させることにより、認識性能の高
い連続単語認識を可能としたものである。
【0020】すなわち、第2の発明に係る音声認識装置
は、外部から入力される入力音声を分析して該入力音声
の特徴を表わす特徴パラメータを求める入力音声分析手
段と、入力音声の認識を行うための認識辞書を作成する
認識辞書作成手段と、この認識辞書作成手段により作成
された格納する認識辞書格納手段と、入力音声分析手段
により抽出された特徴パラメータと認識辞書とのマッチ
ングを行って入力音声の認識を行う認識手段と、音声分
析手段により求められた特徴パラメータを認識辞書の学
習に関する学習データとして格納する学習データ格納手
段と、この学習データ格納手段に格納された学習データ
のうち、孤立発声単位の学習データに始まり、認識辞書
の学習の進展に伴って連続発声単位数が順次大きくなる
連続発声単位の学習データを順次選択する学習データ選
択手段と、この学習データ選択手段により選択された学
習データを前記認識手段に入力しセグメンテーションお
よび認識を同時に行い、該セグメンテーションの結果に
より前記特徴パラメータから学習用特徴ベクトルを学習
用パターンとして抽出する学習用パターン抽出手段と、
この学習用パターン抽出手段により抽出された学習用パ
ターンを格納する格納手段と、この学習用パターン格納
手段に格納された学習用パターンを用いて認識辞書の学
習を行う学習手段とを具備することを特徴とする。
【0021】ここで、学習データは例えば単語あるいは
音素といった発声単位で構成され、例えば単語が発声単
位の場合、最初は孤立単語学習データ、次に連続2単語
学習データ、次に連続3単語学習データという順で選択
される。一方、学習用パターンとしては、例えば特徴ベ
クトルが抽出される。
【0022】また、認識辞書作成手段においては、孤立
発声単位の学習データを用いて調音結合を含まない初期
辞書とは別に、連続発声単位の学習データ中の始端およ
び終端の少なくとも一方に調音結合を含むデータを用い
て認識辞書を作成することを特徴とする。
【0023】
【作用】第1の発明では、単語全体パターンと音韻パタ
ーンをそれぞれ用いた2種類のマッチングによる単語認
識を併用することにより、語彙の変更や追加が容易で、
かつ高い認識性能が得られる。また、これら2種類のマ
ッチングによる単語認識により得られた第1段階での単
語候補系列に対して構文・意味解析を行うことにより、
単語候補の検出誤り、付加誤りが削減されるため、自由
発話に対する発話理解性能が向上する。
【0024】さらに、単語全体パターンを用いたマッチ
ングで得られる類似度系列を基本とし、この類似度系列
の各類似度に対して特徴パラメータと音韻標準パターン
との照合により得られる尤度系列の尤度に従った重み付
けを行って変更を加え、この変更後の類似度系列から最
終単語候補系列を抽出し、これを構文および意味解析す
ることにより、正しい単語候補の検出精度が向上し、誤
って検出される単語候補が削減される。すなわち、単語
全体パターンによる類似度を主とし、音韻標準パターン
により得られる尤度を従として利用することにより、最
終的な単語検出性能、さらには発話理解性能が向上す
る。
【0025】第2の発明では、音声認識装置の認識アル
ゴリズムによる発声データのセグメンテーションを用い
て連続音声認識辞書作成のための音声パターンを自動作
成するので、音声認識にとって最適な辞書を作成するこ
とが可能となり、さらに辞書作成に要する時間が大幅に
短縮される。また、辞書の学習に用いる学習用パターン
に含まれる単位数を1単位から徐々に増やすことによ
り、徐々に調音結合による音声パターンの変形を認識辞
書に学習させて、性能の高い連続音声認識用辞書が作成
できる。
【0026】さらに、孤立発声単位の学習データを用い
て調音結合を含まない認識辞書(初期辞書)とは別に、
連続発声単位の学習データ中の始端および終端の少なく
とも一方に調音結合を含むデータを用いて、始端または
終端に調音結合を含む辞書、および始端および終端の両
方に調音結合を含む認識辞書を作成する、すなわち一つ
の認識単位に対して複数の認識辞書であるマルチテンプ
レートを作成することによって、より一層認識性能の高
い音声認識が可能となる。
【0027】
【実施例】以下、本発明による音声認識装置の実施例に
ついて説明する。 (実施例1)図1は、第1の発明に係る音声認識装置の
一実施例を示すブロック図である。同図において、音声
入力部101は例えばマイクロホンを介して音声信号を
入力し、これをA/D変換器によりディジタル信号に変
換して出力する。音声入力部101からのディジタル化
された入力音声信号は、音声分析部102に入力され
る。音声分析部102では、入力音声信号に対してFF
T分析やLPC分析などの周波数分析が行われ、所定の
単位時間毎、例えば8msec毎にその特徴パラメータ
が求められる。音声入力部101からのディジタル化さ
れた音声信号は、音声データ格納部103にも供給され
る。
【0028】音声分析部102で求められた特徴パラメ
ータの時系列は、第1および第2の始終端非固定連続パ
ターン照合部104および110に送られ、単語認識が
行われる。第1の始終端非固定連続パターン照合部10
4は、入力される特徴パラメータに対して、単語全体の
パターンを認識単位として始終端非固定の連続パターン
照合を行い、単語候補系列を出力する。また、第2の始
終端非固定連続パターン照合部110は、入力される特
徴パラメータに対して、音韻を認識単位として始終端非
固定連続パターン照合を行い、同様に単語候補系列を出
力する。
【0029】まず、単語全体のパターンを照合単位とす
る第1の始終端非固定連続パターン照合部104での処
理について説明する。第1の始終端非固定連続パターン
照合部104では、照合の際に予め単語の始終端点を決
定せずに、まず例えば入力音声信号の先頭から8mse
cおきの時点を単語の終端点teと仮定し、予め定めた
単語の最長継続時間および最短継続時間に従って、終端
点teに対する始端候補区間tsを定める。
【0030】次に、入力される特徴パラメータの始端候
補区間tsの各時点毎に、単語の始終端区間を例えば等
間隔に16点サンプルして時間方向16点、周波数方向
16点の16×16=256次元ベクトルの単語特徴ベ
クトルを抽出し、この単語特徴ベクトルと単語標準パタ
ーン格納部105に格納された単語標準パターンとの類
似度を求める。単語終端点は、入力音声信号の先頭から
終了まで、例えば8msecおきに連続的に仮定され、
その終端点毎に単語始端候補区間が設定される。すなわ
ち、1つの終端点に対して複数の始端点が対応し、複数
の単語特徴ベクトルが抽出される。また、単語の継続時
間長は単語によって異なるので、始端候補区間も単語毎
に別々に設定される(文献1:電子情報通信学会論文誌
D−II、Vol.J76−D−II,pp.427−43
5(1993.3)参照)。なお、第1の始終端非固定
連続パターン照合部104でのパターン照合に用いる類
似度の尺度としては、複合類似度やマハラノビス距離等
の統計的な尺度を使用できる。
【0031】こうして第1の始終端非固定連続パターン
照合部104で得られた類似度系列は、第1の単語候補
系列抽出手段である類似度判定部106に送られる。こ
の類似度判定部106では、類似度のしきい値を定め、
図2に示すように類似度がしきい値を越える単語候補の
みを第1段階の単語候補系列(単語ラティス)として抽
出し、第1の構文・意味解析部107に送る。
【0032】第1の構文・意味解析部107では、類似
度判定部106から入力された単語候補系列について構
文および意味解析を行う。具体的には、まず入力された
単語候補系列の接続関係を所定の規則に従って検証す
る。例えば、商品流通システムにおける品物の注文のタ
スクを例にとると、構文・意味解析部107に入力され
た単語候補系列の認識対象単語を品名,サイズ,数,制
御語(下さい、追加、いりませんなど)等の複数のカテ
ゴリに分類する。そして、カテゴリ及び単語の並びに関
する規則を例えば文脈自由文法等で記述し、LR(Le
ft−to−Right)パージング法(文献2:情報
処理学会論文誌、Vol.31,No.3,pp.47
2−480(1990.3)参照)等の手法を用いて、
図3に示すような発話意味表現を生成する。図3の発話
意味表現の“score”は、発話意味表現中に含まれ
る単語のスコア等により算出される値である。
【0033】また、第1の構文・意味解析部107での
構文・意味解析に際して、入力される単語候補系列中の
単語候補の始終端点の時間的な重なりに基づいて解析を
行うといった、時間軸に関する制約を導入することによ
り、処理時間の短縮や処理性能の向上を図ることも可能
である。
【0034】第1の構文・意味解析部107では、この
ようにして生成された複数の発話意味表現候補のうちス
コアの上位N個の候補が第2段階の単語候補系列として
選択され、これらが類似度−尤度変換部108へ送られ
る。このように上位N個の発話意味表現候補を選択する
ことにより、単語候補系列中の付加誤りの単語候補数を
削減でき、また総合判定部109での処理量を削減する
ことも可能となる。上位N個の発話意味表現候補に含ま
れる単語候補系列は、総合判定部109で後述する音韻
単位の単語候補系列との比較に供される。そこで、類似
度−尤度変換部108において、音韻標準パターン格納
部112に格納された音韻標準パターンと、音声分析部
102からの該当単語区間の特徴パラメータを用いて該
当単語の尤度を計算し、先に求めらた類似度と共に発話
意味表現中に格納する。
【0035】次に、音韻を照合単位とする第2の始終端
非固定連続パターン照合部110について説明する。第
2の始終端非固定連続パターン照合部110では、単語
リスト格納部111に格納された認識対象の単語リスト
に基づき、音韻標準パターン格納部112に格納された
音韻標準パターンを接続して単語標準パターンを作成す
る。具体的には、例えば図4に示すように、音韻HMM
(Hidden Markov Model)を音韻標準パターンとして、単
語を構成する音韻ラベルに基づき、音韻HMMを連結し
て単語HMMを構成する。そして、単語HMMを用いて
例えばストキャスティックDP法(文献3:「確率モデ
ルによる音声認識」、中川聖一著、(社)電子情報通信
学会編、PP.87〜89参照)等に基づいて、第1の始終
端非固定連続パターン照合部104と同様に、始終端が
非固定の連続パターン照合を行う。
【0036】こうして第2の始終端非固定連続パターン
照合部110で得られた単語の尤度系列は、第2の単語
候補系列抽出手段である尤度判定部113に入力され
る。この尤度判定部113では、尤度系列に対して予め
定めたしきい値により判定を行い、第2段階の単語候補
系列(単語ラティス)を求める。尤度判定部113で得
られた単語候補系列は、第2の構文・意味解析部114
へ送られる。
【0037】第2の構文・意味解析部114では、前述
した単語全体パターンを用いた単語認識における第1の
構文・意味解析部107と同様の処理によって発話意味
表現候補が求められ、スコアの上位N位の発話意味表現
中の単語候補が第2段階の単語候補系列として総合判定
部109へ送られる。このように第2の構文・意味解析
部114においても、第1の構文・意味解析部107と
同様に上位N位の発話意味表現を選択することにより、
単語候補系列中の付加誤りの単語候補数を削減できる。
【0038】総合判定部109では、前述した単語全体
パターンにより検出された類似度−尤度変換部108か
らの単語候補系列W1と、音韻標準パターンに基づき検
出された構文・意味解析部114からの単語候補系列W
2とを比較して総合判定を行うことにより、最終段階の
単語候補系列を求める。この場合、単語候補系列系列W
1とW2は共に尤度系列に基づくものであるため、総合
判定部109では両者を同じ尺度で容易に比較すること
が可能である。
【0039】総合判定部109での具体的な処理を図5
により説明する。総合判定部109では、まず単語候補
系列W1およびW2中の単語候補のカテゴリ名(C1,
C2,…)と、単語区間の互いの時間的な重なりの検証
を行う。単語候補W1およびW2の両方にあるカテゴリ
名が同じ単語候補(図5の例ではカテゴリ名C2の単語
候補)については、その時間的な重なりが所定のしきい
値以上ある場合は同一候補と見なして、尤度の高い方の
候補のみを残す。図5の例では、単語候補W1にあるカ
テゴリ名C2の単語候補の尤度L4の方が単語候補W2
にあるカテゴリ名C2の単語候補の尤度L2より大きい
ため、単語候補W1にあるカテゴリ名C2の単語候補を
残す。
【0040】一方、単語候補系列W1にあって、単語候
補系列W2にない単語候補については、その単語候補の
尤度に重み係数P1(P1<1.0)で重み付けを行
う。図5の例では、カテゴリ名C1の単語候補が単語候
補系列W1にあり、単語候補系列W2にないため、この
単語候補の尤度L1に重み係数P1で重み付けを行う。
【0041】さらに、単語候補系列W1になく、単語候
補系列W2にある単語候補については、その尤度に重み
係数P2(P2<P1<1.0)で重み付けを行う。図
5の例では、カテゴリ名C2の単語候補が単語候補系列
W1になく、単語候補系列W2にあるため、この単語候
補の尤度に重み係数P2で重み付けを行う。
【0042】ここで、上記2つの重み係数の関係がP2
<P1であるのは、一般に単語全体パターンに基づく単
語認識の方が音韻単位の単語認識に比べて性能が高いた
め、単語全体パターンに基づく単語認識の結果を優先す
るという理由による。
【0043】次に、総合判定部109ではこうして尤度
に重み付けがなされた単語候補系列に対して再度、尤度
判定処理を行い、所定のしきい値以上の尤度をもつ候補
のみを抽出して第3の構文・意味解析部115へ送る。
また、最終的な単語候補系列と音声波形とから、所定の
一定長さ以上の継続時間を持ち、明らかに何らかの音声
が入力されているが、単語候補が出現していない区間を
未知語区間とし、カテゴリ名の代わりにそのまま未知語
区間の音声波形を持つようにして未知語候補として出力
する。
【0044】第3の構文・意味解析部115では、総合
判定部109から入力された最終段階の単語候補系列に
対して、前述した単語全体パターンによる単語認識にお
ける第1の構文・意味解析部107と同様の処理を行
い、入力音声に対する最終的な音声認識結果たる発話意
味表現候補を求める。
【0045】(実施例2)図6に、第2の発明に係る音
声認識装置の他の実施例を示す。先の実施例1では、第
1の始終端非固定連続パターン照合部104による照合
結果である類似度系列と、第2の始終端非固定連続パタ
ーン照合部110による照合結果である目尤度系列を対
等に用いて音声認識を行ったが、本実施例は始終端非固
定連続パターン照合部104による照合結果である類似
度系列による音声認識を基本とし、これを音韻標準パタ
ーン格納部112に格納された音韻標準パターンを用い
て検証するものである。すなわち、特徴パラメータと音
韻標準パターンとの照合により得られる尤度を用いて、
類似度系列中の類似度に重み付けを行って類似度に適宜
変更を加え、この変更後の類似度を用いて最終的な認識
結果を得ることが特徴である。
【0046】図6において、音声入力部101でマイク
ロホンを介して入力されA/D変換器によりディジタル
化された入力音声信号は、音声分析部102によりFF
T分析やLPC分析などの周波数分析が行われ、所定の
単位時間毎にその特徴パラメータが求められる。
【0047】音声分析部102で求められた特徴パラメ
ータの時系列は始終端非固定連続パターン照合部104
に入力され、単語認識が行われる。始終端非固定連続パ
ターン照合部104は、実施例1と同様にして、入力さ
れる特徴パラメータに対し単語全体のパターンを認識単
位として始終端非固定の連続パターン照合を行い、単語
候補系列を類似度系列として出力する。
【0048】始終端非固定連続パターン照合部104で
得られた類似度系列は、類似度判定部106に送られ
る。類似度判定部106では、実施例1と同様にして、
入力された類似度系列の各類似度を単語毎に定めたしき
い値と比較し、類似度がしきい値を越える単語候補のみ
を第1段階の単語候補系列として抽出して、第1の構文
・意味分析部107に送る。第1の構文・意味解析部1
07では、実施例1と同様の処理により、類似度判定部
106から入力された単語候補系列について構文および
意味解析を行い、複数の発話意味表現候補を生成する。
【0049】こうして第1の構文・意味解析部107で
生成された複数の発話意味表現候補のうち、スコアの上
位N個の候補が第2段階の単語候補系列として選択さ
れ、始終端非固定連続パターン照合部104で得られた
類似度系列と共に、尤度計算部121に送られる。尤度
計算部121には、音声分析部102からの特徴パラメ
ータの時系列も入力されている。尤度計算部121で
は、第1の構文・意味解析部107からの上位N個の発
話意味表現候補に含まれる単語候補について、音韻標準
パターン格納部112に格納された音韻標準パターン
と、音声分析部102からの該当単語区間の特徴パラメ
ータとを照合して、その単語候補に相当する単語の尤度
を計算し、類似度と共に格納する。
【0050】尤度計算部121で計算された尤度は尤度
判定部122に入力され、しきい値より大きいかどうか
が判定される。尤度判定部122の判定結果は類似度変
更部123に入力され、尤度計算部121に格納されて
いる類似度に対する重み係数が決定されると共に、この
重み係数を用いて尤度計算部121からの類似度に重み
付けが行われることにより、類似度が変更される。類似
度変更部123により変更された類似度は、さらに類似
度判定部124に入力され、しきい値処理される。そし
て、類似度判定部124の判定結果が最終段階の単語候
補系列として第2の構文・意味解析部125に入力され
る。第2の構文・意味解析部125では、入力された単
語候補系列に対して、構文および意味解析を行い、入力
音声に対する最終的な音声認識結果たる発話意味表現候
補を得る。
【0051】次に、本実施例での特徴的な処理につい
て、図7に示す各段階での単語ラティスの構造と図8に
示すフローチャートを参照して説明する。前述したよう
に、尤度計算部121は各単語候補に相当する単語につ
いて尤度を計算すると共に、その尤度と始終端非固定連
続パターン照合部104で得られた類似度を組にして格
納する。その様子を図8(a)に示す。図8(a)にお
いては、各単語名の横の( )内に記された数値のうち
上段が類似度、下段が尤度を表わす。
【0052】そして、尤度計算部121に格納された類
似度と尤度の組を読み込み(ステップS1)、まず尤度
判定部122で尤度に関するしきい値処理を行う(ステ
ップS2)。ここで、尤度がしきい値よりも小さい場
合、その尤度を持つ単語候補は候補から除く(ステップ
S3)。
【0053】一方、ステップS2で尤度がしきい値より
大きいと判定された場合、類似度変更部123におい
て、まず尤度計算部121から読み込まれた尤度に基づ
いてステップS1で読み込まれた類似度に対する重み係
数を決める(ステップS4)。具体的には、例えば尤度
に基づいて決定される重み係数の範囲をWmin 〜Wmax
(0≦Wmin ,Wmax ≦1)とし、予め該当単語のとり
うる尤度Lの範囲Lmin〜Lmax を定めることにより、
以下の式で重み係数αを定義することができる。なお、
尤度判定部122におけるしきい値は、Lmin より小さ
な値に設定されているものとする。
【0054】 (i) L<Lmin の場合 α=Wmin (ii) Lmin ≦L≦Lmax の場合 α=Wmin +(Wmax −Wmin )(L−Lmin )/(L
max −Lmin ) (iii) Lmax <L α=Wmax このようにして、尤度に応じて類似度に対する重み係数
の最大値Wmax と最小値Wmin を決定することができ
る。次に、類似度変更部123では、上記のようにして
決定された重み係数を用いて、ステップS1で尤度計算
部121から読み込んだ類似度に対する重み付けを行う
ことによって、その類似度を変更する(ステップS
5)。この類似度変更後の単語ラティスを図7(b)に
示す。この例によれば、例えば図7(a)中の単語Aの
類似度0.95は、図7(b)中に示すように0.91
に変更されている。
【0055】そして、次に類似度変更後の単語ラティス
について、類似度判定部124において再度、類似度を
しきい値処理して類似度判定を行い、単語候補系列を選
択する(ステップS6)。この類似度判定後の単語ラテ
ィスを図7(c)に示す。これは、例えばしきい値を
0.85に設定した場合の例であり、0.85に満たな
い類似度は単語候補系列から除去されている。さらに、
類似度判定部124では選択した単語候補系列に重み付
けされた類似度を付加して格納する。
【0056】最後に、この単語候補系列を構文・意味解
析部125に送り、構文および意味解析を行うことによ
り、入力音声に対する最終的な音声認識結果である発話
意味表現候補を得る。
【0057】このように本実施例によると、始終端非固
定連続パターン照合部104で得られる類似度系列を基
本とし、この類似度系列の各類似度に対して音声分析部
102で得られた特徴パラメータと音韻標準パターン格
納部112に格納された音韻標準パターンとの照合によ
り得られる尤度系列の尤度に従った重み付けを行って変
更し、この変更後の類似度系列を類似度を判定部124
でしきい値処理した結果を用いて構文・意味解析部12
5で構文および意味解析を行うことにより、正しい単語
候補の検出精度を上げ、誤って検出された単語候補を削
減することができる。すなわち、始終端非固定連続照合
部104での照合単位となる単語全体パターンによる類
似度を主とし、音韻標準パターンにより得られる尤度を
従として利用することにより、最終的な単語検出性能、
さらには発話理解性能を向上させることができる。
【0058】実施例1では類似度を尤度に変換し、尺度
の異なる単語候補を同一の尺度で比較する方法を示した
が、実施例2では尤度を補助的に用い、類似度に重み付
けする方法をとっている点が異なる。このように実施例
2によれば、異なる認識単位を用いて始終端非固定の単
語検出精度、さらには発話理解性能の向上を可能とする
ことができる。
【0059】なお、第2の発明は上述した実施例1およ
び2に限定されるものでなく、例えば類似度や尤度等は
様々な尺度を利用することが可能であり、また本発明に
よる音声認識装置の用途についても、実施例で示した品
物の注文を行うタスクに特に限定されるものでないこと
は勿論である。
【0060】(実施例3)図9に、第2の発明に係る連
続音声認識用辞書作成機能を備えた音声認識装置の構成
を示す。本実施例では、複合類似度法にもとづく連続単
語認識方法を用いた音声認識装置において使用する連続
単語辞書を作成する場合を例にとって説明する。
【0061】図9において、入力音声信号は音響処理部
201に入力される。この音響処理部201では、個々
の音声データをA/D変換器によりディジタル化した
後、例えば8msecを1フレームとして、フレーム毎
に24msec幅の窓をかけてフーリエ変換を施し、1
6チャンネルのスペクトルパターン(16次元ベクトル
の時系列)を特徴パターンとして抽出する。また、音響
処理部201は同時に音声区間の検切を行い、音声区間
の始端となるフレームと終端となるフレームのフレーム
番号をスペクトルパターンにラベリングし、学習データ
格納部202へ出力する。ここで、音声区間の検切の方
法については、例えば、新美康永著「音声認識」(共立
出版)、1979年の第68頁〜第72頁に記載された
方法を用いれば良い。
【0062】学習データ格納部202では、音響処理部
201から入力されたスペクトルパターンに対して、辞
書作成作業者が発声した単語数と単語名を入力して、こ
れを後述する認識辞書の学習のための学習データとして
格納する。
【0063】辞書作成管理部203は、認識辞書の作成
および学習の進行状況に応じて学習データ格納部202
から学習データを読み込む。また、辞書作成管理部20
3は学習すべき辞書を認識辞書格納部209に指示す
る。認識辞書格納部209は、音声認識部205に認識
辞書を引き渡す。
【0064】次に、辞書作成管理部203による連続音
声認識用単語辞書の作成手順を図10に示すフローチャ
ートを用いて説明する。まず、学習データ格納部202
から読み込んだ孤立発声された単語の学習データである
孤立単語学習データから、孤立単語辞書を初期辞書とし
て作成する(ステップS11)。
【0065】次に、学習データ格納部202から連続2
単語学習データセットを読み込み、このデータセットに
対して単語認識辞書の学習を行う。この学習は、連続2
単語学習データセットを固定し、同一の学習データセッ
トに対して終了条件を満たすまで反復して行う(ステッ
プS12)。終了条件としては、例えば学習の反復回数
に上限を設定する方法がある。他の方法としては、学習
データセットに単語名と単語数を与えずに、学習が終っ
た単語認識辞書を用いて音声認識部205で音声認識を
行い、認識率が最高値を示してから以降、予め定めた一
定回数だけ反復してもその最高値を越えなかった場合に
終了とする。後者の場合には、認識率が最高となった時
の単語認識辞書に戻って学習を再開する。
【0066】さらに、今度は学習データ格納部202か
ら連続3単語学習データセットを読み込んで、同様に上
記の終了条件を満たすまで単語認識辞書の学習を反復し
て行う(ステップS13)。
【0067】こうして連続3単語学習データに対する学
習が終了した後は、辞書作成作業者からの指示によっ
て、まだ学習に用いられていない学習データ、既に学習
済みの学習データ、および新たに追加されたデータなど
に対して、連続音声認識用単語辞書の追加学習を行う
(ステップS14)。
【0068】辞書作成管理部203は、図10の辞書作
成手順を実現するために、図11のフローチャートに示
す手順によって学習データ格納部202から読み込むべ
き学習データを選別する。
【0069】まず、辞書作成管理部203は辞書作成作
業者による発声データと学習すべき辞書の指定があるか
ないかを判定し(ステップS21)、指定がある場合に
は指定されたデータを学習データ格納部202から読み
込み、スイッチ204を介して音声認識部205に渡す
(ステップS22)。また、指定された辞書を認識辞書
格納部209から音声認識部205に渡す(ステップS
23)。
【0070】次に、辞書作成管理部203はデータと辞
書の指定がない場合には、辞書の学習がどの段階まで進
んでいるか判定する(ステップS24,S29,S3
2)。そして、辞書の学習の進行状況に応じた学習デー
タを学習データ格納部202から読み込んで、スイッチ
204を介して音声認識部205に渡し(ステップS2
5,S27,S30,S33)、辞書の作成あるいは学
習が終了するのを待つ(ステップS26,S28,S2
9,S31)。
【0071】以上のように、本実施例では調音結合のな
い孤立発声された単語の学習データである孤立単語学習
データから作成した単語辞書を初期辞書として、連続2
単語学習データ、つまり単語の始端あるいは終端に調音
結合を含むデータを学習し、さらに連続3単語学習デー
タ、つまり両端に調音結合を含むデータを学習するとい
う段階を踏むことにより、孤立単語データから作成した
単語辞書によって連続3単語のデータのセグメンテーシ
ョンを直接行う場合に比較して、より正確なセグメンテ
ーションを行うことができ、もって認識率の高い認識が
できる認識辞書を効率良く得ることが可能となる。
【0072】制御部210は、音声認識部205の入力
側に設けられたスイッチ204の切替え、音声認識部2
05で用いる辞書の指定、学習データ格納メモリ202
から辞書作成管理部203に読み込むべき学習データの
指定などを行う。
【0073】音声認識部205では、音響処理部201
からスイッチ204を介して入力されたスペクトルパタ
ーンの認識を行う。この場合、辞書作成管理部203あ
るいは制御部210からの指定がない限り、認識辞書格
納部209に格納されている認識辞書の中で最も新しい
辞書を認識に用いる。
【0074】次に、本実施例における音声認識アルゴリ
ズムを説明する。まず、単語数をwと固定したとき、 Rw=(F1,F2,…F(w−1),L1,L2,…,Lw) =argmax{S(l1)(1,f1)+S(l2)(f1+1,f2)+… (f1,f2,…,f(w−1),l1,l2,…,lw)+ S(lw)(f(w−1)+1,N)} …(1)
【0075】
【数1】 と定義する。ここで、Rwはw単語と仮定した場合の単
語認識の結果とセグメンテーションを表わし、F1,F
2,…,F(w−1)は単語の区切れ位置を示すフレー
ム番号、L1,L2,…,Lwは第1単語から第w単語
である。また、S(l)(f,g)は始端を第fフレー
ム、終端を第gフレームとするセグメントに対応する特
徴ベクトルと、単語lの辞書との複合類似度を表す。
【0076】Wを予め指定された最大連続単語数とし
て、wを1からWまで変えてS1からSWとR1からR
Wまでを全て計算し、 W* =argmax{S1,S2…,SW} …(3) を求め、 RW* =(F1,F2,…,F(W* −1),L1,L2,…,LW* ) …(4) を音声パターンのセグメンテーションおよび単語認識結
果として出力する。
【0077】辞書作成の際には、スペクトルパターンの
単語名、単語数は既知であるので、音声認識部205で
はセグメンテーションのみを行う。入力されたパターン
の単語数がvで、発声単語が発声順にL1,L2,…,
Lvである時には、セグメンテーション(F1,F2,
…,F(v−1))は、 (F1,F2,…,F(v−1)) =argmax{S(L1)(1,f1)+S(L2)(f1+1,f2)+… f1,f2,…,f(v−1) +S(LM)(f(v−1)+1,N)} …(5) によって求められる。
【0078】図9の特徴ベクトル抽出部15では、音声
認識部205からスペクトルパターンとセグメンテーシ
ョン結果を受け取り、学習用パターンとしての特徴ベク
トルを以下のように作成する。
【0079】セグメンテーション結果に基づき、各セグ
メント毎に等間隔に16フレームを選び、セグメントの
始端フレームsを第1番目、終端フレームeを第16番
目とし、周波数方向16チャネルの場合、16×16=
256次元ベクトルとして表したベクトルを x=(x11,x12,…,x1,16,x21,x22,…,x16,16 ) …(6) とする。ここで、xijは選ばれた16本のフレームのう
ち第i番目のフレームの第jチャンネルの成分を表し、
xtはxの転置を表す。また、全フレーム数が16の倍
数ではない時には、 k=(e−s)/15 …(7) とし、第s,第(1+[k]),第(s+[2k]),
…,第(s+[14k]),第eフレームの16フレー
ムを選択する。ただし、[j]はjを四捨五入すること
を表す。
【0080】複合類似度法については、「パターン認識
と部分空間法」エルッキ・オヤ著、小川英夫、佐藤誠訳
(産業図書1986年)に記載がある。音声認識部20
5が音響処理部201からの出力を入力として音声認識
を行う場合には、出力結果として評価関数Fの極値を実
現するフレーム区間[si,ei]と単語列li(i=
1,2,…,w)を求めて出力する。また、辞書学習時
には認識正解単語列が予め分かっているので、評価関数
はフレーム区間のみの関数となる。この場合には、評価
関数の極値を与える単語区間[si,ei](i=1,
2,…,w)を求めて出力する。
【0081】特徴ベクトル格納部207では、音声認識
部205で求めた各単語区間から単語特徴ベクトルを作
成し、これを単語名や単語区間長などをラベリングして
格納する。
【0082】認識辞書学習部208では、特徴ベクトル
格納部207から単語lに対するp個の特徴ベクトル
{x(l)i}(i=1,2,…,p)を読み込み、こ
の特徴ベクトルから単語lの辞書を作成あるいは学習す
る。複合類似度法の辞書作成・学習については、「パタ
ーン認識と部分空間法」エルッキ・オヤ著、小川英夫、
佐藤誠訳(産業図書1986年)に記載がある。この
後、認識辞書格納部209では、学習し終えた辞書を最
新の辞書として格納する。
【0083】再び辞書作成管理部203に戻り、終了条
件と照合して辞書学習を反復するかどうかを判定し(ス
テップS34,S39,S32)、連続単語認識用辞書
が完成するまで必要なステップの処理を実行する。
【0084】制御部210は、音声認識部205の入力
側に設けられたスイッチ204の切替え、音声認識部2
05で用いる辞書の指定および学習データ格納メモリ2
02から辞書作成管理部203に読み込むべき学習デー
タの指定など、認識および学習の全体の流れを自動で、
あるいは辞書作成作業者が指示を与えて管理するための
部分である。
【0085】(実施例4)第2の発明に係る他の実施例
を説明する。本実施例は、音素を認識単位とする場合の
複合類似度法による日本語の連続音声認識に関するもの
である。辞書作成管理部203および音声認識部205
での認識アルゴリズムにおいて認識単位が単語に代わっ
て音素になること以外は、実施例3と同じである。
【0086】本実施例においては、学習データ格納部2
02には最低、母音の孤立発声データ、音節(連続2音
素)の学習データ、(母音)+(子音または母音)+
(母音)の形の連続3音素の学習データを格納する。こ
のデータは日本語として意味をなさなくても構わない。
【0087】辞書作成管理部203では、図12のフロ
ーチャートに示す手順より辞書を作成するために、図1
3のフローチャートに示す手順に従って学習データを選
択する。
【0088】図12を用いて辞書作成手順を説明する
と、まず母音の孤立発声データから母音の辞書を作成す
る(ステップS41)。次に、母音の辞書を用いて子音
の辞書を作成するために、音節の学習データを読み込み
(ステップS42)、音声認識部205でセグメンテー
ションを行う。音節は子音+母音の形をとり、また、こ
の段階では子音の辞書は作成されていないので、例えば
「か」(/KA/)のセグメンテーションについて、/
K/に対する類似度は全てのフレームf1について S(/K/)(1,f1)=0 …(11) と定め、セグメンテーションの式(5)において
【0089】
【数2】 とするように、子音の類似度は0として母音部分だけの
類似度によってセグメンテーションを行う。ここで、n
は/KA/のスペクトルパターンの音声区間の最終フレ
ームである。このとき、/K/に対応するセグメントは
(1,F1)であり、/A/に対応するセグメントは
(F1+1,n)である。このデータに基づいて認識辞
書学習部208において子音の辞書を作成し、同時に母
音の辞書の学習を行う。
【0090】こうして子音辞書を作成し、再び音節の学
習データをセグメンテーションを行う。ここで、式(1
5)のように子音に対して類似度を0とすることなく、
通常のセグメンテーション、つまり式(5)においてv
を2とおいた式により、セグメンテーションを行う。実
施例3の場合と同様に、音節の学習データについて学習
を反復する(ステップS43)。
【0091】さらに、連続3音素発声データのセグメン
テーションを行い、辞書の学習を反復する。この反復が
完了した時をもって連続音声認識用辞書の作成が終了し
たという(ステップS44)。
【0092】さらに学習が済んでいないデータについ
て、辞書の追加学習を行う(ステップS45)。図12
の辞書作成の手順を実現するための辞書作成管理部20
3における処理手順を示すフローチャートが図13であ
る。
【0093】まず、学習すべき辞書と、学習に用いるデ
ータの指定があるかないかを判定する(ステップS5
1)。指定がある場合は、指定されたデータと辞書を音
響処理部201に渡す(ステップS52,S53)。指
定がない場合は、学習の進度に応じてデータを読み込み
(ステップS55,S57,S60,S63)、辞書の
学習あるいは作成が終了するのを待つ(ステップS5
6,S58,S61)。辞書の作成あるいは学習が終了
すると、学習が終了条件を満たすかどうかを判定する
(ステップS54,S59,S62)。
【0094】このように第2の発明によれば、徐々に連
続する単語あるいは音韻といった認識単位の連続する数
(連続発声単位数)を順次大きくして辞書の学習を段階
的に行うことによって、調音結合による音声パターンの
変形に対して強く、認識率の高い音声認識を可能とする
認識辞書を効率良く作成することができる。
【0095】また、実施例3や実施例4に評価関数Fに
よるセグメンテーションに制約を加えることもできる。
例えば、単語区間長に関する制約について説明する。単
語毎に単語区間長の制限を設けて、単語lに対して予め
統計をとるなどして、単語区間長の最大値をLmax
(l)、最小値をLmin(l)と制限し、制約をつけ
た評価関数 F(w,[s1,e1],[s2,e2],…,[sw,ew],l1,l2 ,…,lw) lmin(li)≦ei−si≦Lmax(li),i=1,2,…,w …(13) によってセグメンテーションを行う。これにより、セグ
メンテーションの誤りを削減でき、誤ったデータによる
辞書学習を減らすことができる。
【0096】(実施例5)第2の発明に係るさらに別の
実施例を説明する。先の実施例3および4では、孤立発
声単位の学習データ(孤立単語学習データ)から孤立単
語辞書を初期辞書として作成し、この初期辞書を用いて
連続発声単位数を順次大きくし、これらの連続発声単位
の学習データを基に初期辞書を更新してゆくことにより
認識辞書の作成および学習を行うので、個々の認識単位
(孤立発声単位または連続発声単位)に対して作成され
る認識辞書はそれぞれ1つである。
【0097】これに対して、本実施例は個々の認識単位
に対して、調音結合に応じて区別した複数の認識辞書、
いわゆるマルチテンプレートを作成することによって、
認識性能をさらに向上させるものである。ここでは、実
施例3と同様に認識辞書として単語辞書を作成する場合
を例にとり、図14に示すフローチャートを用いて説明
する。
【0098】まず、実施例3と同様に孤立単語学習デー
タから孤立単語辞書を初期辞書として作成し(ステップ
S71)、次いで初回の辞書学習において連続2単語学
習データをセグメンテーションする(ステップS7
2)。先の実施例3では、この連続2単語学習データか
ら得られた片側に調音結合を含むデータを初期辞書の学
習に用いていた。これに対し、本実施例では連続2単語
学習データから初期辞書とは別に、連続2単語学習デー
タ中の終端または始端のいずれかに調音結合を含むデー
タを用いて、新たな辞書(これを片側調音結合辞書と呼
ぶ)を作成する(ステップS73)。
【0099】図15および図16は、それぞれ連続2単
語データおよび連続3単語データのセグメンテーション
の例であり、発声データのパターンを長方形で表し、セ
グメンテーション位置(単語の区切れ位置)を破線で表
している。図15に示すように、連続2単語学習データ
からは単語始端に調音結合を含むデータと単語終端に調
音結合を含むデータの2種類が得られるので、これら2
種類のデータを区別して始端調音結合辞書と終端調音結
合辞書を作成することが可能である。図15において
は、「10(いちぜろ)」における「いち」のように単
語の終端に調音結合を含む場合と、「01(ぜろい
ち)」における「いち」のように単語の始端に調音結合
を含む場合とを区別して、「いち」に対して調音結合の
位置に応じて2つの認識辞書、つまり始端調音結合辞書
と終端調音結合辞書を作成する。
【0100】次に、このようにして作成された片側調音
結合辞書(始端調音結合辞書または終端調音結合辞書)
に対し、連続2単語学習データを用いて学習を反復する
(ステップS74)。また、調音結合位置に関して始終
端を区別して辞書を作成する場合には、単語終端に調音
結合を含むデータを用いて終端調音結合辞書の学習を行
い、単語始端に調音結合を含むデータを用いて始端調音
結合辞書の学習を行うようにする。なお、これらのいず
れの場合も学習の終了条件は実施例3と同じである。
【0101】次に、連続3単語データに対し、初期辞書
と調音結合辞書の両方をマルチテンプレートとして用い
るか、あるいは初期辞書および片側調音結合辞書の一方
を用いて、セグメンテーションを行う(ステップS7
5)。この連続3単語のセグメンテーションによって、
図16に示すように単語終端、単語始端、および単語の
始終両端に調音結合を含むデータが得られる。これらの
うち、単語始端あるいは単語終端に調音結合を含むデー
タを用いて片側調音結合辞書の学習、もし始終端の区別
を行う場合には、単語始端あるいは単語終端調音結合辞
書の学習を行う。ここで、さらに始終両端に調音結合を
持つデータのみで新たな辞書(これを両側調音結合辞書
と呼ぶ)を作成する(ステップS76)。
【0102】そして、この連続3単語データを用いて、
片側調音結合と辞書両側調音結合辞書の学習を以下のよ
うにして行う。すなわち、連続3単語学習データのセグ
メンテーションを行うときには、第1単語に対しては片
側調音結合辞書あるいは終端調音結合辞書、第2単語に
ついては両端調音結合辞書、第3単語に対しては片側調
音結合辞書あるいは始端調音結合辞書を用いてそれぞれ
尤度を計算し、その尤度に従ってセグメンテーションを
行う。このセグメンテーション結果から、調音結合に応
じて片側調音結合辞書と両側調音結合辞書の学習を行う
(ステップS77)。そして、終了条件を満たすまで学
習を反復する。
【0103】連続4単語データ以上についても、第1単
語と第4単語については片側あるいは始端・終端の区別
に応じた調音結合辞書を用い、それ以外の第2および第
3単語については両側調音結合辞書を用いて尤度計算、
セグメンテーションを行い、調音結合に応じたデータに
より辞書を学習する。また、孤立単語学習データがある
場合には、孤立単語辞書の学習を行う(ステップS7
8)。
【0104】以上のように、本実施例によれば孤立発声
単位の学習データを用いて調音結合を含まない認識辞書
(初期辞書)を作成し、さらに連続発声単位の学習デー
タ中の始端および終端の少なくとも一方に調音結合を含
むデータを用いて、始端または終端に調音結合を含む辞
書、および始端および終端の両方に調音結合を含む認識
辞書を作成することができる。すなわち、一つの認識単
位に対して複数の認識辞書いわゆるマルチテンプレート
を作成することによって、さらに認識性能の高い音声認
識が可能となる。
【0105】
【発明の効果】第1の発明によれば、単語全体パターン
と音韻パターンをそれぞれ用いた2種類のマッチングに
よる単語認識を併用することにより、語彙の変更や追加
が容易で、かつ高い認識性能を得ることができ、また2
種類のマッチングによる単語認識により得られた第1段
階での単語候補系列に対して構文・意味解析を行うこと
により、単語候補の付加誤りが削減されるため、自由発
話に対する発話理解性能が向上する。
【0106】また、第1の発明によれば単語全体パター
ンを用いたマッチングで得られる類似度系列を基本と
し、この類似度系列の各類似度に対して特徴パラメータ
と音韻標準パターンとの照合により得られる尤度系列の
尤度に従った重み付けを行って変更を加え、この変更後
の類似度系列から最終単語候補系列を抽出し、これを構
文および意味解析することにより、正しい単語候補の検
出精度を上げ、誤って検出された単語候補を削減するこ
とができる。すなわち、単語全体パターンによる類似度
を主とし、音韻標準パターンにより得られる尤度を従と
して利用することにより、語彙の変更や追加が容易であ
ることに加えて、最終的な単語検出性能、さらには発話
理解性能が向上するという利点がある。
【0107】第2の発明によれば、音声認識装置の認識
アルゴリズムによる発声データのセグメンテーションを
用いて連続音声認識辞書作成のための音声パターンを自
動作成するので、音声認識にとって最適な辞書を作成す
ることが可能となり、また辞書作成の時間が大幅に短縮
され、さらに辞書の学習に用いるスペクトルパターンに
含まれる認識単位数を1単位から徐々に増やすことによ
り、徐々に調音結合によるパターン変形を認識辞書に学
習させることで、性能の高い連続音声認識用辞書を作成
でき、もって連続音声に対する認識性能を向上させるこ
とができる。
【0108】さらに、第2の発明によれば孤立発声単位
の学習データを用いて調音結合を含まない認識辞書(初
期辞書)を作成し、さらに連続発声単位の学習データ中
の始端および終端の少なくとも一方に調音結合を含むデ
ータを用いて、始端または終端に調音結合を含む辞書、
および始端および終端の両方に調音結合を含む認識辞書
を作成することができる。すなわち、一つの認識単位に
対して複数の認識辞書いわゆるマルチテンプレートを作
成することによって、さらに認識性能の高い音声認識が
可能となる。
【図面の簡単な説明】
【図1】第1の発明に係る音声認識装置の実施例を示す
ブロック図
【図2】図1における類似度判定部から出力される第1
段階の単語候補系列(単語ラティス)の一例を示す図
【図3】図1における第1の構文・意味解析部で生成さ
れる第2段階の単語候補系列(発話意味表現)の一例を
示す図
【図4】図1における第1の始終端非固定連続パターン
照合部の処理を説明するための図
【図5】図1における総合判定部の処理を説明するため
の図
【図6】第1の発明に係る他の音声の認識装置の他の実
施例を示すブロック図
【図7】同実施例における尤度計算後と類似度変更後お
よび類似度判定後の単語ラティスを示す図
【図8】同実施例における要部の処理手順を説明するた
めのフローチャート
【図9】第2の発明に係る音声認識装置の実施例を示す
ブロック図
【図10】第2の発明に係る一実施例における連続音声
認識用単語辞書の作成手順を示すフローチャート
【図11】同実施例において図10の辞書作成手順を実
現するための図9における辞書作成管理部の処理手順を
示すフローチャート
【図12】第2の発明に係る他の実施例における連続音
声認識用単語辞書の作成手順を示すフローチャート
【図13】同実施例において図12の辞書作成手順を実
現するための図9における辞書作成管理部の処理手順を
示すフローチャート
【図14】第2の発明に係るさらに別の実施例における
連続音声認識用単語辞書の作成手順を示すフローチャー
【図15】同実施例における連続2単語のセグメンテー
ションの例を示す図
【図16】同実施例における連続3単語のセグメンテー
ションの例を示す図
【符号の説明】
101…音声入力部 102…音声分析部 103…音声データ格納部 104…第1の始終端非固定連続パターン照合部(第1
の照合手段) 105…単語標準パターン格納部 106…類似度判定部(第1の単語候補系列抽出手段) 107…第1の構文・意味解析部 108…類似度−尤度変換部 109…総合判定部 110…第2の始終端非固定連続パターン照合部(第2
の照合手段) 111…音韻標準パターン格納部 112…単語リスト格納部 113…尤度判定部(第2の単語候補系列抽出手段) 114…第2の構文・意味解析部 115…第3の構文・意味解析部 116…制御部 121…尤度計算部 122…尤度判定部 123…類似度変更部 124…類似度判定部 125…構文・意味解析部 201…音響処理部 202…学習データ格納部 203…辞書作成管理部 204…スイッチ 205…音声認識部 206…特徴ベクトル抽出部 207…特徴ベクトル格納部 208…認識辞書学習部 209…認識辞書格納部 210…制御部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】外部から入力された入力音声を分析して該
    入力音声の特徴を表わす特徴パラメータを求める入力音
    声分析手段と、 この入力音声分析手段により求められた前記特徴パラメ
    ータを複数の単語のそれぞれの標準的なパターンを示す
    単語標準パターンと照合する第1の照合手段と、 前記入力音声分析手段により求められた前記特徴パラメ
    ータを複数の音韻のそれぞれの標準的なパターンを示す
    音韻標準パターンから作成した単語標準パターンと照合
    する第2の照合手段と、 前記第1および第2の照合手段の照合結果から前記入力
    音声に対応する第1段階の単語候補系列をそれぞれ抽出
    する第1および第2の単語候補系列抽出手段と、 前記第1および第2の単語候補系列抽出手段により抽出
    された第1段階の単語候補系列に対してそれぞれ構文お
    よび意味解析を行い、第2段階の単語候補系列をそれぞ
    れ出力する第1および第2の構文・意味解析手段と、 前記第1および第2の構文・意味解析手段からそれぞれ
    出力される第2段階の単語候補系列を総合判定して最終
    単語候補系列を出力する判定手段と、 この判定手段から出力される最終単語候補系列に対して
    構文および意味解析を行い、前記入力音声に対する音声
    認識結果を得る第3の構文・意味解析手段とを具備する
    ことを特徴とする音声認識装置。
  2. 【請求項2】外部から入力された入力音声を分析して該
    入力音声の特徴を表わす特徴パラメータを求める入力音
    声分析手段と、 この入力音声分析手段により求められた前記特徴パラメ
    ータを複数の単語のそれぞれの標準的なパターンを示す
    単語標準パターンと照合する第1の照合手段と、前記入
    力音声分析手段により求められた前記特徴パラメータを
    複数の音韻のそれぞれの標準的なパターンを示す音韻標
    準パターンから作成した認識対象単語の標準的なパター
    ンを示す単語標準パターンと照合する第2の照合手段
    と、 前記第1および第2の照合手段の照合結果から前記入力
    音声に対応する第1段階の単語候補系列をそれぞれ抽出
    する第1および第2の単語候補系列抽出手段と、 前記第1および第2の単語候補系列抽出手段により抽出
    された第1段階の単語候補系列に対してそれぞれ構文お
    よび意味解析を行い、第2段階の単語候補系列をそれぞ
    れ出力する第1および第2の構文・意味解析手段と、 前記第1および第2の構文・意味解析手段からそれぞれ
    出力される第2段階の単語候補系列を総合判定して最終
    単語候補系列を出力する判定手段と、 この判定手段から出力される最終単語候補系列に対して
    構文および意味解析を行い、前記入力音声に対する音声
    認識結果を得る第3の構文・意味解析手段とを具備し、 前記判定手段は、前記第1および第2の構文・意味解析
    手段からそれぞれ出力される前記第2段階の単語候補系
    列中の各単語候補に対し、該単語候補のカテゴリ名と継
    続時間の重なりおよび尤度を用いて前記最終単語候補系
    列の候補とするか否かの判定を行うことを特徴とする音
    声認識装置。
  3. 【請求項3】外部から入力された入力音声を分析して該
    入力音声の特徴を表わす特徴パラメータを求める入力音
    声分析手段と、 この入力音声分析手段により求められた前記特徴パラメ
    ータを複数の単語のそれぞれの標準的なパターンを示す
    単語標準パターンと照合して、該特徴パターンと該単語
    標準パターンとの類似度を表わす類似度系列を生成する
    照合手段と、 この照合手段により生成された類似度系列から前記入力
    音声に対する第1段階の単語候補系列を抽出する第1の
    単語候補系列抽出手段と、 この第1の単語候補系列抽出手段により抽出された第1
    段階の単語候補系列に対して構文および意味解析を行
    い、第2段階の単語候補系列を出力する第1の構文・意
    味解析手段と、 この第1の構文・意味解析手段から出力される第2段階
    の単語候補系列の各単語候補に対して、前記入力音声分
    析手段により求められた該単語候補系列中の各単語区間
    の前記特徴パラメータと複数の音韻のそれぞれの標準的
    なパターンを示す音韻標準パターンとを照合することに
    より尤度を計算する尤度計算手段と、 この尤度計算手段により計算された尤度を用いて前記類
    似度系列中の類似度に重み付けを行って該類似度を変更
    する類似度変更手段と、 この類似度変更手段により類似度が変更された類似度系
    列から前記入力音声に対応する最終単語候補系列を抽出
    する第2の単語候補系列抽出手段と、 この第2の単語候補系列抽出手段により抽出された最終
    単語候補系列に対して構文および意味解析を行い、前記
    入力音声に対する音声認識結果を得る第2の構文・意味
    解析手段とを具備することを特徴とする音声認識装置。
  4. 【請求項4】外部から入力される入力音声を分析して該
    入力音声の特徴を表わす特徴パラメータを求める入力音
    声分析手段と、 前記入力音声の認識を行うための認識辞書を作成する認
    識辞書作成手段と、 この認識辞書作成手段により作成された格納する認識辞
    書格納手段と、 前記入力音声分析手段により抽出された特徴パラメータ
    と前記認識辞書とのマッチングを行って前記入力音声の
    認識を行う認識手段と、 前記入力音声分析手段により求められた特徴パラメータ
    を前記認識辞書の学習に関する学習データとして格納す
    る学習データ格納手段と、 この学習データ格納手段に格納された学習データのう
    ち、孤立発声単位の学習データに始まり、前記認識辞書
    の学習の進展に伴って連続発声単位数が順次大きくなる
    連続発声単位の学習データを順次選択する学習データ選
    択手段と、 この学習データ選択手段により選択された学習データを
    前記認識手段に入力してセグメンテーションおよび認識
    を同時に行い、該セグメンテーションの結果により前記
    特徴パラメータから学習用特徴ベクトルを学習用パター
    ンとして抽出する学習用パターン抽出手段と、 この学習用パターン抽出手段により抽出された学習用パ
    ターンを格納する学習用パターン格納手段と、 この学習用パターン格納手段に格納された学習用パター
    ンを用いて前記認識辞書の学習を行う学習手段とを具備
    することを特徴とする音声認識装置。
  5. 【請求項5】外部から入力される入力音声を分析して該
    入力音声の特徴を表わす特徴パラメータを求める入力音
    声分析手段と、 前記入力音声の認識を行うための認識辞書を作成する認
    識辞書作成手段と、 この認識辞書作成手段により作成された認識辞書を格納
    する認識辞書格納手段と、 前記入力音声分析手段により抽出された特徴パラメータ
    と前記認識辞書とのマッチングを行って前記入力音声の
    認識を行う認識手段と、 前記入力音声分析手段により求められた特徴パラメータ
    を前記認識辞書の学習に関する学習データとして格納す
    る学習データ格納手段と、 この学習データ格納手段に格納された学習データのう
    ち、孤立発声単位の学習データに始まり、前記認識辞書
    の学習の進展に伴って連続発声単位数が順次大きくなる
    連続発声単位の学習データを順次選択する学習データ選
    択手段と、 この学習データ選択手段により選択された学習データを
    前記認識手段に入力してセグメンテーションおよび認識
    を同時に行い、該セグメンテーションの結果により前記
    特徴パラメータから学習用特徴ベクトルを学習用パター
    ンとして抽出する学習用パターン抽出手段と、 この学習用パターン抽出手段により抽出された学習用パ
    ターンを格納する学習用パターン格納手段と、 この学習用パターン格納手段に格納された学習用パター
    ンを用いて前記認識辞書の学習を行う学習手段とを具備
    し、 前記認識辞書作成手段は、前記孤立発声単位の学習デー
    タを用いて調音結合を含まない認識辞書とは別に、前記
    連続発声単位の学習データ中の始端および終端の少なく
    とも一方に調音結合を含むデータを用いて認識辞書を作
    成することを特徴とする音声認識装置。
JP7010841A 1994-12-08 1995-01-26 音声認識装置 Pending JPH08211893A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7010841A JPH08211893A (ja) 1994-12-08 1995-01-26 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP6-305229 1994-12-08
JP30522994 1994-12-08
JP7010841A JPH08211893A (ja) 1994-12-08 1995-01-26 音声認識装置

Publications (1)

Publication Number Publication Date
JPH08211893A true JPH08211893A (ja) 1996-08-20

Family

ID=26346188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7010841A Pending JPH08211893A (ja) 1994-12-08 1995-01-26 音声認識装置

Country Status (1)

Country Link
JP (1) JPH08211893A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2143953A1 (es) * 1998-05-26 2000-05-16 Univ Malaga Circuito integrado analizador de secuencias silabicas.
JP2006243673A (ja) * 2005-03-07 2006-09-14 Canon Inc データ検索装置および方法
JP2009003205A (ja) * 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2143953A1 (es) * 1998-05-26 2000-05-16 Univ Malaga Circuito integrado analizador de secuencias silabicas.
JP2006243673A (ja) * 2005-03-07 2006-09-14 Canon Inc データ検索装置および方法
JP2009003205A (ja) * 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4340685B2 (ja) 音声認識装置及び音声認識方法
WO2008033095A1 (en) Apparatus and method for speech utterance verification
JPH0422276B2 (ja)
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
JPH0250198A (ja) 音声認識システム
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JPH08211893A (ja) 音声認識装置
JPS61179499A (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JP3277522B2 (ja) 音声認識方法
JPH08241096A (ja) 音声認識方法
JPH09114482A (ja) 音声認識のための話者適応化方法
JP3061292B2 (ja) アクセント句境界検出装置
JP2943473B2 (ja) 音声認識方法
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Sigmund Search for keywords and vocal elements in audio recordings
JP2943445B2 (ja) 音声認識方法
JPH09212190A (ja) 音声認識装置及び文認識装置