JPH01260494A

JPH01260494A - 音声認識方法

Info

Publication number: JPH01260494A
Application number: JP63089830A
Authority: JP
Inventors: Kazuya Nomura; 和也野村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1988-04-12
Filing date: 1988-04-12
Publication date: 1989-10-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は連続発声された文音声や、対話のような語句の
省略を伴う音声や、文節毎に区切られて発声された文音
声などを認識対象とする音声認識方法に関するものであ
る。

従来の技術従来、文音声を認識する手法に関しては未だ実用化され
てはいないが、種々の基本的な方法がアイデアとして提
案されている。

日本語を対象とした場合のその中の１つの典型的な方法
は、まず入力音声のどの部分区間がどの文節に該当する
かを全音声区間について推定して文節候補の集合を作成
しておき、その文節候補の集合より時間的な位置関係と
文法や意味などの言語的な制約（一般に文節間の掛り受
は規則を指す場合が多い）を満足する一連の系列をなす
文節からなる部分集合を認識結果として推定する方法で
ある。

時間的な位置情報を伴った推定された文節の候補の集合
の事を、慣例に従って文節ラティスと呼ぶ事にする。

文節ラティスから得られる、上記諸制約を同時に満たす
文節の系列は一般には複数個存在するが、推定の妥当性
を評価する尺度をあらかじめ用意しておき（例えば確率
論的解釈によって導かれる尺度など：後述）その評価値
に従って、文節候補の順位付けをし、１位の候補を認識
結果として採択する事がよくなされる。

以上述べた方法を具体的に実現するために解決しておく
べき未解決の問題が幾つか存在する。代表的な項目を列
挙する。

（１）文節ラティスから最終結果を得る具体的な方法。

（２）音声信号から文節ラティスを作成する方法。

（３）利用する文法の種類。

いずれの項目に関する問題も、前述のとおり現時点では
研究段階にあり、良好な結果を得る方法の出現が待たれ
ている。

本発明で取り扱う問題は（１）に関してである。（１）
に関しては従来、文節ラティスを構成する全ての文節に
ついて総当り的に時間的位置関係及び言語的制約のチエ
ツクを行う方法や、文頭から文末の方向へグラフ理論の
分野における本探索又は経路探索の方法を用いて、文頭
より文末の方向に従って上記言語的制約のチエツクを文
節候補に適用する手法などが知られていた（例えば、新
美著「音声認識」共立出版　１９７９）。

しかし、前者は演算効率の点で問題が、又後者は、日本
語の言語構造、即ち「係り受け」における「係り」に相
当する文節が「受け」に相当する文節より前に位置する
という日本語特有の言語構造に対する整合性の面で問題
があり、日本語文音声認識の実現に際し必ずしも満足の
いく結果を得るには至っていなかったが、すでに上記探
索の方法に関し、文末から文頭の方向で、文節間の係り
受は構造規則の制御のもとて探索を行って文節候補の系
列を得る方法が筆者らによって提案されている（音講論
　３−５−１５　１９８７−１０）。

この方法による処理は、日本語の言語構造（上述）に適
しているため効率良く意味解析結果を得ることができる
特徴がある。

発明が解決しようとする課題しかしながら上記方法では、探索の過程で文節の脱落を
いっさい考慮せず処理が行われるため、候補中に発声し
た文に対して正しい文節が１つでも脱落した場合、文解
析の結果として正しい文が絶対に出力されないという課
題がある。

本発明は上記課題を解決するもので、認識精度が高く効
率の良い文音声の認識を行うことを目的とするものであ
る。

課題を解決するための手段本発明は、上記目的を達成するもので、その技術的手段
は、ラティス内での文節系列の探索の過程で、解析の途
中結果から得られる文節系列の意味解析を行い、この意
味情報と状況推移から認識すべき文の意味予測を行い、
この情報を制約条件として利用することによって、ある
状況において期待しない意味を持ちだ文節系列を解析途
中で排除したり、文解析がその途中で文節の脱落により
続行不可能となることを防止する文解析手段を認識シス
テムに組入れるようにしたものである。

作　　用本発明は上記構成により、以下に説明する作用に従って
効率良く、認識精度の高い日本語文音声の認識を実現す
る。

（１）文節ラティスを各文節候補を節点に、文節間の隣
接関係を枝にそれぞれ見立てたグラフとして取り扱い、
認識結果を音声の始端位置から終端位置へ至る経路を形
成する節点の系列として得る。

（２）上記経路決定の手段としてグラフ理論における木
探索又は経路探索の方法を用いる。

（３）探索は文末側から文頭側への方向とし、文節推定
妥当性及び言語的な制約条件による制御によって探索を
行う。

（４）探索の過程で、解析の途中結果から得られる文節
系列の意味解析を行い、これを文節の脱落の判断と脱落
した文節の推定に用いることによって探索の効率化を図
り認識精度の向上を実現する。

実施例以下に本発明の実施例を図面を用いて詳細に説明する。

それに先立ち文音声認識システムの一般的な概念につい
て説明をする。

第２図は文音声認識システムの典型的な構成を示したも
のである。図において音素認識部１は入力された音声信
号より音素認識を行い音素系列を出力する手段を示して
いる。得られた音素系列は完全に正しい事は保証されず
、話者や周囲雑音あるいは音素認識装置自体の性能に起
因するある確率で誤りを含む。そのため、従来の文字入
力を対象とした自然言語処理技術による構文解析や意味
解析の手法をそのまま適用する事が出来ず、文音声認識
特有の処理方法が必要となる。

第２図中、形態素認識部２は誤りを含む認識音素系列の
中のどの部分がどの文節に該当する可能性が高いかを推
定して形態素候補を得る機能を持つ。推定された形態素
は始端及び終端に関する時間的位置情報及び、推定の妥
当性に関する情報を伴う。形態素推定の妥当性は、例え
ば音素の置換、付加、脱落誤り率から得られる音素間の
コンフユージヨンマトリクスから導かれる尤度などで与
えられる。ここでは、形態素候補は文頭から文末に至る
全範囲にわたって推定の妥当性が所定の価を越えるもの
が、全て得られるものとする。求められた時間的位置及
び推定の妥当性に関する情報を伴った形態素候補群を慣
例に従って形態素ラティスと呼ぶ事にする。

文節ラティス作成部３は、上記形態素ラティスを入力し
、ラティス内で位置的に隣接して配置されている何個か
の形態素の組（系列）が文節を構成するか否かを文節構
造規則によって判定する事により、新たに文節ラティス
を作成する機能を持つ。

意味解析部４では、位置関係による制約、および言語的
な制約に従って、ラティスの中の文節候補を連接してい
く操作により最終的な結果である文節の系列を得る。言
語的制約を決定する文法ルールとしては、例えばＦｌｌ
ｌｍｏｒｅによる格文法（後述）や、５ｃｈａｎｋによ
る概念依存文法などが考えられる。

第３図に連続発声による例文「新大阪まで切符を３枚下
さい。」を入力した時の音素認識結果例及び形態素ラテ
ィス例を示す。図中、形態素ラティスにおいてアンダー
ラインが施されている形態素が正解の形態素である。

又この例では言語的制約のチエツクに、格文法を用いて
いる。ここで格文法について簡単な説明をしておく。

格文法は述語と他の語句とがどのような関係で共存しう
るかを記述する文法である。即ち、文における主語、述
語、目的語、補語といった役割で考えるのではなく、述
語にとって意味の上から各単語がどのような立場に立つ
かを考える方法による文の解析手段である。格文法は上
述のように、構文解析よりも意味解析に重点をおいてい
るため、日本語文音声認識への応用を考えた場合、以下
に示すような利点がある。

（１）単語間の意味的な共起関係を利用した単語候補の
絞り込みを導入しやすい。

（２）語順に対する自由度が大きいため、日本語を取り
扱い易い。

（３）結果が意味の形で得られるので対話システムなど
への組込みが容易である。

格文法による意味解析結果の一例を第４図に示す。図に
おいて一行目の（ＭＯＤＥ　　ＭＥＩＲＥＩ）はこの文
が命令文である事を表わしている。また２行目の（ＡＣ
Ｔ　　ＫＵＤＡＳＡＲＵ）は述語が１下さる」という行
為を意味している事を表わしている。又、３行目の（Ｏ
ＢＪＥＣＴ　　にＩＰＰＵ）以下は述語「下さる」とい
う行為の内容の詳細を説明するための機能を持つ句また
は節に関する記述である。即ち、行為「下さる」の対象
物は「切符」であり、その枚数は「３枚」であり、行き
先は「新大阪」である事を表わしている。

格文法では、各動詞について、それを意味的な詳細を説
明する事が可能な項目を用意しておき、文中の各単語を
該当する項目に順次にあてはめていく操作により意味解
析が進められる。この各動詞毎に存在する項目の事を、
「充填のための溝」という意味で「格スロット」と呼ぶ
。また文中の各単語を該当する項目に順次当てはめてい
く操作の事を、「スロットを埋める操作」という意味で
「スロットフィリング」と呼ぶ。以後本文でもこの用語
を使う。

上記言語的制約のチエツクとは本実施例においては、ス
ロットフィリングが成立するか否かのチエツクの事を示
す。

尚、本発明で取り扱う言語処理系に於ては、以上説明し
た文節間の格関係のみならず、「赤い花」の例ような連
体修飾関係や、「美しく咲く」のような連用修飾関係、
あるいは［切符を買って、京都へ行（」のような接続関
係も格文法に於けるスロットフィリングと同じ概念で取
り扱う。即ち活用語のみならず被修飾語にもスロットを
持たせて係り受は関係を解析する枠組みとなっている。

第１図は本発明による文音声認識システムの一実施例の
構成を示したものである。本実施例は文節ラティスから
文節候補の系列を得る方法に関して新たな方法を提供し
ている。以下その具体的方法について説明を行う。

第１図において音素認識部１は入力された音声信号より
音素認識を行い音素系列を出力する手段を示している。

音素系列は誤認識によりある確率で誤りを含んでいる。

２は形態素認識部である。

第１図において文節ラティス作成部３は音素系列を入力
して文節ラティスを作成する手段である。

また、意味解析部４は文節ラティスから認識文節系列を
推定しかつ格文法による意味解析結果を得る機能を持つ
手段である。５は意味辞書、６は文節脱落処理部を示す
。

本実施例では音素認識及び文節ラティス作成の具体的方
法に関しては言及しない。意味解析の具体的方法に関し
てのみ言及する。以下その説明を行う。

ここでは文節ラティスは第５図に示す形で予め与えられ
ているものとする。更にグラフ理論に於ける本探索や経
路探索の手法を用いるためにラティスを第６図に示すよ
うなグラフの形に表現して取り扱う。

第６図においてグラフの節点はラティスを構成する文節
に対応し、グラフの枝は文節間の隣接関係に対応してい
る。また文末及び文頭の端点の位置にダミーの節点Ｖｏ
及びＶｓを設けて処理の開始時と終了時に必ずこの節点
を経路が通るようにしである。グラフの節点および枝に
はそれぞれ重みが与えられている。また節点には文節候
補に対応したラベル付けがなされている。節点の重みは
文節推定時の推定の妥当性を表現する値である。

また枝の重みは文節間の隣接がどの程度許されるかと言
う内容を表現する値である。即ち、枝で結ばれる２つの
節点に対応する文節の位置関係（どの程度離れているか
または近付いているか等）と、枝を結ばれる両端の音素
及びそれらに挾まれている音素に依存する値が与えられ
る。これは文節と文節との間に存在する、音素の付加脱
落に対してそれ相応のペナルティ−を加えることに相当
する。

尚以上述べた節点及び枝の重みはこの実施例では正の値
をとり値が小さいほど文節の妥当性が高いものとする。

従って例えば事後確率から導かれる尤度（確率の対数値
）等の値をマツチングの際の距離尺度として用いている
場合にはこれらの値の符号を反転した値がグラフの節点
及び枝の重みに相当する事になる。

節点ｖ１からＶＮに至る経路の評価値Ｗ（ＶＩＶＮ）はＷ（ＶＩＶＮ）＝Ｗ（Ｖｌ　）＋Ｗ（ＶＩＶ２）＋Ｗ（Ｖ２）＋Ｗ（Ｖ２
Ｖ３）＋・・・＋Ｗ（ＶＮ−ＩＶＮ）＋Ｗ（ＶＮ）で与
えられるものとする。ここでＷ（Ｖ＋）　　は節点Ｖｌ
（７）重みを、Ｗ（ＶｉＶ＋−ｚ）は枝ＶＩＶＩ＋１の
重みをそれぞれ表わすものとする。

以上の述べたようにラティスを重み付きグラフで表現す
る事によりラティスの中から発声された文節系列を推定
する操作は始端から終端に至る最適経路（この場合は最
短経路）を求める問題に帰着される。

単なる、グラフの最適経路を求める方法はＤＩ　Ｊｋｓ
ｔｒａを始めとする多くの研究者番とよって研究がなさ
れており公知の内容である。（例えばザ　デザイン　ア
ンド　アナリシス　オブ　コンピュータ　アルゴリズム
　Ｔｈｅ　　Ｄｏｓｉｇｎａｎｄ　　　　Ａｎａｌｙｓ
ｉｓ　　　　ｏｆ　　　　ＣｏｍｐｕｔｅｒＡｌｇｏｒ
　１ｔｈｒｎｓ、Ａ、Ｖ、Ａｈｏ、Ｊ、Ｅ。

Ｈｏｐｃｒｏｆｔｅｔ、ａｔ、Ａｄｄｉｓｏｎ−Ｗｉｓ
ｌｅｙ　　１９７４）Ｌ／カルながら本発明で取り扱う
問題ではこれら公知の方法をそのまま用（する事はでき
ない。即ち以下に示す問題を更薔こ解決した上で最適経
路の探索をする事が必要となって来る。

（１）言語的制約のチエツクを行０なカイら経路探索を
進めるため、探索の途中で生じるグラフの枝の動的な変
化に対処する必要がある。

（２）使用する言語（この場合は日本語口こ適した探索
を行わないと効率が悪い。

以下、本発明による、上記問題を考慮番こ入れた効率の
良い経路探索の方法による文節系列の決定方法について
述べる。

上記問題（１）に対しては、経路探索の過程で、ある節
点を経路の通過点として新たに経路に加えて良いか否か
を判断する際に、その節点に対応する文節を、その時点
までに出来上がっている経路番と加えた上で、言語的制
約のチエツクを行う事により対処する。具体的にはその
節点に対応する文節について、それが加わる直前に出来
ている意味解析結果（以後これを意味解析木と呼ぶ。）
へのスロットフィリングを試みる事により上記言語的制
約のチエツクを行・う。

上記問題（２）に対しては探索の順序に関する考察が必
要である。ここでは対象となる言語が日本語である事と
、言語処理が格文法に従うスロットフィリング操作であ
る点に着目する。即ち日本語においてはスロットを持つ
文節はそのスロットを埋める単語のある文節よりも必ず
文末側に位置するという事実である。又、以下に列挙す
る係り受は構造規則も更に考慮しておく必要がある。格
文法によって得られる格支配関係は文節間の係り受は関
係の一種だからである。係り受は構造規則とは文を構成
する文節間の係り受は関係に対して要求される規則であ
り、以下の３項目である。

（１）係り受は関係の非交差性係り受は関係を矢印で表した場合、矢印は交差しない。

（２）係りの唯一性文末の文節意外の文節は、それより文末側のただ１つの
文節に係る。

（３）受けの格の非重複性１つの文節は同じ格関係で二つ以上の文節を受けない。

上記項目から、「受けの文節は必ず係りの文節より文末
側に位置し、かつ、複数の文節からの係りが存在が許さ
れる。」という事実が導かれる。

探索の順序に関与する最も重要な要因はこの事実である
。この事実より、経路探索は受けの文節に相当する節点
を先に決定してから係りの文節に対応する節点を決めて
いく方法が現実的である事が分る。なぜならば、先に受
けの文節を確定しておくと、経路に加える節点（係りの
文節に相当する）が確定すると同時に少なくとも一つは
係り受は関係を決める事が出来るからである。もし逆の
順序であるとすると、係り受は関係がなかなか決定でき
ず探索の効率は著しく悪くなる。

文全体の処理では、日本語においては受けの文節は必ず
係りの文節より必ず文末側に位置するので、文末から文
頭への方向で処理が進むことになる。

以上説明した考え方に基き、第７図に示した経路探索処
理が提案された。図において処理は文末側のダミーの節
点Ｖｏから開始される。節点を経路に加える操作の前に
、係り受けが成立するか否かの判断が必ずなされ、これ
が成立する時に限って接点を経路に加えることが出来る
ものとして処理を進める。第７図に従って処理を進めて
いくことにより、最終的に係り受は構造規則を満たしか
つ最小重みの文節系列が文音声の認識結果として得られ
る。

本実施例では探索の過程に文節の脱落を判断する機能と
、脱落したと考えられる文節を予測し補充する機能を組
み入れる。これは、第１図では文節脱落処理部６として
示されている。例えば、限定されたタスクにおいては、
辞書の語粂数がすくないため、ある動詞がとる目的語は
ごく限られたものとなり、かなり絞り込んだ目的語の予
測が可能である。文節候補群の中に解析の途中結果にす
でに含まれている動詞のとる目的語が含まれていないと
き、予測した目的語を脱落箇所に補充し解析を行い正し
い文節が脱落している場合でも正しい文解析を可能とし
、認識精度が高く効率の良い文音声の認識を行うことを
可能とする。

発明の詳細な説明したように、本発明番こよれば、状況推移から得
られる意味予測情報による文節系列の意味の評価を行い
文節の脱落を考慮しながらラティスの探索を行うことに
より、精度の良い認識が可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方法を具現
化する文音声認識システムのブロック図、第２図は本実
施例における文音声認識システムの典型的な構成例を示
したブロック図、第３図は文音声に対する音素認識結果
と形態素ラティスの例を示す図、第４図はその意味解析
結果を示す図、第５図は文節ラティスの例を示す図、第
６図は文節ラティスを表現した模式図、第７図は本実施
例による経路探索処理の一例を説明した図である。１・・・・・・音素認識部、２・・・・・・形態素認識
部、３・・・・・文節ラティス作成部、４・・・・・・
意味解析部、５・・・・・・意味辞占、６・・・・・・
文節脱落処理部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図音？ｆ名号第２図音声信号第３図ＪＯＫ）５１１　　　ｒｎＱＯｅｎｌＷＱ　　ｎＱＮ第
４図（（（ｘｏｏａ　ＭＥＴＲＥＴ）（ＡＣＴ　ＫＵＤＡ、５ＡＲＵ、）（ＤＥＧ−ＲＥＥ（（’ＮＵＭＢＥＲ３）ル）（ＳｐＡ
ＣＥ−Ｔ（Ｘ５ＨＩＮ○０３ＡＫＡ）（○ＢＪＥＣＴ（
’ＫＩＰＰＩＪ））ル（ｂ）　　意味：塚　　　　　　　２

Claims

【特許請求の範囲】

音声信号を解析し、文節候補とその文節候補が位置する
時間情報と文節候補推定の妥当性を表わす情報とを得る
文節同定手段と、前記文節同定手段より得られた文節候
補群を構成する複数の文節間の位置関係の制約条件、及
び、文法あるいは意味などの言語的な制約条件候補を調
べその文節が他のすでにある文節系列との共存が許され
るか否かを調べる文節間制約条件検査手段と、前記文節
候補群から前記文節間制約条件を満たす一連の文節の系
列を、その系列の推定妥当性の情報とともに決定する文
節系列推定手段と、文節系列の探索の過程で、文の解析
が続行不可能となるような文節の脱落が発生した場合に
おいても、解析の途中結果から得られる文節系列の意味
解析を行い、この結果から脱落した文節を推定して脱落
したと推定される文節を補い文の解析を行う文解析手段
とにより構成され、前記文節系列を構成する文節の集合
とその系列に関する推定妥当性の結果に基づき、その系
列を認識結果として得る事を特徴とする音声認識方法。