JP2004258658A

JP2004258658A - 単語間音素情報を利用した連続音声認識方法および装置

Info

Publication number: JP2004258658A
Application number: JP2004048087A
Authority: JP
Inventors: Su-Yeon Yoon; 秀妍尹; In-Jeong Choi; 仁正崔; Nam-Hoon Kim; 南勳金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-02-24
Filing date: 2004-02-24
Publication date: 2004-09-16
Anticipated expiration: 2024-02-24
Also published as: US7299178B2; US20040172247A1; KR100486733B1; KR20040076035A; JP4481035B2

Abstract

【課題】音素結合情報を利用した連続音声認識方法を提供すること。
【解決手段】（ａ）各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、その単語の終声または初声に対する発音表記に識別子を追加して発音辞書データベースを構築する段階と、（ｂ）前単語の終声に結合可能な後単語の初声を対応させて可能なあらゆる結合よりなる単語間音素情報を、前記識別子を含んでマトリックス化する段階と、（ｃ）入力される音声から生成される特徴ベクトルに対し、前記発音辞書データベースおよび前記単語間音素情報を利用して音声認識を行う段階と、を含む連続音声認識方法を前記課題の解決手段とする。
【選択図】図４

Description

本発明は音声認識に関し、単語間音素情報を利用した連続音声認識方法およびその装置に関する。

一般的な連続音声認識装置の構成の例を図１に示す。図１に示した連続音声認識装置の特徴抽出部１１では、入力音声データを連続音声認識装置に適した形態で表現した特徴ベクトルに変換する。探索部１２では、学習過程を通じて、あらかじめ格納された音響モデルデータベース１３、発音辞書データベース１４および言語モデルデータベース１５を参照して、特徴ベクトルを用いて最も確率が高い単語列を探索する。ここで、大語彙連続音声認識（ＬａｒｇｅＶｏｃａｂｕｌａｒｙＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＬＶＣＳＲ）のために、探索部１２で探索される認識対象の語彙は、ツリー構造を有している。後処理部１６では、探索部１２の探索結果から発音記号およびタグなどを除去し、音節から記号化して、テキスト形態の認識結果を出力する。

ここで、発音辞書データベース１４に保存された韓国語および英語に対する発音列の例を、図２Ａおよび図２Ｂに示す。
図２Ａに示した、単語が‘ｕｎｉｖｅｒｓｉｔｙ’を意味する

である場合に、発音表記は［ｄｅｈａｋ］２１ａ、

［ｄｅｈａｇ］２１ｃのうち一つになる。
さらに他の単語の例として、‘ｏｐｐｏｓｉｔｉｏｎ’を意味する

は、その発音表記として

を有している。
この時、

と

とは同一であるため、これらの発音表記を区別することは不可能である。

一方、図２Ｂに示した、単語が‘Ｓｅａｔ’２３である場合に発生する発音列［ｓｉｔ］２３ａと［ｓｉｐ］２３ｂのうち［ｓｉｐ］２３ｂと‘ｔｉｐ’２４に対する発音列［ｔｉｐ］２４ａとは、ほとんど同一であるために区別することはほ不可能である。

探索部１２で、前記のような発音辞書データベース１４を利用して探索過程を行う例を、図３を参照して説明する。図３に示すように、

という音声を認識する場合、それぞれの語彙

に対しそれぞれの単語を、初声と、発音が変わらない中声および終声とに分離する。

に対し中声部分に該当する発音列［ａｎｇｕ］３２を除外した初声および終声で結合可能な発音列３１、３３を生成し、

に対し中声部分に該当する発音列［ｅｈａ］３５を除外した初声および終声で結合可能な発音列３４、３６を生成し、

に対する発音列３７を生成する。このように生成された発音列に対し

および

を利用して探索過程を進める。ここで、

との間に結合可能な場合の数は２つが存在し、

間に結合可能な場合の数は３つが存在する。ここで、

は英語のＫｏｒｅａを意味し、

は主格助詞に該当する。

前記のような連続音声認識システムを具現するためには、認識対象の語彙を表現する発音辞書が、あらかじめ定義されていなければならない。通常、音素と音素との間または単語と単語との間には、同時調音現象が頻繁に発生する。このような同時調音現象が、連続する単語の境界部分で発生すれば、各単語を正確に認識できないだけでなく、同じ単語である場合にも、前後単語の文脈によって別の音響学的特性を有することもあるので、発音辞書モデリングにおいては、このような現象がうまく反映されなければならない。
特に、韓国語の音声言語の場合、多様な音素文脈によって、著しい音韻変化現象が起こるために、各発音列は、このような音韻変換現象をうまく反映させる必要がある。
また、単独の単語の発音列は、比較的固定された音素文脈を有しており、トライフォンのような認識単位学習による音韻変化現象モデリングが容易である。しかしながら、前後単語の文脈がある場合は、隣接した単語によって多様な音素文脈が可能なため、このような音韻変化現象を反映するためにはさらに精巧なモデリング方法が必要とされる。

単語間の音韻変化現象を反映するために、第１に、単語境界で現れるあらゆる可能な音素文脈または主に現れる音素文脈を含んで辞書に多重発音列形態に収録する方法を使用するか、第２に、より多くの混合ガウス関数を利用して、さらに精巧なＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）の状態出力値を通じて変化現象をモデリングする方法を使用することが考えられる。
しかしながら、第１の方法によれば辞書およびネットワークサイズがあまり膨大になり、第２の方法によれば計算量が多くなるために、認識に時間がかかって認識速度が遅れるという短所がある。

第３に、単語間に主に現れる音韻変化現象を選定した後、言語モデルが考慮された変形された音素文脈を、単語間トライフォンを利用して認識ネットワークに直接適用する方法を使用することも考えられる。この場合、単語の前部分にそれぞれ別の音素文脈を反映したので同じ単語でも別の開始ノードから出発するようになり、その結果、ツリー構造に基づいた認識ネットワークでは共有効率が落ちて、ネットワークの大きさが膨大になってしまうという短所がある。

第４に、ツリー構造の認識ネットワークで単語の前部分に対する音素文脈をあらかじめ認識前に適用させずに認識中に適用させる方法を使用する場合、同じ音韻環境で適用可能な規則が２つ以上存在する場合にいずれを適用するか分からないだけでなく、認識過程で毎フレームに対して発音規則を適用する必要があって負担が増加し、認識過程中に認識ネットワークをアップデートし続ける負担が大きいという短所がある。

したがって、本発明が解決しようとする技術的課題は、綴字と発音表記とが同一でない単語の場合、識別子を付加した単語間音素情報を利用して、連続語音声認識過程で発生する単語間音韻規則上、適していない発音列の結合を除去する連続音声認識方法を提供することである。

また、本発明が解決しようとする他の技術的課題は、前記音素結合情報を利用した連続音声認識方法を実現するのに最も適した装置を提供することである。

前記した技術的課題を達成するために、本発明に係る連続音声認識方法は、（ａ）各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、その単語の終声または初声に対する発音表記に識別子を追加して発音辞書データベースを構築する段階と、（ｂ）前単語の終声に結合可能な後単語の初声を対応させて、結合可能なあらゆる単語間音素情報を、前記識別子を含んでマトリックス化する段階と、（ｃ）入力される音声から生成される特徴ベクトルに対し、前記発音辞書データベースおよび前記単語間音素情報を利用して音声認識を行う段階とを含むことを特徴としている。

また、前記（ｃ）段階は、前記単語間音素情報を利用して前単語の最後の音節の終声に対する発音列と、後単語の最初の音節の初声に対する発音列との間の連結を制限することを特徴としている。

前記他の技術的課題を達成するために本発明による音素結合情報を利用した連続音声認識装置は、学習により構築された音響モデルデータベースおよび言語モデルデータベースを含む連続音声認識装置において、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、初声または終声に識別子を追加し、前記前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させて、結合可能なあらゆる単語間音素情報をデータベース化して保存する音素結合情報保存部と、各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前記前単語の最後の音節の終声や後単語の最初の音節の初声の綴字と発音とが同一でない場合、この単語の終声または初声に対する発音表記に識別子を追加して構築された発音辞書データベースと、入力される音声から認識に必要な情報を抽出して特徴ベクトルに変換する特徴抽出部と、前記音素結合情報を利用して前記音響モデルデータベース、前記発音辞書データベースおよび前記言語モデルデータベースを参照して、前記特徴抽出部で変換された特徴ベクトルと類似している確率が最も高い単語列を探索し、探索された単語列を、認識されたテキストとして出力する探索部とを含むことを特徴としている。

また、前記連続音声認識装置は望ましくは、前記探索部で得られた最適の発音列に対し単語間のバイフォンモデルをトライフォンモデルに変換した後、トライフォンモデルを参照して音響モデルスコアをリスコアリングして各候補別文章のスコアを再計算し、最終的な認識結果を選定する後処理部をさらに含む。

本発明によれば、サブワードの増加や音響モデルの変化なしに適用可能であり、音素結合情報を利用して、適していない単語間の結合をあらかじめ制限するので、認識率を向上させることができ、さらに、認識途中で音韻規則を使用しないため、デコーディング過程に負担をかからないという利点がある。

また、語彙別に文脈情報を記入しないため、発音辞書データベースの大きさおよび探索ネットワークが増大しないだけでなく、言語に従属的な音韻規則を構成する方法とは違って、発音を単語の綴字との同一如何によって細分化し、許容可能な単語間結合を自動で抽出することによって、韓国語だけでなく外国語にも適用できるという利点がある。

以下、本発明の実施の形態について、添付した図面を参照して詳細に説明する。
図４は、本実施の形態における連続音声認識装置の構成を示すブロック図の例である。図４に示すように、本実施の形態の連続音声認識装置は、特徴抽出部４１、探索部４２、音響モデルデータベース４３、発音辞書データベース４４、音素結合情報保存部４５、言語モデルデータベース４６および後処理部４７から構成される。

特徴抽出部４１では、環境適応、終点検出、反響除去および雑音除去などの前処理過程を経て、デジタル処理された音声信号から、有効な特徴ベクトルを抽出する。この特徴ベクトルの抽出には、一般的に特徴ベクトルの低次項には発話当時の声道特性を反映し、高次項には発話を導いた基底信号の特性を反映したケプストラム抽出方式が使われ、最近では人間の聴覚認知過程を反映したケプストラム抽出方式であるＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）が使われることもある。

探索部４２では、単語列の探索のために、後記する音素結合情報保存部４５に保存された音素結合情報を利用し、学習過程を通じてあらかじめ収録された音響モデルデータベース４３、発音辞書データベース４４および言語モデルデータベース４６を参照して、ビタビアルゴリズムを利用することで特徴ベクトルから最も類似している確立が高い単語列を探索する。
ここで、大語彙認識のために、認識対象の語彙は、ツリー状に構成されており、探索部４２では音響モデルデータベース４３の音響学的な対比結果に対応する言語モデルデータベース４６の発生頻度データおよび発生確率データを参照して、発音辞書データベース４４に収録された単語を組み合わせてツリーを探索することによって、Ｎ個の最善な候補の単語列を得る。

音響モデルデータベース４３は、学習用発声データベースの音声データから抽出されたユーザーが有する特徴ベクトルを利用して、ＨＭＭのような音響モデルを形成する。これら音響モデルは音声認識過程で基準モデルとして利用される。

発音辞書データベース４４は、単語間音韻変化に基づいた音声認識をするために、各単語に対し音韻変化現象が反映された全ての発音表記を収録してデータベース化したものである。この発音辞書データベース４４において、単語間音韻変化によって前単語の最後の音節の終声や後単語の最初の音節の初声の綴字と発音とが同一でない単語には、該当終声または初声を有する単語に対する発音表記に別途に識別子を追加して収録している。

音素結合情報保存部４５は、単語間で結合可能なあらゆる音素対をマトリックス化して保存している。すなわち、基本音素に識別子が追加された２次音素を利用して、前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させた、あらゆる結合についての単語間音素情報を収録している。

単語間の音韻変化現象は、前単語の最後の音節の終声と後単語の最初の音節の初声との対において起こるが、あらゆる対で音韻変化が起こるわけではなく、一定の規則によって特定の対において起こる。したがって、複合語境界および語節間音素境界の変換規則を利用して変化が起きる対での各音素の変化が分かると、非常に正確かつ簡単に単語間音韻変化現象をモデリングできる。

単語間音素情報を発生させる単語間に発生する音韻変化現象の類型は、代置、挿入、削除に大きく分類される。代置現象では、阻害音／流音の鼻音化現象や、変子音化現象、硬音化現象などの規則により、隣接した両子音のうち両方または一方が他の子音に変化する。
挿入現象は主に母音で始まり、連音法則が適用される場合に後単語で起こるか、あるいは

の添加により起こる。
削除現象は、挿入現象と共に起こることが多く、挿入現象が後単語の初声に起こると、削除現象が前単語の終声に起こる。前記の音韻変化現象を経て、変化した音素は、識別子を追加することで、変化していない基本音素と区別し、前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させたあらゆる単語間音素情報が、データベース化される。音素結合情報保存部４５に収録された音素結合情報は、探索部４２での探索過程および後処理部４７でのリスコアリング過程に適用することによって、探索過程およびリスコアリング過程において探索候補を減らすことができるので、探索過程の精度を向上することができる。

言語モデルデータベース４６は、学習用テキストデータベースから構築された学習用文章での単語列に対する発生頻度データを利用して演算された単語列のバイグラム発生確率データまたはトライグラム発生確率データを収録している。ここで、学習用テキストデータベースは音声認識に使われる可能性がある文章からなり、これは通常、製作者により使われる可能性があると判断されたものであって、その量は製作者により決められる。

後処理部４７は、探索部４２で探索された単語列に対し音素結合情報保存部４５に収録された音素結合情報と、音響モデルデータベース４３、発音辞書データベース４４および言語モデルデータベース４６を参照して、リスコアリングを行い、最終的なリスコアリングされた単語列から発音記号およびタグなどを除去し、得られた単語列を音節群と結び付けて最終認識結果であるテキストを出力する。
すなわち、リスコアリングの過程では、後方向探索過程で得られた最適の発音列に対し、単語間境界で単語内のバイフォンモデルを単語間トライフォンモデルに拡張、変形させた後、各候補別文章のスコアを再計算し、最終的な認識結果を選定する。このように、類似している確率が高い、いくつかの候補文章に対して単語間境界で、バイフォンモデルから変換したトライフォンモデルを適用し、音響モデル確率値を再計算すると、認識効率を維持しつつ認識性能を向上させることができる。

ここで、特徴抽出部４１、探索部４２および後処理部４７は、演算機能を有するプロセッサー、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）およびそれにより駆動される音声認識プログラムにより具現され、音響モデルデータベース４３、発音辞書データベース４４、音素結合情報保存部４５、および言語モデルデータベース４６は、例えばメモリにより具現される。

ここで、音素結合情報保存部４５に保存される単語間音素情報の例を、次の表１に示す。

前記した表１に示すように、単語間の音韻変化現象によれば、前単語の最後の音節の終声の綴字または後単語の最初の音節の初声の綴字と、これに対する発音表記とが変わる場合は限定されているために、前単語の最後の音節の終声の綴字または後単語の最初の音節の初声の綴字と、これに対する発音表記とが変わるようにする後単語の最初の音節の初声または前単語の最後の音節の終声を対応させて単語間音素情報として音素結合情報保存部４５に保存する。例えば、前単語の最後の音節の終声が

であり、後単語の最初の音節の初声が

である場合に、前単語の綴字と発音表記とが変わるので、前単語の終声発音列

は、後単語の初声発音列［ｎ］または［ｍ］にだけ結合させる。すなわち、単語間音素情報としては

ではなく

だけ収録され、発音辞書データベース４４にも識別子が既に追加されているので

だけで結合不可能な場合を制限できる。

一方、前記した表１において、境界情報とは、文章発声時に休止の有無を表示するものである。人間が文章を発声する途中で息継ぎをする場合には、前単語と後単語間に音韻変換が発生しない。境界情報は、文章発声時の休止の強度によって０（休止なし）、１（短い休止）、２（長い休止）に区切ったものであって、境界情報によって前単語の最後の音節の終声に結合できる後単語の最初の音節初声が変わる。音素結合情報保存部４５に保存された音素対にはそれぞれ、１以上の境界情報が割当てられている。

次に、発音辞書データベース４４に保存されたハングルおよび英語に対する発音列の例を、それぞれ図５Ａおよび図５Ｂを参照して説明する。図５Ａに示すように、単語が

である場合には、［ｄｅｈａｋ］５１ａ、

［ｄｅｈａｇ］５１ｃという３つの発音列が存在し、単語が

である場合には、

という発音列が存在する。この時、単語の

とその発音表記が同一でない発音列

に対しては終声発音列の後段に別途の識別子、例えば‘（１）’が付加される。したがって、

に対し音韻変化により発生する

と

に対する

とを区別することが可能になる。このように識別子が表記された前単語の最後の音節の終声に対する発音列は、前記した表１のように、後単語の最初の音節初声に特定の発音列が付いてくる場合にのみ、前単語と後単語との間の結合が可能になる。

また、図５Ｂに示すように、単語が‘Ｓｅａｔ’５３である場合に［ｓｉｔ］５３ａと［ｓｉｐ（１）］５３ｂという２つの発音列が存在し、単語が‘ｔｉｐ’５４である場合に［ｔｉｐ］５４ａという発音列が存在する。この時、単語の‘Ｓｅａｔ’５３とその発音表記が同一でない発音列［ｓｉｐ（１）］５３ｂに対しては、図５Ａと同様に発音列の後段に別途の識別子、例えば‘（１）’が付加される。したがって、‘Ｓｅａｔ’５３に対し音韻変化により発生する発音列［ｓｉｐ（１）］５３ｂと‘ｔｉｐ’５４に対する発音列［ｔｉｐ］５４ａとを区別することが可能になる。
すなわち、発音列［ｓｉｐ（１）］５３ｂは、後単語の最初の音節初声が‘ｂ’、‘ｐ’、‘ｍ’である場合にのみ結合可能なために、例えば‘ｄｏｗｎ’との結合はあらかじめ制限される。
一方、発音列［ｔｉｐ］５４ａは後単語の最初の音節の初声に関係なく結合可能である。

図６は、図４に示した探索部４２において、発音辞書データベース４４および音素結合情報保存部４５を利用して探索過程を行う例を説明する図である。図６に示すように、

という音声を認識する場合、まず、所定の認識単位、ここでは単語、すなわち

に分離して、各単語に対する発音列ネットワークは、最適な発音表現を選ぶために操作される。発音列ネットワークには音韻変化規則が適用されて発生可能なあらゆる発音列がツリー状に構成されている。このように選択された発音列に対して、

および音素結合情報保存部４５から提供される単語間音素情報を利用して探索過程を進める。音素結合情報を利用することによって

の終声に対する発音列

と

の初声に対する発音列［ｄ］との結合は制限され、

の終声に対する発音列

と

の初声に対する発音列［ｉ］との結合と、

の終声に対する発音列［ｋ（１）］と

の初声に対する発音列［ｉ］との結合は制限され、全体的な探索ネットワークを単純にできる。すなわち、探索部４２において前方向探索および後方向探索過程を行う場合に、前単語は、後単語に転移される度に後続する単語の多数の発音列のうち、前単語と結合可能か否かを、単語間音素情報を利用して確認した後、適していない結合をあらかじめ除去する。特に、後方向探索過程は、前方向探索過程で選定された各フレームに対する認識候補単語を利用して文章を構成する過程であって、このとき、言語モデル確率値を利用して単語間が高い確率で連結された所定数、例えば１０個の候補文章を構成する。リスコアリングの段階では、この後方向探索過程で選定された１０個の候補文章に対して単語境界で使用したバイフォンモデルを、単語間のトライフォンモデルに変換し、単語間音素情報および音響モデルを利用して確率値を再計算して最適な認識文章を探す。

［実験例］
次に、本発明による音声認識方法と従来の音声認識方法との性能を比較するための比較実験を行った。周辺雑音のない静かな事務室の環境で、話者６００人が発話した韓国語朗読体４５０００文章を学習データとして、静かな事務室環境で話者８０人が発話した韓国語朗読体４８０文章を評価データとして使用した。実験に使われた特徴ベクトルは、１２次のＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）係数とエネルギー、そしてこれらの差分係数であって、１フレームが２６次のベクトルで表現される。実験のために４４ベースフォンの４０００サブワードモデルよりなり、ＰＴＭ（Ｐｈｏｎｅｔｉｃａｌｌｙ−ＴｉｅｄＭｉｘｔｕｒｅ）モデル構造を有する音響モデルが使われ、トライグラム言語モデルが使われた。使われた語彙は、新聞の政治面記事と関連した１１０００単語であって、意思形態素単位で認識される。前記のような条件の下での比較実験の結果を次の表２に示す。

前記した表２を説明すると、単語認識率および文章認識率において本発明による発音辞書を利用した場合、既存発音辞書を利用した場合に比べて性能向上を示し、その中でもリスコアリング段階および境界情報を利用した場合に、最も良好な性能を有することがわかった。

なお、前記した本実施の形態の連続音声認識装置は、コンピュータで再生可能な記録媒体に、コンピュータが読取れるコードとして具現することが可能である。また、コンピュータが再生可能な記録媒体には、コンピュータシステムによって読取られるデータが保存されるあらゆる記録装置が含まれる。コンピュータが再生可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク、光データ保存装置などがあり、また、キャリヤウェーブ（例えば、インターネットを通した伝送）の形に具現されるものも含む。また、コンピュータが再生可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータが読取れるコードに保存されて実行されることも考えられる。そして、本発明を具現するための機能的なプログラム、コードおよびコードセグメントは当業者であれば容易に推論可能である。

以上、本発明の好適な実施の形態を開示した。この中で、特定の用語が使われたが、これは単に本発明を説明する目的のために使われたものであって、意味の限定や特許請求の範囲に記載された本発明の範囲を限定するために使われたものではない。したがって、当業者であれば、本発明に基づいて、多様な変形および均等な他の実施の形態を実施可能である。よって、本発明の真の技術的保護範囲は、特許請求の範囲に記載された技術的思想により定められる。

本発明は音響モデルを変えずに一般的な連続音声認識装置に適用され、単語間音素情報を用いて不適な単語間結合をあらかじめ制限できるので認識率を向上させることができる。

従来の連続音声認識装置の構成を示すブロック図である。発音辞書データベースに保存された韓国語の発音列の例を示す図である。発音辞書データベースに保存された英語の発音列の例を示す図である。図１に示した従来の連続音声認識装置の探索部の動作を説明する図である。本発明の実施の形態による連続音声認識装置の構成を示すブロック図である。発音辞書データベースに保存された韓国語の発音列の例を示す図である。発音辞書データベースに保存された英語の発音列の例を示す図である。図４に示した連続音声認識装置の探索部の動作を説明する図である。

符号の説明

４１特徴抽出部
４２探索部
４３音響モデルデータベース
４４発音辞書データベース
４５音素結合情報保存部
４６言語モデルデータベース
４７後処理部

Claims

（ａ）各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、その単語の終声または初声に対する発音表記に識別子を追加して発音辞書データベースを構築する段階と、
（ｂ）前単語の終声に結合可能な後単語の初声を対応させて、結合可能なあらゆる単語間音素情報を、前記識別子を含んでマトリックス化する段階と、
（ｃ）入力される音声から生成される特徴ベクトルに対し、前記発音辞書データベースおよび前記単語間音素情報を利用して音声認識を行う段階と、を含む連続音声認識方法。
前記（ｃ）段階は、前記単語間音素情報を利用して前単語の最後の音節の終声に対する発音列と、後単語の最初の音節の初声に対する発音列との間の連結を制限すること、
を特徴とする請求項１に記載の連続音声認識方法。
前記単語間音素情報には、単語間の境界情報が割り当てられてマトリックス化されること、
を特徴とする請求項１に記載の連続音声認識方法。
請求項１項に記載された連続音声認識方法を実行させるプログラムを収録したコンピュータで再生可能な記録媒体。
学習により構築された音響モデルデータベースおよび言語モデルデータベースを含む連続音声認識装置において、
単語間音韻変化によって前単語の最後の音節の終声または後単語の最初の音節の初声の綴字と発音とが同一でない場合、初声または終声に識別子を追加し、前記前単語の最後の音節の終声に結合可能な後単語の最初の音節の初声を対応させて、結合可能なあらゆる単語間音素情報をデータベース化して保存する音素結合情報保存部と、
各単語に対し音韻変化が反映された発音表記が収録され、単語間音韻変化によって前記前単語の最後の音節の終声や後単語の最初の音節の初声の綴字と発音とが同一でない場合、この単語の終声または初声に対する発音表記に識別子を追加して構築された発音辞書データベースと、
入力される音声から認識に必要な情報を抽出して特徴ベクトルに変換する特徴抽出部と、
前記音素結合情報を利用して前記音響モデルデータベース、前記発音辞書データベースおよび前記言語モデルデータベースを参照して、前記特徴抽出部で変換された特徴ベクトルと類似している確率が最も高い単語列を探索し、探索された単語列を、認識されたテキストとして出力する探索部とを含むこと、
を特徴とする連続音声認識装置。
前記単語間音素情報には、単語間の境界情報が割り当てられてマトリックス化されることを特徴とする請求項５に記載の連続音声認識装置。
前記探索部は、前記音素結合情報を利用して前単語の最後の音節の終声に対する発音列と、後単語の最初の音節の初声に対する発音列との間の連結を制限すること、
を特徴とする請求項５に記載の連続音声認識装置。
前記探索部で得られた最適の発音列に対し単語間のバイフォンモデルをトライフォンモデルに変換した後、トライフォンモデルを参照して音響モデルスコアをリスコアリングして各候補別文章のスコアを再計算し、最終的な認識結果を選定する後処理部をさらに含むこと、
を特徴とする請求項５に記載の連続音声認識装置。