JP2001195087A

JP2001195087A - 音声認識システム

Info

Publication number: JP2001195087A
Application number: JP2000000987A
Authority: JP
Inventors: Yoshiharu Abe; 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-01-06
Filing date: 2000-01-06
Publication date: 2001-07-19

Abstract

(57)【要約】【課題】ネットワークの負荷が小さく、大語彙からな
る入力音声の場合にも高い認識精度を得る。【解決手段】端末１の音声認識手段１８は、音声入力
手段１３からの音声信号を分析し音節を基本単位とする
音節列を抽出する。通信手段１６は音節列をネットワー
ク３を介してホスト２に送信する。ホスト２のテキスト
変換手段２９は、通信手段２６が受信した音節列を入力
し、差分モデルと言語モデルを使用して、音節列に整合
する単語列を求めてテキストとして出力する。通信手段
２６はテキストを端末１に送信し、端末１の表示手段１
１がテキストを表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、無線・有線に関
わらずネットワークで接続された端末とホストからなる
音声認識システムに関するものである。

【０００２】

【従来の技術】図４は例えば特開平７−２２２２４８号
公報に示された従来の音声認識システムの構成を示すブ
ロック図であり、図において、１は端末、２はホスト、
３はネットワークである。端末１において、１１は表示
手段、１２はペン入力等の入力手段、１３は音声入力手
段、１４は音声出力手段、１５は情報記憶手段、１６は
通信手段、１７はＣＰＵによる演算処理手段、１７１は
演算処理手段１７で実行されるプログラムである。

【０００３】一方、図４のホスト２において、２１は表
示手段、２２はキーボード等の入力手段、２３は音声入
力手段、２４は音声出力手段、２５は情報記憶手段、２
６は通信手段、２７はＣＰＵによる演算処理手段、２８
は音声認識手段、２７１は演算処理手段２７で実行され
るプログラムである。端末１の通信手段１６、ネットワ
ーク２及びホスト２の通信手段２６により通信機能が構
成される。

【０００４】次に動作について説明する。端末１では、
音声入力手段１３が音声を入力し符号化して情報記憶手
段１５に記録する。記録された音声情報は、通信手段１
６によりネットワーク３を介してホスト２に送信され
る。ホスト２では、通信手段２６が端末１より送信され
た音声情報を受信し、音声認識手段２８が受信した音声
情報を認識して文字情報に変換する。通信手段２６はそ
の文字情報を端末１に送信する。端末１上に実現される
機能及びホスト２上に実現される機能は、各々の内部に
設けられた演算処理手段１７及び演算処理手段２７が実
行するプログラム１７１及び２７１で実現されている。

【０００５】このようなクライアント・ホスト型のシス
テム構成において、音声認識のための処理は、ネットワ
ーク３上のいずれかに設置されている、ハードウェア規
模が十分に大きなホスト２で行われるので、端末１のハ
ードウェア規模に関係なく、計算処理量が多い高度な音
声認識手法を利用することが可能である。

【０００６】

【発明が解決しようとする課題】従来の音声認識システ
ムは以上のように構成されているので、生の音声信号の
情報量は大きく、この音声信号を符号化してネットワー
ク３に送信すると、ネットワーク３の負荷が増大すると
いう課題があった。

【０００７】また、音声信号を圧縮符号化することで情
報量を減らすことも可能であるが、情報量の圧縮に伴う
復号化後の音声に品質劣化があるため、圧縮前の音声信
号の音声認識の精度に比べて、復号後の音声信号の音声
認識の精度が大幅に低下するという課題があった。

【０００８】さらに、上記ネットワーク３の負荷増加の
課題に対して、特開平３−１３２７９７号公報では、端
末で、入力音声から音素又は音節を抽出し、これらの記
号列を中央処理装置に送信し、中央処理装置で、送信さ
れた記号列から単語辞書を使用して入力音声が示す単語
や文を認識している。この記号列の伝送量は相当少ない
ために、ネットワーク３の負荷は小さくなると共に、圧
縮による精度低下は解消できるが、入力音声から抽出さ
れた音素又は音節には、認識時の誤りが含まれるため
に、入力音声が文章等の大語彙からなる音声の場合に
は、一般的な単語辞書を使用した認識結果に十分な精度
が得られないという課題があった。

【０００９】この発明は上記のような課題を解決するた
めになされたもので、ネットワーク３の負荷が小さく、
文章等の大語彙からなる入力音声の場合にも、認識精度
の高い音声認識システムを得ることを目的とする。

【００１０】

【課題を解決するための手段】この発明に係る音声認識
システムは、ネットワークを介して接続された端末とホ
ストからなるものにおいて、上記端末が、入力した音声
信号から、類似の状態が共有化された音素ＨＭＭを記憶
した音響モデルを使用し、基本単位の列を抽出して上記
ホストに送信し、上記ホストが、基本単位の列が示す誤
認識の確率を記憶した差分モデルと、単語の連鎖の出現
確率を記憶した言語モデルを使用して、受信した上記基
本単位の列に整合する単語列を求め、そのテキストを上
記端末に送信し、上記端末が受信したテキストを表示す
るものである。

【００１１】この発明に係る音声認識システムは、端末
がユーザからの指示に基づき表示しているテキストを修
正するものである。

【００１２】この発明に係る音声認識システムは、端末
が、表示しているテキストを他の端末又は他のホストに
送信するものである。

【００１３】この発明に係る音声認識システムは、基本
単位として音素を使用するものである。

【００１４】この発明に係る音声認識システムは、基本
単位として音節を使用するものである。

【００１５】この発明に係る音声認識システムは、基本
単位として音素ＨＭＭの並びで表現されるサブワードを
使用するものである。

【００１６】この発明に係る音声認識システムは、端末
が、ユーザからの音声を入力しディジタル化された音声
信号を出力する音声入力手段と、上記音声信号から、類
似の状態が共有化された音素ＨＭＭを記憶した音響モデ
ルを使用して、基本単位の列を抽出する音声認識手段
と、抽出された上記基本単位の列をホストに送信すると
共に、上記ホストから送信されたテキストを受信する通
信手段と、受信した上記テキストを表示する表示手段と
を備えたものである。

【００１７】この発明に係る音声認識システムは、音声
認識手段が、音声信号を入力して、特徴パラメータ時系
列と短時間パワー時系列を抽出する音声分析手段と、上
記短時間パワー時系列に基づき、音声パワーの存在する
可能性の高い音声区間を検出して、上記音声区間内の特
徴パラメータ時系列を出力する音声区間検出手段と、類
似の状態が共有化された音素ＨＭＭを記憶した音響モデ
ルと、この音響モデルに記憶されている音素ＨＭＭの組
合せの中から、上記音声区間検出手段が出力した特徴パ
ラメータ時系列に整合する基本単位の列を抽出するビタ
ビデコーダとを備えたものである。

【００１８】この発明に係る音声認識システムは、ホス
トが、端末から送信された基本単位の列を受信すると共
に、求めたテキストを上記端末に送信する通信手段と、
基本単位の列が示す誤認識の確率を記憶した差分モデル
と、単語の連鎖の出現確率を記憶した言語モデルを使用
して、受信した上記基本単位の列に整合する単語列を求
め、テキストとして出力するテキスト変換手段とを備え
たものである。

【００１９】この発明に係る音声認識システムは、テキ
スト変換手段が、基本単位の列が示す誤認識の確率を記
憶した差分モデルと、テキストを構成する単語の連鎖の
出現確率を記憶した言語モデルと、受信した基本単位の
列を入力し、上記差分モデルが記憶した基本単位の列が
示す誤認識の確率と、上記言語モデルが記憶したテキス
トを構成した単語の連鎖の出現確率に基づき、上記基本
単位の列に整合する単語列を求め、テキストとして出力
するスタックデコーダとを備えたものである。

【００２０】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による音
声認識システムの構成を示すブロック図である。図にお
いて、１８は端末１において、音声入力手段１３からの
文章等の大語彙からなる音声を認識して、音節を基本単
位とした音節列を求める音声認識手段で、２９はホスト
２において、通信手段２６で受信した端末１からの音節
列を入力しテキストを求めるテキスト変換手段であり、
その他の構成は、従来の図４における構成と同等のもの
である。

【００２１】図２は端末１における音声認識手段１８の
構成を示すブロック図である。図において、１８１は音
声入力手段１３によりディジタル化された音声信号、１
８２は音声信号１８１を分析し、特徴パラメータ時系列
並びに短時間パワーを抽出する音声分析手段、１８３は
音声分析手段１８２の出力から、そのうちの短時間パワ
ーに基づいて音声パワーの存在する時間区間を検出し、
当該音声区間の特徴パラメータ時系列１８４を出力する
音声区間検出手段、１８４は音声区間検出手段１８３に
よって切り出された音声区間の特徴パラメータ時系列、
１８５は特徴パラメータ時系列１８４を入力し音声認識
結果として、音節を基本単位とした音節列１８７を出力
するビタビデコーダ、１８６はビタビデコーダ１８５で
用いられる音響モデルである。

【００２２】図３はホスト２におけるテキスト変換手段
２９の構成を示すブロック図である。図において、２９
１は通信手段２６が受信した音節列、２９２は音節列２
９１を入力しテキスト２９５を出力するスタックデコー
ダ、２９３はスタックデコーダ２９２が参照する差分モ
デル、２９４はスタックデコーダ２９２が参照する言語
モデルである。

【００２３】次に動作について説明する。まず、ユーザ
からの文章等の大語彙からなる音声が端末１の音声入力
手段１３に入力されると、音声入力手段１３によりディ
ジタル化された音声信号が出力され音声認識手段１８に
送られる。音声認識手段１８は、後述するように音声信
号を分析し音節を基本単位とした音節列１８７を抽出す
る。音声認識手段１８により抽出された音節列１８７
は、通信手段１６により、ネットワーク３を介してホス
ト２の通信手段２６に送信される。

【００２４】端末１から送信された音節列１８７は、ホ
スト２の通信手段２６で受信されてテキスト変換手段２
９に送られる。テキスト変換手段２９は、この音節列１
８７を入力し、後述のようにして、端末１で入力した音
声信号に対するテキスト２９５を出力する。通信手段２
６は、テキスト変換手段２９が出力したテキスト２９５
をネットワーク３に送信する。

【００２５】端末１の通信手段１６は、ネットワーク３
からテキスト２９５を受信する。受信されたテキスト２
９５は表示手段１１に表示され、ユーザは表示されたテ
キスト２９５により音声認識結果を確認する。表示され
ているテキスト２９５に誤りがあれば、ユーザからの指
示を入力手段１２が入力し、演算処理手段１７により修
正処理が行われる。ユーザは、送信されたテキスト２９
５又は修正されたテキスト２９５を、通信手段１６によ
りネットワーク３を経由して、図示されていない他のユ
ーザの端末１や他のホスト２に送信する。

【００２６】次に図２を用いて音声認識手段１８の動作
について説明する。音声入力手段１３から出力された音
声信号１８１は、音声分析手段１８２に入力される。音
声分析手段１８２は、音声信号１８１を入力して、例え
ば１０ｍｓ毎に特徴パラメータとしてメルケプストラム
係数を抽出する。また、同時に１０ｍｓ毎に音声区間検
出のため短時間パワー時系列を抽出する。これらの時系
列は音声区間検出手段１８３に出力される。ここでは、
特徴パラメータとしてメルケプストラム係数を抽出して
いるが、メルケプストラム係数とデルタメルケプストラ
ム係数の組合せを抽出しても良い。

【００２７】音声区間検出手段１８３は、短時間パワー
時系列に基づいて、無音区間や非音声区間を除き、音声
パワーの存在する可能性の高い音声区間を検出し、この
検出された音声区間内の特徴パラメータの時系列１８４
を出力する。音響モデル１８６は、前後の音素環境に依
存する環境依存型の音素ＨＭＭ（ＨｉｄｄｅｎＭａｒ
ｋｏｖＭｏｄｅｌ）からなる。音素ＨＭＭは日本語の
全音素をカバーするように設計されているが、決定木に
より類似の状態を共有するような構造となっている。こ
のように、音響モデル１８６に共有化された音素ＨＭＭ
を使用したことにより、所要のメモリは比較的小さく、
端末１のハードウェア規模が小さくて済む。

【００２８】この音響モデル１８６について説明する。
音素はｌｅｆｔ−ｔｏ−ｒｉｇｈｔに並んだ１〜３個の
状態からなっており、各状態は混合ガウス分布で示され
る出力確率を持っている。テストデータに対して、混合
ガウス分布の出力確率が類似している状態は、共通の混
合ガウス分布を持たせることにより共有化している。各
状態のどれとどれを共有化するかは、決定木を使用した
クラスタリングにより決定する。この決定木を使用する
方法は、決定木上に置かれた質問に従い、大まかな音素
環境から出発し、詳細な音素環境にいたるまで音素環境
を変化させることにより、決定木の根の箇所における最
大の共有化から出発し、木の枝をたどることにより共有
化を分割していくものである。

【００２９】ビタビデコーダ１８５は、音響モデル１８
６内に記憶された音素ＨＭＭのあらゆる組み合わせの中
から、特徴パラメータ時系列１８４に最も良く整合する
音素列１８７を抽出する。これは動的計画法の一種であ
るビタビアルゴリズムで効率的に実現されている。この
ようにして、ビタビアルゴリズムで得られた最良の音素
列は、音節を基本単位とした音節列１８７に変換されて
出力される。この音素列から音節列の変換は、音素の記
号列の中で母音（ａｉｕｅｏ）、撥音（Ｎ）、促音
（Ｑ）に着目して、例えば、「ｗａｔａｓｉｗａａｂｅ
ｔｏｍｏｏｓｉｍａｓｕ」という音素列を、母音、撥
音、促音を１つだけ含む音節列「ｗａ／ｔａ／ｓｉ／ｗ
ａ／ａ／ｂｅ／ｔｏ／ｍｏ／ｏ／ｓｉ／ｍａ／ｓｕ」と
いう音節列に区切るものである。

【００３０】また、ビタビデコーダ１８５は、ビームサ
ーチ手法を用いて計算回数を削減しているため、演算量
が比較的少なくて済んでいる。音声区間の始端から終端
にかけて行う各フレームのビタビ演算では、始端から当
該フレームまでに選択された経路に沿って蓄積された累
積尤度が最も高くなるように状態遷移を選択するが、こ
のビームサーチ手法では、各フレームのビタビ演算の際
に、累積尤度が閾値以下である経路を枝刈りすることに
より経路演算を削減している。

【００３１】このように、端末１での音声認識処理は、
音節を基本単位とした音節列の認識処理で、言語的な処
理を含まないために、すなわち、連鎖の統計量を使用し
て、ある音節の次に現れる確率の高い音節を求めていく
処理を含まないために、演算量が少なく、高速のＣＰＵ
による演算処理手段１７を備えた端末１で十分高速な処
理が可能である。

【００３２】次に図３を用いてテキスト変換手段の動作
を説明する。差分モデル２９３は音節列が示す誤認識の
確率を記憶したモデルである。誤認識のパターンとし
て、音節の置換、挿入、脱落があり、音節の置換、挿
入、脱落の確率が差分モデル２９３内に記憶されてい
る。これらの確率は、音声データベースに集められた音
声を認識して得られる音声認識結果の基本単位の列（音
節列）と、音声データベースに付けられている正解の基
本単位の列（音節列）を比べて、正解に対する認識結果
における基本単位（音節）の置換、挿入、脱落をカウン
トすることにより推定する。

【００３３】言語モデル２９４は、テキストを構成する
単語の連鎖の出現確率が記憶されている。単語の連鎖と
してはｎ単語の連鎖を用い、当該単語連鎖の出現確率と
して記憶されている。この単語連鎖の出現確率は、対象
と類似した文例を多数集めたコーパスから推定される。
このコーパスは、電子化されたべた書きの文例に対し
て、単語連鎖の統計量を求めるために、予め単語間を分
割して記憶したものである。この実施の形態では、ｎは
１から３の範囲の値を取る。

【００３４】この実施の形態における言語モデル２９４
は、新聞記事等の一般のテキストを対象としているた
め、数百Ｍバイトの記憶容量が必要であるが、ホスト２
上に設置していることにより、言語モデル２９４を全て
メモリ上に展開して処理してもメモリ上の問題は生じな
い。

【００３５】また、演算処理手段２７が演算能力の高い
ＣＰＵを用いているので、処理時間は実用上十分な高速
処理が可能であり、音声認識処理システムとして応答性
の問題も生じない。スタックデコーダ２９２は、音節列
２９１を入力して、差分モデル２９３に記憶された音節
の誤認識の確率と、言語モデル２９４に記憶された単語
連鎖の確率を加味して、音節列２９１に最も良く整合す
る単語列を求め、これをテキスト２９５として出力す
る。

【００３６】なお、この実施の形態では、音節を基本単
位としているが、音素を基本単位としても良い。この場
合、端末１から、ビタビデコーダ１８５がビタビアルゴ
リズムで求めた最良の音素列、例えば、「ｗａｔａｓｉ
ｗａａｂｅｔｏｍｏｏｓｉｍａｓｕ」という音素列をそ
のまま送信し、ホスト２では、スタックデコーダ２９２
が、受信した音素列を入力し、差分モデル２９３に記憶
された音素の誤認識の確率と、言語モデル２９４に記憶
された単語連鎖の確率を加味して、受信した音素列に最
も良く整合する単語列を求め、これをテキスト２９５と
して出力する。

【００３７】また、この実施の形態では、音素や音節の
代わりに、音素の並びで表現されるサブワードを基本単
位としても良い。この場合、端末１から、ビタビデコー
ダ１８５がビタビアルゴリズムで求めた最良の音素列、
例えば、「ｗａｔａｓｉｗａａｂｅｔｏｍｏｏｓｉｍａ
ｓｕ」という音素列を、「ｗａｔａｓｉｗａ／ａｂｅｔ
ｏ／ｍｏｏｓｉｍａｓｕ」というサブワード列に変換し
て送信し、ホスト２では、スタックデコーダ２９２が、
受信したサブワード列を入力し、差分モデル２９３に記
憶されたサブワードの誤認識の確率と、言語モデル２９
４に記憶された単語連鎖の確率を加味して、受信したサ
ブワード列に最も良く整合する単語列を求め、これをテ
キスト２９５として出力する。

【００３８】基本単位として、音素、音節、サブワード
を使用した場合を比較すると、差分モデル２９３に基本
単位の置換、挿入、脱落の確率が記憶されているとき
は、長い単位の方が、すなわち、音素より音節、音節よ
りサブワードの方が、広範囲の文脈を考慮した認識誤り
に対処できる。

【００３９】以上のように、この実施の形態１によれ
ば、端末１の音声認識手段１８が、小規模な音響モデル
１８６を参照して、基本単位の列（音素列、音節列、又
はサブワード列）を求めて、ネットワーク３を介してホ
スト２に送信し、ホスト２では、受信した基本単位の列
を、差分モデル２９３と大きな記憶容量を持つ精度の高
い言語モデル２９４を参照して、テキスト２９５に変換
するようにしているので、端末１とホスト２間のデータ
転送量が小さいためにネットワーク３の負荷が小さく、
ハードウェア規模の小さい端末１に入力された音声が、
文章等の大語彙からなる音声の場合にも、高速かつ認識
精度の高い音声認識システムを得ることができるという
効果が得られる。

【００４０】また、この実施の形態１によれば、端末が
ユーザからの指示に基づき表示しているテキストを修正
することにより、ホストから送信された誤認識の結果を
訂正することができると共に、端末が、表示しているテ
キストを他の端末又は他のホストに送信することによ
り、ホストからの認識結果を他の端末又は他のホストに
通知でき、認識結果を共有化できるという効果が得られ
る。

【００４１】さらに、この実施の形態１によれば、基本
単位として音素、音節、又はサブワードを使用すること
により、ネットワークの負荷を小さくできると共に、長
い単位を使用した場合には、広範囲の文脈を考慮した認
識誤りに対処できるという効果が得られる。

【００４２】

【発明の効果】以上のように、この発明によれば、端末
が、入力した音声信号から、類似の状態が共有化された
音素ＨＭＭを記憶した音響モデルを使用し、基本単位の
列を抽出してホストに送信し、ホストが、基本単位の列
が示す誤認識の確率を記憶した差分モデルと、単語の連
鎖の出現確率を記憶した言語モデルを使用して、受信し
た基本単位の列に整合する単語列を求め、そのテキスト
を端末に送信し、端末が受信したテキストを表示するこ
とにより、ネットワークの負荷が小さく、端末に入力さ
れた音声が、文章等の大語彙からなる音声の場合にも、
高速かつ認識精度の高い音声認識システムを得ることが
できるという効果がある。

【００４３】この発明によれば、端末がユーザからの指
示に基づき表示しているテキストを修正することによ
り、ホストから送信された誤認識の結果を訂正すること
ができるという効果がある。

【００４４】この発明によれば、端末が、表示している
テキストを他の端末又は他のホストに送信することによ
り、ホストからの認識結果を他の端末又は他のホストに
通知でき、認識結果を共有化できるという効果がある。

【００４５】この発明によれば、基本単位として音素を
使用することにより、ネットワークの負荷を小さくでき
るという効果がある。

【００４６】この発明によれば、基本単位として音節を
使用することことにより、ネットワークの負荷を小さく
できるという効果がある。

【００４７】この発明によれば、基本単位として音素Ｈ
ＭＭの並びで表現されるサブワードを使用することによ
り、ネットワークの負荷を小さくできると共に、広範囲
の文脈を考慮した認識誤りに対処できるという効果があ
る。

【図面の簡単な説明】

【図１】この発明の実施の形態１による音声認識シス
テムの構成を示すブロック図である。

【図２】この発明の実施の形態１による音声認識手段
の構成を示すブロック図である。

【図３】この発明の実施の形態１によるテキスト変換
手段の構成を示すブロック図である。

【図４】従来の音声認識システムの構成を示すブロッ
ク図である。

【符号の説明】

１端末、２ホスト、３ネットワーク、１１表示
手段、１２入力手段、１３音声入力手段、１４音
声出力手段、１５情報記憶手段、１６通信手段、１
７演算処理手段、１８音声認識手段、２１表示手
段、２２入力手段、２３音声入力手段、２４音声
出力手段、２５情報記憶手段、２６通信手段、２７
演算処理手段、２９テキスト変換手段、１７１プ
ログラム、２７１プログラム、１８１音声信号、１
８２音声分析手段、１８３音声区間検出手段、１８４
特徴パラメータ時系列、１８５ビタビデコーダ、１
８６音響モデル、１８７音節列、２９１音節列、
２９２スタックデコーダ、２９３差分モデル、２９
４言語モデル、２９５テキスト。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５６１Ｅ５６１Ｆ

Claims

【特許請求の範囲】

【請求項１】ネットワークを介して接続された端末と
ホストからなる音声認識システムにおいて、上記端末が、入力した音声信号から、類似の状態が共有
化された音素ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭ
ｏｄｅｌ）を記憶した音響モデルを使用し、基本単位の
列を抽出して上記ホストに送信し、上記ホストが、基本単位の列が示す誤認識の確率を記憶
した差分モデルと、単語の連鎖の出現確率を記憶した言
語モデルを使用して、受信した上記基本単位の列に整合
する単語列を求め、そのテキストを上記端末に送信し、上記端末が受信したテキストを表示することを特徴とす
る音声認識システム。
【請求項２】端末がユーザからの指示に基づき表示し
ているテキストを修正することを特徴とする請求項１記
載の音声認識システム。
【請求項３】端末が、表示しているテキストを他の端
末又は他のホストに送信することを特徴とする請求項１
又は請求項２記載の音声認識システム。
【請求項４】基本単位として音素を使用することを特
徴とする請求項１記載の音声認識システム。
【請求項５】基本単位として音節を使用することを特
徴とする請求項１記載の音声認識システム。
【請求項６】基本単位として音素ＨＭＭの並びで表現
されるサブワードを使用することを特徴とする請求項１
記載の音声認識システム。
【請求項７】端末が、ユーザからの音声を入力しディジタル化された音声信号
を出力する音声入力手段と、上記音声信号から、類似の状態が共有化された音素ＨＭ
Ｍを記憶した音響モデルを使用して、基本単位の列を抽
出する音声認識手段と、抽出された上記基本単位の列をホストに送信すると共
に、上記ホストから送信されたテキストを受信する通信
手段と、受信した上記テキストを表示する表示手段とを備えたこ
とを特徴とする請求項１記載の音声認識システム。
【請求項８】音声認識手段が、音声信号を入力して、特徴パラメータ時系列と短時間パ
ワー時系列を抽出する音声分析手段と、上記短時間パワー時系列に基づき、音声パワーの存在す
る可能性の高い音声区間を検出して、上記音声区間内の
特徴パラメータ時系列を出力する音声区間検出手段と、類似の状態が共有化された音素ＨＭＭを記憶した音響モ
デルと、この音響モデルに記憶されている音素ＨＭＭの組合せの
中から、上記音声区間検出手段が出力した特徴パラメー
タ時系列に整合する基本単位の列を抽出するビタビデコ
ーダとを備えたことを特徴とする請求項７記載の音声認
識システム。
【請求項９】ホストが、端末から送信された基本単位の列を受信すると共に、求
めたテキストを上記端末に送信する通信手段と、基本単位の列が示す誤認識の確率を記憶した差分モデル
と、単語の連鎖の出現確率を記憶した言語モデルを使用
して、受信した上記基本単位の列に整合する単語列を求
め、テキストとして出力するテキスト変換手段とを備え
たことを特徴とする請求項１記載の音声認識システム。
【請求項１０】テキスト変換手段が、基本単位の列が示す誤認識の確率を記憶した差分モデル
と、テキストを構成する単語の連鎖の出現確率を記憶した言
語モデルと、受信した基本単位の列を入力し、上記差分モデルが記憶
した基本単位の列が示す誤認識の確率と、上記言語モデ
ルが記憶したテキストを構成した単語の連鎖の出現確率
に基づき、上記基本単位の列に整合する単語列を求め、
テキストとして出力するスタックデコーダとを備えたこ
とを特徴とする請求項９記載の音声認識システム。