JP2001195087A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JP2001195087A
JP2001195087A JP2000000987A JP2000000987A JP2001195087A JP 2001195087 A JP2001195087 A JP 2001195087A JP 2000000987 A JP2000000987 A JP 2000000987A JP 2000000987 A JP2000000987 A JP 2000000987A JP 2001195087 A JP2001195087 A JP 2001195087A
Authority
JP
Japan
Prior art keywords
text
terminal
sequence
voice
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2000000987A
Other languages
English (en)
Inventor
Yoshiharu Abe
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000000987A priority Critical patent/JP2001195087A/ja
Publication of JP2001195087A publication Critical patent/JP2001195087A/ja
Abandoned legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ネットワークの負荷が小さく、大語彙からな
る入力音声の場合にも高い認識精度を得る。 【解決手段】 端末1の音声認識手段18は、音声入力
手段13からの音声信号を分析し音節を基本単位とする
音節列を抽出する。通信手段16は音節列をネットワー
ク3を介してホスト2に送信する。ホスト2のテキスト
変換手段29は、通信手段26が受信した音節列を入力
し、差分モデルと言語モデルを使用して、音節列に整合
する単語列を求めてテキストとして出力する。通信手段
26はテキストを端末1に送信し、端末1の表示手段1
1がテキストを表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、無線・有線に関
わらずネットワークで接続された端末とホストからなる
音声認識システムに関するものである。
【0002】
【従来の技術】図4は例えば特開平7−222248号
公報に示された従来の音声認識システムの構成を示すブ
ロック図であり、図において、1は端末、2はホスト、
3はネットワークである。端末1において、11は表示
手段、12はペン入力等の入力手段、13は音声入力手
段、14は音声出力手段、15は情報記憶手段、16は
通信手段、17はCPUによる演算処理手段、171は
演算処理手段17で実行されるプログラムである。
【0003】一方、図4のホスト2において、21は表
示手段、22はキーボード等の入力手段、23は音声入
力手段、24は音声出力手段、25は情報記憶手段、2
6は通信手段、27はCPUによる演算処理手段、28
は音声認識手段、271は演算処理手段27で実行され
るプログラムである。端末1の通信手段16、ネットワ
ーク2及びホスト2の通信手段26により通信機能が構
成される。
【0004】次に動作について説明する。端末1では、
音声入力手段13が音声を入力し符号化して情報記憶手
段15に記録する。記録された音声情報は、通信手段1
6によりネットワーク3を介してホスト2に送信され
る。ホスト2では、通信手段26が端末1より送信され
た音声情報を受信し、音声認識手段28が受信した音声
情報を認識して文字情報に変換する。通信手段26はそ
の文字情報を端末1に送信する。端末1上に実現される
機能及びホスト2上に実現される機能は、各々の内部に
設けられた演算処理手段17及び演算処理手段27が実
行するプログラム171及び271で実現されている。
【0005】このようなクライアント・ホスト型のシス
テム構成において、音声認識のための処理は、ネットワ
ーク3上のいずれかに設置されている、ハードウェア規
模が十分に大きなホスト2で行われるので、端末1のハ
ードウェア規模に関係なく、計算処理量が多い高度な音
声認識手法を利用することが可能である。
【0006】
【発明が解決しようとする課題】従来の音声認識システ
ムは以上のように構成されているので、生の音声信号の
情報量は大きく、この音声信号を符号化してネットワー
ク3に送信すると、ネットワーク3の負荷が増大すると
いう課題があった。
【0007】また、音声信号を圧縮符号化することで情
報量を減らすことも可能であるが、情報量の圧縮に伴う
復号化後の音声に品質劣化があるため、圧縮前の音声信
号の音声認識の精度に比べて、復号後の音声信号の音声
認識の精度が大幅に低下するという課題があった。
【0008】さらに、上記ネットワーク3の負荷増加の
課題に対して、特開平3−132797号公報では、端
末で、入力音声から音素又は音節を抽出し、これらの記
号列を中央処理装置に送信し、中央処理装置で、送信さ
れた記号列から単語辞書を使用して入力音声が示す単語
や文を認識している。この記号列の伝送量は相当少ない
ために、ネットワーク3の負荷は小さくなると共に、圧
縮による精度低下は解消できるが、入力音声から抽出さ
れた音素又は音節には、認識時の誤りが含まれるため
に、入力音声が文章等の大語彙からなる音声の場合に
は、一般的な単語辞書を使用した認識結果に十分な精度
が得られないという課題があった。
【0009】この発明は上記のような課題を解決するた
めになされたもので、ネットワーク3の負荷が小さく、
文章等の大語彙からなる入力音声の場合にも、認識精度
の高い音声認識システムを得ることを目的とする。
【0010】
【課題を解決するための手段】この発明に係る音声認識
システムは、ネットワークを介して接続された端末とホ
ストからなるものにおいて、上記端末が、入力した音声
信号から、類似の状態が共有化された音素HMMを記憶
した音響モデルを使用し、基本単位の列を抽出して上記
ホストに送信し、上記ホストが、基本単位の列が示す誤
認識の確率を記憶した差分モデルと、単語の連鎖の出現
確率を記憶した言語モデルを使用して、受信した上記基
本単位の列に整合する単語列を求め、そのテキストを上
記端末に送信し、上記端末が受信したテキストを表示す
るものである。
【0011】この発明に係る音声認識システムは、端末
がユーザからの指示に基づき表示しているテキストを修
正するものである。
【0012】この発明に係る音声認識システムは、端末
が、表示しているテキストを他の端末又は他のホストに
送信するものである。
【0013】この発明に係る音声認識システムは、基本
単位として音素を使用するものである。
【0014】この発明に係る音声認識システムは、基本
単位として音節を使用するものである。
【0015】この発明に係る音声認識システムは、基本
単位として音素HMMの並びで表現されるサブワードを
使用するものである。
【0016】この発明に係る音声認識システムは、端末
が、ユーザからの音声を入力しディジタル化された音声
信号を出力する音声入力手段と、上記音声信号から、類
似の状態が共有化された音素HMMを記憶した音響モデ
ルを使用して、基本単位の列を抽出する音声認識手段
と、抽出された上記基本単位の列をホストに送信すると
共に、上記ホストから送信されたテキストを受信する通
信手段と、受信した上記テキストを表示する表示手段と
を備えたものである。
【0017】この発明に係る音声認識システムは、音声
認識手段が、音声信号を入力して、特徴パラメータ時系
列と短時間パワー時系列を抽出する音声分析手段と、上
記短時間パワー時系列に基づき、音声パワーの存在する
可能性の高い音声区間を検出して、上記音声区間内の特
徴パラメータ時系列を出力する音声区間検出手段と、類
似の状態が共有化された音素HMMを記憶した音響モデ
ルと、この音響モデルに記憶されている音素HMMの組
合せの中から、上記音声区間検出手段が出力した特徴パ
ラメータ時系列に整合する基本単位の列を抽出するビタ
ビデコーダとを備えたものである。
【0018】この発明に係る音声認識システムは、ホス
トが、端末から送信された基本単位の列を受信すると共
に、求めたテキストを上記端末に送信する通信手段と、
基本単位の列が示す誤認識の確率を記憶した差分モデル
と、単語の連鎖の出現確率を記憶した言語モデルを使用
して、受信した上記基本単位の列に整合する単語列を求
め、テキストとして出力するテキスト変換手段とを備え
たものである。
【0019】この発明に係る音声認識システムは、テキ
スト変換手段が、基本単位の列が示す誤認識の確率を記
憶した差分モデルと、テキストを構成する単語の連鎖の
出現確率を記憶した言語モデルと、受信した基本単位の
列を入力し、上記差分モデルが記憶した基本単位の列が
示す誤認識の確率と、上記言語モデルが記憶したテキス
トを構成した単語の連鎖の出現確率に基づき、上記基本
単位の列に整合する単語列を求め、テキストとして出力
するスタックデコーダとを備えたものである。
【0020】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識システムの構成を示すブロック図である。図にお
いて、18は端末1において、音声入力手段13からの
文章等の大語彙からなる音声を認識して、音節を基本単
位とした音節列を求める音声認識手段で、29はホスト
2において、通信手段26で受信した端末1からの音節
列を入力しテキストを求めるテキスト変換手段であり、
その他の構成は、従来の図4における構成と同等のもの
である。
【0021】図2は端末1における音声認識手段18の
構成を示すブロック図である。図において、181は音
声入力手段13によりディジタル化された音声信号、1
82は音声信号181を分析し、特徴パラメータ時系列
並びに短時間パワーを抽出する音声分析手段、183は
音声分析手段182の出力から、そのうちの短時間パワ
ーに基づいて音声パワーの存在する時間区間を検出し、
当該音声区間の特徴パラメータ時系列184を出力する
音声区間検出手段、184は音声区間検出手段183に
よって切り出された音声区間の特徴パラメータ時系列、
185は特徴パラメータ時系列184を入力し音声認識
結果として、音節を基本単位とした音節列187を出力
するビタビデコーダ、186はビタビデコーダ185で
用いられる音響モデルである。
【0022】図3はホスト2におけるテキスト変換手段
29の構成を示すブロック図である。図において、29
1は通信手段26が受信した音節列、292は音節列2
91を入力しテキスト295を出力するスタックデコー
ダ、293はスタックデコーダ292が参照する差分モ
デル、294はスタックデコーダ292が参照する言語
モデルである。
【0023】次に動作について説明する。まず、ユーザ
からの文章等の大語彙からなる音声が端末1の音声入力
手段13に入力されると、音声入力手段13によりディ
ジタル化された音声信号が出力され音声認識手段18に
送られる。音声認識手段18は、後述するように音声信
号を分析し音節を基本単位とした音節列187を抽出す
る。音声認識手段18により抽出された音節列187
は、通信手段16により、ネットワーク3を介してホス
ト2の通信手段26に送信される。
【0024】端末1から送信された音節列187は、ホ
スト2の通信手段26で受信されてテキスト変換手段2
9に送られる。テキスト変換手段29は、この音節列1
87を入力し、後述のようにして、端末1で入力した音
声信号に対するテキスト295を出力する。通信手段2
6は、テキスト変換手段29が出力したテキスト295
をネットワーク3に送信する。
【0025】端末1の通信手段16は、ネットワーク3
からテキスト295を受信する。受信されたテキスト2
95は表示手段11に表示され、ユーザは表示されたテ
キスト295により音声認識結果を確認する。表示され
ているテキスト295に誤りがあれば、ユーザからの指
示を入力手段12が入力し、演算処理手段17により修
正処理が行われる。ユーザは、送信されたテキスト29
5又は修正されたテキスト295を、通信手段16によ
りネットワーク3を経由して、図示されていない他のユ
ーザの端末1や他のホスト2に送信する。
【0026】次に図2を用いて音声認識手段18の動作
について説明する。音声入力手段13から出力された音
声信号181は、音声分析手段182に入力される。音
声分析手段182は、音声信号181を入力して、例え
ば10ms毎に特徴パラメータとしてメルケプストラム
係数を抽出する。また、同時に10ms毎に音声区間検
出のため短時間パワー時系列を抽出する。これらの時系
列は音声区間検出手段183に出力される。ここでは、
特徴パラメータとしてメルケプストラム係数を抽出して
いるが、メルケプストラム係数とデルタメルケプストラ
ム係数の組合せを抽出しても良い。
【0027】音声区間検出手段183は、短時間パワー
時系列に基づいて、無音区間や非音声区間を除き、音声
パワーの存在する可能性の高い音声区間を検出し、この
検出された音声区間内の特徴パラメータの時系列184
を出力する。音響モデル186は、前後の音素環境に依
存する環境依存型の音素HMM(Hidden Mar
kov Model)からなる。音素HMMは日本語の
全音素をカバーするように設計されているが、決定木に
より類似の状態を共有するような構造となっている。こ
のように、音響モデル186に共有化された音素HMM
を使用したことにより、所要のメモリは比較的小さく、
端末1のハードウェア規模が小さくて済む。
【0028】この音響モデル186について説明する。
音素はleft−to−rightに並んだ1〜3個の
状態からなっており、各状態は混合ガウス分布で示され
る出力確率を持っている。テストデータに対して、混合
ガウス分布の出力確率が類似している状態は、共通の混
合ガウス分布を持たせることにより共有化している。各
状態のどれとどれを共有化するかは、決定木を使用した
クラスタリングにより決定する。この決定木を使用する
方法は、決定木上に置かれた質問に従い、大まかな音素
環境から出発し、詳細な音素環境にいたるまで音素環境
を変化させることにより、決定木の根の箇所における最
大の共有化から出発し、木の枝をたどることにより共有
化を分割していくものである。
【0029】ビタビデコーダ185は、音響モデル18
6内に記憶された音素HMMのあらゆる組み合わせの中
から、特徴パラメータ時系列184に最も良く整合する
音素列187を抽出する。これは動的計画法の一種であ
るビタビアルゴリズムで効率的に実現されている。この
ようにして、ビタビアルゴリズムで得られた最良の音素
列は、音節を基本単位とした音節列187に変換されて
出力される。この音素列から音節列の変換は、音素の記
号列の中で母音(aiueo)、撥音(N)、促音
(Q)に着目して、例えば、「watasiwaabe
tomoosimasu」という音素列を、母音、撥
音、促音を1つだけ含む音節列「wa/ta/si/w
a/a/be/to/mo/o/si/ma/su」と
いう音節列に区切るものである。
【0030】また、ビタビデコーダ185は、ビームサ
ーチ手法を用いて計算回数を削減しているため、演算量
が比較的少なくて済んでいる。音声区間の始端から終端
にかけて行う各フレームのビタビ演算では、始端から当
該フレームまでに選択された経路に沿って蓄積された累
積尤度が最も高くなるように状態遷移を選択するが、こ
のビームサーチ手法では、各フレームのビタビ演算の際
に、累積尤度が閾値以下である経路を枝刈りすることに
より経路演算を削減している。
【0031】このように、端末1での音声認識処理は、
音節を基本単位とした音節列の認識処理で、言語的な処
理を含まないために、すなわち、連鎖の統計量を使用し
て、ある音節の次に現れる確率の高い音節を求めていく
処理を含まないために、演算量が少なく、高速のCPU
による演算処理手段17を備えた端末1で十分高速な処
理が可能である。
【0032】次に図3を用いてテキスト変換手段の動作
を説明する。差分モデル293は音節列が示す誤認識の
確率を記憶したモデルである。誤認識のパターンとし
て、音節の置換、挿入、脱落があり、音節の置換、挿
入、脱落の確率が差分モデル293内に記憶されてい
る。これらの確率は、音声データベースに集められた音
声を認識して得られる音声認識結果の基本単位の列(音
節列)と、音声データベースに付けられている正解の基
本単位の列(音節列)を比べて、正解に対する認識結果
における基本単位(音節)の置換、挿入、脱落をカウン
トすることにより推定する。
【0033】言語モデル294は、テキストを構成する
単語の連鎖の出現確率が記憶されている。単語の連鎖と
してはn単語の連鎖を用い、当該単語連鎖の出現確率と
して記憶されている。この単語連鎖の出現確率は、対象
と類似した文例を多数集めたコーパスから推定される。
このコーパスは、電子化されたべた書きの文例に対し
て、単語連鎖の統計量を求めるために、予め単語間を分
割して記憶したものである。この実施の形態では、nは
1から3の範囲の値を取る。
【0034】この実施の形態における言語モデル294
は、新聞記事等の一般のテキストを対象としているた
め、数百Mバイトの記憶容量が必要であるが、ホスト2
上に設置していることにより、言語モデル294を全て
メモリ上に展開して処理してもメモリ上の問題は生じな
い。
【0035】また、演算処理手段27が演算能力の高い
CPUを用いているので、処理時間は実用上十分な高速
処理が可能であり、音声認識処理システムとして応答性
の問題も生じない。スタックデコーダ292は、音節列
291を入力して、差分モデル293に記憶された音節
の誤認識の確率と、言語モデル294に記憶された単語
連鎖の確率を加味して、音節列291に最も良く整合す
る単語列を求め、これをテキスト295として出力す
る。
【0036】なお、この実施の形態では、音節を基本単
位としているが、音素を基本単位としても良い。この場
合、端末1から、ビタビデコーダ185がビタビアルゴ
リズムで求めた最良の音素列、例えば、「watasi
waabetomoosimasu」という音素列をそ
のまま送信し、ホスト2では、スタックデコーダ292
が、受信した音素列を入力し、差分モデル293に記憶
された音素の誤認識の確率と、言語モデル294に記憶
された単語連鎖の確率を加味して、受信した音素列に最
も良く整合する単語列を求め、これをテキスト295と
して出力する。
【0037】また、この実施の形態では、音素や音節の
代わりに、音素の並びで表現されるサブワードを基本単
位としても良い。この場合、端末1から、ビタビデコー
ダ185がビタビアルゴリズムで求めた最良の音素列、
例えば、「watasiwaabetomoosima
su」という音素列を、「watasiwa/abet
o/moosimasu」というサブワード列に変換し
て送信し、ホスト2では、スタックデコーダ292が、
受信したサブワード列を入力し、差分モデル293に記
憶されたサブワードの誤認識の確率と、言語モデル29
4に記憶された単語連鎖の確率を加味して、受信したサ
ブワード列に最も良く整合する単語列を求め、これをテ
キスト295として出力する。
【0038】基本単位として、音素、音節、サブワード
を使用した場合を比較すると、差分モデル293に基本
単位の置換、挿入、脱落の確率が記憶されているとき
は、長い単位の方が、すなわち、音素より音節、音節よ
りサブワードの方が、広範囲の文脈を考慮した認識誤り
に対処できる。
【0039】以上のように、この実施の形態1によれ
ば、端末1の音声認識手段18が、小規模な音響モデル
186を参照して、基本単位の列(音素列、音節列、又
はサブワード列)を求めて、ネットワーク3を介してホ
スト2に送信し、ホスト2では、受信した基本単位の列
を、差分モデル293と大きな記憶容量を持つ精度の高
い言語モデル294を参照して、テキスト295に変換
するようにしているので、端末1とホスト2間のデータ
転送量が小さいためにネットワーク3の負荷が小さく、
ハードウェア規模の小さい端末1に入力された音声が、
文章等の大語彙からなる音声の場合にも、高速かつ認識
精度の高い音声認識システムを得ることができるという
効果が得られる。
【0040】また、この実施の形態1によれば、端末が
ユーザからの指示に基づき表示しているテキストを修正
することにより、ホストから送信された誤認識の結果を
訂正することができると共に、端末が、表示しているテ
キストを他の端末又は他のホストに送信することによ
り、ホストからの認識結果を他の端末又は他のホストに
通知でき、認識結果を共有化できるという効果が得られ
る。
【0041】さらに、この実施の形態1によれば、基本
単位として音素、音節、又はサブワードを使用すること
により、ネットワークの負荷を小さくできると共に、長
い単位を使用した場合には、広範囲の文脈を考慮した認
識誤りに対処できるという効果が得られる。
【0042】
【発明の効果】以上のように、この発明によれば、端末
が、入力した音声信号から、類似の状態が共有化された
音素HMMを記憶した音響モデルを使用し、基本単位の
列を抽出してホストに送信し、ホストが、基本単位の列
が示す誤認識の確率を記憶した差分モデルと、単語の連
鎖の出現確率を記憶した言語モデルを使用して、受信し
た基本単位の列に整合する単語列を求め、そのテキスト
を端末に送信し、端末が受信したテキストを表示するこ
とにより、ネットワークの負荷が小さく、端末に入力さ
れた音声が、文章等の大語彙からなる音声の場合にも、
高速かつ認識精度の高い音声認識システムを得ることが
できるという効果がある。
【0043】この発明によれば、端末がユーザからの指
示に基づき表示しているテキストを修正することによ
り、ホストから送信された誤認識の結果を訂正すること
ができるという効果がある。
【0044】この発明によれば、端末が、表示している
テキストを他の端末又は他のホストに送信することによ
り、ホストからの認識結果を他の端末又は他のホストに
通知でき、認識結果を共有化できるという効果がある。
【0045】この発明によれば、基本単位として音素を
使用することにより、ネットワークの負荷を小さくでき
るという効果がある。
【0046】この発明によれば、基本単位として音節を
使用することことにより、ネットワークの負荷を小さく
できるという効果がある。
【0047】この発明によれば、基本単位として音素H
MMの並びで表現されるサブワードを使用することによ
り、ネットワークの負荷を小さくできると共に、広範囲
の文脈を考慮した認識誤りに対処できるという効果があ
る。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識シス
テムの構成を示すブロック図である。
【図2】 この発明の実施の形態1による音声認識手段
の構成を示すブロック図である。
【図3】 この発明の実施の形態1によるテキスト変換
手段の構成を示すブロック図である。
【図4】 従来の音声認識システムの構成を示すブロッ
ク図である。
【符号の説明】
1 端末、2 ホスト、3 ネットワーク、11 表示
手段、12 入力手段、13 音声入力手段、14 音
声出力手段、15 情報記憶手段、16 通信手段、1
7 演算処理手段、18 音声認識手段、21 表示手
段、22 入力手段、23 音声入力手段、24 音声
出力手段、25 情報記憶手段、26通信手段、 27
演算処理手段、29 テキスト変換手段、171 プ
ログラム、271 プログラム、181 音声信号、1
82 音声分析手段、183音声区間検出手段、184
特徴パラメータ時系列、185 ビタビデコーダ、1
86 音響モデル、187 音節列、291 音節列、
292 スタックデコーダ、293 差分モデル、29
4 言語モデル、295 テキスト。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/22 G10L 3/00 561E 561F

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークを介して接続された端末と
    ホストからなる音声認識システムにおいて、 上記端末が、入力した音声信号から、類似の状態が共有
    化された音素HMM(Hidden Markov M
    odel)を記憶した音響モデルを使用し、基本単位の
    列を抽出して上記ホストに送信し、 上記ホストが、基本単位の列が示す誤認識の確率を記憶
    した差分モデルと、単語の連鎖の出現確率を記憶した言
    語モデルを使用して、受信した上記基本単位の列に整合
    する単語列を求め、そのテキストを上記端末に送信し、 上記端末が受信したテキストを表示することを特徴とす
    る音声認識システム。
  2. 【請求項2】 端末がユーザからの指示に基づき表示し
    ているテキストを修正することを特徴とする請求項1記
    載の音声認識システム。
  3. 【請求項3】 端末が、表示しているテキストを他の端
    末又は他のホストに送信することを特徴とする請求項1
    又は請求項2記載の音声認識システム。
  4. 【請求項4】 基本単位として音素を使用することを特
    徴とする請求項1記載の音声認識システム。
  5. 【請求項5】 基本単位として音節を使用することを特
    徴とする請求項1記載の音声認識システム。
  6. 【請求項6】 基本単位として音素HMMの並びで表現
    されるサブワードを使用することを特徴とする請求項1
    記載の音声認識システム。
  7. 【請求項7】 端末が、 ユーザからの音声を入力しディジタル化された音声信号
    を出力する音声入力手段と、 上記音声信号から、類似の状態が共有化された音素HM
    Mを記憶した音響モデルを使用して、基本単位の列を抽
    出する音声認識手段と、 抽出された上記基本単位の列をホストに送信すると共
    に、上記ホストから送信されたテキストを受信する通信
    手段と、 受信した上記テキストを表示する表示手段とを備えたこ
    とを特徴とする請求項1記載の音声認識システム。
  8. 【請求項8】 音声認識手段が、 音声信号を入力して、特徴パラメータ時系列と短時間パ
    ワー時系列を抽出する音声分析手段と、 上記短時間パワー時系列に基づき、音声パワーの存在す
    る可能性の高い音声区間を検出して、上記音声区間内の
    特徴パラメータ時系列を出力する音声区間検出手段と、 類似の状態が共有化された音素HMMを記憶した音響モ
    デルと、 この音響モデルに記憶されている音素HMMの組合せの
    中から、上記音声区間検出手段が出力した特徴パラメー
    タ時系列に整合する基本単位の列を抽出するビタビデコ
    ーダとを備えたことを特徴とする請求項7記載の音声認
    識システム。
  9. 【請求項9】 ホストが、 端末から送信された基本単位の列を受信すると共に、求
    めたテキストを上記端末に送信する通信手段と、 基本単位の列が示す誤認識の確率を記憶した差分モデル
    と、単語の連鎖の出現確率を記憶した言語モデルを使用
    して、受信した上記基本単位の列に整合する単語列を求
    め、テキストとして出力するテキスト変換手段とを備え
    たことを特徴とする請求項1記載の音声認識システム。
  10. 【請求項10】 テキスト変換手段が、 基本単位の列が示す誤認識の確率を記憶した差分モデル
    と、 テキストを構成する単語の連鎖の出現確率を記憶した言
    語モデルと、 受信した基本単位の列を入力し、上記差分モデルが記憶
    した基本単位の列が示す誤認識の確率と、上記言語モデ
    ルが記憶したテキストを構成した単語の連鎖の出現確率
    に基づき、上記基本単位の列に整合する単語列を求め、
    テキストとして出力するスタックデコーダとを備えたこ
    とを特徴とする請求項9記載の音声認識システム。
JP2000000987A 2000-01-06 2000-01-06 音声認識システム Abandoned JP2001195087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000000987A JP2001195087A (ja) 2000-01-06 2000-01-06 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000000987A JP2001195087A (ja) 2000-01-06 2000-01-06 音声認識システム

Publications (1)

Publication Number Publication Date
JP2001195087A true JP2001195087A (ja) 2001-07-19

Family

ID=18530252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000000987A Abandoned JP2001195087A (ja) 2000-01-06 2000-01-06 音声認識システム

Country Status (1)

Country Link
JP (1) JP2001195087A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030011459A (ko) * 2001-08-03 2003-02-11 와이더덴닷컴 주식회사 분산형 멀티모달 시스템
WO2004029933A1 (en) * 2002-09-25 2004-04-08 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
JP2006521578A (ja) * 2003-03-26 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システム
US7328155B2 (en) 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US7478046B2 (en) 2001-06-20 2009-01-13 Nec Corporation Server-client type speech recognition apparatus and method
KR101002135B1 (ko) 2003-12-27 2010-12-16 주식회사 케이티 음절 음성인식기의 음성인식결과 전달 방법
JP2011164175A (ja) * 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> 言語モデル生成装置、そのプログラムおよび音声認識システム
US10319373B2 (en) 2016-03-14 2019-06-11 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system
JP2020527253A (ja) * 2017-07-10 2020-09-03 エスシーティアイ ホールディングス、インク 音節に基づく自動音声認識

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478046B2 (en) 2001-06-20 2009-01-13 Nec Corporation Server-client type speech recognition apparatus and method
KR20030011459A (ko) * 2001-08-03 2003-02-11 와이더덴닷컴 주식회사 분산형 멀티모달 시스템
WO2004029933A1 (en) * 2002-09-25 2004-04-08 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US7184957B2 (en) 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US7328155B2 (en) 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
JP2006521578A (ja) * 2003-03-26 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システム
KR101002135B1 (ko) 2003-12-27 2010-12-16 주식회사 케이티 음절 음성인식기의 음성인식결과 전달 방법
JP2011164175A (ja) * 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> 言語モデル生成装置、そのプログラムおよび音声認識システム
US10319373B2 (en) 2016-03-14 2019-06-11 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system
JP2020527253A (ja) * 2017-07-10 2020-09-03 エスシーティアイ ホールディングス、インク 音節に基づく自動音声認識
JP7295839B2 (ja) 2017-07-10 2023-06-21 エスシーティアイ ホールディングス、インク 音節に基づく自動音声認識

Similar Documents

Publication Publication Date Title
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
US8019602B2 (en) Automatic speech recognition learning using user corrections
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US7657430B2 (en) Speech processing apparatus, speech processing method, program, and recording medium
US5333275A (en) System and method for time aligning speech
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US10176809B1 (en) Customized compression and decompression of audio data
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
EP1055226B1 (en) System for using silence in speech recognition
KR20170011636A (ko) 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
US6502072B2 (en) Two-tier noise rejection in speech recognition
JP2001195087A (ja) 音声認識システム
US11043212B2 (en) Speech signal processing and evaluation
JP2012255867A (ja) 音声認識装置
KR100474253B1 (ko) 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체
JP2975542B2 (ja) 音声認識装置
Thalengala et al. Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database.
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2975540B2 (ja) 自由発話音声認識装置
CN114255758A (zh) 口语评测方法及装置、设备以及存储介质
JP2003140683A (ja) 音声認識装置、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070323