JP2001195087A - 音声認識システム - Google Patents
音声認識システムInfo
- Publication number
- JP2001195087A JP2001195087A JP2000000987A JP2000000987A JP2001195087A JP 2001195087 A JP2001195087 A JP 2001195087A JP 2000000987 A JP2000000987 A JP 2000000987A JP 2000000987 A JP2000000987 A JP 2000000987A JP 2001195087 A JP2001195087 A JP 2001195087A
- Authority
- JP
- Japan
- Prior art keywords
- text
- terminal
- sequence
- voice
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Abstract
る入力音声の場合にも高い認識精度を得る。 【解決手段】 端末1の音声認識手段18は、音声入力
手段13からの音声信号を分析し音節を基本単位とする
音節列を抽出する。通信手段16は音節列をネットワー
ク3を介してホスト2に送信する。ホスト2のテキスト
変換手段29は、通信手段26が受信した音節列を入力
し、差分モデルと言語モデルを使用して、音節列に整合
する単語列を求めてテキストとして出力する。通信手段
26はテキストを端末1に送信し、端末1の表示手段1
1がテキストを表示する。
Description
わらずネットワークで接続された端末とホストからなる
音声認識システムに関するものである。
公報に示された従来の音声認識システムの構成を示すブ
ロック図であり、図において、1は端末、2はホスト、
3はネットワークである。端末1において、11は表示
手段、12はペン入力等の入力手段、13は音声入力手
段、14は音声出力手段、15は情報記憶手段、16は
通信手段、17はCPUによる演算処理手段、171は
演算処理手段17で実行されるプログラムである。
示手段、22はキーボード等の入力手段、23は音声入
力手段、24は音声出力手段、25は情報記憶手段、2
6は通信手段、27はCPUによる演算処理手段、28
は音声認識手段、271は演算処理手段27で実行され
るプログラムである。端末1の通信手段16、ネットワ
ーク2及びホスト2の通信手段26により通信機能が構
成される。
音声入力手段13が音声を入力し符号化して情報記憶手
段15に記録する。記録された音声情報は、通信手段1
6によりネットワーク3を介してホスト2に送信され
る。ホスト2では、通信手段26が端末1より送信され
た音声情報を受信し、音声認識手段28が受信した音声
情報を認識して文字情報に変換する。通信手段26はそ
の文字情報を端末1に送信する。端末1上に実現される
機能及びホスト2上に実現される機能は、各々の内部に
設けられた演算処理手段17及び演算処理手段27が実
行するプログラム171及び271で実現されている。
テム構成において、音声認識のための処理は、ネットワ
ーク3上のいずれかに設置されている、ハードウェア規
模が十分に大きなホスト2で行われるので、端末1のハ
ードウェア規模に関係なく、計算処理量が多い高度な音
声認識手法を利用することが可能である。
ムは以上のように構成されているので、生の音声信号の
情報量は大きく、この音声信号を符号化してネットワー
ク3に送信すると、ネットワーク3の負荷が増大すると
いう課題があった。
報量を減らすことも可能であるが、情報量の圧縮に伴う
復号化後の音声に品質劣化があるため、圧縮前の音声信
号の音声認識の精度に比べて、復号後の音声信号の音声
認識の精度が大幅に低下するという課題があった。
課題に対して、特開平3−132797号公報では、端
末で、入力音声から音素又は音節を抽出し、これらの記
号列を中央処理装置に送信し、中央処理装置で、送信さ
れた記号列から単語辞書を使用して入力音声が示す単語
や文を認識している。この記号列の伝送量は相当少ない
ために、ネットワーク3の負荷は小さくなると共に、圧
縮による精度低下は解消できるが、入力音声から抽出さ
れた音素又は音節には、認識時の誤りが含まれるため
に、入力音声が文章等の大語彙からなる音声の場合に
は、一般的な単語辞書を使用した認識結果に十分な精度
が得られないという課題があった。
めになされたもので、ネットワーク3の負荷が小さく、
文章等の大語彙からなる入力音声の場合にも、認識精度
の高い音声認識システムを得ることを目的とする。
システムは、ネットワークを介して接続された端末とホ
ストからなるものにおいて、上記端末が、入力した音声
信号から、類似の状態が共有化された音素HMMを記憶
した音響モデルを使用し、基本単位の列を抽出して上記
ホストに送信し、上記ホストが、基本単位の列が示す誤
認識の確率を記憶した差分モデルと、単語の連鎖の出現
確率を記憶した言語モデルを使用して、受信した上記基
本単位の列に整合する単語列を求め、そのテキストを上
記端末に送信し、上記端末が受信したテキストを表示す
るものである。
がユーザからの指示に基づき表示しているテキストを修
正するものである。
が、表示しているテキストを他の端末又は他のホストに
送信するものである。
単位として音素を使用するものである。
単位として音節を使用するものである。
単位として音素HMMの並びで表現されるサブワードを
使用するものである。
が、ユーザからの音声を入力しディジタル化された音声
信号を出力する音声入力手段と、上記音声信号から、類
似の状態が共有化された音素HMMを記憶した音響モデ
ルを使用して、基本単位の列を抽出する音声認識手段
と、抽出された上記基本単位の列をホストに送信すると
共に、上記ホストから送信されたテキストを受信する通
信手段と、受信した上記テキストを表示する表示手段と
を備えたものである。
認識手段が、音声信号を入力して、特徴パラメータ時系
列と短時間パワー時系列を抽出する音声分析手段と、上
記短時間パワー時系列に基づき、音声パワーの存在する
可能性の高い音声区間を検出して、上記音声区間内の特
徴パラメータ時系列を出力する音声区間検出手段と、類
似の状態が共有化された音素HMMを記憶した音響モデ
ルと、この音響モデルに記憶されている音素HMMの組
合せの中から、上記音声区間検出手段が出力した特徴パ
ラメータ時系列に整合する基本単位の列を抽出するビタ
ビデコーダとを備えたものである。
トが、端末から送信された基本単位の列を受信すると共
に、求めたテキストを上記端末に送信する通信手段と、
基本単位の列が示す誤認識の確率を記憶した差分モデル
と、単語の連鎖の出現確率を記憶した言語モデルを使用
して、受信した上記基本単位の列に整合する単語列を求
め、テキストとして出力するテキスト変換手段とを備え
たものである。
スト変換手段が、基本単位の列が示す誤認識の確率を記
憶した差分モデルと、テキストを構成する単語の連鎖の
出現確率を記憶した言語モデルと、受信した基本単位の
列を入力し、上記差分モデルが記憶した基本単位の列が
示す誤認識の確率と、上記言語モデルが記憶したテキス
トを構成した単語の連鎖の出現確率に基づき、上記基本
単位の列に整合する単語列を求め、テキストとして出力
するスタックデコーダとを備えたものである。
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識システムの構成を示すブロック図である。図にお
いて、18は端末1において、音声入力手段13からの
文章等の大語彙からなる音声を認識して、音節を基本単
位とした音節列を求める音声認識手段で、29はホスト
2において、通信手段26で受信した端末1からの音節
列を入力しテキストを求めるテキスト変換手段であり、
その他の構成は、従来の図4における構成と同等のもの
である。
構成を示すブロック図である。図において、181は音
声入力手段13によりディジタル化された音声信号、1
82は音声信号181を分析し、特徴パラメータ時系列
並びに短時間パワーを抽出する音声分析手段、183は
音声分析手段182の出力から、そのうちの短時間パワ
ーに基づいて音声パワーの存在する時間区間を検出し、
当該音声区間の特徴パラメータ時系列184を出力する
音声区間検出手段、184は音声区間検出手段183に
よって切り出された音声区間の特徴パラメータ時系列、
185は特徴パラメータ時系列184を入力し音声認識
結果として、音節を基本単位とした音節列187を出力
するビタビデコーダ、186はビタビデコーダ185で
用いられる音響モデルである。
29の構成を示すブロック図である。図において、29
1は通信手段26が受信した音節列、292は音節列2
91を入力しテキスト295を出力するスタックデコー
ダ、293はスタックデコーダ292が参照する差分モ
デル、294はスタックデコーダ292が参照する言語
モデルである。
からの文章等の大語彙からなる音声が端末1の音声入力
手段13に入力されると、音声入力手段13によりディ
ジタル化された音声信号が出力され音声認識手段18に
送られる。音声認識手段18は、後述するように音声信
号を分析し音節を基本単位とした音節列187を抽出す
る。音声認識手段18により抽出された音節列187
は、通信手段16により、ネットワーク3を介してホス
ト2の通信手段26に送信される。
スト2の通信手段26で受信されてテキスト変換手段2
9に送られる。テキスト変換手段29は、この音節列1
87を入力し、後述のようにして、端末1で入力した音
声信号に対するテキスト295を出力する。通信手段2
6は、テキスト変換手段29が出力したテキスト295
をネットワーク3に送信する。
からテキスト295を受信する。受信されたテキスト2
95は表示手段11に表示され、ユーザは表示されたテ
キスト295により音声認識結果を確認する。表示され
ているテキスト295に誤りがあれば、ユーザからの指
示を入力手段12が入力し、演算処理手段17により修
正処理が行われる。ユーザは、送信されたテキスト29
5又は修正されたテキスト295を、通信手段16によ
りネットワーク3を経由して、図示されていない他のユ
ーザの端末1や他のホスト2に送信する。
について説明する。音声入力手段13から出力された音
声信号181は、音声分析手段182に入力される。音
声分析手段182は、音声信号181を入力して、例え
ば10ms毎に特徴パラメータとしてメルケプストラム
係数を抽出する。また、同時に10ms毎に音声区間検
出のため短時間パワー時系列を抽出する。これらの時系
列は音声区間検出手段183に出力される。ここでは、
特徴パラメータとしてメルケプストラム係数を抽出して
いるが、メルケプストラム係数とデルタメルケプストラ
ム係数の組合せを抽出しても良い。
時系列に基づいて、無音区間や非音声区間を除き、音声
パワーの存在する可能性の高い音声区間を検出し、この
検出された音声区間内の特徴パラメータの時系列184
を出力する。音響モデル186は、前後の音素環境に依
存する環境依存型の音素HMM(Hidden Mar
kov Model)からなる。音素HMMは日本語の
全音素をカバーするように設計されているが、決定木に
より類似の状態を共有するような構造となっている。こ
のように、音響モデル186に共有化された音素HMM
を使用したことにより、所要のメモリは比較的小さく、
端末1のハードウェア規模が小さくて済む。
音素はleft−to−rightに並んだ1〜3個の
状態からなっており、各状態は混合ガウス分布で示され
る出力確率を持っている。テストデータに対して、混合
ガウス分布の出力確率が類似している状態は、共通の混
合ガウス分布を持たせることにより共有化している。各
状態のどれとどれを共有化するかは、決定木を使用した
クラスタリングにより決定する。この決定木を使用する
方法は、決定木上に置かれた質問に従い、大まかな音素
環境から出発し、詳細な音素環境にいたるまで音素環境
を変化させることにより、決定木の根の箇所における最
大の共有化から出発し、木の枝をたどることにより共有
化を分割していくものである。
6内に記憶された音素HMMのあらゆる組み合わせの中
から、特徴パラメータ時系列184に最も良く整合する
音素列187を抽出する。これは動的計画法の一種であ
るビタビアルゴリズムで効率的に実現されている。この
ようにして、ビタビアルゴリズムで得られた最良の音素
列は、音節を基本単位とした音節列187に変換されて
出力される。この音素列から音節列の変換は、音素の記
号列の中で母音(aiueo)、撥音(N)、促音
(Q)に着目して、例えば、「watasiwaabe
tomoosimasu」という音素列を、母音、撥
音、促音を1つだけ含む音節列「wa/ta/si/w
a/a/be/to/mo/o/si/ma/su」と
いう音節列に区切るものである。
ーチ手法を用いて計算回数を削減しているため、演算量
が比較的少なくて済んでいる。音声区間の始端から終端
にかけて行う各フレームのビタビ演算では、始端から当
該フレームまでに選択された経路に沿って蓄積された累
積尤度が最も高くなるように状態遷移を選択するが、こ
のビームサーチ手法では、各フレームのビタビ演算の際
に、累積尤度が閾値以下である経路を枝刈りすることに
より経路演算を削減している。
音節を基本単位とした音節列の認識処理で、言語的な処
理を含まないために、すなわち、連鎖の統計量を使用し
て、ある音節の次に現れる確率の高い音節を求めていく
処理を含まないために、演算量が少なく、高速のCPU
による演算処理手段17を備えた端末1で十分高速な処
理が可能である。
を説明する。差分モデル293は音節列が示す誤認識の
確率を記憶したモデルである。誤認識のパターンとし
て、音節の置換、挿入、脱落があり、音節の置換、挿
入、脱落の確率が差分モデル293内に記憶されてい
る。これらの確率は、音声データベースに集められた音
声を認識して得られる音声認識結果の基本単位の列(音
節列)と、音声データベースに付けられている正解の基
本単位の列(音節列)を比べて、正解に対する認識結果
における基本単位(音節)の置換、挿入、脱落をカウン
トすることにより推定する。
単語の連鎖の出現確率が記憶されている。単語の連鎖と
してはn単語の連鎖を用い、当該単語連鎖の出現確率と
して記憶されている。この単語連鎖の出現確率は、対象
と類似した文例を多数集めたコーパスから推定される。
このコーパスは、電子化されたべた書きの文例に対し
て、単語連鎖の統計量を求めるために、予め単語間を分
割して記憶したものである。この実施の形態では、nは
1から3の範囲の値を取る。
は、新聞記事等の一般のテキストを対象としているた
め、数百Mバイトの記憶容量が必要であるが、ホスト2
上に設置していることにより、言語モデル294を全て
メモリ上に展開して処理してもメモリ上の問題は生じな
い。
CPUを用いているので、処理時間は実用上十分な高速
処理が可能であり、音声認識処理システムとして応答性
の問題も生じない。スタックデコーダ292は、音節列
291を入力して、差分モデル293に記憶された音節
の誤認識の確率と、言語モデル294に記憶された単語
連鎖の確率を加味して、音節列291に最も良く整合す
る単語列を求め、これをテキスト295として出力す
る。
位としているが、音素を基本単位としても良い。この場
合、端末1から、ビタビデコーダ185がビタビアルゴ
リズムで求めた最良の音素列、例えば、「watasi
waabetomoosimasu」という音素列をそ
のまま送信し、ホスト2では、スタックデコーダ292
が、受信した音素列を入力し、差分モデル293に記憶
された音素の誤認識の確率と、言語モデル294に記憶
された単語連鎖の確率を加味して、受信した音素列に最
も良く整合する単語列を求め、これをテキスト295と
して出力する。
代わりに、音素の並びで表現されるサブワードを基本単
位としても良い。この場合、端末1から、ビタビデコー
ダ185がビタビアルゴリズムで求めた最良の音素列、
例えば、「watasiwaabetomoosima
su」という音素列を、「watasiwa/abet
o/moosimasu」というサブワード列に変換し
て送信し、ホスト2では、スタックデコーダ292が、
受信したサブワード列を入力し、差分モデル293に記
憶されたサブワードの誤認識の確率と、言語モデル29
4に記憶された単語連鎖の確率を加味して、受信したサ
ブワード列に最も良く整合する単語列を求め、これをテ
キスト295として出力する。
を使用した場合を比較すると、差分モデル293に基本
単位の置換、挿入、脱落の確率が記憶されているとき
は、長い単位の方が、すなわち、音素より音節、音節よ
りサブワードの方が、広範囲の文脈を考慮した認識誤り
に対処できる。
ば、端末1の音声認識手段18が、小規模な音響モデル
186を参照して、基本単位の列(音素列、音節列、又
はサブワード列)を求めて、ネットワーク3を介してホ
スト2に送信し、ホスト2では、受信した基本単位の列
を、差分モデル293と大きな記憶容量を持つ精度の高
い言語モデル294を参照して、テキスト295に変換
するようにしているので、端末1とホスト2間のデータ
転送量が小さいためにネットワーク3の負荷が小さく、
ハードウェア規模の小さい端末1に入力された音声が、
文章等の大語彙からなる音声の場合にも、高速かつ認識
精度の高い音声認識システムを得ることができるという
効果が得られる。
ユーザからの指示に基づき表示しているテキストを修正
することにより、ホストから送信された誤認識の結果を
訂正することができると共に、端末が、表示しているテ
キストを他の端末又は他のホストに送信することによ
り、ホストからの認識結果を他の端末又は他のホストに
通知でき、認識結果を共有化できるという効果が得られ
る。
単位として音素、音節、又はサブワードを使用すること
により、ネットワークの負荷を小さくできると共に、長
い単位を使用した場合には、広範囲の文脈を考慮した認
識誤りに対処できるという効果が得られる。
が、入力した音声信号から、類似の状態が共有化された
音素HMMを記憶した音響モデルを使用し、基本単位の
列を抽出してホストに送信し、ホストが、基本単位の列
が示す誤認識の確率を記憶した差分モデルと、単語の連
鎖の出現確率を記憶した言語モデルを使用して、受信し
た基本単位の列に整合する単語列を求め、そのテキスト
を端末に送信し、端末が受信したテキストを表示するこ
とにより、ネットワークの負荷が小さく、端末に入力さ
れた音声が、文章等の大語彙からなる音声の場合にも、
高速かつ認識精度の高い音声認識システムを得ることが
できるという効果がある。
示に基づき表示しているテキストを修正することによ
り、ホストから送信された誤認識の結果を訂正すること
ができるという効果がある。
テキストを他の端末又は他のホストに送信することによ
り、ホストからの認識結果を他の端末又は他のホストに
通知でき、認識結果を共有化できるという効果がある。
使用することにより、ネットワークの負荷を小さくでき
るという効果がある。
使用することことにより、ネットワークの負荷を小さく
できるという効果がある。
MMの並びで表現されるサブワードを使用することによ
り、ネットワークの負荷を小さくできると共に、広範囲
の文脈を考慮した認識誤りに対処できるという効果があ
る。
テムの構成を示すブロック図である。
の構成を示すブロック図である。
手段の構成を示すブロック図である。
ク図である。
手段、12 入力手段、13 音声入力手段、14 音
声出力手段、15 情報記憶手段、16 通信手段、1
7 演算処理手段、18 音声認識手段、21 表示手
段、22 入力手段、23 音声入力手段、24 音声
出力手段、25 情報記憶手段、26通信手段、 27
演算処理手段、29 テキスト変換手段、171 プ
ログラム、271 プログラム、181 音声信号、1
82 音声分析手段、183音声区間検出手段、184
特徴パラメータ時系列、185 ビタビデコーダ、1
86 音響モデル、187 音節列、291 音節列、
292 スタックデコーダ、293 差分モデル、29
4 言語モデル、295 テキスト。
Claims (10)
- 【請求項1】 ネットワークを介して接続された端末と
ホストからなる音声認識システムにおいて、 上記端末が、入力した音声信号から、類似の状態が共有
化された音素HMM(Hidden Markov M
odel)を記憶した音響モデルを使用し、基本単位の
列を抽出して上記ホストに送信し、 上記ホストが、基本単位の列が示す誤認識の確率を記憶
した差分モデルと、単語の連鎖の出現確率を記憶した言
語モデルを使用して、受信した上記基本単位の列に整合
する単語列を求め、そのテキストを上記端末に送信し、 上記端末が受信したテキストを表示することを特徴とす
る音声認識システム。 - 【請求項2】 端末がユーザからの指示に基づき表示し
ているテキストを修正することを特徴とする請求項1記
載の音声認識システム。 - 【請求項3】 端末が、表示しているテキストを他の端
末又は他のホストに送信することを特徴とする請求項1
又は請求項2記載の音声認識システム。 - 【請求項4】 基本単位として音素を使用することを特
徴とする請求項1記載の音声認識システム。 - 【請求項5】 基本単位として音節を使用することを特
徴とする請求項1記載の音声認識システム。 - 【請求項6】 基本単位として音素HMMの並びで表現
されるサブワードを使用することを特徴とする請求項1
記載の音声認識システム。 - 【請求項7】 端末が、 ユーザからの音声を入力しディジタル化された音声信号
を出力する音声入力手段と、 上記音声信号から、類似の状態が共有化された音素HM
Mを記憶した音響モデルを使用して、基本単位の列を抽
出する音声認識手段と、 抽出された上記基本単位の列をホストに送信すると共
に、上記ホストから送信されたテキストを受信する通信
手段と、 受信した上記テキストを表示する表示手段とを備えたこ
とを特徴とする請求項1記載の音声認識システム。 - 【請求項8】 音声認識手段が、 音声信号を入力して、特徴パラメータ時系列と短時間パ
ワー時系列を抽出する音声分析手段と、 上記短時間パワー時系列に基づき、音声パワーの存在す
る可能性の高い音声区間を検出して、上記音声区間内の
特徴パラメータ時系列を出力する音声区間検出手段と、 類似の状態が共有化された音素HMMを記憶した音響モ
デルと、 この音響モデルに記憶されている音素HMMの組合せの
中から、上記音声区間検出手段が出力した特徴パラメー
タ時系列に整合する基本単位の列を抽出するビタビデコ
ーダとを備えたことを特徴とする請求項7記載の音声認
識システム。 - 【請求項9】 ホストが、 端末から送信された基本単位の列を受信すると共に、求
めたテキストを上記端末に送信する通信手段と、 基本単位の列が示す誤認識の確率を記憶した差分モデル
と、単語の連鎖の出現確率を記憶した言語モデルを使用
して、受信した上記基本単位の列に整合する単語列を求
め、テキストとして出力するテキスト変換手段とを備え
たことを特徴とする請求項1記載の音声認識システム。 - 【請求項10】 テキスト変換手段が、 基本単位の列が示す誤認識の確率を記憶した差分モデル
と、 テキストを構成する単語の連鎖の出現確率を記憶した言
語モデルと、 受信した基本単位の列を入力し、上記差分モデルが記憶
した基本単位の列が示す誤認識の確率と、上記言語モデ
ルが記憶したテキストを構成した単語の連鎖の出現確率
に基づき、上記基本単位の列に整合する単語列を求め、
テキストとして出力するスタックデコーダとを備えたこ
とを特徴とする請求項9記載の音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000000987A JP2001195087A (ja) | 2000-01-06 | 2000-01-06 | 音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000000987A JP2001195087A (ja) | 2000-01-06 | 2000-01-06 | 音声認識システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001195087A true JP2001195087A (ja) | 2001-07-19 |
Family
ID=18530252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000000987A Abandoned JP2001195087A (ja) | 2000-01-06 | 2000-01-06 | 音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001195087A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030011459A (ko) * | 2001-08-03 | 2003-02-11 | 와이더덴닷컴 주식회사 | 분산형 멀티모달 시스템 |
WO2004029933A1 (en) * | 2002-09-25 | 2004-04-08 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
JP2006521578A (ja) * | 2003-03-26 | 2006-09-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識システム |
US7328155B2 (en) | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
US7478046B2 (en) | 2001-06-20 | 2009-01-13 | Nec Corporation | Server-client type speech recognition apparatus and method |
KR101002135B1 (ko) | 2003-12-27 | 2010-12-16 | 주식회사 케이티 | 음절 음성인식기의 음성인식결과 전달 방법 |
JP2011164175A (ja) * | 2010-02-05 | 2011-08-25 | Nippon Hoso Kyokai <Nhk> | 言語モデル生成装置、そのプログラムおよび音声認識システム |
US10319373B2 (en) | 2016-03-14 | 2019-06-11 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, computer program product, and recognition system |
JP2020527253A (ja) * | 2017-07-10 | 2020-09-03 | エスシーティアイ ホールディングス、インク | 音節に基づく自動音声認識 |
-
2000
- 2000-01-06 JP JP2000000987A patent/JP2001195087A/ja not_active Abandoned
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7478046B2 (en) | 2001-06-20 | 2009-01-13 | Nec Corporation | Server-client type speech recognition apparatus and method |
KR20030011459A (ko) * | 2001-08-03 | 2003-02-11 | 와이더덴닷컴 주식회사 | 분산형 멀티모달 시스템 |
WO2004029933A1 (en) * | 2002-09-25 | 2004-04-08 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
US7184957B2 (en) | 2002-09-25 | 2007-02-27 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
US7328155B2 (en) | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
JP2006521578A (ja) * | 2003-03-26 | 2006-09-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識システム |
KR101002135B1 (ko) | 2003-12-27 | 2010-12-16 | 주식회사 케이티 | 음절 음성인식기의 음성인식결과 전달 방법 |
JP2011164175A (ja) * | 2010-02-05 | 2011-08-25 | Nippon Hoso Kyokai <Nhk> | 言語モデル生成装置、そのプログラムおよび音声認識システム |
US10319373B2 (en) | 2016-03-14 | 2019-06-11 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, computer program product, and recognition system |
JP2020527253A (ja) * | 2017-07-10 | 2020-09-03 | エスシーティアイ ホールディングス、インク | 音節に基づく自動音声認識 |
JP7295839B2 (ja) | 2017-07-10 | 2023-06-21 | エスシーティアイ ホールディングス、インク | 音節に基づく自動音声認識 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
US7657430B2 (en) | Speech processing apparatus, speech processing method, program, and recording medium | |
US5333275A (en) | System and method for time aligning speech | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
EP1055226B1 (en) | System for using silence in speech recognition | |
KR20170011636A (ko) | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
KR20060050361A (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
US7653541B2 (en) | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech | |
US6502072B2 (en) | Two-tier noise rejection in speech recognition | |
JP2001195087A (ja) | 音声認識システム | |
US11043212B2 (en) | Speech signal processing and evaluation | |
JP2012255867A (ja) | 音声認識装置 | |
KR100474253B1 (ko) | 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체 | |
JP2975542B2 (ja) | 音声認識装置 | |
Thalengala et al. | Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database. | |
JP3917880B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2975540B2 (ja) | 自由発話音声認識装置 | |
CN114255758A (zh) | 口语评测方法及装置、设备以及存储介质 | |
JP2003345383A (ja) | 音声認識装置、音声認識方法および音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20070323 |