JPH0756594A - 不特定話者音声認識装置およびその方法 - Google Patents

不特定話者音声認識装置およびその方法

Info

Publication number
JPH0756594A
JPH0756594A JP6185054A JP18505494A JPH0756594A JP H0756594 A JPH0756594 A JP H0756594A JP 6185054 A JP6185054 A JP 6185054A JP 18505494 A JP18505494 A JP 18505494A JP H0756594 A JPH0756594 A JP H0756594A
Authority
JP
Japan
Prior art keywords
phoneme
reference pattern
word
recognition
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6185054A
Other languages
English (en)
Inventor
Hidetaka Miyazawa
秀毅 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Publication of JPH0756594A publication Critical patent/JPH0756594A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 単語の発声を正確に認識できるようにした。 【構成】 不特定話者の発声がマイクロフォン1を通じ
て電気信号に変換される。その電気信号はアンプ2で増
幅され、A/D変換器3でデジタル信号変換される。そ
の信号は窓関数機能発生器4、FTアナライザ5、パワ
ースペクトル6を介して音素認識部7に入力される。音
素認識部7では入力された信号を時系列の多次元離散特
徴ベクトルに変換する。辞書8には単語が音素列の型で
記憶されるとともに、全ての単語に対して音素の表音の
形で表現された基準パターンが登録される。音素認識部
7で認識された音素が辞書8の基準パターンと比較され
とき、その音素の1個はマッチングスコアとして数式で
計算される。そして、最大マッチングスコアが得られる
基準パターンのうちの1個は認識単語出力部11から出
力される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、高度の音声認識の可
能な(NN)(神経回路網、Neural Network)および/
またはDPマッチング(動的計画法、Dynamic Programm
ing)或いは、DTW(時間正規化、Dynamic Time Warp
ing)技術を使用して、不特定話者により発声された分
離音声も認識できる不特定話者音声認識装置およびその
方法に関する。
【0002】
【従来の技術】日本においては、1983年8月発行の
「情報処理」(Information Processing)24巻8号
(Volume 24、No.8)に、ナカツ リョウヘイ(横須
賀電気通信研究所、Yokosuka Electric Communication
Laboratory)の日本語の論文として、さきに提出された
音声認識技術の実施が報告されている。
【0003】米国(合衆国)特許第4、637、045
号は、上記音声認識システムが応用された制御装置の一
つを例示している。
【0004】
【発明が解決しようとする課題】人間の発声した音声
を、コンピュータ等の情報処理装置に認識させる”音声
認識”において、まず、単語を認識させることが基本と
なる。この単語認識方法にDPマッチングと言われる手
段がある。このDPマッチングは入力パターンと標準パ
ターンのマッチングを行う方法で、以下このDPマッチ
ングについて簡単に説明する。
【0005】単語認識を行う際、音声波形はある時間間
隔で標本化され、スペクトル等の多次元特徴ベクトルの
時系列に変換されてから取り扱われる。また、同様に認
識の対象となる単語を多次元特徴ベクトルの時系列に変
換しておき、これらを基準パターンとしてコンピュータ
に登録しておく。認識過程において、入力された特徴ベ
クトル時系列と基準パターンの特徴ベクトルの時系列の
類似度を全て基準パターンについて求め、一番類似して
いる基準パターンを認識単語として出力する。しかし、
一般的に入力された特徴ベクトル時系列と基準パターン
の特徴ベクトル時系列を直接そのまま比較することはで
きない。というのは、人間がある文章なり単語なりを発
声する時間の長さは個人差があり、また、同じ人が同じ
言葉を発声しても日により気分により大きく変動するか
らである。しかも、この発声時間の伸縮は一様でなく、
非線形に変動する。DPマッチング法とは、入力された
音声の特徴ベクトル時系列が基準パターンの特徴ベクト
ル時系列と最も良く一致するように動的計画法(DP)
を用いて時間軸を変換し、その後類似度を求める手段で
ある。
【0006】また、入力された特徴ベクトル時系列と基
準パターンの時系列を比較して単語認識を行うのではな
く、入力された特徴ベクトル時系列から一旦音素の認識
を行い、その後音素表記された基準パターンと音素認識
結果とをDPマッチングすることにより、単語認識を行
う手段もある。音素とは、例えば「赤い(AKAI)」
という単語の「A」、「K」、「A」、「I」のことで
ある。音素認識の手段の一つに神経回路網(ニューラル
ネットワーク)を用いた手段がある。これはどの特徴ベ
クトルがどの音素に対応しているかを予めニューラルネ
ットワークに学習させておくことにより、入力された特
徴ベクトルのそれぞれの音素の確からしさ(スコア)を
得る手段である。
【0007】入力された特徴ベクトル時系列と、基準パ
ターンの特徴ベクトル時系列を用いてDPマッチングす
る場合、言うまでもなく、基準パターンの特徴ベクトル
時系列が認識対象単語毎に必要となる。従って、認識対
象単語が変更されたり、増加されたりした場合にその都
度基準パターンを変更したり増加したりしなければなら
ない。また、基準パターンは特徴ベクトル時系列である
ため、これを構築するには実際の音声を集め、基準パタ
ーンとなる特徴ベクトル時系列を作成しなければならず
非常に手間がかかる問題があった。さらに、ニューラル
ネットワークを用いてまず音素認識をし、その音素認識
の結果(一番確からしい音素)と、音素の時系列で記述
されている基準パターンとを用いてDPマッチングする
場合も同様な問題点が生じる。この手段は特徴ベクトル
時系列を音素ラベルに置き換えたものと解釈でき、どの
音素がどれくらいの長さでその単語の中に存在している
のかという情報(継続時間情報)を各単語にもたせる必
要がある。認識対象単語を変更する場合、正確な継続時
間情報を得るためには、やはり、実際の音声を集めなけ
ればあらない問題がある。
【0008】この発明の目的は、NNおよびDTWのよ
うな特殊な技術を使用して単語の発声をさらに正確に認
識することのできるように改良された不特定話者音声認
識装置およびその方法を提供するにある。
【0009】
【課題を解決するための手段および作用】この発明は、
上記目的を達成するために、(a)不特定話者による発
声を電気信号に入力するための音声入力部と、(b)上
記音声入力部から上記電気信号を受信し、上記電気信号
を時系列の多次元離散特徴ベクトルに変換するための特
徴抽出部と、(c)上記時系列の多次元離散特徴ベクト
ルを受け取り、上記各ベクトルをそれにより計算した時
系列の音素識別スコアに変換する音素認識部と、(d)
認識しようとする各単語に対して基準パターンを前もっ
て記憶するように構成され、各基準パターンにはその発
声の単一継続時間の長さを有する少なくとも1個の音素
ラベルを有する辞書と、(e)予め定められたDPマッ
チング技術を使用して、上記音素認識部から引き出され
た上記入力した音素識別スコア時系列を上記辞書に記憶
された各基準パターンと比較され、上記識別スコア時系
列に最大マッチングスコアを得る上記1個の基準パター
ンを単語の認識結果とする単語認識部と、(f)上記単
語のうち少なくとも1個の単語認識結果として上記単語
認識部によりコード化した形で出力する認識単語出力部
とを具備するものである。
【0010】上記の目的を達成するためにさらに、この
発明は、(a)不特定話者による発声を電気信号に入力
し、(b)上記電気信号を受信し、上記電気信号を多次
元離散特徴ベクトルの時系列に変換し、(c)上記多次
元離散特徴ベクトルの時系列を受信し、上記ベクトルの
各々を音素識別スコア時系列に変換し、(d)認識しよ
うとする各単語に対し前もって基準パターンを記憶する
ように構成した辞書を具備し、各基準パターンは単一の
継続時間長を有する少なくとも1個の音素ラベルを有
し、(e)前もって定められたDPマッチング技術を利
用して上記音素認識部から引き出された上記入力した音
素識別スコアの時系列と上記辞書に記憶された各基準パ
ターンとを比較し、これにより、上記音素識別スコア上
記時系列に最大マッチングスコアを得る上記基準パター
ンにうちの1個が単語認識の結果であり、(f)上記単
語のうちの1個を上記単語認識としてそのコード化した
形で出力するようにしたものである。
【0011】
【実施例】以下この発明に対する理解を容易にするため
に図面に基づいて説明する。図1はこの発明にかかる音
声認識装置の第1実施態様を示すものである。図1に示
すように、マイクロフォン1は不特定話者の発声を拾っ
て電気信号に変換するために用いられる。アンプ2は、
変換された電気信号を正常な可聴レベルに増幅するため
に用いられる。この発明にかかる第1実施態様におい
て、マイクロフォン1とアンプ2は電話機から構成され
る。
【0012】A/D変換器3は、アナログ増幅信号をサ
ンプリングして、対応するデジタル信号に変換するため
に用いられる。窓関数機能発生器4は、デジタルフィル
タの一種であるハニング(Hanning)フィルタのような
窓関数を使用して時系列内の各フレーム信号になる。窓
関数機能発生器4からのフレーム信号は、フーリエ変換
(FT)アナザイラ5に転送される。
【0013】FTアナライザ5において、フレーム信号
は、パワースペクトル6に変換される。パワースペクト
ルは、音素認識部7に送られる。辞書8には、認識する
べき単語の音素列が前以て記憶され、以下に述べるよう
な認識が行われる。
【0014】認識しようとする全ての単語に対して音素
の表音の形で表現された基準パターンが辞書8に登録さ
れる。音素表音の形で表された各基準パターンは各音素
の継続時間の長さ情報(例えば、単語「赤い」は「AA
AAAKKKAAAAAAIIII」である)を有する
が、実施例において、全音素に対する全ての継続時間の
長さを、「1」とする(例えば、「赤い」は「AKA
I」なる音素列の形で登録される)。音素認識部7は誤
差逆伝搬型神経回路網により構成される。
【0015】上記神経回路網の一種として、タカミ ジ
ュンイチおよびサガヤマ シゲキ(ATR電話音声研究
所、ATR Interpreting Telephony Research Laboratori
es)著作の「対方式の判別TDNN(Pairwise Discrim
inant TDNN)による音素認識」と題する英文資料に実施
が報告されている。
【0016】さらに、神経回路網の技術は「神経回路網
技術、the Neural Network Architectures」と題し、1
990年のVan Nostrand Reinholdによる版権、Judith
E.Dayhoffによる序文の書籍(その日本における版権
は、日本、東京、アサノ代理店、the Asano Agency,Inc
経由で、ニューヨークのThompson International Publi
shingにより設定された)の第5章により実施報告され
ている。
【0017】上記音素認識部7において使用される神経
回路網は、図2に示すように、入力した時系列の離散的
特徴ベクトルをそれぞれの音素上の識別スコア時系列に
変換する。なお、図2において、各格子状の黒塗りの長
方形の大小形状は出力値の大きさを表している。横軸の
入力音声と縦軸の基準パターンの音素ラベルとのフレー
ムマトリクス(時間に対応する)は、図3ないし図5に
示すように基準パターンの数に従って準備される。つづ
いて、基準パターンKのj番目の音素Pjの出力値(音
素識別スコア)は、神経回路網から出力したiフレーム
に対応する格子点(i,j)上にコピーされる。このコ
ピーは、図3ないし図5に示すように、全基準パターン
中の全ての音素の全てのフレーム(入力した発声の開始
から入力した発声の終了まで)に対して実行される。
【0018】図6において、マッチングスコアgk
(i,j)は、i番目のフレーム入力音素と基準パター
ン音素のj番目の音素との間から数式を使用して導かれ
る。その式を次に示す。
【0019】
【数2】
【0020】ここで、ak(i,j)は、神経回路網の
基準パターンkのj番目の音素のi番目のフレームの出
力値であり、Pは、入力音声の極度の収縮を避けるため
のペナルティ常数である。gk(I,J)は、入力音素
のフレーム数がIで、基準パターンkの音素数がJであ
ると仮定するときの基準パターンkの最大マッチングス
コアを示す。
【0021】上記のようにして、識別スコアは全ての基
準パターンに対して導かれる。最大マッチングスコアを
与える基準パターンのうちの1個は単語認識の結果とし
て出力ブロック10に出力される。
【0022】
【発明の効果】以上述べたように、この発明にかかる不
特定話者音声認識装置およびその方法において、各音素
の継続時間の長さに関する情報を与える必要が生じない
ので、認識しようとする単語の修正および増加が容易に
実行される。さらに、各基準パターン中のフレーム数を
減少させ、これにより、単語の認識速度を向上させるこ
とができる。
【0023】上述の説明は好ましい実施態様に対して成
されたものであるが、特許請求の範囲に定められるべ
き、この発明の範囲を逸脱することなく各種の変更およ
び修正が可能であることは当業者により充分理解される
ものである。
【図面の簡単な説明】
【図1】この発明にかかる第1実施における音声認識装
置のブロック図。
【図2】不特定話者が単語「AKAI(日本語の「赤
い」)」を話したとき図1に示す音素認識部を構成する
神経回路網の出力ベクトルの実例のマトリクス表示系統
説明図。
【図3】図1に示すように「AKAI」で表示され、辞
書に記憶された基準パターンとのマッチングを計算する
実例で、横軸は、図2に示したNNの出力ベクトル系統
と基準パターンの単語AKAIとのマッチングの計算の
実例を示す説明図。
【図4】図1に示すように「AOI」で表示され、辞書
に記憶された基準パターンとのマッチングを計算する実
例で、横軸は、図2に示したNNの出力ベクトル系統と
基準パターンの単語AOIとのマッチングの計算の実例
を示す説明図。
【図5】図1に示すように「SIROI」で表示され、
辞書に記憶された基準パターンとのマッチングを計算す
る実例で、横軸は、図2に示したNNの出力ベクトル系
統と基準パターンの単語SIROIとのマッチングの計
算の実例を示す説明図。
【図6】図3に示した基準パターンの単語「赤い(AK
AI)」の場合におけるDPマッチングスコアの実例を
示す説明図。
【符号の説明】
1…マイクロフォン 2…アンプ 3…A/D変換器 4…窓関数機能発生器 5…FTアナライザ 6…パワースペクトル 7…音素認識部 8…辞書 9…単語認識部 10…出力ブロック 11…認識単語出力部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 (a)不特定話者による発声を電気信号
    に入力するための音声入力部と、 (b)上記音声入力部から上記電気信号を受信し、上記
    電気信号を時系列の多次元離散特徴ベクトルに変換する
    ための特徴抽出部と、 (c)上記時系列の多次元離散特徴ベクトルを受け取
    り、上記各ベクトルをそれにより計算した時系列の音素
    識別スコアに変換する音素認識部と、 (d)認識しようとする各単語に対して基準パターンを
    前もって記憶するように構成され、各基準パターンには
    その発声の単一継続時間の長さを有する少なくとも1個
    の音素ラベルを有する辞書と、 (e)予め定められたDPマッチング(動的計画法)技
    術を使用して、上記音素認識部から引き出された上記入
    力した音素識別スコア時系列を上記辞書に記憶された各
    基準パターンと比較され、上記識別スコア時系列に最大
    マッチングスコアを得る上記1個の基準パターンを単語
    の認識結果とする単語認識部と、 (f)上記単語のうち少なくとも1個の単語認識結果と
    して上記単語認識部によりコード化した形で出力する認
    識単語出力部とを具備する不特定話者音声認識装置。
  2. 【請求項2】 上記“時間”は上記各特徴ベクトルを現
    すフレームの連続を意味し、上記予め定められたマッチ
    ング技術においては、上記iフレーム入力系列音素と上
    記基準パターンのうちの1個のj番号音素との間のマッ
    チングスコアgk(i,j)は次式から求め、 【数1】 ここで、上記iフレーム音素が上記基準パターンkの上
    記j番号音素に対応し、Pが神経回路網から入力した上
    記音素系列の極度の収縮を避けるためのペナルティ常数
    を示すときに、ak(i,j)は上記音素認識部を構成
    する神経回路網の出力値を示し、上記入力系列の音素の
    フレームの上記番号がIであり、上記基準パターンkの
    音素の上記番号がJであるとき、全マッチングスコアa
    k(I,J)が引き出される請求項1記載の不特定話者
    音声認識装置。
  3. 【請求項3】 上記単語認識部は全基準パターンKに対
    する上記全マッチングスコアの中から最大マッチングス
    コアgk(I,J)を得る上記基準パターンkのうちの
    1個を出力する請求項2記載の不特定話者音声認識装
    置。
  4. 【請求項4】 上記音素認識部は誤差逆伝搬型神経回路
    網により構成される請求項1記載の不特定話者音声認識
    装置。
  5. 【請求項5】 上記横軸から得たフレームIのマトリク
    スと縦軸から得たそれぞれの基準パターンを構成する上
    記音素ラベル系列Jとは、基準パターンのにより準備さ
    れ、上記神経回路網の上記i番目のフレームの上記単一
    音素Pjの出力値は上記基準パターンkの上記j番目の
    番号の音素の上記i番目のフレームPjに対応する格子
    点(i,j)にコピーされ、上記準備は全ての基準パタ
    ーンに対して実行され、全ての基準パターンは上記辞書
    に記憶される請求項4記載の不特定話者音声認識装置。
  6. 【請求項6】 上記辞書に記憶された基準パターンのう
    ちの1個の上記音素ラベルは上記単語「AKAI」に対
    する「AKAI」のような一つの連続する時間の長さを
    有する請求項5記載の不特定話者音声認識装置。
  7. 【請求項7】 (a)不特定話者による発声を電気信号
    に入力し、 (b)上記電気信号を受信し、上記電気信号を多次元離
    散特徴ベクトルの時系列に変換し、 (c)上記多次元離散特徴ベクトルの時系列を受信し、
    上記ベクトルの各々を音素識別スコア時系列に変換し、 (d)認識しようとする各単語に対し前もって基準パタ
    ーンを記憶するように構成した辞書を具備し、各基準パ
    ターンは単一の継続時間長を有する少なくとも1個の音
    素ラベルを有し、 (e)前もって定められたDPマッチング(動的計画
    法)技術を利用して上記音素認識部から引き出された上
    記入力した音素識別スコアの時系列と上記辞書に記憶さ
    れた各基準パターンとを比較し、これにより、上記音素
    識別スコア上記時系列に最大マッチングスコアを得る上
    記基準パターンにうちの1個が単語認識の結果であり、 (f)上記単語のうちの1個を上記単語認識としてその
    コード化した形で出力する、各ステップからなる不特定
    話者音声認識方法。
JP6185054A 1993-08-19 1994-08-08 不特定話者音声認識装置およびその方法 Pending JPH0756594A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US108,791 1987-10-15
US08/108,791 US5457770A (en) 1993-08-19 1993-08-19 Speaker independent speech recognition system and method using neural network and/or DP matching technique

Publications (1)

Publication Number Publication Date
JPH0756594A true JPH0756594A (ja) 1995-03-03

Family

ID=22324058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6185054A Pending JPH0756594A (ja) 1993-08-19 1994-08-08 不特定話者音声認識装置およびその方法

Country Status (2)

Country Link
US (1) US5457770A (ja)
JP (1) JPH0756594A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
US8543399B2 (en) 2005-12-14 2013-09-24 Samsung Electronics Co., Ltd. Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04194999A (ja) * 1990-11-27 1992-07-14 Sharp Corp 学習を用いた動的計画法
JPH0728487A (ja) * 1993-03-26 1995-01-31 Texas Instr Inc <Ti> 音声認識方法
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
WO1996037881A2 (en) * 1995-05-26 1996-11-28 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
US5946653A (en) * 1997-10-01 1999-08-31 Motorola, Inc. Speaker independent speech recognition system and method
EP1051701B1 (de) 1998-02-03 2002-11-06 Siemens Aktiengesellschaft Verfahren zum übermitteln von sprachdaten
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6229880B1 (en) 1998-05-21 2001-05-08 Bell Atlantic Network Services, Inc. Methods and apparatus for efficiently providing a communication system with speech recognition capabilities
US6233315B1 (en) 1998-05-21 2001-05-15 Bell Atlantic Network Services, Inc. Methods and apparatus for increasing the utility and interoperability of peripheral devices in communications systems
US6744860B1 (en) 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
JP4517260B2 (ja) * 2000-09-11 2010-08-04 日本電気株式会社 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
WO2002027535A1 (en) * 2000-09-28 2002-04-04 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
US6625600B2 (en) 2001-04-12 2003-09-23 Telelogue, Inc. Method and apparatus for automatically processing a user's communication
US20030149566A1 (en) * 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US8014590B2 (en) * 2005-12-07 2011-09-06 Drvision Technologies Llc Method of directed pattern enhancement for flexible recognition
US9613619B2 (en) * 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
US9792897B1 (en) * 2016-04-13 2017-10-17 Malaspina Labs (Barbados), Inc. Phoneme-expert assisted speech recognition and re-synthesis
US10666565B2 (en) * 2018-06-08 2020-05-26 Citrix Systems, Inc. Method to measure relative QOS gains and to reduce the variance in QOS for similar connections for during bandwidth contention

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870286A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 音声認識装置
US4799261A (en) * 1983-11-03 1989-01-17 Texas Instruments Incorporated Low data rate speech encoding employing syllable duration patterns
US4937872A (en) * 1987-04-03 1990-06-26 American Telephone And Telegraph Company Neural computation by time concentration
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
JP2940933B2 (ja) * 1989-05-20 1999-08-25 株式会社リコー パターン認識方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP4532862B2 (ja) * 2002-09-25 2010-08-25 日本放送協会 音声合成方法、音声合成装置および音声合成プログラム
US8543399B2 (en) 2005-12-14 2013-09-24 Samsung Electronics Co., Ltd. Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms

Also Published As

Publication number Publication date
US5457770A (en) 1995-10-10

Similar Documents

Publication Publication Date Title
JPH0756594A (ja) 不特定話者音声認識装置およびその方法
US6553342B1 (en) Tone based speech recognition
EP0549265A2 (en) Neural network-based speech token recognition system and method
JPS58130393A (ja) 音声認識装置
TW487902B (en) Method and apparatus for mandarin Chinese speech recognition by using initial/final phoneme similarity vector
Naeem et al. Subspace gaussian mixture model for continuous urdu speech recognition using kaldi
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
CN110570842B (zh) 基于音素近似度和发音标准度的语音识别方法及系统
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
Haraty et al. CASRA+: A colloquial Arabic speech recognition application
JP3447521B2 (ja) 音声認識ダイアル装置
Mishra et al. An Overview of Hindi Speech Recognition
Ananthakrishna et al. Kannada word recognition system using HTK
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Hase et al. Speech Recognition: A Concise Significance
JP2813209B2 (ja) 大語彙音声認識装置
Tailor et al. Review on Speech Recognition System for Indian Languages
Thalengala et al. Effect of time-domain windowing on isolated speech recognition system performance
JP2862306B2 (ja) 音声認識装置
JP3029654B2 (ja) 音声認識装置
Mohammed et al. Robust automatic speech recognition system: hmm versus sparse
Ananthakrishna et al. Effect of Time-domain Windowing on Isolated Speech Recognition System Performance
Pieraccini et al. A coarticulation model for continuous digit recognition
JPH0827638B2 (ja) 音素を単位とした音声認識装置
Dav et al. Speech recognition: A Review