JPH07306691A - 不特定話者音声認識装置およびその方法 - Google Patents

不特定話者音声認識装置およびその方法

Info

Publication number
JPH07306691A
JPH07306691A JP6159062A JP15906294A JPH07306691A JP H07306691 A JPH07306691 A JP H07306691A JP 6159062 A JP6159062 A JP 6159062A JP 15906294 A JP15906294 A JP 15906294A JP H07306691 A JPH07306691 A JP H07306691A
Authority
JP
Japan
Prior art keywords
phoneme
word
sequence
recognition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6159062A
Other languages
English (en)
Inventor
Yoshihiro Matsuura
嘉宏 松浦
Toby Skinner
スキナー トビー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Adaptive Solutions Inc
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Adaptive Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd, Adaptive Solutions Inc filed Critical Meidensha Corp
Publication of JPH07306691A publication Critical patent/JPH07306691A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 単語の発声を正確に認識できるようにした。 【構成】 不特定話者の発声がマイクロフォン1を通じ
て電気信号に変換される。その電気信号はアンプ2で増
幅され、A/D変換器3でデジタル信号変換される。そ
の信号は窓関数機能発生器4、FTアナライザ5、パワ
ースペクトル6を介して音素認識部7に入力される。音
素認識部7では入力された信号を時系列の多次元離散特
徴ベクトルに変換する。その特徴ベクトルは複数の候補
に変換され、これによりその複数の音素が複数の候補と
して時系列において複数の音素列を構成する。複数の音
素候補は、辞書8に記憶された各単語に対する各標準音
素列の標準パターンと単語認識部9で比較判断される。
この判断の結果として各単語から少なくとも1個の候補
を音声認識の結果として認識単語出力部11から出力す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、高度の音声認識の可
能な(NN)(神経回路網、Neural Network)および/
またはDPマッチング(動的計画法、Dynamic Programm
ing)(或いは、DTW(時間正規化、Dynamic Time Wa
rping)技術を使用して、不特定話者により発声された
分離音声も認識できる不特定話者音声認識装置およびそ
の方法に関する。
【0002】
【従来の技術】日本においては、1983年8月発行の
「情報処理」(Information Processing)24巻8号
(Volume 24、No.8)に、ナカツ リョウヘイ(横須
賀電気通信研究所、Yokosuka Electric Communication
Laboratory)の日本語の論文として、さきに提出された
音声認識技術の実施が報告されている。
【0003】米国(合衆国)特許第4、637、045
号は、上記音声認識システムが応用された制御装置の一
つを例示している。
【0004】
【発明が解決しようとする課題】前述した論文におい
て、不特定話者単語音声認識装置とは、不特定多数の話
者の音声を対象とする音声認識であると定義されてい
る。不特定話者音声認識を用いれば、電話機を入出力端
末機として多くの人にデータ通信サービスを提供できる
ため、期待は大きい。この音声認識の一つにセグメント
表現音素認識をベースにした単語認識方式がある。この
単語認識方式の問題点の一つとして、フレーム表現から
セグメント表現へ変換する際の精度の問題がある。認識
結果から傾向を得て、その知識を利用した例外的な処理
を講じる場合もあるが、基本的には(1)連続した音素
中に含まれる少数しか連続していない誤認識された音素
を取り除く、(2)連続した音素をかため、一つの音素
で表現する、という処理によって変換が行われる。しか
し、この場合、子音のいくつかは継続時間長が極端に短
いものがあり、それと誤認識されたものとを見極めるこ
とは連続するフレーム数だけからでは難しく、言語的な
情報などが必要となる。また、音素認識からの出力が第
1位の候補のみに限られてしまうため、認識が曖昧にな
り易い音素間の境界での誤認識の影響が大きくなってし
まうという問題がある。
【0005】この発明の目的は、NNおよびDTWのよ
うな特殊な技術を使用して単語の発声をさらに正確に認
識することのできるように改良された、不特定話者音声
認識装置およびその方法を提供するにある。
【0006】
【課題を解決するための手段】この発明は、上記の目的
を達成するために、(a)不特定話者による発声を電気
信号に入力するための音声入力部と、(b)上記音声入
力部から上記電気信号を受信し、上記電気信号を時系列
の多次元離散特徴ベクトルに変換するための特徴抽出部
と、(c)上記時系列の多次元離散特徴ベクトルを受け
取り、上記各ベクトルを第1位から第n位(nは任意の
数を示す)に至る複数の音素の候補に変換する音素認識
部と、(d)上記音素認識部から時系列の音素候補を受
け取り、予め辞書に収められた認識させたい全ての単語
に対する各標準音素列と比較し、上記音素認識部より得
られた音素候補列に最も類似している単語を選ぶ単語認
識部と、(e)上記単語認識部により、上記辞書に記憶
された各単語の標準音素列と音素認識部で得られた音素
候補列との類似度を求めることによって実行された単語
認識の結果として少なくとも1個の単語候補を出力する
ための認識単語出力部とを具備するものである。
【0007】上記の目的を達成するために、さらに、こ
の発明は、(a)不特定話者による発声を電気信号に入
力し、(b)上記電気信号を受信し、上記電気信号を時
系列の多次元離散特徴ベクトルに変換し、(c)上記時
系列の多次元離散特徴ベクトルを受信し、上記各ベクト
ルを第1位から第n位(nは任意の数を示す)に至る複
数の音素候補に変換し、(d)上記時系列の音素候補を
受け取り、予め辞書に収められた認識させたい全ての単
語に対する各標準音素列と比較し、上記音素候補列に最
も類似している単語を単語認識部によって選び、(e)
上記辞書に記憶された各単語の標準音素列と音素候補列
との類似度を求めることによって実行された単語認識の
結果として少なくとも1個の単語候補を出力するように
したものである。
【0008】
【実施例】以下この発明に対する理解を容易にするため
に図面に基づいて説明する。
【0009】第1実施例、 図1はこの発明にかかる音声認識装置の第1実施態様を
示すものである。図1に示すように、マイクロフォン1
は不特定話者の発声を拾って電気信号に変換するために
用いられる。アンプ2は、変換された電気信号を正常な
可聴レベルに増幅するために用いられる。この発明にか
かる第1実施態様において、マイクロフォン1とアンプ
2は電話機から構成される。
【0010】A/D変換器3は、アナログ増幅信号をサ
ンプリングして、対応するデジタル信号に変換するため
に用いられる。窓関数機能発生器4は、デジタルフィル
タの一種であるハニング(Hanning)フィルタのような
窓関数を使用して時系列内の各フレーム信号(フレーム
幅は例えば16ms、フレームシフト幅は例えば12m
sである)に、A/D変換器3からのデジタル信号を分
割し、セグメント化するために用いられる。
【0011】ハニング窓は、Paul A. LynnおよびWolfga
ng Fuerst、による英文発行の「コンピュータを使用し
たデジタル信号処理の基本(Introductory Digital Sig
nalProcessing with Computer Aplications)という題
名、再版は1992年1月、149頁から153頁に実
施状況が示されている。
【0012】次に、窓関数機能発生器4からのデジタル
信号に示されたフレームは、フーリエ変換(FT)アナ
ザイラ5に転送される。
【0013】FTアナライザ5の機能と構造は、Paul
A. LynnおよびWolfgang Fuerst、による英文発行で題名
「コンピュータを使用したデジタル信号処理の基本(In
troductory Digital Signal Processing with Computer
Aplications)、再版は1992年1月、第8章FFT
に記載されている。
【0014】すなわち、FTアナライザ5においては、
信号で示されたフレームは、その周波数についてパワー
スペクトル6を現し、かつ不特定話者の発声を構成する
一連の音素の特性を現すことができる各セグメントに変
換される。ここで「フレーム」とは、例えば、8から2
0ミリセカンド(ms)という著しく短い時間間隔に亘
る各チャンネルを計算し分析する、例えば、FTアナラ
イザ5から引き出された一連の特性ベクトル中の一つを
意味するものである。
【0015】音素認識部7は、発生データ、例えば、パ
ワースペクトル抽出部(以下パワースペクトルと称す)
6から得られる離散型パワースペクトル信号列なるデー
タを順次受け取り、それを「zzzeeeerroooo」のような
音素候補列として認識する。ここで注目すべきことは、す
でに提案した音声認識技術において、音素認識部7で認
識された各音素候補列を使用して、音素認識部7に認識
された各音素候補列と、認識するべき各単語の各音素候
補列を前以て記憶する辞書(データベース)8内に記憶
され、かつ各単語を構成する各音素候補列との間の比較
が、単語認識部9において行われる、その後、比較結果
が最も高い類似度を示すとき、その各音素候補列に対応
する単語は、コード化されたフォーム中で最も高い類似
度を示す。
【0016】詳しくは、音素認識部7は、入力データ
が、非常に短い期間の時間内において、マイクロフォン
1からパワースペクトル6に引き出された入力音声デー
タの特性によって、どの音素に対応するかを、認識す
る。そして、この入力音声データは、窓関数機能発生器
4により決まるそれぞれ短い時間間隔においてマイクロ
フォン1の入力音声信号から切り出される。その結果、
音素認識部7は、その音素が、それぞれの短い時間間隔
の入力音声データ(zzzeeerrooooのようなフレーム表
示)に対応するかを認識することができる。
【0017】次に、図示しない圧縮部は、音素認識部7
の処理の後に設けられ、最終的に「zzzeeeerroooo」→z
eroのような単語のセグメント表示ができるように1回
の各音素候補列を正規の1個の各音素候補列に圧縮する
ものである。ここで注目すべきこととして、バックプロ
パゲーション方式として第2実施例において述べる神経
回路網または対判定時間遅延NN(PD−TDNN)の
ような技術が音素認識部7に応用可能である。
【0018】ここで、先に提案した上記音声認識装置に
戻って、単語認識部9の次の段階は音素認識部7から引
き出された各音素候補列を受け取り、それを辞書8に記
憶された各単語に対する各音素列と比較し、コード化し
た形の単語認識部9の回答として引き出された、各音素
候補列に最も類似な音素列を有する単語を出力する。
【0019】このとき、音素認識部7における認識率が
一般的に、100%には満たない。これを考慮しても、
たとえ音素認識部7からは一般に誤りを含んだ音素列が
出力されるが、それでもマッチング技術を採用する。次
に、このマッチング技術を説明する。
【0020】先に提案した音声認識装置の単語認識部9
において実行した基本アルゴリズムとして、例えば、単
語認識部9が図2に示す2個のアルファベット列Aおよ
びBを比較するとき、各アルファベット列AおよびBの
うち等しいアルファベットはともに枝によって連結され
る。いま、次の要求を満足する最大数の岐があるとする
と、(1)2個の枝は互いに関係がない。(2)1個の
枝のみが1個のアルファベットから引くことができ、そ
れをNとし、各アルファベット列AおよびBの長さをL
AおよびLBとする、各アルファベット列AおよびBと
の間の類似度は、N/LA+N/LBにて与えられる。
【0021】上述の基本アルゴリズムに基づく実際のア
ルゴリズムにおいて、2個のアルファベット列A[i]:i=
1,IおよびB[j]:j=1,Jを図3に示すように、Jは2
次元座標行列S[i][j]の両座標軸に配列される。その
後、S[i][j]を次式に基づいて全て求めれば、S[I][J]の
値が求める枝の数Nとなる。
【0022】 if A[i] = B[j] S[i][j] = S
[i−1][j−1] + 1 else S[i][j] = ma
x(S[i−1][j],S[i][j−1]) ここで、max(a,b)は、aとbの大きい方の値を
表す。
【0023】この技術により、音素の省略、音素の誤っ
た挿入、および/または誤変換が含まれるそれぞれ2個
の音素列間の比較をすることができる。さらに、上述の
技術による比較結果により、単語認識部9は入力音声デ
ータについて、辞書8から得られる音素列と、音素認識
部7から得られる音素候補列とを比較し最も高い類似度
のある単語を認識結果として出力する。
【0024】しかし、すでに述べた技術には問題があ
る、すなわち、図示しない圧縮部はフレーム表現された
音素候補列をセグメント表現された音素候補列に変換す
るためのものであるが、それによって認識率は低下す
る。基本的には、すなわち、図示しない圧縮部は(1)
音素候補列から少数しか連続していない音素を、誤って
認識された音素として除外し、(2)連続する音素候補
列をセグメント化し(圧縮し)セグメント表現の音素列
を得る。しかし、この場合、子音のあるものは、極めて
短い長さの連続する持続時間を有する。フレームの連続
する数だけにより、誤って認識された音素から子音を見
分けることは困難であり、従って、言語情報(例えば、
文章)などを記憶し検索することの必要性は避けられな
いことである。
【0025】さらに、音素(音素の)認識部7の出力は
第1位の候補のみに限定されるので、認識を誤ると、音
素の認識が曖昧になり易い傾向にある各音素間の境界で
大きな影響が生じる。
【0026】図1に示した音声認識装置の第1実施態様
に戻るが、圧縮部は図に示さないが、音素認識部7は、
複数の認識された各音素候補列、すなわち、第1位zzze
eeerroooo、第2位─ssalaoadaauu、第3位…等のよう
なパワースペクトル6で現された時系列離散型フレーム
からの音素認識の結果として音素候補列の第1位から第
n位に亘る複数の音素候補を出力する。
【0027】単語認識部9は、音素認識部7から、第1
位から第n位(nは任意の数)の音素の各候補を同時に
受け取り、上記と同じ技術を使用して辞書8からの各単
語を構成する複数の標準音素列を検索し比較する。
【0028】詳細には、単語認識部9は、音素認識部7
から入力した第1位の候補音素を、第1記憶領域に記憶
され、No.1として登録された標準音素列の音素中の各音
素と比較し、図2および図3に示したマッチング技術に
より岐の数を計算し、カウントされた岐の数はその中に
記憶される。
【0029】例えば、もし比較された各標準音素列の第
1音素が、音素認識部7から引き出された第1位の各標
準音素列の第1音素列と一致するならば、岐の数は図2
から明かのように”1”とカウントされる。
【0030】ここで、もし比較された各標準音素列の第
3音素が比較された各標準音素列の第3音素と一致しな
いが、比較された各標準音素列の第4音素と一致する
と、音素の現在の順位が音素認識部7から引き出された
各標準音素列中の対応する順位の音素と比較されるとき
の岐Aの数は、図3から明かのように、A=B+1とし
てカウントされる。ここでBは、各標準音素列の隣接す
る先行の音素が音素認識部7から入力された各標準音素
列の対応する隣接の先行音素と一致するに至るまで、岐
の数を示している。このようにして、各標準音素列の順
位は各標準音素列の対応する順位と比較されて1個の岐
の作成を決定する。
【0031】一方、音素認識部7から引き出された各標
準音素列の順位のいづれかが、図3に示すように各音素
の対応する順位とも、かつまた、各標準音素列の各隣接
順位とのいづれとも一致しないならば、各岐Cの数はC
=max(D,C)として引き出される。ここで、Dおよ
びEは、頂点Cに最も近接する各矩形の頂点を示し、こ
の頂点Cにより矩形は対応する順位の各音素の両頂点を
もって形成されている。
【0032】岐の数に関する技術に戻るが、岐の数は通
常は上述のようにして算出される。
【0033】 if A[i] = B[j]、 S[i][j] = S[i-1][j-1] + 1 else S[i][j] = MAX(S[i-1][j],S[i][j-1]) ここで、MAX(D,E)は、DおよびEの値から選択されたさ
らに大きな値DまたはEを現し、A[i]:=1からIは、各
標準音素列を現し、B[j]:=1からJは、各候補の中から
いづれかの順位、すなわち、音素認識部7から入力され
た各標準音素列の内の1個を示す。
【0034】このようにして、枝S[I][J]の全カウント
数が単語認識部9のレジスタに一時記憶される。その
後、上述の各音素列についての類似度はすでに述べたよ
うにして計算される。すなわち、N/LA + N/LBであり、
ここでNはS[I][J]を示し。LAは音素列A[i]:=1からIの
長さを示し、LBはB[j]:=1からJの長さを示している。
この類似度はいつでも得られるものであり、類似度の値
は単語認識部9のレジスタに一時的に記憶される。
【0035】これにより、単語認識部9は、音素列の第
1候補が辞書8の第1記憶領域に記憶された標準音素列
を比較され、かつ各音素列の音素候補のうち第n順位が
辞書8の第n番目の記憶領域に記憶された標準音素列を
比較されるに至るまで、各類似度の比較と微分を繰り返
す。
【0036】単語認識部9は、音素認識部7から引き出
された各音素列のうちのいづれか1個に対して最も高い
類似度を有する各標準音素列を備えた辞書8の記憶領域
番号のいづれかに格納された各単語のうち少なくとも1
個の候補を、単語認識の結果として出力ブロック10を
経て認識単語出力部11に出力する。なお、音素認識部
7、辞書8および単語認識部9は、先に提案し技術とは
異なるものであることに注目されたい。
【0037】言い換えると、(1)辞書8に記憶された
各標準音素列は、フレーム形状、すなわち、A[i]:i=1か
らI(図3に示すaaaabbbc)により示されるような各標
準音素列で現される。各音素の連続長さは実際に、特定
話者から発せられた対応する単語の音声データを平均す
ることにより得られ、各単語に対して作成され記憶され
た各音素列は、前以て引き出されたそれぞれの音素に対
する平均の連続長さを基本とし、および/または、各音
素の一般的平均長さを現す表を基本として決定される。
【0038】(2)記述の技術において、単語認識部9
は第1位の候補として音素認識部7から引き出された単
一音素列のみ、すなわち、辞書8に記憶された各標準音
素列を有する単一の候補のみを比較するが、単語認識部
9はマッチングの達成の判断、詳しくは、音素認識部7
から引き出された第1位から第n位に亘る各音素列の1
個が辞書8に記憶されたものと同じであるならば、最高
の類似度が得られるという判断をすることができる。各
音素列がどの順位に至るまで音素認識部7における候補
として使用され得るかは、音素認識における認識および
最終単語の認識がそれぞれ考慮に取り入れられる割合に
よって実験的に判断される。
【0039】この発明にかかる第1実施態様における音
声認識装置に使用される技術では、音素認識部7の出力
として、複数の音素列を第n位の候補まで使用可能であ
る。従って、単語認識部9は、言語情報(好ましい実施
態様において、単一の単語内の音素連結情報)を考慮に
入れた音素認識部7の出力を検索する。その結果、不特
定話者による発声単語のさらに正確な認識ができる。さ
らに、音素認識部7が音素列で現したフレームを音素列
で現したセグメントに変換する必要がなくなるので、圧
縮部において音素列で現わされたセグメントへの変換が
実行されるときに、言語情報の欠陥は発生しなくなる。
【0040】第2実施例、 次に先に示したDPまたはDTWマッチング方法を、こ
の発明の第2実施態様の音声認識装置の説明の前に図4
に基づいて説明する。DTW法は音声認識法の音素認識
に応用できる時間合わせ法の1種であり、かつ、不特定
話者の個々の個性による発声の長さの違いを処理するシ
ステムである。
【0041】DTW技術による音声認識おいては、FT
アナライザ5により抽出された一連の特徴ベクトルと、
各時間において認識される各単語の対応する特徴ベクト
ル(いわゆるテンプレート)との間の距離が図4の2次
元行列から得られ、出発から終点に至る経路が最低の蓄
積距離となるように制限された経路から選択され、最低
蓄積距離を与える単語が単語認識として出力される。
【0042】図4に示す実線は A(A=min(B,C,D)+dA に
より得られる経路を現し、ここで、dAは経路自体の点A
の距離を示している。時間伸縮関数(warping functio
n)を現しており、図4に示した既述のDTW技術は、
1993年4月26日付け、日本電子情報通信会発行
117頁から119頁、タイトル「パターン認識」に記
載されている。
【0043】すなわち、標準パターンの時系列(図4の
縦軸)と時系列(図4の横軸)入力パターンとの間の比
較を実行すると、各フレームの交差点(格子点)を通
り、かつ全体として交差点に最も近い点を接続するルー
トが検索される。そのルートを探すためには、全フレー
ム間の蓄積距離値が最小となる必要がある。そこで、全
距離の最小蓄積値を与える単語が選択されて人により発
声された入力語を判定する。
【0044】ここで、重要なことは、標準パターンの長
さ(すなわち、フレーム数)が各単語により異なるの
で、フレーム間の距離は既述のような長さに依存しなけ
ればならない。
【0045】そこで、フレーム間距離d(i,j),(=d(xi,
aj))はユークリッド距離などを利用して得られる特定単
語の標準パターンは a(={a1,a2……ai………aj})により
示され入力パターンはX(={x1,x2………xi………xj})に
より示される。
【0046】
【数1】
【0047】パターン全体の一致は次のようにして計算
される。
【0048】
【数2】
【0049】上記式において、FはF={c(1),c(2),……
c(k)}で現したルートの点行列を示し、ここで、c(k)=
(i,j)である。このとき、もし、上記式Σω(k)の分母が
Fに依存することなく、N=Σω(k)とする。
【0050】
【数3】
【0051】従って、上記式の一部が加法的となり、D
TW技術が適用される。なお、式において、minは、
格子点(1、1)から最終格子点(I,J)に至る各種
のルートの一致について最小値を得る操作を示し、Σω
(k)はルートの種類による重量の設定を示す。
【0052】これらのルートとは独立に条件Nを作る方
法として、次の制限が設定される。
【0053】(a)傾斜制限の例、対称の形式: Σω(k)=(i(k)-i(k-1)+(j(k)-j(k-1)), N=I+J (b)傾斜制限の他の例、非対称の形式: Σω(k)=│i(k)-i(k-1)│, 0≦│i(k)-i(k-1)│≦2, N=
I. 上述のような制限は傾斜制限と呼ばれる。図4は非対称
形の傾斜制限の例を示す。傾斜制限は対称形の中で行わ
れ、入力パターンと標準パターンとは共に交換される
が、距離中の対象が満足され得なくても、実質的に問題
が起きる事なく、D(X,A)≠D(A,X)のような場合が発生し
てくる。 対称形の傾斜制限に関する詳細な計算方法は次のとおり
である。 g(c(k)=min{g(c(k-1)+d(c(k))・Σω(k)} すなわち、対称形の場合は次式のようになる。
【0054】
【数4】
【0055】上記方程式は漸化式を現し、初期値g(1,1)
=2d(1,1)の条件のもとで計算される。
【0056】さらに、下記の整合窓は極度の一致を避け
るために設定が必要である。すなわち、│i(k)-l(k)│
≦r。時間合わせ距離は、最小距離を与える単語が選択
され、認識の結果から得られるように、D(X<A)=g(I,J)/
(I+J)として引き出すことができる。しかし、DTWに
ついての上述の方法には下記のような欠点がある: (1)毎回それぞれの多次元特徴ベクトルの距離を計算
するためには多くの時間を要する。
【0057】(2)実際の音声データは、テンプレート
を作成するとき、および、いくらかの語彙を修正すると
きに必要となる。このことは音声データの再収集にも必
要である。
【0058】(3)もし前述のDTW技術が、先に提案
した音声認識装置、すなわち、不特定話者音声認識装置
に適用されると、時間的変化を補足し特徴ベクトルを変
化を吸収するために、単語毎に複数のテンプレートを備
えることが必要となり、大きなテンプレートが必要とな
る。
【0059】第2実施態様の構成は図1に示した第1実
施態様の構成と同じである。すなわち、図1において、
パワースペクトル6は、各時点に対する特徴ベクトル
(各音素についてのパワースペクトル列)を音声認識部
7へ転送する。
【0060】音素認識部7は神経回路網により構成さ
れ、1回毎に1フレームづつずらしながら、5個のフレ
ーム特徴ベクトルの集合パッケージを入力する。それか
ら、音素認識部7は、各フレームの中心がどの種類に対
応するかを出力する。その出力については、第1位およ
び第2位の音素認識結果が、図5に示したように単語認
識部9に出力する。
【0061】単語認識部9は、テンプレートと音素認識
の結果の間でDTW技術による計算を実行する。各単語
に対するテンプレートは、特徴ベクトルいは現されてい
ないが、単語を構成する音素が、各音素列の形状と同様
に表示される状態で現されている。各音素の長さは、
(a)実際の単語データを平均するか、または、(b)
第1実施例において述べたように各音素の一般的平均長
さを現す表を基にして判断される。各単語の最終表現
は、例えば、単語「ゼロ(0)」に対しては、単一テン
プレートの表現は 「zzzeeeeerroooo」 となる。
【0062】正常な(または、先に提案した)DTW技
術においては、テンプレートと入力音素との間の比較
は、最小に成されたそれぞれの特徴ベクトルの距離の蓄
積が進められ、かつ音素認識の結果が最終的蓄積距離を
最短とする下降順位の状態となるように実行される。
【0063】第2実施態様においては、入力パターンと
標準パターンとの間の各時点における距離は次の条件で
判定される。
【0064】(1)もし第1位の音素認識候補が対応す
るテンプレートの音素と一致するならば、距離は「0」
と見做される。
【0065】(2)第1位の音素認識候補は一致しない
が、第2位の候補が対応する音素テンプレートと一致す
るならば、その距離は「1」と見做される。
【0066】(3)上記以外では、距離は「2」と見做
される。
【0067】その他の計算は、先のDTW技術と同様に
実行される。従って、蓄積された距離はテンプレート内
の全ての単語から引き出され、その後、単語認識部9は
蓄積距離が単語認識の結果として最小となる単語を出力
する。
【0068】次の表1はDTWマッチング技術を示して
おり、上記(1)、(2)および(3)の各項の条件を
満足する第2実施例において実行されたものであり、実
線の系統で示された経路で作成されたものである。表1
において、横軸は一時系列の標準音素列を示し、縦軸は
音素認識部7から得られた複数の音素候補を示す。
【0069】
【表1】
【0070】本発明者は、不特定話者単語音声認識装置
を開発した。音素認識部7は1種の神経回路網により構
成され、単語認識部9はDTWによる時間合わせ整合技
術を利用した。従って、著しく高い類似性のある単語か
ら成る63の単語語彙に対する認識の割合は、15人の
特定話者の場合には97.95%を示し、15人の特定
話者を除く不特定話者5人の場合には97.97%を示
した。
【0071】単語認識が行われる語彙としては、63の
単語が設定され、それらの単語はパワープラントの監視
の目的に使用されるものである。さらに、単語発声入力
として電話回路網が、その一般的利用について充分考慮
された上に使用される。
【0072】上述のように、63の数の単語が音声認識
のパワープラントの監視への応用を考慮し設定された。
これらの単語は、グループ1(グループ1は28語)、
すなわち、音声認識装置の技術の間の実験的単語と、グ
ループ2(グループ2は35語)、すなわち、実際の語
彙から選択された実際的な単語とに分割される。次の表
2と表3は語彙63語のリストである。
【0073】
【表2】
【0074】
【表3】
【0075】表2と表3において、左の欄の1から63
までは、各単語それぞれの番号、言い換えると、辞書8
内の記憶領域の番号を示す。中間の欄は単語を示し、右
の欄は中間の欄に書かれた単語に対する各音素を示す。
表2、表3において、単語番号1から単語番号28に至
る語はグループ1に属し、番号29から番号63に至る
語はグループ2に属する。
【0076】デジタル音声データは27メルスペクトル
に変換された。音素認識部7は変換されたパワースペク
トルを1フレームづつずらしながら5フレーム入力し、
それに対応する21種類の音素に属する1個及び2個の
音素を第1候補及び第2候補として出力する。
【0077】単語認識部9は、音素認識部7からの第1
候補及び第2候補をDTW技術により辞書8からの先の
用意された単語と比較し、一番目の最大類似度の単語、
二番目の最大類似度の単語、三番目の最大類似度の単語
認識の結果として出力ブロック10に出力した。
【0078】詳しくは、マイクロフォン1およびアンプ
2により信号を電気的に変換した人の音声は、27メル
スペクトルに変換される。すなわち、マイクロフォン1
およびアンプ2により検索された人の音声は、A/D変
換器3により8kHzのサンプリングレートによりサン
プリングされ、16ビットのデジタル信号となる。サン
プリングされたデータは、窓シフトの幅12msのハニ
ング窓関数機能発生器4とFTアナライザ5を介してパ
ワースペクトル6に入力された後、27メルスペクトル
に変換され、音素認識部7に入力される。
【0079】音素認識部7は図5に示すバックプロパゲ
ーション型神経回路網により構成され、そのユニットの
出力機能は通常のシグモイド機能ではなくて y=tanh(2/
3*x)で現したように双曲線正接(tanh)を使用した。
【0080】図5に示したように、神経回路網の入力層
は27メルスペクトルを「−1」から「1」に至る値に
正規化し、その後、連続5フレームを同時に入力する。
一方、出力層は、21音素の中から5入力フレームの中
央フレームがどの音素であるかを対応する音素に割り当
てられたユニットの「−1」から「1」に至る値によっ
て出力する。候補の判定は、音素認識の結果として、全
出力層の最大値ものから順に第1および第2候補として
音素コードの形で出力される。図5に示すユニットの数
は、入力層に対する27*5=135であり、出力層に
対して21であり、中間層に対して120である。
【0081】次に示す表4は、上述の学習データ(8
9,345ベクトル)が与えられ、100回の学習が行
われた場合の学習の結果を示す。この学習の時間は約1
時間10分であった。認識率は、各音素に対し認識率を
計算し、上述のようにして計算した各認識率を平均化す
ることにより得られた。その試験データは、学習のため
に採用された特定話者15人を除く特定話者5人による
63個の単語を2回発声して得た全てのデータから得た
ものである。
【0082】
【表4】
【0083】次に、単語認識部9は、前述の(1)から
(3)の条件のもとで上記DTW技術を使用し、上記音
素認識部7から引き出された音素列と標準音素列との間
の蓄積距離値を計算した。単語認識部9は、詳しくは。
上記音素認識部7から引き出された入力パターン時系列
の時間iまで、および時間iにおける1個の入力ベクト
ルと時間jにおける1個の標準ベクトルとの間のベクト
ル間距離d(i,j)を反復的に使用する標準パターン
時系列の時間jまでの蓄積距離g(i,j)を計算し
た。なお、蓄積距離の計算は図4に示したものと同様で
ある。この場合、g(i,j)=min{g(i-1,j),g(i-1,j-2),g(i
-1,j-2)} + d(i,j) となる。
【0084】単語認識部9において、距離の判定条件
(1)から(3)で、DTW技術が採用された。辞書8
に記憶された標準パターンは、20人の特定話者による
63個の単語の2回の発声に基づく音素ラベルのデータ
から引き出された各単語の音素に対し時間の連続長さを
平均することにより実験的に判定した。
【0085】次の表5、6は単語認識部9により実際に
実行された単語認識の結果である。
【0086】
【表5】
【0087】
【表6】
【0088】表5および表6の語彙28において、認識
されるべき候補は表2のグループ1のみから選択され、
表5および表6の語彙35においては、認識されるべき
候補は表2のグループ2のみから選択された。さらに、
表5および表6で発声した学習特定話者は15人で音素
認識部7の神経回路網について訓練をするのに採用さ
れ、テスト特定話者は上記の神経回路網を訓練するのに
採用された15人の特定話者を除く5人の不特定話者で
あった。学習発声データは、神経回路網の訓練に使用さ
れた2回の発声データを示していた。同じ得点は、認識
率を計算するにあたって正しい答えであると判断され
た。
【0089】
【発明の効果】図1に示した認識単語出力部11は、例
えば、図1に示した音声認識装置により認識された単語
に基づいて動作変数を制御するパワープラントの制御装
置により構成されている。しかしながら、この発明にか
かる音声認識装置は、音声認識装置から引き出された音
声データに基づいて動作する各制御装置に適用すること
ができる。米国特許第4、637、045号は音声認識
装置を自動車に応用実施するものである。
【0090】既に述べたように、この発明にかかる音声
認識装置においては、音素列の入力パターンを音素認識
部からの複数の候補に備えることができ、かつ、音素列
で表現した標準パターンと直接比較することができ、全
ての音声データに対する単語認識率は増加し、計算スピ
ードはより速くすることが可能である。
【0091】上述の説明は好ましい実施態様に対して成
されたものであるが、特許請求の範囲に定められるべ
き、この発明の範囲を逸脱することなく各種の変更およ
び修正が可能であることは当業者により充分理解される
ものである。
【図面の簡単な説明】
【図1】この発明にかかる第1実施態様における音声認
識装置のブロック図。
【図2】先に提案した単語認識部または図1に示した単
語認識部のいづれかにおいて実行される音素認識を説明
するための実例を示す図。
【図3】図1に示した単語認識部において実行される整
合法を説明する各音素列間の比較の実例を示す図。
【図4】不特定話者音声認識装置における単語認識を説
明するためのDTW計算の実例を示す図。
【図5】5フレームの多次元特徴ベクトルに対する音素
候補を説明するための音声認識装置の第2実施態様に使
用されたバックプロパゲーション型神経回路網の実例を
示す図。
【符号の説明】
1…マイクロフォン 2…アンプ 3…A/D変換器 4…窓関数機能発生器 5…FTアナライザ 6…パワースペクトル抽出部 7…音素認識部 8…辞書 9…単語認識部 10…出力ブロック 11…認識単語出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松浦 嘉宏 東京都品川区大崎2丁目1番17号 株式会 社明電舎内 (72)発明者 トビー スキナー アメリカ合衆国,オレゴン,ビーヴァ−ト ン,エス.ダブリュー. キャリジ ウエ イ 9560

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 (a)不特定話者による発声を電気信号
    に入力するための音声入力部と、 (b)上記音声入力部から上記電気信号を受信し、上記
    電気信号を時系列の多次元離散特徴ベクトルに変換する
    ための特徴抽出部と、 (c)上記時系列の多次元離散特徴ベクトルを受け取
    り、上記各ベクトルを第1位から第n位(nは任意の数
    を示す)に至る複数の音素の候補に変換する音素認識部
    と、 (d)上記音素認識部から時系列の音素候補列を受け取
    り、予め辞書に収められた認識させたい全ての単語に対
    する各標準音素列と比較し、上記音素認識部より得られ
    た音素候補列に最も類似している単語を選ぶ単語認識部
    と、 (e)上記単語認識部により、上記辞書に記憶された各
    単語の標準音素列と音素認識部で得られた音素候補列と
    の類似度を求めることによって実行された単語認識の結
    果として少なくとも1個の単語候補を出力するための認
    識単語出力部とを具備する不特定話者音声認識装置。
  2. 【請求項2】 上記音素認識部から得られた時系列の音
    素候補列と、辞書の単語の標準音素列とが全体的に類似
    しているかを、音素候補列と標準音素列の2次元行列上
    における音素候補列中の一つの組の音素候補と標準音素
    列中の音素との距離に依存して決定する単語認識部から
    認識結果として、複数の認識単語候補を受け取り、その
    単語候補の中で最も類似度の高い単語を少なくとも一つ
    出力する認識単語出力部を持つ請求項1記載の不特定話
    者音声認識装置。
  3. 【請求項3】 上記単語認識部において、音素認識部よ
    り得られた音素候補のうち、ひとつでも各単語に対する
    標準の音素列中の音素と同じであった場合に枝を引いた
    ときに、その枝が(1)2本の枝は互いに交差しない、
    (2)一時点からは1本の枝しかでない、という条件で
    最も多くの枝が引けるようにした場合の枝の数を求め、
    手法としては、音素認識部からの音素候補列をA[i]:i=
    1,I,辞書の標準音素列をB[j]:1,Jとした場合、 if A[i]=B[j] (複数の音素候補A[i]中で一つでも音素B[j]と等しい
    場合に等号が成立) S[i][j]=S[i-1][j-1]+1 else S[i][j]=MAX(S[i-1][j]、S[i][j-1])として全S[i]
    [j]を求めた場合、求める枝の数Nは、S[I][J]となり、
    最終的に両者の類似度が、音素候補列の長さをLA,標
    準音素列の長さをLBとして場合に、N/LA+N/L
    Bとして求められる請求項1記載の不特定話者音声認識
    装置。
  4. 【請求項4】 上記単語認識部は、音素候補列中の時間
    iでの音素候補と標準音素列中の時間jでの音素とまで
    の蓄積距離g(i,j)が、音素候補列中の時間iでの音素候
    補と標準音素列中の時間jでの音素との距離d(i,j)によ
    って再帰的に、すなわち、g(i,j)=min{g(i-1,j),g(i-1,
    j-1),g(i-1,j-2)}+d(i,j),として求められるDTW技
    術を応用した手法であり、ここで、音素候補列の音素候
    補と標準音素列の音素との距離d(i,j)は、 (1)もし、音素候補のうち第1位の候補が音素と等し
    い場合、d(i,j)=0 (2)もし、音素候補の第1位が音素と一致せず、第2
    位が一致した場合、d(i,j)=1 (3)音素候補の第1位も第2位も一致しない場合、d
    (i,j)=2 として求められ、これによって、各単語の標準音素列と
    音素候補列との蓄積距離が求められ、それらのうちで最
    も蓄積距離が小さいものを単語認識の結果として出力す
    る請求項1記載の不特定話者音声認識装置。
  5. 【請求項5】 上記音素認識部は、バックプロパゲーシ
    ョン型神経回路網により構成される請求項1記載の不特
    定話者音声認識装置。
  6. 【請求項6】 上記神経回路網は、上記特徴抽出部から
    得られる上記時系列の特徴ベクトルを、1時刻1フレー
    ムずつずらしながら5フレームを入力層に受け取り、出
    力層より、上記入力5フレームの中心フレームに対応す
    る少なくとも1個の音素候補を出力する請求項5記載の
    不特定話者音声認識装置。
  7. 【請求項7】 上記神経回路網は、入力層に135ユニ
    ット、出力層に21ユニット、隠れ層(中間層)に12
    0ユニットを有する請求項6記載の不特定話者音声認識
    装置。
  8. 【請求項8】 上記単語出力部は、上記単語のコード化
    したデータの形状で単語認識の結果を出力する請求項7
    記載の不特定話者音声認識装置。
  9. 【請求項9】 上記単語出力部からのコード化したデー
    タの形状で単語認識の結果がパワープラントを制御する
    ために使用される請求項8記載の不特定話者音声認識装
    置。
  10. 【請求項10】 (a)不特定話者による発声を電気信
    号に入力し、 (b)上記電気信号を受信し、上記電気信号を時系列の
    多次元離散特徴ベクトルに変換し、 (c)上記時系列の多次元離散特徴ベクトルを受信し、
    上記各ベクトルを第1位から第n位(nは任意の数を示
    す)に至る複数の音素候補に変換し、 (d)上記時系列の音素候補を受け取り、予め辞書に収
    められた認識させたい全ての単語に対する各標準音素列
    と比較し、上記音素候補列に最も類似している単語を単
    語認識部よって選び、 (e)上記辞書に記憶された各単語の標準音素列と音素
    候補列との類似度を求めることによって実行された単語
    認識の結果として少なくとも1個の単語候補を出力する
    ようにした不特定話者音声認識方法。
JP6159062A 1993-07-12 1994-07-12 不特定話者音声認識装置およびその方法 Pending JPH07306691A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/089,825 US5528728A (en) 1993-07-12 1993-07-12 Speaker independent speech recognition system and method using neural network and DTW matching technique
US089,825 1993-07-12

Publications (1)

Publication Number Publication Date
JPH07306691A true JPH07306691A (ja) 1995-11-21

Family

ID=22219760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6159062A Pending JPH07306691A (ja) 1993-07-12 1994-07-12 不特定話者音声認識装置およびその方法

Country Status (2)

Country Link
US (1) US5528728A (ja)
JP (1) JPH07306691A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237930A (ja) * 2010-05-07 2011-11-24 Alpine Electronics Inc 検索装置
CN105390141A (zh) * 2015-10-14 2016-03-09 科大讯飞股份有限公司 声音转换方法和装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334368A (ja) * 1994-06-08 1995-12-22 Hitachi Ltd 知識ベースシステムおよび認識システム
JP3399674B2 (ja) * 1994-12-19 2003-04-21 エヌイーシーインフロンティア株式会社 画面制御装置とその方法
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
DE69607913T2 (de) * 1995-05-03 2000-10-05 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
US6459910B1 (en) * 1995-06-07 2002-10-01 Texas Instruments Incorporated Use of speech recognition in pager and mobile telephone applications
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
GB9611138D0 (en) * 1996-05-29 1996-07-31 Domain Dynamics Ltd Signal processing arrangements
US5758024A (en) * 1996-06-25 1998-05-26 Microsoft Corporation Method and system for encoding pronunciation prefix trees
US6665639B2 (en) * 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
US5946653A (en) * 1997-10-01 1999-08-31 Motorola, Inc. Speaker independent speech recognition system and method
US6188984B1 (en) * 1998-11-17 2001-02-13 Fonix Corporation Method and system for syllable parsing
US6393395B1 (en) * 1999-01-07 2002-05-21 Microsoft Corporation Handwriting and speech recognizer using neural network with separate start and continuation output scores
DE60004331T2 (de) * 1999-03-11 2005-05-25 British Telecommunications P.L.C. Sprecher-erkennung
ES2172410B1 (es) * 2000-07-11 2004-11-16 Voice Consulting, S.L. Sistema de respuesta y reconocimiento neuronal de voz.
JP4517260B2 (ja) * 2000-09-11 2010-08-04 日本電気株式会社 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
JP2003016441A (ja) * 2001-07-04 2003-01-17 Sony Corp 画像処理装置
WO2003017252A1 (de) * 2001-08-13 2003-02-27 Knittel, Jochen Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
WO2003084196A1 (en) 2002-03-28 2003-10-09 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
US8239197B2 (en) * 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
WO2006033044A2 (en) * 2004-09-23 2006-03-30 Koninklijke Philips Electronics N.V. Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
EP1889255A1 (en) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
JP2007066202A (ja) * 2005-09-01 2007-03-15 Fujitsu Ltd データ分析プログラム
US9792897B1 (en) * 2016-04-13 2017-10-17 Malaspina Labs (Barbados), Inc. Phoneme-expert assisted speech recognition and re-synthesis
US20220262363A1 (en) * 2019-08-02 2022-08-18 Nec Corporation Speech processing device, speech processing method, and recording medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01204099A (ja) * 1988-02-09 1989-08-16 Nec Corp 音声認識装置
JPH0261700A (ja) * 1988-08-27 1990-03-01 Brother Ind Ltd 音声認識装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870286A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 音声認識装置
US4799261A (en) * 1983-11-03 1989-01-17 Texas Instruments Incorporated Low data rate speech encoding employing syllable duration patterns
US5228087A (en) * 1989-04-12 1993-07-13 Smiths Industries Public Limited Company Speech recognition apparatus and methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01204099A (ja) * 1988-02-09 1989-08-16 Nec Corp 音声認識装置
JPH0261700A (ja) * 1988-08-27 1990-03-01 Brother Ind Ltd 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237930A (ja) * 2010-05-07 2011-11-24 Alpine Electronics Inc 検索装置
CN105390141A (zh) * 2015-10-14 2016-03-09 科大讯飞股份有限公司 声音转换方法和装置
CN105390141B (zh) * 2015-10-14 2019-10-18 科大讯飞股份有限公司 声音转换方法和装置

Also Published As

Publication number Publication date
US5528728A (en) 1996-06-18

Similar Documents

Publication Publication Date Title
JPH07306691A (ja) 不特定話者音声認識装置およびその方法
US4837831A (en) Method for creating and using multiple-word sound models in speech recognition
US5794197A (en) Senone tree representation and evaluation
JP3948747B2 (ja) ツリー構成確率密度に基づくパターン認識の方法及びシステム
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
JPH0581918B2 (ja)
EP0504485A2 (en) A speaker-independent label coding apparatus
JPS62231995A (ja) 音声認識方法
US5794190A (en) Speech pattern recognition using pattern recognizers and classifiers
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
EP0344017B1 (en) Speech recognition system
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
JPH0372997B2 (ja)
US5764851A (en) Fast speech recognition method for mandarin words
JP3447521B2 (ja) 音声認識ダイアル装置
JP3444108B2 (ja) 音声認識装置
JPH11311994A (ja) 情報処理装置および方法、並びに提供媒体
JP3277522B2 (ja) 音声認識方法
Gong et al. Phoneme-based continuous speech recognition without pre-segmentation.
JP3291073B2 (ja) 音声認識方式
EP0526515B1 (en) Pattern recognition
JP2979912B2 (ja) 音声認識装置
JPH0619497A (ja) 音声認識方法
JP2000122693A (ja) 話者認識方法および話者認識装置