JPH05143093A - 発声された単語のモデルを生成する方法および装置 - Google Patents

発声された単語のモデルを生成する方法および装置

Info

Publication number
JPH05143093A
JPH05143093A JP3195247A JP19524791A JPH05143093A JP H05143093 A JPH05143093 A JP H05143093A JP 3195247 A JP3195247 A JP 3195247A JP 19524791 A JP19524791 A JP 19524791A JP H05143093 A JPH05143093 A JP H05143093A
Authority
JP
Japan
Prior art keywords
word
probabilistic
model
word model
match
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3195247A
Other languages
English (en)
Other versions
JP2662112B2 (ja
Inventor
Peter F Brown
ピーター・フイツツヒユー・ブラウン
Gennaro Steven V De
ステイーブン・ヴイセント・デ・ジエナロ
Peter V Desouza
ピーター・ヴインセト・デソウザ
Mark E Epstein
マーク・エドワード・エプスタイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH05143093A publication Critical patent/JPH05143093A/ja
Application granted granted Critical
Publication of JP2662112B2 publication Critical patent/JP2662112B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 (a)確率的単語モデルと少なくとも2回の
発声の音響的特徴との間の整合の近さ、および(b)単
語モデルと単語の綴りとの間の整合の近さを表わす整合
スコアに基いて単語をモデル化する方法および装置を提
供する。 【構成】 整合スコアは、セット整合スコア計算器28
によって1つ以上の確率的単語モデルの選択セット24
に対して計算される。整合スコアはまた、選択セットに
おける確率的単語モデルおよび候補セットにおける1つ
の確率的単語モデルからなる拡張セット30に対しても
計算される。拡張セットの整合スコアが選択セットの整
合スコアを選択されたゼロでない閾値だけ改善するなら
ば、単語が拡張セットにおける単語モデルによりモデル
化され、拡張セットの整合スコアが選択セットの整合ス
コアを選択されたゼロでない閾値により改善しなけれ
ば、単語が選択セットにおける単語によりモデル化され
るように単語モデル・セット・セレクタ46により単語
モデル・セットが選択される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、発声された単語の機械
認識に関する。特に、本発明は、発声された単語の機械
モデルを生成するための方法および装置、およびかかる
方法を実行する機械を構成するための事柄に関する。
【0002】
【従来の技術】音声認識機械においては、機械の語彙に
おける各単語は、1つ以上のモデルからなるセットによ
り表わされる。ユーザが新しい単語を音声認識装置の語
彙に加えることを欲する時、新しい単語と対応する少な
くとも1つのモデルが生成されねばならない。
【0003】単語の綴りおよび単語の1つの発声に基い
て単語の音声認識モデルを生成する方法については、
J.M.Lucassen等の論文「音素の基本形の自
動的決定に対する情報理論的試み(An Inform
ation Theoretic Approach
to the Automatic Determin
ation of Phonemic Basefor
ms)」(Proceedings of the 1
984 IEEE InternationalCon
ference on Acoustics, Spe
echandSignal Processing、第
3巻、42.5.1〜42.5.4、1984年3月)
に記載されている。
【0004】もしユーザが新しい単語を多数回発声すれ
ば、Lucassen等の方法において認識されない問
題が生起する。新しい単語の各発声が異なるモデルを生
成しがちである。新しい単語の全ての発声により生成さ
れる全ての単語モデルを記憶することは実用的でないた
め、新しい単語に対する1つ以上の単語モデルのサブセ
ットを選択する必要がある。
【0005】
【発明の概要】本発明の目的は、音声認識機械の語彙に
加えられる新しい単語を表わす1つ以上の単語モデルか
らなるセットを生成するための方法および装置の提供に
ある。
【0006】本発明の別の目的は、少なくとも2つの発
声による音響的整合スコア、および単語の綴りによる綴
り対音声整合スコアの加重平均に基いて、単語を表わす
1セットの単語モデルを生成するための方法および装置
の提供にある。
【0007】本発明によれば、単語のモデル化のための
方法および装置において、1つの単語が少なくとも2回
発声される。各発声は、1つの値を持つ少なくとも1つ
の音響的特徴を有する。各発声のこの音響的特徴の値が
測定される。1つ以上の確率的単語モデル信号の選択さ
れたセットが記憶される。この選択されたセットの各確
率的単語モデル信号は、単語の確率的なモデルを表わ
す。
【0008】この選択されたセットに対して、この選択
セット内の確率的単語モデルと各発声の音響的特徴の値
との間の整合の近さを表わす整合スコアが計算される。
【0009】1つ以上の確率的単語モデル信号の候補の
セットもまた記憶される。候補のセットにおける各確率
的単語モデル信号は、単語の確率的モデルを表わす。候
補のセット内の各確率的単語モデル信号は、選択された
セットにおける各確率的単語モデルとは異なるものであ
る。
【0010】拡張セットもまた記憶される。この拡張セ
ットは、選択セット内の複数の確率的単語モデル信号
と、候補セットからの1つの確率的単語モデル信号とか
らなっている。拡張セットに対しては、拡張セット内の
確率的単語モデルと、各発声の音響的特徴の値との間の
整合の近さを表わす整合スコアが計算される。もし拡張
セットの整合スコアが選択セットの整合スコアを選択さ
れたゼロでない閾値だけ改善するならば、この単語は拡
張セットにおける単語モデルによりモデル化される。
【0011】もし拡張セットの整合スコアが選択セット
の整合スコアを選択されたゼロでない閾値だけ改善しな
ければ、この単語は選択セットにおける単語モデルによ
りモデル化される。
【0012】本発明はこのような単語のモデル化の方法
を実行する機械を構成する事にも関する。
【0013】単語の綴りを表わす綴り信号もまた記憶さ
れる。従って、各セット(例えば、候補セット、選択セ
ット、あるいは拡張セット)の整合スコアは、(a)モ
デルのセットにおける確率的単語モデルと発声の音響的
特徴の値との間の整合の近さ、および(b)モデルのセ
ットにおける確率的単語モデルと単語の綴りとの間の整
合の近さ、の重み付けされた組合わせを表わす。
【0014】本発明の1つの特質においては、各セット
の整合スコアは、セットにおける各確率的単語モデルお
よび各発声毎に、(a)確率的単語モデルと各発声の音
響的特徴の値との間の整合の近さ、および(b)確率的
単語モデルと単語の綴りとの間の整合の近さ、の重み付
けされた組合わせを表わす整合スコアを計算することに
よって計算される。各発声毎に、セット内最良整合スコ
アが識別されて、発声とセット内の確率的単語モデルと
の間の最良の整合スコアを表わす。全ての発声における
セット内の確率的単語モデルに対するセット内最良平均
整合スコアを表わす1組の整合スコアが計算される。
【0015】本発明は更に、候補セットにおける各確率
的単語モデル毎に、(a)候補の確率的単語モデルおよ
び選択セットにおける確率的単語モデルのジョイント・
セットと各発声の音響的特徴の値との間の整合の近さ、
および(b)確率的単語モデルのジョイント・セットと
単語の綴りとの間の整合の近さ、の重み付けされた組合
わせを表わすジョイント整合スコアを計算することを含
む。この拡張セットは、最良のジョイント整合スコアを
持つジョイント・セットとして選択される。
【0016】初めに、選択セットは、候補セットにおけ
るどれかの確率的単語モデルの整合スコアより良好な整
合スコアを持つ1つの確率的単語モデルからなる。
【0017】本発明の別の特質においては、1つの単語
の第1の発声の少なくとも1つの特徴の値が、等しい長
さの一連の連続的な時間間隔にわたって測定される。こ
の特徴値は、第1の発声の特徴値を表わす第1の一連の
特徴ベクトル信号を生じるように、各時間間隔において
測定される。同様に、同じ単語の第2の発声の少なくと
も1つの特徴の値は、第2の発声の特徴値を表わす第2
の一連の特徴ベクトル信号を生じるように測定される。
【0018】2つ以上の確率的単語モデル信号が記憶さ
れる。各確率的単語モデル信号は、単語の確率的モデル
を表わす。各確率的単語モデルおよび各発声毎に、確率
的単語モデルと発声により生じる一連の特徴ベクトル信
号との間の整合の近さを表わす整合スコアが計算され
る。各確率的単語モデル毎に、単語モデルおよび全ての
発声に対する平均整合スコアを表わす平均モデル整合ス
コアが計算される。
【0019】上記の如く計算された整合スコアから、最
良の平均モデル整合スコアを持つ第1の確率的単語モデ
ルが選択される。次いで、第2の確率的単語モデルが選
択される。
【0020】各発声毎に、発声と第1および第2の確率
的単語モデルとの間の最良の整合スコアを表わすセット
内最良整合スコアが識別される。第1および第2の確率
的単語モデルおよび全ての発声に対するセット内最良平
均整合スコアを表わすセット平均整合スコアが計算され
る。もしセット平均整合スコアが最良平均モデルの整合
スコアを選択されたゼロでない閾値だけ改善するなら
ば、単語は第1および第2の確率的単語モデルの双方に
よりモデル化される。
【0021】セット平均整合スコアが最良平均モデル整
合スコアを選択されたゼロでない閾値だけ改善しなけれ
ば、単語は第2の確率的単語モデルではなく第1の確率
的単語モデルによりモデル化される。
【0022】本発明による単語モデル化方法および装置
は、多数回発声された新しい単語を表わす1つ以上のモ
デルのサブセットを選択する故に有利である。この方法
および装置は、選択されたモデルのセットの整合スコア
を著しく改善しない発声に基く単語モデルを選択せずか
つセーブしない。このため、1つの単語の2つ以上の異
なるモデルは、単語の2回以上の発声が著しく異なる場
合にのみ選択される。
【0023】
【実施例】図1は、本発明による単語のモデル化のため
の装置の一例を示す。本発明による方法および装置にお
いては、単語は少なくとも2回発声される。各発声は、
1つの値を持つ少なくとも1つの音響的特徴を有する。
各発声の前記音響的特徴の値は、適当な手段、例えば音
響的特徴プロセッサ10により測定される。
【0024】図2は、音響的特徴プロセッサの一例であ
る。音響トランスジューサ12、例えばマイクロフォン
は、単語の発声をアナログ電気信号に変換する。アナロ
グ/ディジタル・コンバータ14が、アナログ電気信号
をパルス・コード変調信号の如きディジタル電気信号に
変換する。
【0025】時間ウインドウ・ジェネレータ16が、等
しい持続時間の一連の連続する時間間隔にわたってパル
ス・コード変調電気信号をサンプルする。スペクトル・
アナライザ18が、1つ以上の次元の音響的特徴ベクト
ルを生じるように、1つ以上の周波数帯域における各時
間間隔においてパルス・コード変調信号の振幅を決定す
る。
【0026】多くの音響的特徴原型ベクトルが、音響的
特徴原型ストア20に記憶される。各音響的特徴原型
は、各音響的特徴ベクトルと同数の次元を有する。しか
し、各音響的特徴原型ベクトルの値は予め定められて固
定される。
【0027】音響的特徴原型セレクタ22は、各音響的
特徴ベクトルをストア20における全ての原型と比較す
る。最も近い原型が、対応する時間間隔の間に測定され
た発声の特徴の値を表わすラベルとしてセレクタ22か
ら出力される。
【0028】音声認識装置は、例えば、200の音響的
特徴原型ベクトルを記憶することができる。しかし、本
発明の仮想的事例を示す目的のため、表1に示される如
きラベルA乃至Eで示される5つ1組の音響的特徴原型
を仮定することにする。
【0029】
【表1】
【0030】本例を続けて、単語「LOG」が2回発声
される。「LOG」の最初の発声と同時に、音響的特徴
プロセッサ10がラベル・ストリングABBCを出力す
るものと仮定する。2度目の発声と同時に音響的特徴プ
ロセッサ10はラベル・ストリングADDCを出力す
る。
【0031】図1に戻って、本発明による装置は、選択
セットの単語モデルに対するストア24と、候補セット
の単語モデルに対するストア26とを含む。各セット
は、1つ以上の確率的単語モデル信号を含み、各確率的
単語モデル信号は単語の確率的モデルを表わす。候補セ
ットにおける各確率的単語モデルは、選択セットにおけ
る各確率的単語モデルとは異なる。
【0032】図3は、1つの単語の確率的マルコフ(M
arkov)・モデルの一例を略図的に示している。こ
のマルコフ単語モデルは、4つの状態S0乃至S3を有す
る。状態S0乃至S2の各々は、この状態からそれ自体へ
の遷移を有する。状態S0乃至S2の各々は、それ自体か
ら次の状態への遷移を有する。図3には示さないが、各
遷移と関連して遷移の発生確率、および遷移の発生と同
時に音響的特徴を表わす1つのラベル(例えば、ラベル
A乃至Eの1つと対応する)を出力する確率がある。
【0033】単語モデルは、単語が話される時に発声さ
れる音素の1つ以上のモデルを連結することにより構成
することができる。1つの音素の確率的マルコフ・モデ
ルは、例えば、1つの開始状態、1つの終了状態、開始
状態からそれ自体への遷移、および開始状態から終了状
態への遷移からなっている。各遷移は、これと関連し
て、発生の確率および音響的特徴を表わす1つ以上のラ
ベルの発生の確率を有する。より複雑な音素は、複数の
状態および遷移を有する確率的マルコフ・モデルにより
表わすことができる。
【0034】単語モデルを生成する1つの方法におい
て、英語のアルファベット文字の発音の変化と対応する
音を表わす音素モデルのストリングを連結することによ
り、単語モデルを作ることができる。表2の仮想例にお
いては、確率的単語モデルを形成するように種々の組合
わせで連結し得る70の音素モデルM1乃至M70があ
る。
【0035】
【表2】
【0036】また、表2に示されるように、アルファベ
ットの各文字、A乃至Zは、1つの単語における文字の
発音が音素モデルM1乃至M70の各々と対応する音を
生じる確率が割当てられている。
【0037】表2において示される確率は仮想ものもの
であるが、前掲のLucassen等の論文に記載され
る方法で筆記され話された言語の分析により有効な確率
データを得ることができる。更に、表2の事例に示した
確率は文脈から独立であるが、文脈依存確率データは、
改善された確率的単語モデルを生じることが期待され
る。
【0038】音素のn個のモデルがありかつ単語の綴り
中の各文字が1つの音素と対応できる場合で、単語中に
m個の文字を有する単語の綴りに基いて確率的単語モデ
ルを構成するために、音素モデルの異なる組合わせを連
結することによりnm個の単語モデルを生成することが
できる。
【0039】例えば、単語「LOG」は3つの文字を含
む。70音素モデルの事例においては、音素モデルから
構成することができる単語「LOG」に対しては、70
3=343,000の異なるあり得る単語モデルが存在
する。
【0040】最良の単語モデルを決定するために「LO
G」に対して343,000個の全てのあり得る単語モ
デルを調べることができるが、最良と予期される限られ
たモデルを343,000個のあり得る単語モデルから
選択するため種々の基準を用いることができる。本例に
おいては、単語「LOG」における各文字毎に、最も高
い確率を持つ1つまたは2つの音素モデルが、「LO
G」に対してあり得る単語モデルを連結するため選択さ
れた。表2に示される仮想の確率に基いて、表3に示さ
れる単語モデルが構成された。
【0041】
【表3】
【0042】表3における単語モデルは、「LOG」の
異なるあり得る発音と対応している。例えば、音素モデ
ルM4は、「BALL」における「L」音と対応し得
る。音素モデルM1は、「LAW」における「AW」音
と対応するが、音素モデルM3は「COT」における
「O」音と対応する。音素モデルM5は、「GOOD」
における「G」音と対応し、音素モデルM70は「JO
B」における「J」音と対応する。表3は、各モデル毎
の仮想的発音を含む。
【0043】表3における単語モデルは、適当な方法で
選択セットと候補セットに分割することができる。
【0044】図1に戻り、セット整合スコア計算器28
が、セットにおける確率的単語モデルと単語の各発声の
音響的特徴の値との間の整合の近さを表わす整合スコア
をどのモデル・セットについても計算する。
【0045】最初に、選択セットは、候補セットにおけ
るどの確率的単語モデルの整合スコアより良好な整合ス
コアを有する1つの確率的単語モデルからなる。
【0046】このため、表3の事例によれば、最初に、
選択セットは、最良の整合スコアを持つ表3からの1つ
の確率的単語モデルからなる。
【0047】あり得る単語モデルに対する個々の整合ス
コアは、(a)確率的単語モデルと各発声の音響的特徴
の値との間の整合の近さ、および(b)確率的単語モデ
ルと単語の綴りとの間の整合の近さ、の重み付けされた
された組合わせにより得ることができる。
【0048】表4は、表3の単語モデルの各々に対する
整合スコア計算の一例を示している。本例においては、
ある発声に対する加重平均整合スコアは、重み係数を乗
じた音響的整合スコアの和に、重み係数を乗じた綴り対
音のスコアを加えたものである。
【0049】
【表4】
【0050】本例においては、綴り対音スコアに対する
重み係数は0.005である。音響的整合スコアに対す
る重み係数は、0.5である。一般に、重み係数は、実
験的に選択される。音響的整合スコアの重み係数は、単
語の発声回数が増加するに伴い、綴り対音スコアの重み
係数に関連して増加することが望ましい。1つのモデル
に対する全整合スコアは、全ての発声におけるモデルに
対する加重平均整合スコアの平均である。
【0051】各単語モデルに対して、綴り対音スコア
は、例えば単語の全ての文字に対する単語の綴りにおけ
る対応する文字を与える音素モデルの確率の積として得
ることができる。このため、基本形M4 M1 M5に
対して、綴り対音スコアはP(M4|”L”)P(M1
|”O”)P(M5|”G”)に等しい。表2の仮想的
確率から、綴り対音スコアは(0.9)(0.35)
(0.8)=0.252に等しい。
【0052】各単語モデルと各発声間の音響的整合スコ
アは、例えば、単語モデルが発声の音響的特徴を表わす
音響ラベルを生じる確率を計算することにより得ること
ができる。
【0053】表5〜8は、仮想音響的整合スコアの計算
を示す。各単語モデルに対して、表5〜8は、提起され
た単語モデルを構成する音素モデルに対する仮想的遷移
確率およびラベル確率を示す。これらの表はまた、各仮
想的単語モデルが観察されるラベル・ストリングを生じ
る確率として音響的整合スコアの計算を示す。これらの
確率は、図4に示される如く各単語モデルにおける状態
0乃至状態S3に対する全ての経路について計算され
る。
【0054】表5〜8において、音素モデル・パラメー
タが、1つの遷移に対する各開始状態Siおよび各最終
状態Sfに対し指定される。遷移の確率は、P(Sf|
Si)として指定される。選択される遷移に対して出力
されるラベルAの確率は、P(A|Si→Sf)であ
る。他のラベル出力の確率も同様に指定される。
【0055】音響的整合スコアは、各時間間隔t毎に、
出力ラベルXtを観察し前の状態(St−1)を与える
状態Stで終る確率P(St,Xt|St−1)を計算
することにより得られる。時間tで状態Stを終る全て
の経路について加算することにより、状態Stにあって
ラベルX1乃至Xtを観察する確率P(St,X1t)
が得られる。
【0056】
【表5】
【0057】
【0058】
【表6】
【0059】
【0060】
【表7】
【0061】
【0062】
【表8】
【0063】
【0064】音響的整合計算の結果は、前掲の表4にお
いて要約される。単語モデルM4M1M5が最良の整合
スコアを持つため、これが初期選択セットを形成するた
め選択される。単語モデルM4M1M5が初期選択セッ
トにおける唯一の単語モデルであるため、初期選択セッ
トの整合スコアは単語モデルの整合スコアに等しい(表
9参照)。
【0065】
【表9】
【0066】初期選択セットに対する最良の整合スコア
を持つ1つの確率的単語モデルM4M1M5を識別した
後、残りの単語モデルが図1の候補セット・ストア26
に格納される。
【0067】単語モデルの候補セットからの1つの候補
モデルが、単語モデルの選択セットと組合わされて拡張
セット・ストア30に格納される拡張セットを形成する
(図1)。拡張セットに対しては、セットの整合スコア
計算器28は、拡張セットにおける確率的単語モデルと
各発声の音響的特徴の値との間の整合の近さに関する整
合スコアを計算する。
【0068】図5は、セット整合スコア計算器28の構
造の一例のブロック図である。このセット整合スコア計
算器28は、音響的特徴プロセッサ10および1組の単
語モデル・ストア34からの入力を受取る個別の整合ス
コア計算器32を含む。図5のストア34は、図1のス
トア24、26あるいは30の1つ以上と対応する。セ
ット整合スコア計算器32はまた、単語綴りストア36
および綴り対音ルール・ストア38から入力を受取る。
単語の綴りは、キーボード40によって単語綴りストア
36へ入力される。
【0069】個々の整合スコア計算器32は、セットの
各確率的単語モデルおよび各発声毎に、(a)確率的単
語モデルと各発声の音響的特徴値との間の整合の近さ、
および(b)確率的単語モデルと単語の綴りとの間の整
合の近さ、の重み付けされた組合わせを表わす整合スコ
アを計算する。
【0070】計算器32からの個々の整合スコアは、セ
ット最良整合スコア計算器42へ送られる。セット最良
整合スコア計算器42は、各発声毎に、発声とセットに
おける確率的単語モデルとの間の最良の整合スコアを表
わすセット最良整合スコアを識別する。
【0071】計算器42からのセット最良整合スコア
は、セット最良平均計算器44へ送られる。セット最良
平均計算器44は、確率的単語モデルおよび全ての発声
に対するセット最良平均整合スコアを表わすセット整合
スコアを計算する。
【0072】図1に戻って、本発明による装置は、計算
器28からセット整合スコアを受取る単語モデル・セッ
ト・セレクタ46を含む。もし拡張セット整合スコア
が、選択されたゼロでない閾値だけ選択セット整合スコ
アを改善するならば、単語モデル・セット・セレクタ4
6は、拡張セットにおける単語モデルで単語をモデル化
する。次いで、拡張セットにおける単語モデルは、単語
モデル・ストア48の選択されたセットへ出力される。
あるいはまた、もし拡張セットの整合スコアが選択され
たゼロでない閾値だけ選択セット整合スコアを改善しな
ければ、単語モデル・セット・セレクタ46は、この選
択セットの単語モデルで単語をモデル化する。この場
合、選択セットにおける単語モデルは、単語モデル・ス
トア48の選択されたセットに格納される。
【0073】単語モデル・ストア38の選択されたセッ
トに格納された単語モデルは、必要に応じて、図1に破
線で示される如き単語モデルの新しい選択セットを形成
することができる。この場合、本発明による方法は、候
補セットから別のモデルを加えることによりこれ以上
(閾値以上)の改善が得られるかどうかを判定するた
め、この新しい選択セットを用いて反復することができ
る。
【0074】図6は、本発明の目的のために拡張セット
に組込まれるワード・モデルを選択する装置の一例のブ
ロック図である。本装置は、音響的特徴プロセッサ1
0、ワード・モデル・ストア24の選択セット、ワード
・モデル・ストア26の候補セット、ワードの綴りスト
ア36、および綴対音の規則ストア38からの入力を受
取るジョイント整合スコア計算器50を含む。綴り対音
の規則ストア38は、例えば、先の表2に示された形態
の如き綴り対音の確率表を含むことができる。整合スコ
ア計算器50は、候補セットにおける各確率的ワード・
モデル毎に、(a)候補の確率的ワード・モデルと選択
セットにおける確率的ワード・モデルのジョイント・セ
ットと、各発声の音響的特徴の値との間の整合の近さ
と、(b)確率的ワード・モデルのジョイント・セット
とワードの綴りとの間の整合の近さの重み付けされた組
合わせを表わすジョイント整合スコアを計算する。
【0075】計算器50からのジョイント整合スコア
は、拡張セット・セレクタ52へ送られる。拡張セット
・セレクタ52は、最善のジョイント整合スコアを有す
るジョイント・セットを拡張セットとして選択する。セ
レクタ52からの選択された拡張セットは、単語モデル
・ストア30の拡張セットへ送られる。
【0076】本発明による単語のモデル化のための方法
および装置は、図2に関して述べた如き適当な音響的特
徴プロセッサを備えた汎用ディジタル・コンピュータ・
システムを適当にプログラミングすることにより実現さ
れる。このプログラムは、本発明による方法を実行する
ようにコンピュータ・システムを構成する。
【0077】仮説事例に戻って、表10〜12は、ジョ
イント・セット整合スコア計算を示している。ジョイン
ト・セットM4M1M5およびM4M3M5が最善の整
合スコアを持つため、これが拡張セットとして選択され
る。
【0078】
【表10】
【0079】
【表11】
【0080】
【表12】
【0081】計算された拡張セット整合スコアおよび計
算された選択整合スコアは、表13に示される。もし整
合スコアにおける改善が選択されたゼロでない閾値を越
えるならば、単語は拡張セットにおける単語モデルによ
りモデル化される。この場合、単語「LOG」は表14
に示す発音によりモデル化されるが、表15に示す発音
ではモデル化されない。
【0082】
【表13】
【0083】
【表14】
【0084】
【表15】
【図面の簡単な説明】
【図1】本発明による単語をモデル化するための装置を
示すブロック図である。
【図2】発声の少なくとも1つの音響的特徴の値を測定
するための装置を示すブロック図である。
【図3】確率的単語モデルの一例を示す概略図である。
【図4】図3の確率的単語モデルによる4倍長の全ての
あり得る経路を示す図である。
【図5】セットの整合スコアを計算するための装置を示
すブロック図である。
【図6】1つの拡張セットを選択するための装置を示す
ブロック図である。
【符号の説明】 10 音響的特徴プロセッサ 12 音響トランスジューサ 14 アナログ/ディジタル・コンバータ 16 時間ウインドウ・ジェネレータ 18 スペクトル・アナライザ 20 音響的特徴原型ストア 22 音響的特徴原型セレクタ 24 単語モデル選択セット・ストア 26 単語モデル候補セット・ストア 28 セット整合スコア計算器 30 単語モデル拡張セット・ストア 32 セット整合スコア計算器 34 単語モデル・ストア 36 単語綴りストア 38 綴り対音ルール・ストア 42 セット最良整合スコア計算器 44 セット最良平均計算器 46 単語モデル・セット・セレクタ 48 単語モデル選択セット・ストア 52 拡張セット・セレクタ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ステイーブン・ヴイセント・デ・ジエナロ アメリカ合衆国12564、ニユーヨーク州 ポーリング、クールター・アベニユー 38 番地 (72)発明者 ピーター・ヴインセト・デソウザ アメリカ合衆国10542、ニユーヨーク州 マーオパツク・フオールズ、ピー・オー・ ボツクス 459 (72)発明者 マーク・エドワード・エプスタイン アメリカ合衆国10536、ニユーヨーク州 カトナー、オールド・ヴイレツジ・レーン 14番地

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも2回発声された単語をモデル
    化する方法であって、各発声は1つの値を持つ少なくと
    も1つの音響的特徴を有する方法において、 各発声の音響的特徴の値を測定し、 1つ以上の確率的単語モデル信号の選択セットを格納
    し、該選択セットにおける各確率的単語モデル信号は、
    単語の確率的モデルを表わし、 前記選択セットに対して、該選択セットにおける確率的
    単語モデルと各発声の前記音響的特徴の値との間の整合
    の近さを表わす整合スコアを計算し、 1つ以上の確率的単語モデル信号の候補セットを格納
    し、該候補セットにおける各確率的単語モデル信号は単
    語の確率的モデルを表わし、前記候補セットにおける各
    確率的単語モデルは、選択セットにおける各確率的単語
    モデルとは異なっており、 選択セットにおける確率的単語モデルおよび候補セット
    からの1つの確率的単語モデル信号を含む拡張セットを
    格納し、 拡張セットに対して、該拡張セットにおける確率的単語
    モデルと各発声の音響的特徴の値との間の整合の近さを
    表わす整合スコアを計算し、 拡張セットの整合スコアが選択セットの整合スコアを選
    択されたゼロでない閾値だけ改善するならば、単語を拡
    張セットにおける単語モデルでモデル化するステップを
    含むことを特徴とする方法。
  2. 【請求項2】 前記拡張セットの整合スコアが、前記選
    択セットの整合スコアを選択されたゼロでない閾値だけ
    改善しなければ、単語を前記選択セットにおける単語モ
    デルによりモデル化するステップを更に含むことを特徴
    とする請求項1記載の方法。
  3. 【請求項3】 前記単語が綴りを有し、更に、前記方法
    が単語の綴りを表わす綴り信号を格納するステップを含
    み、各セットの整合スコアが、 前記モデル・セットにおける確率的単語モデルと発声の
    音響的特徴の値との間の整合の近さ、および モデル・セットにおける確率的単語モデルと単語の綴り
    との間の整合の近さの重み付けされた組合わせを表わす
    ことを特徴とする請求項1記載の方法。
  4. 【請求項4】 各セットの整合スコアが、 セットにおける各確率的単語モデルおよび各発声に対し
    て、 (a)確率的単語モデルと各発声の音響的特徴の値との
    間の整合の近さ、および (b)確率的単語モデルと単語の綴りとの間の整合の近
    さの重み付けされた組合わせを表わす整合スコアを計算
    し、 各発声に対して、発声とセットにおける確率的単語モデ
    ルとの間の最善の整合スコアを表わすセット最善整合ス
    コアを識別し、 確率的単語モデルおよび全ての発声に対するセット最善
    の平均整合スコアを表わすセット整合スコアを計算する
    ステップによって計算されることを特徴とする請求項3
    記載の方法。
  5. 【請求項5】 候補セットにおける含む確率的単語モデ
    ルに対して、 (a)候補の確率的単語モデルおよび選択セットにおけ
    る確率的単語モデルのジョイント・セットと各発声の音
    響的特徴の値との間の整合の近さ、および(b)確率的
    単語モデルのジョイント・セットと単語の綴りとの間の
    整合の近さの重み付けされた組合わせを表わすジョイン
    ト整合スコアを計算し、 最善のジョイント整合スコアを有するジョイント・セッ
    トを拡張セットとして選択するステップを更に含むこと
    を特徴とする請求項4記載の方法。
  6. 【請求項6】 最初に、前記選択セットが、候補セット
    におけるどの確率的単語モデルの整合スコアより良好な
    セット整合スコアを有する1つの確率的単語モデルから
    なることを特徴とする請求項1記載の方法。
  7. 【請求項7】 単語の最初の発声の少なくとも1つの特
    徴の値を測定し、該第1の発声は、等しい持続時間Δt
    の連続する一連の時間間隔にわたって生起し、前記各時
    間間隔において測定される特徴値は前記最初の発声の特
    徴値を表わす第1の一連の特徴ベクトル信号を生じ、 前記単語の第2の発声の少なくとも1つの特徴値を測定
    し、該第2の発声は、等しい持続時間Δtの連続する一
    連の時間間隔にわたって生起し、前記各時間間隔におい
    て測定される特徴値は第2の発声の特徴値を表わす第2
    の一連の特徴ベクトル信号を生じ、 2つ以上の確率的単語モデル信号を格納し、各確率的単
    語モデル信号は単語の確率的モデルを表わし、 各確率的単語モデルおよび各発声に対して、確率的単語
    モデルと発声により生じる一連の特徴ベクトル信号との
    間の整合の近さを表わす整合スコアを計算し、 各確率的単語モデルに対して、単語モデルおよび全ての
    発声に対する平均整合スコアを表わす平均モデル整合ス
    コアを計算し、 最善の平均モデル整合スコアを持つ第1の確率的単語モ
    デルを選択し、 第2の確率的単語モデルを選択し、 各発声に対して、発声と前記第1および第2の確率的単
    語モデルとの間の最善の整合スコアを表わすセット最善
    整合スコアを識別し、 第1および第2の確率的単語モデルおよび全ての発声に
    対するセット最善の平均整合スコアを表わすセット平均
    整合スコアを計算し、 前記セット平均整合スコアが前記最善平均モデル整合ス
    コアを選択されたゼロでない閾値だけ改善するならば、
    前記第1および第2の確率的単語モデルにより単語をモ
    デル化することを特徴とする単語をモデル化する方法。
  8. 【請求項8】 セット平均整合スコアが最善の平均モデ
    ル整合スコアを選択されたゼロでない閾値だけ改善しな
    ければ、第2の確率的単語モデルによらず、前記第1の
    確率的単語モデルにより単語のモデル化を行うステップ
    を更に含むことを特徴とする請求項7記載の方法。
  9. 【請求項9】 単語が綴りを有し、各整合スコアが、 確率的単語モデルと発声の音響的特徴の値との間の整合
    の近さ、および確率的単語モデルと単語の綴りとの間の
    整合の近さの重み付けされた組合わせを表わすことを特
    徴とする請求項8記載の方法。
  10. 【請求項10】 1つの単語の少なくとも2回の発声の
    各々の少なくとも1つの音響的特徴の値を測定する手段
    と、 1つ以上の確率的単語モデル信号の選択セットを格納す
    る手段とを設け、選択セットにおける各確率的単語モデ
    ル信号は確率的単語モデルを表わし、 選択セットに対して、該選択セットにおける確率的単語
    モデルと各発声の音響的特徴の値との間の整合の近さを
    表わす整合スコアを計算する手段と、 1つ以上の確率的単語モデル信号の候補セットを格納す
    る手段とを設け、該候補セットにおける各確率的単語モ
    デル信号は確率的単語モデルを表わし、候補セットにお
    ける各確率的単語モデルは、選択セットにおける各確率
    的単語モデルとは異なっており、 前記選択セットにおける確率的単語モデル信号、および
    前記候補セットからの1つの確率的単語モデル信号を含
    む拡張セットを格納する手段と、 前記拡張セットに対して、該拡張セットにおける確率的
    単語モデルと各発声の音響的特徴の値との間の整合の近
    さを表わす整合スコアを計算する手段と、 前記拡張セットの整合スコアが選択セットの整合スコア
    を選択されたゼロでない閾値だけ改善するならば、単語
    を拡張セットにおける単語モデルによりモデル化する手
    段とを設けることを特徴とする単語モデル化装置。
  11. 【請求項11】 前記拡張セットの整合スコアが前記選
    択セットの整合スコアを選択されたゼロでない閾値だけ
    改善しなければ、単語を前記選択セットにおける単語モ
    デルによりモデル化する手段を更に設けることを特徴と
    する請求項10記載の装置。
  12. 【請求項12】 前記単語が綴りを有し、前記装置が該
    単語の綴りを表わす綴り信号を格納する手段を更に設
    け、各セットの整合スコアが、 モデルのセットにおける確率的単語モデルと発声の音響
    的特徴の値との間の整合の近さ、および 前記モデルのセットにおける確率的単語モデルと単語の
    綴りとの間の整合の近さの重み付けされた組合わせを表
    わすことを特徴とする請求項11記載の装置。
  13. 【請求項13】 各セットの整合スコアを計算する前記
    手段が、 セットにおける各確率的単語モデルおよび各発声に対し
    て、(a)確率的単語モデルと各発声の音響的特徴の値
    との間の整合の近さ、および(b)前記確率的単語モデ
    ルと単語の綴りとの間の整合の近さの重み付けされた組
    合わせを表わす整合スコアを計算する手段と、 各発声に対して、発声とセットにおける確率的単語モデ
    ルとの間の最善の整合スコアを表わすセット最善整合ス
    コアを識別する手段と、 前記確率的単語モデルおよび全ての発声に対するセット
    の最善の平均整合スコアを表わすセット整合スコアを計
    算する手段とを含むことを特徴とする請求項12記載の
    装置。
  14. 【請求項14】 候補セットにおける各確率的単語モデ
    ルに対して、(a)候補の確率的単語モデルおよび選択
    セットにおける確率的単語モデルのジョイント・セット
    と、各発声の音響的特徴の値との間の整合の近さ、およ
    び(b)前記確率的単語モデルのジョイント・セットと
    単語の綴りとの間の整合の近さの重み付けされた組合わ
    せを表わすジョイント整合スコアを計算する手段と、 最善のジョイント整合スコアを有する前記ジョイント・
    セットを拡張セットとして選択する手段とを更に設ける
    ことを特徴とする請求項13記載の装置。
  15. 【請求項15】 最初に前記選択セットが、前記候補セ
    ットにおけるどの確率的単語モデルの整合スコアよりも
    良好な整合スコアを有する1つの確率的単語モデルから
    なることを特徴とする請求項10記載の装置。
  16. 【請求項16】 少なくとも2回発声される単語をモデ
    ル化する方法を実行するようにマシンを構成する方法で
    あって、各発声が1つの値を持つ少なくとも1つの音響
    的特徴を有する方法において、 各発声の音響的特徴の値を測定し、 1つ以上の確率的単語モデル信号の選択セットを格納
    し、該選択セットにおける各確率的単語モデル信号が確
    率的単語モデルを表わし、 選択セットに対して、該選択セットにおける確率的単語
    モデルと各発声の音響的特徴の値との間の整合の近さを
    表わす整合スコアを計算し、 1つ以上の確率的単語モデル信号の候補セットを格納
    し、該候補セットにおける各確率的単語モデル信号が確
    率的単語モデルを表わし、候補セットにおける各確率的
    単語モデルが、選択セットにおける各確率的単語モデル
    とは異なっており、 前記選択セットにおける確率的単語モデルと、前記候補
    セットからの1つの確率的単語モデル信号とを含む拡張
    セットを格納し、 前記拡張セットに対して、拡張セットにおける確率的単
    語モデルと各発声の音響的特徴の値との間の整合の近さ
    を表わす整合スコアを計算し、 前記拡張セットの整合スコアが前記選択セットの整合ス
    コアを選択されたゼロでない閾値だけ改善するならば、
    単語を拡張セットにおける単語モデルによりモデル化す
    るステップを含むことを特徴とする方法。
  17. 【請求項17】 前記拡張セットの整合スコアが前記選
    択セットの整合スコアを選択されたゼロでない閾値だけ
    改善しなければ、単語を前記選択セットにおける単語モ
    デルによりモデル化するステップを更に含むことを特徴
    とする請求項16記載の方法。
  18. 【請求項18】 前記単語が綴りを有し、前記方法が単
    語の綴りを表わす綴り信号を格納するステップを更に含
    み、各セットの整合スコアが、 前記モデル・セットにおける確率的単語モデルと発声の
    音響的特徴の値との間の整合の近さ、および 前記モデル・セットにおける確率的単語モデルと単語の
    綴りとの間の整合の近さの重み付けされた組合わせを表
    わすことを特徴とする請求項16記載の方法。
  19. 【請求項19】 各セットの整合スコアが、 前記セットにおける各確率的単語モデルおよび各発声に
    対して、(a)前記確率的単語モデルと各発声の音響的
    特徴の値との間の整合の近さ、および(b)前記確率的
    単語モデルと単語の綴りとの間の整合の近さの重み付け
    された組合わせを表わす整合スコアを計算し、 各発声に対して、該発声とセットにおける確率的単語モ
    デルとの間の最善の整合スコアを表わすセット最善整合
    スコアを識別し、 確率的単語モデルおよび全ての発声に対するセット最善
    の平均整合スコアを表わすセット整合スコアを計算する
    ステップにより計算されることを特徴とする請求項18
    記載の方法。
  20. 【請求項20】 候補セットにおける各確率的単語モデ
    ルに対して、(a)候補の確率的単語モデルおよび選択
    セットにおける確率的単語モデルのジョイント・セット
    と各発声の音響的特徴の値との間の整合の近さ、および
    (b)確率的単語モデルのジョイント・セットと単語の
    綴りとの間の整合の近さの重み付けされた組合わせを表
    わすジョイント整合スコアを計算し、 最善のジョイント整合スコアを有するジョイント・セッ
    トを拡張セットとして選択するステップを更に含むこと
    を特徴とする請求項19記載の方法。
  21. 【請求項21】 前記選択セットが、最初に、前記候補
    セットにおけるどの確率的単語モデルの整合スコアより
    も良好なセット整合スコアを有する1つの確率的単語モ
    デルからなることを特徴とする請求項16記載の方法。
JP3195247A 1990-10-23 1991-08-05 発声された単語のモデル化方法および装置 Expired - Lifetime JP2662112B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/602,020 US5293451A (en) 1990-10-23 1990-10-23 Method and apparatus for generating models of spoken words based on a small number of utterances
US602020 1990-10-23

Publications (2)

Publication Number Publication Date
JPH05143093A true JPH05143093A (ja) 1993-06-11
JP2662112B2 JP2662112B2 (ja) 1997-10-08

Family

ID=24409651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3195247A Expired - Lifetime JP2662112B2 (ja) 1990-10-23 1991-08-05 発声された単語のモデル化方法および装置

Country Status (4)

Country Link
US (1) US5293451A (ja)
EP (1) EP0482395A3 (ja)
JP (1) JP2662112B2 (ja)
CA (1) CA2051602C (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2570448B2 (ja) * 1989-12-28 1997-01-08 日本電気株式会社 標準パターン学習方法
US6073097A (en) * 1992-11-13 2000-06-06 Dragon Systems, Inc. Speech recognition system which selects one of a plurality of vocabulary models
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5497337A (en) * 1994-10-21 1996-03-05 International Business Machines Corporation Method for designing high-Q inductors in silicon technology without expensive metalization
DE19532114C2 (de) * 1995-08-31 2001-07-26 Deutsche Telekom Ag Sprachdialog-System zur automatisierten Ausgabe von Informationen
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
US6574597B1 (en) * 1998-05-08 2003-06-03 At&T Corp. Fully expanded context-dependent networks for speech recognition
NZ506981A (en) * 2000-09-15 2003-08-29 Univ Otago Computer based system for the recognition of speech characteristics using hidden markov method(s)
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US8548807B2 (en) * 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
US8473293B1 (en) * 2012-04-17 2013-06-25 Google Inc. Dictionary filtering using market data
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59195299A (ja) * 1983-04-20 1984-11-06 富士通株式会社 特定話者音声認識装置
JPS59201100A (ja) * 1983-04-30 1984-11-14 富士通株式会社 音声標準パタン登録方法
JPS6060697A (ja) * 1983-09-13 1985-04-08 富士通株式会社 音声標準特徴パタ−ン作成処理方式

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US5146503A (en) * 1987-08-28 1992-09-08 British Telecommunications Public Limited Company Speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59195299A (ja) * 1983-04-20 1984-11-06 富士通株式会社 特定話者音声認識装置
JPS59201100A (ja) * 1983-04-30 1984-11-14 富士通株式会社 音声標準パタン登録方法
JPS6060697A (ja) * 1983-09-13 1985-04-08 富士通株式会社 音声標準特徴パタ−ン作成処理方式

Also Published As

Publication number Publication date
CA2051602A1 (en) 1992-04-24
EP0482395A3 (en) 1993-08-04
JP2662112B2 (ja) 1997-10-08
EP0482395A2 (en) 1992-04-29
US5293451A (en) 1994-03-08
CA2051602C (en) 1996-03-05

Similar Documents

Publication Publication Date Title
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
US5949961A (en) Word syllabification in speech synthesis system
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
EP1668628A1 (en) Method for synthesizing speech
JPH0581918B2 (ja)
JP2001517816A (ja) 連続および分離音声を認識するための音声認識システム
JPH02273795A (ja) 連続音声認識方法
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPH0772839B2 (ja) 自動音声認識用に音類似に基づく文脈依存カテゴリへ音素の発音をグループ化する方法と装置
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
JP2662112B2 (ja) 発声された単語のモデル化方法および装置
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
JP3447521B2 (ja) 音声認識ダイアル装置
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP2001092482A (ja) 音声合成システム、および音声合成方法
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2005534968A (ja) 漢字語の読みの決定
KR19980013825A (ko) 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
RU2101782C1 (ru) Способ распознавания слов в слитной речи и система для его реализации
JP2000315095A (ja) 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体