JPH05143093A

JPH05143093A - 発声された単語のモデルを生成する方法および装置

Info

Publication number: JPH05143093A
Application number: JP3195247A
Authority: JP
Inventors: Peter F Brown; ピーター・フイツツヒユー・ブラウン; Gennaro Steven V De; ステイーブン・ヴイセント・デ・ジエナロ; Peter V Desouza; ピーター・ヴインセト・デソウザ; Mark E Epstein; マーク・エドワード・エプスタイン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1990-10-23
Filing date: 1991-08-05
Publication date: 1993-06-11
Anticipated expiration: 2012-10-08
Also published as: CA2051602A1; EP0482395A3; JP2662112B2; EP0482395A2; US5293451A; CA2051602C

Abstract

(57)【要約】【目的】（ａ）確率的単語モデルと少なくとも２回の
発声の音響的特徴との間の整合の近さ、および（ｂ）単
語モデルと単語の綴りとの間の整合の近さを表わす整合
スコアに基いて単語をモデル化する方法および装置を提
供する。【構成】整合スコアは、セット整合スコア計算器２８
によって１つ以上の確率的単語モデルの選択セット２４
に対して計算される。整合スコアはまた、選択セットに
おける確率的単語モデルおよび候補セットにおける１つ
の確率的単語モデルからなる拡張セット３０に対しても
計算される。拡張セットの整合スコアが選択セットの整
合スコアを選択されたゼロでない閾値だけ改善するなら
ば、単語が拡張セットにおける単語モデルによりモデル
化され、拡張セットの整合スコアが選択セットの整合ス
コアを選択されたゼロでない閾値により改善しなけれ
ば、単語が選択セットにおける単語によりモデル化され
るように単語モデル・セット・セレクタ４６により単語
モデル・セットが選択される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、発声された単語の機械
認識に関する。特に、本発明は、発声された単語の機械
モデルを生成するための方法および装置、およびかかる
方法を実行する機械を構成するための事柄に関する。

【０００２】

【従来の技術】音声認識機械においては、機械の語彙に
おける各単語は、１つ以上のモデルからなるセットによ
り表わされる。ユーザが新しい単語を音声認識装置の語
彙に加えることを欲する時、新しい単語と対応する少な
くとも１つのモデルが生成されねばならない。

【０００３】単語の綴りおよび単語の１つの発声に基い
て単語の音声認識モデルを生成する方法については、
Ｊ．Ｍ．Ｌｕｃａｓｓｅｎ等の論文「音素の基本形の自
動的決定に対する情報理論的試み（ＡｎＩｎｆｏｒｍ
ａｔｉｏｎＴｈｅｏｒｅｔｉｃＡｐｐｒｏａｃｈ
ｔｏｔｈｅＡｕｔｏｍａｔｉｃＤｅｔｅｒｍｉｎ
ａｔｉｏｎｏｆＰｈｏｎｅｍｉｃＢａｓｅｆｏｒ
ｍｓ）」（Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１
９８４ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎ
ｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅ
ｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、第
３巻、４２．５．１〜４２．５．４、１９８４年３月）
に記載されている。

【０００４】もしユーザが新しい単語を多数回発声すれ
ば、Ｌｕｃａｓｓｅｎ等の方法において認識されない問
題が生起する。新しい単語の各発声が異なるモデルを生
成しがちである。新しい単語の全ての発声により生成さ
れる全ての単語モデルを記憶することは実用的でないた
め、新しい単語に対する１つ以上の単語モデルのサブセ
ットを選択する必要がある。

【０００５】

【発明の概要】本発明の目的は、音声認識機械の語彙に
加えられる新しい単語を表わす１つ以上の単語モデルか
らなるセットを生成するための方法および装置の提供に
ある。

【０００６】本発明の別の目的は、少なくとも２つの発
声による音響的整合スコア、および単語の綴りによる綴
り対音声整合スコアの加重平均に基いて、単語を表わす
１セットの単語モデルを生成するための方法および装置
の提供にある。

【０００７】本発明によれば、単語のモデル化のための
方法および装置において、１つの単語が少なくとも２回
発声される。各発声は、１つの値を持つ少なくとも１つ
の音響的特徴を有する。各発声のこの音響的特徴の値が
測定される。１つ以上の確率的単語モデル信号の選択さ
れたセットが記憶される。この選択されたセットの各確
率的単語モデル信号は、単語の確率的なモデルを表わ
す。

【０００８】この選択されたセットに対して、この選択
セット内の確率的単語モデルと各発声の音響的特徴の値
との間の整合の近さを表わす整合スコアが計算される。

【０００９】１つ以上の確率的単語モデル信号の候補の
セットもまた記憶される。候補のセットにおける各確率
的単語モデル信号は、単語の確率的モデルを表わす。候
補のセット内の各確率的単語モデル信号は、選択された
セットにおける各確率的単語モデルとは異なるものであ
る。

【００１０】拡張セットもまた記憶される。この拡張セ
ットは、選択セット内の複数の確率的単語モデル信号
と、候補セットからの１つの確率的単語モデル信号とか
らなっている。拡張セットに対しては、拡張セット内の
確率的単語モデルと、各発声の音響的特徴の値との間の
整合の近さを表わす整合スコアが計算される。もし拡張
セットの整合スコアが選択セットの整合スコアを選択さ
れたゼロでない閾値だけ改善するならば、この単語は拡
張セットにおける単語モデルによりモデル化される。

【００１１】もし拡張セットの整合スコアが選択セット
の整合スコアを選択されたゼロでない閾値だけ改善しな
ければ、この単語は選択セットにおける単語モデルによ
りモデル化される。

【００１２】本発明はこのような単語のモデル化の方法
を実行する機械を構成する事にも関する。

【００１３】単語の綴りを表わす綴り信号もまた記憶さ
れる。従って、各セット（例えば、候補セット、選択セ
ット、あるいは拡張セット）の整合スコアは、（ａ）モ
デルのセットにおける確率的単語モデルと発声の音響的
特徴の値との間の整合の近さ、および（ｂ）モデルのセ
ットにおける確率的単語モデルと単語の綴りとの間の整
合の近さ、の重み付けされた組合わせを表わす。

【００１４】本発明の１つの特質においては、各セット
の整合スコアは、セットにおける各確率的単語モデルお
よび各発声毎に、（ａ）確率的単語モデルと各発声の音
響的特徴の値との間の整合の近さ、および（ｂ）確率的
単語モデルと単語の綴りとの間の整合の近さ、の重み付
けされた組合わせを表わす整合スコアを計算することに
よって計算される。各発声毎に、セット内最良整合スコ
アが識別されて、発声とセット内の確率的単語モデルと
の間の最良の整合スコアを表わす。全ての発声における
セット内の確率的単語モデルに対するセット内最良平均
整合スコアを表わす１組の整合スコアが計算される。

【００１５】本発明は更に、候補セットにおける各確率
的単語モデル毎に、（ａ）候補の確率的単語モデルおよ
び選択セットにおける確率的単語モデルのジョイント・
セットと各発声の音響的特徴の値との間の整合の近さ、
および（ｂ）確率的単語モデルのジョイント・セットと
単語の綴りとの間の整合の近さ、の重み付けされた組合
わせを表わすジョイント整合スコアを計算することを含
む。この拡張セットは、最良のジョイント整合スコアを
持つジョイント・セットとして選択される。

【００１６】初めに、選択セットは、候補セットにおけ
るどれかの確率的単語モデルの整合スコアより良好な整
合スコアを持つ１つの確率的単語モデルからなる。

【００１７】本発明の別の特質においては、１つの単語
の第１の発声の少なくとも１つの特徴の値が、等しい長
さの一連の連続的な時間間隔にわたって測定される。こ
の特徴値は、第１の発声の特徴値を表わす第１の一連の
特徴ベクトル信号を生じるように、各時間間隔において
測定される。同様に、同じ単語の第２の発声の少なくと
も１つの特徴の値は、第２の発声の特徴値を表わす第２
の一連の特徴ベクトル信号を生じるように測定される。

【００１８】２つ以上の確率的単語モデル信号が記憶さ
れる。各確率的単語モデル信号は、単語の確率的モデル
を表わす。各確率的単語モデルおよび各発声毎に、確率
的単語モデルと発声により生じる一連の特徴ベクトル信
号との間の整合の近さを表わす整合スコアが計算され
る。各確率的単語モデル毎に、単語モデルおよび全ての
発声に対する平均整合スコアを表わす平均モデル整合ス
コアが計算される。

【００１９】上記の如く計算された整合スコアから、最
良の平均モデル整合スコアを持つ第１の確率的単語モデ
ルが選択される。次いで、第２の確率的単語モデルが選
択される。

【００２０】各発声毎に、発声と第１および第２の確率
的単語モデルとの間の最良の整合スコアを表わすセット
内最良整合スコアが識別される。第１および第２の確率
的単語モデルおよび全ての発声に対するセット内最良平
均整合スコアを表わすセット平均整合スコアが計算され
る。もしセット平均整合スコアが最良平均モデルの整合
スコアを選択されたゼロでない閾値だけ改善するなら
ば、単語は第１および第２の確率的単語モデルの双方に
よりモデル化される。

【００２１】セット平均整合スコアが最良平均モデル整
合スコアを選択されたゼロでない閾値だけ改善しなけれ
ば、単語は第２の確率的単語モデルではなく第１の確率
的単語モデルによりモデル化される。

【００２２】本発明による単語モデル化方法および装置
は、多数回発声された新しい単語を表わす１つ以上のモ
デルのサブセットを選択する故に有利である。この方法
および装置は、選択されたモデルのセットの整合スコア
を著しく改善しない発声に基く単語モデルを選択せずか
つセーブしない。このため、１つの単語の２つ以上の異
なるモデルは、単語の２回以上の発声が著しく異なる場
合にのみ選択される。

【００２３】

【実施例】図１は、本発明による単語のモデル化のため
の装置の一例を示す。本発明による方法および装置にお
いては、単語は少なくとも２回発声される。各発声は、
１つの値を持つ少なくとも１つの音響的特徴を有する。
各発声の前記音響的特徴の値は、適当な手段、例えば音
響的特徴プロセッサ１０により測定される。

【００２４】図２は、音響的特徴プロセッサの一例であ
る。音響トランスジューサ１２、例えばマイクロフォン
は、単語の発声をアナログ電気信号に変換する。アナロ
グ／ディジタル・コンバータ１４が、アナログ電気信号
をパルス・コード変調信号の如きディジタル電気信号に
変換する。

【００２５】時間ウインドウ・ジェネレータ１６が、等
しい持続時間の一連の連続する時間間隔にわたってパル
ス・コード変調電気信号をサンプルする。スペクトル・
アナライザ１８が、１つ以上の次元の音響的特徴ベクト
ルを生じるように、１つ以上の周波数帯域における各時
間間隔においてパルス・コード変調信号の振幅を決定す
る。

【００２６】多くの音響的特徴原型ベクトルが、音響的
特徴原型ストア２０に記憶される。各音響的特徴原型
は、各音響的特徴ベクトルと同数の次元を有する。しか
し、各音響的特徴原型ベクトルの値は予め定められて固
定される。

【００２７】音響的特徴原型セレクタ２２は、各音響的
特徴ベクトルをストア２０における全ての原型と比較す
る。最も近い原型が、対応する時間間隔の間に測定され
た発声の特徴の値を表わすラベルとしてセレクタ２２か
ら出力される。

【００２８】音声認識装置は、例えば、２００の音響的
特徴原型ベクトルを記憶することができる。しかし、本
発明の仮想的事例を示す目的のため、表１に示される如
きラベルＡ乃至Ｅで示される５つ１組の音響的特徴原型
を仮定することにする。

【００２９】

【表１】

【００３０】本例を続けて、単語「ＬＯＧ」が２回発声
される。「ＬＯＧ」の最初の発声と同時に、音響的特徴
プロセッサ１０がラベル・ストリングＡＢＢＣを出力す
るものと仮定する。２度目の発声と同時に音響的特徴プ
ロセッサ１０はラベル・ストリングＡＤＤＣを出力す
る。

【００３１】図１に戻って、本発明による装置は、選択
セットの単語モデルに対するストア２４と、候補セット
の単語モデルに対するストア２６とを含む。各セット
は、１つ以上の確率的単語モデル信号を含み、各確率的
単語モデル信号は単語の確率的モデルを表わす。候補セ
ットにおける各確率的単語モデルは、選択セットにおけ
る各確率的単語モデルとは異なる。

【００３２】図３は、１つの単語の確率的マルコフ（Ｍ
ａｒｋｏｖ）・モデルの一例を略図的に示している。こ
のマルコフ単語モデルは、４つの状態Ｓ₀乃至Ｓ₃を有す
る。状態Ｓ₀乃至Ｓ₂の各々は、この状態からそれ自体へ
の遷移を有する。状態Ｓ₀乃至Ｓ₂の各々は、それ自体か
ら次の状態への遷移を有する。図３には示さないが、各
遷移と関連して遷移の発生確率、および遷移の発生と同
時に音響的特徴を表わす１つのラベル（例えば、ラベル
Ａ乃至Ｅの１つと対応する）を出力する確率がある。

【００３３】単語モデルは、単語が話される時に発声さ
れる音素の１つ以上のモデルを連結することにより構成
することができる。１つの音素の確率的マルコフ・モデ
ルは、例えば、１つの開始状態、１つの終了状態、開始
状態からそれ自体への遷移、および開始状態から終了状
態への遷移からなっている。各遷移は、これと関連し
て、発生の確率および音響的特徴を表わす１つ以上のラ
ベルの発生の確率を有する。より複雑な音素は、複数の
状態および遷移を有する確率的マルコフ・モデルにより
表わすことができる。

【００３４】単語モデルを生成する１つの方法におい
て、英語のアルファベット文字の発音の変化と対応する
音を表わす音素モデルのストリングを連結することによ
り、単語モデルを作ることができる。表２の仮想例にお
いては、確率的単語モデルを形成するように種々の組合
わせで連結し得る７０の音素モデルＭ１乃至Ｍ７０があ
る。

【００３５】

【表２】

【００３６】また、表２に示されるように、アルファベ
ットの各文字、Ａ乃至Ｚは、１つの単語における文字の
発音が音素モデルＭ１乃至Ｍ７０の各々と対応する音を
生じる確率が割当てられている。

【００３７】表２において示される確率は仮想ものもの
であるが、前掲のＬｕｃａｓｓｅｎ等の論文に記載され
る方法で筆記され話された言語の分析により有効な確率
データを得ることができる。更に、表２の事例に示した
確率は文脈から独立であるが、文脈依存確率データは、
改善された確率的単語モデルを生じることが期待され
る。

【００３８】音素のｎ個のモデルがありかつ単語の綴り
中の各文字が１つの音素と対応できる場合で、単語中に
ｍ個の文字を有する単語の綴りに基いて確率的単語モデ
ルを構成するために、音素モデルの異なる組合わせを連
結することによりｎ^m個の単語モデルを生成することが
できる。

【００３９】例えば、単語「ＬＯＧ」は３つの文字を含
む。７０音素モデルの事例においては、音素モデルから
構成することができる単語「ＬＯＧ」に対しては、７０
³＝３４３，０００の異なるあり得る単語モデルが存在
する。

【００４０】最良の単語モデルを決定するために「ＬＯ
Ｇ」に対して３４３，０００個の全てのあり得る単語モ
デルを調べることができるが、最良と予期される限られ
たモデルを３４３，０００個のあり得る単語モデルから
選択するため種々の基準を用いることができる。本例に
おいては、単語「ＬＯＧ」における各文字毎に、最も高
い確率を持つ１つまたは２つの音素モデルが、「ＬＯ
Ｇ」に対してあり得る単語モデルを連結するため選択さ
れた。表２に示される仮想の確率に基いて、表３に示さ
れる単語モデルが構成された。

【００４１】

【表３】

【００４２】表３における単語モデルは、「ＬＯＧ」の
異なるあり得る発音と対応している。例えば、音素モデ
ルＭ４は、「ＢＡＬＬ」における「Ｌ」音と対応し得
る。音素モデルＭ１は、「ＬＡＷ」における「ＡＷ」音
と対応するが、音素モデルＭ３は「ＣＯＴ」における
「Ｏ」音と対応する。音素モデルＭ５は、「ＧＯＯＤ」
における「Ｇ」音と対応し、音素モデルＭ７０は「ＪＯ
Ｂ」における「Ｊ」音と対応する。表３は、各モデル毎
の仮想的発音を含む。

【００４３】表３における単語モデルは、適当な方法で
選択セットと候補セットに分割することができる。

【００４４】図１に戻り、セット整合スコア計算器２８
が、セットにおける確率的単語モデルと単語の各発声の
音響的特徴の値との間の整合の近さを表わす整合スコア
をどのモデル・セットについても計算する。

【００４５】最初に、選択セットは、候補セットにおけ
るどの確率的単語モデルの整合スコアより良好な整合ス
コアを有する１つの確率的単語モデルからなる。

【００４６】このため、表３の事例によれば、最初に、
選択セットは、最良の整合スコアを持つ表３からの１つ
の確率的単語モデルからなる。

【００４７】あり得る単語モデルに対する個々の整合ス
コアは、（ａ）確率的単語モデルと各発声の音響的特徴
の値との間の整合の近さ、および（ｂ）確率的単語モデ
ルと単語の綴りとの間の整合の近さ、の重み付けされた
された組合わせにより得ることができる。

【００４８】表４は、表３の単語モデルの各々に対する
整合スコア計算の一例を示している。本例においては、
ある発声に対する加重平均整合スコアは、重み係数を乗
じた音響的整合スコアの和に、重み係数を乗じた綴り対
音のスコアを加えたものである。

【００４９】

【表４】

【００５０】本例においては、綴り対音スコアに対する
重み係数は０．００５である。音響的整合スコアに対す
る重み係数は、０．５である。一般に、重み係数は、実
験的に選択される。音響的整合スコアの重み係数は、単
語の発声回数が増加するに伴い、綴り対音スコアの重み
係数に関連して増加することが望ましい。１つのモデル
に対する全整合スコアは、全ての発声におけるモデルに
対する加重平均整合スコアの平均である。

【００５１】各単語モデルに対して、綴り対音スコア
は、例えば単語の全ての文字に対する単語の綴りにおけ
る対応する文字を与える音素モデルの確率の積として得
ることができる。このため、基本形Ｍ４Ｍ１Ｍ５に
対して、綴り対音スコアはＰ（Ｍ４｜”Ｌ”）Ｐ（Ｍ１
｜”Ｏ”）Ｐ（Ｍ５｜”Ｇ”）に等しい。表２の仮想的
確率から、綴り対音スコアは（０．９）（０．３５）
（０．８）＝０．２５２に等しい。

【００５２】各単語モデルと各発声間の音響的整合スコ
アは、例えば、単語モデルが発声の音響的特徴を表わす
音響ラベルを生じる確率を計算することにより得ること
ができる。

【００５３】表５〜８は、仮想音響的整合スコアの計算
を示す。各単語モデルに対して、表５〜８は、提起され
た単語モデルを構成する音素モデルに対する仮想的遷移
確率およびラベル確率を示す。これらの表はまた、各仮
想的単語モデルが観察されるラベル・ストリングを生じ
る確率として音響的整合スコアの計算を示す。これらの
確率は、図４に示される如く各単語モデルにおける状態
Ｓ₀乃至状態Ｓ₃に対する全ての経路について計算され
る。

【００５４】表５〜８において、音素モデル・パラメー
タが、１つの遷移に対する各開始状態Ｓｉおよび各最終
状態Ｓｆに対し指定される。遷移の確率は、Ｐ（Ｓｆ｜
Ｓｉ）として指定される。選択される遷移に対して出力
されるラベルＡの確率は、Ｐ（Ａ｜Ｓｉ→Ｓｆ）であ
る。他のラベル出力の確率も同様に指定される。

【００５５】音響的整合スコアは、各時間間隔ｔ毎に、
出力ラベルＸｔを観察し前の状態（Ｓｔ−１）を与える
状態Ｓｔで終る確率Ｐ（Ｓｔ，Ｘｔ｜Ｓｔ−１）を計算
することにより得られる。時間ｔで状態Ｓｔを終る全て
の経路について加算することにより、状態Ｓｔにあって
ラベルＸ１乃至Ｘｔを観察する確率Ｐ（Ｓｔ，Ｘ１ｔ）
が得られる。

【００５６】

【表５】

【００５７】

【００５８】

【表６】

【００５９】

【００６０】

【表７】

【００６１】

【００６２】

【表８】

【００６３】

【００６４】音響的整合計算の結果は、前掲の表４にお
いて要約される。単語モデルＭ４Ｍ１Ｍ５が最良の整合
スコアを持つため、これが初期選択セットを形成するた
め選択される。単語モデルＭ４Ｍ１Ｍ５が初期選択セッ
トにおける唯一の単語モデルであるため、初期選択セッ
トの整合スコアは単語モデルの整合スコアに等しい（表
９参照）。

【００６５】

【表９】

【００６６】初期選択セットに対する最良の整合スコア
を持つ１つの確率的単語モデルＭ４Ｍ１Ｍ５を識別した
後、残りの単語モデルが図１の候補セット・ストア２６
に格納される。

【００６７】単語モデルの候補セットからの１つの候補
モデルが、単語モデルの選択セットと組合わされて拡張
セット・ストア３０に格納される拡張セットを形成する
（図１）。拡張セットに対しては、セットの整合スコア
計算器２８は、拡張セットにおける確率的単語モデルと
各発声の音響的特徴の値との間の整合の近さに関する整
合スコアを計算する。

【００６８】図５は、セット整合スコア計算器２８の構
造の一例のブロック図である。このセット整合スコア計
算器２８は、音響的特徴プロセッサ１０および１組の単
語モデル・ストア３４からの入力を受取る個別の整合ス
コア計算器３２を含む。図５のストア３４は、図１のス
トア２４、２６あるいは３０の１つ以上と対応する。セ
ット整合スコア計算器３２はまた、単語綴りストア３６
および綴り対音ルール・ストア３８から入力を受取る。
単語の綴りは、キーボード４０によって単語綴りストア
３６へ入力される。

【００６９】個々の整合スコア計算器３２は、セットの
各確率的単語モデルおよび各発声毎に、（ａ）確率的単
語モデルと各発声の音響的特徴値との間の整合の近さ、
および（ｂ）確率的単語モデルと単語の綴りとの間の整
合の近さ、の重み付けされた組合わせを表わす整合スコ
アを計算する。

【００７０】計算器３２からの個々の整合スコアは、セ
ット最良整合スコア計算器４２へ送られる。セット最良
整合スコア計算器４２は、各発声毎に、発声とセットに
おける確率的単語モデルとの間の最良の整合スコアを表
わすセット最良整合スコアを識別する。

【００７１】計算器４２からのセット最良整合スコア
は、セット最良平均計算器４４へ送られる。セット最良
平均計算器４４は、確率的単語モデルおよび全ての発声
に対するセット最良平均整合スコアを表わすセット整合
スコアを計算する。

【００７２】図１に戻って、本発明による装置は、計算
器２８からセット整合スコアを受取る単語モデル・セッ
ト・セレクタ４６を含む。もし拡張セット整合スコア
が、選択されたゼロでない閾値だけ選択セット整合スコ
アを改善するならば、単語モデル・セット・セレクタ４
６は、拡張セットにおける単語モデルで単語をモデル化
する。次いで、拡張セットにおける単語モデルは、単語
モデル・ストア４８の選択されたセットへ出力される。
あるいはまた、もし拡張セットの整合スコアが選択され
たゼロでない閾値だけ選択セット整合スコアを改善しな
ければ、単語モデル・セット・セレクタ４６は、この選
択セットの単語モデルで単語をモデル化する。この場
合、選択セットにおける単語モデルは、単語モデル・ス
トア４８の選択されたセットに格納される。

【００７３】単語モデル・ストア３８の選択されたセッ
トに格納された単語モデルは、必要に応じて、図１に破
線で示される如き単語モデルの新しい選択セットを形成
することができる。この場合、本発明による方法は、候
補セットから別のモデルを加えることによりこれ以上
（閾値以上）の改善が得られるかどうかを判定するた
め、この新しい選択セットを用いて反復することができ
る。

【００７４】図６は、本発明の目的のために拡張セット
に組込まれるワード・モデルを選択する装置の一例のブ
ロック図である。本装置は、音響的特徴プロセッサ１
０、ワード・モデル・ストア２４の選択セット、ワード
・モデル・ストア２６の候補セット、ワードの綴りスト
ア３６、および綴対音の規則ストア３８からの入力を受
取るジョイント整合スコア計算器５０を含む。綴り対音
の規則ストア３８は、例えば、先の表２に示された形態
の如き綴り対音の確率表を含むことができる。整合スコ
ア計算器５０は、候補セットにおける各確率的ワード・
モデル毎に、（ａ）候補の確率的ワード・モデルと選択
セットにおける確率的ワード・モデルのジョイント・セ
ットと、各発声の音響的特徴の値との間の整合の近さ
と、（ｂ）確率的ワード・モデルのジョイント・セット
とワードの綴りとの間の整合の近さの重み付けされた組
合わせを表わすジョイント整合スコアを計算する。

【００７５】計算器５０からのジョイント整合スコア
は、拡張セット・セレクタ５２へ送られる。拡張セット
・セレクタ５２は、最善のジョイント整合スコアを有す
るジョイント・セットを拡張セットとして選択する。セ
レクタ５２からの選択された拡張セットは、単語モデル
・ストア３０の拡張セットへ送られる。

【００７６】本発明による単語のモデル化のための方法
および装置は、図２に関して述べた如き適当な音響的特
徴プロセッサを備えた汎用ディジタル・コンピュータ・
システムを適当にプログラミングすることにより実現さ
れる。このプログラムは、本発明による方法を実行する
ようにコンピュータ・システムを構成する。

【００７７】仮説事例に戻って、表１０〜１２は、ジョ
イント・セット整合スコア計算を示している。ジョイン
ト・セットＭ４Ｍ１Ｍ５およびＭ４Ｍ３Ｍ５が最善の整
合スコアを持つため、これが拡張セットとして選択され
る。

【００７８】

【表１０】

【００７９】

【表１１】

【００８０】

【表１２】

【００８１】計算された拡張セット整合スコアおよび計
算された選択整合スコアは、表１３に示される。もし整
合スコアにおける改善が選択されたゼロでない閾値を越
えるならば、単語は拡張セットにおける単語モデルによ
りモデル化される。この場合、単語「ＬＯＧ」は表１４
に示す発音によりモデル化されるが、表１５に示す発音
ではモデル化されない。

【００８２】

【表１３】

【００８３】

【表１４】

【００８４】

【表１５】

【図面の簡単な説明】

【図１】本発明による単語をモデル化するための装置を
示すブロック図である。

【図２】発声の少なくとも１つの音響的特徴の値を測定
するための装置を示すブロック図である。

【図３】確率的単語モデルの一例を示す概略図である。

【図４】図３の確率的単語モデルによる４倍長の全ての
あり得る経路を示す図である。

【図５】セットの整合スコアを計算するための装置を示
すブロック図である。

【図６】１つの拡張セットを選択するための装置を示す
ブロック図である。

【符号の説明】１０音響的特徴プロセッサ１２音響トランスジューサ１４アナログ／ディジタル・コンバータ１６時間ウインドウ・ジェネレータ１８スペクトル・アナライザ２０音響的特徴原型ストア２２音響的特徴原型セレクタ２４単語モデル選択セット・ストア２６単語モデル候補セット・ストア２８セット整合スコア計算器３０単語モデル拡張セット・ストア３２セット整合スコア計算器３４単語モデル・ストア３６単語綴りストア３８綴り対音ルール・ストア４２セット最良整合スコア計算器４４セット最良平均計算器４６単語モデル・セット・セレクタ４８単語モデル選択セット・ストア５２拡張セット・セレクタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ステイーブン・ヴイセント・デ・ジエナロアメリカ合衆国12564、ニユーヨーク州ポーリング、クールター・アベニユー 38 番地 (72)発明者ピーター・ヴインセト・デソウザアメリカ合衆国10542、ニユーヨーク州マーオパツク・フオールズ、ピー・オー・ボツクス 459 (72)発明者マーク・エドワード・エプスタインアメリカ合衆国10536、ニユーヨーク州カトナー、オールド・ヴイレツジ・レーン 14番地

Claims

【特許請求の範囲】

【請求項１】少なくとも２回発声された単語をモデル
化する方法であって、各発声は１つの値を持つ少なくと
も１つの音響的特徴を有する方法において、各発声の音響的特徴の値を測定し、１つ以上の確率的単語モデル信号の選択セットを格納
し、該選択セットにおける各確率的単語モデル信号は、
単語の確率的モデルを表わし、前記選択セットに対して、該選択セットにおける確率的
単語モデルと各発声の前記音響的特徴の値との間の整合
の近さを表わす整合スコアを計算し、１つ以上の確率的単語モデル信号の候補セットを格納
し、該候補セットにおける各確率的単語モデル信号は単
語の確率的モデルを表わし、前記候補セットにおける各
確率的単語モデルは、選択セットにおける各確率的単語
モデルとは異なっており、選択セットにおける確率的単語モデルおよび候補セット
からの１つの確率的単語モデル信号を含む拡張セットを
格納し、拡張セットに対して、該拡張セットにおける確率的単語
モデルと各発声の音響的特徴の値との間の整合の近さを
表わす整合スコアを計算し、拡張セットの整合スコアが選択セットの整合スコアを選
択されたゼロでない閾値だけ改善するならば、単語を拡
張セットにおける単語モデルでモデル化するステップを
含むことを特徴とする方法。
【請求項２】前記拡張セットの整合スコアが、前記選
択セットの整合スコアを選択されたゼロでない閾値だけ
改善しなければ、単語を前記選択セットにおける単語モ
デルによりモデル化するステップを更に含むことを特徴
とする請求項１記載の方法。
【請求項３】前記単語が綴りを有し、更に、前記方法
が単語の綴りを表わす綴り信号を格納するステップを含
み、各セットの整合スコアが、前記モデル・セットにおける確率的単語モデルと発声の
音響的特徴の値との間の整合の近さ、およびモデル・セットにおける確率的単語モデルと単語の綴り
との間の整合の近さの重み付けされた組合わせを表わす
ことを特徴とする請求項１記載の方法。
【請求項４】各セットの整合スコアが、セットにおける各確率的単語モデルおよび各発声に対し
て、（ａ）確率的単語モデルと各発声の音響的特徴の値との
間の整合の近さ、および（ｂ）確率的単語モデルと単語の綴りとの間の整合の近
さの重み付けされた組合わせを表わす整合スコアを計算
し、各発声に対して、発声とセットにおける確率的単語モデ
ルとの間の最善の整合スコアを表わすセット最善整合ス
コアを識別し、確率的単語モデルおよび全ての発声に対するセット最善
の平均整合スコアを表わすセット整合スコアを計算する
ステップによって計算されることを特徴とする請求項３
記載の方法。
【請求項５】候補セットにおける含む確率的単語モデ
ルに対して、（ａ）候補の確率的単語モデルおよび選択セットにおけ
る確率的単語モデルのジョイント・セットと各発声の音
響的特徴の値との間の整合の近さ、および（ｂ）確率的
単語モデルのジョイント・セットと単語の綴りとの間の
整合の近さの重み付けされた組合わせを表わすジョイン
ト整合スコアを計算し、最善のジョイント整合スコアを有するジョイント・セッ
トを拡張セットとして選択するステップを更に含むこと
を特徴とする請求項４記載の方法。
【請求項６】最初に、前記選択セットが、候補セット
におけるどの確率的単語モデルの整合スコアより良好な
セット整合スコアを有する１つの確率的単語モデルから
なることを特徴とする請求項１記載の方法。
【請求項７】単語の最初の発声の少なくとも１つの特
徴の値を測定し、該第１の発声は、等しい持続時間Δｔ
の連続する一連の時間間隔にわたって生起し、前記各時
間間隔において測定される特徴値は前記最初の発声の特
徴値を表わす第１の一連の特徴ベクトル信号を生じ、前記単語の第２の発声の少なくとも１つの特徴値を測定
し、該第２の発声は、等しい持続時間Δｔの連続する一
連の時間間隔にわたって生起し、前記各時間間隔におい
て測定される特徴値は第２の発声の特徴値を表わす第２
の一連の特徴ベクトル信号を生じ、２つ以上の確率的単語モデル信号を格納し、各確率的単
語モデル信号は単語の確率的モデルを表わし、各確率的単語モデルおよび各発声に対して、確率的単語
モデルと発声により生じる一連の特徴ベクトル信号との
間の整合の近さを表わす整合スコアを計算し、各確率的単語モデルに対して、単語モデルおよび全ての
発声に対する平均整合スコアを表わす平均モデル整合ス
コアを計算し、最善の平均モデル整合スコアを持つ第１の確率的単語モ
デルを選択し、第２の確率的単語モデルを選択し、各発声に対して、発声と前記第１および第２の確率的単
語モデルとの間の最善の整合スコアを表わすセット最善
整合スコアを識別し、第１および第２の確率的単語モデルおよび全ての発声に
対するセット最善の平均整合スコアを表わすセット平均
整合スコアを計算し、前記セット平均整合スコアが前記最善平均モデル整合ス
コアを選択されたゼロでない閾値だけ改善するならば、
前記第１および第２の確率的単語モデルにより単語をモ
デル化することを特徴とする単語をモデル化する方法。
【請求項８】セット平均整合スコアが最善の平均モデ
ル整合スコアを選択されたゼロでない閾値だけ改善しな
ければ、第２の確率的単語モデルによらず、前記第１の
確率的単語モデルにより単語のモデル化を行うステップ
を更に含むことを特徴とする請求項７記載の方法。
【請求項９】単語が綴りを有し、各整合スコアが、確率的単語モデルと発声の音響的特徴の値との間の整合
の近さ、および確率的単語モデルと単語の綴りとの間の
整合の近さの重み付けされた組合わせを表わすことを特
徴とする請求項８記載の方法。
【請求項１０】１つの単語の少なくとも２回の発声の
各々の少なくとも１つの音響的特徴の値を測定する手段
と、１つ以上の確率的単語モデル信号の選択セットを格納す
る手段とを設け、選択セットにおける各確率的単語モデ
ル信号は確率的単語モデルを表わし、選択セットに対して、該選択セットにおける確率的単語
モデルと各発声の音響的特徴の値との間の整合の近さを
表わす整合スコアを計算する手段と、１つ以上の確率的単語モデル信号の候補セットを格納す
る手段とを設け、該候補セットにおける各確率的単語モ
デル信号は確率的単語モデルを表わし、候補セットにお
ける各確率的単語モデルは、選択セットにおける各確率
的単語モデルとは異なっており、前記選択セットにおける確率的単語モデル信号、および
前記候補セットからの１つの確率的単語モデル信号を含
む拡張セットを格納する手段と、前記拡張セットに対して、該拡張セットにおける確率的
単語モデルと各発声の音響的特徴の値との間の整合の近
さを表わす整合スコアを計算する手段と、前記拡張セットの整合スコアが選択セットの整合スコア
を選択されたゼロでない閾値だけ改善するならば、単語
を拡張セットにおける単語モデルによりモデル化する手
段とを設けることを特徴とする単語モデル化装置。
【請求項１１】前記拡張セットの整合スコアが前記選
択セットの整合スコアを選択されたゼロでない閾値だけ
改善しなければ、単語を前記選択セットにおける単語モ
デルによりモデル化する手段を更に設けることを特徴と
する請求項１０記載の装置。
【請求項１２】前記単語が綴りを有し、前記装置が該
単語の綴りを表わす綴り信号を格納する手段を更に設
け、各セットの整合スコアが、モデルのセットにおける確率的単語モデルと発声の音響
的特徴の値との間の整合の近さ、および前記モデルのセットにおける確率的単語モデルと単語の
綴りとの間の整合の近さの重み付けされた組合わせを表
わすことを特徴とする請求項１１記載の装置。
【請求項１３】各セットの整合スコアを計算する前記
手段が、セットにおける各確率的単語モデルおよび各発声に対し
て、（ａ）確率的単語モデルと各発声の音響的特徴の値
との間の整合の近さ、および（ｂ）前記確率的単語モデ
ルと単語の綴りとの間の整合の近さの重み付けされた組
合わせを表わす整合スコアを計算する手段と、各発声に対して、発声とセットにおける確率的単語モデ
ルとの間の最善の整合スコアを表わすセット最善整合ス
コアを識別する手段と、前記確率的単語モデルおよび全ての発声に対するセット
の最善の平均整合スコアを表わすセット整合スコアを計
算する手段とを含むことを特徴とする請求項１２記載の
装置。
【請求項１４】候補セットにおける各確率的単語モデ
ルに対して、（ａ）候補の確率的単語モデルおよび選択
セットにおける確率的単語モデルのジョイント・セット
と、各発声の音響的特徴の値との間の整合の近さ、およ
び（ｂ）前記確率的単語モデルのジョイント・セットと
単語の綴りとの間の整合の近さの重み付けされた組合わ
せを表わすジョイント整合スコアを計算する手段と、最善のジョイント整合スコアを有する前記ジョイント・
セットを拡張セットとして選択する手段とを更に設ける
ことを特徴とする請求項１３記載の装置。
【請求項１５】最初に前記選択セットが、前記候補セ
ットにおけるどの確率的単語モデルの整合スコアよりも
良好な整合スコアを有する１つの確率的単語モデルから
なることを特徴とする請求項１０記載の装置。
【請求項１６】少なくとも２回発声される単語をモデ
ル化する方法を実行するようにマシンを構成する方法で
あって、各発声が１つの値を持つ少なくとも１つの音響
的特徴を有する方法において、各発声の音響的特徴の値を測定し、１つ以上の確率的単語モデル信号の選択セットを格納
し、該選択セットにおける各確率的単語モデル信号が確
率的単語モデルを表わし、選択セットに対して、該選択セットにおける確率的単語
モデルと各発声の音響的特徴の値との間の整合の近さを
表わす整合スコアを計算し、１つ以上の確率的単語モデル信号の候補セットを格納
し、該候補セットにおける各確率的単語モデル信号が確
率的単語モデルを表わし、候補セットにおける各確率的
単語モデルが、選択セットにおける各確率的単語モデル
とは異なっており、前記選択セットにおける確率的単語モデルと、前記候補
セットからの１つの確率的単語モデル信号とを含む拡張
セットを格納し、前記拡張セットに対して、拡張セットにおける確率的単
語モデルと各発声の音響的特徴の値との間の整合の近さ
を表わす整合スコアを計算し、前記拡張セットの整合スコアが前記選択セットの整合ス
コアを選択されたゼロでない閾値だけ改善するならば、
単語を拡張セットにおける単語モデルによりモデル化す
るステップを含むことを特徴とする方法。
【請求項１７】前記拡張セットの整合スコアが前記選
択セットの整合スコアを選択されたゼロでない閾値だけ
改善しなければ、単語を前記選択セットにおける単語モ
デルによりモデル化するステップを更に含むことを特徴
とする請求項１６記載の方法。
【請求項１８】前記単語が綴りを有し、前記方法が単
語の綴りを表わす綴り信号を格納するステップを更に含
み、各セットの整合スコアが、前記モデル・セットにおける確率的単語モデルと発声の
音響的特徴の値との間の整合の近さ、および前記モデル・セットにおける確率的単語モデルと単語の
綴りとの間の整合の近さの重み付けされた組合わせを表
わすことを特徴とする請求項１６記載の方法。
【請求項１９】各セットの整合スコアが、前記セットにおける各確率的単語モデルおよび各発声に
対して、（ａ）前記確率的単語モデルと各発声の音響的
特徴の値との間の整合の近さ、および（ｂ）前記確率的
単語モデルと単語の綴りとの間の整合の近さの重み付け
された組合わせを表わす整合スコアを計算し、各発声に対して、該発声とセットにおける確率的単語モ
デルとの間の最善の整合スコアを表わすセット最善整合
スコアを識別し、確率的単語モデルおよび全ての発声に対するセット最善
の平均整合スコアを表わすセット整合スコアを計算する
ステップにより計算されることを特徴とする請求項１８
記載の方法。
【請求項２０】候補セットにおける各確率的単語モデ
ルに対して、（ａ）候補の確率的単語モデルおよび選択
セットにおける確率的単語モデルのジョイント・セット
と各発声の音響的特徴の値との間の整合の近さ、および
（ｂ）確率的単語モデルのジョイント・セットと単語の
綴りとの間の整合の近さの重み付けされた組合わせを表
わすジョイント整合スコアを計算し、最善のジョイント整合スコアを有するジョイント・セッ
トを拡張セットとして選択するステップを更に含むこと
を特徴とする請求項１９記載の方法。
【請求項２１】前記選択セットが、最初に、前記候補
セットにおけるどの確率的単語モデルの整合スコアより
も良好なセット整合スコアを有する１つの確率的単語モ
デルからなることを特徴とする請求項１６記載の方法。