JPH0575119B2 - - Google Patents

Info

Publication number
JPH0575119B2
JPH0575119B2 JP4963286A JP4963286A JPH0575119B2 JP H0575119 B2 JPH0575119 B2 JP H0575119B2 JP 4963286 A JP4963286 A JP 4963286A JP 4963286 A JP4963286 A JP 4963286A JP H0575119 B2 JPH0575119 B2 JP H0575119B2
Authority
JP
Japan
Prior art keywords
keys
key
word
phoneme
preliminary selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4963286A
Other languages
English (en)
Other versions
JPS62206597A (ja
Inventor
Koichiro Hatasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP4963286A priority Critical patent/JPS62206597A/ja
Publication of JPS62206597A publication Critical patent/JPS62206597A/ja
Publication of JPH0575119B2 publication Critical patent/JPH0575119B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声認識装置、音声入力装置等にお
いて用いられ、入力音声に出現している可能性の
高い単語を認識用単語辞書等から効率よく選択す
る音声認識における単語予備選択方式に関する。
(従来の技術) 音声認識装置、音声入力装置では、通常、認識
対象の語彙をあらかじめ定めておき、入力音声を
その語彙中のひとつの単語あるいは単語の並びと
みなして認識処理を行なう。認識処理とは例え
ば、入力音声と語彙中の各単語の標準パターンと
のマツチング、あるいは入力音声の音素候補系列
と語彙中の各単位の音素系列とのマツチングを行
ない、入力音声にもつとも似ている単語または単
語の並びを求めることである。通常、この認識処
理には多大の計算量が必要である。しかも現在、
認識対象の語彙の大きさはますます増加してお
り、それに従つて認識処理に必要な計算量もます
ます増加している。
そこで、音声が入力されたとき、その入力音声
に出現している可能性の高い単語のみを認識対象
の語彙からその一部を予備的に選択し、選択され
た単語に対してのみ認識処理を行なうことによ
り、認識処理に必要な計算量を減少させる方法を
とつている。
従来、予備選択は入力音声中で安定に検出でき
る音素クラスによつて行なわれている。すなわ
ち、入力音声中にいくつかのそのような安定な音
素クラスが検出されれば、認識対象の語彙中の単
語のうち、少なくともそれらの検出された音素ク
ラスをまつたく含まない単語がその入力音声中に
含まれている確率は非常に小さいという原理を用
いる。安定に検出できる音素クラスとしては、5
母音、摩擦音および撥音の各クラス、あるいは摩
擦音、破裂音等のおおまかに分類された子音のク
ラスなどある。
予備選択では、入力音声から得た1個以上の予
備選択のキーの少なくとも1個を含む単語が選択
結果として出力される。予備選択では、入力音声
に含まれる単語が正しく選択されている限りにお
いては、それ以外に選択される単語の数が少ない
ほど有効である。選択される単語の数を少なくす
るためには、予備選択のキーの種類を多くし、キ
ーの種類の総数に対する、入力音声から得る相異
なるキーの数の割合を小さくすればよい。このた
めに、従来から、入力音声中に検出された音素ク
ラスのn個の組み合わせを長さnのキーとして予
備選択を行なつている。
一方、通常は安定に検出できる音素クラスであ
つても、音声の発声時の調音変化や音素クラス検
出部の検出性能などのために、入力音声からの検
出時には、含まれているはずの音素クラスが脱落
したり、あるいは逆に本来存在しない音素クラス
が挿入されたりという検出誤りの生ずることがあ
る。従つて、検出された音素クラスの並びのなか
の連続する一部の並びだけを予備選択のキーとし
て用いるのでは、入力された単語が正しく選択さ
れない場合が生ずることになる。
以上の理由から、従来は、たとえば文献「板
橋、横山“語中部分音素系列の指定による語彙の
減少について”昭和58年日本音響学会講演論文集
1−1−3、昭和58年10月」、あるいは文献2「特
願昭60−173422、音声認識における単語予備選択
方式」に示されているように、入力音声中に検出
された音素クラスの並びのなかの必ずしも連続し
ないn個の音素クラスの並びを予備選択のキーと
して用い、このキーを同じ音素クラスを必ずしも
連続せずに含む単語を選択することにより、音素
クラスの検出誤りに対処して、単語の予備選択を
行なつていた。
(発明が解決しようとする問題点) 上述のようにキーの種類の総数が増えることに
より、選択される単語の数は少なくなり、より効
果的な予備選択が行なえる。しかしながら、従来
技術では、キーを構成する音素クラスとして安定
に検出できるものを使う必要があり、通常は上述
の5母音と撥音など、その数は6個程度である。
しかも、例えば3音節の単語を含む入力音声によ
つてその単語を予備選択しようとするならば、音
素クラスの検出ミスを考慮すれば、キーの長さは
2としなければならない。その場合、キーの種類
の総数は6の二乗で36個と少なく、このために誤
つて選択されてしまう単語が増加し、予備選択の
有効性が失なわれる。
(問題点を解決するための手段) 前述の問題点を解決するために本発明は、認識
対象の単語中および入力音声中の必ずしも連続し
ない音素クラスの並びをキーとし、前記入力音声
から取り出したキーと前記単語から取り出したキ
ーとの比較によつて予備選択を行なう音声認識用
単語予備選択方式において、あらかじめ、使用さ
れるすべてのキーを互いに類似したキーから構成
される複数個のグループに分類しておき、前記入
力音声から取り出されたキーのいずれかと単語中
のキーのいずれかとが互いに同じグループに属す
るときに選択結果として出力することを特徴とす
るものである。
(作用) 前述の問題点は、予備選択のキーを構成する音
素クラスとして安定して検出できるものだけを使
用して検出できるものだけを使用していたことに
起因する。これに対して本発明の方式では、従来
方式と同じく入力音声中の必ずしも連続しない音
素クラスの並びを予備選択のキーとするが、キー
の構成要素となる音素クラスとしては、従来技術
で用いていた安定に検出できる音素クラスのほか
に、ある程度の検出誤りが生ずる音素クラスをも
使用することを可能にする。この結果、例えば、
上述の母音だけではなく、子音もキーの構成要素
とする。
この場合、検出誤りによつて、入力音声中のあ
る音素クラスが異なる他の音素クラスとして検出
されることがある。しかしながら、通常、このよ
うな検出誤りにはある誤りの傾向が存在する。す
なわち、ある音素クラスの検出を誤るときには、
その音素クラスと類似した他の音素クラスに誤る
ことが多い。また、この誤りの傾向は音素クラス
検出方法にも依存し、音素クラス検出方法が異な
れば誤り傾向も異なる。
さらに、いくつかの音素クラスから構成される
予備選択のキーが検出誤りの生じた音素クラスを
含むと、誤つたキーとして入力音声から取り出さ
れることになる。この場合にも、キーの誤りには
音素クラスの検出誤りと同様の傾向がある。
そこで、本発明の方式では、すべてのキーをあ
らかじめ類似したキーどうしのグループに分類し
ておき、入力音声から取り出したキーと単語中の
キーとが同じグループに属するならば、その単語
を予備選択結果として出力する。これによつて、
音素クラスの検出誤りが生じても正しい単語を検
出できるようにしている。
この方式では、複数個のキーがひとつのグルー
プとなるために、グループの数はキーの種類の総
数の数分の1と少なくなる。しかしながら、キー
の構成要素として多数の音素クラスを使用するこ
とが可能となるため、そのグループの数は、従来
技術のような安定な音素クラスだけを使つたキー
の種類の総数よりも多くなり、より有効な予備選
択を行なうことができる。
(実施例) 以下では、図面を参照しつつ、実施例に従つて
本発明を詳細に説明する。
第1図は、本発明の一実施例を示すブロツク図
である。
本実施例では、予備選択のキーに使用する音素
クラスとして、a,i,u,e,oの5母音およ
び撥音Xおよびk,g,s,z,t,d,n,
b,m,y,r,wの子音の計19種類を用いる。
これらの音素クラスのうち5母音と撥音Xは入力
音声の中では比較的定常状態にあり、現在の技術
レベルで安定に検出できる。キーは、2音節分の
音素クラス列とする。日本語では音節は子音+母
音あるいはひとつの母音である。従つて2音節分
の音素クラス列であるキーの種類の総数は、約
1000個となる。
予備選択の処理に先立つて、あらかじめ定めた
テキストを発声した音声から、すべてのキーの音
声パターンを集めておき、このキーを互いに類似
したものどうしのグループに分類する。
このためには、クラスタリングの手法、例えば
階層的クラスタリング法を用いることができる。
クラスタリングを行なうためにキーどうしの距離
として、キーに対応する音声パターンのマツチン
グ距離を用いる。距離が小さいほど、類似したキ
ーである。また、あるクラスタに対して、これに
属するキーのうち、クラスタ内の他のキーとの距
離の和が最小のキーをクラスタ中心とする。階層
的クラスタリング法では、最初にすべてのキーの
それぞれを、それ自身がクラスタ中心であるクラ
スタとする。続いて、すべてのクラスタからクラ
スタ中心どうしの距離が最も小さい2つのクラス
タを求め、その2つのクラスタをまとめて新たな
ひとつのクラスタとする。この結果クラスタの数
は1個減少する。この処理を、クラスタの数があ
らかじめ定めた数、例えばp個になるまで繰り返
す。これによつて、すべてのキーを互いに類似し
たものどうしから成る、p個のグループに分ける
ことができる。
この結果、例えばe−ko,e−go,he−ko,
he−goなど、類似した音節から構成されるキー
は同じグループに属する。また、ひとつのグルー
プに属するキーの数を平均10個としても、グルー
プの数は約100個となる。このようにして求めた
p個のグループに1からpの番号を与え、各キー
とそれぞれが属するグループの番号との対応をキ
ー・グループ対応表106に記憶しておく。
以上の準備の後、予備選択が行なわれる。
入力音声はいつたん、音声メモリ101に記憶
される。音素クラス検出部102は、音声メモリ
101の入力音声から、予備選択のキーの構成要
素となる音素クラスを複数個検出し、音素クラス
メモリ103に各音素クラスとそれらの入力音声
中での位置とを記憶する。
例えば、「エイゴデワ」という入力音声から音
素クラスを検出する際、音素クラス/i/の検出
に失敗、/g/を/k/に、/d/を/t/に誤
つた結果、/e k o t e w a/の7
個の音素クラスが検出され、それぞれ入力音声中
の位置情報とともに音素クラスメモリ103に記
憶されたとする。
キー検出部104は、音素クラスメモリ103
から最大1個の音節の飛び越しを許して取り出し
た2個の音節の並びをキーとして取り出す。この
結果、キーメモリ105には、 e/ko e/te ko/te ko/wa の4個のキーが記憶される。
続いて、単語選択部107が、認識対象の語彙
の単語を記憶する単語辞書108の中のそれぞれ
の単語について予備選択を行なう。単語辞書10
8中のそれぞれの単語にもあらかじめ、その音素
クラス列から最大1個の音節の飛び越しを許して
取り出した2個の音節の並びをキーとして与えて
おく。予備選択は、入力音声から取り出した複数
個のキーのいずれかと、それぞれの単語に付与さ
れている複数個のキーのいずれかとが、同じグル
ープに属するか否かを判定することによつて行な
われる。すなわち、同じグループに属するキーが
あれば、その単語を予備選択候補として出力す
る。
例えば、単語辞書108中の単語「eigo(エイ
ゴ)」に対しては、次の3個のキーが与えられる。
(ア) e−i (イ) e−go (ウ) i−go これらのキーのそれぞれとキーメモリ105に
記憶されているキーのそれぞれとを比較する。す
なわち、それぞれのキーのグループ番号をキー・
グループ対応表106から取り出し、同じか否か
を調べる。今の場合は、e−koと(イ)e−goと
が同じグループに属することがわかり、この結果
単語「eigo(エイゴ)」は予備選択結果として出力
される。このように、入力音素クラスの検出の際
に誤りが生じても、入力音声中に含まれる単語を
正しく予備選択することができる。
一方、単語「taXgo(タンゴ)」には、 (エ) a−X (オ) a−go (カ) X−go の3個のキーが与えられているが、これらのいず
れも、キーメモリ103に記憶されているキーと
は同じグループに属せず、このため、この単語は
選択されない。
以下、単語辞書107の他のすべての単語につ
いても同様に調べられ、いくつかの単語が予備選
択結果として出力される。
以上、本発明の実施例を示したが、予備選択に
使用するキーは、実施例の2音節に限らず、さら
に、子音クラスの列などとしてもよい。
また、入力音声中のキーを記憶しておくのでは
なく、キーに対応したグループ番号を記憶してお
いたり、さらに単語辞書中では各単語にその単語
中のキーに対応するグループ番号をあらかじめ与
えておいてもよい。これによつて、各単語の予備
選択時にキー・グループ対応表を検索することを
省くことができる。
(発明の効果) 以上説明したように本発明を用いると、入力音
声からの検出の際に誤りをおこしやすい子音等の
音素クラスもキーの構成要素とすることが可能に
なる。そのため、例えば2音節に相当する長さの
キーを予信選択に用いるとすると、従来の方式で
2つの母音でキーを構成しなければならず、その
種類の数が36個と少ないのに対し、本発明では実
施例で示したようにキーのグループの数は100個
と多くなる。この結果、選択される単語の数が少
ない、より有効な、音声認識用単語予備選択方式
を提供することができる。
【図面の簡単な説明】
第1図は、本発明の実施例を示すブロツク図で
ある。 101……音声メモリ、102……音素クラス
検出部、103……音素クラスメモリ、104…
…キー検出部、105……キーメモリ、キー・グ
ループ対応表、106,107……単語選択部、
108……単語辞書、109……キー選択部。

Claims (1)

    【特許請求の範囲】
  1. 1 認識対象の単語中および入力音声中の必ずし
    も連続しない音素クラスの並びをキーとし、前記
    入力音声から取り出したキーと前記単語から取り
    出したキーとの比較によつて予備選択を行なう音
    声認識用単語予備選択方式において、あらかじ
    め、使用されるすべてのキーを互いに類似したキ
    ーから構成される複数個のグループに分類してお
    き、前記入力音声から取り出されたキーのいずれ
    かと単語中のキーのいずれかと互いに同じグルー
    プに属するときに選択結果として出力することを
    特徴とする、音声認識用単語予備選択方式。
JP4963286A 1986-03-07 1986-03-07 音声認識用単語予備選択方式 Granted JPS62206597A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4963286A JPS62206597A (ja) 1986-03-07 1986-03-07 音声認識用単語予備選択方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4963286A JPS62206597A (ja) 1986-03-07 1986-03-07 音声認識用単語予備選択方式

Publications (2)

Publication Number Publication Date
JPS62206597A JPS62206597A (ja) 1987-09-11
JPH0575119B2 true JPH0575119B2 (ja) 1993-10-19

Family

ID=12836590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4963286A Granted JPS62206597A (ja) 1986-03-07 1986-03-07 音声認識用単語予備選択方式

Country Status (1)

Country Link
JP (1) JPS62206597A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6176055B2 (ja) 2013-10-21 2017-08-09 富士通株式会社 音声検索装置及び音声検索方法

Also Published As

Publication number Publication date
JPS62206597A (ja) 1987-09-11

Similar Documents

Publication Publication Date Title
Fujimura Syllable as a unit of speech recognition
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JPS61177493A (ja) 音声認識方法
Mangu et al. Error corrective mechanisms for speech recognition
US7328404B2 (en) Method for predicting the readings of japanese ideographs
Kohonen et al. Microprocessor implementation of a large vocabulary speech recognizer and phonetic typewriter for Finnish and Japanese
EP0425291A2 (en) Word recognition process and apparatus
JPH0575119B2 (ja)
JP2002278579A (ja) 音声データ検索装置
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP3039453B2 (ja) 音声認識装置
Rao et al. Word boundary hypothesization in Hindi speech
JPH10232693A (ja) 音声認識装置
EP0982712B1 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JPH07113925B2 (ja) 文字表記結果の対応関係判定システム
JPS62180462A (ja) 音声入力かな漢字変換装置
Hall et al. Doing phonological corpus analysis in a fieldwork context
JPH06289894A (ja) 日本語音声認識方法
JPH0575120B2 (ja)
JPH0869467A (ja) 日本語文書処理装置
Nakagawa et al. A word recognition method from a classified phoneme string in the LITHAN speech understanding system
JPS62206598A (ja) 音声認識における単語予備選択方式
JPH10301597A (ja) 音声認識装置
JPS5961899A (ja) 日本語音声入力装置