JPH103296A - 音声認識システムにおける単語予備選択装置 - Google Patents

音声認識システムにおける単語予備選択装置

Info

Publication number
JPH103296A
JPH103296A JP8156500A JP15650096A JPH103296A JP H103296 A JPH103296 A JP H103296A JP 8156500 A JP8156500 A JP 8156500A JP 15650096 A JP15650096 A JP 15650096A JP H103296 A JPH103296 A JP H103296A
Authority
JP
Japan
Prior art keywords
phoneme
word
recognition
stored
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8156500A
Other languages
English (en)
Inventor
Shintaro Murakami
伸太郎 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP8156500A priority Critical patent/JPH103296A/ja
Publication of JPH103296A publication Critical patent/JPH103296A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音素誤認識による単語選択誤りの発生を無く
すことができるようした。 【解決手段】 辞書11内の単語を構成する音素は、各
単語について予めファイルに記憶させて第1記憶部12
に格納される。一方、音素認識部24から出力される音
素認識結果が入力され、音素が一定値以上継続する場合
があるかを認識部13で認識する。この認識部13で認
識した音素はワードチェッカーを有する第2記憶部14
に記憶させ、この第2記憶部14に記憶された音素と、
前記第1記憶部12に格納された各単語についての音素
とを演算部15に入力して、ここで、ビットAND演算
が行われる。演算部15におけるビットAND演算結果
が「0」でない単語のみを、マッチング部25に入力し
てマッチング計算が行われる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識システ
ムにおける単語予備選択装置に関する。
【0002】
【従来の技術】音声認識システムの概要を図7に示す。
図7において、21は電話やマイクロフォンなどから構
成される音声入力装置で、この音声入力装置21から出
力される音声データは音声データ入力部22を介して出
力される。出力された音声データは特徴抽出部23に供
給され、この特徴抽出部23で音声データから有効なデ
ータが取り出されて周波数分析され、この周波数分析の
結果からスペクトル列が得られる。このスペクトル列は
音素認識部24に入力されて、例えば「23」種類の音
素に分類される。音素認識部24は、図示しないが、ニ
ューラルネットワークによって構成されている。このニ
ューラルネットワークは入力層、隠れ層、出力層からな
り、入力層に1時刻毎に5フレームのスペクトル列が入
力され、それの中央のスペクトルが、該当する音素がど
れであるかを出力層のユニットの値によって送出する。
結果は最大の出力値を示すものから2つのユニットを選
び、それが対応する音素を第1位、第2位候補として得
る。なお、音素認識部24に入力される5フレームのス
ペクトル列は、1時刻毎に1フレームずつずらされなが
ら入力されて行く。ニューラルネットワークはバックプ
ロパゲーション法によって、学習データに対して該当す
る音素のユニットが「1」を出力し、他のユニットが
「0」の値を出力するように学習される。
【0003】前記音素認識部24の出力に得られた第1
位、第2位音素候補列はマッチング部25に供給され
る。マッチング部25に供給された音素候補列は、マッ
チング部25で辞書内のテンプレート26と照合されて
マッチングされ、最も類似する単語又は単語列を結果と
して出力する。なお、マッチング部25における主なマ
ッチング方式には、例えばDTW法(時間正規化法)な
どがある。
【0004】
【発明が解決しようとする課題】上述した音声認識シス
テムでは、どんな入力音声に対しても、音素認識結果と
辞書単語のすべてとのマッチングを行うのが一般的であ
る。そのために、辞書に含まれる単語数が多い場合など
は、マッチング計算量も非常に多くなってしまい、認識
時間に大きく影響する。そこでマッチングの前に予め必
要な単語を限定してしまう単語予備選択方法が使用され
るようになってきた。しかし、入力音声から音素認識に
よって得られた音素系列を用いて予備選択を行う場合、
音素誤認識などの影響により、選択誤りが発生する問題
がある。
【0005】この発明は上記の事情に鑑みてなされたも
ので、音素認識結果と辞書単語のマッチング計算を行う
前に、一定フレーム以上継続した音素のみを用いて、単
語予備選択を行うことにより、音素誤認識による単語選
択誤りの発生を無くすことができる音声認識システムに
おける単語予備選択装置を提供することを課題とする。
【0006】
【課題を解決するための手段】この発明は、上記の課題
を達成するために、第1発明は、入力音声を音素列に変
換する音素認識部を有する音声認識システムにおいて、
辞書内の単語を構成する音素が、各単語について予めフ
ァイルに記憶されて格納された第1記憶部と、前記音素
認識部の音素認識結果を用いて、その中に一定値以上継
続する音素があるかを認識する認識部と、この認識部で
認識した音素を記憶する第2記憶部と、前記第1記憶部
に記憶されたファイル内の各単語について音素と、第2
記憶部に記憶された音素とが入力され、両音素をビット
AND演算する演算部と、この演算部による結果が
「0」でない単語のみが入力されて計算されるマッチン
グ部とからなることを特徴とするものである。
【0007】第2発明は、前記一定値以上継続する音素
は、第1、第2音素候補であることを特徴とするもので
ある。
【0008】
【発明の実施の形態】以下この発明の実施の第1形態を
図面に基づいて説明するに、図7と同一部分は同一符号
を付して述べる。図1において、11は辞書で、この辞
書11内の単語を構成する音素は、各単語について予め
ファイルに記憶させて第1記憶部12に格納される。一
方、音素認識部24から出力される音素認識結果(音素
候補列)が入力され、音素が一定値以上継続する場合が
あるかを認識部13で認識する。この認識部13で認識
した音素はワードチェッカーを有する第2記憶部14に
記憶させ、この第2記憶部14に記憶された音素と、前
記第1記憶部12に格納された各単語についての音素と
を演算部15に入力して、ここで、ビットAND演算が
行われる。演算部15におけるビットAND演算結果が
「0」でない単語のみをマッチング部25に入力してマ
ッチング計算が行われる。なお、音素認識部24から出
力される音素候補列としては、第1、第2音素候補列を
用いる。また、上記のようにビットAND演算結果が
「0」でない単語のみをマッチング計算時に用いること
により、マッチング時に使用する辞書単語数を減らし処
理時間を削減できるようになる。
【0009】一般に音素認識において、特に母音につい
ては、比較的精度よく求めることができる。また、母音
はある程度長く発声され、かつほとんどの単語の中に含
まれている。そこで、主に母音をターゲットとした方法
として、入力音声の音素認識結果と辞書単語のマッチン
グ計算を行なう前に、音素誤認識が起きていないと思わ
れる、一定フレーム以上継続した音素のみを用い、単語
予備選択を行う。これにより、音素誤認識による単語選
択誤りを少なくする。
【0010】次に図1の実施の第1形態の動作を述べ
る。実施の第1形態を要約すると第1形態は、音素認識
結果の中の、一定長以上続く音素を調べ、その音素を含
んでいる辞書単語のみをマッチング計算に利用するもの
である。第1形態においては、まず、図2に示すように
辞書内の各単語について、それに含まれる音素を予め第
1記憶部に記憶しておく。具体的には、音素番号を利用
して、例えば、単語nに音素番号iの音素が含まれてい
る時は、第2記憶部内のワードチェッカword checker
(n)の第iビットを「1」に設定する。その後、全て
の単語nについてワードチェッカ(n)の値を求め、フ
ァイルに格納する。
【0011】次に図3の動作フローチャートについて述
べる。図3において、ステップS1で入力音素列a(i)(1
≦i≦I、I:入力音素フレーム数)を読み込む。ここで、
a(i)は入力音声の音素認識結果の第iフレームとする。
ステップS1で,入力音素列a(i)を読み込んだ後、ステ
ップS2でi=1,フレーム継続数のカウンタcount=0とし
てステップS3により第iフレーム音素認識結果a(i)の
判断を行う。この判断で、a(i)=a(i+1)であるかを行
い、「yes」なら、ステップS4の音素長カウンタcount
の値を「1」増やす。また、ステップS3で「no」な
ら、count=1とし、予め定めた一定値Tに対し、ステッ
プS5の判断でcount≧Tとなれば、音素a(i)の音素番号
jを使用して、ステップS6で入力用チェッカinp check
er(このチェッカは入力音素列の構成音素を記憶する)
の音素a(i)に相当する第jビットの値を「1」にする。
図4は一定値T=4の場合における音素a(i)に相当する
“o”、“a”の音素番号のビットを「1」にする説明
図である。
【0012】ステップS6で第jビットの値を「1」に
した後、ステップS7でcount=1にしてからステップS
8でiフレームを増やしてステップS9によりi≧Iか
を判断して、「no」ならステップS3の処理に戻り、
「yes」ならステップS10でn=1としてステップS
11の判断処理を行う。ステップS11はビットAND
演算を行う判断処理で、入力用チェッカとワードチェッ
カ(n)についてビットAND演算を行ってその結果が
「0」にならない単語nについてステップS12でsele
ct(n)=1(select(n)とは、単語nを照合に用いるか判
断するためのフラグ)とし、そうでなければステップS
13でselect(n)=0とする。その後、ステップS14で
nを増やして、nが辞書単語数word numかどうかをステ
ップS15で判断する。その結果、「no」なら処理をス
テップS11から再び行い、「yes」なら、ステップS
16の判断処理を行う。ステップS16で「yes」ならs
elect(n)=1なる単語nについてのみ入力音素列とのマ
ッチング計算に用い、「no」ならマッチング計算に用い
ない。
【0013】次にこの発明の実施の第2形態を図5のフ
ローチャートについて述べるに、第1形態における図3
のフローチャートと同一機能には同一のステップ符号を
付して示す。
【0014】この発明の実施の第2形態は、前記第1形
態とは基本的には同じであるが、音素の継続長を計測す
る際に、音素認識結果の第2音素候補b(i)まで利用し
て、音素誤認識をより向上させるようにしたものであ
る。図5において、ステップS21で、まず、入力音素
列a(i),b(i)(1≦i≦I)を読み込む。ここで、a(i)は第i
フレーム音素認識結果の第1音素候補、b(i)は同じく第
2音素候補である。ステップS21で入力音素列を読み
込んだ後、ステップS22で、i=2、フレーム継続数の
カウンタcount=0あるいは現在長さを調べている音素pho
ne=a(1)の処理を行う。
【0015】この処理の後、ステップS23でa(i)=pho
neあるいはb(i)=phoneの判断処理を行い、「yes」なら
ステップS4のカウンタcountの値を「1」増やして、p
honeの値は変更しない。また、「no」ときには、ステッ
プS24に進んでcount=1とし、phone=a(i)とする。一
方、ステップS5で予め定めた一定値Tに対してcount
≧Tとなれば、ステップS6の処理を行って入力用チェ
ッカの第jビットの値を「1」にする。この様子を図6
に示す。図6は、一定値T=4の場合における、第1音
素候補と第2音素候補“o”、“a”の音素番号に相当
する部分のビットを「1」にする説明図である。ステッ
プS6の処理で第jビットの値を「1」にした後、ステ
ップS24からステップS8の処理を行ってステップS
25のi>Iかの判断処理を行う。このステップS25
で「no」ならステップS23から再び処理を行い、「ye
s」ならステップS10からステップS16の処理を行
って、第1形態を同様に入力音素列とのマッチング計算
に利用するか、利用しないかを判断する。
【0016】次表1はこの発明の実施の第1形態を用い
て認識実験を行った結果である。また、表2はこの発明
の実施の第2形態を用いて認識実験を行った結果であ
る。
【0017】
【表1】
【0018】
【表2】
【0019】上記認識実験の実験条件を次の表3に示
す。
【0020】
【表3】
【0021】上記表1、2から2単語程度の入力の場
合、継続長Tの値によっては、認識率を低下させること
なく、入力音声とのマッチングに用いる単語数を減らす
ことができる。また、音素系列に含まれる音素のチェッ
クは処理が単純でほとんど時間がかからないため、これ
によって認識時間の短縮が図れる。
【0022】
【発明の効果】以上述べたように、この発明によれば、
音素認識結果と辞書単語のマッチング計算を行う前に、
一定フレーム以上継続した音素のみを用いて、単語予備
選択を行うことにより、音素誤認識による単語選択誤り
の発生を無くすことができるようになるとともに、マッ
チング時に使用する辞書単語数を減らして処理時間を削
減することができる利点も得られる。
【図面の簡単な説明】
【図1】この発明の実施の第1形態を示すブロック構成
図。
【図2】辞書内単語の音素番号を利用してワードチェッ
カの第iビットを「1」に設定するための説明図。
【図3】第1形態の動作を説明するフローチャート。
【図4】音素の音素番号を利用して入力用チェッカの第
jビットを「1」にするための説明図。
【図5】この発明の実施の第2形態を示すフローチャー
ト。
【図6】音素の音素番号を利用して入力用チェッカの第
jビットを「1」にするための説明図。
【図7】音声認識システムの概要図。
【符号の説明】
11…辞書 12…第1記憶部 13…認識部 14…第2記憶部 15…演算部 21…音声入力装置 22…音声データ入力部 23…特徴抽出部 24…音素認識部 25…マッチング部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を音素列に変換する音素認識部
    を有する音声認識システムにおいて、 辞書内の単語を構成する音素が、各単語について予めフ
    ァイルに記憶されて格納された第1記憶部と、前記音素
    認識部の音素認識結果を用いて、その中に一定値以上継
    続する音素があるかを認識する認識部と、この認識部で
    認識した音素を記憶する第2記憶部と、前記第1記憶部
    に記憶されたファイル内の各単語について音素と、第2
    記憶部に記憶された音素とが入力され、両音素をビット
    AND演算する演算部と、この演算部による結果が
    「0」でない単語のみが入力されて計算されるマッチン
    グ部とからなることを特徴とする音声認識システムにお
    ける単語予備選択装置。
  2. 【請求項2】 前記一定値以上継続する音素は、第1、
    第2音素候補であることを特徴とする請求項1記載の音
    声認識システムにおける単語予備選択装置。
JP8156500A 1996-06-18 1996-06-18 音声認識システムにおける単語予備選択装置 Pending JPH103296A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8156500A JPH103296A (ja) 1996-06-18 1996-06-18 音声認識システムにおける単語予備選択装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8156500A JPH103296A (ja) 1996-06-18 1996-06-18 音声認識システムにおける単語予備選択装置

Publications (1)

Publication Number Publication Date
JPH103296A true JPH103296A (ja) 1998-01-06

Family

ID=15629127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8156500A Pending JPH103296A (ja) 1996-06-18 1996-06-18 音声認識システムにおける単語予備選択装置

Country Status (1)

Country Link
JP (1) JPH103296A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310137A (ja) * 2006-05-18 2007-11-29 Fujitsu Ltd 音声認識装置および音声認識プログラム
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310137A (ja) * 2006-05-18 2007-11-29 Fujitsu Ltd 音声認識装置および音声認識プログラム
US8560317B2 (en) 2006-05-18 2013-10-15 Fujitsu Limited Voice recognition apparatus and recording medium storing voice recognition program
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Similar Documents

Publication Publication Date Title
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
US5754978A (en) Speech recognition system
EP1316086B1 (en) Combining dtw and hmm in speaker dependent and independent modes for speech recognition
US7058573B1 (en) Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
US7319960B2 (en) Speech recognition method and system
US6836758B2 (en) System and method for hybrid voice recognition
Rabiner et al. Application of dynamic time warping to connected digit recognition
US20080052072A1 (en) Speaker recognition method based on structured speaker modeling and a scoring technique
JP2002533789A (ja) 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略
US6253173B1 (en) Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
US7280963B1 (en) Method for learning linguistically valid word pronunciations from acoustic data
US6226610B1 (en) DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point
US4783809A (en) Automatic speech recognizer for real time operation
JP4661239B2 (ja) 音声対話装置及び音声対話方法
Diwan et al. Reduce and reconstruct: ASR for low-resource phonetic languages
JPH103296A (ja) 音声認識システムにおける単語予備選択装置
JP2000250593A (ja) 話者認識装置及び方法
JP3868798B2 (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3128251B2 (ja) 音声認識装置