JPH0777998A - 連続単語音声認識装置 - Google Patents

連続単語音声認識装置

Info

Publication number
JPH0777998A
JPH0777998A JP5222361A JP22236193A JPH0777998A JP H0777998 A JPH0777998 A JP H0777998A JP 5222361 A JP5222361 A JP 5222361A JP 22236193 A JP22236193 A JP 22236193A JP H0777998 A JPH0777998 A JP H0777998A
Authority
JP
Japan
Prior art keywords
word
words
unnecessary
acoustic feature
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5222361A
Other languages
English (en)
Other versions
JP3477751B2 (ja
Inventor
Tomoyasu Fujii
友康 藤井
Hisamori Taniguchi
久衛 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
NipponDenso Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NipponDenso Co Ltd filed Critical NipponDenso Co Ltd
Priority to JP22236193A priority Critical patent/JP3477751B2/ja
Publication of JPH0777998A publication Critical patent/JPH0777998A/ja
Application granted granted Critical
Publication of JP3477751B2 publication Critical patent/JP3477751B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力音声中に認識すべき単語以外の音声(不
要語)が含まれていても、音声認識を精度良く行なうこ
とのできる連続単語音声認識装置を提供する。 【構成】 単語辞書内に、認識すべき単語(必要語)の
音響的特徴量と共に、全ての必要語の平均特徴量を不要
語の音響的特徴量として登録しておく。そして音声認識
時には、外部からの入力音声を所定のフレーム周期で順
次分析してその特徴量を抽出した後(ステップ30
0)、DPマッチング法により、上記単語辞書を用い
て、入力音声中の単語系列を認識する(ステップ310
〜430)。またこの単語系列には不要語として認識し
た単語が含まれているため、この単語系列の中から不要
語として認識した単語を除去する(ステップ440)。
この結果、入力音声中に不要語が存在する場合に、不要
語を必要語であると誤認識してしまうことがなく、単語
系列の認識精度を向上できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、認識すべき単語の音響
的特徴量が登録された単語辞書を用いて、外部からの入
力音声に含まれる単語系列を認識する連続単語音声認識
装置に関する。
【0002】
【従来の技術】従来より、この種の連続単語音声認識装
置では、まず、外部からの入力音声を所定周期で分析し
て音響的特徴量を順次抽出し、周知のDPマッチング法
等によって、その抽出された音響的特徴量の時系列デー
タを、単語辞書に認識すべき単語毎に登録されている音
響的特徴量を用いて、何れかの単語の音響的特徴量に最
も近似したデータ列毎に区分し、その区分したデータ列
毎に、対応する音響的特徴量が表わす単語を割り当てる
ことによって、入力音声の単語系列を認識するようにし
ている。
【0003】このため、入力音声が予め単語辞書に登録
されている単語のみから構成されている場合には音声認
識を良好に行うことができるものの、入力音声の単語の
途中に無音部分が多く含まれていたり、入力音声中に単
語辞書に登録されていない音声(不要語)が含まれてい
ると、音声認識を良好に行うことができず、単語系列を
誤認識してしまうといった問題があった。
【0004】一方、こうした問題を解決するために、従
来より、例えば特開昭61−20095号公報に開示さ
れているように、認識すべき単語の音声から無音部分を
除去した音声データに基づき各単語の音響的特徴量を生
成して単語辞書に登録しておき、この単語辞書を用いて
入力音声の単語系列を認識する際には、入力音声から無
音区間を除去した音声データを用いるようにする、とい
ったことが提案されている。
【0005】
【発明が解決しようとする課題】しかし、こうした対策
では、入力音声の単語の途中に無音区間が多く含まれて
いる場合の認識精度を向上することはできるものの、入
力音声中に不要語が含まれている場合の誤認識を防止す
ることはできず、音声認識を精度良く実行させるには、
音声認識装置に不要語が入力されることのないよう、使
用者が発声する音声以外の音が音声認識装置に入力され
ないようにし、しかも使用者が単語辞書に登録されてい
る単語のみを発声しなければならない、といった問題が
あった。
【0006】本発明は、こうした問題に鑑みなされたも
ので、入力音声中に認識すべき単語以外の音声(不要
語)が含まれている場合にも、音声認識を精度良く実行
することのできる連続単語音声認識装置を提供すること
を目的としている。
【0007】
【課題を解決するための手段】かかる目的を達成するた
めになされた本発明は、図1に例示する如く、認識すべ
き複数の単語の音響的特徴量が、各単語毎に予め格納さ
れた単語辞書記憶手段と、外部からの入力音声を所定周
期で分析して音響的特徴量を順次抽出する音響分析手段
と、該音響分析手段にて順次抽出された音響的特徴量の
時系列データを、上記単語辞書記憶手段に格納された音
響的特徴量に最も近似したデータ列毎に区分し、各デー
タ列毎に、対応する音響的特徴量が表わす単語を割り当
て、上記入力音声の単語系列を認識する音声認識手段
と、該音声認識手段により認識された単語系列を外部装
置に出力する出力手段と、を備えた連続単語音声認識装
置において、上記単語辞書記憶手段に、上記各単語の音
響的特徴量に加えて、音声認識を必要としない不要語の
音響的特徴量を、上記音声認識手段にて認識すべき単語
の音響的特徴量として格納しておき、更に、上記音声認
識手段により認識された単語系列の中から、上記不要語
として認識された単語を除去して、上記出力手段に出力
する不要語除去手段を設けたことを特徴としている。
【0008】
【作用】上記のように本発明の連続単語音声認識装置に
おいては、単語辞書記憶手段に、認識すべき複数の単語
の音響的特徴量と共に、音声認識を必要としない不要語
の音響的特徴量が、音声認識手段にて認識すべき単語の
音響的特徴量として格納されている。
【0009】そして、外部から音声が入力されると、ま
ず、音響分析手段が、その入力音声を所定周期で順次分
析して音響的特徴量を順次抽出する。すると、音声認識
手段が、音響分析手段にて順次抽出された音響的特徴量
の時系列データを、単語辞書記憶手段に格納された単語
及び不要語の音響的特徴量に最も近似したデータ列毎に
区分し、その区分したデータ列毎に、対応する音響的特
徴量が表わす単語或は不要語を割り当ることによって、
入力音声中の単語系列を認識する。
【0010】また、このように音声認識手段が入力音声
中の単語系列を認識すると、不要語除去手段が、その単
語系列の中から不要語として認識された単語を除去して
出力手段に出力する。この結果、出力手段からは、入力
音声に含まれている認識すべき単語が時系列に連続的に
出力されることとなり、外部装置には、使用者が音声入
力した必要な単語系列のみが提供されることとなる。
【0011】即ち、本発明では、単語辞書として、認識
すべき単語の音響的特徴量だけでなく、音声認識する必
要のない不要語の音響的特徴量をも登録しておき、音声
認識手段にて、入力音声に含まれる不要語も一つの単語
として認識することにより、入力音声中の不要語の領域
が認識すべき何れかの単語であると誤認識されるのを防
止しているのである。
【0012】なお、不要語の単語辞書としては、認識す
べき単語以外の音声を認識可能な音響的特徴量を登録し
ておけば良く、その個数としては1個でも複数でもよい
が、請求項2に記載の如く、認識すべき各単語の音響的
特徴量を平均化したものを設定しておけば、1個の辞書
で不要語を良好に認識することができるようになる。こ
れは、認識すべき単語の音響的特徴量を平均化した平均
特徴量は分散が大きく、入力音声中の不要語の部分は、
認識すべき単語の音響的特徴量よりもその平均特徴量に
より近くなるからである。
【0013】
【実施例】以下に本発明の実施例を図面と共に説明す
る。まず図2は本発明が適用された実施例の連続単語音
声認識装置(以下、単に音声認識装置という。)全体の
構成を表わすブロック図である。なお、図2は、音声認
識装置の機能的構成を表わすブロック図であり、ハード
的構成を表わすものではない。
【0014】図2に示す如く、本実施例の音声認識装置
は、音声認識に使用する単語辞書10を作成する辞書作
成部2と、辞書作成部2により作成された単語辞書10
を用いて外部から入力された音声中の単語系列を認識す
る認識部4とから構成されている。
【0015】ここで、辞書作成部2は、CPU,RO
M,RAM等からなるマイクロコンピュータの処理によ
り、音声認識に必要な単語辞書10を作成して、その作
成した単語辞書10を、RAMやICカード等の記憶素
子の所定の記憶領域に格納するためのものであり、予め
音声認識すべき単語(以下、必要語という。)毎に収集
された必要語音声データ6を用いて、音声認識に使用す
る各必要語の音響的特徴量を求め、これを必要語認識用
の辞書として設定する必要語辞書作成部12と、同じく
必要語音声データ6を用いて、音声認識の必要のない不
要語の音響的特徴量を求め、これを不要語認識用の辞書
として設定する不要語辞書作成部14とを備えている。
【0016】また、認識部4は、周囲の音声をデジタル
データに変換して取り込むためのマイクロフォン,A/
D変換器等からなる音声入力部22と、この音声入力部
22からの入力データと単語辞書10とから、入力音声
中の単語系列を認識する音声認識部24と、音声認識部
24による認識結果を、外部の表示装置や認識結果に応
じて作動する外部装置に出力する認識結果出力部26と
から構成されている。なお、音声認識部24は、必要語
辞書作成部12及び不要語辞書作成部14と同様、マイ
クロコンピュータの処理により実現される。
【0017】次に、上記必要語辞書作成部12,不要語
辞書作成部14,及び音声認識部24の動作を図3〜図
5に示すフローチャートに沿って説明する。まず図3
は、必要語辞書作成部12において実行される必要語辞
書作成処理を表わすフローチャートである。
【0018】図3に示す如く、この必要語辞書作成処理
が開始されると、必要語音声データ6に含まれる全て
(N個)の必要語を1個ずつ順に単語辞書10に登録す
るために、まずステップ100にて、必要語の数をカウ
ントするカウンタnに初期値「1」を設定する初期化の
処理を実行する。
【0019】そして続くステップ110では、必要語音
声データ6からカウンタnの値に対応した必要語(n)
の音声データを読み込み、次ステップ120にて、その
読み込んだ音声データをフレーム周期(例えば20mse
c.)毎に音響分析し、音響的特徴量(例えばケプストラ
ム)を抽出する。
【0020】なお、ステップ110の音声データの読み
込みは、必要語(n)を構成する音声データがm個ある
場合には、m個の音声データを全て読む込むことによっ
て実行される。また、このように必要語(n)を構成す
る音声データがm個ある場合、ステップ120では、m
個の音響的特徴量が求められることになる。
【0021】次にステップ130では、上記ステップ1
20で求めたm個の音響的特徴量を平均化して、必要語
(n)全体の音響的特徴量である一つの平均特徴量を求
め、続くステップ140にて、この平均特徴量を必要語
(n)の音響的特徴量として単語辞書10の必要語
(n)の項目に書込む。
【0022】そして、続くステップ150では、カウン
タnの値が登録すべき必要語の個数Nになっているか否
かを判断することにより、必要語音声データ6に含まれ
る全て(N個)の必要語について辞書作成が行われたか
否かを判断し、N個の必要語全てについて辞書作成が行
われていなければ、ステップ160にて、当該処理を、
必要語音声データ6中の次の必要語の辞書作成に移行す
べく、カウンタnの値をインクリメントし、再度ステッ
プ110に移行する。また、ステップ150にて、N個
の必要語全てについて辞書作成が行われたと判断される
と、そのまま当該処理を終了する。
【0023】このように、当該必要語辞書作成処理にお
いては、必要語音声データ6内の各必要語毎に平均特徴
量を求めて、単語辞書10に登録する。このため、単語
辞書10には、必要語の個数に応じたN個の辞書項目が
設定され、各必要語の辞書項目にその必要語全体を表わ
す音響的特徴量が格納されることとなる。
【0024】次に、図4は不要語辞書作成部14におい
て実行される不要語辞書作成処理を表わすフローチャー
トである。図4に示す如く、この不要語辞書作成処理が
開始されると、必要語音声データ6に含まれる全て(N
個)の必要語の音響分析を行うために、まずステップ2
00にて、必要語の数をカウントするカウンタnに初期
値「1」を設定する初期化の処理を実行する。
【0025】そして続くステップ210では、必要語音
声データ6からカウンタnの値に対応した必要語(n)
の音声データを読み込み、次ステップ220にて、その
読み込んだ音声データをフレーム周期(例えば20mse
c.)毎に音響分析し、音響的特徴量(例えばケプストラ
ム)を抽出する。なお、このステップ210及びステッ
プ220の処理は、必要語辞書作成処理のステップ11
0及びステップ120と同様に実行される。
【0026】こうして、必要語(n)の音響分析が終了
すると、今度はステップ230にて、カウンタnの値が
必要語の個数Nになっているか否かを判断することによ
り、必要語音声データ6に含まれる全て(N個)の必要
語についての音響分析が終了したか否かを判断する。そ
して、N個の必要語全てについての音響分析が終了して
いなければ、ステップ240に移行して、必要語音声デ
ータ6中の次の必要語について音響分析を行うべく、カ
ウンタnの値をインクリメントし、再度ステップ210
に移行する。
【0027】一方、ステップ230にて、N個の必要語
全てについての音響分析が終了したと判断されると、今
度はステップ250に移行して、上記ステップ220を
繰返し実行することにより求められた全て(N個)の必
要語の音響的特徴量を平均化することにより、全必要語
を平均化した1つの平均特徴量を求める。そして続くス
テップ260にて、この平均特徴量を不要語の音響的特
徴量として、単語辞書10の不要語の項目に書き込み、
当該処理を終了する。
【0028】このように、当該不要語辞書作成処理にお
いては、全ての必要語の平均特徴量を不要語の音響的特
徴量として単語辞書10に登録する。このため、単語辞
書10は、必要語の個数Nに1を加えた「N+1」個の
辞書項目を持つことになる。なお、不要語の音響的特徴
量として全ての必要語の平均特徴量を設定するのは、全
ての必要語の平均特徴量は分散が大きくなるため、入力
音声中の不要語の部分は必要語の特徴量よりも全ての必
要語の平均特徴量により近くなるからである。つまり、
本実施例では、全ての必要語の平均特徴量を不要語の音
響的特徴量として設定することにより、入力音声中の不
要語を一つの不要語辞書にて正確に認識できるようにし
ているのである。
【0029】次に、図5は音声認識部24において実行
される音声認識処理を表わすフローチャートである。図
5に示す如く、この音声認識処理が開始されると、まず
ステップ300にて、音声入力部22から入力された音
声データを、所定のフレーム周期(例えば20msec.)
毎に順次音響分析して音響的特徴量(例えばケプストラ
ム)を抽出する音響分析手段としての処理を実行すると
共に、この音響分析によって各フレーム毎に得られた音
響的特徴量の個数をフレーム長Fとして記憶する。
【0030】このようにステップ300にて、入力音声
を所定のフレーム周期で音響分析した音響的特徴量の時
系列データが得られると、今度はステップ310〜ステ
ップ430において、周知のDPマッチング法によっ
て、この時系列データをいくつかの区間に分けて、各区
間が単語辞書10に格納されたどの単語に対応している
かを求める音声認識手段としての処理を実行する。
【0031】即ち、入力音声の音響的特徴量がフレーム
毎に格納された時系列データを、フレーム単位で分割可
能な全ての区間に分けて、各区間毎に、その区間内のデ
ータ(音響的特徴量)と単語辞書10に登録されている
必要語及び不要語の音響的特徴量との一致度(距離)を
算出し、その距離が最小となる区間毎に全フレームを区
切って、各区間に距離が最小となる単語を割り当てるこ
とにより、入力音声中の単語系列を求めるのである。
【0032】以下、この処理を順に沿って説明する。図
5に示す如く、まずステップ310にて、以降の処理で
使用する変数T(1),S(1),W(1)に初期値
「0」を設定する初期化の処理を実行する。そして、続
くステップ320及び330にて、上記音響的特徴量の
時系列データの内、単語辞書10に対する距離の算出対
象となる領域を表わす終点フレームj及び始点フレーム
iにそれぞれ初期値「1」を設定し、更に続くステップ
340にて、距離の算出に使用する単語辞書10内の単
語の項目番号nに初期値「1」を設定する。
【0033】次に、続くステップ350では、上記ステ
ップ300にて得られた時系列データの中から、上記ス
テップ320,330にて初期設定されるか以降の処理
で更新された始点フレームiから終点フレームjまでの
音響的特徴量を読み込むと共に、単語辞書10から項目
番号nの単語の音響的特徴量を読み込み、これら各特徴
量の一致度を表わす距離Dij(n)を、先頭フレームか
ら始点フレームiまでに算出された距離であるT(i)
を初期値として算出する。
【0034】そして続くステップ360では、単語辞書
10の項目番号nが単語辞書10に登録された単語の個
数「N+1」と一致しているか否かを判断することによ
り、iフレームからjフレームまでの音響的特徴量につ
いて、単語辞書10に登録された全ての単語(つまりN
個の必要語と1個の不要語)との距離を計算したか否か
を判断し、ステップ360にて、単語辞書10に登録さ
れた全ての単語との距離の計算が終了していないと判断
された場合には、ステップ370に移行し、上記ステッ
プ350にて次の項目番号(n+1)の単語との距離を
算出させるために、項目番号nの値をインクリメントし
て、再度ステップ350に移行する。
【0035】一方、ステップ360にて、iフレームか
らjフレームまでの音響的特徴量について、単語辞書1
0に登録された全ての単語との距離の計算が終了したと
判断されると、ステップ380に移行して、始点フレー
ムiが終点フレームjと一致しているか否かを判断する
ことにより、始点フレームiを終点フレームjまで1フ
レームずつずらして距離の計算を行ったか否かを判断す
る。そして、このステップ380にて、始点フレームi
が終点フレームjと一致していないと判断された場合に
は、ステップ390に移行して、始点フレームiを次の
フレーム(i+1)にずらして距離の計算を行うべく、
始点フレームiの値をインクリメントして、再度ステッ
プ340に移行する。
【0036】この結果、始点フレームiが1フレーム分
ずれた領域にて、単語辞書10に登録された項目番号1
の単語から項目番号「N+1」の単語(つまり不要語)
までの全ての単語についての距離が再度算出されること
となり、この処理を繰り返すことにより、時系列データ
の先頭フレームから終点フレームjまでの時系列データ
内にてフレーム単位で分割可能な全ての領域における入
力音声の音響的特徴量と単語辞書10に登録された全て
の単語の組合せとの距離が算出されることとなる。
【0037】また次に、ステップ380にて、始点フレ
ームiが終点フレームjと一致していると判断される
と、続くステップ400にて、現在設定されている終点
フレームjに対して上記ステップ350にて繰返し算出
された距離Dij(n)の中から、その値が最小となる距
離「minDij(n)」を選択し、その距離の値を変数
T(j)、その距離に対応した始点フレームiの値を変
数S(j)、その距離に対応した単語辞書10の辞書項
目nを変数W(j)、として記憶する。
【0038】そして続くステップ410では、終点フレ
ームjの値がフレーム長Fの値に一致したか否かを判断
することにより、終点フレームjを初期値「1」から時
系列データの終了フレームFまで1フレームずつずらし
て上記ステップ330〜400までの処理を実行したか
否かを判断し、このステップ410にて、終点フレーム
jの値がフレーム長Fの値に一致していないと判断され
ると、ステップ420に移行して、終点フレームjを1
フレームずらして上記ステップ330〜400の処理を
実行すべく、終点フレームjの値をインクリメントし、
再度ステップ330に移行する。
【0039】この結果、終点フレームjが1フレーム分
ずれた先頭フレームから終点フレームjまでの時系列デ
ータ内にて、フレーム単位で分割可能な全ての領域にお
ける入力音声の音響的特徴量と単語辞書10に登録され
た全ての単語の組合せとの距離が算出され、その距離が
最小となる区間が求められることとなり、この処理を繰
返し実行することにより、ステップ400にて、終点フ
レーム「1」から終点フレーム「F」までの各領域にお
ける変数の配列T(1),T(2),…T(F)、S
(1),S(2),…S(F)、及びW(1),W
(2),…W(F)が設定されることとなる。
【0040】そして、ステップ400にて、変数T
(F)、S(F)、W(F)が求められた場合には、終
点フレームjの値がフレーム長Fの値に対応しているこ
とから、ステップ410にて肯定判断されて、処理はス
テップ430に移行する。ステップ430では、上記ス
テップ400にて順次求められた変数S(j)と変数W
(j)とをj=Fの終了フレーム側から逆にたどること
により、単語辞書10に登録されている単語との距離の
総和が最小となる単語系列を求める。
【0041】つまり、変数S(j)は、入力音声の時系
列データの第1フレームから第jフレームまでの領域に
おいて、単語辞書10に登録されている単語との距離の
総和が最小となる組み合せの最後の区間を表わし、また
変数W(j)はその区間の単語を表わしているため、W
(F)には最後の区間に対応する単語が記憶され、S
(F)には最後の区間の始点フレームが記憶されている
ことになる。このため、ステップ400にて順次求めら
れた変数S(j)と変数W(j)とをj=Fの終了フレ
ーム側から逆にたどることにより、変数W(F)に対応
した単語を最終の単語として設定し、変数S(F)が表
わす始点フレームより1つ前のフレームを終点フレーム
jとする変数W(j)を見れば最後から2番目の単語が
分かるため、この単語を最後から2番目の区間の単語と
して設定し、更にこの最後から2番目の単語の始点フレ
ームを表わす変数S(j)から更に一つ前の単語を見つ
けて設定する、といった手順で、入力音声の単語系列を
簡単に求めることができるのである。
【0042】こうして、ステップ430にて、入力音声
の単語系列が求められると、ステップ440に移行し、
この単語系列の中から不要語として認識されている単語
を除去する不要語除去手段としての処理を実行する。つ
まり、単語辞書10には、N個の必要語以外に1個の不
要語が登録されており、入力音声の時系列データ中、こ
の不要語の音響的特徴量に近似した区間は不要語として
認識されて、単語系列が設定されているので、この単語
系列から不要語と認識されている単語を除去することに
より、必要語のみの単語系列を生成するのである。この
結果、認識結果出力部26からは、この必要語のみから
なる単語系列を表わすデータが出力されることとなる。
【0043】以上説明したように、本実施例の音声認識
装置においては、単語辞書10に、認識すべき単語であ
る必要語の音響的特徴量と共に、全ての必要語の音響的
特徴量を平均化した平均特徴量を不要語の音響的特徴量
として登録しておくことにより、音声認識時に、入力音
声中の不要語の領域が、その登録した不要語辞書を用い
て不要語として認識されるようにし、しかも音声認識終
了後は、その認識結果から、不要語として認識された単
語を除去することにより、必要語のみからなる単語系列
を出力するようにされている。
【0044】このため、入力音声中に不要語が含まれて
いる場合に、従来のように、その不要語の領域を単語辞
書に登録されている何れかの必要語であると誤認識して
しまうといったことがなく、単語系列の認識精度を向上
することができ、外部装置に対して、使用者が発した正
確な単語系列を出力することができるようになる。
【0045】ここで、本実施例の音声認識装置では、音
声認識をDPマッチング法により行うように構成した
が、例えばHMM(隠れマルコフモデル)を使用して音
声認識を行うようにしてもよい。なお、この場合、単語
辞書作成時には、図3及び図4におけるステップ130
及びステップ250にて必要語及び不要語の音響的特徴
量を求める際に、フレーム周期毎に音響分析して得られ
た音響的特徴量(例えばケプストラム)の平均特徴量を
求める代わりに、Forward-Backwardアルゴリズム等を用
いてHMMのパラメータを推定し、ステップ140及び
ステップ260にて、その求められたHMMのパラメー
タを、必要語及び不要語の音響的特徴量として単語辞書
10に登録するようにすればよく、また音声認識時に
は、図5におけるステップ350にて、始点フレームi
から終点フレームjまでの音響的特徴量の時系列データ
と単語辞書項目nの音響的特徴量との距離Dij(n)を
計算する代わりに、単語辞書項目nのパラメータを持つ
モデルに基づいて、始点フレームiから終点フレームj
までの音響的特徴量の時系列データの尤度を計算し、ス
テップ400にて、距離Dij(n)が最小となる区間の
始点フレームi及び辞書項目nを求める代りに、尤度が
最大となる区間の始点フレームi及び辞書項目nを求め
るようにすればよい。
【0046】
【発明の効果】以上説明したように、本発明の連続単語
音声認識装置においては、単語辞書として、認識すべき
単語の音響的特徴量だけでなく、音声認識する必要のな
い不要語の音響的特徴量をも登録しておき、音声認識時
には、入力音声に含まれる不要語も一つの単語として認
識し、音声認識終了後は、その認識結果から、不要語と
して認識された単語を除去することにより、必要語のみ
からなる単語系列を出力するようにされている。
【0047】このため、本発明によれば、入力音声中に
不要語が含まれている場合に、従来のように、その不要
語を認識すべき単語であると誤認識してしまうといった
ことがなく、単語系列の認識精度を向上することがで
き、外部装置に対して、使用者が発した正確な単語系列
を出力することができるようになる。
【図面の簡単な説明】
【図1】本発明の構成を例示するブロック図である。
【図2】実施例の音声認識装置の構成を表わすブロック
図である。
【図3】実施例の必要語辞書作成部において実行される
必要語辞書作成処理を表わすフローチャートである。
【図4】実施例の不要語辞書作成部において実行される
不要語辞書作成処理を表わすフローチャートである。
【図5】実施例の音声認識部において実行される音声認
識処理を表わすフローチャートである。
【符号の説明】
2…辞書作成部 4…認識部 6…必要語音声デー
タ 10…単語辞書 12…必要語辞書作成部 14…
不要語辞書作成部 22…音声入力部 24…音声認識部 26…認識
結果出力部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 認識すべき複数の単語の音響的特徴量
    が、各単語毎に予め格納された単語辞書記憶手段と、 外部からの入力音声を所定周期で分析して音響的特徴量
    を順次抽出する音響分析手段と、 該音響分析手段にて順次抽出された音響的特徴量の時系
    列データを、上記単語辞書記憶手段に格納された音響的
    特徴量に最も近似したデータ列毎に区分し、各データ列
    毎に、対応する音響的特徴量が表わす単語を割り当て、
    上記入力音声の単語系列を認識する音声認識手段と、 該音声認識手段により認識された単語系列を外部装置に
    出力する出力手段と、 を備えた連続単語音声認識装置において、 上記単語辞書記憶手段に、上記各単語の音響的特徴量に
    加えて、音声認識を必要としない不要語の音響的特徴量
    を、上記音声認識手段にて認識すべき単語の音響的特徴
    量として格納しておき、 更に、上記音声認識手段により認識された単語系列の中
    から、上記不要語として認識された単語を除去して、上
    記出力手段に出力する不要語除去手段を設けたことを特
    徴とする連続単語音声認識装置。
  2. 【請求項2】 上記不要語の音響的特徴量が、上記認識
    すべき各単語の音響的特徴量を平均化したものであるこ
    とを特徴とする請求項1に記載の連続単語音声認識装
    置。
JP22236193A 1993-09-07 1993-09-07 連続単語音声認識装置 Expired - Lifetime JP3477751B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22236193A JP3477751B2 (ja) 1993-09-07 1993-09-07 連続単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22236193A JP3477751B2 (ja) 1993-09-07 1993-09-07 連続単語音声認識装置

Publications (2)

Publication Number Publication Date
JPH0777998A true JPH0777998A (ja) 1995-03-20
JP3477751B2 JP3477751B2 (ja) 2003-12-10

Family

ID=16781142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22236193A Expired - Lifetime JP3477751B2 (ja) 1993-09-07 1993-09-07 連続単語音声認識装置

Country Status (1)

Country Link
JP (1) JP3477751B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237286A (ja) * 2009-03-30 2010-10-21 Denso Corp 音声認識システム
JP2011154099A (ja) * 2010-01-26 2011-08-11 Univ Of Yamanashi 音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
US9767795B2 (en) 2013-12-26 2017-09-19 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing device, speech recognition processing method and display device
JP2018156627A (ja) * 2017-11-15 2018-10-04 ヤフー株式会社 判定プログラム、判定装置及び判定方法
US10304449B2 (en) 2015-03-27 2019-05-28 Panasonic Intellectual Property Management Co., Ltd. Speech recognition using reject information

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237286A (ja) * 2009-03-30 2010-10-21 Denso Corp 音声認識システム
JP2011154099A (ja) * 2010-01-26 2011-08-11 Univ Of Yamanashi 音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
US9767795B2 (en) 2013-12-26 2017-09-19 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing device, speech recognition processing method and display device
US10304449B2 (en) 2015-03-27 2019-05-28 Panasonic Intellectual Property Management Co., Ltd. Speech recognition using reject information
JP2018156627A (ja) * 2017-11-15 2018-10-04 ヤフー株式会社 判定プログラム、判定装置及び判定方法

Also Published As

Publication number Publication date
JP3477751B2 (ja) 2003-12-10

Similar Documents

Publication Publication Date Title
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
KR20010102549A (ko) 화자 인식 방법 및 장치
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP2955297B2 (ja) 音声認識システム
JP3477751B2 (ja) 連続単語音声認識装置
JP3444108B2 (ja) 音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JPH06266386A (ja) ワードスポッティング方法
JP2853418B2 (ja) 音声認識方法
JP2002516419A (ja) 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置
JP3440840B2 (ja) 音声認識方法及びその装置
JP2734828B2 (ja) 確率演算装置及び確率演算方法
JP2502880B2 (ja) 音声認識方法
JP2753255B2 (ja) 音声による対話型情報検索装置
JP4236502B2 (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2001083978A (ja) 音声認識装置
JPH0997095A (ja) 音声認識装置
JP2003263187A (ja) 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体
JP2862306B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101003

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101003

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 10