JP2528105B2

JP2528105B2 - 音声認識装置

Info

Publication number: JP2528105B2
Application number: JP61296811A
Authority: JP
Inventors: 隆一宇佐美
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-12-15
Filing date: 1986-12-15
Publication date: 1996-08-28
Anticipated expiration: 2011-08-28
Also published as: JPS63149698A

Description

【発明の詳細な説明】〔概要〕本発明は音声認識装置において予め話者の音節辞書を
用意しておき、実際に音声辞書に登録する際に入力音声
と音節辞書による読み列とを比較して距離を判断しこの
距離がしきい値以下で類似しているときに音声辞書に登
録するようにしたものである。

〔産業上の利用分野〕

本発明は音声認識装置に関し、特に、使用者の音声の
特徴を予め音節辞書として蓄積し、音声入力時にはその
登録済みの音節辞書と登録すべき入力音声とを比較して
認識結果として出力するようにした音声認識装置に関す
る。

〔従来の技術及び発明が解決しようとする問題点〕

近年、キーボードを備えたワードプロセッサの普及と
相俟って音声入力によるワードプロセッサも発展してい
る。音声認識装置はこのような音声入力形のワードプロ
セッサにおいて広く用いられるものである。その基本的
な構成は単語辞書と認識部と出力部とからなっており、
単語辞書（音声辞書ともいう）には音素記号系列でよみ
かたの音声パラメータが格納され、入力音声との照合が
行われるたびに読み出される。このように、一般に、音
声入力に対して照合結果が正しければ認識出力される。

第５図は従来技術の一例である。第５図において、１
は特徴量抽出部、２は照合部３は音声辞書であり、入力
音声はINからマクロホン等により入力され、照合結果が
OUTから出力される。特徴量抽出部１においては入力音
声をバンドパスフィルタ等を使用して音声パラメータの
抽出を行い、音声辞書３に音声パラメータとして蓄積す
る。音声パラメータは音声のピッチ、振幅、時間長Ｋパ
ラメータなどである。音声辞書３は第４図にその構成の
概要を示す如く、単語の“よみかた”ごとに音声パラメ
ータが格納されている。例えば、「東京」という単語に
対してはよみかたは“とうきょう”という文字列が対応
し、上記の音声パラメータはよみかたに対応して格納さ
れている。

話者の入力音声はこのようにして予め音声辞書３に登
録される。次に実際の入力音声が入力され特徴量抽出が
行われるが、入力音声は、全樹のようにして予め登録さ
れている音声辞書３の音声と照合部２において比較さ
れ、類似度（距離）計算が行われる。距離計算の結果、
最も確からしい候補として認識すると文字列として出力
する。

しかしながら、従来の構成では次のような問題があ
る。即ち、単音節の辞書を備えていないので話者が誤っ
て発声したときにはそのまま登録されてしまうことであ
る。例えば、“トウキョウ”という音声の登録をしたい
とき“キョウト”と発声違いした場合は、音声の単語登
録そのものが“キョウト”のまま全く正常に登録されて
しまい、その後当該話者が正しく“トウキョウ”と発声
しても全く音声認識されないという問題がある。つまり
従来は発声のチェック機構がないための登録の誤りが発
生していた。

〔問題点を解決するための手段および作用〕

本発明は上述した問題点を解消した音声認識装置を提
供することにあり、その手段は、話者の単音節の特徴を
予め格納する音節辞書を備え、前記話者の入力音声の音
声辞書への登録時において、前記音節辞書の単音節を組
み合せて作成した読み列と、前記話者の入力音声との距
離を比較し、前記距離が所定のしきい値以下で類似して
いれば前記入力音声を前記音声辞書に登録するようにし
たことを特徴とする。

〔実施例〕

第１図は本発明に係る音声認識装置の一実施例要部ブ
ロック図である。第１図において、2aは照合部、3aは音
声辞書、3bは音節辞書である。図からも明らかな如く、
本発明においては音声登録における誤りをなくすために
単音節単位の辞書を音声辞書とは別個に用意し、単語の
よみかたに相当する音節辞書の各音節を組合せて作成さ
れた照合用の音声パラメータと、単語音声登録時の音声
パラメータとを比較し、両者の距離を計算して距離が大
きいとき、即ち、類似の度合いが小さいとき警報するよ
うにして発声誤りにより音声登録の誤りを防止するもの
である。

即ち、入力音声は前述と同様、特徴量抽出部１によっ
て音声パラメータが抽出される。そして音声辞書3aは従
来と同様第４図の如き音声辞書が設けられている。一
方、音節辞書3bは例えば、“ア”、“イ”、“ウ”…
“ン”の音節単位の音声パラメータが格納されている。
この場合、第２図の音節辞書に音声パラメータを格納す
る形態は本発明の本質ではなく、任意の形態で格納して
よい。

ここで、例えば“オオサカ”という単語を音声辞書3a
に登録する場合には次のようになる。まず、音節辞書3b
から“オ”、“サ”、“カ”の音節に対応する音声パラ
メータの組合せを引き出して仮の音声辞書を作成し、登
録すべき音声入力“オオサカ”とを照合部2aにおいて照
合する。ここで、通常は第２図の音節辞書から組合せに
より作成された“オ”、“オ”、“サ”、“カ”と実際
の入力の“オオサカ”とは距離が小さい、即ち、類似の
度合いが大きいはずであるが、もし“トウキョウ”と発
声違いをした場合にはその類似の度合いが小さくなり、
登録すべき入力音声が“オオサカ”と発声したとは認知
されなくなり、登録時に発声誤りの警報信号ARを発す
る。この警報によって話者は再度“オオサカ”と発声し
直すことができ、確実な音声登録がなされた音声辞書が
作成出来る。

第３図は本発明に係る音声登録のフローチャートを示
したものである。この場合に、音節辞書3bは予め作成済
みであるとする。まず、音節辞書3bに基づいて読み文字
列からテンプレートが作成される（ステップ１）。この
場合、予め用意された音節辞書3bから例えば“オ”
“オ”“サ”“カ”をテンプレートに格納しておく。次
に話者の発声した登録すべき“オオサカ”が照合部2aに
入力され（ステップ２）、照合部2aにおいて入力音声
“オオサカ”と音節辞書からの“オ”“オ”“サ”
“カ”が照合され（ステップ３）、距離計算がされてこ
の距離が所定のしきい値Thと比較される（ステップ
４）。しきい値Thよりも距離が小さいときはこの発声は
正しいとして音声辞書3aに格納される（ステップ５）。
もしもしきい値Thよりも距離が大きいときは発声が誤っ
ているので再発声メッセージを話者に通知する（ステッ
プ６）。尚、類似の度合い計算は従来知られたDP（dyna
nic programming）マッチング方が用いられる。

〔発明の効果〕

以上説明したように、本発明によれば、音節単位での
音声パラメータを登録時の認識手段として使用すること
により、認識時に最も影響を及ぼす音声登録を確実に行
うことができる。

【図面の簡単な説明】

第１図は本発明に係る音声認識装置の一実施例要部ブロ
ック図、第２図は第１図に示す音節辞書の構成例、第３図は本発明の処理フローチャート、第４図は音声辞書の構成例、および第５図は従来装置の
一例である。（符号の説明）１……特徴量抽出部、2,2a……照合部、3,3a……音声辞
書、3b……音節辞書。

Claims

(57)【特許請求の範囲】

【請求項１】話者による入力音声の特徴量を抽出し、予
め登録された前記話者の音声について音声辞書を参照し
照合する音声認識装置において、前記話者の単音節の特徴を予め格納する音節辞書を備
え、前記入力音声の音声辞書への登録時において、前記音節
辞書の単音節を組み合わせて作成した読み列と、前記話者の入力音声との距離を比較し、前記距離が所定
のしきい値以下で類似しているとき前記入力音声を前記
音声辞書に登録するようにしたことを特徴とする音声認
識装置。