JP2528105B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2528105B2 JP2528105B2 JP61296811A JP29681186A JP2528105B2 JP 2528105 B2 JP2528105 B2 JP 2528105B2 JP 61296811 A JP61296811 A JP 61296811A JP 29681186 A JP29681186 A JP 29681186A JP 2528105 B2 JP2528105 B2 JP 2528105B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- dictionary
- input
- syllable
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 〔概要〕 本発明は音声認識装置において予め話者の音節辞書を
用意しておき、実際に音声辞書に登録する際に入力音声
と音節辞書による読み列とを比較して距離を判断しこの
距離がしきい値以下で類似しているときに音声辞書に登
録するようにしたものである。
用意しておき、実際に音声辞書に登録する際に入力音声
と音節辞書による読み列とを比較して距離を判断しこの
距離がしきい値以下で類似しているときに音声辞書に登
録するようにしたものである。
本発明は音声認識装置に関し、特に、使用者の音声の
特徴を予め音節辞書として蓄積し、音声入力時にはその
登録済みの音節辞書と登録すべき入力音声とを比較して
認識結果として出力するようにした音声認識装置に関す
る。
特徴を予め音節辞書として蓄積し、音声入力時にはその
登録済みの音節辞書と登録すべき入力音声とを比較して
認識結果として出力するようにした音声認識装置に関す
る。
近年、キーボードを備えたワードプロセッサの普及と
相俟って音声入力によるワードプロセッサも発展してい
る。音声認識装置はこのような音声入力形のワードプロ
セッサにおいて広く用いられるものである。その基本的
な構成は単語辞書と認識部と出力部とからなっており、
単語辞書(音声辞書ともいう)には音素記号系列でよみ
かたの音声パラメータが格納され、入力音声との照合が
行われるたびに読み出される。このように、一般に、音
声入力に対して照合結果が正しければ認識出力される。
相俟って音声入力によるワードプロセッサも発展してい
る。音声認識装置はこのような音声入力形のワードプロ
セッサにおいて広く用いられるものである。その基本的
な構成は単語辞書と認識部と出力部とからなっており、
単語辞書(音声辞書ともいう)には音素記号系列でよみ
かたの音声パラメータが格納され、入力音声との照合が
行われるたびに読み出される。このように、一般に、音
声入力に対して照合結果が正しければ認識出力される。
第5図は従来技術の一例である。第5図において、1
は特徴量抽出部、2は照合部3は音声辞書であり、入力
音声はINからマクロホン等により入力され、照合結果が
OUTから出力される。特徴量抽出部1においては入力音
声をバンドパスフィルタ等を使用して音声パラメータの
抽出を行い、音声辞書3に音声パラメータとして蓄積す
る。音声パラメータは音声のピッチ、振幅、時間長Kパ
ラメータなどである。音声辞書3は第4図にその構成の
概要を示す如く、単語の“よみかた”ごとに音声パラメ
ータが格納されている。例えば、「東京」という単語に
対してはよみかたは“とうきょう”という文字列が対応
し、上記の音声パラメータはよみかたに対応して格納さ
れている。
は特徴量抽出部、2は照合部3は音声辞書であり、入力
音声はINからマクロホン等により入力され、照合結果が
OUTから出力される。特徴量抽出部1においては入力音
声をバンドパスフィルタ等を使用して音声パラメータの
抽出を行い、音声辞書3に音声パラメータとして蓄積す
る。音声パラメータは音声のピッチ、振幅、時間長Kパ
ラメータなどである。音声辞書3は第4図にその構成の
概要を示す如く、単語の“よみかた”ごとに音声パラメ
ータが格納されている。例えば、「東京」という単語に
対してはよみかたは“とうきょう”という文字列が対応
し、上記の音声パラメータはよみかたに対応して格納さ
れている。
話者の入力音声はこのようにして予め音声辞書3に登
録される。次に実際の入力音声が入力され特徴量抽出が
行われるが、入力音声は、全樹のようにして予め登録さ
れている音声辞書3の音声と照合部2において比較さ
れ、類似度(距離)計算が行われる。距離計算の結果、
最も確からしい候補として認識すると文字列として出力
する。
録される。次に実際の入力音声が入力され特徴量抽出が
行われるが、入力音声は、全樹のようにして予め登録さ
れている音声辞書3の音声と照合部2において比較さ
れ、類似度(距離)計算が行われる。距離計算の結果、
最も確からしい候補として認識すると文字列として出力
する。
しかしながら、従来の構成では次のような問題があ
る。即ち、単音節の辞書を備えていないので話者が誤っ
て発声したときにはそのまま登録されてしまうことであ
る。例えば、“トウキョウ”という音声の登録をしたい
とき“キョウト”と発声違いした場合は、音声の単語登
録そのものが“キョウト”のまま全く正常に登録されて
しまい、その後当該話者が正しく“トウキョウ”と発声
しても全く音声認識されないという問題がある。つまり
従来は発声のチェック機構がないための登録の誤りが発
生していた。
る。即ち、単音節の辞書を備えていないので話者が誤っ
て発声したときにはそのまま登録されてしまうことであ
る。例えば、“トウキョウ”という音声の登録をしたい
とき“キョウト”と発声違いした場合は、音声の単語登
録そのものが“キョウト”のまま全く正常に登録されて
しまい、その後当該話者が正しく“トウキョウ”と発声
しても全く音声認識されないという問題がある。つまり
従来は発声のチェック機構がないための登録の誤りが発
生していた。
本発明は上述した問題点を解消した音声認識装置を提
供することにあり、その手段は、話者の単音節の特徴を
予め格納する音節辞書を備え、前記話者の入力音声の音
声辞書への登録時において、前記音節辞書の単音節を組
み合せて作成した読み列と、前記話者の入力音声との距
離を比較し、前記距離が所定のしきい値以下で類似して
いれば前記入力音声を前記音声辞書に登録するようにし
たことを特徴とする。
供することにあり、その手段は、話者の単音節の特徴を
予め格納する音節辞書を備え、前記話者の入力音声の音
声辞書への登録時において、前記音節辞書の単音節を組
み合せて作成した読み列と、前記話者の入力音声との距
離を比較し、前記距離が所定のしきい値以下で類似して
いれば前記入力音声を前記音声辞書に登録するようにし
たことを特徴とする。
第1図は本発明に係る音声認識装置の一実施例要部ブ
ロック図である。第1図において、2aは照合部、3aは音
声辞書、3bは音節辞書である。図からも明らかな如く、
本発明においては音声登録における誤りをなくすために
単音節単位の辞書を音声辞書とは別個に用意し、単語の
よみかたに相当する音節辞書の各音節を組合せて作成さ
れた照合用の音声パラメータと、単語音声登録時の音声
パラメータとを比較し、両者の距離を計算して距離が大
きいとき、即ち、類似の度合いが小さいとき警報するよ
うにして発声誤りにより音声登録の誤りを防止するもの
である。
ロック図である。第1図において、2aは照合部、3aは音
声辞書、3bは音節辞書である。図からも明らかな如く、
本発明においては音声登録における誤りをなくすために
単音節単位の辞書を音声辞書とは別個に用意し、単語の
よみかたに相当する音節辞書の各音節を組合せて作成さ
れた照合用の音声パラメータと、単語音声登録時の音声
パラメータとを比較し、両者の距離を計算して距離が大
きいとき、即ち、類似の度合いが小さいとき警報するよ
うにして発声誤りにより音声登録の誤りを防止するもの
である。
即ち、入力音声は前述と同様、特徴量抽出部1によっ
て音声パラメータが抽出される。そして音声辞書3aは従
来と同様第4図の如き音声辞書が設けられている。一
方、音節辞書3bは例えば、“ア”、“イ”、“ウ”…
“ン”の音節単位の音声パラメータが格納されている。
この場合、第2図の音節辞書に音声パラメータを格納す
る形態は本発明の本質ではなく、任意の形態で格納して
よい。
て音声パラメータが抽出される。そして音声辞書3aは従
来と同様第4図の如き音声辞書が設けられている。一
方、音節辞書3bは例えば、“ア”、“イ”、“ウ”…
“ン”の音節単位の音声パラメータが格納されている。
この場合、第2図の音節辞書に音声パラメータを格納す
る形態は本発明の本質ではなく、任意の形態で格納して
よい。
ここで、例えば“オオサカ”という単語を音声辞書3a
に登録する場合には次のようになる。まず、音節辞書3b
から“オ”、“サ”、“カ”の音節に対応する音声パラ
メータの組合せを引き出して仮の音声辞書を作成し、登
録すべき音声入力“オオサカ”とを照合部2aにおいて照
合する。ここで、通常は第2図の音節辞書から組合せに
より作成された“オ”、“オ”、“サ”、“カ”と実際
の入力の“オオサカ”とは距離が小さい、即ち、類似の
度合いが大きいはずであるが、もし“トウキョウ”と発
声違いをした場合にはその類似の度合いが小さくなり、
登録すべき入力音声が“オオサカ”と発声したとは認知
されなくなり、登録時に発声誤りの警報信号ARを発す
る。この警報によって話者は再度“オオサカ”と発声し
直すことができ、確実な音声登録がなされた音声辞書が
作成出来る。
に登録する場合には次のようになる。まず、音節辞書3b
から“オ”、“サ”、“カ”の音節に対応する音声パラ
メータの組合せを引き出して仮の音声辞書を作成し、登
録すべき音声入力“オオサカ”とを照合部2aにおいて照
合する。ここで、通常は第2図の音節辞書から組合せに
より作成された“オ”、“オ”、“サ”、“カ”と実際
の入力の“オオサカ”とは距離が小さい、即ち、類似の
度合いが大きいはずであるが、もし“トウキョウ”と発
声違いをした場合にはその類似の度合いが小さくなり、
登録すべき入力音声が“オオサカ”と発声したとは認知
されなくなり、登録時に発声誤りの警報信号ARを発す
る。この警報によって話者は再度“オオサカ”と発声し
直すことができ、確実な音声登録がなされた音声辞書が
作成出来る。
第3図は本発明に係る音声登録のフローチャートを示
したものである。この場合に、音節辞書3bは予め作成済
みであるとする。まず、音節辞書3bに基づいて読み文字
列からテンプレートが作成される(ステップ1)。この
場合、予め用意された音節辞書3bから例えば“オ”
“オ”“サ”“カ”をテンプレートに格納しておく。次
に話者の発声した登録すべき“オオサカ”が照合部2aに
入力され(ステップ2)、照合部2aにおいて入力音声
“オオサカ”と音節辞書からの“オ”“オ”“サ”
“カ”が照合され(ステップ3)、距離計算がされてこ
の距離が所定のしきい値Thと比較される(ステップ
4)。しきい値Thよりも距離が小さいときはこの発声は
正しいとして音声辞書3aに格納される(ステップ5)。
もしもしきい値Thよりも距離が大きいときは発声が誤っ
ているので再発声メッセージを話者に通知する(ステッ
プ6)。尚、類似の度合い計算は従来知られたDP(dyna
nic programming)マッチング方が用いられる。
したものである。この場合に、音節辞書3bは予め作成済
みであるとする。まず、音節辞書3bに基づいて読み文字
列からテンプレートが作成される(ステップ1)。この
場合、予め用意された音節辞書3bから例えば“オ”
“オ”“サ”“カ”をテンプレートに格納しておく。次
に話者の発声した登録すべき“オオサカ”が照合部2aに
入力され(ステップ2)、照合部2aにおいて入力音声
“オオサカ”と音節辞書からの“オ”“オ”“サ”
“カ”が照合され(ステップ3)、距離計算がされてこ
の距離が所定のしきい値Thと比較される(ステップ
4)。しきい値Thよりも距離が小さいときはこの発声は
正しいとして音声辞書3aに格納される(ステップ5)。
もしもしきい値Thよりも距離が大きいときは発声が誤っ
ているので再発声メッセージを話者に通知する(ステッ
プ6)。尚、類似の度合い計算は従来知られたDP(dyna
nic programming)マッチング方が用いられる。
以上説明したように、本発明によれば、音節単位での
音声パラメータを登録時の認識手段として使用すること
により、認識時に最も影響を及ぼす音声登録を確実に行
うことができる。
音声パラメータを登録時の認識手段として使用すること
により、認識時に最も影響を及ぼす音声登録を確実に行
うことができる。
第1図は本発明に係る音声認識装置の一実施例要部ブロ
ック図、 第2図は第1図に示す音節辞書の構成例、 第3図は本発明の処理フローチャート、 第4図は音声辞書の構成例、および第5図は従来装置の
一例である。 (符号の説明) 1……特徴量抽出部、2,2a……照合部、3,3a……音声辞
書、3b……音節辞書。
ック図、 第2図は第1図に示す音節辞書の構成例、 第3図は本発明の処理フローチャート、 第4図は音声辞書の構成例、および第5図は従来装置の
一例である。 (符号の説明) 1……特徴量抽出部、2,2a……照合部、3,3a……音声辞
書、3b……音節辞書。
Claims (1)
- 【請求項1】話者による入力音声の特徴量を抽出し、予
め登録された前記話者の音声について音声辞書を参照し
照合する音声認識装置において、 前記話者の単音節の特徴を予め格納する音節辞書を備
え、 前記入力音声の音声辞書への登録時において、前記音節
辞書の単音節を組み合わせて作成した読み列と、 前記話者の入力音声との距離を比較し、前記距離が所定
のしきい値以下で類似しているとき前記入力音声を前記
音声辞書に登録するようにしたことを特徴とする音声認
識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61296811A JP2528105B2 (ja) | 1986-12-15 | 1986-12-15 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61296811A JP2528105B2 (ja) | 1986-12-15 | 1986-12-15 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63149698A JPS63149698A (ja) | 1988-06-22 |
JP2528105B2 true JP2528105B2 (ja) | 1996-08-28 |
Family
ID=17838450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61296811A Expired - Lifetime JP2528105B2 (ja) | 1986-12-15 | 1986-12-15 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2528105B2 (ja) |
-
1986
- 1986-12-15 JP JP61296811A patent/JP2528105B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS63149698A (ja) | 1988-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
US6934683B2 (en) | Disambiguation language model | |
US4994983A (en) | Automatic speech recognition system using seed templates | |
US8949127B2 (en) | Recognizing the numeric language in natural spoken dialogue | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US6449589B1 (en) | Elimination of left recursion from context-free grammars | |
JPS62232691A (ja) | 音声認識装置 | |
US6502072B2 (en) | Two-tier noise rejection in speech recognition | |
JP2528105B2 (ja) | 音声認識装置 | |
JP2001195087A (ja) | 音声認識システム | |
JP2000352993A (ja) | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 | |
US6438521B1 (en) | Speech recognition method and apparatus and computer-readable memory | |
JP3039453B2 (ja) | 音声認識装置 | |
JP3110025B2 (ja) | 発声変形検出装置 | |
JPH0736481A (ja) | 補完音声認識装置 | |
JPH0415960B2 (ja) | ||
JP3291073B2 (ja) | 音声認識方式 | |
JP3355248B2 (ja) | 連続音声認識方式 | |
JPS6180298A (ja) | 音声認識装置 | |
CN114255758A (zh) | 口语评测方法及装置、设备以及存储介质 | |
JP3033132B2 (ja) | 言語処理装置 | |
JP2578771B2 (ja) | 音声認識装置 | |
JPS60182499A (ja) | 音声認識装置 | |
JPH01173000A (ja) | 促音化音声の登録方式 | |
JPH0827640B2 (ja) | 音声認識装置 |