JPS58224396A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS58224396A JPS58224396A JP57107767A JP10776782A JPS58224396A JP S58224396 A JPS58224396 A JP S58224396A JP 57107767 A JP57107767 A JP 57107767A JP 10776782 A JP10776782 A JP 10776782A JP S58224396 A JPS58224396 A JP S58224396A
- Authority
- JP
- Japan
- Prior art keywords
- word
- power
- time
- verification
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(1)発明の技術分野
本発明は多数単語音声認識方式を用いた音声の実時間認
識処理において、候補単語を選択する前照合処理部を具
え、高速かつ高い認織槽度を有する音声認識方式に関す
るものである。
識処理において、候補単語を選択する前照合処理部を具
え、高速かつ高い認織槽度を有する音声認識方式に関す
るものである。
(2)従来技術と問題点
従来、多数単語音声認識装置における前照合処理部式と
しては、スペクトルの大城的%黴を抽出するもの、正規
化パワーの時間正規化照会するもの、または語頭1語尾
の詳細パターン照合によるもの等かめる。これらには率
暗の基本的差異である単語発I長、または母音、子音の
パワー情報が積極的に適用されていない。このため、前
照合におけるパラメータは本照合におけるパラメータに
対し重責的に変らないことになり、分類機#@を上げる
ためにはかなシ細かな情報?用いなければならr照合に
時間がかかるという欠点がめる。
しては、スペクトルの大城的%黴を抽出するもの、正規
化パワーの時間正規化照会するもの、または語頭1語尾
の詳細パターン照合によるもの等かめる。これらには率
暗の基本的差異である単語発I長、または母音、子音の
パワー情報が積極的に適用されていない。このため、前
照合におけるパラメータは本照合におけるパラメータに
対し重責的に変らないことになり、分類機#@を上げる
ためにはかなシ細かな情報?用いなければならr照合に
時間がかかるという欠点がめる。
(3)発明の目的
本発明の目的は多数単一音声認識方式において単一の基
本的差異を示す単語発声長または母音。
本的差異を示す単語発声長または母音。
子音のパワー電清報を適用することにより、高速かり扁
い認猷祠度を有する音声認li&装置を提供することで
るる。
い認猷祠度を有する音声認li&装置を提供することで
るる。
(4)発明の構成 。
前記目的を達成するため、本発明の音声fI!を織装置
は多数単一音声認識方式を用いた音声の実時間認識処理
を行ない候補単ti全選択する前照合処理部を有する音
声認識装置において、前日己前照合石塊部に、単語発声
長、正規化パワーから求めた単語発声の全パワー量、お
よび母音性、子音性を示す比較的パワーの大きい時間長
と比較的パワーの小さい時115長との比の6つの特徴
パラメータを用い諌補単PF#を選択する手段を設けた
ことを特徴とするものでめる。
は多数単一音声認識方式を用いた音声の実時間認識処理
を行ない候補単ti全選択する前照合処理部を有する音
声認識装置において、前日己前照合石塊部に、単語発声
長、正規化パワーから求めた単語発声の全パワー量、お
よび母音性、子音性を示す比較的パワーの大きい時間長
と比較的パワーの小さい時115長との比の6つの特徴
パラメータを用い諌補単PF#を選択する手段を設けた
ことを特徴とするものでめる。
(5)発明の実施例
第1図、第2図(cL) l (b)は本発明の詳細な
説明図でるる。
説明図でるる。
本発明の多数単語i声認峨装置における侯補単語金選択
する方式として、前照合逃鳩のパラメータは、本照合九
理の識別用パラメータとは別に、6つの量、すなわち単
語発声長と、正規化パワーから求めた単語発声の全パワ
ー3と、母′#注、子音性を示す量として正規化パワー
の平均値に+1A4UA差1直を刃口えたものと、これ
から差引いたものの比の6つの特徴パラメータを用いる
ことによシー補単飴が選択される。
する方式として、前照合逃鳩のパラメータは、本照合九
理の識別用パラメータとは別に、6つの量、すなわち単
語発声長と、正規化パワーから求めた単語発声の全パワ
ー3と、母′#注、子音性を示す量として正規化パワー
の平均値に+1A4UA差1直を刃口えたものと、これ
から差引いたものの比の6つの特徴パラメータを用いる
ことによシー補単飴が選択される。
第1図はこの場合に使用される時間正規化に関する説明
図である。
図である。
単語音声の発声時間長は異なる単語は勿論のこと、同図
の波形11〜1.に示すように、同一の単語でも発声ご
とに異なっている。
の波形11〜1.に示すように、同一の単語でも発声ご
とに異なっている。
そこで、同図の波形2に示すように基準時間長に正規化
し、辞書との照合にはこの時間正規化照曾波形が用いら
れる。この時、照合対象の辞書としては極端に長さの異
なるもの、すなわち長さが2倍以上または1/2以下は
除外される。従来方式ではこの単語発声の固有電である
時1…長正規化が積極的に適用されていなかつ九のに対
し、本発明ではこれを設足したものである。
し、辞書との照合にはこの時間正規化照曾波形が用いら
れる。この時、照合対象の辞書としては極端に長さの異
なるもの、すなわち長さが2倍以上または1/2以下は
除外される。従来方式ではこの単語発声の固有電である
時1…長正規化が積極的に適用されていなかつ九のに対
し、本発明ではこれを設足したものである。
第2図(α) 、 (b)は本発明の前照合処理部e用
いられる単語発声の全パワー量の説明図である。
いられる単語発声の全パワー量の説明図である。
同図(cL) 、 Lb)は横軸に時間長、縦軸にパワ
ーをとった場拷の単#発声の時間方向のパワー変化3!
+3gを例示し、第1図に示し死時間正規化された同一
単語に対応している。
ーをとった場拷の単#発声の時間方向のパワー変化3!
+3gを例示し、第1図に示し死時間正規化された同一
単語に対応している。
通導、同一単語でもその発声の仕方によp時間成分のみ
ならずパワーの大きさも異なってくる。この単語波形3
1+38に対し、最大パワーと最小パワーの1川で線形
に正規化して単語波形4xy4鵞が得られる。なお、発
声単語の時間長は発声ごとに変動するが、大略の値とし
ては単語固有の長さが存在する。従って、同図のように
、単語の比較的単純なll4il14ii情報量として
、パワーt−Q間長とともに正規化し単語波形4ty4
iの斜線部分より単語の全パワー量が得られる。
ならずパワーの大きさも異なってくる。この単語波形3
1+38に対し、最大パワーと最小パワーの1川で線形
に正規化して単語波形4xy4鵞が得られる。なお、発
声単語の時間長は発声ごとに変動するが、大略の値とし
ては単語固有の長さが存在する。従って、同図のように
、単語の比較的単純なll4il14ii情報量として
、パワーt−Q間長とともに正規化し単語波形4ty4
iの斜線部分より単語の全パワー量が得られる。
以上の方法により、6つの特徴パラメータのうち414
11目のパラメータは正規化された音声発声長であシ、
第2着目のパラメータは発声の正規化 ・パワーの全時
間長にわたる総和、すなわち単語の全パワー量である。
11目のパラメータは正規化された音声発声長であシ、
第2着目のパラメータは発声の正規化 ・パワーの全時
間長にわたる総和、すなわち単語の全パワー量である。
この両パラメータを粗汁せた第2図の全パワー量が単語
発声の固有清報蓋として安定なパラメータが設足される
。
発声の固有清報蓋として安定なパラメータが設足される
。
次の第6脩目のパラメーシは、単語中の母音らしき、子
音らしさを示すチli+sとして、単語発声中のi t
* /子音量 という直で必る。母音量としては正規
化パワーが、(その平均値)+(4準偏差ンを越えた時
1…長が匣われ、また子音量としては正規化パワーが(
その平均値)−(4準閤差)以上の時間長が使われる。
音らしさを示すチli+sとして、単語発声中のi t
* /子音量 という直で必る。母音量としては正規
化パワーが、(その平均値)+(4準偏差ンを越えた時
1…長が匣われ、また子音量としては正規化パワーが(
その平均値)−(4準閤差)以上の時間長が使われる。
すなわち、
が指標となる。これは単語分類に有効なパラメータとな
る。
る。
第6図は本発明の実施例の構成説明図である。
認識に先立ち、後述の前照合辞誉16と本照合辞417
を用意しておく。前照合辞誓16は6つの特徴パラメー
タに関して、谷値の大きさ順に単語が類別されており、
前照合では入力音声の1つのパラメータ騰を求め、その
直の±60%以内に入る辞蒼項目を選択する。これを5
つのパラメータについて行ない、6者の論理積金と9前
照合結果として侯補単語が選択される。
を用意しておく。前照合辞誓16は6つの特徴パラメー
タに関して、谷値の大きさ順に単語が類別されており、
前照合では入力音声の1つのパラメータ騰を求め、その
直の±60%以内に入る辞蒼項目を選択する。これを5
つのパラメータについて行ない、6者の論理積金と9前
照合結果として侯補単語が選択される。
本照合辞簀17は本照合で用いるスペクトルパターンの
ような通線の特徴パラメータが格納される。
ような通線の特徴パラメータが格納される。
同図において、認識時にマイクロホーン10から背戸を
人力し、その−気IM号は壇幅器11を通して分析回路
12に送られ、音声認識のために必要な6橿パラメータ
の分析を行なう。
人力し、その−気IM号は壇幅器11を通して分析回路
12に送られ、音声認識のために必要な6橿パラメータ
の分析を行なう。
まず、@禰単#を選択する前照合処理のために、1声パ
ワーがパワー正規化回路14によ)前述の第1図、42
因の手法で正規化され、単語の発声時間長、全パワー量
、母音/子音比の6特徴パラメータに質換される。これ
らが酌照汁回路15に送られ、前照汗辞優16と照合さ
れ前述のようにして候補単一が選択される。これが本照
合辞書17に送られ、対応するパラメータのたとえばス
ペクトルパターンがA定される。一方、本照合凪魂では
前照会悪場で用いるパラメータと相捕的な電を抽出する
ため、分析回路12の出力を時機抽出回路13に送り、
たとえばスペクトルパターンの特徴パラメータが抽出さ
れ、本照合回路18において本照会辞−1117からの
パラメータとの距離#f4を行ない、その結果を旬ボ回
路19に送りf−IJ定し4誠結果を出力する。
ワーがパワー正規化回路14によ)前述の第1図、42
因の手法で正規化され、単語の発声時間長、全パワー量
、母音/子音比の6特徴パラメータに質換される。これ
らが酌照汁回路15に送られ、前照汗辞優16と照合さ
れ前述のようにして候補単一が選択される。これが本照
合辞書17に送られ、対応するパラメータのたとえばス
ペクトルパターンがA定される。一方、本照合凪魂では
前照会悪場で用いるパラメータと相捕的な電を抽出する
ため、分析回路12の出力を時機抽出回路13に送り、
たとえばスペクトルパターンの特徴パラメータが抽出さ
れ、本照合回路18において本照会辞−1117からの
パラメータとの距離#f4を行ない、その結果を旬ボ回
路19に送りf−IJ定し4誠結果を出力する。
(6)@明の効果
以上説明し次ように、本発明によれば、前照合処理部に
おいて、単語発声固有の清報蓋として単語の正規化パワ
ーを基にした前述の5つの特徴パラメータによpl−ま
た本照会」1部では、1目浦的なパラメータにより照合
し、併せて2一段の照会処理上行なうので、安定にかつ
高速に候補単一の選択ができ、高い!g#i率で単語音
声認識がOJ′能となる。
おいて、単語発声固有の清報蓋として単語の正規化パワ
ーを基にした前述の5つの特徴パラメータによpl−ま
た本照会」1部では、1目浦的なパラメータにより照合
し、併せて2一段の照会処理上行なうので、安定にかつ
高速に候補単一の選択ができ、高い!g#i率で単語音
声認識がOJ′能となる。
41図、第2図((L) 、 (6)は本発明の詳細な
説明図、第6図は本発明の実施例の構成説明図でろ’)
、41+42は正規化された全パワー量、10はマイ
クロホーン、11は増1編器、12は分析回路、16は
%微細出回路、14はパワー正規化回路、15は前照合
回路、16は前照合辞誉、17は本照合辞書、18は本
照会回路、19は判定回路耐水す。 時詐出顧人富士通株式会社 復代理人 弁理士 1)坂 善 1 第1図 第2図
説明図、第6図は本発明の実施例の構成説明図でろ’)
、41+42は正規化された全パワー量、10はマイ
クロホーン、11は増1編器、12は分析回路、16は
%微細出回路、14はパワー正規化回路、15は前照合
回路、16は前照合辞誉、17は本照合辞書、18は本
照会回路、19は判定回路耐水す。 時詐出顧人富士通株式会社 復代理人 弁理士 1)坂 善 1 第1図 第2図
Claims (1)
- 多数単語音声認識方式を用いた音声の実時間−織処理を
行ない候補率1llt−選択する前照合処理部を有する
音声認識装置において、前記前照合地理部に、単語発声
長、正規化パワーから求めた単語発声の全パワー量、お
よび母音性、子音性を示す比較的パワーの大きい時間長
と比較的パワーの小さい時間長との比の6つの特徴パラ
メータを用い候補単語を選択する手段を設けたことを特
徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57107767A JPS58224396A (ja) | 1982-06-23 | 1982-06-23 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57107767A JPS58224396A (ja) | 1982-06-23 | 1982-06-23 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58224396A true JPS58224396A (ja) | 1983-12-26 |
JPH0254560B2 JPH0254560B2 (ja) | 1990-11-21 |
Family
ID=14467481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57107767A Granted JPS58224396A (ja) | 1982-06-23 | 1982-06-23 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58224396A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003050595A (ja) * | 2001-08-07 | 2003-02-21 | Casio Comput Co Ltd | 音声認識装置及び方法、並びにプログラム |
WO2012150658A1 (ja) * | 2011-05-02 | 2012-11-08 | 旭化成株式会社 | 音声認識装置および音声認識方法 |
-
1982
- 1982-06-23 JP JP57107767A patent/JPS58224396A/ja active Granted
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003050595A (ja) * | 2001-08-07 | 2003-02-21 | Casio Comput Co Ltd | 音声認識装置及び方法、並びにプログラム |
JP4604424B2 (ja) * | 2001-08-07 | 2011-01-05 | カシオ計算機株式会社 | 音声認識装置及び方法、並びにプログラム |
WO2012150658A1 (ja) * | 2011-05-02 | 2012-11-08 | 旭化成株式会社 | 音声認識装置および音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH0254560B2 (ja) | 1990-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hermansky et al. | Perceptually based linear predictive analysis of speech | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
US8676574B2 (en) | Method for tone/intonation recognition using auditory attention cues | |
JPS58130393A (ja) | 音声認識装置 | |
EP0319140A2 (en) | Speech recognition | |
Sethu et al. | Speaker normalisation for speech-based emotion detection | |
JPS62232691A (ja) | 音声認識装置 | |
EP0273615B1 (en) | Speaker indentification | |
Paliwal | Dimensionality reduction of the enhanced feature set for the HMM-based speech recognizer | |
Elenius et al. | Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system | |
Yokoya et al. | Recovery of superquadric primitives from a range image using simulated annealing | |
Kalinli | Tone and pitch accent classification using auditory attention cues | |
JPS58224396A (ja) | 音声認識装置 | |
Blomberg et al. | Auditory models in isolated word recognition | |
JPS6129518B2 (ja) | ||
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
JPS58108590A (ja) | 音声認識装置 | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction | |
Meghanani et al. | Pitch-synchronous discrete cosine transform features for speaker identification and verification | |
JPS61273599A (ja) | 音声認識装置 | |
DE173986T1 (de) | Verfahren und vorrichtung zur erkennung von wortfolgen, die zu kleinen vokabularien gehoeren, ohne vorausgehendes training. | |
JP2658426B2 (ja) | 音声認識方法 | |
Lee et al. | An NN based tone classifier for Cantonese | |
Raman et al. | Performance of isolated word recognition system for confusable vocabulary | |
Jurado et al. | Speech text-independent segmentation using an improvement method for identification of phoneme boundaries |