JPH0558560B2 - - Google Patents

Info

Publication number
JPH0558560B2
JPH0558560B2 JP20897886A JP20897886A JPH0558560B2 JP H0558560 B2 JPH0558560 B2 JP H0558560B2 JP 20897886 A JP20897886 A JP 20897886A JP 20897886 A JP20897886 A JP 20897886A JP H0558560 B2 JPH0558560 B2 JP H0558560B2
Authority
JP
Japan
Prior art keywords
spectral
relative value
similarity
spectrum
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP20897886A
Other languages
English (en)
Other versions
JPS6364100A (ja
Inventor
Yoichi Yamada
Keiko Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP20897886A priority Critical patent/JPS6364100A/ja
Priority to US07/084,107 priority patent/US4882755A/en
Publication of JPS6364100A publication Critical patent/JPS6364100A/ja
Publication of JPH0558560B2 publication Critical patent/JPH0558560B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識装置、特にマツチング技術
を用いた音声認識装置に関するものである。
(従来の技術) 音声認識を行う一般的な技術として以下に述べ
るスペクトルマツチング技術がある。先ず、この
発明の説明に先立ち、第5図及び第6図を用いて
従来提案されているスペクトルマツチング技術を
用いた音声認識装置につき簡単な説明を行う。
第5図は従来の音声認識装置を示すブロツク
図、第6図はスペクトルマツチング技術の説明図
である。
A/D変換された入力音声信号D1は周波数分
析部10へ入力される。周波数分析部10はこの
入力信号D1に対し入力中心周波数の異なる(中
心周波数の番号付けを以後チヤネルと称す)バン
ドパスフイルタによる周波数分析及び対数変換を
行つた周波数スペクトルD2を所定の時間間隔
(以後フレームと称する)毎に算出し(第6図
A)、スペクトル正規化部11及び音声区間検出
部12へ出力する。
音声区間検出部12は周波数スペクトルD2の
値の大きさなどから始端時刻と終端時刻とを決定
し始端時刻信号D3及び終端時刻信号D4をスペ
クトル正規化部11へ出力する。
スペクトル正規化部11は周波数スペクトルD
2からスペクトルの最小自乗近似直線を減じ正規
化スペクトル(第6図A及びB)とする処理を始
端時刻から終端時刻まで行い正規化スペクトルパ
タンD5としてスペクトル類似度計算部13へ出
力する。
上記処理を所定の時間間隔(フレーム)毎に音
声始端時刻から音声終端時刻まで繰り返し行う。
次にスペクトル類似度計算部13は正規化スペ
クトルパタンD5と、予めスペクトル標準パタン
記憶部14に格納して用意されている全ての標準
パタンとの類似度を算出し、各認識対象カテゴリ
に対するスペクトル類似度D6を判定部15へ出
力する。
判定部15は全ての標準パタンの中で最大の類
似度を与える標準パタンが属するカテゴリ名を認
識結果として出力する。
以上述べた音声認識装置におけるスペクトルマ
ツチング技術によれば、スペクトル正規化を行う
ことにより話者の相違により発生する声帯音源特
性の相違を吸収することが出来、不特定話者が発
声する音声の認識に対して有効である。
(発明が解決しようとする問題点) このスペクトルマツチング技術は入力音声パタ
ン全体のスペクトル形状を抽出し、スペクトル標
準パタンとの類似度計算を行うものである。
従つてパタン全体のスペクトル形状が類似した
カテゴリ、例えば「イイエ」と「レイ」を考える
と、母音「イ」と母音「エ」のホルマント周波数
の出現位置は同一音声内においては明らかな相違
があるが、発声時刻及び発声話者が変動する場合
を考えると両母音のホルマント周波数の出現位置
の分布はオーバーラツプする部分があるため、正
規化スペクトル情報(例えばホルマント周波数)
が出現するチヤネル上の絶対位置の標準的な値で
あるところのスペクトル標準パタンと類似度計算
を行つた場合に両者を正確に識別判定することが
困難となる場合がある。即ち、同一音声内におけ
るスペクトルの相対的な関係を表わす特徴(例え
ば「イ」である部分と、「エ」である部分の相対
的関係を表わす特徴量)が欠落していることによ
り認識性能の低下を招くという問題点があつた。
この発明は上述した問題点を除去するために成
されたものであり、従つてこの発明の目的は入力
音声の正規化スペクトルの相対的大きさを周波数
帯域毎に算出し、これにより得られた値を特徴と
して追加し、この特徴を標準パタンとの類似度演
算に使用する構成とすることにより、認識性能の
優れた音声認識装置を提供することにある。
(問題点を解決するための手段) この目的の達成を図るため、この発明による音
声認識装置によれば、 a 音声区間内における正規化スペクトルの当該
音声区間における正規化スペクトル平均値に対
するスペクトル相対値を各フレーム毎に算出し
てスペクトル相対値パタンを作成する処理を、
各チヤネル毎に、行うスペクトル相対値計算部
と、 b スペクトル相対値標準パタンを予め格納した
スペクトル相対値標準パタン記憶部と、 c このスペクトル相対値パタンと、スペクトル
相対値標準パタンとの類似度計算を行い各認識
対象カテゴリに対するスペクトル相対値類似度
を算出するスペクトル相対値類似度計算部とを
設ける。
d そして、さらに、このスペクトル類似度とス
ペクトル相対値類似度の両者を参照することに
より各認識対象カテゴリ毎に総合類似度を計算
し、この総合類似度が全ての認識対象カテゴリ
の中で最大となるカテゴリ名を認識結果として
出力するように構成した判定部を具えている。
この発明の実施に当つては、好ましくはこのス
ペクトル相対値計算部には正規化スペクトル平均
値算出手段と、スペクトル相対値算出手段とを設
けるのが良い。
この正規化スペクトル平均値算出手段は、音声
始端フレームから音声終端フレームまでにおける
同一番目のチヤネルについて正規化スペクトル平
均値を求めるための算出機能を有するのが好適で
ある。
さらに、スペクトル相対値算出手段は、当該チ
ヤネルにおける正規化スペクトルから前記正規化
スペクトル平均値を減算してスペクトル相対値を
得る処理を音声始端フレームから音声終端フレー
ムまでの全フレームに対して実行する機能を有す
るのが好適である。
そして、これら両算出手段を繰り返し動作させ
て、周波数分析された全てのチヤネルに対して前
記スペクトル平均値を求めて前記スペクトル相対
値を得ることによつてスペクトル相対値パタンを
出力するように構成する。
(作用) このように、この発明の音声認識装置によれ
ば、従来の識別判定に用いられているスペクトル
類似度の他に、同一音声区間内における正規化ス
ペクトルの相対値を特徴量として周波数帯域毎に
算出し、この相対値に関するスペクトル相対値類
似度を加えた総合類似度で識別判定を行うので、
正確かつ安定な認識が可能となる。
(実施例) 以下、図面を参照してこの発明の音声認識装置
の一実施例につき説明する。
第1図はこの発明の一実施例を示す機能ブロツ
ク図、第2図Aはこの発明の一主要部を構成する
スペクトル相対値計算部の一例を示す機能ブロツ
ク図、第2図Bは第2図Aのスペクトル相対値計
算部の動作手順を説明するための流れ図である。
第1図及び第2図A及びBを用いてこの発明の音
声認識装置及びその動作説明を行うが、第1図に
おいて第5図に示した構成成分に対応する構成成
分については同一符号を付して示し、その詳細な
説明は、特に相違する場合を除き省略する。
この発明の実施例の音声認識装置によれば、第
5図に示した従来提案されている構成成分の他
に、発声音の特徴であるスペクトル相対値を抽出
するスペクトル相対値計算部16と、スペクトル
相対値標準パタンを予め読み出し自在に記憶させ
てあるスペクトル相対値標準パタン記憶部17
と、スペクトル相対値パタン及びスペクトル相対
値標準パタンの類似度を計算するスペクトル相対
値類似度計算部18とを設けると共に、判定部を
総合類似度で認識判定出来る判定部19として構
成している。
このスペクトル相対値計算部16には、音声区
間検出部12から始端時刻信号D3及び終端時刻
信号D4を供給すると共に、スペクトル正規化部
11から正規化スペクトルパタンD5を供給す
る。このスペクトル相対値計算部16は第2図B
の説明の項で後述する手法によりスペクトル相対
値パタンD8を算出し、スペクトル相対値類似度
計算部18へ出力する。
このスペクトル相対値類似度計算部18はスペ
クトル相対値パタンD8と、予めスペクトル相対
値標準パタン記憶部17に記憶されている全ての
スペクトル相対値標準パタンD9との類似度を計
算し、各認識対象カテゴリに対するスペクトル相
対値類似度D10を判定部19へ出力する。
この判定部19は認識対象カテゴリ毎にスペク
トル類似度D6と、スペクトル相対値類似度D1
0との両者を参照して最大の総合類似度を求めて
認識結果D11を出力するが、この実施例では両
者D6及びD10の総和を算出し、この類似度総
和値が全ての認識対象カテゴリの中で最大となる
カテゴリ名を認識結果D11として出力する。
次に、第2図A及びBの機能ブロツク図及び動
作の流れ図によりスペクトル相対値計算部16の
動作説明を詳細に行う。
スペクトル相対値計算部16は第2図Aに示す
ようにこの実施例では正規化スペクトル平均値算
出手段20及びスペクトル相対値算出手段21を
具えている。そして、これら手段20及び21に
よる処理手順につき第2図Bを参照して以下説明
する。尚、以下の説明において、処理ステツプを
Sで表わす。
又、以下の説明において、周波数分析帯域数
(チヤネルの数)をCHNNO、音声始端フレーム
番号をSFR、音声終端フレーム番号をEFR、正
規化スペクトルをSPEC(i,j)(但し、iはチ
ヤネル番号及びjはフレーム番号)、スペクトル
相対値をRSPEC(i,j)(但し、iはチヤネル
番号及びjはフレーム番号)と定義する。
(I) 正規化スペクトル平均値算出手段 先ず、スペクトル相対値算出を行うチヤネル番
号iを1に初期設定する(S1)。
これは入力する各フレームの正規化スペクトル
毎に行われる。
次に、正規化スペクトル平均値の算出を行う
(S2)。
この正規化スペクトル平均値は次式(1) AVSPEC={EFRj=SFR SPEC(i,j)}/(EFR−SFR+1) ……(1) より算出する。このため、例えば EFRj=SFR SPEC(i,j)の演算処理と、(EFR−
SFR+1)の演算処理とを行つた後、(1)式から
正規化スペクトル平均値AVSPECを求める演算
処理を行えばよい。或は又、テーブルRAM等を
用いて正規化スペクトル平均値AVSPECを読み
出す方法であつてもよい。
() スペクトル相対値算出手段 先ず、スペクトル相対値算出を行うフレーム番
号jをSFRに初期設定する(S3)。
次に、該チヤネル及び該フレームにおけるスペ
クトル相対値を次式(2) RSPEC(i,j)=SPEC(i,j)−AVSPEC
……(2) に従つて算出する(S4)。
次に、次のフレームについて同様な処理を実行
するため、先ずフレーム番号jに1を加算し
(S5)、jの値が下記の条件 j>EFR(EFR:音声終端フレーム番号)すなわ
ち、音声終端フレーム番号EFRより大であるか
の条件を満足するか否かを判定する(S6)。この
条件を満足しない場合には、未処理のフレームの
同一チヤネル番号に対してステツプS4及びS5を
繰り返し実行する。この条件を満足する場合に
は、当該チヤネルにおけるスペクトル相対値の算
出処理を終了する。
次に、各フレームの次のチヤネルについて同様
な処理を実行するためチヤネル番号iに1を加算
し(S7)、iの値が下記の条件 i>CHNNO (CHNNO:チヤネル数)を満
足するか否かを判定する(S8)。
この条件を満足しない場合には残りの未処理の
チヤネル番号についてステツプS2〜S7の処理を
繰り返し実行する。この条件を満足する場合に
は、この入力音声に対するスペクトル相対値の算
出処理を終了する。
具体例の説明 第3図Aは発声音「イイエ」及び第3図Bは発
声音「レイ」の正規化スペクトルを横軸にフレー
ム番号及び縦軸にチヤネル番号を取つて表わした
図である。
濃淡の濃い部分が正規化出力値が大であること
を表している。
これら図に示す正規化スペクトルの場合には、
第3図Aに斜線で示した領域Aでスペクトル相対
値が大となつており、同様に斜線で示した領域B
でスペクトル相対値が小さくなつている。第3図
Bに斜線で示した領域Cにおいてスペクトル相対
値は大となつており、同様に斜線で示した領域D
でスペクトル相対値は小となつている。従つてス
ペクトル相対値計算部16から出力されるスペク
トル相対値パタンD8と、スペクトル相対値標準
パタンD9との間の類似度であるところのスペク
トル相対値類似度D10は両者の間で明白な相違
である。
第4図は判定部19における発声音の音声パタ
ンと、この発声音に類似する音声の標準パタンと
の総合類似度を説明する図であり、第4図Aは第
3図Aの音声パタンを有する発声音「イイエ」の
カテゴリ名「イイエ」及びカテゴリ名「レイ」に
対する総合類似度を表わし、第4図Bは第3図B
の音声パタンを有する発声音「レイ」のカテゴリ
名「イイエ」及びカテゴリ名「レイ」に対する総
合類似度を表わしている。尚、図中〓〓〓はスペ
クトル相対値類似度D10を表わし、〓〓〓はス
ペクトル類似度D6をそれぞれ表わしている。
これら図から理解出来るように発声音「イイ
エ」及び「レイ」のそれぞれの特徴量であるスペ
クトル相対値類似度が対比されるべき「レイ」及
び「イイエ」の標準パタンのスペクトル相対値類
似度よりも大きいため、「イイエ」及び「レイ」
の発声音の音声パタンと標準パタンとでスペクト
ル類似度に差が無くても、スペクトル類似度との
併用により正確な認識処理を行うことが出来る。
この発明は上述した実施例にのみ限定されるも
のではなく、多くの変形又は変更を行い得ること
明らかである。例えば、スペクトル相対値計算部
16の各機能手段は何ら実施例で説明したものに
限定されるものではない。又、これら機能手段で
行われる動作手順も上述した実施例に限定される
ものではない。
さらに、スペクトル相対値類似度計算部18及
びスペクトル相対値標準パタン記憶部17につい
ては詳細な説明を省略したが、これらはスペクト
ル類似度計算部13及びスペクトル標準パタン記
憶部14と同様にして構成出来る。
又、第1図に示した音声認識装置の動作はメモ
リ、制御部、その他の通常の電子回路等を用いて
構成したマイクロコンピユーター等によつてソフ
ト的に処理することが出来る。
(発明の効果) 上述した説明から明らかなように、この発明の
音声認識装置では、正規化スペクトル類似度とス
ペクトル相対値類似度を用いて認識判定を行う構
成としたので、入力音声内におけるスペクトル相
対値を加味した正確かつ安定な認識が可能となり
認識性能の優れた音声認識装置の実現が可能とな
る。
【図面の簡単な説明】
第1図はの発明の音声認識装置の一実施例を示
す機能ブロツク図、第2図Aは第1図の音声認識
装置のスペクトル相対値計算部の一実施例を示す
機能ブロツク図、第2図Bはこの発明のスペクト
ル相対値パタン抽出の処理手順を示す動作の流れ
図、第3図A及びBはこの発明の説明に供する発
声音「イイエ」及び「レイ」の正規化スペクトル
をそれぞれ示す図、第4図はこの発明におけるス
ペクトル相対値類似度の認識への貢献を説明する
ための、標準パタンに対する総合類似度の説明
図、第5図は従来の音声認識装置を示す機能ブロ
ツク図、第6図はスペクトルマツチング技術の説
明図である。 10……周波数分析部、11……スペクトル正
規化部、12……音声区間検出部、13……スペ
クトル類似度計算部、14……スペクトル標準パ
タン記憶部、16……スペクトル相対値計算部、
17……スペクトル相対値標準パタン記憶部、1
8……スペクトル相対値類似度計算部、19……
判定部、20……正規化スペクトル平均値算出手
段、21……スペクトル相対値算出手段。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声に対し複数のチヤネルによる周波数
    分析、対数変換を行い周波数スペクトルを抽出す
    る周波数分析部と、 前記周波数スペクトルに基づいて音声区間を検
    出する音声区間検出部と、 前記周波数スペクトル及び音声区間に基づいて
    前記周波数スペクトルに対して声帯音源特性の正
    規化を行つた正規化スペクトルパタンを算出する
    スペクトル正規化部と、 スペクトル標準パタンを予め格納したスペクト
    ル標準パタン記憶部と、 前記正規化スペクトルパタン及びスペクトル標
    準パタンの類似度計算を行い各認識対象カテゴリ
    に対するスペクトル類似度を算出するスペクトル
    類似度計算部と、 全ての認識対象カテゴリの中で最大の類似度を
    与えるカテゴリ名を認識結果として出力する判定
    部と を具える音声認識装置において、 a 音声区間内における正規化スペクトルの当該
    音声区間における正規化スペクトル平均値に対
    するスペクトル相対値を各フレーム毎に算出し
    てスペクトル相対値パタンを作成する処理を、
    各チヤネル毎に、行うスペクトル相対値計算部
    と、 b スペクトル相対値標準パタンを予め格納した
    スペクトル相対値標準パタン記憶部と、 c 前記スペクトル相対値パタンと、スペクトル
    相対値標準パタンとの類似度計算を行い各認識
    対象カテゴリに対するスペクトル相対値類似度
    を算出するスペクトル相対値類似度計算部と を具え、 d 前記判定部における最大の類似度を、前記ス
    ペクトル類似度とスペクトル相対値類似度の両
    者を参照することにより各認識対象カテゴリ毎
    に算出された総合類似度のうちの最大の総合類
    似度とした ことを特徴とする音声認識装置。 2 前記スペクトル相対値計算部は 音声始端フレームから音声終端フレームまでに
    おける同一番目のチヤネルについて正規化スペク
    トル平均値を求めるための正規化スペクトル平均
    値算出手段と、 当該チヤネルにおける正規化スペクトルから前
    記正規化スペクトル平均値を減算してスペクトル
    相対値を得る処理を音声始端フレームから音声終
    端フレームまでの全フレームに対して実行するス
    ペクトル相対値算出手段と を具え、周波数分析された全てのチヤネルに対し
    て前記スペクトル平均値を求めて前記スペクトル
    相対値を得ることによつてスペクトル相対値パタ
    ンを出力することを特徴とする特許請求の範囲第
    1項に記載の音声認識装置。
JP20897886A 1986-08-21 1986-09-05 音声認識装置 Granted JPS6364100A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP20897886A JPS6364100A (ja) 1986-09-05 1986-09-05 音声認識装置
US07/084,107 US4882755A (en) 1986-08-21 1987-08-11 Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20897886A JPS6364100A (ja) 1986-09-05 1986-09-05 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6364100A JPS6364100A (ja) 1988-03-22
JPH0558560B2 true JPH0558560B2 (ja) 1993-08-26

Family

ID=16565308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20897886A Granted JPS6364100A (ja) 1986-08-21 1986-09-05 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6364100A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4883408B2 (ja) * 2007-01-22 2012-02-22 独立行政法人情報通信研究機構 系列データ間の類似性検査方法及び装置

Also Published As

Publication number Publication date
JPS6364100A (ja) 1988-03-22

Similar Documents

Publication Publication Date Title
US4882755A (en) Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature
EP0240329A2 (en) Noise compensation in speech recognition
JPH0558560B2 (ja)
JPH0465399B2 (ja)
JPH1097274A (ja) 話者認識方法及び装置
JPH0466520B2 (ja)
JP2613108B2 (ja) 音声認識方法
JP2744622B2 (ja) 破裂子音識別方式
JPH0558557B2 (ja)
JPH01158496A (ja) 音声の特徴抽出方式
JPH0720889A (ja) 不特定話者の音声認識装置および方法
JPS58152300A (ja) 音素認識方法
JP2844592B2 (ja) 離散単語音声認識装置
JP2000250599A (ja) 音響特徴抽出方法及び装置
JPS6350898A (ja) 音声認識装置
JPS6229798B2 (ja)
JPH0217039B2 (ja)
JPS6336680B2 (ja)
JPH03110599A (ja) 音声認識方法
JPH0558556B2 (ja)
JPH02205900A (ja) 話者照合方式
JPH0731506B2 (ja) 音声認識方法
JPH0667695A (ja) 音声認識方法および音声認識装置
JPS6237797B2 (ja)
JPS6225798A (ja) 音声認識装置