JPH02232698A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02232698A
JPH02232698A JP5324489A JP5324489A JPH02232698A JP H02232698 A JPH02232698 A JP H02232698A JP 5324489 A JP5324489 A JP 5324489A JP 5324489 A JP5324489 A JP 5324489A JP H02232698 A JPH02232698 A JP H02232698A
Authority
JP
Japan
Prior art keywords
formant
information
phoneme
peaks
transient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5324489A
Other languages
English (en)
Inventor
Makoto Akune
誠 阿久根
Makoto Akaha
誠 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP5324489A priority Critical patent/JPH02232698A/ja
Publication of JPH02232698A publication Critical patent/JPH02232698A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野] この発明は、音声認識装置、特に不特定話者の音韻認識
に好適な音声!!識装置に関する.〔発明の概要〕 この発明は、音声認識装置において、スベクトル上の複
数のピークの周波数の時間的変化を取出し、時間的変化
を定常部と過渡部とに分離し、定常部における複数のピ
ークの周波数の分布から母音を認識し、母音の認識に基
づいてピークの周波数が第何番目のホルマントかを特定
し、過渡部におけるホルマントの時間的変化に基づいて
過渡部の音韻を認識できるようにしたことにより、ピッ
チとホルマントを区別でき、正しいホルマント遷移情報
を得ることができ、正確な音声認識を行えるようにした
ものである. 〔従来の技術〕 従来から音韻認識、音声認識ではホルマントは有用なパ
ラメータであることが知られており、このホルマントを
得るために、例えばバンドバスフィルタバンクが用いら
れている. バンドバスフィルタバンクを通して得られる入力音声の
周波数スペクトルには、通常、複数のピークがあり、こ
のピークの時間的変化をトラッキングすることにより、
定常部と、過渡部とが判定される.定常部からはピーク
周波数の分布に基づいて母音の識別情報が得られ、過渡
部からは半母音、子音等の識別情報が得られる.そして
、定常部に於けるピーク周波数は、第6図に示されるよ
うに、低域側から夫々ビッチP、ホルマントF1、F2
、F3とされる. 〔発明が解決しようとする課題〕 ところで、第6図に示されているように、ホルマントF
1より低域側には、ビッチPと称される周波数スペクト
ルのピークの見られることがある.このピフチPの位置
は変化するため、ビッチPが、第6図実線で示されるよ
うにホルマントF1より低域側に離れて存在することが
ある.この場合には、第6図一点鎖線に示されるバンド
バスフィルタバンクの通過帯域の下限から外れているた
め周波数スペクトルとして出力されることはない.しか
しながら、第6図破線にて示されるようにビッチPがホ
ルマントF1に接近して存在する場合は、バンドバスフ
ィルタバンクの通過帯域の下限を上回るため、周波数ス
ペクトルのピークとして出力される. このような場合に、定常部を参照せずに過渡部のみで周
波数スペクトルのピークをトラッキングし、半母音、子
音等の識別を行うと、トラッキングしている周波数スペ
クトルのピークの内、特に低域におけるピークがホルマ
ントなのか或いはピッチなのか区別できなくなってしま
うという問題点があった.このため、正しいホルマント
遷移情報を得ることができず、音頷認識を正確に行うこ
とができないという問題点があった. 従ってこの発明の目的は、定常部の母音識別情報と、そ
れに基づきピッチとホルマントを区別して得られる過渡
部のホルマント遷移情報とにより、正確な音韻認識を行
える音声認識装置を提供することにある. 〔課題を解決するための手段〕 この発明は、スペクトル上の複数のピークの周波数の時
間的変化を取出し、時間的変化を定常部と過渡部とに分
離し、定常部における複数のピークの周波数の分布から
母音を認識し、母音の認識に基づいて上記ピークの周波
数が第何番目のホルマントかを特定し、過渡部における
ホルマントの時間的変化に基づいて過渡部の音頷を認識
できるようにした構成としている; 〔作用〕 周波数スペクトルに於ける複数のピーク周波数の時間的
変化をトラッキングし、変化点を検出することにより、
定常部と過渡部とに分離する.定常部に於けるピーク周
波数の分布から母音を識別し、この母音識別情報に基づ
いてピークをピッチとホルマントに区別する.ピッチを
除外して残ったピークをホルマントとして判定する.こ
のようにして求められたホルマントが第何番目のホルマ
ントであるかを示す番号を、上述の母音識別情報に基づ
いて各ホルマントに付与すると共に、過渡部に於けるホ
ルマント遷移情報を得る.これによって、ピッチとホル
マントの区別が行え、定常部の母音の識別に基づいて正
しいホルマント遷移情報が得られ、このホルマント遷移
情報から子音、或いは半母音が識別でき、過渡部の音餞
認識が行える. 〔実施例〕 以下、この発明の一実施例について第1図乃至第5図を
参照して説明する. 第1図は、この発明に係る音声認識装置の例を示す. マイクロホン1からの音声信号が、アンブ2及びローパ
スフィルタ3を介して、A/D変換回路4に供給される
.上述の音声信号は、A/D変換回路4にて、例えば、
L2.5 KHzのサンプリング周波数で12ビットの
デジタル音声信号に変換される.このデジタル音声信号
は、音響分析手段5に供給される. 音響分析手段5は、バンドバスフィルタバンクを有する
過渡検出パラメータ生成手段51と、音声パワーを検出
する対数パワー検出千段52と、ゼロクロスレート演算
手段53と、隣接サンプルの相関関係をみるための1次
のバーコール係数の演算手段54と、パワースペクトル
の傾きの演算手段55と、ホルマント検出手段56と、
音声の基本履期の検出手段57を備える. 過渡検出パラメータは、入力音声の過渡性及び定常性を
検出するためのもので、この過渡検出パラメータは、音
声スペクトルの変化量を各チャンネル(周波数)の時間
方向のブロック内の分散の和として定義される.即ち、
音声スペクトルSi(n)を周波数方向の以下に示す平
均値Savg(n)でゲインを正規化する. ここで、iはチャンネル番号、qはチャンネル数(バン
ドバスフィルタ数)を示す.また、qチャンネルの各チ
ャンネルの情報は時間方向にサンプリングされるが、同
一時点のqチャンネルの情報のブロックをフレームとい
い、nは’s,mに使用されるフレームの番号を示して
いる. ゲイン正規化の行われた音声スペクトルSt(n)は、 S i (n) = S i (n) − S avg
 (n)−==−(2)となり、過渡検出パラメータT
 (n)は、そのフレームの前後のhフレームの合計(
2M+1)である(n−M+n+M )ブロック内の各
チャンネルの時間方向の分散の和として定義される. T (n)  = :’E.,  ,E’−Nl  g
i (n+J) −A inn)l  ’−(3)ここ
で、 であり、各チャンネルのブロック内の時間方向の平均値
である. 実際的には、(n−M,n+M )ブロック中心付近の
変化は、音の揺らぎ或いはノイズを拾い易いので、過渡
検出パラメータT (n)の計算から取り除くこととし
、第(3)式は次のように変形される.そして、第(5
》式において、a=IS M−28、履−3、q−32
として過渡検出パラメータT(n)が求められる.例え
ば、「あさ(asa) Jという入力音声の場合、第2
図Aのような過渡検出パラメータT (n)が得られる
. 他のパラメータ、例えば、第2図Bに示される対数パワ
ー、第2図Cに示されるゼロクロスレート、第2図Dに
示される1次のバーコール係数、第2[fflEに示さ
れるパワースペクトルの傾き、第2図Fに示される基本
周期等のパラメータの演算も過渡検出パラメータT (
n) と同様に、或る時点(フレーム)を中心としてそ
の前後にHフレーム分の時間幅を有するウィンドーを考
え、ウインドーを順次、1サンプル点ずつ時間方向に移
動させ、各ウインドー内で夫々演算を行うことにより得
られる.尚、第2図Gには、入力音声「あさ(asa)
」の音声波形と、音餌境界候補の例を示す.音響分析手
段5から得られた各パラメータは認識処理用パラメータ
として、音韻認識手段8に供給される.また、手段51
〜55から出力される各パラメータはセグメンテーシタ
ン用パラメータとして第1セグメンテーシ町ン手段6の
特徴点抽出手段61に供給される.そして、手段51か
らの出力が母音識別回路1lに供給され、千段56から
出力されるホルマント周波数の時間的変化がトラッキン
グ回路12に供給される. 第1セグメンテーシゴン手段6では、セグメンテーシ町
ン用パラメータから音韻境界候補を求めるために、一般
的な特徴点を抽出する.この例では、特徴点として次の
7種を用いる. ■立上がり点一平坦な部分から増加方向に変化する点 ■立下がり点一減少方向に変化した後、平坦になる部分
の点 ■増加変化点一増加率が変化する点 ■減少変化点一減少率が変化する点 ■ピーク点一ピークの位置 ■正のゼロクロス点一増加方向で零レベルと交差する点 ■負のゼロクロス点一減少方向で零レベルと交差する点 特徴点抽出手段61では、特徴点情報記憶手段62から
の特徴点情報を参照して各パラメータ毎に特徴点を抽出
する.第2図A−Eの各パラメータ中、時間軸方向に縦
線で示す位置が各特徴点の位置である.第1セグメンテ
ーシジン手段6から得られ、特徴点の付された各パラメ
ータは、第2セグメンテーシゴン手段7の特徴点統合処
理手段71に供給される. 第2セグメンテーション手段7は、特徴点統合処理手段
71と、音韻境界特徴検出手段72と、特徴点統合情報
記憶手段73と、音韻境界特徴情報記憶手段74とから
なる. 第1セグメンテーシッン手段6で求めた特徴点はパラメ
ータ毎に位置ズレ、未検出等があるので、特徴点統合処
理手段71にて特徴点統合情報記憶手段73からの特徴
点統合情報を参照し各バラメ一夕の特徴点をまとめ音韻
境界候補を決定する.特徴点統合情報は、どのパラメー
タの特徴点を優先するかについての情報である. 音韻境界特徴検出手段72では、各音頷境界候補の音韻
境界特徴を求める.この例では8種類の音韻境界特徴が
用いられている. ■無音からの立上がり(S−R) ■子音性→母音性(C−V) ■子音性→子音性(C−C) ■母音性→母音性(V−V) ■母音性への立下がり(V−F) ■母音性→子音性(V−C) ■無音への立下がり(F−S) ■有音→無音(S−S) 音韻境界特徴情報記憶手段74には、これら8種類の音
韻境界特徴情報が記憶されており、音韻境界特徴検出手
段72では、音韻境界特徴情報記憶手段74からの情報
を参照して各音韻境界候補の音鎖境界特徴を検出する.
この結果、第2図Gに示されるように音韻境界特徴が音
韻境界候補の縦線の近傍に示されている. 第2セグメンテーシ町ン手段7からは、音韻区間情報と
して、音頷境界候補情報と、その音韻境界特徴情報が得
られ、この音韻区間情報が第3セグメンテーシ町冫手段
l3と、ホルマント遷移処理回路14に供給される. 一方、母音識別回路11では、定常部Coにおける周波
数スペクトルのピークの分布を抽出し、このピークの分
布と、母音を特定するホルマントFの分布とのマッチン
グをとることによって、定常部Goにおける母音が識別
され、母音識別情報とされる.この母音識別情報がホル
マント遷移処理回路14に供給される. トラッキング回路l2では、周波数スペクトルから抽出
されたピークの周波数の時間的変化をトラッキングし、
第3図に示されるような各ピークの周波数の時間的変化
を得る.そしてこれらの情報は第3セグメンテーシゴン
手段13とホルマント遷移処理回路14に供給される. ホルマント遷移処理回路l4では、周波数スベクトルの
ピークの時間的変化の情報と、母音識別情報と、音饋区
間情報を参考にしてホルマント遷移情報を検出すると共
に、定常部co、過渡部Trに於けるホルマントFに対
し、その順番を規定する番号をつける. このホルマント遷移処理回路14では、まず、母音識別
情報に基づいてピークがビフチPとホルマントFに区別
され、ビッチPを除外して残ったピークがホルマントF
として判定される.求められたホルマントFには、第3
図に示されるように、ホルマントの順番を特定する番号
が付される.そして、ホルマントFの遷移は変化点PF
によって、定常部Coと、過渡部Trに分離される.こ
こで、ホルマントFの変化点PFの抽出について、第3
図を参照して説明する. 第3図に於いて、時点tO〜t1の間ではホルマントF
l,F2の周波数には殆ど変化がなく前半の定常部Co
lと判断される. 時点tiを経遇すると、ホルマントF2の周波数は変化
せず、ホルマントFlの周波数が下降する.従って、時
点t1に於けるホルマントF2、F1の周波数が変化点
PFIO、PF20と判断される.この状態は時点tl
 − t2の間継続する.従って、時点tl〜t2の期
間は、過渡部Trと判断される.時点t2を経過すると
、新たなホルマントF2が検出されることで、上述のホ
ルマントF2は、第3番目のホルマントF3とされる.
図から明らかなように、ホルマントF1の周波数が安定
し、また、新たなホルマントF2が安定状態で検出され
、そして、ホルマントF3の周波数lよ変化しない.従
って、時点t2に於けるホルマン}Fl、F2、F3の
周波数が変化点PFII、PF21、PF31と判断さ
れる.この状態は時点t2以後、継続する.従って、時
点t2以後は後半の定常部Co2と判断される.尚、後
述するように、ホルマン}Fが交差するような場合には
、交差する点を上下に分け、交差しないようにトラッキ
ングを行い、そして、交差に関する情報も、この時に得
る.また、後半の定常部Co2のみにビッチPが検出さ
れたような場合には、トレース方向を逆にたどることで
前半の定常部に於けるビッチPを検出できる. 変化点PFの検出によって、セグメンテーシ町ンが施さ
れた後、ホルマント遷移情報が求められる.上述のホル
マント遷移情報とは、過渡部Trに於いて各変化点PF
を基点とするホルマント周波数の変化の組み合わせを意
味する.即ち、第3図中の太線部分■で示すように、ホ
ルマントF2、F3の変化点PF20、PF31では周
波数の変化が無く、ホルマン}Flは変化点PFIOで
周波数が低下し始め変化点PFIIで安定し、ホルマン
}F2は変化点PF21にて初めて現れるといったよう
な内容の情報である.このように過渡部Trと、その前
後の定常部Coとの間における各ホルマント周波数の変
化の組み合わせが、過渡部Trに於ける子音、半母音の
音韻を規定するホルマント遷移情報とされる.このホル
マント遷移情報は、音頷認識手段8に供給される. 第3セグメンテーシゴン手段13には、前述の音韻区間
情報と、定常部Coと過渡部Tr及びこれらを規定する
変化点PFに間する情報が供給されている.第3セグメ
ンテーシッン手段l3では、変化点PFが他のパラメー
タで得られた音韻境界候補と略同じ位置に検出された時
には、他のパラメータで得られた音頷境界候補を採用す
る.一方、変化点PFが、他のパラメータからは検出さ
れていない音韻境界候補となった時は、変化点PFを新
たな音韻境界候補として採用し、セグメンテーシゴンを
行う.上述の音韻区間情報が音韻認識手段8に供給され
る. このように、ホルマントを音韻区間用パラメータとして
も利用できるので、より精度の高い名グメンテーション
が可能となる. 音龍!!!識手段8では、音響分析手段5から供給され
る各パラメータを認識処理用パラメータとし、ホルマン
ト遷移情報及びホルマントの番号、そして、音韻区間情
報等を参照しながら音韻認識を実行する.この結果、定
常部Coでは母音が認識され、過渡部Trでは子音・半
母音が認識される.音韻認識手段8からは、認識された
音韻記号が得られ、これが後段の連続音声、大語霊音声
!!識手段に供給される. このように、定常部Coに於ける母音識別情報に基づい
てビッチPとホルマントFを区別し、ホルマントFの順
序を定めているので、ビッチPとホルマントFを区別で
き、正しいホルマント遷移情報を得ることができる.ま
た、ホルマント遷移情報から子音、半母音等の音韻が確
定でき、定常部Coから識別される母音と相俟って音声
認議の認識率を向上させることができる. 第4図及び第5図には、ホルマントの順序を示す番号を
付するに際し、ホルマントが交差する場合の処理を示す
. 第4図の例では、交差前と交差後のホルマントF1、F
2の順序が点Xを境に逆転する.一方、第6図のように
、ホルマントFが交差しないように交差する点Xを上下
に分けてトラッキングし、ホルマントFの番号を付して
もよい.このようにすれば、交差前と交差後のホルマン
}Fl、F2の順序は逆転しない. この実施例では、ハードウエアで構成する例について説
明しているが、第工〜第3セグメンテーシ剪ン手段6、
7、13、音響分析手段5の演算部分、母音識別回路1
1、トラッキング回路l2、ホルマント遷移処理回路l
4、音n認識手段8等はコンピュータにより実現しても
よい.(発明の効果) この発明によれば、スペクトル上の複数のピークの周波
数の時間的変化を定常部と過渡部とに分離し、定常部に
おけるピークの周波数の分布から母音を認識し、母音の
認識に基づいてピークの周波数が第何番目のホルマント
かを特定し、過渡部の音韻を認識しているので、ピッチ
とホルマントを区別できるという効果がある.このため
、正しいホルマント遷移情報を得ることができるという
効果がある. 上述の効果により、過渡部における子音、半母音等の音
鎖が確定でき、定常部から母音が識別されることと相俟
ワて、音声認識の認識率を向上させることができるとい
う効果がある. そして、ピッチとホルマントが区別され正しいホルマン
ト遷移情報を得ることかできるので、不特定話者を対象
とする音韻認識に通用できるという効果がある. 実施例によれば、ホルマントが交差するような場合であ
ってもホルマントの順序を正しく確定することができる
という効果がある.
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロック図、第2図
は夫々実施例を説明するための波形図、第3図はホルマ
ント遷移を示す説明図、第4図及び第5図は夫々ホルマ
ントが交差する場合を示す説明図、第6図は周波数スペ
クトルを示す周波数特性図である. 図面における主要な符号の説明 5:音響分析手段、56:ホルマント検出手段、6:第
1セグメンテーシゴン手段、7;第2セグメンテーショ
ン手段、8:音fl認識手段、11:母音識別回路、1
2:トラッキング回路、14:ホルマント遷移処理回路

Claims (1)

  1. 【特許請求の範囲】 スペクトル上の複数のピークの周波数の時間的変化を取
    出し、上記時間的変化を定常部と過渡部とに分離し、上
    記定常部における上記複数のピークの周波数の分布から
    母音を認識し、 上記母音の認識に基づいて上記ピークの周波数が第何番
    目のホルマントかを特定し、 上記過渡部における上記ホルマントの時間的変化に基づ
    いて上記過渡部の音韻を認識できるようにした音声認識
    装置。
JP5324489A 1989-03-06 1989-03-06 音声認識装置 Pending JPH02232698A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5324489A JPH02232698A (ja) 1989-03-06 1989-03-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5324489A JPH02232698A (ja) 1989-03-06 1989-03-06 音声認識装置

Publications (1)

Publication Number Publication Date
JPH02232698A true JPH02232698A (ja) 1990-09-14

Family

ID=12937381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5324489A Pending JPH02232698A (ja) 1989-03-06 1989-03-06 音声認識装置

Country Status (1)

Country Link
JP (1) JPH02232698A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007279743A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 話者認証登録及び確認方法並びに装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007279743A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 話者認証登録及び確認方法並びに装置

Similar Documents

Publication Publication Date Title
EP0128755A1 (en) Apparatus for speech recognition
JPH0990974A (ja) 信号処理方法
JPS62217295A (ja) 音声認識方式
JPS5972496A (ja) 単音識別装置
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
US4885791A (en) Apparatus for speech recognition
JPS60200300A (ja) 音声の始端・終端検出装置
JPH02232698A (ja) 音声認識装置
JPS60114900A (ja) 有音・無音判定法
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JP3049711B2 (ja) 音声処理装置
JPS59121099A (ja) 音声区間検出装置
JP4890792B2 (ja) 音声認識方法
JP2557497B2 (ja) 男女声の識別方法
JP3008404B2 (ja) 音声認識装置
JPH01165000A (ja) 音韻区間情報形成装置
JPH1097269A (ja) 音声検出装置及び方法
Ananthapadmanabha et al. Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes
JPH0398098A (ja) 音声認識装置
JPH0377998B2 (ja)
JPS5925240B2 (ja) 音声区間の語頭検出方式
JPH0667695A (ja) 音声認識方法および音声認識装置
JPH01170998A (ja) 音韻区間情報形成装置
JPS63226691A (ja) 標準パターン作成方式