JP3049711B2

JP3049711B2 - 音声処理装置

Info

Publication number: JP3049711B2
Application number: JP1061367A
Authority: JP
Inventors: 誠赤羽
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1989-03-14
Filing date: 1989-03-14
Publication date: 2000-06-05
Anticipated expiration: 2015-06-05
Also published as: JPH02240700A

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、音声認識装置、特に音韻知識ベースと推
論手段を備えた音声認識装置に関する。

〔従来の技術〕

従来の音韻認識では、入力音声のスペクトルパターン
を、標準的な音韻のスペクトルパターンと比較、照合し
て認識する、いわゆるパターンマッチング〔特開昭50−
96104号公報参照〕が一般的に行われていた。しかし、
パターンマッチングでは、子音の微妙な差、例えばATA
とAPA、を検出することが困難であった。

そこで、これを改善するため、音韻の特徴、音韻の識
別規則等を音韻知識ベースとするエキスパートシステム
によって音韻認識を行なう試みがなされている。

〔発明が解決しようとする課題〕

しかしながら、エキスパートシステムに於ける音韻認
識では、音韻知識ベースに対し音韻の特徴、音韻の識別
規則等をどのように記述したらよいかという問題点があ
った。

従ってこの発明の目的は、知識ベースに対する音韻の
特徴、音韻の識別規則等の記述に改善を加えた音声認識
装置を提供することにある。

〔課題を解決するための手段〕

この発明は、音声情報が入力される入力手段と、入力
手段から入力される音声情報を異なる分析方式で分析す
ることにより、音声情報からパラメータ情報を検出する
複数の検出手段を備えた音響分析手段と、音響分析手段
からの複数のパラメータ情報が入力され、各パラメータ
情報から各パラメータ毎の音声情報の時間的変化を表す
特徴点を示す複数の特徴点情報を抽出する特徴点情報抽
出手段と、複数の特徴点情報の優先度を示す特徴点総合
情報を記憶する記憶手段と、特徴点統合情報が示す優先
度に基づいて、複数の特徴点情報から音韻境界候補を検
出する音韻境界候補検出手段と、音韻境界候補の各々に
ついて調音方法を分類し、分類結果に基づいて、音韻境
界候補の各々についての音韻的特徴を検出し、検出した
音韻的特徴を、予め記憶した音韻知識に係る情報と比較
することによって音韻を認識する手段とを有することを
構成としている。

〔作用〕

所定の条件に基づいて音声を音韻セグメントに分割
し、次いで、各音韻セグメント毎に特徴を求め、それを
推論手段に入力する。

一方、音韻知識ベースには、音韻セグメント単位で各
音韻の特徴が、例えば、if…then…型のルールで記述さ
れている。推論手段では、音韻セグメント毎の特徴と、
音韻知識ベースの音韻セグメントの特徴とを比較、照合
し、これに基づいて音韻候補を得、音韻が特定される。

この結果、精度の高い音韻認識が行え、大語彙、連続
音声認識が可能となる。

〔実施例〕

以下、この発明の一実施例について第１図乃至第８図
を参照して説明する。

第１図は、この発明に係る音声認識装置の例を示す。

入力音声がマイクロホン１で音声信号に変換され、ア
ンプ２及びローパスフイルタ３を介して、A/D変換回路
４に供給される。音声信号は、A/D変換回路４にて、例
えば、12.5KHzのサンプリング周波数で12ビットのデジ
タル音声信号に変換される。このデジタル音声信号は、
音響分析回路５に供給される。

音響分析回路５は、バンドパスフィルタバンクを有す
る過渡検出パラメータ生成回路51と、音声パワーを検出
する対数パワー検出回路52と、ゼロクロスレート演算回
路53と、隣接サンプルの相関関係をみるための１次のパ
ーコール係数の演算回路54と、パワースペクトルの傾き
の演算回路55と、ホルマントの時間方向の変化を求める
ホルマント検出回路56と、音声の基本周期の検出回路57
を備える。

過渡検出パラメータは、入力音声の過渡性及び定常性
を検出するためのもので、音声スペクトルの変化量を各
チャンネル（周波数）の時間方向のブロック内の分散の
和として定義される。即ち、音声スペクトルSi（ｎ）を
周波数方向の以下に示す平均値Savg（ｎ）でゲインを正
規化する。

ここで、ｉはチャンネル番号、ｑはチャンネル数（バ
ンドパスフィルタ数）を示す。また、ｑチャンネルの各
チャンネルの情報は時間方向にサンプリングされるが、
同一時点のｑチャンネルの情報のブロックをフレームと
いい、ｎは認識に使用されるフレームの番号を示してい
る。

ゲイン正規化の行われた音声スペクトルｉ（ｎ）
は、ｉ（ｎ）＝Sin（ｎ）ーSavg（ｎ） ……（２）となる。

過渡検出パラメータＴ（ｎ）は、そのフレームの前後
のＭフレームの合計（2M＋１）である〔ｎ−M,n＋Ｍ〕
ブロック内の各チャンネルの時間方向の分散の和として
定義される。

ここで、であり、各チャンネルのブロック内の時間方向の平均値
である。

実際的には、〔ｎ−M,n＋Ｍ〕ブロック中心付近の変
化は、音の揺らぎ或いはノイズを拾い易いので、過渡検
出パラメータＴ（ｎ）の計算から取り除くこととし、第
（３）式は次のように変形される。

そして、第（５）式において、一例として、ａ＝1,M
＝28,m＝3,q＝32の場合の過渡検出パラメータＴ（ｎ）
が求められる。例えば、「あきょ（akyo）」という入力
音声の場合、第２図Ａのような過渡検出パラメータＴ
（ｎ）が得られる。

他のパラメータ、例えば、第２図Ｂに示される対数パ
ワー、第２図Ｃに示されるゼロクロスレート、第２図Ｄ
に示される１次のパーコール係数、第２図Ｅに示される
パワースペクトルの傾きの検出、第２図Ｈに示される基
本周期等のパラメータの演算も、過渡検出パラメータＴ
（ｎ）と同様に、或る時点（フレーム）を中心としてそ
の前後にＭフレーム分の時間幅を有するウインドーを考
え、このウインドーを順次、１サンプル点ずつ時間方向
に移動させ、各ウインドー内で夫々演算を行うことによ
り得られる。尚、第２図Ｆ及びＪには入力音声「あきょ
（akyo）」の波形、第２図Ｉにはホルマントの遷移、そ
して第２図Ｇ及びＫには上述のパラメータに基づいて得
られた音韻境界候補の例を示す。第２図中、Ｆ及びＪ、
Ｇ及びＫは、他のパラメータとの比較の便宜上、同一内
容のものを重複して示している。

音響分析回路５で得られた各パラメータは、認識処理
用パラメータとして音韻認識回路８に供給され、回路51
〜56から出力される各パラメータはセグメンテーション
用パラメータとして第１セグメンテーション回路６の特
徴点抽出回路61に供給される。

第１セグメンテーション回路６では、セグメンテーシ
ョン用パラメータから音韻境界候補を求めるために、一
般的な特徴点を抽出する。この例では、特徴点として次
の15種類を用いる。

立上がり点−平坦な部分から増加方向に変化する点立下がり点−減少方向に変化した後、平坦になる部分
の点増加変化点−増加率が変化する点減少変化点−減少率が変化する点ピーク点−ピークの位置正のゼロクロス点−増加方向で零レベルと交差する点負のゼロクロス点−減少方向で零レベルと交差する点語頭、語尾（無音からの立上がり、無音への立下が
り）頭語、語尾の不安定な部分から安定になる点語中の休止による無音区間への立上がりと立下がり子音区間←→母音区間での変化点母音区間内でホルマントの定常区間から遷移区間の始
点、または遷移区間の終点子音区間内でホルマントの定常区間から遷移区間の始
点、または遷移区間の終点ホルマントの発生する点、消失する点ボイスバーの区間の始点と終点、尚、この明細書中、
ボイスバーとは、有声子音の前に唇が閉じている状態で
声帯の振動が有る時に発生する低域の周波数成分のみか
らなる音声信号をいう。

特徴点抽出回路61では、特徴点情報記憶回路62からの
特徴点情報を参照して各パラメータ毎に特徴点を抽出す
る。第２図Ａ〜Ｅの各パラメータ中、時間軸方向に縦線
で示す位置が各特徴点の位置である。

第１セグメンテーション回路６から得られ、特徴点の
付された各パラメータは、第２セグメンテーション回路
７に供給される。

第２セグメンテーション回路７は、特徴点統合処理回
路71と、音韻境界特徴検出回路72と、特徴点統合情報記
憶回路73と、音韻境界特徴情報記憶回路74とからなる。

第１セグメンテーション回路６で求めた特徴点はパラ
メータ毎に位置ズレ、未検出等があるので、特徴点統合
処理回路71にて特徴点統合情報記憶回路73からの特徴点
統合情報を参照して各パラメータの特徴点をまとめ音韻
境界候補を決定する。尚、特徴点統合情報は、どのパラ
メータの特徴点を優先するかについての情報である。

音韻境界特徴検出回路72では、各音韻境界候補の音韻
境界特徴を求める。この例では以下の音韻境界特徴が用
いられている。

無音からの立上がり（ＳIL−Ｒ）子音性→母音性（Ｃ−Ｖ）母音性→母音性（Ｖ−Ｖ）母音性→母音の過渡部（Ｖ−V.T）母音の過渡部→子音性（V.T−Ｃ）子音性→母音の過渡部（Ｃ−V.T）母音の過渡部→母音性（V.T−Ｖ）無音への立下がり（Ｆ−ＳIL）有音→無音（ＳND−ＳIL）子音性→子音性（Ｃ−Ｃ）子音性→子音の過渡部（Ｃ−C.T）子音の過渡部→子音性（C.T−Ｃ）音韻境界特徴情報記憶回路74には、これら12種類の音
韻境界特徴情報が記憶されており、音韻境界特徴検出回
路72では、音韻境界特徴情報記憶回路74からの情報を参
照して各音韻境界候補の音韻境界特徴を検出する。

第２セグメンテーション回路７からは、音韻区間情報
として、音韻境界候補情報と、その音韻境界特徴情報が
得られる。そして、この音韻区間情報が音韻認識回路８
に供給される。

音韻認識回路８では、音響分析回路５からの認識処理
用パラメータと、第２セグメンテーション回路７からの
音韻区間情報に基づいて音韻認識を実行する。

音韻認識回路８では、認識処理用パラメータから抽出
される各音韻セグメントの音韻特徴を、音韻知識ベース
〔以下、単に知識ベースと称する〕に蓄えられている音
韻セグメントの音韻特徴と比較、照合する。そして、こ
の結果に基づいて音韻候補列が出力される。この過程を
第３図のフローチャートに基づいて説明する。

上述したように第１及び第２セグメンテーション回路
６、７にて音韻セグメントが形成される（ステップ10
1）。

次いで、音韻認識回路８にて、各音韻セグメントの音
韻特徴が抽出される。具体的には、音響分析回路５から
の認識処理用パラメータの統計量に従い、ホルマントが
定常区間である音韻セグメントに於いて、調音方法が、
母音性／子音性、有声／無声、摩擦音／破裂音／鼻音等
に分類される（ステップ102）。

更に、音韻認識回路８内に設けられている音韻特徴デ
イテクタによって、破裂点、ボイスバー、摩擦性のエネ
ルギーの集中している周波数帯域のカットオフ周波数、
そしてホルマント遷移方法等の情報が求められる（ステ
ップ103）。

以上の処理によって、各音韻セグメント毎の音韻特徴
が求められる。これに基づきif…then型の推論が以下の
ような手順で行なわれる〔ステップ104〕。尚、この推
論に用いられる知識ベースには、ステップ105にてif…t
hen型のルールが記述されている。また、以下の推論で
は必要に応じて音韻セグメントの特徴抽出〔ステップ10
2〕へ戻り、再処理を実行する。

I.第１の推論ホルマント遷移方法により、先行、後続の各子音セグ
メントの調音位置（例えば、口唇、歯茎、口蓋）を決定
する。

ルール（11）後続母音/a/に対するホルマント遷移
が、第４図に示されるような状態ならば、両唇音であ
る。尚、図中、F1、F2は夫々第１ホルマント、第２ホル
マントを表す。

ルール（12）後続母音/a/に対するホルマント遷移
が、第５図に示されるような状態ならば、歯茎音であ
る。

ルール（13）後続母音/a/に対するホルマント遷移
が、第６図に示されるような状態ならば、口蓋音であ
る。尚、その他のルールは省略する。

II.第２の推論調音方法と調音位置で子音セグメントの音韻を決定す
る。

ルール（21）調音方法が無声摩擦音で後続のホルマン
ト遷移から求まる調音位置が両唇音ならば、/f/であ
る。

ルール（22）調音方法が無声摩擦音で調音位置が歯茎
音ならば、/s/である。

ルール（23）調音方法が無声摩擦音で調音位置が口蓋
音ならば、/sh/である。

ルール（24）調音方法が無声破裂音で調音位置が口蓋
音ならば、/k/である。

ルール（25）調音方法が有声破裂音で調音位置が口唇
音ならば、/b/である。尚、その他のルールは省略す
る。

III.第３の推論調音方法と調音位置で音韻が特定できない時、バース
ト、ボイスバー、カットオフ周波数等の音韻特徴を用い
て子音セグメントの音韻を決定する。

ルール（31）無声破裂音でバーストが二か所以上あれ
ば、/k/である。

ルール（32）破裂区間の長さは、/p/＜/t/＜/k/の順
になる。尚、その他のルールは省略する。

IV.第４の推論母音性区間でホルマント遷移の長い区間に対して半母
音の決定を行う。

ルール（41）後続母音/o/でホルマント遷移が、第７
図に示されるような状態ならば、子音/y/である。尚、
その他のルールは省略する。

上述のif…then型の推論によって求まった音韻候補列
の矛盾性のチェック〔ステップ106〕が、ステップ107で
記述されている音韻接続知識ベースに基づいて行なわれ
る。ステップ106では、音韻候補列が日本語音韻として
正しく接続されているか否かのチェックを行う。尚、こ
のチェックによっても音韻候補列を特定できない時は、
前段階のステップ102、ステップ104へ戻り、再処理が行
なわれる。

入力音声「あきょ（akyo）」を例にして、上述の推論
を説明する。

I.音韻セグメンテーションされた後、前述した各種パラ
メータにて調音方法が分類される。

第２図Ｇ、Ｋに示される音韻境界候補の音韻境界特徴
が以下のように規定される。

（ＳIL−Ｒ）〜（Ｃ−Ｖ）子音性有声（Ｃ−Ｖ）〜（Ｖ−V.T）母音性有声（Ｖ−V.T）〜（V.T−ＳIL）母音性有声（V.TーＳIL）〜（ＳND−ＳIL）子音性無声（ＳND−ＳIL）〜（ＳIL−Ｒ）無音（ＳIL−Ｒ）〜（Ｃ−V.T）子音性無声（破裂、バ
ースト２つ）（Ｃ−V.T）〜（V.T−Ｖ）母音性有声（V.T−Ｖ）〜（Ｆ−ＳIL）母音性有声（Ｆ−ＳIL）〜（ＳND−ＳIL）子音性無声 II.（Ｖ−V.T）〜（V.T−ＳIL）間のホルマント遷移の
先行母音が/a/なので、第８図に示されるホルマント遷
移、及びルール（13）から後続の子音は口蓋音となる。

III.（ＳIL−Ｒ〜Ｃ−V.T）の音韻セグメントは、ルー
ル（24）の破裂音と口蓋音の特徴から/k/となる。

IV.（Ｃ−V.T〜V.T−Ｖ）のセグメントは、ホルマント
の遷移区間が長いので、半母音のチェックを行う。この
結果、ルール（41）のホルマント遷移と同じなので、子
音/y/となる。

V.以上の推論により、音韻認識回路８からは、/a/＋/k/
＋/y/＋/o/の音韻候補列が出力される。

このように、入力音声信号に基づいて形成される音韻
セグメントの音韻特徴と、知識ベースに改善して記述さ
れている音韻セグメントの音韻特徴とを比較、照合し音
韻認識しているので、精度の高い音韻認識を行え、大語
彙、連続音声認識が可能となる。

〔発明の効果〕この発明によれば、音韻知識ベースに対する音韻の特
徴、音韻の識別規則等の記述を改善し、入力音声信号か
ら抽出された音韻セグメントの特徴と、音韻知識ベース
に記述されている音韻セグメントの特徴とを比較、照合
し音韻認識しているので、精度の高い音韻認識を行うこ
とができ、大語彙、連続音声認識が可能になるという効
果がある。

【図面の簡単な説明】

第１図はこの発明の一実施例を示すブロック図、第２図
は夫々パラメータの波形図、第３図は推論の手順を示す
フローチャート、第４図乃至第８図は夫々ホルマント遷
移のパターンを示す説明図である。図面における主要な符号の説明 5:音響分析回路、6:第１セグメンテーション回路、7:第
２セグメンテーション回路、8:音韻認識回路。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭61−52700（ＪＰ，Ａ) 特開昭61−7897（ＪＰ，Ａ) 特開昭60−202496（ＪＰ，Ａ) 特開平２−216182（ＪＰ，Ａ) 特開昭62−194297（ＪＰ，Ａ) 特開昭61−177497（ＪＰ，Ａ) 特開昭61−177498（ＪＰ，Ａ) 特開昭61−290500（ＪＰ，Ａ) 特開昭63−95499（ＪＰ，Ａ) 特開昭63−220297（ＪＰ，Ａ) 特開昭63−281199（ＪＰ，Ａ) 特開平２−89097（ＪＰ，Ａ) 特許2816163（ＪＰ，Ｂ２) 特公昭63−36676（ＪＰ，Ｂ２) 特公平２−17118（ＪＰ，Ｂ２) 特公平２−22960（ＪＰ，Ｂ２) 特公平４−55520（ＪＰ，Ｂ２) 特公昭63−63919（ＪＰ，Ｂ２) 特公平５−67039（ＪＰ，Ｂ２) 特公平７−66272（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/04 G10L 15/02 G10L 15/08 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声情報が入力される入力手段と、上記入力手段から入力された上記音声情報を異なる分析
方式で分析することにより、上記音声情報からパラメー
タ情報を検出する複数の検出手段を備えた音響分析手段
と、上記音響分析手段からの上記複数のパラメータ情報が入
力され、上記各パラメータ情報から各パラメータ毎の音
声情報の時間的変化を表す特徴点を示す複数の特徴点情
報を抽出する特徴点情報抽出手段と、上記複数の特徴点情報の優先度を示す特徴点総合情報を
記憶する記憶手段と、上記特徴点統合情報が示す上記優先度に基づいて、上記
複数の特徴点情報から音韻境界候補を検出する音韻境界
候補検出手段と、上記音韻境界候補の各々について調音方法を分類し、分
類結果に基づいて、上記音韻境界候補の各々についての
音韻的特徴を検出し、検出した音韻的特徴を、予め記憶
した音韻知識に係る情報と比較することによって音韻を
認識する手段とを有することを特徴とする音声処理装
置。