JP3049711B2 - 音声処理装置 - Google Patents

音声処理装置

Info

Publication number
JP3049711B2
JP3049711B2 JP1061367A JP6136789A JP3049711B2 JP 3049711 B2 JP3049711 B2 JP 3049711B2 JP 1061367 A JP1061367 A JP 1061367A JP 6136789 A JP6136789 A JP 6136789A JP 3049711 B2 JP3049711 B2 JP 3049711B2
Authority
JP
Japan
Prior art keywords
phoneme
information
feature point
parameter
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1061367A
Other languages
English (en)
Other versions
JPH02240700A (ja
Inventor
誠 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP1061367A priority Critical patent/JP3049711B2/ja
Publication of JPH02240700A publication Critical patent/JPH02240700A/ja
Application granted granted Critical
Publication of JP3049711B2 publication Critical patent/JP3049711B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、音声認識装置、特に音韻知識ベースと推
論手段を備えた音声認識装置に関する。
〔従来の技術〕
従来の音韻認識では、入力音声のスペクトルパターン
を、標準的な音韻のスペクトルパターンと比較、照合し
て認識する、いわゆるパターンマッチング〔特開昭50−
96104号公報参照〕が一般的に行われていた。しかし、
パターンマッチングでは、子音の微妙な差、例えばATA
とAPA、を検出することが困難であった。
そこで、これを改善するため、音韻の特徴、音韻の識
別規則等を音韻知識ベースとするエキスパートシステム
によって音韻認識を行なう試みがなされている。
〔発明が解決しようとする課題〕
しかしながら、エキスパートシステムに於ける音韻認
識では、音韻知識ベースに対し音韻の特徴、音韻の識別
規則等をどのように記述したらよいかという問題点があ
った。
従ってこの発明の目的は、知識ベースに対する音韻の
特徴、音韻の識別規則等の記述に改善を加えた音声認識
装置を提供することにある。
〔課題を解決するための手段〕
この発明は、音声情報が入力される入力手段と、入力
手段から入力される音声情報を異なる分析方式で分析す
ることにより、音声情報からパラメータ情報を検出する
複数の検出手段を備えた音響分析手段と、音響分析手段
からの複数のパラメータ情報が入力され、各パラメータ
情報から各パラメータ毎の音声情報の時間的変化を表す
特徴点を示す複数の特徴点情報を抽出する特徴点情報抽
出手段と、複数の特徴点情報の優先度を示す特徴点総合
情報を記憶する記憶手段と、特徴点統合情報が示す優先
度に基づいて、複数の特徴点情報から音韻境界候補を検
出する音韻境界候補検出手段と、音韻境界候補の各々に
ついて調音方法を分類し、分類結果に基づいて、音韻境
界候補の各々についての音韻的特徴を検出し、検出した
音韻的特徴を、予め記憶した音韻知識に係る情報と比較
することによって音韻を認識する手段とを有することを
構成としている。
〔作用〕
所定の条件に基づいて音声を音韻セグメントに分割
し、次いで、各音韻セグメント毎に特徴を求め、それを
推論手段に入力する。
一方、音韻知識ベースには、音韻セグメント単位で各
音韻の特徴が、例えば、if…then…型のルールで記述さ
れている。推論手段では、音韻セグメント毎の特徴と、
音韻知識ベースの音韻セグメントの特徴とを比較、照合
し、これに基づいて音韻候補を得、音韻が特定される。
この結果、精度の高い音韻認識が行え、大語彙、連続
音声認識が可能となる。
〔実施例〕
以下、この発明の一実施例について第1図乃至第8図
を参照して説明する。
第1図は、この発明に係る音声認識装置の例を示す。
入力音声がマイクロホン1で音声信号に変換され、ア
ンプ2及びローパスフイルタ3を介して、A/D変換回路
4に供給される。音声信号は、A/D変換回路4にて、例
えば、12.5KHzのサンプリング周波数で12ビットのデジ
タル音声信号に変換される。このデジタル音声信号は、
音響分析回路5に供給される。
音響分析回路5は、バンドパスフィルタバンクを有す
る過渡検出パラメータ生成回路51と、音声パワーを検出
する対数パワー検出回路52と、ゼロクロスレート演算回
路53と、隣接サンプルの相関関係をみるための1次のパ
ーコール係数の演算回路54と、パワースペクトルの傾き
の演算回路55と、ホルマントの時間方向の変化を求める
ホルマント検出回路56と、音声の基本周期の検出回路57
を備える。
過渡検出パラメータは、入力音声の過渡性及び定常性
を検出するためのもので、音声スペクトルの変化量を各
チャンネル(周波数)の時間方向のブロック内の分散の
和として定義される。即ち、音声スペクトルSi(n)を
周波数方向の以下に示す平均値Savg(n)でゲインを正
規化する。
ここで、iはチャンネル番号、qはチャンネル数(バ
ンドパスフィルタ数)を示す。また、qチャンネルの各
チャンネルの情報は時間方向にサンプリングされるが、
同一時点のqチャンネルの情報のブロックをフレームと
いい、nは認識に使用されるフレームの番号を示してい
る。
ゲイン正規化の行われた音声スペクトルi(n)
は、 i(n)=Sin(n)ーSavg(n) ……(2) となる。
過渡検出パラメータT(n)は、そのフレームの前後
のMフレームの合計(2M+1)である〔n−M,n+M〕
ブロック内の各チャンネルの時間方向の分散の和として
定義される。
ここで、 であり、各チャンネルのブロック内の時間方向の平均値
である。
実際的には、〔n−M,n+M〕ブロック中心付近の変
化は、音の揺らぎ或いはノイズを拾い易いので、過渡検
出パラメータT(n)の計算から取り除くこととし、第
(3)式は次のように変形される。
そして、第(5)式において、一例として、a=1,M
=28,m=3,q=32の場合の過渡検出パラメータT(n)
が求められる。例えば、「あきょ(akyo)」という入力
音声の場合、第2図Aのような過渡検出パラメータT
(n)が得られる。
他のパラメータ、例えば、第2図Bに示される対数パ
ワー、第2図Cに示されるゼロクロスレート、第2図D
に示される1次のパーコール係数、第2図Eに示される
パワースペクトルの傾きの検出、第2図Hに示される基
本周期等のパラメータの演算も、過渡検出パラメータT
(n)と同様に、或る時点(フレーム)を中心としてそ
の前後にMフレーム分の時間幅を有するウインドーを考
え、このウインドーを順次、1サンプル点ずつ時間方向
に移動させ、各ウインドー内で夫々演算を行うことによ
り得られる。尚、第2図F及びJには入力音声「あきょ
(akyo)」の波形、第2図Iにはホルマントの遷移、そ
して第2図G及びKには上述のパラメータに基づいて得
られた音韻境界候補の例を示す。第2図中、F及びJ、
G及びKは、他のパラメータとの比較の便宜上、同一内
容のものを重複して示している。
音響分析回路5で得られた各パラメータは、認識処理
用パラメータとして音韻認識回路8に供給され、回路51
〜56から出力される各パラメータはセグメンテーション
用パラメータとして第1セグメンテーション回路6の特
徴点抽出回路61に供給される。
第1セグメンテーション回路6では、セグメンテーシ
ョン用パラメータから音韻境界候補を求めるために、一
般的な特徴点を抽出する。この例では、特徴点として次
の15種類を用いる。
立上がり点−平坦な部分から増加方向に変化する点 立下がり点−減少方向に変化した後、平坦になる部分
の点 増加変化点−増加率が変化する点 減少変化点−減少率が変化する点 ピーク点−ピークの位置 正のゼロクロス点−増加方向で零レベルと交差する点 負のゼロクロス点−減少方向で零レベルと交差する点 語頭、語尾(無音からの立上がり、無音への立下が
り) 頭語、語尾の不安定な部分から安定になる点 語中の休止による無音区間への立上がりと立下がり 子音区間←→母音区間での変化点 母音区間内でホルマントの定常区間から遷移区間の始
点、または遷移区間の終点 子音区間内でホルマントの定常区間から遷移区間の始
点、または遷移区間の終点 ホルマントの発生する点、消失する点 ボイスバーの区間の始点と終点、尚、この明細書中、
ボイスバーとは、有声子音の前に唇が閉じている状態で
声帯の振動が有る時に発生する低域の周波数成分のみか
らなる音声信号をいう。
特徴点抽出回路61では、特徴点情報記憶回路62からの
特徴点情報を参照して各パラメータ毎に特徴点を抽出す
る。第2図A〜Eの各パラメータ中、時間軸方向に縦線
で示す位置が各特徴点の位置である。
第1セグメンテーション回路6から得られ、特徴点の
付された各パラメータは、第2セグメンテーション回路
7に供給される。
第2セグメンテーション回路7は、特徴点統合処理回
路71と、音韻境界特徴検出回路72と、特徴点統合情報記
憶回路73と、音韻境界特徴情報記憶回路74とからなる。
第1セグメンテーション回路6で求めた特徴点はパラ
メータ毎に位置ズレ、未検出等があるので、特徴点統合
処理回路71にて特徴点統合情報記憶回路73からの特徴点
統合情報を参照して各パラメータの特徴点をまとめ音韻
境界候補を決定する。尚、特徴点統合情報は、どのパラ
メータの特徴点を優先するかについての情報である。
音韻境界特徴検出回路72では、各音韻境界候補の音韻
境界特徴を求める。この例では以下の音韻境界特徴が用
いられている。
無音からの立上がり(SIL−R) 子音性→母音性(C−V) 母音性→母音性(V−V) 母音性→母音の過渡部(V−V.T) 母音の過渡部→子音性(V.T−C) 子音性→母音の過渡部(C−V.T) 母音の過渡部→母音性(V.T−V) 無音への立下がり(F−SIL) 有音→無音(SND−SIL) 子音性→子音性(C−C) 子音性→子音の過渡部(C−C.T) 子音の過渡部→子音性(C.T−C) 音韻境界特徴情報記憶回路74には、これら12種類の音
韻境界特徴情報が記憶されており、音韻境界特徴検出回
路72では、音韻境界特徴情報記憶回路74からの情報を参
照して各音韻境界候補の音韻境界特徴を検出する。
第2セグメンテーション回路7からは、音韻区間情報
として、音韻境界候補情報と、その音韻境界特徴情報が
得られる。そして、この音韻区間情報が音韻認識回路8
に供給される。
音韻認識回路8では、音響分析回路5からの認識処理
用パラメータと、第2セグメンテーション回路7からの
音韻区間情報に基づいて音韻認識を実行する。
音韻認識回路8では、認識処理用パラメータから抽出
される各音韻セグメントの音韻特徴を、音韻知識ベース
〔以下、単に知識ベースと称する〕に蓄えられている音
韻セグメントの音韻特徴と比較、照合する。そして、こ
の結果に基づいて音韻候補列が出力される。この過程を
第3図のフローチャートに基づいて説明する。
上述したように第1及び第2セグメンテーション回路
6、7にて音韻セグメントが形成される(ステップ10
1)。
次いで、音韻認識回路8にて、各音韻セグメントの音
韻特徴が抽出される。具体的には、音響分析回路5から
の認識処理用パラメータの統計量に従い、ホルマントが
定常区間である音韻セグメントに於いて、調音方法が、
母音性/子音性、有声/無声、摩擦音/破裂音/鼻音等
に分類される(ステップ102)。
更に、音韻認識回路8内に設けられている音韻特徴デ
イテクタによって、破裂点、ボイスバー、摩擦性のエネ
ルギーの集中している周波数帯域のカットオフ周波数、
そしてホルマント遷移方法等の情報が求められる(ステ
ップ103)。
以上の処理によって、各音韻セグメント毎の音韻特徴
が求められる。これに基づきif…then型の推論が以下の
ような手順で行なわれる〔ステップ104〕。尚、この推
論に用いられる知識ベースには、ステップ105にてif…t
hen型のルールが記述されている。また、以下の推論で
は必要に応じて音韻セグメントの特徴抽出〔ステップ10
2〕へ戻り、再処理を実行する。
I.第1の推論 ホルマント遷移方法により、先行、後続の各子音セグ
メントの調音位置(例えば、口唇、歯茎、口蓋)を決定
する。
ルール(11)後続母音/a/に対するホルマント遷移
が、第4図に示されるような状態ならば、両唇音であ
る。尚、図中、F1、F2は夫々第1ホルマント、第2ホル
マントを表す。
ルール(12)後続母音/a/に対するホルマント遷移
が、第5図に示されるような状態ならば、歯茎音であ
る。
ルール(13)後続母音/a/に対するホルマント遷移
が、第6図に示されるような状態ならば、口蓋音であ
る。尚、その他のルールは省略する。
II.第2の推論 調音方法と調音位置で子音セグメントの音韻を決定す
る。
ルール(21)調音方法が無声摩擦音で後続のホルマン
ト遷移から求まる調音位置が両唇音ならば、/f/であ
る。
ルール(22)調音方法が無声摩擦音で調音位置が歯茎
音ならば、/s/である。
ルール(23)調音方法が無声摩擦音で調音位置が口蓋
音ならば、/sh/である。
ルール(24)調音方法が無声破裂音で調音位置が口蓋
音ならば、/k/である。
ルール(25)調音方法が有声破裂音で調音位置が口唇
音ならば、/b/である。尚、その他のルールは省略す
る。
III.第3の推論 調音方法と調音位置で音韻が特定できない時、バース
ト、ボイスバー、カットオフ周波数等の音韻特徴を用い
て子音セグメントの音韻を決定する。
ルール(31)無声破裂音でバーストが二か所以上あれ
ば、/k/である。
ルール(32)破裂区間の長さは、/p/</t/</k/の順
になる。尚、その他のルールは省略する。
IV.第4の推論 母音性区間でホルマント遷移の長い区間に対して半母
音の決定を行う。
ルール(41)後続母音/o/でホルマント遷移が、第7
図に示されるような状態ならば、子音/y/である。尚、
その他のルールは省略する。
上述のif…then型の推論によって求まった音韻候補列
の矛盾性のチェック〔ステップ106〕が、ステップ107で
記述されている音韻接続知識ベースに基づいて行なわれ
る。ステップ106では、音韻候補列が日本語音韻として
正しく接続されているか否かのチェックを行う。尚、こ
のチェックによっても音韻候補列を特定できない時は、
前段階のステップ102、ステップ104へ戻り、再処理が行
なわれる。
入力音声「あきょ(akyo)」を例にして、上述の推論
を説明する。
I.音韻セグメンテーションされた後、前述した各種パラ
メータにて調音方法が分類される。
第2図G、Kに示される音韻境界候補の音韻境界特徴
が以下のように規定される。
(SIL−R)〜(C−V) 子音性 有声 (C−V)〜(V−V.T) 母音性 有声 (V−V.T)〜(V.T−SIL) 母音性 有声 (V.TーSIL)〜(SND−SIL)子音性 無声 (SND−SIL)〜(SIL−R) 無音 (SIL−R)〜(C−V.T)子音性 無声(破裂、バ
ースト2つ) (C−V.T)〜(V.T−V)母音性 有声 (V.T−V)〜(F−SIL)母音性 有声 (F−SIL)〜(SND−SIL)子音性 無声 II.(V−V.T)〜(V.T−SIL)間のホルマント遷移の
先行母音が/a/なので、第8図に示されるホルマント遷
移、及びルール(13)から後続の子音は口蓋音となる。
III.(SIL−R〜C−V.T)の音韻セグメントは、ルー
ル(24)の破裂音と口蓋音の特徴から/k/となる。
IV.(C−V.T〜V.T−V)のセグメントは、ホルマント
の遷移区間が長いので、半母音のチェックを行う。この
結果、ルール(41)のホルマント遷移と同じなので、子
音/y/となる。
V.以上の推論により、音韻認識回路8からは、/a/+/k/
+/y/+/o/の音韻候補列が出力される。
このように、入力音声信号に基づいて形成される音韻
セグメントの音韻特徴と、知識ベースに改善して記述さ
れている音韻セグメントの音韻特徴とを比較、照合し音
韻認識しているので、精度の高い音韻認識を行え、大語
彙、連続音声認識が可能となる。
〔発明の効果〕 この発明によれば、音韻知識ベースに対する音韻の特
徴、音韻の識別規則等の記述を改善し、入力音声信号か
ら抽出された音韻セグメントの特徴と、音韻知識ベース
に記述されている音韻セグメントの特徴とを比較、照合
し音韻認識しているので、精度の高い音韻認識を行うこ
とができ、大語彙、連続音声認識が可能になるという効
果がある。
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロック図、第2図
は夫々パラメータの波形図、第3図は推論の手順を示す
フローチャート、第4図乃至第8図は夫々ホルマント遷
移のパターンを示す説明図である。 図面における主要な符号の説明 5:音響分析回路、6:第1セグメンテーション回路、7:第
2セグメンテーション回路、8:音韻認識回路。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−52700(JP,A) 特開 昭61−7897(JP,A) 特開 昭60−202496(JP,A) 特開 平2−216182(JP,A) 特開 昭62−194297(JP,A) 特開 昭61−177497(JP,A) 特開 昭61−177498(JP,A) 特開 昭61−290500(JP,A) 特開 昭63−95499(JP,A) 特開 昭63−220297(JP,A) 特開 昭63−281199(JP,A) 特開 平2−89097(JP,A) 特許2816163(JP,B2) 特公 昭63−36676(JP,B2) 特公 平2−17118(JP,B2) 特公 平2−22960(JP,B2) 特公 平4−55520(JP,B2) 特公 昭63−63919(JP,B2) 特公 平5−67039(JP,B2) 特公 平7−66272(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/04 G10L 15/02 G10L 15/08 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声情報が入力される入力手段と、 上記入力手段から入力された上記音声情報を異なる分析
    方式で分析することにより、上記音声情報からパラメー
    タ情報を検出する複数の検出手段を備えた音響分析手段
    と、 上記音響分析手段からの上記複数のパラメータ情報が入
    力され、上記各パラメータ情報から各パラメータ毎の音
    声情報の時間的変化を表す特徴点を示す複数の特徴点情
    報を抽出する特徴点情報抽出手段と、 上記複数の特徴点情報の優先度を示す特徴点総合情報を
    記憶する記憶手段と、 上記特徴点統合情報が示す上記優先度に基づいて、上記
    複数の特徴点情報から音韻境界候補を検出する音韻境界
    候補検出手段と、 上記音韻境界候補の各々について調音方法を分類し、分
    類結果に基づいて、上記音韻境界候補の各々についての
    音韻的特徴を検出し、検出した音韻的特徴を、予め記憶
    した音韻知識に係る情報と比較することによって音韻を
    認識する手段とを有することを特徴とする音声処理装
    置。
JP1061367A 1989-03-14 1989-03-14 音声処理装置 Expired - Fee Related JP3049711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1061367A JP3049711B2 (ja) 1989-03-14 1989-03-14 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1061367A JP3049711B2 (ja) 1989-03-14 1989-03-14 音声処理装置

Publications (2)

Publication Number Publication Date
JPH02240700A JPH02240700A (ja) 1990-09-25
JP3049711B2 true JP3049711B2 (ja) 2000-06-05

Family

ID=13169126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1061367A Expired - Fee Related JP3049711B2 (ja) 1989-03-14 1989-03-14 音声処理装置

Country Status (1)

Country Link
JP (1) JP3049711B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751856B (zh) * 2013-12-31 2017-12-22 中国移动通信集团公司 一种语音语句识别方法及装置

Also Published As

Publication number Publication date
JPH02240700A (ja) 1990-09-25

Similar Documents

Publication Publication Date Title
Zhang et al. Analysis and classification of speech mode: whispered through shouted.
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
EP0077194B1 (en) Speech recognition system
JPH0990974A (ja) 信号処理方法
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP5382780B2 (ja) 発話意図情報検出装置及びコンピュータプログラム
JPS60200300A (ja) 音声の始端・終端検出装置
JPS6138479B2 (ja)
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
JP3049711B2 (ja) 音声処理装置
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
JPS5972500A (ja) 音声認識方式
RU2174714C2 (ru) Способ выделения основного тона
JP2001083978A (ja) 音声認識装置
JP3008404B2 (ja) 音声認識装置
JPH0682275B2 (ja) 音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPS59170894A (ja) 音声区間の切り出し方式
JPH02232698A (ja) 音声認識装置
JPS63226691A (ja) 標準パターン作成方式
Yadav et al. Analysis of detection of vowel offset point for coded speech
JPH01165000A (ja) 音韻区間情報形成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees