JPS607493A - 単音節音声認識方式 - Google Patents

単音節音声認識方式

Info

Publication number
JPS607493A
JPS607493A JP58115574A JP11557483A JPS607493A JP S607493 A JPS607493 A JP S607493A JP 58115574 A JP58115574 A JP 58115574A JP 11557483 A JP11557483 A JP 11557483A JP S607493 A JPS607493 A JP S607493A
Authority
JP
Japan
Prior art keywords
standard
consonant
input
speech
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58115574A
Other languages
English (en)
Inventor
寺尾 修
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP58115574A priority Critical patent/JPS607493A/ja
Publication of JPS607493A publication Critical patent/JPS607493A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (a) 発明の技術分野 本発明は擬似連続発声学音節を認識対象とする登録方式
による音声認識方式に関する。
(b) 技術の背景 近年音声認識はデータ処理技術の発ヌ室特に半導体にお
ける電在化技術の11(展に支えられ1iC来困l、i
jpとされていた論理回路あるいは高速大容量メモリが
LSIとして一41供されるようになり、日本語による
音声入力手段の持つ対話形式に摘し操作者に!17別の
習熟を必要とすることdない操作が容易なデータ入力機
能を生かして普及するようになった。
(c) 従来技術と問題点 第1図は従来および本発明の一実施例におけるm音節認
識方式のブロック図および第2図は従来におけるその処
理手順図を示す。図において、1は例えばマイクロプロ
セッサ(MPtJ)により構成される制御部、2は高速
半導体メモリによる記憶部、3は音声処理部、4は入カ
バターンバッファおよび5は比較部更に21は制御プル
グラム、22は制御データ、23は標準バタン辞書、2
38〜nは標準バタンである。
単音節認識方式は通常特定話者のため認識すべき入力音
声における複数の例えば後述の1015の音素を設定し
、学習モードにおいて制御部1は音声処理部3への入力
音声における昨音節を図示省略したが、予め複数の帯域
フィルタ群に印加して得るスペクトル出方毎に5ms程
度のフレーム周期で標本化して得た特徴パラメータの各
音素毎に対応した定常的な部分を記憶部3に標準パター
ン辞−523として蓄積する。線形時間正規化ζこより
1琳語につき例えば512ピツトの標準バタンか作成蓄
積される。このように先行する学習モードでは5〜10
個程のBil+練サンプルから平均的な標準パターン2
3a〜nを作成して標準パターン辞書23を登録保持し
、認識モードでは入力音声による入力バタンと該標準バ
タン23axnとを同一フレーム周期で1,0の状態に
よる類似度を比較部4によりめて日本語における母音お
よび子音(ア〜ン)45種、消音18種、半濁音5乱拗
音33種の計101程の単音節を基本に認識を行う。
認識は通常垂音節を子音部分と母音部分に分離し、母音
標準パタンを使って母音を決定し候補を削減した後、過
渡部を含めて子音の?+p nllを行う方法ζこよっ
ている。この方法は認識における学音節の候補が削減さ
れるので子音の認識が容易になる上処理量が少くなる利
点がある。しかしこの方法は辿常子音部十過渡部十母音
部と連続する音韻の先頭における子音部の特徴が特に一
般的な擬似連続発声による拗音において小さく焚、える
ため詔、横を誤る。鳴合が存在する。
(d) 発明の目的 本発明の目的は上記の欠点を除去するため、従来におけ
る通常の標準バタンと入力バタンにおける母音部の照合
が得られた後、残りの子音部子過渡部について行う子音
部の照合を行ない、町にその区間にスペクトラム変動が
みられる場合には、そこまでの母音部の@定したフレー
ム部分即ち母音代表部の前縁から予め設定したフレーム
部を過渡部として除いた過渡部要素の少い入カバターン
の子音部分だけを再度欅イ<ヘパターンと照合する方法
によって子音部のより高い認識率を得ようとするもので
ある。
(e) 発明の構廊 この目的は、未知入力音声を予め辞書に登録された巷音
節標準バタンと照合して行う音声認識装置において、音
声処理部は、話者の学音節標準バタンの登録時にスペク
トラム時系列による分析に基づく標準バタンと共にスペ
クトラム変動量による子音部の抽出機能により、過渡部
と子音先頭部とを特定の単音節に対して分け、その情報
を作成し、記憶部に登録せしめる機能を備え、制御部は
擬似連続発声された入力音声に伴う音声処理部、経内、
照合部における入力バタンと母音標準パータンによる一
次照合後、スペクトラム変動量を用いて子音部の抽出を
行った後、まず、過渡部を含む子音と照合し、候補を絞
った後、過渡部を除いた子音先頭部との照合を行うこと
により入力バタンを認識することを特徴とする嚇音節音
声認識方式を提供することによって達成することが出来
る。
(f) 発明の実施例 以下、図面を角皿しつつ本発明の一実施例について説明
する。
第3図は本発明の一実施例におりる単音節認識方式によ
るブロック図、第4図は本発明の−Vr#1例における
学音節認8ダニ方式による処理手順図および第5図は入
力バタン何回である。
図において1aは制φ■部、2aは記憶部、3^は音声
処理部、4は入力バタンバッファ、5は比較部、更に2
1aは制御プログラム、22aは制御データ、23は標
準バタン辞書、23a−rrは標準バタン、24は■々
切出しデータ部である。主要百成はV/C切出しデータ
部24を除き類似であり、新たにサフィックスの追加さ
れた各部は従来と共と同様に制御プログラムおよび制御
データに従い構成各部をして音声認識を行う。
一 音声処理部3は、学音節標準パタンの、Q!FV!時に
スペクトラム時系列による分析に基く標準バタン22a
−nを記憶せしめるのと同時に、別途スベクドラム変動
量による子音部の抽出機能を作動させ、母音部(V)/
子音部(C)の切出しデータを作成し、V/C切出しデ
ータ部24に記憶ぜしめておく。
ml Dモードにおいて音声処理部i′ニ付加される入
力音声についてスペクトラム時系列による分析を行って
得た入力バタンと(1)式によるスペクトラム変動量と
から得られたスペクトラム変動部を入力バタンバッファ
4ζこ設定する。比較部5は、第4図に示すように従来
と同様、未知バタンを比較部5ヘセツトすると共に、該
母音部(V)のバタンを記憶部2における標準バタン辞
書23の標準パタンa −nに逐次アクセスして比較照
合する。次に母音部(V)について一致が得られた時に
過i度部を含んだ子音抽出部(のについて比較部5をし
て第一次照合ステップを実行せしめるが、第5図に示す
ように子音先頭部(Cc)の有効領域が狭い例では、過
渡部(Tc)の占める割合が大きいので、従来では、認
識の誤り原因となっていたが、スペクトラム変動部がそ
の過渡部を含む子音部(C)に存在するときには、V/
C切出しデータ部24Iこアクセスしつ′>第一次ステ
ップで得られた貼音節を対象に過渡部を除いた子音先頭
部(Cc)についてのみで更に照合することにより、よ
り高い認識率となる擬似連続発声の単音節方式が得られ
るので有効である。
スヘク) ラtJJ1m)=5 (St −St++)
j*(Tl −T j++)−(1)J=1 但しTj=i(St−8t+t)1−(St−8t+t
) 4+11*W3t:フレーム方向、J :?t7M
フィルタWj:重み係数 (g) 発明の詳細 な説明したように本発明によれば従来子W 11(の照
合において誤認識の原因となる確率の大きかった過渡部
を除去して子音部の認識を実行するのでより高い認識率
となる第音節認識方式が得られるので有用である。
【図面の簡単な説明】
第1図は従来および本発明の一実施例における単音節認
識方式のブロック図、S12図は従来における単音節、
13a方式の処理手順図、M3Mは本発明の一実施例に
おける昨音節認織方式によるブロック図、第4図はその
処理手順図および第5図は入力バタン何回である。図に
おいて1は制御部。 2は記憶部、3は音声処理部、4は入力バッファ。 −5は比較部、23は標準バタン辞書および23n〜n
は標準バタンである。 ネ 1 の 簗 2 口 第 3 目 第 4 図 峯 S 日 騎謂を−

Claims (1)

    【特許請求の範囲】
  1. 未知入力音声を予め辞書に登録された単音節標準バタン
    と照合して行う音声認識装置において、音声処理部は、
    話者の単音節標準バタンの登録時にスペクトラム時系列
    による分析に基づく標準バタンと共にスペクトラム変動
    量による子音部の抽出機能により、過渡部と子音先頭部
    とを特定の単音節に対して分け、その情報を作成し、記
    憶部に登録せしめる機能を備え、制御部は擬似連続発声
    された入力音声に伴う音声処理部、経由、照合部におけ
    る入力バタンと母音標準バタンによる一次照合後、スペ
    クトラム変動量を用いて子音部の抽出を行った後、まず
    、過渡部を含む子音と照合し、0補を絞った後、過渡部
    を除いた子音先頭部との照合を行うことにより入力バタ
    ンを認識することを特徴とする眼音節音声認識方式。
JP58115574A 1983-06-27 1983-06-27 単音節音声認識方式 Pending JPS607493A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58115574A JPS607493A (ja) 1983-06-27 1983-06-27 単音節音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58115574A JPS607493A (ja) 1983-06-27 1983-06-27 単音節音声認識方式

Publications (1)

Publication Number Publication Date
JPS607493A true JPS607493A (ja) 1985-01-16

Family

ID=14665935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58115574A Pending JPS607493A (ja) 1983-06-27 1983-06-27 単音節音声認識方式

Country Status (1)

Country Link
JP (1) JPS607493A (ja)

Similar Documents

Publication Publication Date Title
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
US10074363B2 (en) Method and apparatus for keyword speech recognition
Zissman et al. Automatic language identification
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
Lee et al. A comparison-based approach to mispronunciation detection
US6553342B1 (en) Tone based speech recognition
JPH09500223A (ja) 多言語音声認識システム
CN108877769B (zh) 识别方言种类的方法和装置
Pellegrino et al. Automatic language identification: an alternative approach to phonetic modelling
Vaissiere The use of prosodic parameters in automatic speech recognition
Arslan et al. A detailed survey of Turkish automatic speech recognition
JPS6138479B2 (ja)
Metze et al. Fusion of acoustic and linguistic features for emotion detection
Hunt Speaker adaptation for word‐based speech recognition systems
Balula et al. Automatic speech recognition (ASR) systems for learning Arabic language and Al-quran recitation: a Review
Chang et al. Chinese dialect identification using segmental and prosodic features
Mimer et al. Flexible decision trees for grapheme based speech recognition
JPS607493A (ja) 単音節音声認識方式
JP2813209B2 (ja) 大語彙音声認識装置
JP2001188556A (ja) 音声認識方法及び装置
Wang et al. Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis
Unnikrishnan et al. Non-uniform Region Based Features for Automatic Language Identification
Manjunath et al. Improvement of phone recognition accuracy using source and system features
JP3110025B2 (ja) 発声変形検出装置
JPS607492A (ja) 単音節音声認識方式