JPH0457098A - 連続音声の音韻認識装置 - Google Patents

連続音声の音韻認識装置

Info

Publication number
JPH0457098A
JPH0457098A JP2169424A JP16942490A JPH0457098A JP H0457098 A JPH0457098 A JP H0457098A JP 2169424 A JP2169424 A JP 2169424A JP 16942490 A JP16942490 A JP 16942490A JP H0457098 A JPH0457098 A JP H0457098A
Authority
JP
Japan
Prior art keywords
phoneme
network
vector quantization
cpu
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2169424A
Other languages
English (en)
Inventor
Shigeaki Komatsu
慈明 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2169424A priority Critical patent/JPH0457098A/ja
Publication of JPH0457098A publication Critical patent/JPH0457098A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、連続音声の音韻認識装置に係わり、特に、音
韻1−(MM(隠れマルコフ・モデル)を用いる音韻認
識に関する。
[従来の技術] 従来、連続音声の音韻認識装置にあって、連続的な音声
信号を各音韻毎に切り出しを行なう手段と、切り出され
た区間に対してパターン・マツチングを行なう手段から
構成されていた。しかしながら、この構成では、音韻毎
に切り出しを行なう手段が複雑なものとなり、また、切
り出しを行う手段に確立されたものがなかった。
さらに、また、上述の切り出しを行なわず、1フレーム
毎にシフトをしながらマツチングを行なう手段から構成
されているものもあるが、この構成では付加音韻が多く
出現してしまうことになり、確実に連続音声の音韻認識
を行う装置が要請されていた。
[発明が解決しようとする課題] 本発明は、上述した要請に応えるためになされたもので
あり、各音韻毎の音韻HMMと、この音ill HM 
Mに対し各音韻1−I M Mの後端部と各音韻HMM
の前端部とを接続したネットワークとを用意し、このネ
ットワークに対し最大確率を示すネットワーク・パスを
抽出することにより、音韻切り出しを行なわず、付加音
韻を少なくして、誤認識の少ない連続音声の音韻認識装
置を提供することを目「内とする。
[課題を解決するための手段] 上記の目的を達成するために本発明は、連続η声を取り
込む音声取り込み手段と、取り込まれた連続音声信号を
分析する分析手段と、この分析されたデータをベクトル
量子化してコード列を発生するベクトル量子化手段と、
この発生したコード列を音韻列に変換する音韻認識手段
とを備えた連続音声の音韻認識装置において、音韻認識
手段は、各音韻毎に用意されたベクトル量子化によるコ
ード列に関する隠れマルコフ・モデル(HMM)と、こ
の各音韻のHMMの後端部と前端部とを接続したネット
ワークが記憶された記憶手段と、ベクトル量子化手段に
より発生したコード列を同ネットワークに入力し、この
ネットワークの中から最大確率を示すネットワーク・パ
スを抽出する抽出手段と、この抽出されたネットワーク
・パス上の音@)lHM Mに対応する音韻列を出力す
る出力手段とを含むものである。
[作用] 上記構成によれば、連続音声が入力されると、ベクトル
量子化手段より、連続音声に対するコード列を発生し、
このコード列は、前記ネットワークに入力され、パス抽
出手段の演算により、ネットワークに対して最大確率を
示すネットワーク・パスを抽出し、このパス上の音韻列
がデイスプレィ等に出力される。
[実施例] 本発明の一実施例による連続音声の音韻認識装置のブロ
ック構成を第1図に示す。
音声認識装置は、連続音声を電気色3に変換して入力す
るマイク1と、この信号を増幅するオーディオ・アンプ
2と、増幅信号の5.5kHz以下の成分のみを通過さ
せて標本化時の折返し歪みを抑えるローパス・フィルタ
ー3と、ローパス・フィルター3からの信号を12kH
z、16bitで標本化するA/D変換装置4と、標本
化されたデータの転送に介在するI10ボート5と、同
データをI10ボート5を介して取込むCPU6と、同
データを記憶するRAM7と、CPU6により実行され
る音韻認識プログラム等を格納したROM8、音韻変換
処理された音韻列を表示するデイスプレィ9から構成さ
れている。
また、ROM8には、第2図(a)に示すように、各音
韻毎に隠れマルコフ・モデル(以下、音韻トIMMとい
う)が記憶されており、さらに、音韻認識処理に使用す
るネットワークとして、第2図(b)に示すように、各
音韻HM Mの後端部を各音韻HM Mの前端部に弧で
ネットワーク状に接続したものが、予め学習によって作
成され、書き込まれている。
なお、音韻IIM Mは4状態4ルーズの音声認識で一
般的によく使われるl e f t−to−r i g
htモデルであり、ネットワークには、表1に示した日
本語音韻の接続ルール及び各音韻間の接続頻度が重みと
してかけられ、また、ネットワークの端点には表2の様
な条件がある。
表1 接続ルール 表2 次に、上記音声認識装置の機能構成を示す第3図により
説明する。
音声取込み部11(音声取込み手段)は、マイク1、オ
ーディオ・アンプ2、ローパス・フィルタ3、A/D変
換装置4およびI10ボート5により構成され、分析部
12(分析手段)、ベタ1〜ル量子化部13(ベクトル
量子化手段)、音韻認識部14(音韻認識手段)は、C
PU6およびRAM7により構成され、さらに、音韻認
識部14におけるネットワーク入力部15(入力手段)
およびパス抽出部16(抽出手段)は、CPU6により
構成され、音韻列出力部17(出力手段)は、CPU6
とI10ボート5およびデイスプレィ9により構成され
る。
以下、上記各部の動作について説明する。
音声取り込み部11では、マイク1により入力された連
続音声の信号が、標本化されたデータとなり、RAM7
に記憶される。
分析部12では、CPU6が、RAM7より標本化され
たデータを読み出し、1−Z−1の伝達関数をもつデジ
タル・フィルターによりプリエンファシスを行なう。プ
リエンファシスされた出力信号に対して、4m5ecを
1フレームとし、1フレーム毎に21.3m5ec長の
周波数分析をする区間に対してハミング窓を掛け、LP
G分析により16次のL P Cケプストラムが算出さ
れる。
LPCケグストラムから10次のデルタ−ケプストラム
が算出される。さらに、CPU6は、プリエンファシス
を行う以前のデータに対して1フレーム毎に対数化した
パワーを算出する。
ペクトクル量子化部13では、CPU6が、分析部12
で算出したLPCケプストラム、デルタ・ケプストラム
、パワーについて、表3に示す次元およびコードブック
・サイズ(ベクトル量子化の数)でセパレート・ベクト
ル量子化を行い、それぞれ3[i類のパラメータに対す
るコード時系列が出力される。
(以下、余白) 表3 子化部13により出方された3種類のコード列を入力デ
ータとして、ネットワーク処理を行い、その結果、音韻
列を出力する。この出方される音韻は、 a、i、u、
e、O,N、に、s、sh。
t、ch、ts、n、h、m、y、r、W、g。
z、d、b、p’“等である。
ネットワーク入力部15では、CPU6により、ベクト
ル量子化部13において出方された3種類のコード時系
列が、ネットワークに入力される。
パス抽出部16では、CPU6により、このネットワー
クに対して最大確率を示すネットワーク・パスが、一般
によく知られているビタピ(viterb)アルゴリズ
ムにより抽出される。音韻列出方部17では、CPU6
により、パス抽出部16で抽出された最大確率を示すネ
ットワーク・パス上の音韻HM Mに対応する音韻列が
、I10ボート5を介して、デイスプレィ9に出力され
、処理を終了する。
次に、上記音韻認識部14の動作について、[くさJ 
 [ku s a]という連続音声を音韻認識する場合
を、例として7音韻から構成されるネットワークについ
て第4図を用いて説明する。
また、R,0M8には、第4図に示される7音韻(”k
+a+ j、u+o+o+s+”)  から成るネット
ワークが記憶され、ネッ1−ワーク入力部11で、[k
usa]という音声が入力されると、パス抽出部16で
は、k→U→6−+a(同図の番号1→2→3)とつな
がるネットワーク・パスが最大確率を示し抽出される。
音韻列出力部17では、このネットワーク・パス上の“
kusa”という音韻列をデイスプレィ9に出力し、処
理を終了する。
かくして、連続音声を音韻切り出しを行うことなく、音
韻ネットワークの確率演算により、該連続音声に対応す
る音韻列が出力される。
[発明の効果] 以上のように本発明によれば、連続音声の音韻認識装置
にあって、各音韻毎に用意された音韻HMMに対し、各
音韻HMMの後端部と各音韻HMMO前端部とを接続し
たネットワークを予め記憶しておき、入力された連続音
声に関するベクトル量子化されたコード列をネットワー
クに入力し、最大確率を示すネットワーク・パスを出力
するようにしているので、従来のように、音韻切り出し
を行なう必要がなく、付加音韻を少なくして誤認識をな
くし、連続音声の音韻認識の確実性を向」−させること
ができる。
【図面の簡単な説明】
第1図は本発明の一実施例による連続音声の音韻認識装
置のブロック構成図、第2図(a>(b)はそれぞれ同
装置で使用される音韻HM Mおよび同音韻HM Mの
ネットワークを示す概念図、第3図は音声認識装置の機
能構成図、第4図は前記ネットワークの動作を説明する
図である。 1・・・マイク、2・・・オーディオ・アンプ、3・・
・ローパス・フィルター、5・・・I10ボート、6・
・・CP−U、7・・・RAM、8・・・ROM、9・
・・ディスグレイ、11・・・音声取り込み部、12・
・−分析部、13・・・ベクトル量子化部、14・・・
音韻認識部、15・・・ネットワーク入力部、16・・
・バス抽出部、17・・・音韻列出力部。 出願人    ブラザー工業株式会社 代理人     弁理士 板 谷 康 夫「0 峡 い ψ ト

Claims (1)

    【特許請求の範囲】
  1. (1)連続音声を取り込む音声取り込み手段と、取り込
    まれた連続音声信号を分析する分析手段と、この分析さ
    れたデータをベクトル量子化してコード列を発生するベ
    クトル量子化手段と、この発生したコード列を音韻列に
    変換する音韻認識手段とを備えた連続音声の音韻認識装
    置において、前記音韻認識手段は、各音韻毎に用意され
    たベクトル量子化によるコード列に関する隠れマルコフ
    ・モデル(HMM)と、この各音韻のHMMの後端部と
    前端部とを接続したネットワークが記憶された記憶手段
    と、前記ベクトル量子化手段により発生したコード列を
    同ネットワークに入力し、このネットワークの中から最
    大確率を示すネットワーク・パスを抽出する抽出手段と
    、この抽出されたネットワーク・パス上の音韻HMMに
    対応する音韻列を出力する出力手段とを含むことを特徴
    とする連続音声の音韻認識装置。
JP2169424A 1990-06-27 1990-06-27 連続音声の音韻認識装置 Pending JPH0457098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2169424A JPH0457098A (ja) 1990-06-27 1990-06-27 連続音声の音韻認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2169424A JPH0457098A (ja) 1990-06-27 1990-06-27 連続音声の音韻認識装置

Publications (1)

Publication Number Publication Date
JPH0457098A true JPH0457098A (ja) 1992-02-24

Family

ID=15886338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2169424A Pending JPH0457098A (ja) 1990-06-27 1990-06-27 連続音声の音韻認識装置

Country Status (1)

Country Link
JP (1) JPH0457098A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5707746A (en) * 1992-09-25 1998-01-13 Sharp Kabushiki Kaisha Thin film transistor device with advanced characteristics by improved matching between a glass substrate and a silicon nitride layer
US5923967A (en) * 1995-11-17 1999-07-13 Sharp Kabushiki Kaisha Method for producing a thin film semiconductor device
US5950077A (en) * 1996-09-02 1999-09-07 Sharp Kabushiki Kaisha Semiconductor device and manufacturing method thereof

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5707746A (en) * 1992-09-25 1998-01-13 Sharp Kabushiki Kaisha Thin film transistor device with advanced characteristics by improved matching between a glass substrate and a silicon nitride layer
US6013310A (en) * 1992-09-25 2000-01-11 Sharp Kabushiki Kaisha Method for producing a thin film semiconductor device
US5923967A (en) * 1995-11-17 1999-07-13 Sharp Kabushiki Kaisha Method for producing a thin film semiconductor device
US5950077A (en) * 1996-09-02 1999-09-07 Sharp Kabushiki Kaisha Semiconductor device and manufacturing method thereof

Similar Documents

Publication Publication Date Title
Bahl et al. Multonic Markov word models for large vocabulary continuous speech recognition
CN111508498A (zh) 对话式语音识别方法、系统、电子设备和存储介质
JPH11502953A (ja) 厳しい環境での音声認識方法及びその装置
CN109979436B (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
WO2006053256A2 (en) Speech conversion system and method
CN102543073A (zh) 一种沪语语音识别信息处理方法
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US20230197061A1 (en) Method and System for Outputting Target Audio, Readable Storage Medium, and Electronic Device
CN112652318A (zh) 音色转换方法、装置及电子设备
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
EP0685835A1 (en) Speech recognition based on HMMs
Mishra et al. An Overview of Hindi Speech Recognition
Sarma et al. Automatic spoken digit recognition using artificial neural network
JPH0457098A (ja) 連続音声の音韻認識装置
US20080162150A1 (en) System and Method for a High Performance Audio Codec
JPH0215080B2 (ja)
JP2709926B2 (ja) 声質変換方法
Aggarwal et al. Implementing a speech recognition system interface for indian languages
JPH07121197A (ja) 学習式音声認識方法
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体
Ahmed et al. Non-native accent pronunciation modeling in automatic speech recognition
JP3346200B2 (ja) 音声認識装置
JPH06266389A (ja) 音素ラベリング装置
JP2011002703A (ja) スペクトル分析装置及びスペクトル演算装置