JP2664136B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2664136B2
JP2664136B2 JP60189653A JP18965385A JP2664136B2 JP 2664136 B2 JP2664136 B2 JP 2664136B2 JP 60189653 A JP60189653 A JP 60189653A JP 18965385 A JP18965385 A JP 18965385A JP 2664136 B2 JP2664136 B2 JP 2664136B2
Authority
JP
Japan
Prior art keywords
section
pattern
voice
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60189653A
Other languages
English (en)
Other versions
JPS6250800A (ja
Inventor
信夫 畑岡
吉章 淺川
明雄 天野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60189653A priority Critical patent/JP2664136B2/ja
Publication of JPS6250800A publication Critical patent/JPS6250800A/ja
Application granted granted Critical
Publication of JP2664136B2 publication Critical patent/JP2664136B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は音声分析あるいは認識装置に係り、特に音声
の定常部区間や母音区間を自動的に検出し、音声を音節
単位などの構成単位へセグメンテーションするのに好適
な音声のセグメンテーション方式に関する。 〔発明の背景〕 従来の音声を音素あるいは音節単位へセグメンテーシ
ョンする方式としては、特開昭60−69694号「語頭子音
のセグメンテーション法」や音響学会音声研究会資料S8
5−15(1983−6)「Top−Down処理による子音のセグメ
ンテーション」に記載のように音素特有の特徴を示すパ
ラメータ(例えば音声、無声、鼻音性)や音素特有の前
後環境を示すパラメータ(例えばパワーディプなど)を
利用して行うもの、電子通信学会論文誌55−DP186「数
字音声の機械認識系」や特開昭58−105296号「音韻区間
切り出し方法」に記載のように目視で前もって音素など
の単位へセグメンテーションした情報をもとにセグメン
ト間の距離の累積を最小にする最適セグメントを求めて
行うもの、IEEE ICASSP83予稿集pp320〜323「連続発声
の日本語におけるセグメンテーションフリーな音節認識
(Segmentation−Free Syllable Recognition In Conti
nuovsly Spoken Japanese)」に記載のように標準的な
音節の特徴パタンとの連続的あるいは2段的DP(Dynami
c Programing)マッチングの結果から音節単位へセグメ
ンテーションするものなどが知られている。 目視で前もってセグメンテーションする方法は確実に
最適なセグメンテーションが行えるが、自動的(あるい
は機械的)なセグメンテーションではないこと、音素特
有のパラメータを使う方法は音素特有のパラメータを探
索することが必要であり、また判定が閾値処理となるこ
とから処理が複雑でかつ汎用的でないこと、DPマッチン
グを用いる方法は音素や音節の構造を細かにみることが
できないので本来の音節区間が得られなかったり(脱
落)、不要な音節区間が出現したり(湧き出しあるいは
付加)することや処理量が多いことなどの問題があっ
た。 〔発明の目的〕 本発明の目的は前記従来の問題を解決して、処理が単
純でかつ処理量も少なく、セグメンテーションの性能も
高い自動的な音声のセグメンテーション方式を提供する
ことにある。 〔発明の概要〕 上記目的達成のために本発明では、入力音声自身のフ
レーム間相関値の累積値により定常部区間、特定の音韻
あるいは音声の区間を検出することによりセグメンテー
ションを行うことに特徴がある。 〔発明の実施例〕 本発明の実施例を説明する前に本発明の原理を詳細に
説明する。第一図は本発明の処理のフローの一例を示し
たものである。まず入力音声の音声区間検出と音声分析
が行われる。音声区間検出は音声の短時間エネルギー
(パワー)などの情報を使って、前もって定められた閾
値以上となる区間を音声として検出する。音声分析は音
声の特徴パタンを抽出するもので、特徴パラメータは帯
域通過フィルタ(BPF)出力値や線形予測分析(LPC分
析)の結果得られるパラメータなどがある。次に音声区
間の中に存在する無音部の検出が前記パワーなどを用い
て行われ、無音部区間が抽出される。フレーム間相関計
算は音声分析で得られた特徴パタンのフレーム(短時
間)間の類似度を求めるもので、音声認識装置などで使
われる距離もその一つである。フレーム間相関計算は一
般に、2つの特徴パタンの類似度を求めるもので、1方
の特徴パタンをxi(iフレーム、i=1〜I)、他方を
yj(jフレーム、j=1〜J)とすると、相関(距離)
行列dijが得られる。本発明では、入力音声自身のフレ
ーム間距離と入力音声と特定の音韻(例えば日本語5母
音)のフレーム間距離を求める。次に、相関(距離)行
列をN段階に表現し直したNグレードパタンnijが抽出
される。このNグレードパタンは処理の簡略化を計るた
めのもので、以下の処理で直接相関(距離)行列を扱う
とすれば省略が可能である。Nグレードパタンを視覚的
に色の濃さ等で表わしたものを濃淡パタンと呼ぶことに
する。本発明はこの濃淡パタンを使って、音声の定常部
区間やある特定の音韻区間を抽出するところに特徴があ
る。定常部区間検出は入力音声自身の濃淡パタンを使っ
て行われる。原理は定常部は隣接するフレーム間の相関
が高く(距離が小さく)、濃淡パタン表示では色の薄い
所が四角形として表われてくる(第7図参照)。一方音
声の変化している遷移部は色の濃い所が斜め上がりの形
で表われてくる。従って、濃淡パタン上で四角形の薄い
個所を探索すれば、定常部区間が求まることになる。同
様の処理で特定の音韻(本発明では5母音)との濃淡パ
タンから、母音部区間が求まる。本発明では、この2つ
の結果を統合して、入力音声の母音区間を検出すること
を一例として挙げている。この結果、入力音声の定常部
区間の中の母音区間が確実に検出され、入力音声の音節
区間がセグメンテーションされることになる。本発明の
主点は入力音声自身の相関行列から少なくとも定常部区
間を検出することにあり、前記処理フローでの音声区間
検出や無音部区間検出の有無や処理フローの中での順序
はどんな場合でもさしつかえない。 以下、本発明の主点である定常部区間検出、母音区間
検出、統合の具体的処理に関して詳細に説明する。第
2、3図は定常部区間検出の概略処理フローと詳細なフ
ローチャート、第4、5図は母音部区間検出の概略フロ
ーとフローチャート、第6図は統合処理のフローチャー
トを示すものである。第2図(a)に示す定常部区間検
出では、入力音声自身のNグレードパタンnijから入力
フレームiを固定した時にiから始まる定常部区間の可
能性を探索する(定常部区間候補の探索)。具体的な処
理は第2図(b)に示すようにNグレードパタンの
(i、i)点を始点とした三角形(i、i)、(i、i
+j)、(i+j、i+j)の面積を計算する。jを増
加した時の三角形の面積の値と変化とから定常部区間候
補i〜i+jsを探索する(検出条件あるいは)。検
出条件はNグレードパタンを相関の高い(距離の小さ
い)個所をグレードの小さい所とし、三角形の面積はグ
レードの累積とした場合である。次に、最終的な定常部
区間を定常部区間候補の中で長い順に選択して行く。収
束条件は定常部区間候補が存在しなくなった場合か入力
音声中の定常部個数の最大許容値M(入力音声の時間長
から定まる)を検出した場合である。第3図は以上の処
理を具体的に示したフローチャートの一例である。 次に第4図(a)に示した母音区間検出では、入力音
声と母音とのNグレードパタンnijから入力フレームi
を固定した時にiから始まる母音区間の可能性を探索す
る(母音区間候補の探索)。本処理では第4図(b)に
示すように入力フレームiと母音パタンフレームJst
始点とした四角形A(i、Jst)、B(i、J−
Jend)、C(i+Δi、Jst)、D(i+Δi、J−J
end)の面積の値と変化とから母音部区間候補を探索す
る(Jst、Jendは定数)。検出条件などは定常部区間検
出の条件などと同様である。本処理の具体的なフローチ
ャートの一例を第5図に示す。 最後に、前記2つの処理で求まった定常部区間と母音
部区間候補の統合が行われ、最終的に母音区間が確実に
求められる。統合処理は2つの処理で求まった区間の共
通部分を探索する処理であり、具体的なフローチャート
の一例を第6図に示す。 以上の処理から入力音声の定常部区間と確実な母音区
間とが求まることになる。 次に前記処理の具体的実施例を説明する。第7図は入
力音声自身のNグレードパタン(濃淡パタン)を示すも
のである(N=2)。上から順に入力音声/akazukiN/の
音声波形、パワー、Nグレードパタンであり、横軸は時
間である。Nグレードパタンからわかるように、定常部
/a/、/a/、/u/、/i/、/N/が色の薄い四角形として表わ
れている。本発明の主点はこの色の薄い四角形を探索す
ることにより定常部区間を検出するところにある。第8
図はこの入力音声と5母音/a/、/i/、/u/、/e/、/o/と
のNグレードパタンを示すものである(N=3)。この
図から入力音声の母音区間候補が入力音声のどの時間位
置にあるのかがわかる。第9図は本発明の処理結果を示
す図であり、(a)は定常部区間検出結果(空白の四角
形で表示)、及び、音声パワーが閾値以下、即ち無音区
間の検出結果(斜線で示した四角形で表示)を示してい
る。この無音区間は、単語の前後、語中の促音、無声破
裂音の子音の直前部分に検出される。第9図の(b)は
統合処理結果の母音区間検出結果(格子模様で示した四
角形)を示している。 以下、本発明の一実施例について詳細に説明する。第
10図は本発明の一実施例を示したブロック図である。ア
ナログ入力音声1はLPF(低域通過フィルタ)、ADC(ア
ナログ−ディジタル変換器)2で、サンプリングでの折
り返し雑音を除去されながらディジタル値へ変換され
る。次に、音声区間検出部3でパワーなどの情報から入
力音声の音声区間が検出され、音声分析部4で音声の特
徴パラメータが計算され、入力音声の特徴パタンが抽出
される。音声の特徴パラメータとしては、BPF出力値やL
PC分析結果のパラメータなどがある。得られた特徴パタ
ンはフレームパタン格納メモリ9に格納される。次に、
無音区間検出部5で入力音声中に存在する無音部が検出
される。無音部の検出方法としてはパワーの値がある閾
値以下となったフレームとするなどがある。フレーム間
相関計算部6ではフレームパタン格納メモリ9から読み
込まれた入力音声の特徴パタン間の類似度や入力音声と
5母音パタンメモリ10から読み込まれた5母音の特徴パ
タンとの類似度が計算され、得られる相関(距離)行列
が本発明の主点であるセグメンテーション部7へ入力さ
れる。セグメンテーション部7では、入力音声自身の相
関(距離)行列をNグレードパタンに変換した後、入力
音声の定常部区間が検出されると同時に、入力音声と5
母音との相関(距離)行列のNグレードパタンから母音
区間候補が検出され、最終的に統合された結果として定
常部区間の中の母音区間が確実に抽出される。以上の処
理は制御部8で制御されながら実行される。 第11図は音声区間検出部3と無音区間検出部5の一実
施例を詳細に示したものである。ディジタル値に変換さ
れた入力音声xnはサンプル値レジスタ31を介しながら、
乗算器32と加算器33に入力され入力音声の短時間エネル
ギー(パワー)Pwが求められる。パワーPwと前もって定
められた音声パワー閾値PHとの比較がなされ、始終端カ
ウンタ35でパワー閾値PHとの大小関係の継続時間長(フ
レーム長)が累積され、比較器36で始端の継続時間長閾
値NSや終端の継続時間閾値NEとの比較により、入力音声
の始端と終端が検出され、入力音声区間が検出されるこ
とになる。同様に比較器51にてパワーPwと無音部パワー
閾値PLとの比較により、入力音声中の無音部区間が検出
され、入力フレームパタンコードレジスタ52に無音部コ
ードが設定される。 第12図は音声分析部の一実施例を詳細に示したもので
ある。実施例では帯域通過フィルタ(BPF)分析をあげ
ている。入力音声xnは中心周波数と帯域幅の違う複数個
のBPF群41と42に入力される。本実施例では周波数分解
能を上げるために2段のBPF構成としている。BPF41、42
は2次のバターワース型フィルタとなっており、加算器
2個、乗算器4個と遅延器2個から構成されている。BP
F結果の波形は絶対値変換器(ABS)43にて整流され、LP
F44、サンプリング器45、さらにLPF44にて高域周波数成
分をカットされながら出力値パタンxiが求められる。LP
FはBPF同様に周波数分解能をあげるために2段構成とな
っており、LPF44、46はBPF同様の処理規模のバターワー
ス型となっている。尚、LPFの構成については特願昭55
−135981「ディジタル低域通過波回路」に詳細に説明
されている。本発明では音声分析部4の構成をBPF分析
としたが、LPC分析とすることも可能であり、この場合
の詳細な実施例は文献“「音声波形の線形予測分析によ
る音声分析と合成(Speech Analysis and Synthesis by
Linear Prediction of the Speech Wave)”」by B.S.
Atal et al,Joumal of Acoustic Society of America,V
ol.50,p.p.637〜655,1971に詳細に説明されている。 第13図はフレーム間相関計算部の一実施例を詳細に示
すものである。本実施例では相関演算尺度として、絶対
値距離を用いた場合を示す。2つの音声の特徴パタンxi
とyjとの絶対値距離dijとして求まる。ここでi、jはフレーム、KはBPFのチ
ャネル数である。従って、実施例では、2つの特徴パタ
ンxi、yjとが各々フレームパタンレジスタ61、62を介し
ながら入力され、減算器63でxki−ykjの計算、絶対値変
換器64で|xki−ykj|の計算がされ、加算器65でk=1か
らKまでの累積が計算されることになる。結果dijは相
関/距離レジスタ66に格納される。本発明の実施例では
絶対値距離としたが、LPC分析で得られる特徴パタンの
相関尺度なども考えられる。この場合の具体的実施例は
文献「音声認識に適用した最小予測誤差原理(Minimum
Prediction Residual Principle Applied to Speech Re
coguition)」by F.Itakura et al.IEEE Trans on Acou
stics,Speech and Signal Processing,vol.ASSP−23,p.
p.57〜72,Feb.'75に詳細に説明されている。 第14図は本発明の主点であるセグメンテーション部7
の一実施例を詳細に示したものである。相関/距離レジ
スタ66から読み込まれた距離行列dijがNグレードパタ
ン抽出部71に入力される。ここでは、比較器711で距離
閾値θとの大小関係が比較され、Nグレードパタンnij
がNグレードパタンレジスタ712に一旦格納される。次
に、定常部区間検出部72ではNグレードパタン(濃淡パ
タン)の三角形の面積が加算器721で累積され、比較器7
22にてその値と変化の度合が判定定数α、βと比較され
て、入力フレームiを固定した場合の定常部区間候補が
求められ、レジスタ723に格納される。比較器724では最
終の定常部区間が区間長の長い順に決定され、定常部区
間検出結果が定常部区間レジスタに格納される。一方、
入力音声と5母音とのフレーム間距離行列のNグレード
パタンが同様に抽出され、母音区間検出部73では加算器
731、比較器732において母音区間が抽出され、結果が母
音区間レジスタ733に格納される。次に、定常部区間検
出部72と母音区間検出部73で得られた定常部区間情報Li
と母音区間候補情報LViとが区間統合処理部74に入力さ
れ、比較器741でLiとLViとの共通部分として最終の母音
区間が抽出され、結果が入力フレームパタンコードレジ
スタ742に格納される。本実施例での加算器721、731、
比較器711、722、724、732、741などは各々一個に共通
化することが可能である。セグメンテーション部7の他
の実施例は第3図、第5図、第6図のフローチャートに
示されるように計算機上で実行することも可能である。 本実施例ではNグレードパタンの累積処理を一例とし
てあげたが、Nグレードパタンの隣接フレーム間の変化
値の累積処理とする場合も減算器を追加するだけで容易
に実現されうる。 第15図は本発明を用いた音声認識装置の一実施例を示
すブロック図である。入力音声151、LPF、ADC152は前述
第10図の入力音声1、LPF、ADC2と同じであり、音声分
析部153は音声区間検出部3と音声特徴パタン抽出部4
とを一緒にしたものである。距離計算部154で入力音声1
51自身あるいは入力音声と標準パタンメモリ156から読
み込まれた標準音声の特徴パタン間の距離が算出され
る。距離計算部154は前述第13図で詳細に説明したフレ
ーム間相関計算部と同様に構成される。セグメンテーシ
ョン部155では、入力音声自身間の距離行列情報を入力
とし、本発明の定常部区間のセグメンテーションが実行
される。構成については第14図で詳細に示した。次に、
照合部157では入力音声と標準音声との照合がなされ
る。この際、セグメンテーション部で得られたセグメン
テーション情報をもとに時間構造も含めた全体での照合
値(総距離)が算出される。判定部158にて標準パタン
ごとの総距離値の大小関係をもとに、入力音声がどの標
準音声に最も以ているかの判定がなされ、認識結果を出
力する。照合部157は例えば連続NL(Non Linear)マッ
チング法(公知例、連続DP法、特開昭55−2205号公報の
改良)による回路で構成され、判定部158は単純な大小
比較器で構成される。 〔発明の効果〕 本発明によれば、入力音声の定常部区間と特定の音韻
(例えば母音)区間の検出が確実にできるので、少なく
とも入力音声の音節単位へのセグメンテーションが確実
にできる効果がある。さらに処理のアルゴリズムが容易
でかつ処理量も従来の方式よりも少ないという効果があ
る。
【図面の簡単な説明】 第1図は本発明の処理フローを示す示、第2図から第6
図までは本発明の主点である定常部区間検出、母音部区
間検出、統合処理の概略処理フローと詳細なフローチャ
ートを示す図、第7図から第9図は本発明による処理の
実施例を示す図、第10図は本発明の一実施例を示すブロ
ック図、第11図から第14図は本発明の各ブロックの一実
施例を詳細に示す図、付録Aから付録Dは本発明の具体
的プログラムを示す図、第15図は本発明を用いた音声認
識装置を示すブロック図である。 7……セグメンテーション 73……定常部区間検出部 74……音韻区間検出部 75……区間統合処理部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭53−128905(JP,A) 日本音響学会講演論文集(昭和60年9 月)1−4−20,p.39〜40

Claims (1)

  1. (57)【特許請求の範囲】 1.音声を入力する手段と、所定時間ごとに入力音声の
    特徴パターンを抽出する特徴パターン抽出手段と、 上記入力音声のフレーム間相関(距離)値をN段階で表
    現した濃淡パタンの(i、i)点を始点とした三角形の
    面積に基づいて所定区間を検出する手段と、上記所定区
    間に基づき上記入力音声の特徴パターンと標準パターン
    とを照合する手段と、上記照合結果の判定を行う手段と
    を備えた音声認識装置において、上記所定区間は定常部
    区間であることを特徴とする音声認識装置。
JP60189653A 1985-08-30 1985-08-30 音声認識装置 Expired - Lifetime JP2664136B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60189653A JP2664136B2 (ja) 1985-08-30 1985-08-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60189653A JP2664136B2 (ja) 1985-08-30 1985-08-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6250800A JPS6250800A (ja) 1987-03-05
JP2664136B2 true JP2664136B2 (ja) 1997-10-15

Family

ID=16244916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60189653A Expired - Lifetime JP2664136B2 (ja) 1985-08-30 1985-08-30 音声認識装置

Country Status (1)

Country Link
JP (1) JP2664136B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム
JP4792703B2 (ja) * 2004-02-26 2011-10-12 株式会社セガ 音声解析装置、音声解析方法及び音声解析プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53128905A (en) * 1977-04-15 1978-11-10 Hiroya Fujisaki Voice discrimination system
JPS6128766A (ja) * 1984-07-20 1986-02-08 Hoxan Corp 流体内に設置して用いる発電装置
JPS61183697A (ja) * 1985-02-08 1986-08-16 松下電器産業株式会社 単音節音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集(昭和60年9月)1−4−20,p.39〜40

Also Published As

Publication number Publication date
JPS6250800A (ja) 1987-03-05

Similar Documents

Publication Publication Date Title
US4736429A (en) Apparatus for speech recognition
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
WO2001035389A1 (en) Tone features for speech recognition
CN112750446B (zh) 语音转换方法、装置和系统及存储介质
CN103617799A (zh) 一种适应于移动设备的英语语句发音质量检测方法
Matsumoto et al. Evaluation of Mel-LPC cepstrum in a large vocabulary continuous speech recognition
KR100738332B1 (ko) 성대신호 인식 장치 및 그 방법
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
Abdo et al. Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal
JPS6138479B2 (ja)
JP2664136B2 (ja) 音声認識装置
Kumari et al. Automatic segmentation of Hindi speech into syllable-like units
JPH0558553B2 (ja)
JP2813209B2 (ja) 大語彙音声認識装置
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Tripathi et al. Robust vowel region detection method for multimode speech
Rivoira et al. An isolated-word recognizer based on grammar-controlled classification processes
JP2594916B2 (ja) 音声認識装置
Pawar et al. Emotion recognition from hindi speech using MFCC and sparse DTW
Deekshitha et al. Implementation of Automatic segmentation of speech signal for phonetic engine in Malayalam
KR19980065481A (ko) 운율 분석 결과에 근거한 음소 분리 방법
KR960007132B1 (ko) 음성인식장치 및 그 방법
Abdo et al. Arabic Speech Segmentation Into Syllables Using Neural Networks
JPH0640274B2 (ja) 音声認識装置
Yalabik et al. An efficient algorithm for recognizing isolated Turkish words

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term