JPH02141800A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02141800A
JPH02141800A JP63294620A JP29462088A JPH02141800A JP H02141800 A JPH02141800 A JP H02141800A JP 63294620 A JP63294620 A JP 63294620A JP 29462088 A JP29462088 A JP 29462088A JP H02141800 A JPH02141800 A JP H02141800A
Authority
JP
Japan
Prior art keywords
similarity
feature parameter
speech
standard feature
identification label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63294620A
Other languages
English (en)
Inventor
Makoto Shosakai
誠 庄境
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Chemical Industry Co Ltd
Original Assignee
Asahi Chemical Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Chemical Industry Co Ltd filed Critical Asahi Chemical Industry Co Ltd
Priority to JP63294620A priority Critical patent/JPH02141800A/ja
Publication of JPH02141800A publication Critical patent/JPH02141800A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声をその音声の発声を示す識別ラベル
に変換する音声認識装置に関する。
(従来の技術〕 音声認識装置は、一般に、予め音声から抽出した特徴パ
ラメータにその音声の発声を示す識別ラベルを付加して
記憶しておき、入力音声と、特徴パラメータが最も類似
する識別ラベルを抽出し、音声認識結果として出力して
いる。従来のこの種の音声認識装置の中で、一定時間毎
に音声認識を行い、その音声認識結果を用いて音韻を認
識する装置が知られている。ところが、音声の中には、
ある1つの音韻から次の音韻に発声が移行する場合にそ
の境界部分(J1移領域と称する)では音声の特徴が変
化する音韻があり、従来のこの種の音声認識装置はこの
遷り領域での識別ラベルの誤認識が音韻の認識に対して
悪影響を与えるという不具合があった。
第7図は従来装置の一般的な音声認識処理手順を示す。
第7図において、例えば“アオ°°とマイクロホンに発
声された音声は、マイクロホンからの音声信号の周波数
分析により、非常に短い一定時間毎に、入力音声の周波
数帯毎の強さ(特徴パラメータと称する)に変換される
。この特徴パラメータと上述したように予め記憶しであ
る標準の特徴パラメータ各々との距離が計算され、この
特徴パラメータと各標準の特徴パラメータとの距離を比
較することによって、その時点において最もよく類似し
ている識別記号(ラベルと称する)が抽出される。上述
の“アオ”という音声は、記号で表わすと、“AAA1
1八υUAUUOOOOOO・・パ°のラベル列が得ら
れる。ところが、音韻“ア”および“オ”の遷移部分で
は、入力音声の特電パラメータが変化するため、“A”
を“U”と誤認識する場合が生じる。
このような誤認識を考慮して、同一の2個の識別ラベル
ではさまれるラベルをそのラベルに変換する補正処理が
行なわれた後、一定時間内に識別された連続するラベル
列の個数が最も多い識別ラベルを音韻結果として抽出す
る。この結果、第7図に示す例では、遷移部分の誤認識
結果の影響を受け“アオ”という発声に対し“uo”と
いう誤認識となる。
このように連続音声を認識する従来の音声認識装置では
、1つの音韻と次の音韻の遷移部分の特徴パラメータが
変化することにより音韻の誤認識を行うことが多いとい
う不具合があった。
このような不具合を解消するために、本願出願人は、先
に標準特徴パラメータの各識別ラベルに対する類似度を
時系列に合計することにより、平滑化した音声認識結果
を求める発明(昭和63年lO月出願)を提案している
が、この発明においては音声認識処理時間の短縮化にな
お改良の余地があった。
そこで、本発明の目的は、このような不具合を解消し、
より確実にかつより高速に連続音声を認識することが可
能な音声認識装置を提供することにある。
〔課題を解決するための手段) このような目的を達成するために、本発明は、標準特徴
パラメータおよび該標準特徴パラメータの複数の識別ラ
ベルに対するそれぞれの類似度を示す類似度情報から成
る標準パターン情報を複数個予め記憶した記憶手段と、
連続音声を入力する入力手段と、該入力手段から入力さ
れた前記連続音声を一定時間毎に特徴パラメータに変換
する音声分析手段と、該音声分析手段により変換された
前記特徴パラメータと前記記憶手段に記憶されている前
記標準特徴パラメータの各々との距離計算を行う第1演
算手段と、該第1演算手段の距離計算結果に基き、前記
音声分析手段により変換された当該特徴パラメータに最
も距離が近い前記標準特徴パラメータを抽出する第1抽
出手段と、該第1抽出手段により抽出された前記標準特
徴パラメータに対応する前記類似度情報を前記記憶手段
から読出す読出し手段と、該読出し手段により読出され
た前記類似度情報に基いて、現時点から過去まで連続す
る一定個数の前記類似度を前記識別ラベル毎に合計する
第2演算手段と、該第2演算手段により合計された前記
識別ラベル毎の類似度の合計結果に基いて、最も類似度
の高い合計結果と対応する識別ラベルを抽出し、当該抽
出された識別ラベルを、前記現時点における音声認識結
果として出力する第2抽出手段とを具えたことを特徴と
する。
(作用) 本発明では、標準特徴パラメータの各識別ラベルに対す
る類似度を記憶手段に予め記憶しておくので、計算によ
り上記類似度を求める場合に比べて音声認識時間が短縮
化される。また、各時点毎に得られる類似度から始まる
過去の所定個数の類似度を識別ラベル毎に第2演算手段
により合計し、その合計結果の中の最も類似度の高い識
別ラベルを第2抽出手段により順次に抽出する。この結
果、各時点で得られる類似度が時系列的に平滑化される
ので、例えば入力音声に雑音が部分的に混入したり、入
力音声の一部の発声が変化したり、入力音声の音韻が変
化する場合においても、その音声の変化部分がこれまで
に認識されたラベルと同じラベルと認識され、以て音声
の認識確率が高くなる。
(実施例) 以下、図面を参照して本発明実施例を詳細に説明する。
本願出願人は、連続音声の中の特に音声の遷移部分の特
徴パターンが、前時点までにサンプリングした音声の特
徴パターンから少しずつ変化して行くという連続音声の
性質に着目し、各時点毎に読み出した各標準特徴パラメ
ータの類似度を時系列に一定時間(窓と称する)の範囲
で集計し、その集計結果に基き、最も類似度の高い識別
ラベルを各時点の認識結果として定めるようにしたもの
である。
第1図は本発明実施例の基本構成を示す。
第1図において、100は標準特徴パラメータおよび該
標準特徴パラメータの複数の識別ラベルに対するそれぞ
れの類似度を示す類似度情報から成る標準パターン情報
を複数個予め記憶した記憶手段である。
200は連続音声を入力する入力手段である。
300は該入力手段から入力された前記連続音声を一定
時間毎に特徴パラメータに変換する音声分析手段である
40θは該音声分析手段により変換された前記特徴パラ
メータと前記記憶手段に記憶されている前記標準特徴パ
ラメータの各々との距離計算を行う第1演算手段である
50Gは該第1演算手段の距離計算結果に基き、前記音
声分析手段により変換された当該特徴パラメータに最も
距離が近い前記標準特徴パラメータを抽出する第1抽出
手段である。
600は該第1抽出手段により抽出された前記標準特徴
パラメータに対応する前記類似度情報を前記記憶手段か
ら読出す読出し手段である。
700は該続出し手段により読出された前記類似度情報
に基いて、現時点から過去まで連続する定個数の前記類
似度を前記識別ラベル毎に合計する第2演算手段である
800は該第2演算手段により合計された前記識別ラベ
ル毎の類似度の合計結果に基いて、最も類似度の高い合
計結果と対応する識別ラベルを抽出し、当該抽出された
識別ラベルを、前記現時点における音声認識結果として
出力する第2抽出手段である。
第2図は本発明実施例の具体的な構成を示す。
第2図において、IOは音声を入力する入力手段として
のマイクロフォンである。11はアンプであり、マイク
ロフォンの出力を増幅する。12はA/D変換器であり
、アンプ11の増幅出力をA/D変換する。13は音声
分析手段としてのフーリエ変換器であり、A/D変換器
12の出力をフーリエ変換し、周波数帯域毎の音声の強
さ(パワースペクトラム)を音声の特徴パラメータとし
て出力する。フーリ工変換器13はLSI (大規模集
積回路)になっているものが知られているが、コンピュ
ータによりフーリエ変換を実行してもよい。フーリエ変
換器に代わりバンドパスフィルタを用いることも可能で
ある。
14は第1、第2演算手段、第1、第2抽出手段および
読出し手段に相当するコンピュータシステムであり、コ
ンピュータシステム14はキーボード15、フロッピデ
ィスク等を用いた外部記憶装置(FDD)16 、プリ
ンタ17および陰極管表示装置(CRT) 1Bに接続
している。15は情報を入力可能なキーボードであり、
キーボード15からは、音声認識モードの指示や標準特
徴パラメータ作成のための情報の入力および認識結果の
修正等を行う。
FD016には、作成された標準特徴パラメータと、こ
の標準パラメータの各識別ラベルに対する各類似度を示
す情報がテーブル16−2 (音韻マツプと称する)と
して予め記憶されている。また、FDolBには後述の
本発明に関わる計算用テーブル16−1が設けられてい
る。この類似度情報は、1つの標準特徴パラメータの各
識別ラベルに対する、予め判明している類似度を百分率
で表わしたものである。
この類似度情報の示す値が高いほど入力音声の特徴パラ
メータとそのラベルの特徴パラメータが類似しているこ
とを示す。
各標準特徴パラメータ毎の各識別ラベルに対する類似度
は例えば以下のようにして求められる。
まず、各標準特徴パラメータ毎に識別ラベル毎の投票箱
を用意し、全ての識別ラベルの投票数をゼロにしておく
、全ての識別ラベルに対し、各識別ラベルを持つ学習用
特徴パラメータを多数個ずつ用意する。そして、個々の
学習用特徴パラメータと全標準特徴パラメータとの距離
計算を行い、最も距離の近い標準特徴パラメータを見つ
け、学習用特徴パラメータの識別ラベルに対応する投票
箱に一票を投じる。同様の処理を全ての学習用特徴パラ
メータについて行い、最後に各標準特徴パラメータ毎に
開票し、各識別ラベル毎の投票数を百分率で表わし類似
度とする。
また、次のような別方法により類似度を求めてもよい。
すなわち、各標準特徴パラメータ毎に識別ラベル数の要
素数を持つベクトル(類似度ベクトルと称する)を設定
し、また、全ての識別ラベルに“1”から通し番号を付
ける。各学習用特徴パラメータにも同様にユニットベク
トル(識別ラベルの番号に対応する要素のみ1”で他の
要素が全て“0“であるベクトル)を付加する。そして
距離の最も近い標準特徴パラメータに対し、m h m
+α(u−m) の処理を行う。ここで、αはゲインと呼ばれ、1より小
さい正数であり、mは標準特徴パラメータの類似度ベク
トル、Uは学習用特徴パラメータのユニットベクトルで
ある。全ての学習用特徴パラメータについて以上、の処
理を行い、最後に得られた類似度ベクトルの中身を各標
準特徴パラメータの各識別ラベルに対する類似度とする
第3図は本発明実施例のコンピュータシステム14の構
成の一例を示す。
本実施例は高速演算処理を行うために、演算処理を複数
個の中央演算処理装置で行うようにしている。第3図に
おいて、14−1はマイクロプロセッサ(MPU)であ
り、MPU14−1は入力音声のラベル付け(音声認識
)を行う。14−2はメモリであり、メモリ14−2に
はMPU4−1が実行する制御手順が格納されている。
14−3は高速デジタルシグナルプロセッサ(osp)
でありDSP14−3は入力音声の特徴パラメータと、
音韻マツプ16−2中の標準特徴パラメータとの距離計
算を行い、最も距離の近い標準パラメータに対応する類
似度情報を音韻マツプ16−2中から取り出す、また、
この類似度情報を基にして入力音声の各識別ラベルに対
する平滑化した類似度を求める。
14−4はメモリであり、DSP14−3が実行する制
御手順を格納する。14−5はパーソナルコンピュータ
であり、認識モードの設定や認識結果の表示を含む全シ
ステムの動作を統轄する役割を果たす。
なお、コンピュータシステム14には大型コンピュータ
を用いてもよく、装置の大きさ、演算処埋程度に応じて
構成すればよい。
第4図は、第2図に示す、計算用テーブル16−1のメ
モリ構成を示す。
第4図において、計算用テーブル16−1は各識別ラベ
ル毎に、音声入力の開始時点TOから一定時間間隔で音
韻マツプ16−2から読み出される類似度情報を記憶す
る。
第5図は第3図に示すMPU14−1が実行する制御手
順を示す。本発明実施例の動作を第5図のフローチャー
トを参照しながら説明する。
第5図において、マイクロホンlOから入力された音声
は入力開始時点子0からTI、T2・・・と一定時間間
隔でフーリエ変換器13により各時点毎の特徴パラメー
タに変換される。
MPtl14−1はこの入力特徴パラメータを入力する
とDSP14−3による各標準特徴パラメータとの距離
計算を指示する(ステップ51〜2)。MPtl14−
1は05P14−3から入力特徴パラメータに最も近い
距離を持つ標準特徴パラメータの番号を受は取るとその
番号に基づき、FDD16に格納された音韻マツプ16
−2の中から各識別ラベルに対する類似度情報を読出し
くステップs3)、計算用テーブル16−1 (第4図
参照)に書き込む(ステップS4)。
従来例の記述で説明した発声“アオ”と同じ例を考えた
場合、識別ラベル“A“として例えば“0.7”  i
″として0.2″・・・というように類似度情報が得ら
れる。
本実施例ではMPU14−1が入力音声の特徴パラメー
タを入力した時点Tから過去4つの時点までの類似度情
報の値を識別ラベル毎に合計し、最も大きい合計結果を
有する識別ラベルを時点Tの識別結果として定める。す
なわち、計算式で表わすと下記の通りとなる。
ここで、 Pj(t):識別ラベルjの時刻tにおける類似度合計
、 C1,j:時刻tにおける音素Jの類似度、8に=類似
度の合計個数に対する重み係数、at:時刻tにおける
正規化係数、 IL:合計すべき類似度の個数−1(時間幅の長さ)、 本例においては、1−4、Bk−1,At−1と設定し
た例を説明している。
したがって、この合計結果も第4図に示すように、識別
ラベル“A”■”O”の順 に”0.7”0.2″  o、o ” とFDD16に
、MPtl14−1 ニより書き込む(ステップS5)
このようにして全識別ラベルに対して、時刻TOでの類
似度情報の値の合計が終了すると、MPU114−1は
合計値が最も高い識別ラベルを抽出し、FDD16に記
憶する(ステップ56〜S7)。
本例においては類似度の“0.7”を有する識別ラベル
“A”が識別績゛果として記憶される。
MPU14−1はこのような手順を繰り返し実行し、類
似度情報および類似度の情報合計値を第6図に示すよう
にFDD16に記憶して行くが、時刻T5においては、
時刻Tl−75までの5個の類似度の情報を合計する。
以下、第4図に示すように合計対象となる範囲(窓と称
する)を順次移動させる。
また、このように得られる識別ラベルの中で最も多いラ
ベルを音韻認識結果として出力する。このための制御手
順は従来から周知のものを使用することができる(ステ
ップS8)。
連続音声では発声(音韻)が変化すると、音韻毎の特徴
パターンも少しずつ変化するので、従来では発声と対応
する真の標準特徴パラメータの音韻ラベルは第2番目や
第3番目の識別候補として現われることが多い。
本発明は、音声の特徴パラメータ入力時点より過去の所
定時間内での距離計算結果をも音声認識処理に用いるの
で、たとえ、ある時点Tにおいて、識別結果が従来の方
式で第2番目候補となっても、連続する過去において複
数回識別結果が第1番目の候補となっていれば、その時
点Tにおいては第1番目の候補として決定される。
例えば、従来例で説明した“アオ”という発声に対して
第1番目候補だけを選択する従来装置ではAAAUAU
UAUUOO・・・”というように部分的に異なる音素
ラベルの識別結果が得られるが、本発明ではこのラベル
列″AAA^^^AAAUIJO・・・”というように
同一ラベルが複数個毎につながる、すなわち、平滑化さ
れたラベル列として得られる。
この結果、音韻の認識処理に対して従来例で説明した識
別ラベルの補正処理を行う必要もなくなり、音声認識確
率が高まることは明らかである。
本発明の応用形態としては次のことが考えられる。
1)本実施例では1つ標準特徴パラメータを定める際に
例えば“ア“という発声を複数回行って複数の特徴パラ
メータを求め、その平均値と個別の特徴パラメータの距
離計算を行い、その中の類似度の高い特徴パラメータA
を標準特徴パラメータとして採用し、距離計算結果を百
分率変換した値を“ア”という識別ラベルに対する類似
度情報としている。
また、標準特徴パラメータAの“イ”という識別ラベル
に対する類似度は発声“イ”についての特徴パラメータ
の平均と標準特徴パラメータAとの距離計算結果を用い
ることになる。しかしながら、1つの識別ラベルに対応
する標準特徴パラメータは1つに限ることはなく、上述
の例では“ア“という発声の複数の特徴パラメータを標
準特徴パラメータとして採用してもよい。
この場合それぞれの特徴パラメータが他の識別ラベルに
対する類似度情報を持つことは言うまでもない。
さらに、1つの発声音に対する標準特徴パラメータの複
数個を複数の話者から抽出するようにすると、不特定話
者の入力音声の認識確率を高めることが可能となる。
〔発明の効果〕
以上説明したように、本発明では、各時点毎の各識別ラ
ベルに対する類似度情報を記憶する記憶手段から抽出す
るようにしたので、その都度計算により類似度を求める
場合に比べて、音声処理時間が短縮化される。また、各
時点毎に得られる類似度から始まる過去の所定個数の類
似度を識別ラベル毎に第2演算手段により合計し、その
合計結果の中の最も類似度の高い識別ラベルを第2抽出
手段により順次に抽出する。この結果、各時点で得られ
る類似度が時系列的に平滑化されるので、例えば入力音
声に雑音が部分的に混入したり、入力音声の一部の発生
が変化したり、入力音声の音韻が変化する場合において
も、その音声の変化部分がこれまでに認識されたラベル
と同じラベルと認識され、以て音声の認識確率が高くな
る。
【図面の簡単な説明】
第1図は本発明実施例の基本構成を示すブロック図、 第2図は本発明実施例の具体的な構成を示すブロック図
、 第3図は第2図に示すコンピュータシステムの回路構成
を示す回路図、 第4図は第2図に示す確率テーブル16−1のメモリ構
成を示すメモリマツプ、 第5図は第3図に示すMPU14−1が実行する制御手
順を示すフローチャート、 第6図は本発明実施例の類似度の計算過程を示す説明図
、 第7図は従来例の音声認識過程を示す説明図である。 10・・・マイクロホン、 14・・・コンピュータシステム、 14−1・・・マイクロプロセッサ(MPtl)、16
・・・フロッピディスク装置(FDD)、16−1・・
・計算用テーブル、 16−2・・・音韻マツプ。 不Δ沓明芙λヒタリのコンヒーークシステム14の肩4
が、’kT、T胆卑イし明大紗1の計算用テーブル16
−12ホ↑メtリマップ第4図

Claims (1)

  1. 【特許請求の範囲】 a)標準特徴パラメータおよび該標準特徴パラメータの
    複数の識別ラベルに対するそれぞれの類似度を示す類似
    度情報から成る標準パターン情報を複数個予め記憶した
    記憶手段と、 b)連続音声を入力する入力手段と、 c)該入力手段から入力された前記連続音声を一定時間
    毎に特徴パラメータに変換する音声分析手段と、 d)該音声分析手段により変換された前記特徴パラメー
    タと前記記憶手段に記憶されている前記標準特徴パラメ
    ータの各々との距離計算を行う第1演算手段と、 e)該第1演算手段の距離計算結果に基き、前記音声分
    析手段により変換された当該特徴パラメータに最も距離
    が近い前記標準特徴パラメータを抽出する第1抽出手段
    と、 f)該第1抽出手段により抽出された前記標準特徴パラ
    メータに対応する前記類似度情報を前記記憶手段から読
    出す読出し手段と、 g)該読出し手段により読出された前記類似度情報に基
    いて、現時点から過去まで連続する一定個数の前記類似
    度を前記識別ラベル毎に合計する第2演算手段と、 h)該第2演算手段により合計された前記識別ラベル毎
    の類似度の合計結果に基いて、最も類似度の高い合計結
    果と対応する識別ラベルを抽出し、当該抽出された識別
    ラベルを、前記現時点における音声認識結果として出力
    する第2抽出手段とを具えたことを特徴とする音声認識
    装置。
JP63294620A 1988-11-24 1988-11-24 音声認識装置 Pending JPH02141800A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63294620A JPH02141800A (ja) 1988-11-24 1988-11-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63294620A JPH02141800A (ja) 1988-11-24 1988-11-24 音声認識装置

Publications (1)

Publication Number Publication Date
JPH02141800A true JPH02141800A (ja) 1990-05-31

Family

ID=17810115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63294620A Pending JPH02141800A (ja) 1988-11-24 1988-11-24 音声認識装置

Country Status (1)

Country Link
JP (1) JPH02141800A (ja)

Similar Documents

Publication Publication Date Title
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
KR0123934B1 (ko) 저렴한 음성 인식 시스템 및 방법
US6032115A (en) Apparatus and method for correcting the difference in frequency characteristics between microphones for analyzing speech and for creating a recognition dictionary
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JPS59121100A (ja) 連続音声認識装置
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP2955297B2 (ja) 音声認識システム
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JPH02157800A (ja) 特徴抽出方式
JPH02141800A (ja) 音声認識装置
JP3102089B2 (ja) 自動採譜装置
JP2009058548A (ja) 音声検索装置
JP3100180B2 (ja) 音声認識方法
JPH02105200A (ja) 音声認識装置
JP3727173B2 (ja) 音声認識方法及び装置
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP3461789B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP2577891B2 (ja) 単語音声予備選択装置
JPH0441357B2 (ja)
JPH01185599A (ja) 音声認識装置
JPS59219799A (ja) 音声認識装置
JPH0554678B2 (ja)
JPH06324696A (ja) 音声認識装置及び方法