JPS60166998A - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JPS60166998A
JPS60166998A JP2328684A JP2328684A JPS60166998A JP S60166998 A JPS60166998 A JP S60166998A JP 2328684 A JP2328684 A JP 2328684A JP 2328684 A JP2328684 A JP 2328684A JP S60166998 A JPS60166998 A JP S60166998A
Authority
JP
Japan
Prior art keywords
frame
input
word
silent
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2328684A
Other languages
English (en)
Inventor
光生 下谷
日比野 昌弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2328684A priority Critical patent/JPS60166998A/ja
Publication of JPS60166998A publication Critical patent/JPS60166998A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の技術分野] この発明は単語音声m*@置に関し、特に、音声の特徴
抽出をピッチの定数倍の共振周波数を有するディジタル
フィルタで行なうようなピッチ適応型の単語音声認識装
置における特徴パラメータ抽出方法の改良に関する。
[従来技術] 第1図は従来のピッチ適応式単語音声認*iinの電気
的構成を示すブロック図である。まず、第1図を参照し
て従来の単語音声認識装置の構成について説明する。第
1図においで、マイクロホン11から入力された音声信
号は、マイクロホンアンプ12に入力されて増幅された
後、AGC回路13に与えられる。AGC回路13は、
人力信号の大きさが変動1ノでも、一定出力が得られる
ように、その内部に設けられた増幅器の利得を自動的に
制御するものである。AGC回路13の出力は、A/D
変換回路14に与えられ、ディジタル信号に変換される
。A/D変換回路14の出力は、波形メモリ15に与え
られる。この波形メモリ15は、1フレームの入力波形
データを一時記憶するものである。波形メモリ15の出
力は特徴抽出部2に与えられる。
特徴抽出部2はピッチ周期抽出回路21とフィルタ係数
設定回路22とディジタルフィルタ23とレベル計算回
路25と始終端検出回路6を含む。
ピッチ周期抽出回路21は波形メモリ15に一時記憶さ
れた1フレームの入力音声波形におけるピッチ周波数を
抽出するものである。フィルタ係数設定回路22はピッ
チ周期抽出回路21によって抽出された入力音声波形の
ピッチ周波数に基づいて、フィルタの共振周波数がピッ
チ周波数の整数倍となるようにフィルタ係数を設定する
ためのものである。ディジタルフィルタ23はフィルタ
係数設定回路21で設定されたフィルタ係数に応じてフ
ィルタ係数を決定する。レベル計算回路25は波形メモ
リ15に一時記憶された入力音声波形レベルを計算する
ものである。このレベル計算回路25の出力は認識処理
部5と始終端検出回路6とに与えられる。始終端検出回
路6はレベル計算−回路25で計算されたレベルを用い
て入力音声信号の始終端を検出するものである。
認識処理部5に関連して設けられる入カバターンメモリ
3は特徴抽出部2で分析された音声の特徴パラメータを
一時記憶するものである。また、登録パターンメモリ4
は登録時に分析抽出された登録語の特徴パラメータある
いは標準音声の特徴パラメータを記憶して、認識処理部
5に与えるためのものである。認識処理部5は入カバタ
ーンメモリ3に記憶された特徴パラメータと登録パター
ンメモリ4に予め登録されている特徴パラメータとを用
いて認識処理を行なう。なお、認識処理部5はたとえば
マイクロプロセッサを中心にして構成される。
上述の第1図に示した単語音声認識装置においては、音
声波形を一定時間のフレームに分割し、フレームごとに
ピッチ周波数の整数倍における周波数スペクトラムを特
徴パラメータとして抽出する。!!2!識処理時には、
登録単語と入力単語のフレーム間における音韻の差異を
表わす数値として、比較すべきフレーム間の距離が特徴
パラメータを用いて計算され、この値を使用してマツチ
ング処理が行なわれる。
第2図は第1図に示した認識処理部5に含まれる距離計
算部の構成を示すブロック図である。第2図において、
距離計算部51は入カバターンメモリに記憶されている
分析された音声の特徴パラメータと、登録パターンメモ
リ4に記憶されている標準音声の特徴パラメータにおけ
るフレーム間の距離を計算するものである。この距離計
算部51はパラメータ一時記憶メモリ511と512と
チェビシェフか離計算回路513とを含む。パラメータ
一時記憶メモリ511は入カバターンメモリに記憶され
ている1フレ一ム分の特徴パラメータを一時記憶するも
のであり、パラメータ一時記憶メモリ512は登録パタ
ーンメモリに記憶されている1フレ一ム分の特徴パラメ
ータを一時記憶するものである。そして、チェビシェフ
距離計算回路513はパラメータ一時記憶メモリ511
に一時記憶した内容と、パラメータ一時記憶メモリ51
2に一時記憶した内容とのチェビシェフ距離を計算する
ものである。チェビシェフ距離計算回路513によって
計算されたチェビシェフ距離はマツチング処理部52に
与えられ、マツチング処理部52は入カバターンメモリ
3に記憶している分析された音声のIsパラメータと標
準音声の特徴パラメータとのマツチングを行なう。
次に、第1図および第2図を参照して従来の単語音声認
識装置における動作について説明する。
マイクロホン11で取込まれた音声信号はマイクロホン
アンプ12によって増幅されてAGC回路13に与えら
れる。AGC回路13は音声信号の入力波形のM高値が
一定水準となるように調整し、A/D変挽変格回路14
える。A/D変換回路14は所定のサンプリング点ごと
に入力波形をディジタル信号にコード化する。1フレ一
ム分のサンプリングデータは波形メモリ15に与えられ
て−・時記憶される。波形メモリ15に記憶された波形
データはレベル計算回路25とピッチ周期抽出回路21
に入力される。レベル計算回路25は波形メモリ15か
ら与えられた波形データのレベルを計算し、その計算結
果を認識処理部5と始終端検出回路6とに与える。
始終端検出回路6はレベル計算回路25からの計算結果
に基づいて、音声信号の入力波形の始端と終端とを検出
して音声信号区間の判定を行ない、その判定結果をWX
m処理部5に与える。ピッチ周期抽出回路21は波形メ
モリ15から与えられた波形データに基づいて、そのピ
ッチ周期を抽出して認識処理部5とフィルタ係数設定回
路22とに与える。フィルタ係数設定回路22はピッチ
周期抽出回路21が計算したピッチ周期に基づいて、デ
ィジタルフィルタ23がピッチ周波数の整数倍における
共振周波数をもつようにフィルタ係数をディジタルフィ
ルタ23に設定する。ディジタルフィルタ23は、フィ
ルタ係数設定回路22によって設定されたフィルタ係数
に基づいて、波形メモリ15から与えられた波形データ
における1フレ一ム分の周波数スペクトラムを計算する
上述の一連の動作により、特徴抽出部2は1単語分の特
徴パラメータとして、ピッチ周波数時系列[f、7F、
スペクトラム時系列パターン[OHel、(i−i、2
・・弓)、(+a−1,2・・・M)。
(1分析[8のフレーム数1Mニスペクトラム分析のた
めのフィルタの個数)を得る。このようにして得られた
1単語分の特徴パラメータは登録モードにおいては登録
パターンメモリ4に記憶され、認識モードにおいては入
カバターンメモリ3に記憶した後、認識処理部5がパタ
ーンマツチングの手法により認識処理を行なう。
認識処理部5は第2図に示すように、入カバターンと登
録パターンとのフレーム間における距離を計算する距離
計算部51を有するが、入カバターーンメモリ3に&!
憶されている特徴パラメータをCf)t ]、[a+□
〕とし、登録パターンメモリ4に記憶されているマツチ
ングを行なうためのテンプレートの特徴パラメータをピ
ッチ周波数時系列[f、j]、スペクトラム時系列パタ
ーン[bjう]。
(J−1,2,・・・、J)とすると、入カバターンの
フレーム1と登録パターンのフレームjとの距離d (
+、、+)は d(1,j)−Σl a:w、 −b、1.、、 l 
”−(1)−為1 となる。この計算を行なうために、マツチング処理部5
2が入カバターンメモリ3と登録パターンメモリ4とに
制御信号を与えると、入カバターンメモリ3からJl 
、 sw (5ず1..2・・・a+、vl)がパラメ
ータ一時記憶メモリ511に与えられ、登録パターンメ
モリ4からbJ−(1)j+ 、 b;z、・・・。
b、4)がパラメータ一時記憶メモリ512に与えられ
た後、チェビシェフ距離計算回路513が前述の第(1
)式の計算を行なって、d(1,J)をめる。距離計算
回路51が計算したd (1゜J)を用いてマツチング
処理部52は周知のパターンマツチングの手法を用いて
マツチング処理を行なう。そして、入カバターンと登録
パターンとのマツチング距離がめられ、最小のマツチン
グ距離を持つ登録パターンが認識結果として選ばれる。
従来の単語音声認識装置は上述のごとく構成されている
ため、第2図に示したI NHK Iの場合、IEl、
IEl、IEIの音韻だけを取出すことになり、1ch
1周辺にパワーレベルの小さい区間が存在する情報が失
われることになり、認識性能を下げるという欠点があっ
た。
[発明の概要] それゆえに、この発明の主たる目的は、無音フレームを
検出する無音フレーム検出手段を設け、無音フレームが
検出する無音区間の中央位置を検出し、そのフレームを
単語音声の特徴として選択することにより、認識性能の
優れた単語音声認識装置を提供することを目的とする。
この発明の上述の目的およびその他の目的と特徴は以下
に図面を参照して行なう詳細な説明から一層明らかとな
ろう。
[発明の実施例] 第3図はこの発明の一実施例を示すブロック図である。
この第3図に示した実流例は、音声レベルの小さい無音
フレームを検出するための無音フレーム検出回路25と
、無音フレーム検出回路25の検出出力に基づいて無音
区間の中心フレームを選択するフレーム選択回路26を
設けた以外は前述の第1図と同じである。
次に、動作について説明する。単語音声が入力されて、
フレーム選択回路24が単語の特徴となる音韻フレーム
11+ 、i−1,2,・・・、JCを選択するまでは
前述の第1図に示した従来の単語音声認識装置と同じで
ある。次に、無音フレーム検出回路25は単語内におけ
る無音フレームの検出を行なう。この実施例では、P(
i)≦P+にであるフレームiを無音フレームどして検
出する(第2図に示した例では1.≦1≦1□)。フレ
ーム選択回路26は連続して続く無音フレーム区間N0
VJ=+ 2−+ + −1−1が予め設定された無音
区間検出のための1ノぎい(INOVthより大きい場
合、フレームn、;−(i□−1+)/2、ただし割り
切れない場合はnj = (1211+1)/2を無音
フレームの代表として選択し、無音フレームであるとい
う情報と無音フレーム区間N0V= とスペクトルパタ
ーンC(J、m)−a(n、+11)、J−1,2,・
・・、JN (JNはフレーム選択回路26が選択した
無音フレーム数)が単語の代表音韻として抽出される。
上述のごとくしてフレーム選択回路24が選択したスペ
クトルパターンb (1,1)、) −i。
2、・・・、JCはフレーム選択回路26の選択したス
ペクトルパターンc(J、s)、J−1,2゜・・・、
JNとともに、フレーム番号順に並べられ、スペクトル
パターンr (+、11)、+−1,2゜・・・、JC
+JN、ll−1,2,・・・2Mとして、無音有音情
報VN (i ) (有声音のときVN(1)=01無
音のときVN (i )−NOV+ )が、単語の特徴
となる特徴パラメータとして、登録時にはI10インタ
ーフェイス33を介して登録パターンメモリ34に記憶
され、認識時には入カバターンメモリ35に記憶される
。認識処理における距離尺度は、有声音間では前述の第
(1)式を用い、無音と有声音の場合は、 d (1、J )=Dvu +WVN XVN (1)
・・・(2) を用いる。但し、これは入カバターンのフレーム1の方
が無音の場合の距離計算式であり、登録パターンのフレ
ームjの方が無音の場合は、d (i 、J )=Dv
N +WVN XVNT (J )・・・ (3) を用いる。
ここで、DvNは無音フレームと有声音フレーム間の距
離を決めている定数であり、WVNは重み係数であり、
 VNT (J )は登録パターンのフレームJの無音
有音情報である。なお、無音フレームと無音フレームと
の間の距離は、 d (i 、 j )=DMn−WVN X (VN 
(1)+VNT (j ) ) ・・・(4) を用いる。ここで、DMNは無音フレーム間の距離を決
めている定数であり、WMNは重み係数である。上述の
距離計算は距離針環回路36が行ない、この距離を用い
ることによって前述の第1図に示した単語音声認識装置
と同様の認識処理を行なう。
なお、上述の実施例では、スペクトルパターンをディジ
タルフィルタ22で抽出するようにしたが、アナログフ
ィルタであっても差支えない。
また、上述の実施例では、説明の都合上wi語音痺認a
!装電を特定話者登録型として説明したが、単語音声の
特徴パラメータを予めROMに記憶している不特定話者
用の単關召声認識装置であっても実現可能なことは言う
麟でもない。
[発明の効果] 以上のように、この発明によれば、単語内に長い無音区
間が存在する場合、無音情報を有効に単語の特徴どして
使用するようにしたので、認識処理時間を短縮化できし
かもO識性蛯の良好な単語音声認識装置を構成すること
ができる。
【図面の簡単な説明】
第1図は従来の甲語音粛認識装置の構成を示すブロック
図である。第2図はI N I−I K +と発声した
場合のパワー波形を示す図である。第3図はこの発明の
一実施例を示すブロック図である。 図において、10はマイクロホン、11はマイクロホン
アンプ、12は低域通過フィルタ、13はA/D変換器
、14は波形メモリ、20はレベル計11回路、21は
始終端検出−路、22はディ9.24.26はフレーム
選択回路、25は無音フレーム検出回路、3oは制御回
路、31はCFx U134は登録パターンメモリ、35は入゛カバターン
メモリ、36は距離計算回路を示す。 代理人 大 岩 増 雄 第2図 手続補正書(自発) 1.事件の表示 特願昭 59−23286号28発明
の名称 単語音声認識装置 3、補正をする者 代表者片山仁へ部 4、代理人 5、補正の対象 明細−の発明の詳細な説明の欄および図面6、補正の内
容 (1) 明細書第3頁第5行ないし第10頁第16行の
[[従来技術]・・・選ばれる。」を下記の文章に訂正
する。 記 [従来技術] 第1図は従来の単語音声認識装置における電気的構成を
示す概略ブロック図である。まず、第1図を参照して、
従来の*a音声ml!装置の構成について説明する。マ
イクロホン10から入力された音声信号は、マイクロホ
ンアンプ11に入力されて増幅された後、低域通過フィ
ルタ12に与えられる。低域通過フィルタ12は入力さ
れた音声信号の入力波形のうち、音響信号帯域だけを通
過させてA/D変換器13に与える。A/D変換器13
は、入力された音声信号をディジタル信号に直換し、波
形メモリ14に与えて波形データを一時記憶させる。波
形メモリ14で一時記憶された波形データは、レベル計
算回路2oとディジタルフィルタ22とに与えられる。 レベル計算回路20は与えられた波形データに基づいて
、波形のエネルギに相当する値を計算し、その計算結果
を始終端検出回路21と特徴パラメータ記憶メモリ23
とに与える。 一方、ディジタルフィルタ22は、波形メモリ14から
の波形データを受取って、スペクトルパターンを抽出し
、それを特徴パラメータ記憶メモリ23に与える。特徴
パラメータ記憶メモリ23は、始終端検出回路21によ
って検出された始端から終端までの特徴パラメータを一
時記憶する。 特徴パラメータ記憶メモリ23に記憶された特徴パラメ
ータはフレーム選択回路24に与えられる。 フレーム選択回路24は特徴パラメータ記憶メモリ23
から読出された特徴パラメータのうち、単語の特徴とな
る音韻フレームだけを選択し、■10インターフェイス
33を介して、その音韻フレームをCPLI31に与え
る。 CPU31は、プログラムメモリ32に予め記憶されて
いるプログラムに基づいて、mll処理などを行なう。 CPLI31に関連して、登録パターンメモリ34と、
入カッ(ターンメモリ35と、距離計算回路36とが設
けられる。登録パターンメモリ34は、登録時に分析抽
出された認識対象である登録後の特徴パラメータを記憶
する。また、入カバターンメモリ35は、認識時に分析
抽出された入力音声の特徴パラメータを記憶する。距離
計算回路36は、mlI処理時に特徴パラメータ間の距
離を計算するものである。なお、前述の始終端検出回路
21と、特徴パラメータ記憶メモリ23と、フレーム選
択回路24と、CPU31は制御回路30によって制御
される。 第2図は第1図に示した従来の単語音声mlI装置にお
いて、l NHK lと発声した場合のパワー波形を示
す図である。次に、第11!lおよび第2図を参照して
、従来の単語音声認識装置の動作について説明する。 第1図に示した単語音声m1m@置においては、入力さ
れた音声波形を一定時間のフレームに分割し、そのフレ
ームごとの周波数スペクトラムなどを特徴パラメータと
して抽出する。フレーム周期は、音声発生のメカニズム
から判断して、通常10ないし20■secであり、1
単語の音声波形はかなり多くのフレーム数から成立って
いる。 マイクロホン10から入力された音声は、マイクロホン
アンプ11.低域通過フィルタ12.A/D変換器13
を介して1フレ一ム分のデータが波形メモリ14に記憶
される。レベル計算回路20はフレームごとに波形メモ
リ14に記憶されている波形データをもとにして、エネ
ルギに相当するパワーを計拝し、そのパワー値を始終端
検出回路21と特徴パラメータ記憶メモリ23に与える
。 一方、ディジタルフィルタ22は、チャネルフィルタを
構成していて、フレームごとに波形メモリ14に記憶し
ている波形データを用いて、スペクトルパターンをめ、
特徴パラメータ記憶メモリ23に出力する。特徴パラメ
ータ記憶メモリ23は、始終端検出回路21の始端検出
信号を受けて、特徴パラメータの記憶を開始し、始終端
検出回路21からの始終端検出信号を受けて記憶を終了
する。 このとき、特徴パラメータ記憶メモリ23は、全フレー
ムのパワー情報P(1)とスペクトル情報a (1、l
 )、 I −1,2,−JM、 l−1゜2、・・・
M (JMは入力した1!11のフレーム数0Mはディ
ジタルフィルタ22のチャネル数である。)を記憶して
いる。ところが、これら全フレームの特徴パラメータを
登録パターンや入カバターンとして用いて認識処理を行
なうと、メモリ量の増大やm識処理時間の増大を招くた
め、単語の特徴となる音韻フレームだけの特徴パラメー
タを用いるために、フレーム選択回路24を設けている
。 第2図はl NHK Iと発声した場合のパワー波形を
示したものであるが、フレーム選択回路24は、たとえ
ば予め定められたパワーのしきい値Pth以上のパワー
極大フレーム、フレームに、に−絃、l +に2 *・
・・k3c (Jc−選択フレーム数)を選択し、フレ
ームに1のスペクトルパターンb (1゜1)−a (
k、、l)、l−1,21−、JOを入力早開の特徴と
して取出す。スペクトルパターンb(1,i)は、I1
0インターフIイス33を通して、登録時には登録パタ
ーンメモリ34に記憶され、RWiA時には入カバター
ンメモリ35に記憶される。m識処理はCPU31が周
知のパターンマツチングの手法を用いて行なうが、登録
パターンのスペクトルパターンをb T (J 、 y
a ) 、 J−1,2,・・・jcT(JcTは登録
パターンの選択フレーム数)とすると、入カバターンの
フレーム1と登録パターンのフレームJとの音韻の差異
を表ねり距離d(i、j)は距離計算回路36が次の第
(1)式に示すような距離を計算する。 (1(1,J> −Σ lb(+、 鵬 ) −b T
 (J 。 −) 1 ・・・ (1) この距離を用いることにより、各登録パターンと入カバ
ターンとの認識距離を計算し、最も近い距離を持つ登録
パターンがg*結果として選ばれる。 (2) 明細書第12頁第7行のrP(+)≦P+k 
JをrP(1)≦pthJに訂正する。 (3) 図面の第3図を別紙のとおり。

Claims (2)

    【特許請求の範囲】
  1. (1) *m音声を電気信号に変換するための音声入力
    手段、 前記音声入力手段出力に基づいて、入力された単語音声
    の特徴を抽出する特徴抽出手段、前記入力された単語音
    声のエネルギに相当する値を検出するしノベル検出手段
    、 前記レベル検出手段出力に応じて、単語音声の代表とな
    る有声音区間の中心位置を検出する第1のフレーム選択
    手段、 前記入力された単語音声の始終端を検出するための始終
    端検出手段、 前記入力された単語音声の特徴パラメータを記憶する入
    カバターン記憶手段、 認識対象となる複数個の単語音声の特徴ノ(ラメータを
    予め記憶する登録パターン記憶i段、および 前記入カバターン記憶手段に記憶している特徴パラメー
    タと前記登録パターン記憶手段に記憶している特徴パラ
    メータとの類似度を計算し\てam処理を行なう認識処
    理手段を備えた単語音声認識装置において、さらに 音声レベルの小さい無音フレームを検出するための無音
    フレーム検出手段と、 前記無音フレーム検出手段の出力に基づいて、無音区間
    の中心となるフレームを選択する第2のフレーム選択手
    段とを備えたことを特徴とする、単語音声認識装置。
  2. (2) 前記認識処理手段は、フレーム間の音蟻の差異
    に基づいて、有声音フレーム間の距離。 有声音フレームと無音フレームの距離ならびに無音フレ
    ームと無音フレーム間との距離を異なる距離尺度で針幹
    プるようにした、特許請求の範囲第1項記載の申開音声
    認識装置。
JP2328684A 1984-02-10 1984-02-10 単語音声認識装置 Pending JPS60166998A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2328684A JPS60166998A (ja) 1984-02-10 1984-02-10 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2328684A JPS60166998A (ja) 1984-02-10 1984-02-10 単語音声認識装置

Publications (1)

Publication Number Publication Date
JPS60166998A true JPS60166998A (ja) 1985-08-30

Family

ID=12106359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2328684A Pending JPS60166998A (ja) 1984-02-10 1984-02-10 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS60166998A (ja)

Similar Documents

Publication Publication Date Title
JP2654503B2 (ja) 無線端末装置
EP0077194B1 (en) Speech recognition system
ES2255982T3 (es) Indicador de final de voz en presencia de ruido.
JPS60166998A (ja) 単語音声認識装置
JPH05307395A (ja) 音声合成装置
JPS62113197A (ja) 音声認識装置
JPH039400A (ja) 音声認識装置
JP3049711B2 (ja) 音声処理装置
JPS60166997A (ja) 単語音声認識装置
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
JP2951333B2 (ja) 音声信号の区間判別方法
JPH0635498A (ja) 音声認識装置及び方法
JPS59224900A (ja) 音声認識方法
JP2844592B2 (ja) 離散単語音声認識装置
JP3063856B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JPH06324696A (ja) 音声認識装置及び方法
JPH05108088A (ja) 音声区間検出装置
JPS59170894A (ja) 音声区間の切り出し方式
JPS63212999A (ja) 音声認識装置
JPS6227798A (ja) 音声認識装置
JPS625298A (ja) 音声認識装置
JPH0731506B2 (ja) 音声認識方法
JPS59176794A (ja) 単語音声認識装置
Blomberg et al. A device for automatic speech recognition
JPH09297596A (ja) 音声認識装置