JPH06222788A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06222788A
JPH06222788A JP5025964A JP2596493A JPH06222788A JP H06222788 A JPH06222788 A JP H06222788A JP 5025964 A JP5025964 A JP 5025964A JP 2596493 A JP2596493 A JP 2596493A JP H06222788 A JPH06222788 A JP H06222788A
Authority
JP
Japan
Prior art keywords
voice
signal
frame
dictionary
inner product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5025964A
Other languages
English (en)
Inventor
Makoto Nakagawa
真 中川
Kazuhiro Nakaishi
和宏 中石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
U Shin Ltd
Original Assignee
Yuhshin Co Ltd
Yuhshin Seiki Kogyo KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuhshin Co Ltd, Yuhshin Seiki Kogyo KK filed Critical Yuhshin Co Ltd
Priority to JP5025964A priority Critical patent/JPH06222788A/ja
Publication of JPH06222788A publication Critical patent/JPH06222788A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力された音声の初期部分に雑音が含まれる
ような場合にも、この音声を正確に認識することができ
る音声認識装置を開発すること。 【構成】 入力された音声信号を登録部メモリ19の音
声辞書信号に対してフレ−ム順序でシフトさせると共
に、シフト毎に上記両信号から内積を算出する。そし
て、内積が最大となるシフト状態を検出し、検出したシ
フト状態で音声辞書信号の開始点に相当する音声信号の
フレ−ム位置を音声区間の始端と決定する始端決定手段
21が備えてある。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、入力される音声を電
気的に認識する音声認識装置に関し、具体的には、認識
するに必要な音声の初期に雑音がある場合でも安定して
マツチング処理することができる音声認識装置である。
【0002】
【従来の技術】図6は音声認識装置の従来例を示すブロ
ツク図である。この音声認識装置は、音声をマイクロフ
ォン11に入力させることにより、その音声信号がアナ
ログ信号として増幅器12を介して所定の音声帯域を通
過させる音声帯域フィルタ13に入力する。
【0003】この音声帯域フィルタ13は、ロ−パスフ
ィルタによって構成され、その出力信号をA/D変換器
14に入力する。
【0004】A/D変換器14は一定時間間隔で音声信
号をデジタル変換しパラメ−タ抽出部15に入力する。
なお、パラメ−タ抽出部15は音声辞書作成部16、比
較部17と共にCPU18に設けられている。
【0005】パラメ−タ抽出部15は、いくつかの周波
数成分を抜き出し、複数のタイムスペクトラムパタ−ン
を抽出する。また、各フレ−ムの和を音声のパワ−レベ
ルとする。図7にパラメ−タ抽出部15の出力信号形成
を示す。この図7には、スペクトラムを3チャンネルに
分けたスペクトラム信号と音声信号(これらの総和に相
当する)とを直列伝送する例を示している。さらに、各
フレ−ムを検出値(しきい値)と比較して音声の始端と
終端とを検出し、音声区間を定める。例えば、音声信号
のパワ−レベルが3フレ−ム連続して検出値を越えた場
合はその第1フレ−ムを音声始端とし、また、音声信号
のパワ−レベルが20フレ−ム連続して検出値以下とな
った場合はその第1フレ−ムを音声終端として検出す
る。
【0006】このように抽出されたスペクトラム信号は
比較部17によって、呼出し状態にある登録部メモリ1
9に登録されている音声辞書信号中の各スペクトラム信
号とマッチングされ、これらの一致度が高いときに音声
認識信号20が出力される。
【0007】なお、登録部メモリ19には、認識するに
必要な全単語が登録されたもの、認識するに必要な単語
を音素単位で表記した単語辞書として登録されたもの、
また、認識するに必要な単語を音節を単位として登録さ
れたものなどがあり、これらのパワ−レベルが図7に示
すようなスペクトラム毎に記憶されると共に、音声信号
のパワ−レベルも記憶される。比較部17ではこのよう
に登録されている音声辞書信号にしたがってマッチング
が行なわれる。
【0008】なお、登録部メモリ19に音声辞書信号を
登録する場合は、辞書登録モ−ドに切換えた状態で、す
なわち、登録部メモリ19を書込み状態にして上記同様
に音声入力する。この音声入力でパラメ−タ抽出部15
が特徴抽出した音声信号を出力し、この音声信号が音声
辞書作成部16により処理されると共にアドレス指定さ
れ、登録部メモリ19の所定のアドレスに登録される。
【0009】
【発明が解決しようとする課題】上記した音声認識装置
では、上記したように予め定めた一定の検出値を設け、
音声信号のパワ−レベルがその検出値より大きくなる区
間を検出して音声区間としている。
【0010】このため、認識するに必要な音声入力の直
前に雑音が入力した場合には、図8に示したように、時
間T1に発生した雑音信号に続いて時間T2の音声信号B
が取り込まれる。このことから、雑音信号と一連となつ
た音声信号Bと音声辞書信号Aの各スペクトラム信号が
比較される。
【0011】この結果、音声信号Bが雑音信号の発生時
間T1だけずれて音声辞書信号Aと比較されることにな
り、音声信号Bと音声辞書信号Aとが一致している場合
でも、「一致」の音声認識ができないと言う問題があ
る。
【0012】本発明は上記した実情にかんがみ、音声入
力の直前に雑音入力があっても安定したマッチングを行
なうようにした音声認識装置を開発することを目的とす
る。
【0013】
【課題を解決するための手段】上記した目的を達成する
ため、本発明では、入力された音声信号を所定の音声区
間で検出し、音声区間の音声信号より抽出したパラメ−
タと予め登録された音声辞書信号とをマッチングさせて
音声認識する音声認識装置において、音声辞書信号を同
じ時間間隔で細分化して多数のフレ−ムとし、音声辞書
信号に対し音声信号をフレ−ムの順序に沿って順次シフ
トする手段と、シフト毎に両信号レベルから内積を求
め、内積が最大となるシフト状態を検出する手段と、検
出されたシフト状態で音声辞書信号の開始点に合わせた
音声信号の開始点を決定する手段とからなる音声区間の
始端決定手段を設け、音声信号のパラメ−タを上記した
開始点より音声辞書信号とマッチングさせて音声認識す
る構成としたことを特徴とする音声認識装置を提案す
る。
【0014】
【作用】この発明の音声認識装置は、音声区間の始端決
定手段により音声信号の開始点を決定する。
【0015】つまり、音声信号を音声辞書信号に対し、
フレ−ムに沿って順次シフトさせると共に、シフト毎に
これら両信号レベルから内積を求める。
【0016】そして、両信号の内積が最大となるシフト
状態で音声信号のパラメ−タと音声辞書信号とが最も整
合するから、このシフト状態における音声辞書信号の初
段フレ−ムに相当する音声信号のフレ−ム位置を音声区
間の始端として定める。
【0017】音声区間の始端をこのように定めた後マッ
チングに移るから、音声信号のパラメ−タが正確に音声
辞書信号と比較され、音声認識装置が安定したものとな
る。
【0018】
【実施例】次に本発明の一実施例について図面に沿って
説明する。図1は本発明を実施した音声認識装置のブロ
ック図を示す。なお、この実施例では、パラメ−タ抽出
部15と比較部17との間に音声区間の始端決定部21
を設けたことが特徴となっており、その他の構成は図6
に示す従来の音声認識装置と同構成である。
【0019】音声区間の始端決定部21は、音声辞書信
号に対し、入力された音声信号をフレ−ム順序でシフト
させて、これら信号レベルから内積を求める手段を備え
ている。
【0020】すなわち、登録部メモリ19より読み出し
た音声信号に相当する音声辞書信号Aを図2(A)に示
した如く、A1、A2、A3・・・・・・Anの間隔でフ
レ−ム化する。なお、このフレ−ムA1、A2、A3・・
・・・・・Anは等間隔としてある。
【0021】また、パラメ−タ抽出部15より出力され
た音声信号Bは、図2(B)の如く、B1、B2、B3
・・・・・・Bmのようにフレ−ム化する。なお、この
フレ−ムB1、B2、B3・・・・・・・Bmは時間的に
等間隔で、音声辞書信号Aのフレ−ムA1、A2、A3
・・・・・・Anと同じフレ−ム周期となっている。ま
た、この図に示したフレ−ムB1〜B3の部分は雑音信号
を示し、フレ−ムB4〜Bmの部分は実音声信号を示し
ている。
【0022】そして、上記始端決定部21が音声辞書信
号Aに対して音声信号Bをフレ−ム順序にしたがってシ
フトさせ、シフト毎に両信号レベルから内積を算出す
る。
【0023】すなわち、音声入力されると、その音声信
号Bの第1フレ−ムB1を音声辞書信号Aのフレ−ムに
したがってシフトさせる。この場合、第1フレ−ムB1
がフレ−ムA1にシフトされると、両信号レベルから内
積C1が算出される。すなわち、C1=A1×B1+A2
2+・・・・・・・+An×Bmとなる。この第2フ
レ−ムのB2がフレ−ムA1にシフトされると、同様に両
信号レベルから内積C2が算出される。すなわち、C2
1×B2+A2+B3+・・・・・・・+An×Bm+1
となる。このように、第1フレ−ムB1が音声辞書信号
Aのフレ−ムA1、A2、A3・・・・・・Anを順次シ
フトする間に各々のシフト位置で内積が算出される。続
いて送られる第3フレ−ムB3についても同様にシフト
され、第3フレ−ムB3が音声辞書信号Aのフレ−ムA1
のシフト位置で内積が算出される。以下同様に1フレ−
ムずつシフトさせながら内積を算出する。
【0024】上記した始端決定部21は、上記のように
音声信号Bをシフトさせて内積を算出した後に、内積が
最大となるシフト状態を検出する。すなわち、内積が最
大となるのは、音声信号Bが最も大きいレベルとなるフ
レ−ムBiが音声辞書信号Aの最も大きいレベルのフレ
−ムA4にシフトされたときとなるから、このシフト状
態を検出することになる。
【0025】実際には、音声辞書信号Aと音声信号Bは
多次元のベクトルとして考えることができるから、これ
ら信号A、Bの内積を算出し、その相関値を求めて内積
が最大となるシフト状態を検出する。
【0026】このようにシフト状態を検出すると、音声
辞書信号Aに対して音声信号Bの実音声信号(フレ−ム
4〜Bm部分)が図3に示したようになり、実音声信
号の時間ずれが最も少ない整合した状態となる。
【0027】始端決定部21は、上記のように内積が最
大となるシフト状態を検出したとき、音声辞書信号Aの
第1フレ−ムA1に相当する音声信号Bのフレ−ムを検
出し、このフレ−ム位置を音声区間の始端として決定す
る。この実施例ではフレ−ムB4が始端として決定され
る。
【0028】上記のようにして音声区間の始端が決定さ
れた後は、従来例と同様にして音声信号Bのスペクトラ
ム信号が比較部17によってマッチングされ、その音声
信号と音声辞書信号Aの各スペクトラム信号の一致度が
高いときに音声認識信号20が出力れる。
【0029】図4は上記した始端決定部21の動作を示
すフロ−チャ−トである。このフロ−チャ−トより分か
る如く、まず、最大内積値jとシフト数カウンタKを0
にする。次にKを1に設定し、内積を求める。該内積値
が最大内積値より多きければ該内積値をjとする。K=
nでなければフレ−ムシフトして、同様の動作を繰り返
す。Kがシフトnに等しくなると終了し、そのときの内
積値が最大内積値jである。また、最大内積値jが得ら
れた時点のKが最適なシフト数nになる。
【0030】図5は上記した始端決定部21を備える音
声認識装置の動作を示したフロ−チャ−トである。既に
説明したように、音声が入力されると、その音声信号が
増幅器12、音声帯域フィルタ13、A/D変換器14
を経てパラメ−タ抽出部15に入力する。(ステップS
T101、ST102)
【0031】パラメ−タ抽出部15では、入力した音声
信号から音声区間の仮りの始端(第1フレ−ムB1に相
当する位置)と終端(フレ−ムBmに相当する位置)を
定めると共に、音声の特徴を抽出した音声信号Bを出力
する。(ステップST103)
【0032】このように出力された音声信号Bは始端決
定部21に送られ、フレ−ムのシフトと内積の算出によ
って、音声辞書信号Aとの関係で内積が最大となるシフ
ト状態が検出され、このシフト状態より音声区間の始端
(フレ−ムB4)を決定する。(ステップST104、
ST105)
【0033】その後は、音声信号Bの各スペクトラム信
号が比較部17によって音声辞書信号Aの各スペクトラ
ム信号と比較され、その一致度の判定が行なわれ、一致
度が高いときに音声認識信号20が出力される。(ステ
ップST106、ST107)
【0034】以上本発明の一実施例について説明した
が、音声信号Bをシフトさせるに当っては、必ずしも音
声辞書信号Aの第1フレ−ムA1より行なう必要がな
い。これら信号A、Bが整合するフレ−ムのシフト位置
は大体に想定することができるから、音声辞書信号Aの
適度なフレ−ム位置よりシフトを開始させる構成とし、
シフトと内積の算出に要する時間を短縮させることがで
きる。
【0035】また、音声信号Bを音声辞書信号Aのフレ
−ムA1からフレ−ムAnに向かってシフトさせる実施
例について説明したが、この逆にフレ−ムAnからフレ
−ムA1に向かってシフトさせても同様に実施すること
ができる。
【0036】
【発明の効果】上記した通り、本発明に係る音声認識装
置は、初期部分に雑音がある音声が入力された場合で
も、雑音信号を除いた実音声信号が音声辞書信号と比較
されるため、音声信号の時間ずれがなく、マツチングが
正確となり、安定した音声認識を行なう音声認識装置と
なる。
【0037】また、本発明は従来の音声認識装置に始端
決定手段のみを備えて実施できるので、実用化に優れた
音声認識装置となる。
【図面の簡単な説明】
【図1】本発明の一実施例を示した音声認識装置のブロ
ック図である。
【図2】図2(A)は音声辞書信号のフレ−ム化を説明
するための波形図である。図2(B)は入力される音声
の音声信号のフレ−ム化を説明するための波形図であ
る。
【図3】音声区間の始端を決定する動作を説明するため
の波形図である。
【図4】始端決定部の動作を説明するためのフロ−チャ
−トである。
【図5】上記実施例の音声認識装置の動作を示したフロ
−チャ−トである。
【図6】従来例として示した音声認識装置のブロツク図
である。
【図7】パラメ−タ抽出部の出力信号形成を示す図であ
る。
【図8】従来の音声認識装置で行なわれる音声信号と音
声辞書信号のマッチングを説明するための波形図であ
る。
【符号の説明】
11 マイクロフォン 12 増幅器 13 音声帯域フィルタ 14 A/D変換器 15 パラメ−タ抽出部 16 辞書作成部 17 比較部 18 CPU 19 登録部メモリ 20 音声認識信号 21 音声区間の始端決定部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声信号を所定の音声区間で
    検出し、音声区間の音声信号より抽出したパラメ−タと
    予め登録された音声辞書信号とをマッチングさせて音声
    認識する音声認識装置において、音声辞書信号を同じ時
    間間隔で細分化して多数のフレ−ムとし、音声辞書信号
    に対し音声信号をフレ−ムの順序に沿って順次シフトす
    る手段と、シフト毎に両信号レベルから内積を求め、内
    積が最大となるシフト状態を検出する手段と、検出され
    たシフト状態で音声辞書信号の開始点に合わせた音声信
    号の開始点を決定する手段とからなる音声区間の始端決
    定手段を設け、音声信号のパラメ−タを上記した開始点
    より音声辞書信号とマッチングさせて音声認識する構成
    としたことを特徴とする音声認識装置。
JP5025964A 1993-01-22 1993-01-22 音声認識装置 Pending JPH06222788A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5025964A JPH06222788A (ja) 1993-01-22 1993-01-22 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5025964A JPH06222788A (ja) 1993-01-22 1993-01-22 音声認識装置

Publications (1)

Publication Number Publication Date
JPH06222788A true JPH06222788A (ja) 1994-08-12

Family

ID=12180424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5025964A Pending JPH06222788A (ja) 1993-01-22 1993-01-22 音声認識装置

Country Status (1)

Country Link
JP (1) JPH06222788A (ja)

Similar Documents

Publication Publication Date Title
JPH06222788A (ja) 音声認識装置
JP3360978B2 (ja) 音声認識装置
JP2589468B2 (ja) 音声認識装置
JP3458285B2 (ja) 音声認識装置
JPH04324499A (ja) 音声認識装置
JP2989231B2 (ja) 音声認識装置
JPS62159195A (ja) 音声パタン作成方法
JPS62141595A (ja) 音声検出方式
JPH05181498A (ja) パターン認識装置
JP2003241792A (ja) 音声認識装置及び方法
JPH06130983A (ja) 音声認識機構の音声区間検出装置
JP2003241791A (ja) 音声認識装置及び方法
JPS625298A (ja) 音声認識装置
JPH05224694A (ja) 音声認識装置
JP2004117724A (ja) 音声認識装置
JPH02178699A (ja) 音声認識装置
JP3063856B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JPS63316097A (ja) 連続音声認識装置
JP2844592B2 (ja) 離散単語音声認識装置
JPS62113197A (ja) 音声認識装置
JPS6148720B2 (ja)
JPS59211098A (ja) 音声認識装置
JPS58159590A (ja) 単音節音声認識方式
JPS59204895A (ja) 音声認識装置
JPS58159599A (ja) 単音節音声認識方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000307