JP2617527B2

JP2617527B2 - 音声認識装置

Info

Publication number: JP2617527B2
Application number: JP63176754A
Authority: JP
Inventors: 普太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-07-16
Filing date: 1988-07-15
Publication date: 1997-06-04
Anticipated expiration: 2012-06-04
Also published as: JPH01112299A

Description

【発明の詳細な説明】〔目次〕概要産業上の利用分野従来の技術（第25図、第26図）発明が解決しようとする課題課題を解決するための手段（第１図）作用実施例（第２図〜第24図）（１）第１実施例（２）第２実施例（３）第３実施例（４）第４実施例発明の効果〔概要〕音声認識装置に関し、不要な音声入力があってもその後に正しい音声を入力
することにより不要な音声入力に対して認識処理を行わ
ないようにすることを目的とし、入力音声を分析して特徴部分を抽出し辞書との比較に
よって認識を行う音声認識装置において、入力音声を一
旦記憶保持する保持手段と、この保持手段に記憶された
音声を認識することを指示する認識指示手段と、前記保
持手段に記憶された音声から島領域を抽出する音声区間
検出手段を設け、認識すべき音声を入力して前記認識指
示手段を操作したときその操作の直前の音声入力部分で
ある島領域を抽出して認識するようにしたものである。

〔産業上の利用分野〕

この発明は音声認識装置に係り、特に音声により文書
を直接入力するとき、咳などの不所望な入力を認識対象
範囲外とすることができるようにしたものに関する。

音声を単音節、単語、文節あるいは文章単位に区切っ
て入力する音声認識装置では、音声入力の区切りの直後
に認識結果の最有力候補を一つ表示出力し、次に認識結
果の候補選択あるいは同音異義語の選択をする必要があ
り、また、他の人との会話、咳あるいは周囲の雑音など
文書作成に不要な音がマイクに入らないようにする必要
があり、このようなことが実現できる音声認識装置が要
望されている。

〔従来の技術〕

例えば音声入力文書作成装置における音声認識装置に
おいて、音声を単音節、単語、文節あるいは文章単位に
区切って入力するために、従来では、第25図に示すよう
に、マニアル操作するスイッチを用いていた。

第25図において、61は入力部であり、マイクからの音
声入力を受けて必要な強さにまで増幅し、デジタル信号
に変換する。

62は音声区間検出部であり、音声入力の区切りによっ
て、単音節、単語、文節あるいは文章単位を検出する。
63は認識部であり、図示省略した辞書を参照して、音声
入力信号を認識する。64は候補選択・同音異義選択部で
あり、最初の認識の結果が同音異義語であり、目的とす
るものでなかった時に、他の候補を選択するものであ
る。

65は表示部であり、認識部63の認識結果、あるいは、
候補選択・同音異義選択部で選択された他候補を表示す
る。スイッチSW1、SW2、SW3は操作者が操作するマニア
ルスイッチである。SW1は音声入力モード切換スイッチ
であり、他の人との会話、咳あるいは周囲の雑音など文
書作成に不要な音がマイクから入らないように、音声を
入力できる音声入力モードと音声を入力できない音声非
入力モードとに切換えるスイッチである。SW2は、候補
選択・同音異義選択スイッチであり、認識された結果が
目的のものでなかった場合に、このスイッチを押下でけ
他候補を表示させるためのものであり、SW3は言い間違
いや咳等により、不所望の入力を行った時にその入力を
取消すためのものである。

第26図は、第25図に示す従来例の音声入力文書作成装
置の動作説明のための流れ図である。

図に示すとおり、第１の音声入力がなされると、音声
区間検出部62は、その区切りによって、区間検出を行
い、認識部63において辞書と比較して認識を行う。その
認識結果を表示部65に表示する。この認識結果を見て、
それが正しければさらに第２の音声入力を行う。する
と、先の認識結果を正しいものとして、次の第２の音声
入力の認識処理に入る。

もし、第１の音声入力の結果の認識が正しくない場合
には、候補選択・同音異義選択スイッチSW2を押下げ
る。これにより、新しい候補が表示されるので、これが
所望のものであれば、次の音声入力を行う。

〔発明が解決しようとする課題〕

ところが、このような従来例では、音声入力モードの
場合、常に音声区間検出処理を行っているため、余計な
おしゃべりや周囲の雑音などは許されなく、発声者に過
度の緊張感を与えてしまうという問題点を有している。

また、発声の度に認識結果の候補選択スイッチを押し
たり、押さなかったりするため発声タイミングが一定せ
ずマン・マシン・インターフェースの観点から操作性お
よび使用感が良くないという問題点を有している。ま
た、単語や文節などの発声単位毎に明確に区切って発声
するのは非常に困難なことであり、次々に音声入力を続
けると発声が段々速くなってしまいついには、２つの発
声単位が連続してしまい、誤認識の原因となることがあ
る等の問題点を有している。

この発明は、このような点に鑑みてなされたものであ
り、スイッチの操作の必要が少なく、また、雑音、発音
誤り等を気にせずに入力作業ができる音声認識装置を提
供することを目的とする。

〔課題を解決するための手段〕

第１図は、この発明の原理図であり、図において、１
はマイク、２は入力部、３はバッファ、４は島領域を抽
出する音声区間検出部、10は認識・候補選択部、８は表
示部、SWは候補選択スイッチである。

発声された音声はマイク１において電気信号に変換さ
れ、入力部２において分析され、その後一時的にバッフ
ァ３に格納される。バッファ３の容量は、最小限入力さ
れる音声の最大長のものが記憶される容量が必要であ
る。島領域を抽出する音声区間検出部４では、候補選択
スイッチSWが押された時点でバッファのデータを参照
し、現時点に最も近い音声区間部分を検出する。認識・
候補選択部10では、この現時点に最も近い音声区間部分
の認識を行い、また、その認識結果の候補から、正しい
結果を選択する。認識の結果は表示部８に表示し、この
表示を見ながら正しい結果を選択する。バッファはリン
グバッファを構成しており、古いデータは新しいデータ
に順次置き換えられる。

〔作用〕

この発明では、入力部２の後に、バッファ３を設け、
音声入力を一旦バッファ３内に保持するように構成し、
かつ、候補選択スイッチSWを押下げたときに、バッファ
３内に保持された音節、文節或いは文章のうち現時点に
最も近い音節、文節或いは文章のみの認識を行うように
しているので、音声入力が雑音や発音誤り或いは余計な
お喋りでないことを確認した後、必要な音節、文節或い
は文章のみの認識を行わせることが可能となる。

〔実施例〕

（１）第１実施例本発明の第１実施例を第２図〜第６図にもとづき説明
する。

第２図は本発明を使用した文書作成装置の要部構成
図、第３図は音声区間検出部の構成例、第４図は音声パ
ワー曲線図、第５図は第１実施例の動作説明図、第６図
は従来例と第１実施例の操作比較図である。

第２図において、第１図の原理図と同じ部分には、同
じ番号を付与してあるので、その部分についての詳細な
説明は省略する。この実施例においては、認識部６、候
補選択・同音異義選択部７を各々別に設けている外、音
声区間検出部４を第３図に示すように、パワー計算部3
1、島検出部32、メモリ33、判定部34によって構成して
いる。

第３図において、パワー計算部31は、バッファ３に記
憶された音声のパワーを計算する部分であり、その出力
には第４図に示すように、時間に応じた音声パワー曲線
が得られる。

島検出部32は、第４図に示す音声パワー曲線のうち、
所定の閾値P₁以上の領域ａ、ｂ、ｃを検出する部分であ
る。この領域ａ、ｂ、ｃは、島領域と呼ばれ、何らかの
音声入力があった個所に対応している。

メモリ32は、島検出部32で検出された各島領域のスタ
ートとエンド時間をそれぞれ記憶している。例えば、島
領域ａのスタートS₁とエンドE₁（以下ａ（S₁、E₁）と略
記する）、ｂ（S₂、E₂）、ｃ（S₃、E₃）をそれぞれ記憶
しておく。

判定部34は、音声パワー曲線で示される音声入力か
ら、１つの入力単位である単音節、文節或いは文章等の
音声区間を判定し、さらに、この発明に従ってスイッチ
SW押下げ時点に最も近い音声区間を判定する。例えば、
時刻t₂において、スイッチSWを押下げるものとする。島
領域ａ、ｂ、ｃに間隔l₁、l₂が共に予じめ決められた閾
値Thlより大のときは、各島領域ａ、ｂ、ｃはそれぞれ
独立した音声区間であると判定し、スイッチSW押下げ時
点t₂に最も近い島領域である音声区間ｃのみを認識すべ
き音声区間として、認識部６に送る。l₁、l₂が、共に閾
値THlより小の時は、島領域ａ、ｂ、ｃを合わせた領域
（ａ＋ｂ＋ｃ）を１つの音声区間と判定し、しかも、こ
れがスイッチSW押下げ時点t₂に最も近いことが明らかで
あるから、この音声区間（ａ＋ｂ＋ｃ）を認識すべき音
声区間として認識部６に送る。また、l₂が閾値Thlより
小で、l₁が閾値Thlより大のときは、音声区間は島領域
ａと島領域（ｂ＋ｃ）であると判定され、さらに時刻t₂
に最も近い領域（ｂ＋ｃ）が、認識すべき音声区間とし
て判定されて、そのアドレス情報が認識部６に送られ
る。この音声区間情報にもとづき、バッファ３より必要
な領域を読出し、認識する。

次に、この発明の動作を第５図の動作流れ図を参照し
ながら説明する。

この発明では、マイク１からの音声の入力直後には、
認識結果の最有力候補を表示せずに、音声入力を入力部
２で分析し、それを一旦バッファ３に記憶しておき、バ
ッファ３への蓄積完了の表示のみを表示部８にて行う。
即ち、第５図の動作流れ図を参照して、動作を説明する
と、音声入力がなされ（ステップ１）、完了するとその
旨を表示する（ステップ２）。この表示は、例えば表示
部８における＊印のブリンク等で良い。

次にスイッチSWが押下げられると、音声区間検出部４
にて、最新の音声区間の検出が行われることになる（ス
テップ４）が、スイッチSWが押下げられないで再び音声
入力があると、ステップ４には進めず、始めのステップ
１に戻る。従って、例えば、始めに誤って発音した場合
或いは咳ばらいをした場合等には、スイッチSWを押下げ
ることなく、音声区間の判定に十分なだけの時間をあけ
て、その後に正しい発音で音声を入力すれば良い。第４
図において、誤入力の音声区間ａ、ｂの後に、正しい音
声を入力すると、これは音声区間ｃとなってバッファ３
に記憶されることとなるので、ここでスイッチSWを押下
げると、音声区間検出部４においてこの時点での最新の
音声区間であるｃを認識部６に送ることとなる。認識部
６はこの音声区間情報によりバッファ３より音声区間を
読出し認識を行う。なお、単一の音声のみが入力された
後、直ちに、スイッチSWが押下げられたときには、その
単一の音声が、認識部６に送られ、認識されることはい
うまでもない。なお、バッファ３がいっぱいになった時
には、次々に古い入力音声データから順に書きかえれば
良い。

認識部６に送られた音声は、辞書と比較され、最優先
候補から出力される（ステップ５）。そして、その結果
が表示部８に表示される（ステップ６）。この結果の表
示をみて、それが、正しいものであるときには、次の音
声入力を行うと（ステップ７）、ステップ１に戻ること
になる。結果が同音ではあるが異義語であって、所望の
ものでなかったときには、スイッチSWを押下げる。する
と、次の候補が表示されることになる（ステップ８、ス
テップ６）。

この操作を繰り返し、自分の望んでいる結果が得られ
た時に、スイッチSWを押下げることなく、次の音声入力
を行えば、ステップ１に戻り、次の音声の入力処理に移
行することとなる。

この発明によれば、音声入力後直に認識を行い、その
認識結果を表示せずに、一旦音声入力をバッファに入力
し、スイッチ操作をした時点での最新の音声区間のみを
認識部に送り、認識を行うこととしているので、誤発声
等をしたときには、その後、所定の時間経過後に正しい
音声入力をし、スイッチを押すことで正しい音声のみを
認識させることができる。このため、誤発声のみでなく
雑音や咳ばらい等にこだわることなく、入力できる。ま
た、単語や文節等発声単位毎のスイッチ操作によって入
力に一定のタイミングを与えることができ、発声単位毎
に明確に区切って発声し易くなるため、２つの発声単位
が結合してしまうこともなく、このための誤認識がなく
なる。

また、使用者は、雑音や発音誤りなどは無視して、と
にかく正しい発声をした直後にスイッチを操作するのみ
で良く、操作も簡単である。

第６図に本発明と従来例の操作を比較して示してある
ように、発声１、発声２を入力する場合で、途中に雑
音、発声誤り、咳ばらいがあった時には、本発明のスイ
ッチ操作が、きわめて少なくて良いことがわかる。従っ
てこのような音声入力認識装置により文書作成を行え
ば、正確に音声入力文書作成を行うことができる。

（２）第２実施例本発明の第２実施例を第７図および第８図により説明
する。第７図は第２実施例の原理説明図であり第８図は
その実施例構成図である。第７図、第８図において第１
図〜第２図と同一部分には同一記号を付与している。

SW1は音声区間検出指示用のスイッチ、SW2は候補選択
用のスイッチ、SW3は削除用のスイッチである。

発声された音声はマイク１において電気信号に変換さ
れ、入力部２においてデジタル変換され、その後一時的
にバッファ３に格納される。バッファ３の容量は、最小
限入力される音声の最大長のものが記憶される容量が必
要である。音声区間検出部４では、スイッチSW1が押さ
れた時点でバッファのデータを参照し、現時点に最も近
い音声区間部分を検出する。認識・候補選択部10では、
この現時点に最も近い音声区間部分の認識を行い、ま
た、その認識結果の候補から、正しい結果を選択する。
認識の結果は表示部８に表示し、この表示をみながら正
しい結果を選択する。

ここでスイッチSW1は発声直後に音声区間の切り出し
を指示するためのものであり、スイッチSW2は認識結果
の候補選択または同音異義選択を行うためのものであ
り、スイッチSW3は誤った認識結果を削除するためのも
のである。

（３）第３実施例第９図に示す本発明の第３実施例では、第８図に示す
第２実施例において、スイッチSW1とSW2を共通化してSW
1としたものであり、煩雑なスイッチ操作を簡単化して
いる。すなわち単一の音声のみが入力された後、直ちに
スイッチSW1が押下げられたとき音声がバッファ３内に
あるため音声区間検出部４により音声区間が検出され認
識が開始されるので、このとき認識結果の候補はまだな
いので認識候補の選択処理は行われない。また音声な発
声がなく認識結果候補のみがありその選択をスイッチSW
1で行うときは、バッファ３内に音声がないため音声区
間検出部４は動作せず候補の選択のみが行われる。この
ような理由によりスイッチSW1とSW2の共通化を行うこと
ができる。

（４）第４実施例第10図に示す本発明の第４実施例は、第９図に示す第
３実施例とほぼ同じであるが、スイッチSW1により候補
選択を行っているときに、入力部２′の動作を一時的に
停止する機能を付加したところが異なる。

各実施例において各構成要素で異なるのは、入力部で
ある。第１実施例〜第３実施例の入力部２は同じもので
あり、その内部構成を第11図に示す。第４実施例の入力
部２′は他のものと異なり、その内部構成を第12図に示
す。

第11図において、マイクより入力された音声信号はア
ナログフィルタ20に入力される。アナログフィルタ20
は、次段のサンプルホールド21でのサンプリング周波数
の半分の周波数より若干低いカットオフ周波数を持つロ
ーパスフィルタである。サンプルホールド21では、次段
のAD変換より供給されるクロックに従って、アナログフ
ィルタ20を通過した音声信号の時間軸を量子化する。AD
変換22では、時間軸量子化された音声信号の振幅を量子
化し、音声デジタル信号の時系列Djをそのクロックck1
と共に次段に出力し、またサンプルホールドに必要なク
ロックをサンプルホールド21に出力する。クロック23
は、AD変換22に必要なクロックを水晶発振子などにより
生成する。

第12図において、20、21、22、23の構成要素は第11図
と同じである。ただし、24、25、及び26の構成要素によ
りスイッチSW1からの信号により、一定時間だけAD変換2
2へのクロックの入力を停止している。24はトリガ回路
であり、ワンショトトリガ回路で実現されている。25は
NOT回路である。26はAND回路であり、NOT回路25の出力
が１の時のみAD変換用クロックをAD変換22に供給するゲ
ートの役割を果たす。

第13図に第12図の回路図の信号タイミング図を示す。
まず、スイッチSW1からの信号ｘがトリガ24に入力され
ると、トリガ24では数秒幅のパルス信号ｙを発生する。
この数秒間において入力部の動作が停止することにな
る。この数秒幅のパルスの否定ｚがNOT回路25で得ら
れ、ゲート回路であるAND回路26に供給される。ゲート
されたAD変換用クロックｗと各信号の関係を第13図に示
す。

第14図はバッファの構成を説明する図である。入力部
からのDjはそのまま音声区間検出部へ転送されるととも
にメモリ部301の書き込みデータとして供給される。ま
た入力部からのclkはそのまま音声区間検出部へ転送さ
れるとともにカウンタ300のカウントアップクロックと
して供給される。カウンタ300はメモリ部301の書き込み
アドレスをカウントする。一方アドレス制御部302は認
識部よりiss、iee、stb2を得ている。アドレス制御部30
2はstb2信号が１になった直後からissからieeにいたる
アドレスをクロックclkdと共に順次発生する。発生した
アドレスはメモリ部301の読み出しアドレスとして使わ
れる。メモリ部301から読み出されたデータDkおよびclk
dは認識部６へ送られる認識に用いられる。

第15図は音声区間検出部４を説明する図であり、各実
施例で共通のものである。まず、パワー計算部40におい
てバッファから読み出されたデジタル音声信号の数ミリ
秒毎のパワー計算が行われ、得られたパワー時系列を一
時記憶する。島検出部41ではスイッチSW1からの音声区
間検出指示に従って、パワー時系列をパワー計算部40か
ら読み出して、島の検出を行う。判定部42では得られた
各島の間隔を判定し、最終的な音声区間を決定する。

第16図はパワー計算部40の内部構成を説明する図であ
り、全実施例に共通するものである。パワー計算部で
は、バッファから読み出したｎ個の音声デジタルデータ
の二乗値を累積し、その累積値を音声パワーとする。入
力部２または２′から得られ、バッファ３に記憶された
音声デジタルデータDjは二乗ROM（400）のアドレス部に
入力される。二乗ROMの各アドレスにはアドレス値の二
乗の値が記憶されているため、ROM（400）の出力データ
としては音声デジタルデータの二乗が得られる。加算器
402およびセレクタ403は累算器を構成しており、二乗RO
M（400）で得られた音声デジタルデータの二乗値の累積
を行う。累積値は対数値ROM（404）のアドレスに供給さ
れる。累積値の対数値がROM（404）のデータとして得ら
れる。対数値データは一時メモリ（406）に順次記憶さ
れる。一時記憶されたデータPiは、島検出部41からアド
レスｉが指定され読み出される。バッファ３から得られ
るクロックck1は、クロック分周部401に入力され、その
周波数が1/nに分周される。

第17図にバッファ３からのクロックck1と分周されク
ロックck2の関係を示す。分周されたクロックck2は、ま
ず累積器のクリアのために用いられる。すなわちセレク
タ403が加算器402の出力の累積値を選択せずに設定値０
を選択するための信号として供給される。また、クロッ
クck2は、一時メモリのアドレスを決定するカウンタの
クロックとして用いられるとともに、一時メモリの書き
込み信号としても用いられる。

次に第18図、第19図および第20図を用いて島検出部41
の機能および構成を説明する。

第18図は、島検出の原理を説明する図であり、パワー
計算部40内の一時メモリ406の内容を示している。第18
図において、横軸はアドレスｉを示しており、縦軸はデ
ータPiを示している。アドレスｉは音声の時間軸に対応
している。島検出部41では、データPiが連続して大きい
部分（島）を以下のような方式で検出する。閾値Pth1お
よびPth2（＜Pth1）が予め与えられている。まず、Pth2
より大きい部分（）を暫定島とする。こうするこ
とによりイの部分は雑音部分として除去される。暫定島
から両側にPth2を下回る直前まで検索を行う。検
索の結果、アの部分とウの部分が島として得られる。以
上述べた方式は、一時メモリの内容（Pi）をランダムに
アクセスするためハードウエア向きではない。一時メモ
リの内容（Pi）をシーケンシャルにアクセスする等価な
方式を次に説明する。

まず、 Pi≦Pth2という事象をα、 Pth2＜Pi≦Pth1という事象をβ、 Pth1＜Piという事象をγ、と定義する。

次に第19図に示すように、４つの状態S0、S1、S2、S3
を考える。Piのアクセスは本方式ではｉの大きいほうか
ら小さいほうへシーケンシャルに行うとする。第19図
で、まずスタート時点では、状態S0に入る。順次ｉを減
らしPiに関する事象α、βおよびγが発生する度に状態
遷移を繰り返す。状態遷移のアークに処理内容が付与さ
れている場合はその処理を同時に行うものとする。以
下、第18図のパワーデータの例で状態遷移図を説明す
る。

第18図の＊印の点から前に向かって処理を行う。本発
明では、スイッチSW1がこの時点で押されたと考える。
状態はまずS0に入る。＊印の点ではPiはPth2より小さい
ためこの場合の事象はαである。すなわち状態はS0にと
どまる。ｉを減らしていくと事象βが発生し、状態はS0
からS1に遷移する。このときのｉをSTMPという内部変数
に一時的に記憶する。しばらくβの区間が続くため状態
はS1にとどまる。次に事象γが発生し、状態はS3に遷移
する。このとき先に記憶したSTMPの内容を内部記憶SRに
記憶する。そのあと暫くγの区間が続き（の暫定島の
部分）、状態はS3にとどまる。次に事象βが発生し、状
態はS2に遷移する。次にγが発生し状態はS3に戻る（
の暫定島の部分）。そのあとでまた事象βが発生し、状
態がS2に遷移し、さらに事象αが発生し、状態がS0に戻
る。ここでｉの値を内部変数ERに記憶する。この時点で
SRとERには島（ア）の両端のアドレスが得られる。さら
に進むと事象βが発生し、状態がS1に遷移し、ｉの値が
STMPに記憶される（イの部分）。しかし、次に事象αが
発生するため状態がS0に戻ってしまうため、島（イ）を
求めるには到らない。暫定島、島（ウ）の部分につい
ても同様に処理が続く。

第20図は、以上説明した島検出方式を実現したハード
ウェア構成図である。

第20図において、4111はクロック発生器であり、スイ
ッチSW1が押された瞬間からクロックが発生する。4112
はカウンタであり、SW1が押された瞬間にパワー計算部4
0の内部のカウンタ405の値ｉ′が初期値としてロードさ
れ、クロック発生器4111のクロックに従ってダウンカウ
ントされる。カウンタ4112の値は第18図横軸のｉの値を
示し、＊印の点から始まって次第に小さくなる。この値
ｉによりパワー計算部40の一時メモリ406の内容Piを順
番に読み出し、比較器4100のB0、および4101のB1に供給
する。比較器4100のA0には閾値Pth2が供給され、Piとの
比較が行われる。比較器4010のA1には閾値Pth1が供給さ
れPiとの比較が行われる。比較器4100のB0≦A0の出力
は、事象αに対応する。比較器4101のB1＞A1の出力は、
事象γに対応する。AND回路4102では、比較器4100のB0
＞A0の出力と比較器4101のB1≦A1の出力の論理積が演算
され、すなわち事象βに対応する出力が得られる。ここ
で、α、βおよびγが同時に１になることはない。

4103および4104はフリップフロップであり、表１のよ
うに状態のS0〜S3を記憶するために使われる。

4105、4106、4107、4108、4109、及び4110の各要素に
より第19図の状態遷移を実現している。

4103及び4104はスイッチSW1からパルスがきた時にま
ずリセットされ（図中には図示していない）、状態がS0
となる。状態遷移図より、事象αが発生した時にはどの
状態からも必ずS0に遷移するため、αはOR回路4108を通
して4103のリセット入力に接続されるとともに、4104の
リセット入力に接続されている。状態遷移図より、γが
１の時にはどの状態からも必ずS3に遷移するため、γは
4104のセット入力に接続されるとともに、OR回路4107を
通して4103のセット入力に接続されている。また、状態
S0においてβが１になった時はS1に遷移するため、まず
AND回路4109で現在の状態S0を検出し、さらにβと4109
の出力の論理積をAND回路4105で検出し、AND回路4105の
出力でOR回路4107を通して4103をセットする。これによ
りS0からS1への遷移を実現している。また、状態S3にお
いてβが１になった時は状態S2に遷移するため、AND回
路4110で現在の状態S3を検出し、さらにβと4110の出力
の論理積をAND回路4106で検出し、AND回路4106の出力で
OR回路4108を通して4103をリセットする。これにより状
態S3から状態S2への遷移を実現している。

4113、4114、4117、4119及び4121は３入力のAND回路
であり、各々状態遷移図第19図の〜の遷移を検出し
ている。

AND回路4113は遷移を検出し、AND回路4114は遷移
を検出する。またはの遷移をOR回路4115で検出す
る。またはの遷移が検出された場合は、ｉの値をレ
ジスタ4116（ER）に記憶する。AND回路4117は遷移を
検出する。が検出された場合は、ｉの値をレジスタ41
18（STMP）に記憶する。AND回路4119は遷移を検出す
る。が検出された場合は、セレクタ4120によりレジス
タ（STMP）の内容を選択し、それをレジスタ4123（SR）
に記憶する。AND回路4121は遷移を検出する。が検
出された場合は、セレクタ4120によりｉの値を選択し、
それをレジスタ4123（SR）に記憶する。OR回路4122はAN
D回路4119または4121の出力をフリップフロップ4123に
供給する。フリップフロップ4123はスイッチSW1の信号
によりリセットされ、OR回路4122の出力によりセットさ
れる。4123の出力はワンショットトリガ4124に接続され
ている。4123及び4124によりスイッチSW1が押される直
前の4122の出力の一回のみがレジスタ4125の書き込み信
号となる。

各部の信号clk、stb及びレジスタの値ER、及びSRを次
段の判定部42に供給する。

第21図は判定部の内部構成である。420はカウンタで
あり、島検出部41のclk信号でカウントアップされ、stb
信号とie信号の論理和でクリアされる。stb信号とie信
号の論理和はOR回路424で演算される。カウンタ420は一
つの島の終点が検出されてから次の島の始点までの長さ
（第18図のｌφ）をカウントすることになる。この長さ
がTHl以上になった場合に比較器421の出力が１となる。
ただし、一つの島の終点が検出される以前に比較器421
の不要な出力が認識部６へのstb1信号（ストローブ信
号）として出力されないように、フリップフロップ425
とAND回路426が設けられている。フリップフロップ425
はスイッチSW1からの信号でリセットされ、ie信号（島
の検出信号）でセットされる。すなわちフリップフロッ
プ425の出力は少なくとも一つの島を検出していること
を示す。AND回路425はフリップフロップ425の出力によ
り、比較器421の出力をゲートしている。

乗算器422はSRの値を、間引く前のアドレスに戻すた
めｎ倍することにより一時メモリ406のアドレスをバッ
ファ３のアドレスに変換し、それをisrとして認識部６
に送る。同様に乗算器423はERの値をｎ倍することによ
り一時メモリ406のアドレスをバッファ３のアドレスに
変換し、それをierとして認識部６に送る。ierはバッフ
ァ３内の音声の始点アドレスであり、isrはバッファ３
内の音声の終点アドレスである。

認識部６はstb1が１に成ったときにisr及びierを取り
込み認識を開始する。

第22図は認識部６の内部構成を示した図である。

音声区間検出部４からのisr、ier、stb1は各々iee、i
ss、stb2としてそのままバッファ部３へ転送される。ie
e、iss、stb2k各信号によりバッファ部３から読み出さ
れた音声データDk及びクロックclkdは音声認識ユニット
600へ転送される。音声認識ユニット600では音声データ
Dkを認識する。音声認識ユニット600では認識時に音声
テンプレヒトメモリ601に記憶された音声テンプレート
を参照する。音声認識ユニット600で得られた認識結果
は１位から数位までの候補として得られる。認識結果の
候補は、候補選択・同音異義選択部７へ転送される。

次に、この発明の第２実施例の動作を第23図の動作流
れ図を参照しながら説明する。

この発明では、マイク１からの音声の入力直後には、
認識結果の最有力候補を表示せずに、音声入力を入力部
２でデジタル変換し、それを一旦バッファ３に記憶して
おき、バッファ３への蓄積完了の表示のみを表示部８に
て行う。即ち、第５図の動作流れ図を参照して、動作を
説明すると、音声入力がなされ（ステップ１）、完了す
るとその旨を表示する（ステップ２）。この表示は、例
えば表示部８における＊印のブリンク等で良い。

次にスイッチSW1が押下げられるとき、音声区間検出
部４にて、最新の音声区間の検出が行われることになる
（ステップ４）が、SW1が押下げられないで再び音声入
力があると、ステップ４には進まず、始めのステップ１
に戻る。従って、例えば、始めに誤って発音した場合或
いは咳ばらいをした場合等には、スイッチSW1を押下げ
ることなく、音声区間の判定に十分なだけの時間THlを
あけて、その後に正しい発音で音声を入力すれば良い。
第18図において、誤入力の音声区間（ウ）の後に、正し
い音声を入力すると、これは音声区間（ア）となるの
で、ここでスイッチSW1を押下げると、音声区間検出部
４においてこの時点での最新の音声区間である（ア）を
認識部６に送ることとなる（ｌφ＞THlの場合）。な
お、単一の音声のみが入力された後、直ちに、スイッチ
SW1が押下げられたときには、その単一の音声が、認識
部６に送られ、認識されることはいうまでもない。な
お、バッファ３及び一時メモリ406がいっぱいになった
時には、次々に古い入力音声データから順に書きかえれ
ば良い。

認識部６に送られた音声は、辞書と比較され、最優先
候補から出力される（ステップ５）。そして、その結果
が表示部８に表示される（ステップ６）。この結果の表
示をみて、それが、正しいものであるときには、次の音
声入力を行うと（ステップ７）、ステップ１に戻ること
になる。結果が同音ではあるが異義語であって、所望の
ものでなかったときには、スイッチSW2を押下げる。す
ると、次の候補が表示されることになる（ステップ８、
ステップ６）。

この操作を繰り返し、自分の望んでいる結果が得られ
た時に、スイッチSW2を押下げることなく、次の音声入
力を行えば、ステップ１に戻り、次の音声の入力処理に
移行することとなる。

第24図に本発明と従来例の操作を比較して示してある
ように、発声１、発声２を入力する場合で、途中に雑
音、発声誤り、咳ばらいがあった時には、本発明のスイ
ッチ操作が、きわめて少なくて良いことがわかる。なお
この第24図は客がABC航空株式会社の大阪行×××便の
航空券を申込んだとき、オペレータが一度EFG航空株式
会社と間違えた例を示す。そしてスイッチを操作しない
ことにより、不必要な文言「の」、「発」、「ゆき」、
「EPG」、「失礼しました。」、「便ですね。」、「お
客さまのお名前をどうぞ。」、「様ですね。」、「しば
らくおまちくたさい。」…を認識処理しないように操作
する例を示している。

〔発明の効果〕

この発明によれば、入力音声を一旦記憶する保持手段
に記憶された音声から島領域を抽出する音声区間検出手
段を設け、認識すべき音声を入力して認識指示手段を操
作したときその操作の直前の音声入力部分である島領域
を抽出して認識するようにしているので、誤発声等をし
たときには、その後、所定の時間経過後に正しい音声入
力をし、スイッチを押すことで正しい音声のみを認識さ
せることができる。このため、誤発声のみでなく雑音や
咳ばらい等にこだわることなく、入力できる。また、単
語や文節等発声単位毎のスイッチ操作によって入力に一
定のタイミングを与えることができ、発声単位毎に明確
に区切って発声し易くなるため、２つの発声単位が結合
してしまうこともなく、このための誤認識がなくなる。

【図面の簡単な説明】

第１図は本発明の原理説明図、第２図は本発明の第１実施例構成図、第３図は第１実施例における音声区間検出部の構成例、第４図は音声パワーの曲線図、第５図は第１実施例の動作流れ図、第６図は従来例と本発明の操作比較図、第７図は本発明の第２実施例の原理説明図、第８図は本発明の第２実施例構成図、第９図は本発明の第３実施例構成図、第10図は本発明の第４実施例構成図、第11図は第１実施例〜第３実施例の入力部の構成例、第12図は第４実施例の入力部の構成例、第13図は第４実施例の入力部のタイミング図、第14図はバッファ部の構成例、第15図は音声区間検出部の構成例、第16図はパワー計算部の構成例、第17図はパワー計算部のクロック説明図、第18図は島検出状態説明図、第19図は島検出部の状態遷移図、第20図は島検出部の構成例、第21図は判定部の構成例、第22図は認識部の構成例、第23図は第２実施例の動作説明図、第24図は第２実施例〜第４実施例と従来例との操作比較
図、第25図は従来例構成図、第26図は従来例の動作流れ図である。１……マイク、２……入力部３……バッファ、４……音声区間検出部６……認識部７……候補選択・同音異義選択部８……表示部

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を分析して特徴部分を抽出し辞書
との比較によって認識を行う音声認識装置において、入力音声を一旦記憶保持する保持手段と、この保持手段に記憶された音声を認識することを指示す
る認識指示手段と、前記保持手段に記憶された音声から島領域を抽出する音
声区間検出手段を設け、認識すべき音声を入力して前記
認識指示手段を操作したときその操作の直前の音声入力
部分である島領域を抽出して認識するようにしたことを
特徴とする音声認識装置。
【請求項２】表示手段を設け、前記認識指示手段を操作
してその認識結果を表示させ、正しい入力音声の認識確
認を行うようにしたことを特徴とする請求項１記載の音
声認識装置。
【請求項３】前記表示手段で確認した結果にもとづき文
書を作成するようにしたことを特徴とする請求項２記載
の音声認識装置。
【請求項４】認識指示手段と認識候補の選択手段を共通
にしたことを特徴とする請求項１または２に記載の音声
認識装置。
【請求項５】認識候補選択時に入力部の動作を一時停止
するように構成したことを特徴とする請求項４記載の音
声認識装置。