JP2617527B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2617527B2
JP2617527B2 JP63176754A JP17675488A JP2617527B2 JP 2617527 B2 JP2617527 B2 JP 2617527B2 JP 63176754 A JP63176754 A JP 63176754A JP 17675488 A JP17675488 A JP 17675488A JP 2617527 B2 JP2617527 B2 JP 2617527B2
Authority
JP
Japan
Prior art keywords
voice
recognition
input
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63176754A
Other languages
English (en)
Other versions
JPH01112299A (ja
Inventor
普太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63176754A priority Critical patent/JP2617527B2/ja
Publication of JPH01112299A publication Critical patent/JPH01112299A/ja
Application granted granted Critical
Publication of JP2617527B2 publication Critical patent/JP2617527B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔目次〕 概要 産業上の利用分野 従来の技術(第25図、第26図) 発明が解決しようとする課題 課題を解決するための手段(第1図) 作用 実施例(第2図〜第24図) (1) 第1実施例 (2) 第2実施例 (3) 第3実施例 (4) 第4実施例 発明の効果 〔概要〕 音声認識装置に関し、 不要な音声入力があってもその後に正しい音声を入力
することにより不要な音声入力に対して認識処理を行わ
ないようにすることを目的とし、 入力音声を分析して特徴部分を抽出し辞書との比較に
よって認識を行う音声認識装置において、入力音声を一
旦記憶保持する保持手段と、この保持手段に記憶された
音声を認識することを指示する認識指示手段と、前記保
持手段に記憶された音声から島領域を抽出する音声区間
検出手段を設け、認識すべき音声を入力して前記認識指
示手段を操作したときその操作の直前の音声入力部分で
ある島領域を抽出して認識するようにしたものである。
〔産業上の利用分野〕
この発明は音声認識装置に係り、特に音声により文書
を直接入力するとき、咳などの不所望な入力を認識対象
範囲外とすることができるようにしたものに関する。
音声を単音節、単語、文節あるいは文章単位に区切っ
て入力する音声認識装置では、音声入力の区切りの直後
に認識結果の最有力候補を一つ表示出力し、次に認識結
果の候補選択あるいは同音異義語の選択をする必要があ
り、また、他の人との会話、咳あるいは周囲の雑音など
文書作成に不要な音がマイクに入らないようにする必要
があり、このようなことが実現できる音声認識装置が要
望されている。
〔従来の技術〕
例えば音声入力文書作成装置における音声認識装置に
おいて、音声を単音節、単語、文節あるいは文章単位に
区切って入力するために、従来では、第25図に示すよう
に、マニアル操作するスイッチを用いていた。
第25図において、61は入力部であり、マイクからの音
声入力を受けて必要な強さにまで増幅し、デジタル信号
に変換する。
62は音声区間検出部であり、音声入力の区切りによっ
て、単音節、単語、文節あるいは文章単位を検出する。
63は認識部であり、図示省略した辞書を参照して、音声
入力信号を認識する。64は候補選択・同音異義選択部で
あり、最初の認識の結果が同音異義語であり、目的とす
るものでなかった時に、他の候補を選択するものであ
る。
65は表示部であり、認識部63の認識結果、あるいは、
候補選択・同音異義選択部で選択された他候補を表示す
る。スイッチSW1、SW2、SW3は操作者が操作するマニア
ルスイッチである。SW1は音声入力モード切換スイッチ
であり、他の人との会話、咳あるいは周囲の雑音など文
書作成に不要な音がマイクから入らないように、音声を
入力できる音声入力モードと音声を入力できない音声非
入力モードとに切換えるスイッチである。SW2は、候補
選択・同音異義選択スイッチであり、認識された結果が
目的のものでなかった場合に、このスイッチを押下でけ
他候補を表示させるためのものであり、SW3は言い間違
いや咳等により、不所望の入力を行った時にその入力を
取消すためのものである。
第26図は、第25図に示す従来例の音声入力文書作成装
置の動作説明のための流れ図である。
図に示すとおり、第1の音声入力がなされると、音声
区間検出部62は、その区切りによって、区間検出を行
い、認識部63において辞書と比較して認識を行う。その
認識結果を表示部65に表示する。この認識結果を見て、
それが正しければさらに第2の音声入力を行う。する
と、先の認識結果を正しいものとして、次の第2の音声
入力の認識処理に入る。
もし、第1の音声入力の結果の認識が正しくない場合
には、候補選択・同音異義選択スイッチSW2を押下げ
る。これにより、新しい候補が表示されるので、これが
所望のものであれば、次の音声入力を行う。
〔発明が解決しようとする課題〕
ところが、このような従来例では、音声入力モードの
場合、常に音声区間検出処理を行っているため、余計な
おしゃべりや周囲の雑音などは許されなく、発声者に過
度の緊張感を与えてしまうという問題点を有している。
また、発声の度に認識結果の候補選択スイッチを押し
たり、押さなかったりするため発声タイミングが一定せ
ずマン・マシン・インターフェースの観点から操作性お
よび使用感が良くないという問題点を有している。ま
た、単語や文節などの発声単位毎に明確に区切って発声
するのは非常に困難なことであり、次々に音声入力を続
けると発声が段々速くなってしまいついには、2つの発
声単位が連続してしまい、誤認識の原因となることがあ
る等の問題点を有している。
この発明は、このような点に鑑みてなされたものであ
り、スイッチの操作の必要が少なく、また、雑音、発音
誤り等を気にせずに入力作業ができる音声認識装置を提
供することを目的とする。
〔課題を解決するための手段〕
第1図は、この発明の原理図であり、図において、1
はマイク、2は入力部、3はバッファ、4は島領域を抽
出する音声区間検出部、10は認識・候補選択部、8は表
示部、SWは候補選択スイッチである。
発声された音声はマイク1において電気信号に変換さ
れ、入力部2において分析され、その後一時的にバッフ
ァ3に格納される。バッファ3の容量は、最小限入力さ
れる音声の最大長のものが記憶される容量が必要であ
る。島領域を抽出する音声区間検出部4では、候補選択
スイッチSWが押された時点でバッファのデータを参照
し、現時点に最も近い音声区間部分を検出する。認識・
候補選択部10では、この現時点に最も近い音声区間部分
の認識を行い、また、その認識結果の候補から、正しい
結果を選択する。認識の結果は表示部8に表示し、この
表示を見ながら正しい結果を選択する。バッファはリン
グバッファを構成しており、古いデータは新しいデータ
に順次置き換えられる。
〔作用〕
この発明では、入力部2の後に、バッファ3を設け、
音声入力を一旦バッファ3内に保持するように構成し、
かつ、候補選択スイッチSWを押下げたときに、バッファ
3内に保持された音節、文節或いは文章のうち現時点に
最も近い音節、文節或いは文章のみの認識を行うように
しているので、音声入力が雑音や発音誤り或いは余計な
お喋りでないことを確認した後、必要な音節、文節或い
は文章のみの認識を行わせることが可能となる。
〔実施例〕
(1) 第1実施例 本発明の第1実施例を第2図〜第6図にもとづき説明
する。
第2図は本発明を使用した文書作成装置の要部構成
図、第3図は音声区間検出部の構成例、第4図は音声パ
ワー曲線図、第5図は第1実施例の動作説明図、第6図
は従来例と第1実施例の操作比較図である。
第2図において、第1図の原理図と同じ部分には、同
じ番号を付与してあるので、その部分についての詳細な
説明は省略する。この実施例においては、認識部6、候
補選択・同音異義選択部7を各々別に設けている外、音
声区間検出部4を第3図に示すように、パワー計算部3
1、島検出部32、メモリ33、判定部34によって構成して
いる。
第3図において、パワー計算部31は、バッファ3に記
憶された音声のパワーを計算する部分であり、その出力
には第4図に示すように、時間に応じた音声パワー曲線
が得られる。
島検出部32は、第4図に示す音声パワー曲線のうち、
所定の閾値P1以上の領域a、b、cを検出する部分であ
る。この領域a、b、cは、島領域と呼ばれ、何らかの
音声入力があった個所に対応している。
メモリ32は、島検出部32で検出された各島領域のスタ
ートとエンド時間をそれぞれ記憶している。例えば、島
領域aのスタートS1とエンドE1(以下a(S1、E1)と略
記する)、b(S2、E2)、c(S3、E3)をそれぞれ記憶
しておく。
判定部34は、音声パワー曲線で示される音声入力か
ら、1つの入力単位である単音節、文節或いは文章等の
音声区間を判定し、さらに、この発明に従ってスイッチ
SW押下げ時点に最も近い音声区間を判定する。例えば、
時刻t2において、スイッチSWを押下げるものとする。島
領域a、b、cに間隔l1、l2が共に予じめ決められた閾
値Thlより大のときは、各島領域a、b、cはそれぞれ
独立した音声区間であると判定し、スイッチSW押下げ時
点t2に最も近い島領域である音声区間cのみを認識すべ
き音声区間として、認識部6に送る。l1、l2が、共に閾
値THlより小の時は、島領域a、b、cを合わせた領域
(a+b+c)を1つの音声区間と判定し、しかも、こ
れがスイッチSW押下げ時点t2に最も近いことが明らかで
あるから、この音声区間(a+b+c)を認識すべき音
声区間として認識部6に送る。また、l2が閾値Thlより
小で、l1が閾値Thlより大のときは、音声区間は島領域
aと島領域(b+c)であると判定され、さらに時刻t2
に最も近い領域(b+c)が、認識すべき音声区間とし
て判定されて、そのアドレス情報が認識部6に送られ
る。この音声区間情報にもとづき、バッファ3より必要
な領域を読出し、認識する。
次に、この発明の動作を第5図の動作流れ図を参照し
ながら説明する。
この発明では、マイク1からの音声の入力直後には、
認識結果の最有力候補を表示せずに、音声入力を入力部
2で分析し、それを一旦バッファ3に記憶しておき、バ
ッファ3への蓄積完了の表示のみを表示部8にて行う。
即ち、第5図の動作流れ図を参照して、動作を説明する
と、音声入力がなされ(ステップ1)、完了するとその
旨を表示する(ステップ2)。この表示は、例えば表示
部8における*印のブリンク等で良い。
次にスイッチSWが押下げられると、音声区間検出部4
にて、最新の音声区間の検出が行われることになる(ス
テップ4)が、スイッチSWが押下げられないで再び音声
入力があると、ステップ4には進めず、始めのステップ
1に戻る。従って、例えば、始めに誤って発音した場合
或いは咳ばらいをした場合等には、スイッチSWを押下げ
ることなく、音声区間の判定に十分なだけの時間をあけ
て、その後に正しい発音で音声を入力すれば良い。第4
図において、誤入力の音声区間a、bの後に、正しい音
声を入力すると、これは音声区間cとなってバッファ3
に記憶されることとなるので、ここでスイッチSWを押下
げると、音声区間検出部4においてこの時点での最新の
音声区間であるcを認識部6に送ることとなる。認識部
6はこの音声区間情報によりバッファ3より音声区間を
読出し認識を行う。なお、単一の音声のみが入力された
後、直ちに、スイッチSWが押下げられたときには、その
単一の音声が、認識部6に送られ、認識されることはい
うまでもない。なお、バッファ3がいっぱいになった時
には、次々に古い入力音声データから順に書きかえれば
良い。
認識部6に送られた音声は、辞書と比較され、最優先
候補から出力される(ステップ5)。そして、その結果
が表示部8に表示される(ステップ6)。この結果の表
示をみて、それが、正しいものであるときには、次の音
声入力を行うと(ステップ7)、ステップ1に戻ること
になる。結果が同音ではあるが異義語であって、所望の
ものでなかったときには、スイッチSWを押下げる。する
と、次の候補が表示されることになる(ステップ8、ス
テップ6)。
この操作を繰り返し、自分の望んでいる結果が得られ
た時に、スイッチSWを押下げることなく、次の音声入力
を行えば、ステップ1に戻り、次の音声の入力処理に移
行することとなる。
この発明によれば、音声入力後直に認識を行い、その
認識結果を表示せずに、一旦音声入力をバッファに入力
し、スイッチ操作をした時点での最新の音声区間のみを
認識部に送り、認識を行うこととしているので、誤発声
等をしたときには、その後、所定の時間経過後に正しい
音声入力をし、スイッチを押すことで正しい音声のみを
認識させることができる。このため、誤発声のみでなく
雑音や咳ばらい等にこだわることなく、入力できる。ま
た、単語や文節等発声単位毎のスイッチ操作によって入
力に一定のタイミングを与えることができ、発声単位毎
に明確に区切って発声し易くなるため、2つの発声単位
が結合してしまうこともなく、このための誤認識がなく
なる。
また、使用者は、雑音や発音誤りなどは無視して、と
にかく正しい発声をした直後にスイッチを操作するのみ
で良く、操作も簡単である。
第6図に本発明と従来例の操作を比較して示してある
ように、発声1、発声2を入力する場合で、途中に雑
音、発声誤り、咳ばらいがあった時には、本発明のスイ
ッチ操作が、きわめて少なくて良いことがわかる。従っ
てこのような音声入力認識装置により文書作成を行え
ば、正確に音声入力文書作成を行うことができる。
(2) 第2実施例 本発明の第2実施例を第7図および第8図により説明
する。第7図は第2実施例の原理説明図であり第8図は
その実施例構成図である。第7図、第8図において第1
図〜第2図と同一部分には同一記号を付与している。
SW1は音声区間検出指示用のスイッチ、SW2は候補選択
用のスイッチ、SW3は削除用のスイッチである。
発声された音声はマイク1において電気信号に変換さ
れ、入力部2においてデジタル変換され、その後一時的
にバッファ3に格納される。バッファ3の容量は、最小
限入力される音声の最大長のものが記憶される容量が必
要である。音声区間検出部4では、スイッチSW1が押さ
れた時点でバッファのデータを参照し、現時点に最も近
い音声区間部分を検出する。認識・候補選択部10では、
この現時点に最も近い音声区間部分の認識を行い、ま
た、その認識結果の候補から、正しい結果を選択する。
認識の結果は表示部8に表示し、この表示をみながら正
しい結果を選択する。
ここでスイッチSW1は発声直後に音声区間の切り出し
を指示するためのものであり、スイッチSW2は認識結果
の候補選択または同音異義選択を行うためのものであ
り、スイッチSW3は誤った認識結果を削除するためのも
のである。
(3) 第3実施例 第9図に示す本発明の第3実施例では、第8図に示す
第2実施例において、スイッチSW1とSW2を共通化してSW
1としたものであり、煩雑なスイッチ操作を簡単化して
いる。すなわち単一の音声のみが入力された後、直ちに
スイッチSW1が押下げられたとき音声がバッファ3内に
あるため音声区間検出部4により音声区間が検出され認
識が開始されるので、このとき認識結果の候補はまだな
いので認識候補の選択処理は行われない。また音声な発
声がなく認識結果候補のみがありその選択をスイッチSW
1で行うときは、バッファ3内に音声がないため音声区
間検出部4は動作せず候補の選択のみが行われる。この
ような理由によりスイッチSW1とSW2の共通化を行うこと
ができる。
(4) 第4実施例 第10図に示す本発明の第4実施例は、第9図に示す第
3実施例とほぼ同じであるが、スイッチSW1により候補
選択を行っているときに、入力部2′の動作を一時的に
停止する機能を付加したところが異なる。
各実施例において各構成要素で異なるのは、入力部で
ある。第1実施例〜第3実施例の入力部2は同じもので
あり、その内部構成を第11図に示す。第4実施例の入力
部2′は他のものと異なり、その内部構成を第12図に示
す。
第11図において、マイクより入力された音声信号はア
ナログフィルタ20に入力される。アナログフィルタ20
は、次段のサンプルホールド21でのサンプリング周波数
の半分の周波数より若干低いカットオフ周波数を持つロ
ーパスフィルタである。サンプルホールド21では、次段
のAD変換より供給されるクロックに従って、アナログフ
ィルタ20を通過した音声信号の時間軸を量子化する。AD
変換22では、時間軸量子化された音声信号の振幅を量子
化し、音声デジタル信号の時系列Djをそのクロックck1
と共に次段に出力し、またサンプルホールドに必要なク
ロックをサンプルホールド21に出力する。クロック23
は、AD変換22に必要なクロックを水晶発振子などにより
生成する。
第12図において、20、21、22、23の構成要素は第11図
と同じである。ただし、24、25、及び26の構成要素によ
りスイッチSW1からの信号により、一定時間だけAD変換2
2へのクロックの入力を停止している。24はトリガ回路
であり、ワンショトトリガ回路で実現されている。25は
NOT回路である。26はAND回路であり、NOT回路25の出力
が1の時のみAD変換用クロックをAD変換22に供給するゲ
ートの役割を果たす。
第13図に第12図の回路図の信号タイミング図を示す。
まず、スイッチSW1からの信号xがトリガ24に入力され
ると、トリガ24では数秒幅のパルス信号yを発生する。
この数秒間において入力部の動作が停止することにな
る。この数秒幅のパルスの否定zがNOT回路25で得ら
れ、ゲート回路であるAND回路26に供給される。ゲート
されたAD変換用クロックwと各信号の関係を第13図に示
す。
第14図はバッファの構成を説明する図である。入力部
からのDjはそのまま音声区間検出部へ転送されるととも
にメモリ部301の書き込みデータとして供給される。ま
た入力部からのclkはそのまま音声区間検出部へ転送さ
れるとともにカウンタ300のカウントアップクロックと
して供給される。カウンタ300はメモリ部301の書き込み
アドレスをカウントする。一方アドレス制御部302は認
識部よりiss、iee、stb2を得ている。アドレス制御部30
2はstb2信号が1になった直後からissからieeにいたる
アドレスをクロックclkdと共に順次発生する。発生した
アドレスはメモリ部301の読み出しアドレスとして使わ
れる。メモリ部301から読み出されたデータDkおよびclk
dは認識部6へ送られる認識に用いられる。
第15図は音声区間検出部4を説明する図であり、各実
施例で共通のものである。まず、パワー計算部40におい
てバッファから読み出されたデジタル音声信号の数ミリ
秒毎のパワー計算が行われ、得られたパワー時系列を一
時記憶する。島検出部41ではスイッチSW1からの音声区
間検出指示に従って、パワー時系列をパワー計算部40か
ら読み出して、島の検出を行う。判定部42では得られた
各島の間隔を判定し、最終的な音声区間を決定する。
第16図はパワー計算部40の内部構成を説明する図であ
り、全実施例に共通するものである。パワー計算部で
は、バッファから読み出したn個の音声デジタルデータ
の二乗値を累積し、その累積値を音声パワーとする。入
力部2または2′から得られ、バッファ3に記憶された
音声デジタルデータDjは二乗ROM(400)のアドレス部に
入力される。二乗ROMの各アドレスにはアドレス値の二
乗の値が記憶されているため、ROM(400)の出力データ
としては音声デジタルデータの二乗が得られる。加算器
402およびセレクタ403は累算器を構成しており、二乗RO
M(400)で得られた音声デジタルデータの二乗値の累積
を行う。累積値は対数値ROM(404)のアドレスに供給さ
れる。累積値の対数値がROM(404)のデータとして得ら
れる。対数値データは一時メモリ(406)に順次記憶さ
れる。一時記憶されたデータPiは、島検出部41からアド
レスiが指定され読み出される。バッファ3から得られ
るクロックck1は、クロック分周部401に入力され、その
周波数が1/nに分周される。
第17図にバッファ3からのクロックck1と分周されク
ロックck2の関係を示す。分周されたクロックck2は、ま
ず累積器のクリアのために用いられる。すなわちセレク
タ403が加算器402の出力の累積値を選択せずに設定値0
を選択するための信号として供給される。また、クロッ
クck2は、一時メモリのアドレスを決定するカウンタの
クロックとして用いられるとともに、一時メモリの書き
込み信号としても用いられる。
次に第18図、第19図および第20図を用いて島検出部41
の機能および構成を説明する。
第18図は、島検出の原理を説明する図であり、パワー
計算部40内の一時メモリ406の内容を示している。第18
図において、横軸はアドレスiを示しており、縦軸はデ
ータPiを示している。アドレスiは音声の時間軸に対応
している。島検出部41では、データPiが連続して大きい
部分(島)を以下のような方式で検出する。閾値Pth1お
よびPth2(<Pth1)が予め与えられている。まず、Pth2
より大きい部分()を暫定島とする。こうするこ
とによりイの部分は雑音部分として除去される。暫定島
から両側にPth2を下回る直前まで検索を行う。検
索の結果、アの部分とウの部分が島として得られる。以
上述べた方式は、一時メモリの内容(Pi)をランダムに
アクセスするためハードウエア向きではない。一時メモ
リの内容(Pi)をシーケンシャルにアクセスする等価な
方式を次に説明する。
まず、 Pi≦Pth2という事象をα、 Pth2<Pi≦Pth1という事象をβ、 Pth1<Piという事象をγ、 と定義する。
次に第19図に示すように、4つの状態S0、S1、S2、S3
を考える。Piのアクセスは本方式ではiの大きいほうか
ら小さいほうへシーケンシャルに行うとする。第19図
で、まずスタート時点では、状態S0に入る。順次iを減
らしPiに関する事象α、βおよびγが発生する度に状態
遷移を繰り返す。状態遷移のアークに処理内容が付与さ
れている場合はその処理を同時に行うものとする。以
下、第18図のパワーデータの例で状態遷移図を説明す
る。
第18図の*印の点から前に向かって処理を行う。本発
明では、スイッチSW1がこの時点で押されたと考える。
状態はまずS0に入る。*印の点ではPiはPth2より小さい
ためこの場合の事象はαである。すなわち状態はS0にと
どまる。iを減らしていくと事象βが発生し、状態はS0
からS1に遷移する。このときのiをSTMPという内部変数
に一時的に記憶する。しばらくβの区間が続くため状態
はS1にとどまる。次に事象γが発生し、状態はS3に遷移
する。このとき先に記憶したSTMPの内容を内部記憶SRに
記憶する。そのあと暫くγの区間が続き(の暫定島の
部分)、状態はS3にとどまる。次に事象βが発生し、状
態はS2に遷移する。次にγが発生し状態はS3に戻る(
の暫定島の部分)。そのあとでまた事象βが発生し、状
態がS2に遷移し、さらに事象αが発生し、状態がS0に戻
る。ここでiの値を内部変数ERに記憶する。この時点で
SRとERには島(ア)の両端のアドレスが得られる。さら
に進むと事象βが発生し、状態がS1に遷移し、iの値が
STMPに記憶される(イの部分)。しかし、次に事象αが
発生するため状態がS0に戻ってしまうため、島(イ)を
求めるには到らない。暫定島、島(ウ)の部分につい
ても同様に処理が続く。
第20図は、以上説明した島検出方式を実現したハード
ウェア構成図である。
第20図において、4111はクロック発生器であり、スイ
ッチSW1が押された瞬間からクロックが発生する。4112
はカウンタであり、SW1が押された瞬間にパワー計算部4
0の内部のカウンタ405の値i′が初期値としてロードさ
れ、クロック発生器4111のクロックに従ってダウンカウ
ントされる。カウンタ4112の値は第18図横軸のiの値を
示し、*印の点から始まって次第に小さくなる。この値
iによりパワー計算部40の一時メモリ406の内容Piを順
番に読み出し、比較器4100のB0、および4101のB1に供給
する。比較器4100のA0には閾値Pth2が供給され、Piとの
比較が行われる。比較器4010のA1には閾値Pth1が供給さ
れPiとの比較が行われる。比較器4100のB0≦A0の出力
は、事象αに対応する。比較器4101のB1>A1の出力は、
事象γに対応する。AND回路4102では、比較器4100のB0
>A0の出力と比較器4101のB1≦A1の出力の論理積が演算
され、すなわち事象βに対応する出力が得られる。ここ
で、α、βおよびγが同時に1になることはない。
4103および4104はフリップフロップであり、表1のよ
うに状態のS0〜S3を記憶するために使われる。
4105、4106、4107、4108、4109、及び4110の各要素に
より第19図の状態遷移を実現している。
4103及び4104はスイッチSW1からパルスがきた時にま
ずリセットされ(図中には図示していない)、状態がS0
となる。状態遷移図より、事象αが発生した時にはどの
状態からも必ずS0に遷移するため、αはOR回路4108を通
して4103のリセット入力に接続されるとともに、4104の
リセット入力に接続されている。状態遷移図より、γが
1の時にはどの状態からも必ずS3に遷移するため、γは
4104のセット入力に接続されるとともに、OR回路4107を
通して4103のセット入力に接続されている。また、状態
S0においてβが1になった時はS1に遷移するため、まず
AND回路4109で現在の状態S0を検出し、さらにβと4109
の出力の論理積をAND回路4105で検出し、AND回路4105の
出力でOR回路4107を通して4103をセットする。これによ
りS0からS1への遷移を実現している。また、状態S3にお
いてβが1になった時は状態S2に遷移するため、AND回
路4110で現在の状態S3を検出し、さらにβと4110の出力
の論理積をAND回路4106で検出し、AND回路4106の出力で
OR回路4108を通して4103をリセットする。これにより状
態S3から状態S2への遷移を実現している。
4113、4114、4117、4119及び4121は3入力のAND回路
であり、各々状態遷移図第19図の〜の遷移を検出し
ている。
AND回路4113は遷移を検出し、AND回路4114は遷移
を検出する。またはの遷移をOR回路4115で検出す
る。またはの遷移が検出された場合は、iの値をレ
ジスタ4116(ER)に記憶する。AND回路4117は遷移を
検出する。が検出された場合は、iの値をレジスタ41
18(STMP)に記憶する。AND回路4119は遷移を検出す
る。が検出された場合は、セレクタ4120によりレジス
タ(STMP)の内容を選択し、それをレジスタ4123(SR)
に記憶する。AND回路4121は遷移を検出する。が検
出された場合は、セレクタ4120によりiの値を選択し、
それをレジスタ4123(SR)に記憶する。OR回路4122はAN
D回路4119または4121の出力をフリップフロップ4123に
供給する。フリップフロップ4123はスイッチSW1の信号
によりリセットされ、OR回路4122の出力によりセットさ
れる。4123の出力はワンショットトリガ4124に接続され
ている。4123及び4124によりスイッチSW1が押される直
前の4122の出力の一回のみがレジスタ4125の書き込み信
号となる。
各部の信号clk、stb及びレジスタの値ER、及びSRを次
段の判定部42に供給する。
第21図は判定部の内部構成である。420はカウンタで
あり、島検出部41のclk信号でカウントアップされ、stb
信号とie信号の論理和でクリアされる。stb信号とie信
号の論理和はOR回路424で演算される。カウンタ420は一
つの島の終点が検出されてから次の島の始点までの長さ
(第18図のlφ)をカウントすることになる。この長さ
がTHl以上になった場合に比較器421の出力が1となる。
ただし、一つの島の終点が検出される以前に比較器421
の不要な出力が認識部6へのstb1信号(ストローブ信
号)として出力されないように、フリップフロップ425
とAND回路426が設けられている。フリップフロップ425
はスイッチSW1からの信号でリセットされ、ie信号(島
の検出信号)でセットされる。すなわちフリップフロッ
プ425の出力は少なくとも一つの島を検出していること
を示す。AND回路425はフリップフロップ425の出力によ
り、比較器421の出力をゲートしている。
乗算器422はSRの値を、間引く前のアドレスに戻すた
めn倍することにより一時メモリ406のアドレスをバッ
ファ3のアドレスに変換し、それをisrとして認識部6
に送る。同様に乗算器423はERの値をn倍することによ
り一時メモリ406のアドレスをバッファ3のアドレスに
変換し、それをierとして認識部6に送る。ierはバッフ
ァ3内の音声の始点アドレスであり、isrはバッファ3
内の音声の終点アドレスである。
認識部6はstb1が1に成ったときにisr及びierを取り
込み認識を開始する。
第22図は認識部6の内部構成を示した図である。
音声区間検出部4からのisr、ier、stb1は各々iee、i
ss、stb2としてそのままバッファ部3へ転送される。ie
e、iss、stb2k各信号によりバッファ部3から読み出さ
れた音声データDk及びクロックclkdは音声認識ユニット
600へ転送される。音声認識ユニット600では音声データ
Dkを認識する。音声認識ユニット600では認識時に音声
テンプレヒトメモリ601に記憶された音声テンプレート
を参照する。音声認識ユニット600で得られた認識結果
は1位から数位までの候補として得られる。認識結果の
候補は、候補選択・同音異義選択部7へ転送される。
次に、この発明の第2実施例の動作を第23図の動作流
れ図を参照しながら説明する。
この発明では、マイク1からの音声の入力直後には、
認識結果の最有力候補を表示せずに、音声入力を入力部
2でデジタル変換し、それを一旦バッファ3に記憶して
おき、バッファ3への蓄積完了の表示のみを表示部8に
て行う。即ち、第5図の動作流れ図を参照して、動作を
説明すると、音声入力がなされ(ステップ1)、完了す
るとその旨を表示する(ステップ2)。この表示は、例
えば表示部8における*印のブリンク等で良い。
次にスイッチSW1が押下げられるとき、音声区間検出
部4にて、最新の音声区間の検出が行われることになる
(ステップ4)が、SW1が押下げられないで再び音声入
力があると、ステップ4には進まず、始めのステップ1
に戻る。従って、例えば、始めに誤って発音した場合或
いは咳ばらいをした場合等には、スイッチSW1を押下げ
ることなく、音声区間の判定に十分なだけの時間THlを
あけて、その後に正しい発音で音声を入力すれば良い。
第18図において、誤入力の音声区間(ウ)の後に、正し
い音声を入力すると、これは音声区間(ア)となるの
で、ここでスイッチSW1を押下げると、音声区間検出部
4においてこの時点での最新の音声区間である(ア)を
認識部6に送ることとなる(lφ>THlの場合)。な
お、単一の音声のみが入力された後、直ちに、スイッチ
SW1が押下げられたときには、その単一の音声が、認識
部6に送られ、認識されることはいうまでもない。な
お、バッファ3及び一時メモリ406がいっぱいになった
時には、次々に古い入力音声データから順に書きかえれ
ば良い。
認識部6に送られた音声は、辞書と比較され、最優先
候補から出力される(ステップ5)。そして、その結果
が表示部8に表示される(ステップ6)。この結果の表
示をみて、それが、正しいものであるときには、次の音
声入力を行うと(ステップ7)、ステップ1に戻ること
になる。結果が同音ではあるが異義語であって、所望の
ものでなかったときには、スイッチSW2を押下げる。す
ると、次の候補が表示されることになる(ステップ8、
ステップ6)。
この操作を繰り返し、自分の望んでいる結果が得られ
た時に、スイッチSW2を押下げることなく、次の音声入
力を行えば、ステップ1に戻り、次の音声の入力処理に
移行することとなる。
第24図に本発明と従来例の操作を比較して示してある
ように、発声1、発声2を入力する場合で、途中に雑
音、発声誤り、咳ばらいがあった時には、本発明のスイ
ッチ操作が、きわめて少なくて良いことがわかる。なお
この第24図は客がABC航空株式会社の大阪行×××便の
航空券を申込んだとき、オペレータが一度EFG航空株式
会社と間違えた例を示す。そしてスイッチを操作しない
ことにより、不必要な文言「の」、「発」、「ゆき」、
「EPG」、「失礼しました。」、「便ですね。」、「お
客さまのお名前をどうぞ。」、「様ですね。」、「しば
らくおまちくたさい。」…を認識処理しないように操作
する例を示している。
〔発明の効果〕
この発明によれば、入力音声を一旦記憶する保持手段
に記憶された音声から島領域を抽出する音声区間検出手
段を設け、認識すべき音声を入力して認識指示手段を操
作したときその操作の直前の音声入力部分である島領域
を抽出して認識するようにしているので、誤発声等をし
たときには、その後、所定の時間経過後に正しい音声入
力をし、スイッチを押すことで正しい音声のみを認識さ
せることができる。このため、誤発声のみでなく雑音や
咳ばらい等にこだわることなく、入力できる。また、単
語や文節等発声単位毎のスイッチ操作によって入力に一
定のタイミングを与えることができ、発声単位毎に明確
に区切って発声し易くなるため、2つの発声単位が結合
してしまうこともなく、このための誤認識がなくなる。
また、使用者は、雑音や発音誤りなどは無視して、と
にかく正しい発声をした直後にスイッチを操作するのみ
で良く、操作も簡単である。
【図面の簡単な説明】
第1図は本発明の原理説明図、 第2図は本発明の第1実施例構成図、 第3図は第1実施例における音声区間検出部の構成例、 第4図は音声パワーの曲線図、 第5図は第1実施例の動作流れ図、 第6図は従来例と本発明の操作比較図、 第7図は本発明の第2実施例の原理説明図、 第8図は本発明の第2実施例構成図、 第9図は本発明の第3実施例構成図、 第10図は本発明の第4実施例構成図、 第11図は第1実施例〜第3実施例の入力部の構成例、 第12図は第4実施例の入力部の構成例、 第13図は第4実施例の入力部のタイミング図、 第14図はバッファ部の構成例、 第15図は音声区間検出部の構成例、 第16図はパワー計算部の構成例、 第17図はパワー計算部のクロック説明図、 第18図は島検出状態説明図、 第19図は島検出部の状態遷移図、 第20図は島検出部の構成例、 第21図は判定部の構成例、 第22図は認識部の構成例、 第23図は第2実施例の動作説明図、 第24図は第2実施例〜第4実施例と従来例との操作比較
図、 第25図は従来例構成図、 第26図は従来例の動作流れ図である。 1……マイク、2……入力部 3……バッファ、4……音声区間検出部 6……認識部 7……候補選択・同音異義選択部 8……表示部

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を分析して特徴部分を抽出し辞書
    との比較によって認識を行う音声認識装置において、 入力音声を一旦記憶保持する保持手段と、 この保持手段に記憶された音声を認識することを指示す
    る認識指示手段と、 前記保持手段に記憶された音声から島領域を抽出する音
    声区間検出手段を設け、認識すべき音声を入力して前記
    認識指示手段を操作したときその操作の直前の音声入力
    部分である島領域を抽出して認識するようにしたことを
    特徴とする音声認識装置。
  2. 【請求項2】表示手段を設け、前記認識指示手段を操作
    してその認識結果を表示させ、正しい入力音声の認識確
    認を行うようにしたことを特徴とする請求項1記載の音
    声認識装置。
  3. 【請求項3】前記表示手段で確認した結果にもとづき文
    書を作成するようにしたことを特徴とする請求項2記載
    の音声認識装置。
  4. 【請求項4】認識指示手段と認識候補の選択手段を共通
    にしたことを特徴とする請求項1または2に記載の音声
    認識装置。
  5. 【請求項5】認識候補選択時に入力部の動作を一時停止
    するように構成したことを特徴とする請求項4記載の音
    声認識装置。
JP63176754A 1987-07-16 1988-07-15 音声認識装置 Expired - Lifetime JP2617527B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63176754A JP2617527B2 (ja) 1987-07-16 1988-07-15 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP62-177775 1987-07-16
JP17777587 1987-07-16
JP63176754A JP2617527B2 (ja) 1987-07-16 1988-07-15 音声認識装置

Publications (2)

Publication Number Publication Date
JPH01112299A JPH01112299A (ja) 1989-04-28
JP2617527B2 true JP2617527B2 (ja) 1997-06-04

Family

ID=26497543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63176754A Expired - Lifetime JP2617527B2 (ja) 1987-07-16 1988-07-15 音声認識装置

Country Status (1)

Country Link
JP (1) JP2617527B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115096A (ja) * 1994-10-14 1996-05-07 Sanyo Electric Co Ltd 音声処理装置
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JP3940895B2 (ja) * 2002-02-18 2007-07-04 日本電気株式会社 音声認識装置及び方法
JP3888584B2 (ja) * 2003-03-31 2007-03-07 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP2005316022A (ja) * 2004-04-27 2005-11-10 Aisin Aw Co Ltd ナビゲーション装置及びプログラム
JP2006091130A (ja) * 2004-09-21 2006-04-06 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2009175178A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP6822679B2 (ja) 2018-09-13 2021-01-27 Necプラットフォームズ株式会社 電話交換機、保留音通知方法および保留音通知プログラム
JP6822703B2 (ja) * 2019-12-16 2021-01-27 Necプラットフォームズ株式会社 電話交換機、保留音通知方法および保留音通知プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60191329A (ja) * 1984-03-13 1985-09-28 Canon Inc 音声入力装置

Also Published As

Publication number Publication date
JPH01112299A (ja) 1989-04-28

Similar Documents

Publication Publication Date Title
KR100586286B1 (ko) 구술 및 명령 구별을 향상하는 방법
KR101109265B1 (ko) 텍스트 입력 방법
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
JP2004054080A (ja) データ入力方法およびデータ入力装置
JPH10187406A (ja) 音声認識中に認識されたワードをバッファする方法及びシステム
JPH10503033A (ja) 新ワードのモデル化に基づく音声認識方法及びその装置
JP2617527B2 (ja) 音声認識装置
US8041576B2 (en) Information processing apparatus and information processing method
US5058167A (en) Speech recognition device
WO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2002116793A (ja) データ入力システム及びその方法
JP3723518B2 (ja) 文字処理装置および方法
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
JPH1124695A (ja) 音声認識処理装置および音声認識処理方法
JP4498906B2 (ja) 音声認識装置
JP3254977B2 (ja) 音声認識方法及び音声認識装置
Goto Speech Completion: New Speech Interface with On-demand Completion Assistance Masataka Goto, Katunobu Itou, Tomoyosi Akiba, and Satoru Hayamizu National Institute of Advanced Industrial Science and Technology (former Electrotechnical Laboratory) 1-1-1 Umezono, Tsukuba, Ibaraki 305-8568, JAPAN.
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
JP2006031725A (ja) 文字処理装置
JPH06202689A (ja) 音声認識方法および装置
JPH10326175A (ja) 音声指示装置および音声指示情報記憶媒体
KR100777569B1 (ko) 멀티모달을 이용한 음성 인식 방법 및 그 장치
JP4797307B2 (ja) 音声認識装置及び音声認識方法
JP2000200093A (ja) 音声認識装置及びそれに用いる音声認識方法並びにその制御プログラムを記録した記録媒体
JPH11338493A (ja) 情報処理装置および方法、並びに提供媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080311

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090311

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090311

Year of fee payment: 12