JPH068999B2 - 音声入力方法 - Google Patents
音声入力方法Info
- Publication number
- JPH068999B2 JPH068999B2 JP60181753A JP18175385A JPH068999B2 JP H068999 B2 JPH068999 B2 JP H068999B2 JP 60181753 A JP60181753 A JP 60181753A JP 18175385 A JP18175385 A JP 18175385A JP H068999 B2 JPH068999 B2 JP H068999B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- recognition
- computer
- confirmation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 〔発明の利用分野〕 本発明は、音声による単語,数字、句などの入力におい
て複数の音声を一括して入力する方式に関するものであ
る。
て複数の音声を一括して入力する方式に関するものであ
る。
音声認識技術の進歩に伴ない、人間の声で機械に指令し
たり様々なデータをコンピュータに入力したいという要
求が高まってきた。現在、コンピュータで扱う情報の大
半は、商品番号やメーカ番号にみられるように数字で管
理される場合が多く、このコード情報を音声で入力する
期待はとくに強い。この場合多数桁の数字を高速かつ安
定に入力することが必要となる。
たり様々なデータをコンピュータに入力したいという要
求が高まってきた。現在、コンピュータで扱う情報の大
半は、商品番号やメーカ番号にみられるように数字で管
理される場合が多く、このコード情報を音声で入力する
期待はとくに強い。この場合多数桁の数字を高速かつ安
定に入力することが必要となる。
従来の音声入力の方法は、特開昭58-30800号公報に記載
のように、入力された音声を認識し、その認識結果を音
声合成によってトークバックして話者に正しく入力され
たか確認させるというトークバック方式が採用されてお
り、この一連の手続きで始めて1つの音声が入力された
ことになる。
のように、入力された音声を認識し、その認識結果を音
声合成によってトークバックして話者に正しく入力され
たか確認させるというトークバック方式が採用されてお
り、この一連の手続きで始めて1つの音声が入力された
ことになる。
しかしこのような上記従来方法で複数桁の数字を入力す
ると、時間がかかるし大変に煩わしい。
ると、時間がかかるし大変に煩わしい。
例えば商品数量4321個をコンピュータに入力する場合を
考える。ここでは「0」〜「9」の10個の数字を用いる
ことにし、数値を構成する各桁の数字を上位桁から順に
入力することにする。話者は最初に最上位桁「4」を発
声するとこれを認識し、トークバックによって“4です
ね”というアンサ音で正常に認識されたかどうか確認に
くる。アンサが正しい場合には「ハイ」と答えて次の桁
の入力を行なうが、間違っている場合には「イイエ」と
答え再度同一桁の数字を入力する。これを4桁すべて繰
返した後、データ入力が終了したことを知らせるために
例えば「オワリ」と発声し、この音声を認識してはじめ
て4桁の数字が正しく入力されたことになる。
考える。ここでは「0」〜「9」の10個の数字を用いる
ことにし、数値を構成する各桁の数字を上位桁から順に
入力することにする。話者は最初に最上位桁「4」を発
声するとこれを認識し、トークバックによって“4です
ね”というアンサ音で正常に認識されたかどうか確認に
くる。アンサが正しい場合には「ハイ」と答えて次の桁
の入力を行なうが、間違っている場合には「イイエ」と
答え再度同一桁の数字を入力する。これを4桁すべて繰
返した後、データ入力が終了したことを知らせるために
例えば「オワリ」と発声し、この音声を認識してはじめ
て4桁の数字が正しく入力されたことになる。
このように1桁づつの入力方式のために毎回トークバッ
クによる確認が必要となり、時間がかかる上に話者にと
って煩わしいものとなる。
クによる確認が必要となり、時間がかかる上に話者にと
って煩わしいものとなる。
また「オワリ」という終了指示音声を用いているため
に、数字入力のときのカテゴリ(認識対象となる言葉の
集まり)にも、数字10個の他に「オワリ」という制御語
を加える必要があり、その分数字の認識率が低下してし
まう。
に、数字入力のときのカテゴリ(認識対象となる言葉の
集まり)にも、数字10個の他に「オワリ」という制御語
を加える必要があり、その分数字の認識率が低下してし
まう。
これを避ける方法として桁数を固定してあらかじめコン
ピュータと話者に通知しておく方法があるが、多種類の
数字を入力する場合には非現実的である。
ピュータと話者に通知しておく方法があるが、多種類の
数字を入力する場合には非現実的である。
本発明の目的は、上述の問題を解決し、複数個の音声を
高速かつ安定に一括入力する方式を提供することにあ
る。
高速かつ安定に一括入力する方式を提供することにあ
る。
この目的を達成するために、本発明の方式に於いては、
音声と音声の間の時間を監視し、所定時間音声が入力さ
れなかった場合に入力を自動終了するようにする。数値
情報を音声で入力する場合について説明する。
音声と音声の間の時間を監視し、所定時間音声が入力さ
れなかった場合に入力を自動終了するようにする。数値
情報を音声で入力する場合について説明する。
該数値を構成する各桁の数字を最上位または最下位桁か
ら順次発声し、全桁入力したら発声を止める。装置側で
は数字音声が入力されるとこれを認識し、次の音声を待
つが、同時にタイマを起動して次の音声が入力されるま
での時間を監視する。もし所定時間経っても入力されな
かったときには入力が終了したものとみなし、それまで
入力された数字列から数値情報を求める。このようにす
れば入力終了条件が発声を止めるという人間にとって極
めて自然な形となっている上、確実に終了したことを装
置に知らしめることが可能となる。
ら順次発声し、全桁入力したら発声を止める。装置側で
は数字音声が入力されるとこれを認識し、次の音声を待
つが、同時にタイマを起動して次の音声が入力されるま
での時間を監視する。もし所定時間経っても入力されな
かったときには入力が終了したものとみなし、それまで
入力された数字列から数値情報を求める。このようにす
れば入力終了条件が発声を止めるという人間にとって極
めて自然な形となっている上、確実に終了したことを装
置に知らしめることが可能となる。
以下、本発明を実施例により説明する。第1図は本発明
の一実施例を示すブロック構成図であり、マイク1,音
声入力部2,全体を制御するコンピュータ3,合成音声
を出力する音声出力部4,スピーカ5から成る。
の一実施例を示すブロック構成図であり、マイク1,音
声入力部2,全体を制御するコンピュータ3,合成音声
を出力する音声出力部4,スピーカ5から成る。
音声入力部2,出力部4は人間とコンピュータを結ぶ信
号変換器の役目をするもので、公知の技術で実現でき、
コンピュータで実行することも可能である。
号変換器の役目をするもので、公知の技術で実現でき、
コンピュータで実行することも可能である。
まずコンピュータ3から音声入力部2に対して入力対象
となる言葉の集まり(これをカテゴリと呼ぶことにす
る)の情報をS1から、また入力する言葉の数(これを入
力語数と呼ぶことにする)をS2から送る。入力語数があ
らかじめわからないときには0を送る。
となる言葉の集まり(これをカテゴリと呼ぶことにす
る)の情報をS1から、また入力する言葉の数(これを入
力語数と呼ぶことにする)をS2から送る。入力語数があ
らかじめわからないときには0を送る。
カテゴリを受けた音声入力部2では音声待ち状態にな
り、マイク1から音声が入力されるとすでに登録されて
いる基準音声と比較してその認識結果をS3からコンピュ
ータ3に出力する。
り、マイク1から音声が入力されるとすでに登録されて
いる基準音声と比較してその認識結果をS3からコンピュ
ータ3に出力する。
本発明では、この音声入力部2に音声を認識する認識部
21と出力バッファ22,タイマ24,入力時間を監視する制
御部23を設ける。
21と出力バッファ22,タイマ24,入力時間を監視する制
御部23を設ける。
認識部21ではコンピュータからのカテゴリ情報S1に基づ
いてマイクからの音声を認識し、その結果を出力バッフ
ァ22に順次記憶していく。
いてマイクからの音声を認識し、その結果を出力バッフ
ァ22に順次記憶していく。
一方制御部23では入力語数情報S2分の音声が入力される
と、これまでの出力バッファ22の結果をコンピュータに
一括出力する。入力語数があらかじめ明確ではないとき
にはS2=0とする。このとき制御部23では最初の音声を
認識した後は音声が入力される都度タイマ24に所定値を
設定し直す。タイマ24に設定された時間が経っても次の
音声が入力されないときには、タイマ24から制御部23に
タイムアウト信号が送られ、これによって入力終了を検
知し、出力バッファ22に記憶されているこれまでの認識
結果をすべてコンピュータ3に一括出力し、出力バッフ
ァを空にする。
と、これまでの出力バッファ22の結果をコンピュータに
一括出力する。入力語数があらかじめ明確ではないとき
にはS2=0とする。このとき制御部23では最初の音声を
認識した後は音声が入力される都度タイマ24に所定値を
設定し直す。タイマ24に設定された時間が経っても次の
音声が入力されないときには、タイマ24から制御部23に
タイムアウト信号が送られ、これによって入力終了を検
知し、出力バッファ22に記憶されているこれまでの認識
結果をすべてコンピュータ3に一括出力し、出力バッフ
ァを空にする。
音声が正しく入力されたかどうかはトークバックで行な
う。コンピュータ3は入力された音声を合成コードに直
し、S4を通して音声出力部4に送る。音声出力部4では
合成コードから音声波形を生成しスピーカ5を駆動して
音声で話者に確認をはかる。以上が本実施例の動作概要
である。
う。コンピュータ3は入力された音声を合成コードに直
し、S4を通して音声出力部4に送る。音声出力部4では
合成コードから音声波形を生成しスピーカ5を駆動して
音声で話者に確認をはかる。以上が本実施例の動作概要
である。
次にこれを使ってコンピュータに商品番号を入力する例
を第3図の流れにしたがって説明する。
を第3図の流れにしたがって説明する。
コンピュータ3はまず数字を蓄えておくバッファ22をク
リアし、つづいて発声をうながすためのメッセージ
(“商品番号を入力して下さい”)を合成コードの形で
音声出力部4に送り、話者に知らせる。また音声入力部
2に対しては、入力カテゴリS1を「0」,「1」…
「9」の10数字に制限し、入力桁数はS2=0にして不明
であることを知らせる。
リアし、つづいて発声をうながすためのメッセージ
(“商品番号を入力して下さい”)を合成コードの形で
音声出力部4に送り、話者に知らせる。また音声入力部
2に対しては、入力カテゴリS1を「0」,「1」…
「9」の10数字に制限し、入力桁数はS2=0にして不明
であることを知らせる。
ここで音声入力部2は音声待ち状態になる。話者が商品
番号の最上位桁の数字から順に発声していくと、音声入
力部2の認識部21では、あらかじめ登録されている10種
類の数字音声と比較してその結果を出力バッファ22に記
憶し、制御部23からタイマ24に例えば0.5秒を設定す
る。
番号の最上位桁の数字から順に発声していくと、音声入
力部2の認識部21では、あらかじめ登録されている10種
類の数字音声と比較してその結果を出力バッファ22に記
憶し、制御部23からタイマ24に例えば0.5秒を設定す
る。
続いて入力される数字に対しても同様にして認識部21で
認識し、その結果を出力バッファ22に入れ、タイマ24を
0.5秒に設定し直し、これを繰返していく。すべての桁
を発声し終えると話者は発声を止める。
認識し、その結果を出力バッファ22に入れ、タイマ24を
0.5秒に設定し直し、これを繰返していく。すべての桁
を発声し終えると話者は発声を止める。
この終了状態は、タイマ24によって自動検出され、それ
までに入力された数字を出力バッファ24から取出して、
コンピュータ3に一括転送する。
までに入力された数字を出力バッファ24から取出して、
コンピュータ3に一括転送する。
コンピュータ3では一且バッファに記憶し、これらの数
字が正常に入力されたものであるか確認するために、音
声出力部4に数字コードを送りトークバックする。この
とき、音声入力部2には入力カテゴリとして(ハイ/イ
イエ/ツヅク)の制御語を、また入力語数が1語である
ことをS1,S2を通して指示する。
字が正常に入力されたものであるか確認するために、音
声出力部4に数字コードを送りトークバックする。この
とき、音声入力部2には入力カテゴリとして(ハイ/イ
イエ/ツヅク)の制御語を、また入力語数が1語である
ことをS1,S2を通して指示する。
話者は、トークバックで正しく入力されたことが確認で
きた場合には/ハイ/と答え、トークバックがおかしい
場合には/イイエ/と答える。音声入力部では1語固定
になっているので音声が入力されると認識してただちに
答をコンピュータに送る。コンピュータでは/ハイ/が
入力されるとバッファ内の数字情報から商品番号を求め
るし、/イイエ/が入力されるともう一度やり直すこと
になる。
きた場合には/ハイ/と答え、トークバックがおかしい
場合には/イイエ/と答える。音声入力部では1語固定
になっているので音声が入力されると認識してただちに
答をコンピュータに送る。コンピュータでは/ハイ/が
入力されるとバッファ内の数字情報から商品番号を求め
るし、/イイエ/が入力されるともう一度やり直すこと
になる。
エラーが頻繁に続く場合には数字を区切りながら入力す
ることができる。例えば2桁づつ入力する。この場合、
トークバックで正しく入力されたことが確認されると、
/ツヅキ/という制御語を発声する。コンピュータはこ
れを受けて2桁分をバッファに追加記憶し、これを繰返
す。全桁を入力し終わると最後に/ハイ/と答える。こ
れによってコンピュータは入力完了したことを知り、バ
ッファの内容から商品番号を求めることになる。
ることができる。例えば2桁づつ入力する。この場合、
トークバックで正しく入力されたことが確認されると、
/ツヅキ/という制御語を発声する。コンピュータはこ
れを受けて2桁分をバッファに追加記憶し、これを繰返
す。全桁を入力し終わると最後に/ハイ/と答える。こ
れによってコンピュータは入力完了したことを知り、バ
ッファの内容から商品番号を求めることになる。
第2図はコンピュータ側に入力時間監視手段を設けた場
合の実施例である。コンピュータ7の制御部73から音声
入力部6に入力カテゴリS1を指定すると、音声入力部6
では入力音声をそのカテゴリに絞り認識する。
合の実施例である。コンピュータ7の制御部73から音声
入力部6に入力カテゴリS1を指定すると、音声入力部6
では入力音声をそのカテゴリに絞り認識する。
認識が終わるとその結果をS3を通してただちにコンピュ
ータ7のバッファ72に送り、それと同時に、制御部73に
も送る。
ータ7のバッファ72に送り、それと同時に、制御部73に
も送る。
制御部73ではタイマ74を用いて音声入力時間を監視し、
タイマ74にセットした時間が経過しても音声が入力され
ない場合にはタイマ24からのタイムアウト情報により処
理を打切り、バッファ72に入っている数字から製品番号
を求める。
タイマ74にセットした時間が経過しても音声が入力され
ない場合にはタイマ24からのタイムアウト情報により処
理を打切り、バッファ72に入っている数字から製品番号
を求める。
トークバックのための合成コードS4や音声出力部4,ス
ピーカ5は第1図と同じ構成をとる。またこの例では第
1図の桁数情報S2に対するものがないがとくに必要はな
い。
ピーカ5は第1図と同じ構成をとる。またこの例では第
1図の桁数情報S2に対するものがないがとくに必要はな
い。
本実施例によれば、桁ごとにトークバックを戻さず一括
してトークバックするため、データの入力所要時間が大
幅に短縮され、わずらわしさもなくなる。さらに入力の
終了に、例えば/オワリ/といった制御音声を用いる必
要がないので、入力対象語がその分限定され認識率が向
上する。また、/オワリ/という制御語自身認識不要に
なり、発声を止めるだけで確実に入力終了が可能とな
る。また商品番号等でも、入力桁数があらかじめ決めら
れていて入力が終了したことをとくに指示しなくてもよ
い場合がある。このようなシステムでは上位桁が“0”
でも必ず入力しなければならないが、本発明では“0”
を入力しなくてもコンピュータで簡単に生成できる。
してトークバックするため、データの入力所要時間が大
幅に短縮され、わずらわしさもなくなる。さらに入力の
終了に、例えば/オワリ/といった制御音声を用いる必
要がないので、入力対象語がその分限定され認識率が向
上する。また、/オワリ/という制御語自身認識不要に
なり、発声を止めるだけで確実に入力終了が可能とな
る。また商品番号等でも、入力桁数があらかじめ決めら
れていて入力が終了したことをとくに指示しなくてもよ
い場合がある。このようなシステムでは上位桁が“0”
でも必ず入力しなければならないが、本発明では“0”
を入力しなくてもコンピュータで簡単に生成できる。
尚、本実施例では数字の入力について説明したが、これ
に限られるものではなく、単語や音節,句を複数個入力
することも可能である。また公知の連続数字認識方式と
組合わせてもかまわない。
に限られるものではなく、単語や音節,句を複数個入力
することも可能である。また公知の連続数字認識方式と
組合わせてもかまわない。
以上説明したように、本発明によれば、音声の入力に於
て入力が終了したことを自動検知させることが可能とな
り、わずらわしさが解消され、入力所要時間が短縮し、
認識率も向上して安定な音声入力が実現できる。
て入力が終了したことを自動検知させることが可能とな
り、わずらわしさが解消され、入力所要時間が短縮し、
認識率も向上して安定な音声入力が実現できる。
第1図は本発明の一実施例を示す構成図、第2図は本発
明の他の実施例を示す構成図、第3図は第1図の回路に
おける処理の流れ図、である。 1……マイク 2……音声入力部 3……コンピュータ 4……音声出力部 5……スピーカ
明の他の実施例を示す構成図、第3図は第1図の回路に
おける処理の流れ図、である。 1……マイク 2……音声入力部 3……コンピュータ 4……音声出力部 5……スピーカ
フロントページの続き (72)発明者 上村 俊夫 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マイクロエレクトロニク ス機器開発研究所内 (72)発明者 井関 利之 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マイクロエレクトロニク ス機器開発研究所内 (56)参考文献 特開 昭54−130803(JP,A) 特開 昭52−147002(JP,A) 特開 昭60−104999(JP,A) 特開 昭61−240296(JP,A) 特開 昭60−209798(JP,A) 特開 昭58−97094(JP,A) 特開 昭56−114041(JP,A) 特公 昭61−18199(JP,B2)
Claims (2)
- 【請求項1】入力された音声を認識し、その認識結果を
蓄積し、蓄積された認識結果に基づき音声確認をする音
声入力方法において、入力音声の終了後、次の音声が入
力される迄の期間を監視して、一定期間を超えて次の音
声が入力されない場合にタイムアウトと判断してそれま
での蓄積した該認識結果を一組の処理対象とし、その認
識結果を音声出力の確認をとるためにトークバックとし
て音声出力し、その確認結果を入力する際に、確認対象
を確認音声カテゴリにし、その認識対象を制限し、認識
が間違っている場合は、区切った語や桁を入力し、それ
ぞれ区切った語や桁をトークバックして確認をし、認識
が正しい場合は次に連続する音声のつなぎを表す音声を
入力することで順次一括した音声処理の対象として音声
が確認されることで入力を完了することを特徴とする音
声入力方法。 - 【請求項2】該確認音声カテゴリは、ハイ/イイエとい
う音声であり、該つなぎを表す音声は、ツヅキという音
声であることを特徴とする特許請求の範囲第1項に記載
した音声入力方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60181753A JPH068999B2 (ja) | 1985-08-21 | 1985-08-21 | 音声入力方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60181753A JPH068999B2 (ja) | 1985-08-21 | 1985-08-21 | 音声入力方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6243699A JPS6243699A (ja) | 1987-02-25 |
JPH068999B2 true JPH068999B2 (ja) | 1994-02-02 |
Family
ID=16106282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60181753A Expired - Lifetime JPH068999B2 (ja) | 1985-08-21 | 1985-08-21 | 音声入力方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH068999B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11506845A (ja) * | 1995-09-11 | 1999-06-15 | ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0756002Y2 (ja) * | 1988-05-25 | 1995-12-25 | 株式会社島津製作所 | X線ct装置 |
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
JP2001154694A (ja) * | 1999-09-13 | 2001-06-08 | Matsushita Electric Ind Co Ltd | 音声認識装置及び方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5897094A (ja) * | 1981-12-05 | 1983-06-09 | 富士通株式会社 | 音声認識方式 |
-
1985
- 1985-08-21 JP JP60181753A patent/JPH068999B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11506845A (ja) * | 1995-09-11 | 1999-06-15 | ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 |
Also Published As
Publication number | Publication date |
---|---|
JPS6243699A (ja) | 1987-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10068566B2 (en) | Method and system for considering information about an expected response when performing speech recognition | |
US6173266B1 (en) | System and method for developing interactive speech applications | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
US6629073B1 (en) | Speech recognition method and apparatus utilizing multi-unit models | |
JPH0612092A (ja) | 音声認識装置およびその動作方法 | |
JPH0394299A (ja) | 音声認識方法と音声認識装置訓練方法 | |
US6934682B2 (en) | Processing speech recognition errors in an embedded speech recognition system | |
JP2007233412A (ja) | ユーザが定義したフレーズの話者に依存しない認識方法及びシステム | |
EP0769184A1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
JPH06259090A (ja) | 音声対話システム | |
US6345254B1 (en) | Method and apparatus for improving speech command recognition accuracy using event-based constraints | |
JP3124277B2 (ja) | 音声認識システム | |
US6377921B1 (en) | Identifying mismatches between assumed and actual pronunciations of words | |
CA1325479C (en) | Speech recognition | |
EP0244974B1 (en) | Speech recognition apparatus and methods | |
JPH068999B2 (ja) | 音声入力方法 | |
US4641342A (en) | Voice input system | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
JPH08314489A (ja) | 音声認識装置 | |
JPH1097270A (ja) | 音声認識装置 | |
JP2001175279A (ja) | 音声認識方法 | |
JP2002196789A (ja) | 音声対話装置 | |
JP3285047B2 (ja) | 不特定話者用音声認識装置 | |
JPS6173998A (ja) | 音声認識装置 | |
EP0770986A2 (en) | Modified discrete word recognition |