JPH068999B2

JPH068999B2 - 音声入力方法

Info

Publication number: JPH068999B2
Application number: JP60181753A
Authority: JP
Inventors: 利一安江; 吉明北爪; 一広山畳; 俊夫上村; 利之井関
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1985-08-21
Filing date: 1985-08-21
Publication date: 1994-02-02
Anticipated expiration: 2009-02-02
Also published as: JPS6243699A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、音声による単語，数字、句などの入力におい
て複数の音声を一括して入力する方式に関するものであ
る。

〔従来技術〕

音声認識技術の進歩に伴ない、人間の声で機械に指令し
たり様々なデータをコンピュータに入力したいという要
求が高まってきた。現在、コンピュータで扱う情報の大
半は、商品番号やメーカ番号にみられるように数字で管
理される場合が多く、このコード情報を音声で入力する
期待はとくに強い。この場合多数桁の数字を高速かつ安
定に入力することが必要となる。

従来の音声入力の方法は、特開昭58-30800号公報に記載
のように、入力された音声を認識し、その認識結果を音
声合成によってトークバックして話者に正しく入力され
たか確認させるというトークバック方式が採用されてお
り、この一連の手続きで始めて１つの音声が入力された
ことになる。

しかしこのような上記従来方法で複数桁の数字を入力す
ると、時間がかかるし大変に煩わしい。

例えば商品数量4321個をコンピュータに入力する場合を
考える。ここでは「０」〜「９」の10個の数字を用いる
ことにし、数値を構成する各桁の数字を上位桁から順に
入力することにする。話者は最初に最上位桁「４」を発
声するとこれを認識し、トークバックによって“４です
ね”というアンサ音で正常に認識されたかどうか確認に
くる。アンサが正しい場合には「ハイ」と答えて次の桁
の入力を行なうが、間違っている場合には「イイエ」と
答え再度同一桁の数字を入力する。これを４桁すべて繰
返した後、データ入力が終了したことを知らせるために
例えば「オワリ」と発声し、この音声を認識してはじめ
て４桁の数字が正しく入力されたことになる。

このように１桁づつの入力方式のために毎回トークバッ
クによる確認が必要となり、時間がかかる上に話者にと
って煩わしいものとなる。

また「オワリ」という終了指示音声を用いているため
に、数字入力のときのカテゴリ（認識対象となる言葉の
集まり）にも、数字10個の他に「オワリ」という制御語
を加える必要があり、その分数字の認識率が低下してし
まう。

これを避ける方法として桁数を固定してあらかじめコン
ピュータと話者に通知しておく方法があるが、多種類の
数字を入力する場合には非現実的である。

〔発明の目的〕

本発明の目的は、上述の問題を解決し、複数個の音声を
高速かつ安定に一括入力する方式を提供することにあ
る。

〔発明の概要〕

この目的を達成するために、本発明の方式に於いては、
音声と音声の間の時間を監視し、所定時間音声が入力さ
れなかった場合に入力を自動終了するようにする。数値
情報を音声で入力する場合について説明する。

該数値を構成する各桁の数字を最上位または最下位桁か
ら順次発声し、全桁入力したら発声を止める。装置側で
は数字音声が入力されるとこれを認識し、次の音声を待
つが、同時にタイマを起動して次の音声が入力されるま
での時間を監視する。もし所定時間経っても入力されな
かったときには入力が終了したものとみなし、それまで
入力された数字列から数値情報を求める。このようにす
れば入力終了条件が発声を止めるという人間にとって極
めて自然な形となっている上、確実に終了したことを装
置に知らしめることが可能となる。

〔発明の実施例〕

以下、本発明を実施例により説明する。第１図は本発明
の一実施例を示すブロック構成図であり、マイク１，音
声入力部２，全体を制御するコンピュータ３，合成音声
を出力する音声出力部４，スピーカ５から成る。

音声入力部２，出力部４は人間とコンピュータを結ぶ信
号変換器の役目をするもので、公知の技術で実現でき、
コンピュータで実行することも可能である。

まずコンピュータ３から音声入力部２に対して入力対象
となる言葉の集まり（これをカテゴリと呼ぶことにす
る）の情報をS1から、また入力する言葉の数（これを入
力語数と呼ぶことにする）をS2から送る。入力語数があ
らかじめわからないときには０を送る。

カテゴリを受けた音声入力部２では音声待ち状態にな
り、マイク１から音声が入力されるとすでに登録されて
いる基準音声と比較してその認識結果をS3からコンピュ
ータ３に出力する。

本発明では、この音声入力部２に音声を認識する認識部
21と出力バッファ22，タイマ24，入力時間を監視する制
御部23を設ける。

認識部21ではコンピュータからのカテゴリ情報S1に基づ
いてマイクからの音声を認識し、その結果を出力バッフ
ァ22に順次記憶していく。

一方制御部23では入力語数情報S2分の音声が入力される
と、これまでの出力バッファ22の結果をコンピュータに
一括出力する。入力語数があらかじめ明確ではないとき
にはS2＝０とする。このとき制御部23では最初の音声を
認識した後は音声が入力される都度タイマ24に所定値を
設定し直す。タイマ24に設定された時間が経っても次の
音声が入力されないときには、タイマ24から制御部23に
タイムアウト信号が送られ、これによって入力終了を検
知し、出力バッファ22に記憶されているこれまでの認識
結果をすべてコンピュータ３に一括出力し、出力バッフ
ァを空にする。

音声が正しく入力されたかどうかはトークバックで行な
う。コンピュータ３は入力された音声を合成コードに直
し、S4を通して音声出力部４に送る。音声出力部４では
合成コードから音声波形を生成しスピーカ５を駆動して
音声で話者に確認をはかる。以上が本実施例の動作概要
である。

次にこれを使ってコンピュータに商品番号を入力する例
を第３図の流れにしたがって説明する。

コンピュータ３はまず数字を蓄えておくバッファ22をク
リアし、つづいて発声をうながすためのメッセージ
（“商品番号を入力して下さい”）を合成コードの形で
音声出力部４に送り、話者に知らせる。また音声入力部
２に対しては、入力カテゴリS1を「０」，「１」…
「９」の10数字に制限し、入力桁数はS2＝０にして不明
であることを知らせる。

ここで音声入力部２は音声待ち状態になる。話者が商品
番号の最上位桁の数字から順に発声していくと、音声入
力部２の認識部21では、あらかじめ登録されている10種
類の数字音声と比較してその結果を出力バッファ22に記
憶し、制御部23からタイマ24に例えば0.5秒を設定す
る。

続いて入力される数字に対しても同様にして認識部21で
認識し、その結果を出力バッファ22に入れ、タイマ24を
0.5秒に設定し直し、これを繰返していく。すべての桁
を発声し終えると話者は発声を止める。

この終了状態は、タイマ24によって自動検出され、それ
までに入力された数字を出力バッファ24から取出して、
コンピュータ３に一括転送する。

コンピュータ３では一且バッファに記憶し、これらの数
字が正常に入力されたものであるか確認するために、音
声出力部４に数字コードを送りトークバックする。この
とき、音声入力部２には入力カテゴリとして（ハイ／イ
イエ／ツヅク）の制御語を、また入力語数が１語である
ことをS1,S2を通して指示する。

話者は、トークバックで正しく入力されたことが確認で
きた場合には／ハイ／と答え、トークバックがおかしい
場合には／イイエ／と答える。音声入力部では１語固定
になっているので音声が入力されると認識してただちに
答をコンピュータに送る。コンピュータでは／ハイ／が
入力されるとバッファ内の数字情報から商品番号を求め
るし、／イイエ／が入力されるともう一度やり直すこと
になる。

エラーが頻繁に続く場合には数字を区切りながら入力す
ることができる。例えば２桁づつ入力する。この場合、
トークバックで正しく入力されたことが確認されると、
／ツヅキ／という制御語を発声する。コンピュータはこ
れを受けて２桁分をバッファに追加記憶し、これを繰返
す。全桁を入力し終わると最後に／ハイ／と答える。こ
れによってコンピュータは入力完了したことを知り、バ
ッファの内容から商品番号を求めることになる。

第２図はコンピュータ側に入力時間監視手段を設けた場
合の実施例である。コンピュータ７の制御部73から音声
入力部６に入力カテゴリS1を指定すると、音声入力部６
では入力音声をそのカテゴリに絞り認識する。

認識が終わるとその結果をS3を通してただちにコンピュ
ータ７のバッファ72に送り、それと同時に、制御部73に
も送る。

制御部73ではタイマ74を用いて音声入力時間を監視し、
タイマ74にセットした時間が経過しても音声が入力され
ない場合にはタイマ24からのタイムアウト情報により処
理を打切り、バッファ72に入っている数字から製品番号
を求める。

トークバックのための合成コードS4や音声出力部４，ス
ピーカ５は第１図と同じ構成をとる。またこの例では第
１図の桁数情報S2に対するものがないがとくに必要はな
い。

本実施例によれば、桁ごとにトークバックを戻さず一括
してトークバックするため、データの入力所要時間が大
幅に短縮され、わずらわしさもなくなる。さらに入力の
終了に、例えば／オワリ／といった制御音声を用いる必
要がないので、入力対象語がその分限定され認識率が向
上する。また、／オワリ／という制御語自身認識不要に
なり、発声を止めるだけで確実に入力終了が可能とな
る。また商品番号等でも、入力桁数があらかじめ決めら
れていて入力が終了したことをとくに指示しなくてもよ
い場合がある。このようなシステムでは上位桁が“０”
でも必ず入力しなければならないが、本発明では“０”
を入力しなくてもコンピュータで簡単に生成できる。

尚、本実施例では数字の入力について説明したが、これ
に限られるものではなく、単語や音節，句を複数個入力
することも可能である。また公知の連続数字認識方式と
組合わせてもかまわない。

〔発明の効果〕

以上説明したように、本発明によれば、音声の入力に於
て入力が終了したことを自動検知させることが可能とな
り、わずらわしさが解消され、入力所要時間が短縮し、
認識率も向上して安定な音声入力が実現できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す構成図、第２図は本発
明の他の実施例を示す構成図、第３図は第１図の回路に
おける処理の流れ図、である。１……マイク２……音声入力部３……コンピュータ４……音声出力部５……スピーカ

フロントページの続き (72)発明者上村俊夫神奈川県横浜市戸塚区吉田町292番地株式会社日立製作所マイクロエレクトロニクス機器開発研究所内 (72)発明者井関利之神奈川県横浜市戸塚区吉田町292番地株式会社日立製作所マイクロエレクトロニクス機器開発研究所内 (56)参考文献特開昭54−130803（ＪＰ，Ａ) 特開昭52−147002（ＪＰ，Ａ) 特開昭60−104999（ＪＰ，Ａ) 特開昭61−240296（ＪＰ，Ａ) 特開昭60−209798（ＪＰ，Ａ) 特開昭58−97094（ＪＰ，Ａ) 特開昭56−114041（ＪＰ，Ａ) 特公昭61−18199（ＪＰ，Ｂ２)

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識し、その認識結果を
蓄積し、蓄積された認識結果に基づき音声確認をする音
声入力方法において、入力音声の終了後、次の音声が入
力される迄の期間を監視して、一定期間を超えて次の音
声が入力されない場合にタイムアウトと判断してそれま
での蓄積した該認識結果を一組の処理対象とし、その認
識結果を音声出力の確認をとるためにトークバックとし
て音声出力し、その確認結果を入力する際に、確認対象
を確認音声カテゴリにし、その認識対象を制限し、認識
が間違っている場合は、区切った語や桁を入力し、それ
ぞれ区切った語や桁をトークバックして確認をし、認識
が正しい場合は次に連続する音声のつなぎを表す音声を
入力することで順次一括した音声処理の対象として音声
が確認されることで入力を完了することを特徴とする音
声入力方法。
【請求項２】該確認音声カテゴリは、ハイ／イイエとい
う音声であり、該つなぎを表す音声は、ツヅキという音
声であることを特徴とする特許請求の範囲第１項に記載
した音声入力方法。