JP2673716B2 - 音声通信システム及び音声通信装置を制御する方法 - Google Patents

音声通信システム及び音声通信装置を制御する方法

Info

Publication number
JP2673716B2
JP2673716B2 JP63507506A JP50750688A JP2673716B2 JP 2673716 B2 JP2673716 B2 JP 2673716B2 JP 63507506 A JP63507506 A JP 63507506A JP 50750688 A JP50750688 A JP 50750688A JP 2673716 B2 JP2673716 B2 JP 2673716B2
Authority
JP
Japan
Prior art keywords
predetermined
voice
signal
user
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63507506A
Other languages
English (en)
Other versions
JPH02502149A (ja
Inventor
アラン ガーソン,イラ
ルイス リンズレイ,ブレッド
Original Assignee
モトローラ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by モトローラ・インコーポレーテッド filed Critical モトローラ・インコーポレーテッド
Publication of JPH02502149A publication Critical patent/JPH02502149A/ja
Application granted granted Critical
Publication of JP2673716B2 publication Critical patent/JP2673716B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • H04B1/44Transmit/receive switching
    • H04B1/46Transmit/receive switching by voice-frequency signals; by pilot signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、一般的に、音声認識制御システムに関す
る。さらに詳しくは、本発明は、特に移動無線電話機を
利用する場合に生じるような雑音の多い環境で使用する
に適したハンドフリー音声命令制御システムに関する。
背景技術 一般的に、無線電話システムおよび地上線電話システ
ムのいずれの場合にも、ユーザはハンドセットによって
通信を行ない、このハンドセットはユーザの耳の近くに
位置する一端にスピーカを有し、他端にはユーザの口の
近くに位置するマイクを有する。動作中、ユーザの一方
の手はハンドセットを適切な方向に保持するためにふさ
がれるので、自動車を運転する等の動作は、ユーザの空
いた方の手のみによって行わなければならない。ユーザ
により大きな自由度を与えるため、地上線電話システム
においては、通常スピーカ電話機が利用される。近年、
自動車に使用する移動スピーカ電話機が開発された。例
えば、いずれも本発明と同一の出願人に付与されたイー
ストモンドによる米国特許4,378,603号および、ビルム
アによる米国特許第4,400,584号にハンドフリー操作の
移動電話機が述べられている。
ハンドフリー制御システムとは、人間の声に応答し、
自動車用の用途に特に望ましいものである。ほとんどの
移動無線電話機の送受信機としての機能(例えば、オン
/オフ、送信/受信、音量、スケルチ等)、または移動
無線電話機としての機能(例えば、押し釦ダイヤル、音
声認識装置の学習、通話返答)は、如何なる手動操作を
必要とすることなく、音声命令によって容易に実現可能
である。したがって、移動スピーカ電話機に音声認識を
使用すると、自動車の運転者がハンドルから手を離した
り、道路から目をはなしたりする必要がなく、手を全く
使用する必要のない通話を行える潜在的可能性がある。
この特徴によって、手を使用しないで行える能力を拡大
するばかりではく、自動車で移動無線電話機を使用する
場合の安全性と便利性も与えられる。
残念ながら、移動無線電話機に完全なハンドフリー制
御を適用すると、幾つかの重要な障害が生じる。移動環
境に音声認識を使用する場合、自動車に固有の高いレベ
ルの周辺の雑音が音声制御の信頼性に無視できない問題
を生じる。さらに一般に移動スピーカ電話機のマイクロ
フォンは、一般的に頭上にある自動車のサン・バイザに
取付けられる等ユーザの口から離れている。したがっ
て、これに必要な高いマイク感度によって、音声認識装
置に入力される周囲のバックグランドノイズ量が大幅に
増大し、これはこの装置の認識に対する信頼度を低下さ
せる。
しかし、さらに重要なことは、音声認識の誤動作の問
題である。もし、音声命令制御装置が「通話に対する返
答」命令を誤って識別した場合、通話装置が必要でない
ときに「オフ・フック(受話器を外した)」状態とな
り、これは一般に一寸した不便に過ぎない。しかも、も
し制御装置が「通話終了」命令を誤って検出した場合、
この制御装置は装置を「オン・フック(受話器を置い
た)」状態にし、この通話は予期せず終了してしまい、
このことは少なくとも、ユーザにかなりの欲求不満を与
える。したがって、通話終了命令に対する音声認識の誤
動作は、他の命令語よりもさらに重大な結果を生じる。
このような理由によって、ハンドフリー電話機で通話
を終了させる従来技術は、厳しい制限を受けていた。大
半のシステムは、通話はなお手動で応答して終了しなけ
ればならないため、完全にハンドフリーではない。例え
ば、セルラー移動無線電話機は音声命令ダイヤルの特徴
を提供できても、この電話機の場合、ユーザは、音声命
令システムを動作させるため、しばしば受話器を取上げ
る必要がある。他の移動電話システムの場合、ユーザは
ハンドルに取付けた「通話終了」釦を動作させる必要が
ある。さらに、他の音声制御電話機システムは、単一の
独立した言葉の識別テンプレート(recognition templa
te)に対応する音声命令を認識することによって、通話
を終了させる。雑音レベルが高い環境では、実際上音声
認識装置が誤動作し、通話を不用意に終了させる可能性
がある。さらに、ユーザが通話中不用意に音声命令語を
発した場合、通話が終了する可能性がある。この誤動作
を可能性は、音声認識装置がユーザの音声の多様な特性
に強力に対応できる望ましい特徴を持つことによって、
さらに増大する。
したがって、ハンドフリー通話装置において、音声命
令によって通話を終了させるための信頼できる方法を提
供する必要がある。
発明の概要 したがって、本発明の一般的な目的は、音声命令によ
って電話の通話を終了させる改良した方法と装置を提供
することである。
さらに本発明の特定の目的は、誤って通話を中断する
ことが殆ど無く、完全にハンドフリー操作の可能な改良
したユーザと相互に作用可能な音声命令制御システムを
提供することである。
本発明によって、音声通話装置が提供され、この装置
は、ユーザの話した命令語に応答して音声命令制御シス
テムによって与えられた命令信号によって制御される。
この音声命令制御システムは音声認識ユニットを有し、
これはユーザが発した第1の発声を予め設定した第1命
令語に対応するものとして認識し、この認識に応答して
第1検出信号を導出し、ユーザが発した第2の発声を予
め設定した第2命令語に応答するものとして認識し、こ
れに応答して第2検出信号を導出する。この制御システ
ムはさらに、デバイス制御装置を有し、この装置は所定
の識別時間間隔内に第1検出信号に続いて第2検出信号
の発声する場合にのみ、これに応答して命令信号を発生
し、この結果、もし予め設定した最大中断時間間隔を超
過した場合、第2命令語を認識しても、命令信号は発生
されない。
好適な実施例の場合、ハンドフリーなユーザと相互に
作用可能な音声命令制御システムは、移動スピーカ電話
機を用いた自動車無線電話機に使用される。この制御シ
ステムは、オフ・フック・モードから無線電話機を切替
える機構を有し、この場合、オン・フック・モードで通
話経路が形成され、オン・フックに信号に応答して通話
経路が遮断される。この制御システムは、またユーザが
発した第1の発声を第1の予め設定した終了命令語に応
答するものとして認識し、この認識に応答して第1検出
信号を導出する機構,ユーザが発した第1の発声の終了
とユーザが発した第2の発声の開始との間の時間間隔を
測定し、この時間間隔が所定の中断時間間隔内の場合の
み、時間信号を発生するタイマ,ユーザが発した第2の
発声を第2の予め設定した終了命令語に応答するものと
して認識し、この認識に応答して第2検出信号を導出す
る機構,タイマ信号と連続して発生する第1および第2
検出信号にのみ応答して遮断信号を発生する判定機構,
遮断信号に応答しユーザに指示を行う音声合成器,続い
てユーザが発した発声を予め設定したエラー命令語に対
応するものとして認識し、この認識に応答してエラー信
号を導出する機構,およびもし遮断信号の発生の後,エ
ラー信号が所定の再接続期間内に発生しない場合にの
み、遮断信号に応答してオン・フック信号を発生する訂
正機構を有し、その結果、所定の再接続時間間隔内にエ
ラー命令語を認識することによって、終了命令語の認識
が通話経路を終了させるのを防止する。
図面の簡単な説明 第1図は、本発明によるハンドフリー・スピーカ電話
機を用いる通話装置用の音声命令制御システムのブロッ
ク図である。
第2A図および第2B図は、本発明の好適な実施例である
制御システムにより実行される動作の特定の詳細なシー
ケンスを示すフローチャートである。
発明を実施するための最良の形態 新規であると信じられる本発明の特徴は、特に添付の
請求の範囲に詳しく述べられる。しかし、本発明自体
は、この他の目的および利点と共に、添付図面と組合わ
せて以下の詳細な説明を参照することにより、最もよく
理解される。
音声認識は、雑音の多い環境において誤動作しやす
い。したがって、本発明はたとえ適切な命令シーケンス
が認識された場合でも、通話を継続する能力を提供する
ため、ユーザとの情報の相互作用と共に、時間の定まっ
た語間の中断間隔を有する所定の2語の命令シーケンス
を使用して通話終了手順を開始する。連続する2つの発
声の認識を必要とする音声認識文法構造を使用すること
により、連続して音声認識装置を使用した場合でも、通
話中に発生する誤認識の可能性の可能性を受容可能なレ
ベルまで大巾に減少することができる。もし選択された
特定の命令語が複数の音節を有する場合、このシステム
の信頼性はさらに強化される。さらに、本発明は、もし
音声認識装置が誤動作した場合、またはユーザが正しい
命令を話そうとしなかった場合でも、ユーザに通話を継
続する手段を提供する。その結果、本発明は、周囲の雑
音が高い条件においても、ユーザが高い信頼性で音声命
令によって電話の通話を遮断することを可能にする。
一般的に、この制御システムは、特定の音声命令に対
応するユーザの発声の認識を行うために待機している。
好適な実施例の場合、通話の終了命令を表すために2つ
の単語TERMINATE(終了)とCONVERSATION(会話)を選
択した。TERMINATEとCONVERSATIONという語は、いずれ
も−−この語順に−−、両単語間にできるだけ短いポー
ズをおいて認識されなばならない。これらのTERMINATE
とCONVERSATIONという単語が認識されると、この制御シ
ステムは、TERMINATEという単語を合成し、通話が終了
しつつあることを指示する。この時点において、制御装
置は受信した音声を出力せず、所定の再接続時間間隔、
例えば5秒間、待機した後通話を終了させる。もし、ユ
ーザが5秒間の待機時間中にCALL(通話)という言葉を
発声した場合、制御装置は「ブザー音」を合成して通話
が終了しないことを示し、受信した音声を出力する。そ
こで制御装置は通話を終了させない。通話終了手順の間
にユーザとの間の相互作用のフィードバックを行うこの
方法によれば、もし音声認識装置が誤動作した場合、ま
たはユーザがうっかり適切な命令語のシーケンスお発声
した場合でも、ユーザは通話を再接続することが可能に
なる。
ここで添付図面を参照して、第1図は本発明のユーザ
との間の相互作用制御システム100の一般的なブロック
図を示す。このシステムは、基本的に音声通信装置140
に接続されたデバイス制御装置120によって構成され
る。このシステムは、特に電話機ハンドセットよりむし
ろスピーカ電話機と共に使用され、それにより、ユーザ
の手は自由となり他の操作を行うことができる。スピー
カ電話機150は、このハンドフリーの特徴を与えるた
め、音声経路の方向を制御する。音声認識装置110は、
ユーザからの口頭による命令を命令信号に変換するた
め、スピーカ電話機とデバイス制御装置に結合される。
このデバイス制御装置は、音声認識装置とタイマ124か
ら来る情報を監視する。制御装置は、タイマをリセット
する能力、通信装置をオン・フック状態にする能力、テ
ンプレートを選択し音声認識装置110を動作させる能
力、およびユーザにフィードバックするために音声合成
装置130に情報を提供する能力を有する。
音声通信装置140は、例えば、双方向無線システム、
電話システム、インタコム・システム等のようないずれ
かの無線または地上線音声通信システムの部分を有して
もよい。本実施例では、音声通信装置140は、セルラー
移動無線電話機のような無線電話送信受信機である。こ
のような無線電話機の詳細な説明は、「DYNA T.A.C.
セルラー移動電話機」という名称のモトローラ社取扱い
説明書68P81066E40号に記載されている。しかし、ハン
ドフリーなユーザとの間に相互作用動作を保証する音声
通信装置ならいずれを使用してもよい。例えば、ハンド
フリー制御を必要とするいずれの地上線電話機または単
方向無線送受信機もまた、本発明を利用することが可能
である。
音声通信装置140は、送信経路144と受信経路142を利
用して送信/受信音声を通信チャンネルにインターフェ
ースする。自動車無線電話機の好適な実施例では、これ
らの経路は、全二重無線電話動作(duplex radioteleph
on operation)のため1対の無線周波数(RF)チャンネ
ルに対してインターフェースを行うことが可能であり、
または単方向動作のために単一のRFチャンネルに対して
インターフェースを行うことも可能である。
音声認識装置110は、入力音声信号158に基づいて音声
認識を実行する。識別中、音声認識装置110は以前に記
憶していた言語テンプレートを入力音声情報と比較す
る。本実施例の識別アルゴリズムは、ほぼテンプレート
との整合を決定するため、ほぼ連続的な音声認識、動的
時間ワーピング(worping)、エネルギの正規化、およ
びチェビシェフ間隔測定を含む。IEEE音響言語および信
号処理に関する国際会議(IEEE International Confere
nce on Acoustic Speech and Signal Processing)(19
82年3月3日−5日)第2巻、899−902頁に記載された
J.S.ブライドル、M.D.ブラウンおよびR.M.チャンバーレ
インによる「結合語の認識アルゴリズム」(An Algorit
hm for Connected Word Recognition)のような従来技
術の認識アルゴリムもまた使用可能である。
本実施例では、8ビットのマイクロコンピュータが音
声認識装置110の機能を実行する。さらに、第1図の他
の幾つかの制御システム・ブロックは、CODEC/FILTERと
DSP(デジタル信号処理装置)の支援によって同じマイ
クロコンピュータにうよって部分的に実行される。ブロ
ック110の機能を実行するために使用可能な音声認識装
置は、J.ペックハム、J.グリーン、J.キャニング、およ
びP.スティーブンスによる「実時間ハードウエア連続音
声認識システム」(A Real−Time Hardware Continruou
s Speech Recognition System)という標題のIEEE音
響、言語および信号処理に関する国際会議(IEEE Inter
national Conference on Acoustics,Speech,and Signal
Processing)(1982年3月3日−5日)、第2巻、863
−866頁およびここに含まれる参考文献に述べられてい
る。しかし、本発明は、いかなる特定のハードウエアま
たはいかなるタイプの音声認識にも限定されるものでは
ない。特に、本発明は、特定話者または非特定話者の音
声認識、分離または連続的音声認識、およびソフトウエ
アを基本とした、またはハードウエアを基本とした実行
を使用を意図するものである。
デバイス制御装置120は一般にマイクロプロセッサで
あって、これは音声通信装置140、音声認識装置110、お
よび音声合成装置130の間のインターフェースを行う。
デバイス制御装置120は、音声認識装置110によって与え
られたデバイス制御データ112を制御信号に変換し、こ
れらの信号は特定の音声通信装置によって認識すること
ができる。これらの制御信号は、ユーザによって命令さ
れた特定の動作機能を実行するために装置に命令を与え
る。例えば、もしユーザが発した発声が予め設定した通
話返答命令または通話終了命令に対応する場合、デバイ
ス制御装置120は、制御バス148を介し適切なフックスイ
ッチ(hookswitch)制御信号を発生する。制御装置120
は、また制御ヘッドのロック解除、電話番号または他の
動作機能の番号のダイアル等のような音声通信装置140
の他の機能である音声命令制御を実行する。
デイバイス制御装置120は、また音声通信装置140の動
作状態を表す装置状態データ122を発生する。このデー
タは、音声合成装置130に供給され、スピーカ176から出
力されると、ユーザが認識できる音声に変換される。例
えば、ユーザの発した発声が予め設定された音声命令に
対応する場合、音声合成装置130はその認識に応答して
ユーザに対する指示を合成する。状態情報はまた、音声
によるダイアル・システム中に格納した名前および電話
番号(「事務所、555−1234」等)、音声認識状態情報
(「用意」、「終了しますか?」等)、または無線電話
状態情報(「通話が終了しました」、「システムが混ん
でいます」等)を有してもよい。
本実施例では、音声合成装置130として19チャンネル
のボコーダ(Vocoder)が使用される。このようなボコ
ーダの例は、J.N.ホルムスによる「JSRUチャンネル・ボ
コーダ」(The JSRU Channel Vocoder)と題する1980年
2月付けIEE発行第127巻、パートF、第1号、53ないし
60頁に見ることが可能である。しかし、当業者に明らか
なように、他のいかなる音声合成装置でも利用可能であ
る。さらに、本発明は、ユーザに指示を与えるいかなる
手段も音声合成ブロック130の基本的な返答機能を実行
することを意図している。例えば、視覚的指示(例え
ば、LED,LCD,CRT等)または聴覚的表示(例えば、トー
ン発生器または他の聴覚信号)で代替することが可能で
ある。
タイマ・ブロック124は、ユーザが発した第1の発声
の終了とユーザが発した第2の発声の開始との間の時間
間隔の測定と、予め設定したTERMINATE命令が認識され
てからの再接続時間間隔を測定を行う。これらの時間間
隔は、データ・バス126を介して制御装置120によって初
期化、読取り、およびリセットされることが可能であ
る。これらのタイマの動作は、第2図の詳細な説明を参
照すること。
スピーカ電話機150は、ハンドフリー制御システムの
送信/受信音声切替え機能と受信音声/返答音声の多重
化機能を行う。ユーザが発した入力音声はマイク152へ
入力され、このマイクは、一般にユーザの口から離れた
場所(例えば、自動車のサン・バイザ上)に取付けられ
る。マイク152は、電気的な入力音声信号を発生し、こ
の信号はプリアンプ153によって増幅され、入力音声信
号154はスピーカ電話機150に供給される。スピーカ電話
機150は、入力信号線158を介して154における入力音声
信号を音声認識装置110に加える。
単方向システムでは、移動無線のユーザが話している
場合、信号検出器160は検出出力162を介して正の制御信
号を与え、送信音声スイッチ156を閉じ、検出出力164を
介して負の制御信号を与え、受信音声スイッチ166を開
く。反対に、地上線の加入者が話している場合、信号検
出器160は複数の反転した信号を発生して受信音声スイ
ッチ166を閉じ、一方送信音声スイッチ156を開く。受信
音声スイッチ166が閉じられている場合、音声通信装置1
40からの受信機音声146は、受信音声スイッチ166を経由
し、切替えらえた受信音声出力168を介してマルチプレ
クサ170に送られる。マルチプレクサ170は、デバイス制
御装置120からの多重制御信号128に応答して、音声合成
装置130からの音声返答オーディオ132と切替えられた受
信オーディオ168との間のオーディオ経路を制御する。
デバイス制御装置が音声合成装置に情報を送る場合はい
つも、多重信号128はマルチプレクサ170に音声返答オー
ディオをスピーカに加えるように指示する。車両用スピ
ーカ電話機のオーディオ172は、通常スピーカ176に供給
される前にオーディオ増幅器174によって増幅される。
ここで説明する車両用スピーカ電話機の実施例は、多
数ある可能な構成の1つにすぎない。例えば、音声認識
装置110は、地上線加入者が話していると否とに拘ら
ず、移動ユーザの命令に常に応答できることが望まし
い。このような場合、入力音声信号154は、音声認識装
置110に直接接続される。さらに、幾つかの通信システ
ムの場合、オーディオ・スイッチ156および166を、信号
検出器からの制御信号に応答して等価だが反対の減衰を
行う可変ゲイン装置に置き換えると有利である場合があ
る。信号検出器160は、また地上線加入者または移動ユ
ーザが話しているか否かを表す信号をデバイス制御装置
120に供給して、音声認識装置110が地上線加入者からの
音声を誤って認識するのを防止するのに使用することが
できる。
され理解できるように、デバイス制御装置120はユー
ザとの間の相互通信ハンドフリー音声命令制御システム
100の心臓部である。技術上周知のもので本発明に使用
するのに適したデバイスの制御装置の例は、マイクロプ
ロセッサである。デバイス制御装置120の詳細な動作
が、制御システム100用のソフトウエア・フローチャー
トによって説明される。
第2A図と第2B図は、通話終了命令シーケンスの期間中
に制御システム100によって実行されるステップのシー
ケンスを説明する。ステップ202から始まり、制御装置
は、先ずステップ204で通信装置140の状態をチェックす
る。もし通話が進行中でなければ、制御はステップ204
に戻り、その結果、通話終了命令シーケンスは実行され
ない。もし通話が進行中であれば、制御はシーケンス20
0に進み、このシーケンスは、2つの単語TERMINATE CON
VERSATIONの音声認識プロセスを示す。
適当な単語認識テプレートが先ずステップ206で選択
される。次に、ステップ208で、音声認識装置110は、ユ
ーザの発した発声を認識するためにイネーブルにされ
る。ステップ210で、制御装置は、ステップ252で通話の
遮断がユーザに対して直ちに指示されるように、電話の
通話がまだ進行中であるかどうかをチェックする。この
指示は「通話が切れています」のような単語の合成でも
よいし、または他の可聴的な視覚的指示でよい。
もしまだ通話が行われている場合、ステップ212で制
御装置は音声認識装置が何らかの単語を認識したかどう
かをテストする。もしまだ何らの単語も認識されていな
いなら、制御はステップ210に戻り、再び通話がまだ行
われているかどうかチェックする。しかし、もし単語が
認識されていると、ステップ214で認識された単語の異
なったパラメータに対して変数W1,D1,およびT1を割り当
てる。さらに詳しくは、変数W1は認識された単語に割り
当てられる。間隔距離、すなわち認識された単語と特定
の単語のテンプレートとの整合性の量的な測定変数は、
変数D1として示される。変数T1は、単語1に対応する第
1の発声の終了と一致する時点に割り当てられ、これは
終了時間として定義される。
ステップ216では、単語1に対する間隔距離D1は音声
認識しきい値と比較され、これが所定の近似する程度に
一致するか否かを決定する。すべての音声認識アルゴリ
ズムは、ある量的な認識しきい値を本来的に有し、これ
は発声がテンプレートと一致することが決定される前に
合致しなければならない。希望すれば、この音声認識し
きい値は、誤動作を最小にする重要性のため、通話終了
命令に対しより高度な近似に対応するよう調整すること
が可能である。もしD1が間隔距離しきい値以上であれ
ば、制御はステップ210へ戻る。もしD1が間隔距離しき
い値未満であれば、ステップ218で、認識した単語が予
め設定した通話終了命令に対応する正しい単語認識テン
プレートに対応するか否かをチェックする。好適な実施
例では、ステップ218は単にW1がTERMINATEという単語で
あるか否かをチェックする。もしTERMINATEという単語
が認識されなかったなら、制御はシーケンス200の開始
点に戻る。
もし認識された最初の単語がTERMINATEであったな
ら、ステップ220でこの通話がまだ進行中であるか否か
再びチェックされる。再び、通話が進行中でない場合、
ブロック252で「通話は切れています」という指示が出
力され、制御は開始ステップに戻る。もし通話がまた進
行中であれば、ステップ222でTERMINATEという単語の終
了からどれ位の時間が経過したかをチェックする。もし
この時間が最大待機時間を超えたなら、制御はシーケン
ス200に戻る。ステップ222は、制御装置が次の発声が認
識されるまで無制限に待機しないことを保証する。もし
この待機時間を超えていなければ、ステップ224で、第
2の単語が認識されたか否かをチェックする。もし認識
されないならば、ステップ220に戻る。もし第2の単語
が認識されたならば、ステップ226で変数W2,D2,およびT
2が以下のように割当てられる。W2は認識された単語に
割当てられ、D2は認識された第2の単語の間隔距離に割
当てられ、T2はユーザが発した第2の発声の開始時点に
割当てられる。ステップ228で再び、正しいテンプレー
トの一致が実現したか否かを知るため、音声認識しきい
置に対する間隔距離D2のチェックを行う。もし一致しな
い場合、制御はステップ220に戻る。もしD2が必要な一
致しきい値未満であれば、通話終了命令の正しい第2の
単語が認識されたか否かを知るため、ステップ230で第
2の単語の変数W2がテストされる。好適な実施例では、
第2の単語としてCONVERSATIONを使用する。もしW2がCO
NVERSATIONでなければ、制御は再びシーケンス200に向
けられる。
次に、ステップ232で、ユーザの発した第1の発声の
終了からユーザの発した第2の発声の開始迄の時間間
隔、すなわち、T1−T2が予め設定した最大中断時間間隔
と比較される。これによって、2つの単語TERMINATEとC
ONVERSATIONが、これらの単語の間の特定の中断間隔未
満の間隔で発生したことが保証される。所定の中断時間
間隔の選択は、適正なものであればいずれの値でもい
が、1秒未満が好ましい。好適な実施例の場合、使用す
る最大中断時間間隔は300ミリ秒である。もしT1−T2が
中断時間間隔以上であれば、制御は再びシーケンス200
に戻る。しかし、もしTERMINATE CONVERSATIONが、これ
ら単語間の所定の中断時間間隔未満で正しい順序で認識
されたなら、制御はステップ234に進み、ここで制御装
置はユーザにTERMINATE CONVERSATIONが認識されたこと
を指示する。再び、この指示は音声合成、視覚手段、ま
たは聴覚手段によって実行されたことができる。
ステップ236で、再接続タイマがスタートする。再接
続タイマは、TERMINATE CONVERSATIONを認識してからの
時間間隔を測定する。この時、エラー命令の認識による
妨害を防止するため、受信したオーディオ音を消すこと
が望ましい。ステップ238で、再接続タイマが所定の最
大再接続時間を超えたかどうか、または通話が切れたか
どうかを知るため、このタイマをチェックする。好適な
実施例では、このような最大再接続時間は2秒ないし10
秒の範囲であり、5秒が好ましい。もし再接続タイマが
まだ終了せず、通話も依然継続している場合、制御はス
テップ240に進み、ここで音声認識装置は、予め設定し
たエラー命令に対応してユーザの発した発声を認識する
ため、プログラムされる。本実施例では、エラー命令と
してCALLという単語が使用される。もし再接続タイマが
終了する前にエラー命令が認識されると、ステップ244
で制御装置は通話が再接続されることを指示する。例え
ば、制御装置は通話が再び継続されることを指示するた
め、ブザー音を合成することができ、通話を継続させる
ため、受信したオーディオ音を消去しない。次に、制御
は、TERMINATE CONVERSATIONという単語を探すためシー
ケンス200に戻る。もしエラー命令が再接続タイマが終
了する前に認識されないと、デバイス制御装置はユーザ
が制御装置に電話の通話を切ることを希望していると判
断する。したがって、ステップ246で、この制御装置は
通話装置をオン・フック状態に切替える。ステップ248
で、音声認識装置はディセーブルされ、通話終了プロセ
スはステップ250で終了する。
要約すれば、制御装置の実行する特定のステップのシ
ーケンスによって、本発明は、通話を終了させる信頼性
のある方法を提供することが理解される。本発明では、
通話終了命令認識シーケンスを認識した場合、幾つかの
制約を加える必要がある。上述したように、通話終了手
順に加える制約は、次の通りである(例としてTERMINAT
EとCONVERSATIONという単語を使用する場合)。(1)
予め設定した通話終了命令は独立した2つの言語の発声
でなければならない(例えば、TERMINATEとCONVERSATIO
N);(2)発声は正しい順序でなければならない(例
えば、TERMINATEが最初で、次にCONVERSATIONがく
る);(3)最初の発声の終了と次の発声の開始との間
に最大中断時間があること(例えば、300ミリ秒);お
よび(4)これが予め設定した音声認識一致基準を満足
することである。さらに、確認時間間隔が設けられ、そ
の結果、ユーザは、エラー命令を使用して通話を再接続
することも可能である。
したがって、本発明によれば、高いバックグラウンド
雑音レベルの環境で使用する場合でも、ハンドフリー制
御システムに対して高い信頼性が提供される。例えば本
発明は、ユーザが音声命令によって通話に応答し、通話
を終了させようと希望するいかなる条件で使用すること
が可能である。一般的に、本発明は、地上線電話機また
は移動電話機いずれの場合にも、ハンドフリーの機能を
提供するスピーカ電話機と組合わせて使用される。しか
し、本発明はまた、ハンドセット電話機またはヘッドセ
ット型の電話機にも十分適合する。
ここで本発明の特定の実施例を図示し説明したが、当
業者は、さらに変形と改良を行うことができる。特に、
TERMINATE,CONVERSATION,およびCALLの命令語は、上述
の基準に合致する英語の単語を表すものとして好適な実
施例で選択されたものであるに過ぎないことを理解しな
ければならない。しかし、特に異なった言語で使用する
場合、もし希望すれば、他の命令語を選択することも可
能である。ここに開示し、特許を請求している基本的な
根底にある原理を保持するこのような変形は、全て本発
明の範囲内のものである。
フロントページの続き (72)発明者 リンズレイ,ブレッド ルイス アメリカ合衆国イリノイ州パラタイン、 ステアリング1170、アパートメント 116 (56)参考文献 特開 昭58−130635(JP,A) 特開 昭59−176793(JP,A)

Claims (18)

    (57)【特許請求の範囲】
  1. 【請求項1】音声通信装置によって確立された音声通信
    経路を制御する音声命令制御システムにおいて、前記音
    声通信経路は、利用者の発する命令語に応答して前記制
    御システムによって与えらえる命令信号によって制御さ
    れ、前記制御システムは、 少なくとも前記音声通信経路が確立されている期間、連
    続した第1及び第2の利用者の発する発声を認識する音
    声認識手段を含み、 前記音声認識手段は、 前記音声通信経路が確立されている期間、利用者の発し
    た前記第1の発声を、所定の第1命令語に対応するもの
    として認識し、この認識に応答して第1検出信号を導出
    する第1手段と、 利用者の発した前記第2の発声を、所定の第2命令語に
    対応するものとして認識し、前記所定の第2命令語が認
    識される場合第2検出信号を導出し、前記所定の第2命
    令語が認識されない場合前記所定の第1命令語の前記認
    識を取り消す第2手段と、 前記第1検出信号の後の所定の認識時間間隔内に発生す
    る前記第2検出信号に応答して、前記第2検出信号の後
    の所定の照合時間間隔後に前記命令信号を発生する決定
    手段と、 利用者の発した第3の発声を、所定の第3命令語に対応
    するものとして認識し、この認識に応答して第3検出信
    号を導出する第3手段と、 前記第2検出信号の後の前記所定の照合時間間隔内に前
    記第3検出信号が発生する場合、前記決定手段が前記命
    令信号の導出を阻止する訂正手段と、 によって構成されることを特徴とする音声命令制御シス
    テム。
  2. 【請求項2】前記所定の認識時間間隔が5秒未満である
    ことを特徴とする請求項1記載の音声命令制御システ
    ム。
  3. 【請求項3】前記所定の照合時間間隔が10秒未満である
    ことを特徴とする請求項1記載の音声命令制御システ
    ム。
  4. 【請求項4】ハンドフリーで利用者と相互に作用可能な
    音声命令制御システムであって、通信経路が形成される
    オフ・フック状態から、通信経路を遮断するオン・フッ
    ク信号に応答して前記オン・フック状態に切替える手段
    を含む音声命令制御システムにおいて、 前記オフ・フック状態において、利用者の発した第1の
    発声を、所定の第1終了命令語に対応するものとして認
    識し、この認識に応答して第1検出信号を導出する第1
    手段と、 前記利用者の発した第1の発声の終了と利用者の発する
    続いて起こる第2の発声の開始との間の中断時間間隔を
    測定し、測定した前記中断時間が所定の最大中断時間間
    隔未満である場合にのみ、タイマ信号を与えるタイマ手
    段と、 前記利用者の発した第2の発声を、所定の第2終了命令
    語に対応するものとして認識し、前記所定の第2終了命
    令語が認識される場合第2検出信号を導出し、前記所定
    の第2終了命令語が認識されない場合前記第1検出信号
    を取り消す第2手段と、 測定した前記中断時間間隔が所定の前記最大中断時間を
    超える場合、前記第2終了命令語が認識されていても前
    記通信経路が終了されないように、前記タイマ信号及び
    順次発生する前記第1及び第2検出信号にのみ応答し
    て、切断信号を導出する決定手段と、 前記切断信号に応答して利用者に指示を与える手段と、 利用者の発した発声を、所定のエラー命令語に対応する
    ものとして認識し、この認識に応答してエラー信号を導
    出する第3手段と、 前記エラー命令語が所定の再接続時間内で認識されるこ
    とによって、前記第2終了命令語が認識されていても前
    記通信経路が終了されず、前記切断信号の発生後の前記
    所定の再接続時間間隔内に前記エラー信号が発生しない
    場合にのみ、前記切断信号に応答して前記オン・フック
    信号が導出される訂正手段と、 によって構成されることを特徴とする音声命令制御シス
    テム。
  5. 【請求項5】前記音声通信装置が移動無線電話機である
    ことを特徴とする請求項4記載の音声命令制御システ
    ム。
  6. 【請求項6】前記音声通信装置がスピーカ電話機を含む
    ことを特徴とする請求項4記載の音声命令制御システ
    ム。
  7. 【請求項7】前記第1,第2,及び第3手段が、結合された
    単語による音声認識を実行することを特徴とする請求項
    4記載の音声命令制御システム。
  8. 【請求項8】前記所定の第1及び第2終了命令語が、各
    々少なくとも2音節を有することを特徴とする請求項4
    記載の音声命令制御システム。
  9. 【請求項9】前記所定の最大中断時間間隔が1秒未満で
    あることを特徴とする請求項4記載の音声命令制御シス
    テム。
  10. 【請求項10】前記指示を与える手段が、音声合成装置
    であることを特徴とする請求項4記載の音声命令制御シ
    ステム。
  11. 【請求項11】前記所定の再接続時間が10秒未満である
    ことを特徴とする請求項4記載の音声命令制御システ
    ム。
  12. 【請求項12】音声通信装置と他の装置との間に確立さ
    れた音声通信経路を制御するために、音声認識及び装置
    の動作を制御する能力を有する音声通信装置を制御する
    方法において、前記方法は、 前記音声通信経路を確立する段階と、 少なくとも前記音声通信経路が確立されている期間、利
    用者が発した第1の発声を、所定の第1命令語に対応す
    るものとして認識し、この認識に応答して第1検出信号
    を導出する段階と、 前記利用者の発した第1の発声の終了と利用者の発する
    続いて起こる第2の発声の開始との間の中断時間間隔を
    測定し、測定した前記中断時間間隔が所定の最大中断時
    間未満である場合のみ、タイマ信号を導出する段階と、 利用者の発する続いて起こる前記第2の発声を、所定の
    第2命令語に対応するものとして認識し、前記所定の第
    2命令語が認識される場合第2検出信号を導出し、前記
    所定の第2命名語が検出されない場合利用者の発する第
    1の発声を認識する前記段階へ戻る段階と、 前記タイマ信号及び順次に発生する前記第1及び第2検
    出信号にのみ応答して、前記第2検出信号の発生後の所
    定の再接続時間間隔後に第1装置制御信号を導出する段
    階と、 前記第1装置制御信号に応答して利用者に指示を与える
    段階と、 利用者の発した第3の発声を、所定の第3命令語に対応
    するものとして認識し、この認識に応答してエラー信号
    を導出する段階と、 前記第2検出信号の発生後の所定の再接続時間間隔内に
    前記エラー信号が発生しない場合にのみ、前記第2検出
    信号に応答して第1装置制御信号を導出する段階と、 によって構成されることを特徴とする方法。
  13. 【請求項13】前記音声通信装置が移動無線電話機であ
    ることを特徴とする請求項12記載の方法。
  14. 【請求項14】全ての認識段階が、結合された単語によ
    る音声認識を使用して実行されることを特徴とする請求
    項12記載の方法。
  15. 【請求項15】前記所定の第1及び第2命令語が、各々
    少なくとも2音節を有することを特徴とする請求項12記
    載の方法。
  16. 【請求項16】前記所定の最大中断時間間隔が1秒未満
    であることを特徴とする請求項12記載の方法。
  17. 【請求項17】前記指示を与える段階が音声合成を使用
    して実行されることを特徴とする請求項12記載の方法。
  18. 【請求項18】前記所定の再接続時間が10秒未満である
    ことを特徴とする請求項12記載の方法。
JP63507506A 1987-10-02 1988-08-24 音声通信システム及び音声通信装置を制御する方法 Expired - Fee Related JP2673716B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10515187A 1987-10-02 1987-10-02
US105151 1987-10-02
US105,151 1987-10-02

Publications (2)

Publication Number Publication Date
JPH02502149A JPH02502149A (ja) 1990-07-12
JP2673716B2 true JP2673716B2 (ja) 1997-11-05

Family

ID=22304314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63507506A Expired - Fee Related JP2673716B2 (ja) 1987-10-02 1988-08-24 音声通信システム及び音声通信装置を制御する方法

Country Status (11)

Country Link
EP (1) EP0393059B1 (ja)
JP (1) JP2673716B2 (ja)
KR (1) KR960004692B1 (ja)
AR (1) AR244482A1 (ja)
AT (1) ATE119724T1 (ja)
AU (1) AU609527B2 (ja)
BR (1) BR8807726A (ja)
CA (1) CA1290871C (ja)
DE (1) DE3853294T2 (ja)
IL (1) IL87377A (ja)
WO (1) WO1989003139A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100266203B1 (ko) * 1997-08-01 2000-09-15 구자홍 음성 및 펜입력을 갖는 소형 정보 단말기
KR20010094229A (ko) * 2000-04-04 2001-10-31 이수성 전화기의 음성인식 조작 방법 및 시스템
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
JP6897451B2 (ja) * 2017-09-22 2021-06-30 沖電気工業株式会社 端末、プログラム、通信方法及び通信システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4348550A (en) * 1980-06-09 1982-09-07 Bell Telephone Laboratories, Incorporated Spoken word controlled automatic dialer
GB2113048A (en) * 1982-01-07 1983-07-27 Gen Electric Voice-responsive mobile status unit
US4525793A (en) * 1982-01-07 1985-06-25 General Electric Company Voice-responsive mobile status unit
US4426733A (en) * 1982-01-28 1984-01-17 General Electric Company Voice-controlled operator-interacting radio transceiver
JPS59176793A (ja) * 1983-03-25 1984-10-06 シャープ株式会社 単語音声認識装置

Also Published As

Publication number Publication date
AU609527B2 (en) 1991-05-02
EP0393059A1 (en) 1990-10-24
BR8807726A (pt) 1990-08-07
DE3853294D1 (de) 1995-04-13
WO1989003139A1 (en) 1989-04-06
CA1290871C (en) 1991-10-15
JPH02502149A (ja) 1990-07-12
KR960004692B1 (ko) 1996-04-11
IL87377A (en) 1992-01-15
EP0393059B1 (en) 1995-03-08
IL87377A0 (en) 1989-01-31
KR890702345A (ko) 1989-12-23
ATE119724T1 (de) 1995-03-15
AU2382688A (en) 1989-04-18
EP0393059A4 (en) 1990-12-12
AR244482A1 (es) 1993-10-29
DE3853294T2 (de) 1995-10-12

Similar Documents

Publication Publication Date Title
JP2673716B2 (ja) 音声通信システム及び音声通信装置を制御する方法
US4945570A (en) Method for terminating a telephone call by voice command
JP2654942B2 (ja) 音声通信装置及びその動作方法
KR0129856B1 (ko) 음성명령에 의한 디지트 시퀀스르 입력하기 위한 방법
US6744860B1 (en) Methods and apparatus for initiating a voice-dialing operation
US20030204397A1 (en) Method of compensating for beamformer steering delay during handsfree speech recognition
WO2001078443A2 (en) Earset communication system
JPS5939154A (ja) 電話装置
US5842139A (en) Telephone communication terminal and communication method
JPH1127376A (ja) 音声通信装置
JPS63122339A (ja) ハンドフリ−通話装置
KR19990058037A (ko) 핸즈프리 키트의 카오디오 연동 장치 및 그 방법
JP3384282B2 (ja) 電話装置
AU756212B2 (en) Method for establishing telephone calls
JPH01135132A (ja) ハンズフリー電話機
JPH04354234A (ja) 電話装置
JP2974427B2 (ja) 音声通信システムとその音声通信装置
GB2209906A (en) Telephone instrument
JPH04286443A (ja) 電話機の保留制御装置
JPH04137953A (ja) 無線電話装置
JPS6027269A (ja) 音声応答信号送出時の相手信号の検出方法
JPH0229054A (ja) 音声ダイヤリング装置
JPH02200046A (ja) 音声認識機能付電話装置
JPH0662103A (ja) 音声入出力装置
JPH0468948A (ja) 自動車電話システム

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees