JPH04504178A - 音声処理装置とそのための方法 - Google Patents

音声処理装置とそのための方法

Info

Publication number
JPH04504178A
JPH04504178A JP2503069A JP50306990A JPH04504178A JP H04504178 A JPH04504178 A JP H04504178A JP 2503069 A JP2503069 A JP 2503069A JP 50306990 A JP50306990 A JP 50306990A JP H04504178 A JPH04504178 A JP H04504178A
Authority
JP
Japan
Prior art keywords
telephone
signal
stored
audio
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2503069A
Other languages
English (en)
Inventor
シュマッカル、ピーター・ジェイ
フィリップス、ミッチェル・エス
ケイパー、フランシス・ピー・サード
スプラウト、ジェイムス・シー
フリード、ロナルド・エイチ
Original Assignee
オリジン・テクノロジー・インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US07/294,168 external-priority patent/US5007081A/en
Application filed by オリジン・テクノロジー・インク filed Critical オリジン・テクノロジー・インク
Publication of JPH04504178A publication Critical patent/JPH04504178A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M13/00Party-line systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 音声処理装置とそのための方法 技術分野 本発明は、特に音声起動電話に適用される音声処理装置に関する。
発明の背景 音声認識装置は、この技術においては周知のものである。音声認識装置は、電話 を含めた多くのタスクを起動するために使用できる。しかし、音声認識に使用さ れているアルゴリズムは複雑であり、専用信号プロセッサ(処理装置)を使用す る必要がある。専用信号プロセッサが使用されるため、装置のコストが増大して いる。
音声認識分析の方法には、ファーストディファレンス・テクニックが使用されて いるが(H,Ne7著“クリップ済み自己相関分析を使用する電話線話者認識” 、Proc、1cAssP8] (Atlantic、1981) 、p188 −192を参照)、これまでにそういった分析は音声認識において実施されてい ない。
音声パターンマツチングプロセスにおいて使用される基本的な動的タイムワーピ ング(DTW)アルゴリズムは、この技術においては周知のものである。基本的 な動的タイムワーピング・アルゴリズムは、Hi+oxki 5xkoeおよび 5eibi Chiba著“単語音声認識のための動的計画法アルゴリズムの最 適化”、IEEE会報、音響、音声および信号処理、Vol、 As+p−26 、pp、 43−49.1978年2月の中で開示されている。しかし、そのア ルゴリズムは、ウィンドウ・スキューイング問題に対する十分な解決法を提供し ない。
変更された(修正された) DTWアルゴリズムが、K。
PIIivsSA、^garvilおよびS、 S、 5inbx著“単語(分 離された語)認識のためのS*koeおよびChihaによる動的タイムワーピ ング・アルゴリズムに対する修正”、音響、音声および信号処理に関するIEE E国際会議、Vo l。
+CASSP−2,pp、l259−61.1982年5月の中で開示されてい る。このアルゴリズムは、ウィンドウ・スキューイング問題の解決を意図したも のだが、やはりエラーを免れない。
DTWオペレーションの“枝刈り”も、先行技術において周知のものとなってい る。枝刈リオペレーションにおいては、k語の検索結果が、Xの最低値を持つH h語となり、さらに、後続の語に対するDTWオペレーションにおいて、合計オ ペレーションの間の特定の時点で、係数の違い(差)がベストスコアを超えた場 合は、そのDTWオペレーションは、終了する。R,B15ixniおよびA。
Waibel著“単語(分離された語)探索認識のための動作トレードオフと探 索テクニック”、音響、音声および信号処理に関するIEEE国際会議、Vat 、IcAs5PI、 pp、570−73.1982年5月を参照のこと。しか し、このテクニックの場合は、まだかなりの量の計算を必要とする。
音声起動電話も、この技術においては、周知のものである。しかし、これらの電 話は、格納されている音声パターンに対して特定の音声パターンを選択する場合 の不確定さを解決できるようなメカニズムを提供するには至っていない。したが って、これらの電話は、エラーが発生する傾向があり、利用者入力による解決は 不可能である。これらおよび他の方法では、それほど高いコストをかけずに他の 新規な機能を実施できる安価な汎用プロセッサを音声起動電話に使用できていな い。
先行技術では、単線電話は、チップおよびリングというラベルの付けられた一対 の物理ワイヤに接続される。通信は、チップおよびリング線を介して両方向に行 われなければならないので、電話器内部の送受信線からチップおよびリング線を 隔離するのに、平衡変成器(bglxnce lransforme+ )が使 用されてきた。そのような平衡変成器は高価であり、場所をとる。
先行技術の電話は、それが接続される電話線のモニタリングを提供してきた。し かし、典型的なモニタリング機能は、リンギング(呼出し信号)と保留(hol d)と話中(busy)に限られている。電話が電話線に接続されているかどう かを確かめるために。電話をオフフックにしないならば、この電話装置は、電話 の電話線に対する接続状態を表示することはできない。
発明の要約 本発明では、音声認識装置とそのための方法を開示する。装置には、変更された (修正された)クリップ済み自己相関関数が使用され、その場合は、クリップ済 み自己相関関数を適用して、格納されている音声パターンを生成する前に、音声 信号のファーストディファレンスを得る。また、装置には、入力音声パターンを 、格納されている音声パターンにマツチさせるための、一定帯域幅動的タイムワ ーピング処理アルゴリズムと適応線形枝刈りラインアルゴリズムも使用される。
本発明は、修正された(変更された)クリップ済み自己相関関数を使用して、音 声信号を処理し、音声パターンの生成およびその音声パターンの格納を行う音声 起動電話にも関する。また、この電話には、入力音声パターンを、格納された音 声パターンにマツチさせるための、一定帯域幅動的タイムワーピング処理アルゴ リズムと適応線形枝刈りラインアルゴリズムも使用される。さらに、この電話は 、不確定なマツチに対しての利用者入力も提供する。
また、本発明の場合は、数値データとともにテキストを入力するための利用者イ ンタフェース・メニューが電話に付き、すでに行った呼出しを記録して表示する ことができる。また、この電話には、応答能力も備わっていて、着信した呼出し を表示し、特定の呼出しを転送し、ディレクトリの中に呼び出し人(コーラ−) の関連名があれば、それを表示することができる。なお、新規のスピード・ダイ アリング機能も開示する。
さらに(最後に)、この電話には、新規の電話線状態(line 5tatus  )モニタリング回路と新規の電話網インタフェース回路も付く。
図面の簡単な説明 第1図は、新規の電話装置の斜視図である。
第2図は、第1図に示されている電話の一部のキーボード配列の平面図である。
第3図は、第1図に示されている電話の略回路ブロック図である。
第4図は、第3図に示されている回路の一部の詳細なブロックレベル略図である 。
第5図は、第3図に示されている電話に使用されるマイクロプロセッサとそれに 関連する回路構成の詳細な回路レベル図である。
第6図は、第3図に示されているキーボードとディスプレイ・アセンブリの詳細 な略回路図である。
第7図は、この電話の電話網インタフェース回路部分の詳細な略回路図である。
第8図は、さまざまな可聴入出力信号とインタフェースするこの電話のインタフ ェース回路部分の詳細な回路レベル図である。
第9図は、一定帯域幅を持つ動的タイムワーピング・アルゴリズムを示したグラ フである。
第10図は、適応線形枝刈りを示したグラフである。
図面の簡単な説明 第1図に関していうと、そこには、電話装置10の斜視図が示されている。電話 10には、マイクロホンとスピーカーの付いた送受器12が含まれる。また、電 話10には、数字入力番号(0−9)と“ネ”と“雲”の制御信号を受信する数 字キーバッド22も付いている。このようなキーボードは、この技術にいては周 知のものである。終わりに、電話10には、スピーカホンを起動させるために使 用するREDIAL(再ダイアル)20、HOLD (保留)18、FLASH (フラッシュ)16および5PEAKER(スピーカ)14という周知の複数の 従来型制御キーも含まれる。
前記のキーの他に、電話10には、DIRECTORY (ディレクトリ)とい うラベルの付いたキー24、’VOICE (音声)というラベルの付いたキー 26および3つの再プログラム可能オプションボタン28(A−C)も付いてい る。さらに、電話10には、16文字の英数字の行を2行表示できるLCDディ スプレイ30も含まれる。
第3図と第4図に関していうと、そこには、電話10のブロックレベル図が示さ れている。電話10は、チップおよびリング32で構成される電話線に接続され ている。電話線32は、電話線保護回路34に接続され、さらにそれが極性保護 回路36に接続されている。極性保護回路36からは、信号(両方向)がハイブ リッド回路40によって分離され(詳しくは以後に述べる)、そこから、送受信 信号がそれぞれ音声接続回路46と受信減衰器回路44に送られる。送受器の受 話器50と送受器の送話器52とスピーカホン・マイクロホン54を接続する他 のアナログ回路も、第4図に示されているが、これらはこの技術においては、周 知のものである。
第4図に示した電話回路における信号は、第3図に示したマイクロコンピュータ 60との間で送受信される。このマイクロコンピュータ6Gは、三菱製の509 43マイクロコンピユータである。このマイクロコンピュータ60は、6502 プロセツサをベースにしている。このマイクロコンピュータ60には、RAMお よびROM形式の主記憶装置が内蔵されている。また、タイマーも付いている。
このマイクロコンピュータ60は、両方向ディジタル入出力ボートも提供する。
また、このマイクロコンピュータ60は、複数の多重入力を伴い、組込みA/D 変換器を有している。
終わりに、このマイクロコンピュータ60には、適切な低パスフィルタが追加さ れるときにアナログ信号を生成できるパルス幅変調器も備わっている。
マイクロコンピュータ60のタイミングは、水晶発振器回路62によって制御さ れる。水晶発振器回路62は、8MH寞の水晶結晶板と支援コンポーネントで構 成されている。この回路は、実際に、マイクロコンピュータ60によって駆動さ れて発振を行い、それにより、結果としての信号が分割されて、2010tlT と010tlTが得られる。信号2010UTは、4MH1のディジタルクロッ ク信号であり、時間制御回路64を駆動するのに使用される。また、010UT 信号は、2 MB2のディジタルクロック信号であり、基本プロセッササイクル 時間を設定するために、マイクロコンピュータ60によって使用される。010 UT信号は、メモリ制御回路66にも送られ、外部記憶装置へのアクセスを制御 するために、メモリ制御回路66によって使用される。
32K X 8 SRAM 68.32 K X 8 EPROMメモリ70お よび出力ラッチ72という形式の外部記憶装置は、すべて、8ビツトデータバス が準備されているマイクロコンピュータ60からの16ビツトアドレスバスによ ってアクセスされる。
それらの記憶装置は、すべてメモリ制御回路66によって制御される。
メモリ回路SRAM 68は、0000から7FFFまでのアドレスが読み取ら れたり書き込まれたりするときに、かならずアクセスされる。EPROMメモリ 70は、8000からFFFFまでのアドレスが読み取られると、かならずアク セスされる。
ディジタル出力ラッチ72は、8000からFFFFまでのアドレスが書き込ま れると、かならずアクセスされる。システムをリセットすると、ディジタル出力 ラッチ72が初期設定されて、すべての出力が低論理レベルに設定される。
出力ラッチ72からの出力信号には、さまざまなものがある。出力ラッチ72は 、マイクロコンピュータ60によって駆動され、マイクロコンピュータ60から 得られる結果を格納できる。出力ラッチ72は、以下の信号を駆動する。
1、DTMFイネーブル74゜この信号は、DTMFデコーダ76に送られる。
この線路(line)上での高論理レベルでは、DTMFデコーダ回路76にお けるデータ出力が可能になる。
2、 LCDイネーブル78゜LCDイネーブル信号78は、LCDモジュール 30に送られる。LCDイネーブル78上の高論理レベルでは、LCDモジュー ル30内のLCD制御装置による、LCDディスプレイ30に対しての読取りお よび書込みが可能になる。
3、 5YNTH82゜この信号は、合成制御回路84に送られる。高論理レベ ルでは、アナログ可聴信号を合成するために、変調器を用いて、マイクロコンピ ュータ60のパルス出力を、低パスフィルタ86に送ることができる。
4、 RING信号88゜この線路(l 1ne)上の高論理レベルでは、PM Wによって駆動された低パスフィルタ86の出力を、リングドライブ経路へ切り 換えて、可聴信号をスピーカホンの増幅器90とスピーカホンのスピーカ92へ 送ることができる。この信号は、呼出しリンガ(calliBer )を合成す るのに使用する。RING線路88における低論理レベルは、低パスフィルタ8 6の出力を、スピーカホンIC48に送る。スピーカホンIC48からは、合成 された可聴信号が、音声接続回路46を介して、チップおよびリング線、さらに 電話網から別の電話へと送られ、呼出し応答機能とともに使用される。
5、LINE信号94゜この信号は、フックスイッチ42へ送られて、電話10 の電話線状態(line Naju+ )を制御する。高論理レベルは、電話を オフフックにする。また、低論理レベルは、電話をオンフックにする。
6、5PEAKER信号96゜この信号は、電話の通常状態の如何、またはスピ ーカホンモードを制御する。高論理レベルは、スピーカホンをオンにする。また 、低論理レベルは、オペレーションを送受器に戻す。
?、 MUTE信号98゜この線路上での高論理レベルでは、チップおよびリン グ32の電話網から入ってくる受信信号の減衰が起こる。また、この信号は、マ イクロホン増幅器90を減衰させるために、スピーカホンIc 4gによっても 使用される。低論理レベルは、通常の信号レベルを可能にする。ミュート信号9 8の二次的な機能は、アナログからディジタルへの変換のためのソース信号(s ourcesignal)の選択を制御することである。ミュート信号98が高 論理レベルになっている場合、電話網32から着信する信号は、認識ソースセレ クタ102回路へ送られ、さらに、低バスフィルタ104、サンプルホールド回 路106を介して、マイクロコンピュータ60内のアナログからの変換器回路へ 送られる。また、ミュート信号98が低論理レベルになっている場合、マイクロ ホン(送受器52またはスピーカ54)からの信号は、マイクロコンピュータ6 o内のアナログ/ディジタル変換器へ送られる。
8、^υ010信号100゜この信号は、音声接続回路(audio conn ect circuit ) 46のチップおよびリング32への接続を制御す る。低論理レベルは、通常のオペレーションを可能にする。また、高論理レベル は、可聴信号が電話網32から送信されたり、受信されたりするのを防止する。
これは、保留(ホールド)機能を実施するために使用され、音声認識の過程でも 使用される。
マイクロコンピュータは、時間制御回路64にも接続されている。時間制御回路 には、システムリセット、ウォッチドッグタイマーリセットおよびタイムレファ ランス割込みという3つの機能がある。パワーアップ中に、リセットパルスが生 成される。これは、マイクロコンピュータ60に安定性を持たせるために、スト レッチされる。手動リセットもストレッチされる。4 MHx信号、2010U Tは、61H!のちのに分割される。(16,384ミリセ力ンド周期信号)。
結果として得られる信号は、マイクロコンピュータ60上で内部割込み入力を駆 動するのに使用される。これは、実時間を追跡するのに使用される。
61 H!倍信号それぞれのサイクルがカウントされるごとに、ウォッチドッグ 信号110は、低論理レベルにパルスされなければならないが、その後に高論理 レベルに戻る。
このため、ウォッチドッグタイマーによって、マイクロコンピュータ60が自動 リセットされることを防止できる。
ウォッチドッグ回路が低論理レベルのままになっていると、ウォッチドッグタイ マーが使用禁止になる。
また、マイクロコンピュータ60は、直接的に以下の信号を出力するか、読み取 る。
!、 ウォッチドッグ信号+10゜前記のとおり、ウォッチドッグ信号110は 、時間制御回路64へ送られる。高論理レベルは、通常のオペレーションを意味 する。ウォッチドッグタイマーのリセットを防止するためには、61H2の割込 みが行われるごとに、信号を高論理レベルから低論理レベルにパルスさせてさら に高論理レベルに戻す必要がある。ウォッチドッグ信号+10を低論理レベルの ままにしておくと、ウォッチドッグタイマーが使用禁止になる。ウォッチドッグ タイマーは、マイクロコンピュータ60を確実に動作させるために使用する。
2、 バッテリー信号112゜これは、両方向ディジタル信号である。通常の場 合、この信号は、電源状態を感知するための入力として使用される。この線路上 で、マイクロコンピュータ60によって低論理レベルが読み取られた場合、それ は、AC変圧器によって、電力が電話10に供給されていることを意味する。ま た、この線路上で高論理レベルが読み取られた場合、それは、バッテリーが電話 10に電力を供給していることを意味する。マイクロコンピュータ60が、この 線路を高レベルへと駆動すると、バッテリーは、電力を電話10に供給すること を強制される。これは、バッテリー能力を試験するために行われる。
3、 センスフックスイッチ信号116゜これは、マイクロコンピュータ60に 対するディジタル入力信号である。
この信号は、フックスイッチ42の状態を検出するのに使用される。高論理レベ ルは、電話10がオンフック状態になっていることを示す。また、低論理レベル は、電話10が、オフフック状態になっていることを示す。
4、 シリアルインおよびシリアルアウト信号118^と11880これらのデ ィジタル信号は、非同期シリアル通信ポートを形成する。これは、電話10の試 験中に使用される。
5、 S/*H信号120゜この信号は、マイクロコンピュータ60から合成制 御回路84へと送られる。この信号は、入力信号をマイクロコンピュータ60の ^/D変換器部分へ送るのに使用するサンプルホールド切り換え回路+06を駆 動するために用いられる。高論理レベルでは、サンプルホールド回路106から の信号のサンプリングを行える。
低論理レベルは、サンプルホールド回路106からマイクロコンピュータ60へ の信号の受け入れを防止する。信号が、5YNTH信号82における高論理レベ ルの信号によってゲートされるとき、その信号は、可聴信号を発生させる低パス フィルタ86を駆動させるためにも使用される。
6、 スローバス(SBO−8B5) 122゜これは、ディジタル信号に用い る両方向バスである。このバスは、中程度のスピードのデータおよび制御バスで あり、キーボード22、LCDモジュール30のオプションボタン28(A−C )およびDTMFデコーダ76の操作に使用される。SB2〜SB5は、DTM Fデコーダ76およびLCDモジュール30のスイッチ28(A−C)と通信す る場合のデータ線である。SBOとSBIは、LCDモジュール30のスイッチ 28(^−C)と通信する場合の制御線である。SBO〜SB5は、キーボード 22を駆動するためのディジタル出力として使用される。
7、 ROWBUS (ROWO−ROW3 ) +24゜これらのディジタル 入力信号は、キーボード22から送られるものであり、キーボードのキークロー ジャ(ke7 closure ) 22をデコードするのに使用される。
8. 1NT 126゜これは、時間制御回路64から受信されるディジタル入 力信号である。この信号は、61 H!の割込み信号であり、実時間を追跡する ために、マイクロコンピュータ60によって使用される。
9、 187割込み信号128゜これは、DTMFデコーダ回路76から送られ る信号であり、妥当なりTMF )−ンの存在を示す。
10、バッテリーレベル信号1】4゜これは、電源】30からのアナログ入力信 号である。この信号は、バッテリーチャージレベルを判別するのに使用される。
11、電話線状態(line 5tatus )信号132゜これは、マイクロ コンピュータ60によって受信されるアナログ信号である。この信号は、電話網 32から着信するリング信号を検出するのに使用される。この信号は、電話線状 態(line rtatus )モニタ回路38によって゛生成される。また、 電話10が保留になっていると、同じ電話線上でオフフックになっている別の電 話を検出するために、この電話線がモニタされる。検出されると、保留状態は、 終了する。
12、音声信号134゜このアナログ入力信号は、サンプルホールド回路106 からマイクロコンピュータ60へ送られる。低パスフィルタ104およびサンプ ルホールド信号+06からの信号は、マイクロコンピュータ60におけるA−り 変換器部分へ渡される。これらの信号は、音声認識プロセスとソフトウェアDT MF検出に使用される。
第5−8図に関していうと、そこには、第3図と第4図に示したブロック図の一 部が、さらに詳細に示されている。
電話10の一つの具体的な面を、第7図に示した。電話機内の送受信線から、ネ ットワーク電話線チップおよびリング32へのインタフェースに使用するハイブ リッド回路40は、単一トランジスタ40として示されている。この単一トラン ジスタは、バイポーラトランジスタであり、PNP )ランジスタ05 MPS W63として示されている。このPNP )ランジスタには、コレクタ41.ベ ース39およびエミッタ37が備わっている。
トランジスタ40のオペレーションでは、CMOSスイッチ(4053) 46 から着信する伝送可聴信号が、RCネットワークC9、RIGを経て、トランジ スタ40のベース39へ送られる。ベース39へ到達した可聴信号は、トランジ スタ40のコレクタ電流を変調する。このコレクタ電流は、電話ループ電流であ り、電話線32への伝送可聴信号である。
CMOSスイッチ46の出力から得られた可聴信号も、別のRC回路、C8およ びR24を経て、受信減衰器スイッチ44へ送られる。トランジスタ40のコレ クタにおける伝送可聴信号は、等しい振幅を持つが、46からの信号とは位相が 180度ずれている。3番目のネットワーク、C11およびR11は、この信号 を通過させて、46の出力から得られた信号に加算し、伝送可聴信号の受信減衰 器44への受け入れを打ち切る。電話線32から着信する受信可聴信号に対して は打ち切りが行われず、この信号は、トランジスタ40のコレクタ41から、同 じRCネットワークを経て、受信減衰器44へ到達する。
UI 4053と表されている集積回路は、3極双投CMOSスイッチ(44お よび46)である。この回路は、受信可聴信号経路(Cセクション)と伝送可聴 信号経路(Bセクション)を、スピーカホンICへ接続するために使用される。
^セクションは、受信減衰器スイッチである。これは、ダイヤル中のDTMF信 号とパルスクリックのレベルをミュートするために使用される。
電話線状態(line Nafus )モニタ回路38は、非常に高い入力イン ピーダンス(10メグオームを超える)を持つ差動増幅器である。入力は、極性 保護回路36から出力される電圧に結合される。フックスイッチ42が開いてい て、電話10が電話線32に接続されているときの電圧は約48ボルトである。
演算増幅器Cap amp)3B (U3D )は、この電圧を3ボルトの範囲 内の信号に変換し、それを、電話線状態(line 5tatus )入力から マイクロコンピュータ60へと渡す。電話線32にリング信号があると、極性保 護回路36の出力は、100ボルトよりも大きくなる。
演算増幅器(op amp) 38の出力は、飽和電圧(4ボルトを超える)に 達する。電話10がオフフック状態になると、36の出力における電圧は、10 〜15ボルトという格段に低い値になり、それが、電話線状態入力への1ボルト よりも低い電圧に変換される。これらの電圧は、マイクロコンピュータ60のソ フトウェアによって解釈され、電話線状態の判別に使用される。電話線32にお ける別の電話が使用されると、電圧変化が起こるが、この変化は、電話線が2番 目の電話によって使用された場合に、保留機能を終了して、電話線を与えるソフ トウェアによって利用前記のとおり、電話10のオペレーションを制御するソフ トウェアは、EPROMメモリ70だけではなく、マイクロコンピュータ60の ROM部分にも格納されている。マイクロコンピュータ60のROMセクション に内蔵されているソフトウェアは、I) CACF信号処理、2)低レベルハー ドウェア支援ルーチン、3) LCDディスプレイテキストメツセージおよび4 )著作権およびコード保護コードなどの機能を実行する。
EPIIOMメモリ70に格納されているソフトウェアは、音声認識および利用 者インタフェースなどの機能を実行する。
RAMメモリ68は、スクラッチパッドとして使用され、電話10のオペレーシ ョン中の音声テンプレートの記憶装置として使用される。
電話10のオペレーションにおいて、利用者は、キーバッド22を使用して、特 定の利用者番号をダイヤルするための通常の先行技術型オペレーションを行える 。番号は、ディスプレイ30に表示される。また、再ダイヤルキー20、保留キ ー18、フラッシュキー16およびスピーカキー14も、通常の先行技術型の方 法で機能する。
前記のとおり、電話IOの新規の側面の一つは、音声コマンドに基づいて電話番 号をダイヤルできる能力である。
ここで使用される電話番号は、複数個の数字を意味する。
これと関連して、電話IOのオペレーションは、以下のように行われる。
電気変圧器かバッテリーを介して電力が電話10に供給されている場合は、ディ スプレイ画面30に、日付と時刻が表示される。日付と時刻は、オプションボタ ンC28(C)を2回押して、さらに、ディスプレイ装置30に表示される日付 と時刻を変更するためのプロンプトに従えば、変更できる。
訓練モード(TRAINING MODE )電話10は、特定の音声コマンド に応答するものなので、まず最初に、応答する特定の音声の音声パターンを格納 できるように、電話10を訓練しなければならない。したがって、利用者は、ま ず最初に電話10を訓練しなければならない。訓練モードに入るには、送受器を 持ち上げて、さらに音声キー(voice ker ) 26を起動する。する と、ディスプレイ30にメツセージが表示されて、利用者は、音声を発すること を促される。そこで、語つまりコマンドを声に出して言う。送受器マイク52に よってアナログ信号に変換された音声(声に出した語)は、電話10によって受 信され、認識ソースセレクタ102、低バスフィルタ104、サンプルホールド 回路106を介して、マイクロコンピュータ60へ送られる。マイクロコンピュ ータ60は、Exhibit Bで述べるソフトウェアに基づいた多くの機能を 実行する。
最初に、アナログ音声つまりコマンドが、7200H2のサンプルレートで送ら れ、X(1)を与えるためにディジタル化される。それぞれのサンプル間の差異 (ディファレンス)がとられる。その結果、ファーストディファレンス(最初の 差異)の後の信号は、以下のように表される。
Sm = X(t) −X(t−1) 最初の差異から結果として得られた信号、5(1)は、DC信号を除去すること になる。また、ディファレンスオペレーションは、6デシベルオクターブのプレ エンファシスを音声に設定するので、高パスフィルタとして機能する。ファース トディファレンス・テクニックは、音声認識分析に使用されているが()1.N ey著“クリップ済み自己相関分析を使用する電話線話者認識”、Ptoc、I cAs5P81 (Atlxlic、1981) 、p188−192を参照) 、そのような分析は、まだ、音声認識において実施されていない。
サンプルレート信号におけるファーストディファレンスが決定すると、サンプル された信号5(t)が、144の記憶位置で構成されたフレームバッファへ送ら れる。したがって、144のサンプルが一つのフレームを形成する。
その結果、フレームレートは、20ミリセカンドの割合になる。クリップ済み自 己相関関数の周知の処理テクニックが、それぞれのフレームに対して実行される 。クリップ済み自己相関関数は、以下のような演算を実行する。
に れに従い、それぞれのクリップ済み自己相関関数から得られた係数、A (m) は、正規化され、以下のような公式に従ってAN (m)を形成する。
これは、この技術においては周知のものである。係数AN (01)のそれぞれ の要素は、時間内の音声パターンの一部の値を表している。
音声(speech)の始まりと終わりを判別する標準的なエンドポイント判別 テクニックも適用される。
Exbibil Bで述べるソフトウェアは、フレームごとの検査を行い、そこ での信号を、やはり周知の先行技術テクニックに基づいて、圧縮する。
訓練モードにおいて、利用者は少なくとも2回しやべるか、互いに整合性がある 2語を声に出すことを促される。そして、利用者が声に出した2語から平均情報 量(average )がとられる。この平均値は、標準的な周知のテクニック に基づいている。
クリップ済み自己相関関数に基づいて計算されたそれぞれのフレームに関連して いる、前記の正規化された係数Ali(m)は、入力された音声の音声パターン として格納される。そして、利用者は、音声によって人力した名前に対応する電 話番号の入力を促される。そこで、利用者は、入力した音声に対応した電話番号 を入力する。電話番号の末尾のところで、利用者は、“done”というテキス トディスプレイに対応したオプションボタン28(C)を押す。
さらに、電話10は、音声的に電話10に入力した音声名(speech na me )に対応する英字テキスト名の入力を、利用者に促す。利用者は、英字が 含まれている適切な数字キーを押しさえすればよい。しかし、一つの特定の数字 キー22の起動に対応する英字が3つあるので、その3つの選択肢(チョイス) が、ディスプレイ30に表示される。それぞれの選択肢は、3つのオプションボ タン28(A−〇)のうちの一つに近接して表示される。そこで、オプションボ タン2B(A−C)は、キーのうちの一つを起動させると、ディスプレイ30に 表示されている特定の対応した英字が入力されるように、再プログラム化される 。
この方法で、オプションボタン2g(A−C)とあわせて数字キーバッド22を 使用すれば、英字テキストを入力できる。例えば、数字キーバッド22の数字“ 52を押して、制御キー28^を押すと、英字Jが電話10に入力され、さらに ディスプレイ30に表示される。
利用者が、音声的に入力した音声名(speech name )とキーバッド 22で入力した電話番号に対応している英字名を入力し終えると、“done” というテキストディスプレイに対応したオプションボタン28(C)が、再起動 される。一つの実施態様において、電話10は、それぞれが電話番号と英字テキ スト名に対応している50種類までの音声名(speech name )を格 納できる。
記憶容量がさらに大きいメモリを追加すれば、電話10に、より多くの名前を格 納できることは明らかである。
前記のとおり、オプションボタン28(A−C)は、電話10によって再プログ ラム化し、他の目的に対して機能させることができる。その機能を実行するソフ トウェアは、Exhibit Cで述べるリスティングに含まれている。このよ うに、前記の実施態様において、オプションボタン28(A−C)に備わってい る日付と時刻の変更機能は、入力英字テキストを変更する機能に変えることがで きる。
ダイヤリングモード 前記のとおり、電話10を使用して、一連の番号をダイヤルしたいときは、送受 器12を持ち上げるか、スピーカホンI4を起動させて、キーバッド22の適切 なキーを押す。その結果、番号が、電話10によって、従来の方法でダイヤルさ れる。また、電話10の機能は、マイクロコンピュータ60に内蔵されているソ フトウェアによって制御されるので、電話10を、キーバッドがロックされるモ ードにして、出力呼出しくoutgoing call )をまったく行えない ようにすることができる。しかし、その場合でも、3つのオプションボタン28 (A−C)のそれぞれは、まだ機能することができ、再プログラム化して、警察 、消防署、救急車などを呼ぶための緊急番号のダイヤリングに使用できる。また 、電話10は、音声名(speech name )とそれぞれの名前に対応し た電話番号および英字テキストを検索(以後に詳しく述べる)から保護したり、 再入力による削除から保護したりする保護モードにすることもできる。
電話10は、音声コマンドダイヤリングに応答することもできる。この場合、利 用者は、送受器12を持ち上げて、呼び出したい名前を声に出せばよい一音声は 、以前の訓練の結果、電話10に格納されている。この音声は1.アナログ信号 に変換され、サンプルホールド回路106を介して、再びコンピュータ60によ って受信される。
マイクロコンピュータ60は、再び、7200H2のサンプルレートでサンプル されたサンプルのファーストディファレンスを捜す機能を実行する。144のサ ンプルから成るそれぞれのフレームも、集められる。それぞれのフレームのクリ ップ済み自己相関関数は、計算されて正規化される。入力した音声に対してクリ ップ済み自己相関関数によって生成された係数が、そこで生成される。
入力した音声パターンの複数個の係数が、格納されている音声パターンに対応し た複数個の係数と比較される。
この比較は、変更された(修正された)動的タイムワーピング(DTW )アル ゴリズムに基づいている。
先行技術の場合のように、音声は、CACF featu+eベクトルのタイム シーケンスとして、表すことができる。
A = a、、als ””f、”’al 試験パターンB = b、、bls ・・・bl、・・・bl 参照パターン二つのパターン間のタイミング差を除去 しようという問題は、たいていは、DTWアルゴリズムで解決される。第9図は 、典型的な帯域の動的計画法グラフを示している(Hi+oaki 5akoe および5eibi Chiba著“単語音声認識のための動的計画法アルゴリズ ムの最適化”、IEEE会報、音響、音声オヨヒ信号処理、Vol、 As5p −26、pp、43−49.1978年2月を参照)。
5akoe とChibaの論及によれば、帯域リージョンは、以下のように定 義されている。
l i−j l≦r ここでのrは、法定ワープ経路がおさまるべき垂直ウィンドウ幅を表す定数であ る。しかし、試験と参照の長さく1 & 1 )の違いが非常に大きい場合は、 DTWはエラーを免れない。
前記のDTWアルゴリズムに対する修正において、Pa1iva、Aga+va lおよび5inhaは、帯域リージョンを以下のように定義することを提案して いる(K、Pa1ivaSA。
Aga+valおよびS、 S、 5inha著“単語認識のための5akoe およびChibaによる動的タイムワーピング・アルゴリズムに対する修正”を 参照)。
l i−j/s l ≦r ここでのSは、(0,0)と(+、J)を結合するライン(line)の傾斜で あり、J/1に等しい。この定義は、真のウィンドウ幅は、実際は帯域垂直ライ ンの長さ、LtでありSによって変化するという点で、エラーを免れない。
電話lOにおいて、この偏差は、定数rを以下の式に置き換えることで除去され る。
r=R(fi信刀 ここでのRは、垂直帯域ラインLlの長さの半分に等しい定数である。その結果 、新たな帯域ラインが、次のように定義される。
ローi/s l≦LT/2 < r百T万、(S=J/+ (+≠0))DTW アルゴリズムのオペレーションにおいて、処理された語(spoken voi d ) 、すなわち、話した語のクリップ済み自己相関の係数は、DTWアルゴ リズムを使用して、格納されているそれぞれの語と比較され、最小のDTW結果 をもたらす係数を持つ語が、入力語に最も近い語となる(最も緊密に対応してい る)。もちろん、最も緊密にマツチしていても、候補となる語(possibl e word )の一つでない場合は、拒絶できるようにしておかなければなら ない。そこで、最も緊密にマツチしているもの、すなわち、DTWオペレーショ ンの結果が、まだ敷居レベルを超えている場合は、マツチしている語が見つかっ ていないものとする。
先行技術において、話した語(spoken void )の音声パターンを、 格納されている語の音声パターンと突合わせる場合は、格納されているすべての 語の音声パターンのリストを経ないと、マツチしている適切な語が見つからない 。また、このオペレーションを“枝刈り”することも、先行技術では周知のもの となっている。先行技術での“枝刈り”オペレーションでは、k語の検索結果が 、Xの最低値を持つ目り語となり、さらに、後続の語に対するDTWオペレーシ ョンにおいて、合計オペレーションの間の特定の時点で、係数の違い(差)がX の値を超えた場合は、そのDTWオペレーションは終了する−残りの係数に対す る合計オペレーションを完了する必要はない。これは、特定の時点に、値が、そ れまでに得られたベスト値を超えている場合は、後続の係数に対してDTWオペ レーションを行っても、結果が悪くなるだけだからである。(R,B15ian iおよびA、 Wxibel著“単語探索認識のための動作トレードオフと探索 テクニック“を参照)。
電話10では、動作(性能)とスピードを向上させるために、適応線形枝刈り方 法が、探索またはマツチング過程に使用される。適応線形枝刈り方法では、まず 最初にDTWオペレーションが、最初の語に対して行われる。
DTWオペレーションでは、オペレーションの結果だけではなく、特定の時点に 対応する個々のサブパート合計も計算される(第1θ図を参照のこと)。(した がって、C1−CNが計算される)。したがって、ライン200が、語ニ対スる DTWオペレーションの最良結果を表している場合は、トータル(CN)のDT W値が計算されるだけではなく、線形プログレッシブ係数(Cx・・・Cn − ! )も計算される。
2番目の語比較は、それぞれの時点において、話した語のDTWオペレーション の結果としての係数と2番めの語と最良の語(beN w++rd )に対応す る係数の間で行われる。したがって、ライン210が、2番目の語と比較される 音声語(spoken word )に対するDTWアルゴリズムのオペレーシ ョンを表している場合は、2番目の語に対応する全係数に対してのDTWオペレ ーションの完了を待たずに、オペレーションが終了する。つまり、ライン210 における差異の合計が進行する中で、さらに良い結果が出ることはないという予 測がなされ、オペレーションを完了させる必要がないということが想定されるの である。これは、もちろん、計算時間を節約し、探索結果が得られるまでの時間 を短縮する。
DTW適応線形技刈り方法によって、潜在的なベストスコアとの比較が不注意に 枝刈りされたり、ウイードアウトされたりするのをさらに確実に防げるように、 オフセット“0″′をベストスコアに追加することができる。
このように、完了するDTWの計算に対する予測値が確実に、ベストスコアのD TWを上回るようにするには、後続のオペレーションにおける他の語に対するD TWオペレーションが、それぞれの係数がある時点で現れるごとに、ベストスコ アとオフセット値の合計値を超えていかなければならない。
これは、数学的には、次のように表される。
定義: 1、abs m1hresh :これは、絶対マツチしきい値(マツチングに関 する絶対しきい値)であり、妥当な一致(Hjch )とみなされるものは、こ のしきい値以下でなければならない。
2、rel mjhresh :これは、相対マツチしきい値(マツチングに関 する相対しきい値)であり、ベストマツチ(最良の一致)は、これに対して、セ カンドベストマツチ(2番目に良いとされる一致)を上回っていれば、“疑わし い”とみなされない。
3、Ib :これは、枝刈リライン初期定除数である(好ましい実施態様では= 1/3)。
4、VI!:これは、枝刈リティン変化性領域定数である(好ましい実施態様で は・750)。
5、 BEST DIST:これは、ある時点までのベストトータルディスタン スに相当する変数である。
最初は、BEST DIST = abs mthrechとなる。
計算されるそれぞれの一致(mrtch )の終わりの部分では、DISTAN CE(BEST DISTであるならば、BEST DIST = DISTA NCEとなる。
枝刈リラインは、以下のように定義される。
kpl =(BEST DIST + Vl!+ tel mthresh)  傘 (1−1b)cpl :(BEST DIST + Vlt + tel  mthresh) * (fb)PL(z) = kpl * I + cpl  where O≦ X ≦ 1Dn (り > PL (り となっていると き、ある一致(n+atch )は、“枝刈りされたちの”とみなされる。ここ でのDn(りは、DTWの正規化されたアキュムレーティングディスタンス関数 である。
線形適応枝刈り方法では、初期の枝刈りしきい値は、最大絶対カットオフしきい 値に設定される。最初の語に対するDTWオペレーションが行われ、その結果、 最初の語が初期最大しきい値以下となった場合は、最初の語のすべての係数に対 して、DTWオペレーションが実行される。それ以後は、DTWオペレーション を後続の語のすべての係数に対して実行できるかどうかということに関して、確 率は小さくなっていく。話した語の係数と格納されている語の係数の間で行われ るマツチングの処理スピードをさらに向上させるには、最初にDTWオペレーシ ョンに対して与えられるベストスコアの確率を、格納されている語のリストに与 えればよいと思われる。これは、潜在的なベストスコアを最初に提供することを 意味する。実際にベストスコアが最初に提供されれば、線形適応枝刈り方法を使 用することによって、計算上の要求が大幅に減る。電話10によって使用される 一つの可能な方法は、名前に対応する語と最も頻繁にダイヤルされてきた電話番 号を与えることである。これにより、話した語が、最も頻繁にダイヤルした電話 番号に対応している格納済みの語に最もよくマツチする確率が高くなる。したが って、格納されている語が、I)TV適応技刈り分析に提供される前に、格納さ れている語に対する前段分類(pre−sort)機能が、電話10によって達 成される。
前記のとおり、電話10においては、汎用マイクロコンピュータ60を使用でき る。これにより、電話lOでは、コストが削減される。電話10によって、話し た語の音声パターンを格納されている任意の語の音声パターンにマツチさせられ ない場合もありうるので、マツチされる確率の最も高い格納済みの語、例えば、 DTWアルゴリズムオペレーションの最低値を持っていながらも、まだしきい値 を超えている格納済みの語が、ディスプレイ30における表示用に提供される。
“疑わしい”領域に属するマツチjは、以下の基準を満たしていなければならな い。
A、ス:7アjく絶対マツチしきい値(’xbs mjh+csh’)B、 ス コアj−スコアbesl〈相対マツチしきい値(’ tel mjhre@h’ ) “疑わしい”領域にあるマツチの数が、〉1となりでいる場合、利用者は、選択 を行うことを促される。
電話10は、最良の“疑わしい”マツチを利用者に提供し、それが、実際に話し た語なのかどうかを確認できるようにする。利用者は、それが適切なものであれ ば、オプションボタンA2g(A)(“76g”)を押せばよい。
また、次の最良の“疑わしい”マツチを表示することを電話10に要求するには 、オプションボタン82g(B)(“no”)を押せばよい。このプロセスは、 “7eS”(211(A))が押されるか、疑わしいマツチが一つだけ残される まで続き、その上でダイヤルされる。このように、疑わしいマツチに関しては、 利用者入力が必要になる。
スピードダイヤリング 電話10を使用するためのもう一つの方法は、ディレクトリキー24を押すこと である。このキーを押すと、数字キーバッド22から、数字のうちの一つを入力 することを促される。選択する数字は、そこにある3つの英字に対応している。
その3つの英字グループに属するすべての名前が、アルファベット類に提供され る。前へスクロールするには、その同じ数字キーを押しつづける。望みの名前と 番号がディスプレイ30に現れたら、再ダイヤルキー20を起動させて、その番 号をダイヤルする。この動作を達成するためのソフトウェアは、Exhibit  Cで述べ電話IOは、ダイヤルせずに電話番号を検索することにも使用できる 。前記のことを実行する方法は、二つある。
一つの方法は、ディレクトリキー24を押して、さらに音声ボタン26を押すこ とである。その上で、名前を声に出して言う。電話10は、前記のとおりに、こ の音声信号を処理し、選択された名前とその名前に対応している電話番号を表示 する。
電話10は、手動による電話番号の検索も行える。その場合は、ディレクトリキ ー24を押して、さらにキーバッド22上の数字を押す。オプションボタン28 (A−C)を押して、3文字グループを、ひとつの文字にする必要はない。名前 は、その文字グループの中で、アルファベット類にアクセスされる。つまり、′ 2′=″ABC”=AかBかCで始まるすべての名前となる。文字グループを前 へスクロールするには、その同じキーを押しつづける。オプションボタン28( A−C)は、ワンボタンスピードダイヤルネーム/ナンバーを表示する目的以外 には使用しない。これを達成するためのソフトウェアは、Exhibit Cで 述べられている。
コールロギング 電話装置10は、その時点までに行われた最後の100件の呼出しをログするこ ともできる。また、電話10は、時刻、日付、呼び出したときの電話番号および それぞれのコールの長さを格納する。利用者は、このログを適時に再調査(re view) して、電話代の請求書を調べたり、頻繁に呼び出した番号を走査し たり、それらの番号を再ダイヤルしたりする目的などに使用できる。このログを 再調査するには、オプションボタン82B(B)を押す。この、動作を達成する ためのソフトウェアは、Exhibit Cで述電話lOには、応答機能も備わ っている。この機能は、オプションボタンA 28 (A)を押すことによって 起動できる。この機能が、不在モード(unaltented mode )で 起動されると、電話IOは、記録済みのメツセージを使用して、すべての呼出し に応答する。さらに、電話lOは、呼出し人(コーラ−)に対して、呼出し人の 電話を使用して呼出し人の電話番号をダイヤルインすることを促す。
しかし、この場合は、呼出し人が、DTMF信号を生成する電話装置を使用して いることが条件になる。DTMF信号は、電話10によって受信され、呼出し人 の電話番号を表す信号に変換される。電話10は、さらにその番号と呼出し時刻 を記録する。
また、電話10は、呼出し人から受け取った電話番号を使用して、対応する名前 をディレクトリの中で検索することもできる。そして、電話lOは、利用者が戻 ってきたときに、記録しておいたメツセージの数を表示することができる。その 場合は、時刻と電話番号も表示される。
終わりに、電話番号に対応した名前がある場合、すなわち、電話番号が電話装置 10のディレクトリに収められている場合は、その名前も表示される。
電話応答機能の別の側面は、呼出しに対する応答が行われた後に、呼出し人が、 呼出し人の電話番号を表すDTMF信号で構成されているメツセージを残したら 、電話装置が自動的に事前設定番号(ページングサービスの電話番号)をダイヤ ルして、呼出し人が残したDTMF信号を再生できるように、電話10をプログ ラム化できることでぁる。したがって、電話10は、呼出し人が、連絡先に関す るメツセージを残した後で、呼出し人の番号をリレーすることができる。
終わりに、電話10は、呼出しスクリーニングモードにすることができる。オプ ションボタンA 28 (A)を押して、このモードを起動しておくと、呼が着 信しても、電話装置10は、鳴らない。しかし、事前割当コードを知っている呼 出し側は、このコードを使用してダイヤルできる。その場合は、呼出しスクリー ニング機能が無効になるので、リンガがターオンされる。このコードを使用しな い場合、呼出し側は、電話応答メツセージを受け取り、電話10は、呼出し人の 電話番号(発呼者番号)を記録する。
FIG、 2 TOF!に、 、52!F FIG、 5B FIG、 5C FIG、 5D TOFM、 5F TOFM、 5B FIG、5F FIG、 6A TOFM、 54 a FIG、 7C TOFIG、 1iA rOFIG、Kl FIG、10 国際調査報告

Claims (1)

  1. 【特許請求の範囲】 1 音声(speech)を表すディジタル信号を受信して、クリップ済み自己 相関関数にしたがって前記ディジタル信号を処理するための信号処理装置を有す る音声認識装置において、前記クリップ済み自己相関関数にしたがって前記ディ ジタル信号を処理する前に、前記ディジタル信号のファーストデイファレンスを とるための装置を有することを特徴とする音声認識装置。 2 請求の範囲1記載の音声認識装置において、前記信号処理装置はx(t)の 前記ディジタル信号を受信して、公式 S(t)=x(t)−x(t−1) にしたがって前記信号を処理することを特徴とする音声認識装置。 3 請求の範囲2記載の音声認識装置において、前記信号処理装置はクリップ済 み自己相関関数によって生成される係数A(m)を、式 A(m)/A(o) にしたがって正規化するための装置をさらに含んでいることを特徴とする音声認 識装置。 4 話した語のタイミング部分を表す複数個のファースト(最初の)係数(ai )を持つ最初のディジタル信号を受信して、前記の最初のディジタル信号を、格 納されている語のタイミング部分を表す複数個のセカンド係数(b1)を持つ2 番目のディジタル信号と比較するための信号処理装置を有する音声認識装置にお いて、式 Ii−j/S I■LT/2(√1+S2)(S=j/1(1≠0))(ただし LTは垂直帯域ラインの長さを表す)で表されるウィンドウを持つ動的タイムワ ープ関数にしたがって前記の最初の信号と前記の2番目の信号を処理するための 処理装置を含んでいることを特徴とする音声認識装置。 5話した語のタイミング部分を表す複数個のファースト係数を持つ量初のディジ タル信号を受信して、前記の最初のディジタル信号を、格納されている語を表す 複数個のセカンド係数を持つ2番目のディジタル信号と比較するための信号処理 装置を有する音声認識装置において、前記ファースト係数とそれに対応する前記 セカンド係数の絶対差の合計が、一時点の前に、前記時点における前の比較の差 の合計を超えた場合に、前記一時点で前記比較を終了させるための装置を含んで いることを特徴とする音声認識装置。 6話した語を表す最初のディジタル信号を受信して、前記の最初のディジタル信 号を、複数個の2番目のディジタル信号の一つと順次比較するための信号処理装 置を有し、前記の複数個の2番目のディジタル信号のそれぞれが、格納された一 つの語を表すようになっている音声認識装置において、前記比較の前に、pri ori判別に基づいて、前記の複数の2番目のディジタル信号を分類する装置を 含んでいることを特徴とする音声認識装置。 7 請求の範囲6記載の音声認識装置において、前記priori判別が使用頻 度数に基づいていることを特徴とする音声認識装置。 8(a)音声をアナログ信号に変換する段階、(b)サンプリングレートを持つ ディジタル信号を生成するために前記アナログ信号をディジタル化する段階、 (c)修正されたディジタル信号を生成するために前記ディジタル信号のファー ストディファレンスを実行する段階、 (d)前記の修正されたディジタル信号に関して、クリップ済み自己相関関数に したがって前記音声の係数を計算する段階、および (e)前記係数を分類する段階から成る音声処理方法。 9(f)請求の範囲8記載の音声処理方法において、新たな音声に対して(a) −(d)の段階を繰り返す段階、(g)式、 Ii−j/S I■LT/2(√1+S2)(S=j/1(1≠0))(ただし 、LTは、垂直帯域ラインの長さを表す)にしたがった一定幅ウィンドウを持つ 動的タイムワーピング(DTW)アルゴリズムに基づいて、前記の新たな音声の 係数を、格納されている係数と比較する段階もさらに含むことを特徴とする音声 処理方法。 10 請求の範囲9記載の音声処理方法において、前記の新たな音声の前記係数 が、順次、複数個の格納済み音声の係数と比較され、さらに、 (h)ith係数に関して、格納済み音声に対して実行された前記DTWアルゴ リズムの結果が、別の格納済み音声に関して最低値が得られたときの同じ係数に 関するDTWアルゴリズムを上回った場合に、前記の比較段階(段階(g))を 終了させる段階もさらに含むことを特徴とする音声処理方法。 11 (i)請求の範囲10記載の音声処理方法において、DTWオペレーショ ンに対して、最も低くなる可能性があるスコアを与えるために、前記の複数個の 格納済み音声を前段分類(pre−sort)する段階をさらに含むことを特徴 とする音声処理方法。 12 事前に格納されている電話番号をダイヤルする装置を有する音声起動電話 機において、訓練モードの前記電話に複数個の音声コマンドを入力する装置と、 前記の複数個の音声コマンドを処理して、処理された複数個の信号にする装置と 、前記の複数個の処理済み信号を格納する装置と、前記訓練モードで、電話番号 およびそれぞれの音声コマンドに対応した英数字名を入力する装置と、前記電話 番号およびそれぞれの音声コマンドに対応した前記英数字名を格納する装置と、 ダイヤリングモードでダイヤルする音声コマンドを受信する装置と、前記ダイヤ リング音声コマンドを処理してアドレス信号にする装置と、前記アドレス信号を 前記の格納された処理済み信号と比較する装置と、前記アドレス信号と前記の格 納された処理済み信号の一つとを一意に識別できない前記比較装置に応えて、複 数個の英数字名を表示する装置と、前記の表示された英数字名の一つを選択する ための利用者が起動できる切換え装置と、さらに、前記の利用者起動可能切換え 装置に応えて、前記の選択された表示済み英数字名に対応する電話番号を表すダ イヤリング信号を生成する装置とを有することを特徴とする音声起動電話機。 13 電話番号を入力する数字キーパッドを有し、それぞれの数字キーと対応し た複数個の英字を有する電話機において、数字キーが起動されたときに、それぞ れの数字キーに対応した英字を表示する装置と、それぞれの数字キーに対応して いる英字の数以上の複数個のボタン装置と、対応する表示済み英字に実質的に近 接している前記の複数個のボタン装置のそれぞれと、英字データを前記電話に入 力するために起動される前記ボタン装置の一つに応えるための装置とを含むこと を特徴とする電話機。 14 数字キーパッドと、前記キーパッドから入力された番号をダイヤルする装 置を有する電話機において、複数個のボタン装置と、それぞれの制御キーに対応 した機能を変更する装置とを有することを特徴とする電話機。 15 数字キーパッドと、前記キーパッドから入力された番号をダイヤルする装 置を有する電話機において、行われたそれぞれの呼出しに対応する電話番号を格 納する装置と、前記の格納された電話番号を表示する装置とを有することを特徴 とする電話機。 16 請求の範囲15記載の電話機において、日付、時刻およびそれぞれの呼出 し(コール)の長さを格納する装置と、前記の格納された日付、時刻およびコー ルの長さを表示する装置とをさらに含むことを特徴とする電話機。 17 呼出し人からの呼の着信に応答する自動装置を有する電話機において、前 記呼出し人によって生成される複数個のトーンを受信する装置(前記トーンは、 前記呼出し人の電話番号を表す)と、前記トーンを、前記トーンに対応した番号 を表す信号に変換する装置と、前記信号を格納する装置と、前記トーンに対応し た番号を表示する装置とを有することを特徴とする電話機。 18 請求の範囲17記載の電話機において、複数個の名前とそれぞれの名前に 対応した電話番号を格納する装置と、前記呼出し人の前記電話番号と前記の格納 された電話番号を比較する装置と、前記呼出し人の前記電話番号が、前記の格納 されている電話番号の一つにマッチした場合に、前記の格納された電話番号に対 応した名前を表示する装置とを有することを特徴とする電話機。 19 請求の範囲17記載の電話機において、前記の複数個のトーンが受信され た場合に、事前設定電話番号を呼び出す装置と、前記の受信されたトーンを生成 する装置とをさらに含むことを特徴とする電話機。 20 請求の範囲17記載の電話機において、呼の着信の検出に対して可聴応答 を生成するリンギング装置と、前記着信呼をスクリーニングする装置と、前記リ ンギング装置を非活動化する前記スクリーニング装置と、前記スクリーニング装 置を非活動化するために前記呼出し人によって起動されるパスワード装置とを有 することを特徴とする電話機。 21 複数個の名前、それぞれの名前に対応した電話番号およびそれぞれの名前 の音声パターンを格納する装置と、検索する名前の音声パターンを入力する音声 入力装置と、前記入力済み音声パターンを前記格納済み音声パターンと比較する 装置と、前記比較装置では前記入力済み音声パターンに対して、前記格納済み音 声パターンの一つを一意に識別できない場合に、前記比較に基づいて、前記格納 装置から、一つ以上の名前を検索する装置と、前記の一つまたはそれ以上の名前 を表示する装置と、表示された前記の一つ以上の名前から一つの名前を選択する 装置と、選択装置によって選択された一つの名前に対応した電話番号をダイヤル する装置から成る電話機。 22 リンギング、保留、話中などの電話線状態を表示する表示装置を有する電 話機において、電話をオフフックにせずに、断線またはno lineなどの電 話線状態を表示する装置と、日付と時刻を表示する装置とを有することを特徴と する電話機。 23 チップおよびリングを持つ電話線に接続することができて、可聴信号を前 記電話線に伝送する装置と、前記電話線から可聴信号を受信する装置を有する電 話機において、前記送受信装置から前記電話線を分離する単一トランジスタ装置 と、コレクタ、エミッタおよびベースを持つ前記トランジスタ装置と、前記電話 線に接続されている前記コレクタと、伝送可聴信号を前記伝送装置から前記ベー スへ供給するために、前記伝送装置を前記トランジスタ装置の前記ベースに接続 する1番目のRCネットワーク装置と、前記伝送可聴信号が前記トランジスタ装 置のベース電流を生成することにより、前記電話線へ伝送されるコレクタ電流が 発生することと、前記伝送装置のコレクタを前記受信装置に接続する2番目のR Cネットワーク装置と、伝送装置を前記受信装置に接続する3番目のRCネット ワーク装置とを有することを特徴とする電話機。 24 請求の範囲21記載の電話機において、前記表示装置が、前記の一つ以上 の名前を順番に表示することを特徴とする電話機。 25 請求の範囲24記載の電話機において、前記の順番でマッチする確率の最 も高い名前が最初に現れ、次に、マッチする確率が落ちる名前が現れることを特 徴とする電話機。
JP2503069A 1989-01-05 1990-01-04 音声処理装置とそのための方法 Pending JPH04504178A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US29387689A 1989-01-05 1989-01-05
US07/294,168 US5007081A (en) 1989-01-05 1989-01-05 Speech activated telephone
US294,168 1989-01-05
US293,876 1989-01-05

Publications (1)

Publication Number Publication Date
JPH04504178A true JPH04504178A (ja) 1992-07-23

Family

ID=26968205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2503069A Pending JPH04504178A (ja) 1989-01-05 1990-01-04 音声処理装置とそのための方法

Country Status (4)

Country Link
EP (1) EP0453511A4 (ja)
JP (1) JPH04504178A (ja)
KR (1) KR910700582A (ja)
WO (1) WO1990008439A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010510851A (ja) * 2006-12-01 2010-04-08 オックスフォード バイオシグナルズ リミテッド 生物医学的信号形態分析手法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL1000284C2 (en) * 1995-05-02 1996-11-05 Huigh Cornelis Van Der Mandele Voice operated number selection unit for telephone
GB2307137B (en) * 1995-11-04 2000-03-22 Motorola Ltd A communications addressing network and terminal therefor
EP0778689A1 (en) * 1995-12-06 1997-06-11 WILHELM, Siegfried E Telecommunication end user device
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5892813A (en) * 1996-09-30 1999-04-06 Matsushita Electric Industrial Co., Ltd. Multimodal voice dialing digital key telephone with dialog manager
US6233557B1 (en) 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3746793A (en) * 1972-08-09 1973-07-17 Phonics Corp Telephone communication system for the hearing impaired
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
US4400589A (en) * 1979-05-21 1983-08-23 United Networks, Inc. Subscriber station network
US4425627A (en) * 1981-02-23 1984-01-10 Sperry Corporation Intelligent prompting terminal apparatus
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
GB2118099B (en) * 1982-02-23 1986-12-03 Confon Ag Telephone card index with automatic dialing
US4536886A (en) * 1982-05-03 1985-08-20 Texas Instruments Incorporated LPC pole encoding using reduced spectral shaping polynomial
JPS60501180A (ja) * 1983-03-28 1985-07-25 エクソン リサ−チ アンド エンジニアリング カンパニ− スピ−チ認識方法および装置
US4608457A (en) * 1984-04-11 1986-08-26 Fowler Stephen L Telecommunications device for the hearing impared
JPS60236554A (ja) * 1984-05-10 1985-11-25 Sharp Corp 電話機
US4644107A (en) * 1984-10-26 1987-02-17 Ttc Voice-controlled telephone using visual display
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
DE3607728A1 (de) * 1986-01-25 1987-07-30 Telefonbau & Normalzeit Gmbh Endgeraet einer fernmeldevermittlungsanlage
US4741031A (en) * 1986-06-27 1988-04-26 Gai-Tronics Intrinsically safe telephone
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
JP2584249B2 (ja) * 1986-10-31 1997-02-26 三洋電機株式会社 音声認識電話機
US4827500A (en) * 1987-01-30 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Automatic speech recognition to select among call destinations
US4751728A (en) * 1987-03-27 1988-06-14 Treat John M Telephone call monitoring, metering and selection device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010510851A (ja) * 2006-12-01 2010-04-08 オックスフォード バイオシグナルズ リミテッド 生物医学的信号形態分析手法

Also Published As

Publication number Publication date
WO1990008439A2 (en) 1990-07-26
EP0453511A1 (en) 1991-10-30
EP0453511A4 (en) 1993-05-26
KR910700582A (ko) 1991-03-15
WO1990008439A3 (en) 1990-09-07

Similar Documents

Publication Publication Date Title
US5007081A (en) Speech activated telephone
CN1082759C (zh) 电话应答机
US5881134A (en) Intelligent call processing platform for home telephone system
US6931104B1 (en) Intelligent call processing platform for home telephone system
US6744860B1 (en) Methods and apparatus for initiating a voice-dialing operation
US6724866B2 (en) Dialogue device for call screening and classification
GB2260670A (en) Multi-functional telephone system with speech recognition and control device
EP1170932B1 (en) Audible identification of caller and callee for mobile communication device
CA2266112C (en) Speech recognition of caller identifiers using location information
EP0893901B1 (en) Method for controlling a telecommunication service and a terminal
US6223161B1 (en) Method for setting terminal specific parameters of a communication terminal
JPH04504178A (ja) 音声処理装置とそのための方法
JPH08163252A (ja) Pbx−コンピュータ連動システム
US7471776B2 (en) System and method for communication with an interactive voice response system
US5638437A (en) Telecommunication system and method enabling a user to get access to an automated call processing from a central station operating on pulse dialling mode
US20070286395A1 (en) Intelligent Multimedia Dial Tone
JP3314481B2 (ja) 構内交換電話装置
KR950009425B1 (ko) 음성인식 전화기의 다이얼링 제어 방법
JPH11252237A (ja) 個々に記憶された電話番号に遠隔応答するための装置および方法
JPH03145248A (ja) 発信者識別電話機
JPH06311220A (ja) 画像認識ダイヤル装置
JPH06303320A (ja) Pbx装置
CA2206870C (en) Intelligent call processing platform for home telephone system
JPH07221833A (ja) 音声認識電話装置
JPH098894A (ja) 音声認識コードレス電話機