JP3335178B2

JP3335178B2 - 音声サンプルを音声作動データ処理システムに伝送するための方法及び装置

Info

Publication number: JP3335178B2
Application number: JP50490997A
Authority: JP
Inventors: クライン、トロイ、リイ; アイゼンシー、スコット、ハーラン; ポストン、リッキー、リー; ウエーナー、ジョン、ハロルド
Original assignee: インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date: 1995-06-30
Filing date: 1996-06-27
Publication date: 2002-10-15
Anticipated expiration: 2016-06-27
Also published as: CZ395397A3; PL324025A1; HUP9801839A3; DE69606042T2; PL182225B1; WO1997002526A1; CA2220861A1; DE69606042D1; CN1095563C; US5704009A; JPH10507559A; TW366483B; EP0836720A1; HUP9801839A2; CZ287316B6; CA2220861C; KR19990022423A; EP0836720B1; CN1189900A; KR100297076B1

Description

【発明の詳細な説明】技術分野本発明は音声認識システムとのコミュニケーションの
改良に関するものであり、更に詳しく云えば、それに限
定するものではないが、音声サンプルをデータ処理シス
テムにおける話者依存の音声認識システムに伝送するた
めの方法及び装置に関するものである。

背景技術ヒューマン・コミュニケーションにおいて、及びヒュ
ーマン・ツー・マシン及びマシン・ツー・ヒューマン・
コミュニケーションにおいて、話し言葉は重要な役割を
演ずる。例えば、現在のボイス・メール・システム、ヘ
ルプ・システム、及びビデオ会議システムは音声を組み
込んでいる。更に、テクノロジが発展するにつれて、人
の音声はマシン／ヒューマン・コミュニケーションにお
いて更に大きな役割を演ずるであろう。特に、音声認識
システムを組み込んだワイヤレスATMマシン（或いは、
給油所、旅行情報案内所、POS端末のような任意のワイ
ヤレス・マシンのタイプ）を想像して欲しい。その音声
認識システムを組み込むことによって、ユーザは単にそ
のATMマシンに話しかけるだけである。本発明は、その
ようなマシンにカード又は他の如何なるタイプの装置を
挿入することを必要とせずに、ユーザがそのマシンと容
易に且つ効率的に口頭でコミュニケートすることを意図
するものである。しかし、幾つかの付加的な背景情報
を、先ず、検討しなければならない。

通常の音声認識システムは人の音声を聴取し及び理解
する。しかし、受容し得る音声認識精度を持つために、
通常の音声認識システムはユーザの記憶された音声サン
プルを利用する。ユーザは、十分な音声特性を捕捉した
約30個の慎重に構成されたセンテンスを発声することに
よって音声サンプルを生成する。音声特性は、律動、ピ
ッチ、抑揚、及び速度を含むユーザの音声の韻律を含ん
でいる。通常の音声分析器は、音声サンプルを処理して
各ダイフォーン（diphone）セグメントに対するオーデ
ィオ・サンプルを分離し、特徴ある韻律曲線を決定す
る。音声分析器は、隠れマルコフ・モデルのような周知
のディジタル信号処理技法を使用してダイフォーン・セ
グメント及び韻律曲線を生成する。従って、記憶された
音声サンプルによって、通常の音声認識システムは約90
％の正確度を有する。しかし、ユーザがワイヤレス・マ
シンと口頭でコミュニケートすることを望む都度それら
の30個のセンテンスを反復することは極めて不都合なこ
とであろう。

この背景情報を仮定すると、音声を介してワイヤレス
対話マシンと効率的に、効果的に、及び遠隔的にコミュ
ニケートすることは、多くのユーザにとって極めて望ま
しい且つ有益なことであろう。しかし、ユーザが高い精
度でもってそのマシンと口頭でコミュニケートする前
に、ユーザの分析された音声サンプルをそのマシンに伝
送する技法及び装置が開発されなければならない。

発明の開示第１の局面では、本発明は、音声認識システムを有す
る少なくとも１つのリモート音声作動データ処理システ
ムによる改良された音声コミュニケーションのための方
法を提供する。その方法は、（ａ）ユーザの音声特性をワイヤレス伝送装置のメモリ
に記憶するステップと、（ｂ）音声作動コマンドに応答して、そのワイヤレス伝
送装置及びリモート音声認識システムを音声作動するス
テップと、（ｃ）そのワイヤレス伝送装置及び音声認識システムの
作動に応答して、メモリからその音声認識システムに音
声特性を伝送し、それによって、ユーザがその音声作動
データ処理システムと直接に口頭でコミュニケートする
ことを可能にするステップと、を含む。

第２の局面では、本発明は、リモート・データ処理シ
ステムにあるリモート音声認識システムとの音声コミュ
ニケーションを可能にするための音声伝送システムを提
供する。その音声伝送システムは、ユーザの音声特性を記憶するためのメモリを有するワ
イヤレス伝送装置と、そのワイヤレス伝送装置及び音声認識システムはその
ワイヤレス伝送装置による受信した音声作動コマンドに
応答して作動するように適応すること、及びそのワイヤレス伝送装置はその音声認識システム及び
ワイヤレス伝送装置の作動に応答してメモリからその音
声認識システムに音声特性を伝送し、それによって、ユ
ーザが音声認識システムと直接に口頭でコミュニケート
するように適応することを特徴とする。

本発明の好適な実施例における装置及びコンピュータ
実施される方法は、分析された音声サンプルを、ユーザ
により携帯されたワイヤレス伝送装置から音声認識シス
テムを有するリモート・データ処理システムに伝送す
る。その方法は、ユーザの音声特性のセットをワイヤレ
ス伝送装置のメモリ（例えば、RAMチップ）に記憶する
第１ステップを含む。第２ステップは、音声コマンドに
応答してその伝送装置及びリモート音声認識システムを
音声作動することを含む。第３ステップは、伝送装置及
び音声認識システムが作動させられた後、メモリから音
声認識システムに音声特性を自動的に且つ遠隔的に伝送
することを含み、それによって、ユーザが音声作動デー
タ処理システムと直接に口頭でコミュニケートすること
を可能にする。

本発明は、事前定義された音声コマンドに応答して、
ユーザの音声特性をワイヤレス・データ処理システムに
自動的に伝送する改良された音声伝送システムを提供す
る。

更に、本発明は、ユーザの音声特性を記憶し及びデー
タ処理システムに伝送するための装置（例えば、伝送装
置）と、その音声特性を待ち及び受信するようにそのデ
ータ処理システムを作動させるための装置とを提供す
る。

次に、添付図面を参照して、本発明を実施例によって
更に詳しく説明することにする。

図面の簡単な説明第１図は、本発明を実施するための代表的なハードウ
エア環境のブロック図を示す。

第２図は、本発明による改良された音声伝送システム
のブロック図を示す。

第３図は、リモート・データ処理システムとコミュニ
ケートするためにユーザがワイヤレス伝送装置を携帯し
た状態の図を示す。

第４図は、ワイヤレス伝送装置からリモート・データ
処理システムに音声特性を伝送するための流れ図を示
す。

発明を実施するための最良の形態好適な実施例は、ユーザの音声特性を含む音声サンプ
ルを音声認識システムに遠隔的に及び自動的に伝送する
ための方法及び装置を含む。

その好適な実施例は、ラップトップ・コンピュータに
おいて、或いは、代替的には、第１図に示されたワーク
ステーションにおいて実施される。ワークステーション
100は、キャッシュ15、ランダム・アクセス・メモリ（R
AM）14、リード・オンリ・メモリ（ROM）16、及び不揮
発性RAM（NVRAM）32を処理するためのIBM（商標）社のP
owerPC（商標）601、又はIntel（商標）社の486マイク
ロプロセッサのような中央処理装置（CPU）10を含む。I
/Oアダプタ18によって制御される１つ又は複数のディス
ク20は長期記憶装置を提供する。テープ、CD−ROM、及
びWORMドライブを含むその他の種々の記憶媒体を使用す
ることが可能である。データ又はコンピュータ・プロセ
ス命令を記憶するために、取外し可能な記憶媒体も使用
可能である。

Sun社のSolaris（商標）、Microsoft社のWindowsNT
（商標）、IBM社のOS/2（商標）、又はApple社のMAC O
S（商標）のような適当なオペレーティング・システム
のそのデスクトップからの命令及びデータがRAM14からC
PU10を制御する。しかし、本発明を実施するために、他
のハードウエア・プラットフォーム及びオペレーティン
グ・システムが利用可能であることは、当業者が容易に
認めることである。

ユーザは、ユーザ・インターフェース22によって制御
されるI/O装置（即ち、ユーザ制御装置）を介してワー
クステーション100とコミュニケートする。ディスプレ
イ38はユーザに情報を表示し、一方、キーボード24、ポ
インティング装置26、マイクロフォン30、及びスピーカ
28は、ユーザがコンピュータ・システムを指示すること
を可能にする。代替方法として、ジョイ・スティック、
タッチ・スクリーン、或いは仮想現実ヘッドセット（図
示されていない）のような別のタイプのユーザ制御装置
も使用可能である。通信アダプタ34は、このコンピュー
タ・システムとネットワーク・アダプタによってネット
ワークに接続された他の処理装置との間の通信を制御す
る。ディスプレイ・アダプタ36はこのコンピュータ・シ
ステムとディスプレイ38との間のコミュニケーションを
制御する。

第２図は、好適な実施例に従って、完全な音声伝送シ
ステム200のブロック図を示す。音声伝送システム200は
音声特性抽出装置210、伝送装置（単に装置とも呼ばれ
る）220、及び音声認識システム230を含む。音声特性抽
出装置210はワークステーション100（第１図参照）のよ
うな任意の適当なワークステーション内にあり、A/Dサ
ブシステム204、音声分析器206、及び音声コーディング
回路207を含む。

第４図は、ワイヤレス伝送装置からリモート・データ
処理システムに音声特性を伝送するための流れ図を示
す。第２図及び第４図を参照すると、好適な実施例で
は、ユーザは、話し手の十分な音声特性を含む音声サン
プル（例えば、約30個のセンテンス）をマイクロフォン
202に与える（ステップ410）。音声特性は、律動、ピッ
チ、抑揚、及び速度のようなその音声の韻律を含む。こ
のタイプのセンテンスは音声合成分野における当業者に
は周知である。例えば、１つのセンテンスは、「The qu
ick fox jumped over the lazy brown dog（敏捷な狐が
のろまな茶色の犬を飛び越えた）」でもよい。A/Dサブ
システム204（及び222）はその音声サンプルをサンプル
しそしてディジタル化する。それは、IBM MACPA（即
ち、マルチメディア音声捕捉及び再生アダプタ）Creati
ve LabのSound Blaster音声カード、又はシングル・
チップ・ソリューションのような任意の適当なアナログ
・ツー・ディジタル・システムを含む（ステップ41
2）。

一方、任意の適当な一般的な音声分析器206がそのデ
ィジタル化された音声サンプルを処理して各ダイフォー
ン・セグメントに対する音声サンプルを分離し、特性韻
律曲線を決定する（ステップ414）。音声分析器206は、
隠れマルコフ・モデルのような周知のディジタル信号処
理技法を使用してダイフォーン・セグメント及び韻律曲
線を生成する。米国特許第4,961,229号及び同第3,816,7
22号は適当な音声分析器を開示している。

音声コーディング回路207は、通常のディジタル・コ
ーディング技法を利用してダイフォーン・セグメント及
び韻律曲線を圧縮し、それによって、伝送帯域幅及び記
憶要件を少なくする（ステップ416）。音声コーディン
グ回路207はその結果の圧縮された韻律曲線及びダイフ
ォーン・セグメントを伝送装置220のRAM226（例えば、
メモリ）に記憶する。パイプライン・バースト・メモ
リ、フラッシュ・メモリ、又は縮小サイズDASDのような
任意の適当なタイプのメモリ装置がRAM226の代わりにな
り得ることは当業者の認めるところである。又、伝送装
置220は、音声作動コマンドを受けるための音声作動マ
イクロフォン221、A/Dサブシステム222、音声認識回路2
24、電源（図示されていない）、及び送信装置229も含
む。

第３図は、リモート・データ処理システム310とコミ
ュニケートするために、ユーザがワイヤレス伝送装置22
0を携帯した図を示す。第２図、第３図、及び第４図を
参照すると、好適な実施例では、ユーザはブローチを身
に付けるのと同様に伝送装置220を身に付ける。別の方
法として、ユーザは自分の口に送信装置220を保持する
こともできる。ユーザがリモート・データ処理システム
（例えば、ATMマシン）310にある音声認識システム230
とコミュニケートしたい時、そのユーザ（伝送装置220
を携帯している）はリモート・データ処理システム310
に近づき、音声作動コマンド（例えば、「コンピュー
タ」、「ログオン・コンピュータ」）を伝送装置220の
音声作動マイクロフォン221に対して発声する（ステッ
プ418）。「ワイヤレス」は、データ処理システム310が
伝送装置220に関してワイヤレスであることを意味する
ということに注意することは重要である。音声作動マイ
クロフォン221は音声作動コマンドを検出し、A/Dサブシ
ステム222はその音声作動コマンドをサンプルし、そし
てそれをディジタル化する。A/Dサブシステム222は、そ
のディジタル化された音声作動コマンドを音声認識回路
224に送る。

音声認識回路224（及び234）は、IBM Voicetype Di
ctation（商標）という製品、或いは、Dragon音声認識
システムにおける音声認識回路のような任意の適当な音
声認識回路を含む。音声認識回路224が音声作動コマン
ドを認識する場合、それは、そのようなことをプロセッ
サ228に表示する信号を送る。それに応答して、プロセ
ッサ228は送信装置229に信号を送って、音声認識システ
ム230の受信装置232へ音声作動コマンドを伝送させる
（ステップ420）。送信装置229は任意の適当なタイプの
ワイヤレス送信装置（例えば、レーザ、赤外線発生ダイ
オード）であってもよい。しかし、好適な実施例では、
送信装置229はRF送信装置である。プロセッサ228は、短
いタイムアウト信号をRAM226に送り、ユーザが音声認識
システム230と直接に口頭でコミュニケートすることを
可能にさせる（ステップ422）。

音声認識システム230は、受信装置232、音声圧縮解除
回路233、及び音声認識回路234を含み、ワークステーシ
ョン100のような任意の適当なワークステーションにあ
る。受信装置232は受信した音声作動コマンドを音声圧
縮解除回路233に送る。そこで、それは圧縮解除され
る。音声圧縮解除回路233は音声作動コマンドを音声認
識回路234に送る。音声認識回路234がその音声作動コマ
ンドを認識する場合、伝送装置220から韻律曲線及びダ
イフォーン・セグメントを受信するために待機する。従
って、短いタイムアウトの後、プロセッサ228は、送信
装置229及び受信装置232を介して音声認識回路234に韻
律曲線及びダイフォーン・セグメントを送るようにRAM2
26に指示する（ステップ424及び426）。音声認識回路23
4は、それらの韻律曲線及びダイフォーン・セグメント
を使用してユーザの音声を認識させる。今や、ユーザ
は、音声認識装置230に直接に話しかけることが可能で
ある。

産業上の利用可能性従って、好適な実施例は、ユーザが音声作動コマンド
を発生すること以外に何もする必要なしに、ユーザの音
声特性をワイヤレス・リモート・マシンに伝送する。カ
ードを挿入する必要もない。従って、ユーザは、複数の
ワイヤレス・リモート・データ処理システムを同時に作
動させることができる。これは、カードを挿入すること
によっても達成されなかったことである。

特定の実施例に関連して本発明を示し且つ説明したけ
れども、形式及び詳細における上記及びその他の変更を
本発明の技術的範囲内で行い得ることは当業者には明ら
かであろう。

フロントページの続き (72)発明者ポストン、リッキー、リーアメリカ合衆国テキサス州オウスチン、４デイー、ダブリュ．ランドバーグ 2018 (72)発明者ウエーナー、ジョン、ハロルドアメリカ合衆国カリフォルニア州オーシャンサイド、ナイトホーク・ウエイ 5040 審査官鈴木匡明 (56)参考文献特開平７−36615（ＪＰ，Ａ) 特開平７−191715（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 3/16 G10L 15/00 H04Q 9/00 - 9/16

Claims

(57)【特許請求の範囲】

【請求項１】音声認識システムを有する少なくとも１つ
のリモート音声作動データ処理システムによる改良され
た音声コミュニケーションのための方法にして、（ａ）ユーザの音声特性をワイヤレス伝送装置のメモリ
に記憶するステップと、（ｂ）前記ワイヤレス伝送装置によって、ユーザからの
音声作動コマンドを受信して音声認識システムに伝送す
るステップと、（ｃ）前記音声作動コマンドに応答して、前記メモリか
ら音声認識システムに前記音声特性を伝送し、それによ
って、ユーザが音声作動データ処理システムと直接に口
頭でコミュニケートすることを可能にするステップと、を含む方法。
【請求項２】前記ステップ（ａ）は、ユーザの音声のサンプルを捕捉するステップと、捕捉された音声サンプルをディジタル化し、それによっ
てディジタル化音声を形成するステップと、音声分析器を使用して前記ディジタル化音声から音声特
性を抽出するステップと、前記音声特性を前記メモリに記憶するステップと、を含むことを特徴とする請求の範囲第１項に記載の方
法。
【請求項３】前記ステップ（ｂ）は、前記ワイヤレス伝
送装置の音声認識回路が、前記音声作動コマンドを認識
し、認識した旨を前記ワイヤレス伝送装置のプロセッサ
に表示する信号を送るステップと、前記信号に応答して、前記ワイヤレス伝送装置のプロセ
ッサが、前記ワイヤレス伝送装置の送信装置に、音声作
動コマンドを音声認識システムへ伝送するように指示す
る信号を送るステップと、前記音声認識システムが、伝送された音声作動コマンド
を認識し、前記伝送装置から前記音声特性を受信するた
めに待機するステップと、を含むことを特徴とする請求の範囲第１項または第２項
に記載の方法。
【請求項４】前記ステップ（ｂ）は、更に、前記音声特
性を伝送する前に、前記プロセッサから前記メモリにタ
イムアウト信号を送るステップ、を含むことを特徴とする請求の範囲第１項〜第３項のい
ずれか１項に記載の方法。
【請求項５】前記ステップ（ｃ）は、前記音声特性を前
記音声認識システムに伝送するための信号を前記プロセ
ッサから前記メモリに送るステップを含むことを特徴と
する請求の範囲第４項に記載の方法。
【請求項６】リモート・データ処理システムにあるリモ
ート音声認識システムとの音声コミュニケーションを可
能にするための音声伝送システムにして、ユーザの音声特性を記憶するためのメモリを有するワイ
ヤレス伝送装置を含み、前記ワイヤレス伝送装置は、ユーザからの音声作動コマ
ンドを受信し、認識し、及び、音声認識システムに伝送
するように適応し、前記音声認識システムは、前記ユーザからの音声作動コ
マンドを前記ワイヤレス伝送装置から受信し、認識し、
及び、前記ワイヤレス伝送装置のメモリからユーザの音
声特性が送信されるのを待機するように適応し、及び前記ワイヤレス伝送装置は前記メモリから前記音声認識
システムに前記音声特性を伝送し、それによって、ユー
ザが前記音声認識システムと直接に口頭でコミュニケー
トするように適応することを特徴とする音声伝送システム。
【請求項７】更に、ユーザの音声サンプルから音声特性
を生成するための音声特性抽出装置を含むことを特徴と
する請求の範囲第６項に記載のシステム。
【請求項８】前記ワイヤレス伝送装置は音声作動コマン
ドを受けるためのマイクロフォンと、音声作動コマンド
を認識するための音声認識回路と、受け取った音声作動
コマンドを前記音声認識システムに送信するための送信
装置とを含むことを特徴とする請求の範囲第６項又は第
７項に記載のシステム。
【請求項９】前記送信装置はRFトランスミッタを含むこ
とを特徴とする請求の範囲第８項に記載のシステム。
【請求項１０】前記ワイヤレス伝送装置は、更に、前記
メモリ及び送信装置を制御するためのプロセッサを含む
ことを特徴とする請求の範囲第８項又は第９項に記載の
システム。