JPH10507559A

JPH10507559A - 音声サンプルを音声作動データ処理システムに伝送するための方法及び装置

Info

Publication number: JPH10507559A
Application number: JP9504909A
Authority: JP
Inventors: クライン、トロイ、リイ; アイゼンシー、スコット、ハーラン; ポストン、リッキー、リー; ウエーナー、ジョン、ハロルド
Original assignee: インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date: 1995-06-30
Filing date: 1996-06-27
Publication date: 1998-07-21
Anticipated expiration: 2016-06-27
Also published as: KR100297076B1; JP3335178B2; PL182225B1; CN1095563C; US5704009A; EP0836720B1; WO1997002526A1; HUP9801839A3; CA2220861A1; DE69606042T2; HUP9801839A2; PL324025A1; TW366483B; CZ395397A3; KR19990022423A; DE69606042D1; CA2220861C; CZ287316B6; EP0836720A1; CN1189900A

Abstract

(57)【要約】ユーザが携帯したワイヤレス伝送装置から、音声認識システムを有するリモート音声作動データ処理システムに、分析された音声サンプルを伝送する装置及び方法を提供する。この方法は、ユーザの音声特性をワイヤレス伝送装置におけるメモリ（例えば、ＲＡＭチップ）に記憶する第１ステップを含む。第２ステップは、その伝送装置及び音声認識システムを音声作動することを含む。第３ステップは、伝送装置及び音声認識システムが作動された後、音声特性をメモリから音声認識システムに伝送し、それによって、ユーザが音声作動データ処理システムと直接に口頭でコミュニケートすることを可能にする。

Description

【発明の詳細な説明】音声サンプルを音声作動データ処理システムに伝送するための方法及び装置技術分野本発明は音声認識システムとのコミュニケーションの改良に関するものであり、更に詳しく云えば、それに限定するものではないが、音声サンプルをデータ処理システムにおける話者依存の音声認識システムに伝送するための方法及び装置に関するものである。背景技術ヒューマン・コミュニケーションにおいて、及びヒューマン・ツー・マシン及びマシン・ツー・ヒューマン・コミュニケーションにおいて、話し言葉は重要な役割を演ずる。例えば、現在のボイス・メール・システム、ヘルプ・システム、及びビデオ会議システムは音声を組み込んでいる。更に、テクノロジが発展するにつれて、人の音声はマシン／ヒューマン・コミュニケーションにおいて更に大きな役割を演ずるであろう。特に、音声認識システムを組み込んだワイヤレスＡＴＭマシン（或いは、給油所、旅行情報案内所、ＰＯＳ端末のような任意のワイヤレス・マシンのタイプ）を想像して欲しい。その音声認識システムを組み込むことによって、ユーザは単にそのＡＴＭマシンに話しかけるだけである。本発明は、そのようなマシンにカード又は他の如何なるタイプの装置を挿入することを必要とせずに、ユーザがそのマシンと容易に且つ効率的に口頭でコミュニケートすることを意図するものである。しかし、幾つかの付加的な背景情報を、先ず、検討しなければならない。通常の音声認識システムは人の音声を聴取し及び理解する。しかし、受容し得る音声認識精度を持つために、通常の音声認識システムはユーザの記憶された音声サンプルを利用する。ユーザは、十分な音声特性を捕捉した約３０個の慎重に構成されたセンテンスを発声することによって音声サンプルを生成する。音声特性は、律動、ピッチ、抑揚、及び速度を含むユーザの音声の韻律を含んでいる。通常の音声分析器は、音声サンプルを処理して各ダイフォーン（ｄｉｐｈｏｎｅ）セグメントに対するオーディオ・サンプルを分離し、特徴ある韻律曲線を決定する。音声分析器は、隠れマルコフ・モデルのような周知のディジタル信号処理技法を使用してダイフォーン・セグメント及び韻律曲線を生成する。従って、記憶された音声サンプルによって、通常の音声認識システムは約９０％の正確度を有する。しかし、ユーザがワイヤレス・マシンと口頭でコミュニケートすることを望む都度それらの３０個のセンテンスを反復することは極めて不都合なことであろう。この背景情報を仮定すると、音声を介してワイヤレス対話マシンと効率的に、効果的に、及び遠隔的にコミュニケートすることは、多くのユーザにとって極めて望ましい且つ有益なことであろう。しかし、ユーザが高い精度でもってそのマシンと口頭でコミュニケートする前に、ユーザの分析された音声サンプルをそのマシンに伝送する技法及び装置が開発されなければならない。発明の開示第１の局面では、本発明は、音声認識システムを有する少なくとも１つのリモート音声作動データ処理システムによる改良された音声コミュニケーションのための方法を提供する。その方法は、（ａ）ユーザの音声特性をワイヤレス伝送装置のメモリに記憶するステップと、（ｂ）音声作動コマンドに応答して、そのワイヤレス伝送装置及びリモート音声認識システムを音声作動するステップと、（ｃ）そのワイヤレス伝送装置及び音声認識システムの作動に応答して、メモリからその音声認識システムに音声特性を伝送し、それによって、ユーザがその音声作動データ処理システムと直接に口頭でコミュニケートすることを可能にするステップと、を含む。第２の局面では、本発明は、リモート・データ処理システムにあるリモート音声認識システムとの音声コミュニケーションを可能にするための音声伝送システムを提供する。その音声伝送システムは、ユーザの音声特性を記憶するためのメモリを有するワイヤレス伝送装置と、そのワイヤレス伝送装置及び音声認識システムはそのワイヤレス伝送装置による受信した音声作動コマンドに応答して作動するように適応すること、及びそのワイヤレス伝送装置はその音声認識システム及びワイヤレス伝送装置の作動に応答してメモリからその音声認識システムに音声特性を伝送し、それによって、ユーザが音声認識システムと直接に口頭でコミュニケートするように適応することを特徴とする。本発明の好適な実施例における装置及びコンピュータ実施される方法は、分析された音声サンプルを、ユーザにより携帯されたワイヤレス伝送装置から音声認識システムを有するリモート・データ処理システムに伝送する。その方法は、ユーザの音声特性のセットをワイヤレス伝送装置のメモリ（例えば、ＲＡＭチップ）に記憶する第１ステップを含む。第２ステップは、音声コマンドに応答してその伝送装置及びリモート音声認識システムを音声作動することを含む。第３ステップは、伝送装置及び音声認識システムが作動させられた後、メモリから音声認識システムに音声特性を自動的に且つ遠隔的に伝送することを含み、それによって、ユーザが音声作動データ処理システムと直接に口頭でコミュニケートすることを可能にする。本発明は、事前定義された音声コマンドに応答して、ユーザの音声特性をワイヤレス・データ処理システムに自動的に伝送する改良された音声伝送システムを提供する。更に、本発明は、ユーザの音声特性を記憶し及びデータ処理システムに伝送するための装置（例えば、伝送装置）と、その音声特性を待ち及び受信するようにそのデータ処理システムを作動させるための装置とを提供する。次に、添付図面を参照して、本発明を実施例によって更に詳しく説明することにする。図面の簡単な説明第１図は、本発明を実施するための代表的なハードウエア環境のブロック図を示す。第２図は、本発明による改良された音声伝送システムのブロック図を示す。第３図は、リモート・データ処理システムとコミュニケートするためにユーザがワイヤレス伝送装置を携帯した状態の図を示す。第４図は、ワイヤレス伝送装置からリモート・データ処理システムに音声特性を伝送するための流れ図を示す。発明を実施するための最良の形態好適な実施例は、ユーザの音声特性を含む音声サンプルを音声認識システムに遠隔的に及び自動的に伝送するための方法及び装置を含む。その好適な実施例は、ラップトップ・コンピュータにおいて、或いは、代替的には、第１図に示されたワークステーションにおいて実施される。ワークステーション１００は、キャッシュ１５、ランダム・アクセス・メモリ（ＲＡＭ）１４、リード・オンリ・メモリ（ＲＯＭ）１６、及び不揮発性ＲＡＭ（ＮＶＲＡＭ）３２を処理するためのＩＢＭ（商標）社のＰｏｗｅｒＰＣ（商標）６０１、又はＩｎｔｅｌ（商標）社の４８６マイクロプロセッサのような中央処理装置（ＣＰＵ）１０を含む。Ｉ／Ｏアダプタ１８によって制御される１つ又は複数のディスク２０は長期記憶装置を提供する。テープ、ＣＤ−ＲＯＭ、及びＷＯＲＭドライブを含むその他の種々の記憶媒体を使用することが可能である。データ又はコンピュータ・プロセス命令を記憶するために、取外し可能な記憶媒体も使用可能である。Ｓｕｎ社のＳｏｌａｒｉｓ（商標）、Ｍｉｃｒｏｓｏｆｔ社のＷｉｎｄｏｗｓＮＴ（商標）、ＩＢＭ社のＯＳ／２（商標）、又はＡｐｐｌｅ社のＭＡＣＯＳ（商標）のような適当なオペレーティング・システムのそのデスクトップからの命令及びデータがＲＡＭ１４からＣＰＵ１０を制御する。しかし、本発明を実施するために、他のハードウエア・プラットフォーム及びオペレーティング・システムが利用可能であることは、当業者が容易に認めることである。ユーザは、ユーザ・インターフェース２２によって制御されるＩ／Ｏ装置（即ち、ユーザ制御装置）を介してワークステーション１００とコミュニケートする。ディスプレイ３８はユーザに情報を表示し、一方、キーボード２４、ポインティング装置２６、マイクロフォン３０、及びスピーカ２８は、ユーザがコンピュータ・システムを指示することを可能にする。代替方法として、ジョイ・スティック、タッチ・スクリーン、或いは仮想現実ヘッドセット（図示されていない）のような別のタイプのユーザ制御装置も使用可能である。通信アダプタ３４は、このコンピュータ・システムとネットワーク・アダプタによってネットワークに接続された他の処理装置との間の通信を制御する。ディスプレイ・アダプタ３６はこのコンピュータ・システムとディスプレイ３８との間のコミュニケーションを制御する。第２図は、好適な実施例に従って、完全な音声伝送システム２００のブロック図を示す。音声伝送システム２００は音声特性抽出装置２１０、伝送装置（単に装置とも呼ばれる）２２０、及び音声認識システム２３０を含む。音声特性抽出装置２１０はワークステーション１００（第１図参照）のような任意の適当なワークステーション内にあり、Ａ／Ｄサブシステム２０４、音声分析器２０６、及び音声コーディング回路２０７を含む。第４図は、ワイヤレス伝送装置からリモート・データ処理システムに音声特性を伝送するための流れ図を示す。第２図及び第４図を参照すると、好適な実施例では、ユーザは、話し手の十分な音声特性を含む音声サンプル（例えば、約３０個のセンテンス）をマイクロフォン２０２に与える（ステップ４１０）。音声特性は、律動、ピッチ、抑揚、及び速度のようなその音声の韻律を含む。このタイプのセンテンスは音声合成分野におけ当業者には周知である。例えば、１つのセンテンスは、「The quick fox jumped over the lazy brown dog（敏捷な狐がのろまな茶色の犬を飛び越えた）」でもよい。Ａ／Ｄサブシステム２０４（及び２２２）はその音声サンプルをサンプルしそしてディジタル化する。それは、ＩＢＭＭＡＣＰＡ（即ち、マルチメディア音声捕捉及び再生アダプタ）ＣｒｅａｔｉｖｅＬａｂのＳｏｕｎｄＢｌａｓｔｅｒ音声カード、又はシングル・チップ・ソリューションのような任意の適当なアナログ・ツー・ディジタル・システムを含む（ステップ４１２）。一方、任意の適当な一般的な音声分析器２０６がそのディジタル化された音声サンプルを処理して各ダイフォーン・セグメントに対する音声サンプルを分離し、特性韻律曲線を決定する（ステップ４１４）。音声分析器２０６は、隠れマルコフ・モデルのような周知のディジタル信号処理技法を使用してダイフォーン・セグメント及び韻律曲線を生成する。米国特許第４,９６１,２２９号及び同第３ ,８１６,７２２号は適当な音声分析器を開示している。音声コーディング回路２０７は、通常のディジタル・コーディング技法を利用してダイフォーン・セグメント及び韻律曲線を圧縮し、それによって、伝送帯域幅及び記憶要件を少なくする（ステップ４１６）。音声コーディング回路２０７はその結果の圧縮された韻律曲線及びダイフォーン・セグメントを伝送装置２２０のＲＡＭ２２６（例えば、メモリ）に記憶する。パイプライン・バースト・メモリ、フラッシュ・メモリ、又は縮小サイズＤＡＳＤのような任意の適当なタイプのメモリ装置がＲＡＭ２２６の代わりになり得ることは当業者の認めるところである。又、伝送装置２２０は、音声作動コマンドを受けるための音声作動マイクロフォン２２１、Ａ／Ｄサブシステム２２２、音声認識回路２２４、電源（図示されていない）、及び送信装置２２９も含む。第３図は、リモート・データ処理システム３１０とコミュニケートするために、ユーザがワイヤレス伝送装置２２０を携帯した図を示す。第２図、第３図、及び第４図を参照すると、好適な実施例でば、ユーザはブローチを身に付けるのと同様に伝送装置２２０を身に付ける。別の方法として、ユーザは自分の口に送信装置２２０を保持することもできる。ユーザがリモート・データ処理システム（例えば、ＡＴＭマシン）３１０にある音声認識システム２３０とコミュニケートしたい時、そのユーザ（伝送装置２２０を携帯している）はリモート・データ処理システム３１０に近づき、音声作動コマンド（例えば、「コンピュータ」、「ログオン・コンピュータ」）を伝送装置２２０の音声作動マイクロフォン２２１に対して発声する（ステップ４１８）。「ワイヤレス」は、データ処理システム３１０が伝送装置２２０に関してワイヤレスであることを意味するということに注意することは重要である。音声作動マイクロフォン２２１は音声作動コマンドを検出し、Ａ／Ｄサブシステム２２２はその音声作動コマンドをサンプルし、そしてそれをディジタル化する。Ａ／Ｄサブシステム２２２は、そのディジタル化された音声作動コマンドを音声認識回路２２４に送る。音声認識回路２２４（及び２３４）は、ＩＢＭＶｏｉｃｅｔｙｐｅＤｉｃｔａｔｉｏｎ（商標）という製品、或いは、Ｄｒａｇｏｎ音声認識システムにおける音声認識回路のような任意の適当な音声認識回路を含む。音声認識回路２２４が音声作動コマンドを認識する場合、それは、そのようなことをプロセッサ２２８に表示する信号を送る。それに応答して、プロセッサ２２８は送信装置２２９に信号を送って、音声認識システム２３０の受信装置２３２へ音声作動コマンドを伝送させる（ステップ４２０）。送信装置２２９は任意の適当なタイプのワイヤレス送信装置（例えば、レーザ、赤外線発生ダイオード）であってもよい。しかし、好適な実施例では、送信装置２２９はＲＦ送信装置である。プロセッサ２２８は、短いタイムアウト信号をＲＡＭ２２６に送り、音声認識システム２３０が起動させるのを可能にさせる（ステップ４２２）。音声認識システム２３０は、受信装置２３２、音声圧縮解除回路２３３、及び音声認識回路２３４を含み、ワークステーション１００のような任意の適当なワークステーションにある。受信装置２３２は受信した音声作動コマンドを音声圧縮解除回路２３３に送る。そこで、それは圧縮解除される。音声圧縮解除回路２３３は音声作動コマンドを音声認識回路２３４に送る。音声認識回路２３４がその音声作動コマンドを認識する場合、それは作動され、伝送装置２２０から韻律曲線及びダイフォーン・セグメントを受信するために待機する。従って、単一の音声作動コマンドが伝送装置２２０及び音声認識システム２３０を作動する。従って、短いタイムアウトの後、プロセッサ２２８は、送信装置２２９及び受信装置２３２を介して音声認識回路２３４に韻律曲線及びダイフォーン・セグメントを送るようにＲＡＭ２２６に指示する（ステップ４２４及び４２６）。音声認識回路２３４は、それらの韻律曲線及びダイフォーン・セグメントを使用してユーザの音声を認識させる。今や、ユーザは、音声認識装置２３０に直接に話しかけることが可能である。産業上の利用可能性従って、好適な実施例は、ユーザが音声作動コマンドを発生すること以外に何もする必要なしに、ユーザの音声特性をワイヤレス・リモート・マシンに伝送する。カードを挿入する必要もない。従って、ユーザは、複数のワイヤレス・リモート・データ処理システムを同時に作動させることができる。これは、カードを挿入することによっても達成されなかったことである。特定の実施例に関連して本発明を示し且つ説明したけれども、形式及び詳細における上記及びその他の変更を本発明の技術的範囲内で行い得ることは当業者には明らかであろう。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ポストン、リッキー、リーアメリカ合衆国テキサス州オウスチン、４デイー、ダブリュ．ランドバーグ 2018 (72)発明者ウエーナー、ジョン、ハロルドアメリカ合衆国カリフォルニア州オーシャンサイド、ナイトホーク・ウエイ 5040

Claims

【特許請求の範囲】１．音声認識システムを有する少なくとも１つのリモート音声作動データ処理システムによる改良された音声コミュニケーションのための方法にして、（ａ）ユーザの音声特性をワイヤレス伝送装置のメモリに記憶するステップと、（ｂ）音声作動コマンドに応答して、前記ワイヤレス伝送装置及びリモート音声認識システムを音声作動するステップと、（ｃ）前記ワイヤレス伝送装置及び音声認識システムの作動に応答して、メモリから前記音声認識システムに音声特性を伝送し、それによって、ユーザが前記音声作動データ処理システムと直接に口頭でコミュニケートすることを可能にするステップと、を含む方法。２．前記ステップ（ａ）は、ユーザの音声のサンプルを捕捉するステップと、捕捉された音声サンプルをディジタル化し、それによってディジタル化音声を形成するステップと、音声分析器を使用して前記ディジタル化音声から音声特性を抽出するステップと、前記音声特性を前記メモリに記憶するステップと、を含むことを特徴とする請求の範囲第１項に記載の方法。３．前記ステップ（ｂ）は、ユーザからの音声作動コマンドを前記ワイヤレス伝送装置によって受信して前記伝送装置を起動させるステップと、前記音声作動コマンドを前記ワイヤレス伝送装置から前記音声認識システムに伝送して前記音声伝送システムを起動させるステップと、を含むことを特徴とする請求の範囲第１項又は第２項に記載の方法。４．前記ステップ（ｂ）は、更に、前記音声特性を伝送する前に、前記音声認識システムが起動することを可能にするための信号を前記ワイヤレス伝送装置におけるプロセッサから前記メモリに送るステップを含むことを特徴とする請求の範囲第３項に記載の方法。５．前記ステップ（ｃ）は、前記音声特性を前記音声認識システムに伝送するための信号を前記プロセッサから前記メモリに送るステップを含むことを特徴とする請求の範囲第４項に記載の方法。６．リモート・データ処理システムにあるリモート音声認識システムとの音声コミュニケーションを可能にするための音声伝送システムにして、ユーザの音声特性を記憶するためのメモリを有するワイヤレス伝送装置を含み、前記ワイヤレス伝送装置及び音声認識システムは前記ワイヤレス伝送装置による受信した音声作動コマンドに応答して作動するように適応すること、及び前記ワイヤレス伝送装置は前記音声認識システム及びワイヤレス伝送装置の作動に応答して前記メモリから前記音声認識システムに前記音声特性を伝送し、それによって、ユーザが前記音声認識システムと直接に口頭でコミュニケートするように適応することを特徴とする音声伝送システム。７．更に、ユーザの音声サンプルから音声特性を生成するための音声特性抽出装置を含むことを特徴とする請求の範囲第６項に記載のシステム。８．前記ワイヤレス伝送装置は音声作動コマンドを受けるためのマイクロフォンと、音声作動コマンドを認識するための音声認識システムと、受け取った音声作動コマンドを前記音声認識回路に送信するための送信装置とを含むことを特徴とする請求の範囲第６項又は第７項に記載のシステム。９．前記送信装置はＲＦトランスミッタを含むことを特徴とする請求の範囲第８項に記載のシステム。１０．前記ワイヤレス伝送装置は、更に、前記メモリ及び送信装置を制御するためのプロセッサを含むことを特徴とする請求の範囲第８項又は第９項に記載のシステム。