JP2003511884A - 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置 - Google Patents

出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置

Info

Publication number
JP2003511884A
JP2003511884A JP2001528975A JP2001528975A JP2003511884A JP 2003511884 A JP2003511884 A JP 2003511884A JP 2001528975 A JP2001528975 A JP 2001528975A JP 2001528975 A JP2001528975 A JP 2001528975A JP 2003511884 A JP2003511884 A JP 2003511884A
Authority
JP
Japan
Prior art keywords
audio signal
signal
output audio
subscriber unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001528975A
Other languages
English (en)
Inventor
アイラ・エイ・ガーソン
Original Assignee
オーボ・テクノロジーズ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オーボ・テクノロジーズ・インコーポレイテッド filed Critical オーボ・テクノロジーズ・インコーポレイテッド
Publication of JP2003511884A publication Critical patent/JP2003511884A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2207/00Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
    • H04M2207/18Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 入力音声信号の開始は、決定される(701)際の出力オーディオ信号に対する、出力オーディオ信号と入力開始時間との生成の間に検出される。入力開始時間は、次に、入力音声信号に応答するのに使用されるために提供される(704)。入力音声信号が、出力オーディオ信号が生ずる間に検出されるとき、出力オーディオ信号の識別は、入力音声信号に応答するのに使用されるために提供される。データおよび/または制御信号を備えている情報の信号(705)は、少なくとも提供されるコンテキスト上の情報、すなわち、入力開始時間および/または出力オーディオ信号の識別に応じて提供される。本発明は、基礎をなす通信システムの遅延特性にかかわらず、出力オーディオ信号に対する入力音声信号のコンテキストを精密に確立する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、一般に、音声認識を組み込んでいる通信システムに関し、特に、出
力オーディオ信号が生ずる間の入力音声信号を“バージイン”(barge-in)処理
する方法および装置に関する。
【0002】
【従来の技術】
音声認識システムは、特に電話システムに関して一般的に公知の技術である。
米国特許4,914,692、5,475,791、5,708,704と、ま
た5,765,130は、音声認識システムを組み込んだ電話網を例示している
。各システムの共通する特徴は、音声認識エレメント(即ち、音声認識を実施す
るデバイス)は、加入者の通信デバイス(即ち、ユーザーの電話)とは逆に、一
般的に、電話網の構成の中心に位置されている。典型的には、音声の合成と音声
認識エレメントとの組み合せは、電話網あるいはインフラストラクチャ内で展開
されている。呼者は、そのシステムにアクセスし、音声合成エレメントを介して
、合成された音声の形での情報のプロンプトあるいはクエリーの提供を受けるこ
とができる。呼者は、一般的に、合成された音声に対して口頭による応答を行い
、音声認識エレメントは、呼者にさらなるサービスを提供するために、呼者の口
頭による応答を処理する。
【0003】
【発明が解決しようとする課題】
人間性およびいくつかの音声合成/認識システムの設計を所与のものとすれば
、発呼者によって提供される口頭の応答は、出力オーディオ信号、たとえば、合
成された音声プロンプトが生ずる間に生ずることが多い。このような発生セグメ
ントの処理は、“バージイン”処理と呼ぶことが多い。米国特許第4,914,
692号、第5,155,760号、第5,475,791号;第5,708,
704号および第5,765,130号すべては、バージイン処理のための技術
について記述している。一般に、これらの特許のそれぞれに記述されている技術
は、バージイン処理の間のエコーキャンセルの必要性と取り組んでいる。すなわ
ち、合成された音声プロンプト(すなわち、出力オーディオ信号)が生ずる間、
音声認識システムは、音声認識分析を効果的に行うために、ユーザによって提供
されるあらゆる口頭の応答(すなわち、入力音声信号)に存在するプロンプトか
らの未処理の作為を説明する必要がある。したがって、これらの従来技術技術は
、一般に、バージイン処理の間の入力音声信号の質に関している。音声電話技術
システムに見出される比較的小さな待ち時間、あるいは、遅延により、これらの
従来技術の技術は、一般に、入力音声信号を特定の出力オーディオ信号や出力オ
ーディオ信号内の特定のモーメントに関連づけるといったバージイン処理のコン
テキスト決定について考慮されてない。
【0004】 従来技術のこの欠点は、無線システムに関していっそう著しい。従来の技術の
主要部が、前記で説明されたシステムに関連して存在してはいるが、無線通信シ
ステムへの音声認識システムの組み込みは、新しく開発されたばかりである。無
線通信環境の中での音声認識の応用の標準化に努めるために、オーロラ・プロジ
ェクトと呼ばれる欧州通信規格協会(ETSI)による取り組みが最近開始され
た。オーロラ・プロジェクトの目標は、音声認識システムの普及のためのグロー
バルな規格である。このプロジェクトは、クライアント/サーバ構成を確立する
ことを提案している。この構成では、特徴抽出あるいはパラメータ化などのフロ
ントエンドの音声認識処理が、加入者ユニット(例えば、セルラ電話のような携
帯無線デバイス)で実施される。その後、フロントエンドにより提供されるデー
タは、サーバに転送され、バックエンドの音声認識処理が行われる。
【0005】 オーロラ・プロジェクトによって提案されるクライアント−サーバ構成が、普
及される音声認識システムのための必要性と適切に取り組んでいることは予測さ
れる。とはいえ、バージイン処理が、オーロラ・プロジェクトによって、なされ
たとしても、取り組まれる方法は、この時には不明確である。これは、無線シス
テムにおいて一般に直面する欠点と、このような欠点が、バージイン処理に関し
てあるという効果とにおけるより広い変化を所与のものとすれば特に懸念される
。たとえば、ユーザの音声に基づく応答の処理が、音声認識プロセッサによって
受けられた特定の時点に一部基づいて行われることは、まれではない。すなわち
、一連の複数の連続しないプロンプトが提供される場合に、ユーザの応答が、所
定の合成プロンプトの特定の部分の間に受信されたのか、あるいは、どのプロン
プトの間に応答が受信されたかどうかによって、相違を生じうる。要するに、ユ
ーザの応答のコンテキストは、ユーザの応答の情報の内容の認識と同じほど重要
である。とはいえ、いくつかの無線システムの不特定の遅延特性は、このような
コンテキストを適切に決定するのに障害となる。したがって、特に、パケットデ
ータ通信を利用するなどの不確実な、および/または広範に変化する遅延特性を
有するシステムにおいて、出力オーディオ信号が生ずる間に入力音声信号のコン
テキストを決定するための技術を提供することは有利なことである。
【0006】
【課題を解決するための手段】
本発明は、出力オーディオ信号が生ずる間に入力音声信号を処理するための技
術を提供する。主として、無線通信システムに適用可能であるが、本発明の技術
は、有益なことには、不確実な、および/または広範囲に変化する遅延特性を有
するあらゆる通信システム、たとえば、Internet(インターネット)な
どのパケットデータシステムに適用されることができる。本発明の1つの実施の
形態によれば、入力音声信号の開始は、出力オーディオ信号が生ずる間に検出さ
れ、そして、出力オーディオ信号に対して入力開始時間が、決定される。入力開
始時間は、次に、入力音声信号に応答するのに使用されるために提供される。別
の実施の形態において、出力オーディオ信号は、対応する識別を有している。入
力音声信号が、出力オーディオ信号が生ずる間に検出されるとき、出力オーディ
オ信号の識別は、入力音声信号に応答するのに使用されるために提供される。デ
ータおよび/または制御信号を備えている情報の信号は、少なくとも提供される
コンテキスト情報、すなわち、入力開始時間および/または出力オーディオ信号
の識別に応じて提供される。このように、本発明は、基礎をなす通信システムの
遅延特性にかかわらず、出力オーディオ信号に対して入力音声信号のコンテキス
トを精密に確立するための技術を提供する。
【0007】
【発明の実施の形態】
本発明は、図1乃至図9を参照すると、いっそう完全に記述されることができ
る。図1は、加入者ユニット102−103を備える無線通信システム100の
全体のシステムアーキテクチャを示している。その加入者ユニット102−10
3は、無線システム110によってサポートされる無線チャンネルを媒介として
インフラストラクチャと通信する。本発明のインフラストラクチャは、無線シス
テム110に加えて、小さなエンティティシステム120、コンテンツプロバイ
ダシステム130およびデータ網150いずれかを媒介として互いに結合される
企業システム140を備えている。
【0008】 加入者ユニットは、通信インフラストラクチャと通信することが可能な、ハン
ドヘルドセル電話103、自動車102内にある無線通信装置などのあらゆる無
線通信装置を備えることができる。図1に示されるもの以外の様々な加入者ユニ
ットが使用されることが可能でることは分かる;本発明は、この点については限
定されるものではない。加入者ユニット102−103は、ハンドフリー音声通
信と、ローカル音声認識および合成システムと、クライアント−サーバ音声認識
および合成システムのクライアント部分とのためのハンドフリーセルラー電話の
コンポーネントとを含むことが好ましい。これらのコンポーネントは、図2およ
び図3を参照として以下にいっそう詳細に記述されている。
【0009】 加入者ユニット102−103は、無線チャンネル105を媒介として無線シ
ステム110と無線で通信する。本発明が音声通信をサポートする無線システム
の他のタイプに有益に適応されることを通常の技量の者が認めているが、無線シ
ステム110は、セルラーシステムを備えることが好ましい。無線チャンネル1
05は、一般に、デジタル送信技術を実施し、かつ、加入者ユニット102−1
03への、また、加入者ユニット102−103からの音声および/またはデー
タを伝達することが可能な無線周波数(RF)キャリアである。アナログ技術な
どの別の送信技術も使用されることができることが分かる。好ましい実施の形態
において、無線チャンネル105は、European Telecommun
ications Standards Institute(欧州電気通信標
準化協会)(PTSI)によって定義されるGeneral Packet D
ata Radio Service(ジェネラルパケットデータ無線サービス
)(GPRS)などの無線パケットデータチャネルである。無線チャンネル10
5は、クライアント−サーバ音声認識および合成システムのクライアント部分と
、クライアント−サーバ音声認識および合成システムのサーバ部分との間の通信
を促進するために、データを搬送する。ディスプレイ、制御、ロケーション、ス
テータス情報などの他の情報は、さらに、無線チャンネル105全域で搬送され
ることが可能である。
【0010】 無線システム110は、加入者ユニット102−103から無線チャンネル1
05によって伝達される送信を受信するアンテナ112を備えている。アンテナ
112は、さらに、無線チャンネル105を媒介として加入者ユニット102−
103に伝送する。アンテナ112を媒介として受信されるデータは、データ信
号に変換され、そして、無線網113に搬送される。逆に、無線網113からの
データは、送信用のアンテナ112に送信される。本発明のコンテキストにおい
て、無線網113は、一般に技術上周知のように、ベースステーション、コント
ローラ、リソース割当装置、インターフェイス、データベースなどの無線システ
ムを実施するのに必要なこれらの装置を備えている。通常の当業者に理解できる
ように、無線網113に組み込まれる特定の要素は、使用される無線システム1
10の特定のタイプ、たとえば、セルラーシステム、中継陸上移動システムなど
によって決まる。
【0011】 クライアント−サーバ音声認識および合成システムのサーバ部分を提供する音
声認識サーバ115は、無線網113に結合されることができ、それによって、
無線システム110のオペレータが加入者ユニット102−103のユーザに音
声利用サービスを提供することを可能とする。制御エンティティ116は、さら
に、無線網113に結合されることができる。制御エンティティ116は、加入
者ユニット、あるいは、加入者ユニットに相互に接続される装置を制御するため
に、音声認識サーバ115によって提供される入力に応答して、制御信号を加入
者ユニット102−103に送信するのに使用されることが可能である。示され
るように、あらゆる適切にプログラムされた汎用コンピュータを備えることがで
きる制御エンティティ116は、無線網113を介してか、あるいは、ダッシュ
記号の相互接続によって示されるように、直接的にかのいずれかで、音声認識サ
ーバ115に結合されることができる。
【0012】 上記に述べられるように、本発明のインフラストラクチャは、データ網150
を媒介として互いに結合される様々なシステム110,120,130,140
を備えることが可能である。適切なデータ網150は、周知の網テクノロジーを
使用するプライベートデータ網、Internet(インターネット)などの公
衆網、あるいは、それらの組み合わせを備えることができる。別の方法として、
あるいは、追加として、無線システム110内の音声認識サーバ115、リモー
ト音声認識サーバ123,132,143,145は、音声利用サービスを加入
者ユニット102−103に提供するために、様々な方法で、データ網150に
接続されることができる。リモート音声認識サーバは、提供されるとき、同様に
、データ網150およびあらゆる介在通信パスを介して制御エンティティ116
と通信することが可能である。
【0013】 デスクトップパーソナルコンピュータ、小さなエンティティシステム120(
小規模ビジネス、あるいは、ホームなどの)内の他の汎用処理装置などのコンピ
ュータ122は、音声認識サーバ123を実施するのに使用されることが可能で
ある。加入者ユニット102−103へのデータおよび加入者ユニット102−
103からのデータは、無線システム110とデータ網150とを介してコンピ
ュータ122にルートされる。保存されたソフトウェアアルゴリズムおよびプロ
セスを実行して、コンピュータ122は、好ましい実施の形態において、音声認
識システムと音声合成システムとの両方のサーバ部分を含む音声認識サーバ12
3の機能を提供する。たとえば、コンピュータ122が、ユーザのパーソナルコ
ンピュータである所では、そのコンピュータの音声認識サーバソフトウェアは、
ユーザの電子メール、電話帳、カレンダー、他の情報などのコンピュータにある
ユーザの個人情報に結合されることが可能である。この構成により、加入者ユニ
ットのユーザが、音声利用インターフェイスを利用する加入者のパーソナルコン
ピュータの個人情報にアクセスすることを可能とする。本発明によるクライアン
ト−サーバ音声認識および音声合成システムのクライアント部分は、図2および
図3を参照として以下に記述される。本発明によるクライアント−サーバ音声認
識および音声合成システムのサーバ部分は、図4および図5を参照として以下に
記述される。
【0014】 別の方法として、加入者ユニットのユーザに使用可能とさせる情報を有するコ
ンテンツプロバイダ130は、音声認識サーバ132をデータ網に接続すること
が可能である。特徴、あるいは、特別のサービスとして提案されると、音声認識
サーバ132は、コンテンツプロバイダの情報(図示せず)へのアクセスを望む
加入者ユニットのユーザに音声利用インターフェイスを提供する。
【0015】 音声認識サーバのための別の可能なロケーションは、大企業、あるいは、同様
のエンティティなどの企業140内にある。Intranet(イントラネット
)などの企業の内部網146は、セキュリティゲートウェイ142を媒介として
データ網150に接続される。セキュリティゲートウェイ142は、加入者ユニ
ットと関連して、企業の内部網146への安全なアクセスを提供する。技術上周
知のように、このように提供される安全なアクセスは、一般に、一部分、認証お
よび暗号化テクノロジに依存にしている。このように、安全にされていないデー
タ網150を媒介とする加入者ユニットと内部網146との間の安全な通信が行
われる。企業140内で、音声認識サーバ145を実施するサーバソフトウェア
は、所定の従業員のワークステーションなどのパーソナルコンピュータに提供さ
れることが可能である。小さなエンティティシステムにおける使用について上記
に記述される構成と同様に、ワークステーションアプローチにより、従業員が、
音声利用インターフェイスを介して作業関連情報、あるいは、他の情報にアクセ
スすることを可能とする。さらに、コンテンツプロバイダ130モデルと同様に
、企業140は、企業データベースへのアクセスを行うために、内部で使用可能
な音声認識サーバ143を提供することが可能である。
【0016】 本発明の音声認識サーバが設置される所にかかわらず、それらは、様々な音声
利用サービスを実施するのに使用されることが可能である。たとえば、制御エン
ティティ116と関連して操作すると、提供されるとき、音声認識サーバは、加
入者ユニットに結合される加入者ユニット、あるいは、装置の動作制御を可能と
する。本明細書を通じて使用されるように、音声認識サーバという用語は、音声
合成機能をも含むことを意図されるということは留意されるべきである。
【0017】 本発明のインフラストラクチャは、さらに、加入者ユニット102−103と
通常の電話技術システムとの間の相互接続を提供する。これは、POTS(プレ
ーンな旧来の電話システム)への無線網113の結合により、図1において示さ
れている。技術上周知のように、POTS網118、あるいは、同様な電話網は
、陸上通信線電話受話器、あるいは、他の無線装置などの複数の呼び局119へ
の通信アクセスを提供する。このように、加入者ユニット102−103のユー
ザは、呼び局119の別のユーザと音声通信を行うことが可能である。
【0018】 図2は、本発明による加入者ユニットを実施するのに使用されることができる
ハードウェアアーキテクチャを示している。示されるように、2つの無線トラン
シーバ、無線データトランシーバ203と無線音声トランシーバ204とが、使
用されることができる。技術上周知のように、これらのトランシーバは、データ
および音声の機能の両方を行うことが可能である単一のトランシーバに組み合わ
されることができる。無線データトランシーバ203および無線音声トランシー
バ204は、両方ともアンテナ205に接続される。別の方法として、各トラン
シーバのための独立したアンテナが、さらに、使用されることができる。無線音
声トランシーバ204は、無線音声通信を行うために、すべての必要な信号処理
、プロトコル終了、変復調などを行い、そして、好ましい実施の形態において、
セルラートランシーバを備えている。同様な方法で、無線データトランシーバ2
03は、インフラストラクチャとのデータ連結性を提供する。好ましい実施の形
態において、無線データトランシーバ203は、European Telec
ommunications Standarda Institute(欧州
電気通信標準化協会)(ETSI)によって定義されるGeneral Pac
ket Data Radio Service(ジェネラルパケットデータ無
線サービス)(GPRS)などの無線パケットデータをサポートする。
【0019】 本発明が、以下に論じられるように、自動車システム内に特定の利点を有して
適用されることが可能であることは予測される。自動車内で使用されるとき、本
発明による加入者ユニットは、さらに、一般に、自動車の一部であるか、加入者
ユニットの一部でないと理解される処理コンポーネントを含む。本発明を説明す
るために、このような処理コンポーネントは、加入者ユニットの一部であると想
定する。加入者ユニットの実際の実施は、設計の考慮すべき問題によって指図さ
れるように、このような処理コンポーネントを含んでも、あるいは、含まなくて
もよい。好ましい実施の形態において、処理コンポーネントは、IBM Cor
p.,による“POWER PCなどの”汎用プロセッサ(CPU)201と、
Motorola Inc.によるDSP56300 シリーズプロセッサなど
のデジタル信号プロセッサ(DSP)202とを備えている。CPU 201お
よびDSP 202は、それらが技術上周知のように、データおよびアドレスバ
スと、他の制御接続とを媒介として互いに結合されることを示すために、図2に
隣接して示されている。別の実施の形態は、CPU 201とDSP 202と
の両方の機能を単一のプロセッサに組み合わすか、あるいは、それらをいくつか
のプロセッサに分割することが可能である。CPU 201およびDSP 20
2は、その関連したプロセッサにプログラムおよびデータストレージを提供する
それぞれのメモリー240,241に結合される。格納されたソフトウェアルー
チンを使用して、CPU 201および/またはDSP 202は、本発明の機
能の少なくとも一部を実施するためにプログラムされることが可能である。CP
U 201およびDSP 202のソフトウェア機能は、以下に図3および図7
を参照として少なくとも一部記述されている。
【0020】 好ましい実施の形態において、加入者ユニットは、さらに、アンテナ207に
結合される全地球測位システム(GPS)受信機206を含む。GPS受信機2
06は、受信したGPS情報を提供するためにDSP 202に結合される。D
SP 202は、GPS受信機206から情報を受け、そして、無線通信装置の
ロケーション座標を計算する。別の方法として、GPS受信機206は、直接C
PU201にロケーション情報を提供することができる。
【0021】 CPU 201およびDSP 202の様々な入力および出力は、図2に示さ
れている。図2に示されるように、太い実線は、音声関連情報に相当し、そして
、太い鎖線は、制御/データ関連情報に相当する。オプショナル要素および信号
パスは、点線を使用して図示されている。DSP 202は、以下にさらに詳細
に記述されるように、電話(セル電話)会話および音声入力の両方のための音声
入力を、ローカル音声認識装置およびクライアント−サーバ音声認識装置のクラ
イアントサイド部分との両方に提供するマイクロフォン270からマイクロフォ
ンオーディオ220を受信する。DSP 202は、さらに、電話(セル電話)
会話および音声入力の音声入力を、ローカル音声シンセサイザおよびクライアン
ト−サーバ音声シンセサイザのクライアントサイド部分との両方から提供する少
なくとも1つのスピーカ271に向けられる出力オーディオ211に結合される
。マイクロフォン270およびスピーカ271は、ハンドヘルド装置におけるよ
うに、隣接して互いに位置されることができること、あるいは、遮光板取り付け
マイクロフォンおよびダッシュ、または、ドア取り付けスピーカを有する自動車
の適用におけるように、互いに最も近くに位置されることができることに留意し
てください。
【0022】 本発明の1つの実施の形態において、CPU 201は、双方向性インターフ
ェイス230を介して自動車内のデータバス208に結合されている。このデー
タバス208により、制御およびステータス情報が、セル電話、エンターテイメ
ントシステム、環境制御システムなどの自動車内の様々な装置209a−nとC
PU 201との間に通信されることを可能とする。適切なデータバス208は
、一般に、Society of Automotive Engineers
(自動車エンジニア協会)によって標準化されるプロセスにおけるITS Da
ta Bus(ITSデータバス)であることが予期される。Bluetoot
h Special Interest Group(ブルートゥース特別利害
グループ)(SIG)によって定義される短距離の無線データ通信システムなど
の様々な装置間の制御およびステータス情報を伝える別の手段が使用されること
ができる。データバス208により、CPU 201が、ローカル音声認識装置
によって、あるいは、クライアント−サーバ音声認識装置によってかのいずれか
によって認識される音声コマンドに応答して自動車データバスの装置209を制
御することを可能とする。
【0023】 CPU 201は、受信データ接続231および送信データ接続232を媒介
として無線データトランシーバ203に結合される。これらの接続231−23
2により、CPU 201が、無線システム110から送信される制御情報およ
び音声合成情報を受信することを可能とする。音声合成情報は、無線データチャ
ネル105を媒介としてクライアント−サーバ音声合成システムのサーバ部分か
ら受信される。CPU 210は、次に、DSP 202に引き渡される音声合
成情報を復号化する。DSP 202は、次に、出力音声を合成し、そして、そ
れをオーディオ出力211に引き渡す。受信データ接続231を媒介として受信
されるあらゆる制御情報は、加入者ユニット自体の動作を制御するのに使用され
るか、あるいは、それらの動作を制御するために、1つ以上の装置に送信するの
に使用されることができる。そのうえ、CPU 210は、ステータス情報と、
クライアント−サーバ音声認識システムのクライアント部分からの出力データと
を無線システム110に送信することが可能である。クライアント−サーバ音声
認識システムのクライアント部分は、以下にいっそう詳細に記述されるように、
DSP 202およびCPU 201のソフトウェアにおいて実施されることが
好ましい。音声認識をサポートするとき、DSP 202は、マイクロフォン入
力220から音声を受信し、そして、パラメータで表示された音声信号をCPU
201に提供するために、このオーディオを処理する。CPU 201は、パ
ラメータで表示された音声信号を符号化し、そして、無線データチャネル105
全体にインフラストラクチャの音声認識サーバに送信されるべく、送信データ接
続232を媒介として、この情報を無線データトランシーバ203に送信する。
【0024】 無線音声トランシーバ204は、双方向性データバス233を媒介としてCP
U 201に結合される。このデータバスにより、CPU 201が、無線音声
トランシーバ204の動作を制御することを可能とし、そして、無線音声トラン
シーバ204からステータス情報を受信する。無線音声トランシーバ204は、
さらに、送信オーディオ接続221と受信オーディオ接続210とを媒介として
DSP202に結合される。無線音声トランシーバ204が、電話(セルラー)
コールを促進するのに使用されるとき、オーディオは、DSP202によってマ
イクロフォン入力220から受信される。マイクロフォンオーディオは、処理さ
れ(たとえば、フィルター、圧縮されるなど)、そして、セルラーインフラスト
ラクチャに伝送されるべく、無線音声トランシーバ204に提供される。逆に、
無線音声トランシーバ204によって受信されるオーディオは、受信オーディオ
接続210を媒介として、オーディオが処理され(たとえば、解凍、フィルター
されるなど)、そして、スピーカ出力211に提供されるDSP202に送信さ
れる。DSP202によって行われる処理は、図3を参照としていっそう詳細に
記述される。
【0025】 図2に示される加入者ユニットは、任意に、音声通信の間に割り込みインジケ
ータ251を手動で提供するのに使用される入力装置250を備えることができ
る。すなわち、音声会話の間、加入者ユニットのユーザは、割り込みインジケー
タを提供するために、手動で入力装置を始動することが可能であり、それによっ
て、音声認識機能を引き起こすためにユーザの所望を信号する。たとえば、音声
通信の間、加入者ユニットのユーザは、音声利用コマンドを電子付随部に提供す
るために、たとえば、電話をかけて、そして、第三者をコールに加えるために、
会話に割り込むことを希望することができる。入力装置250は、特に、たとえ
ば、単一の、あるいは多目的ボタン、マルチ位置決めセレクタ、あるいは入力ケ
イパビリティを有するメニュー駆動ディスプレイなどを含む、あらゆるタイプの
ユーザ始動入力メカニズムを実質的に備えることができる。別の方法として、入
力装置250は、双方向性インターフェイス230と自動車内データバス208
とを媒介としてCPU201に接続されることができる。とにかく、このような
入力装置250が提供されるとき、CPU201は、割り込みインジケータの発
生セグメントを識別するために、検出器として作動する。CPU201が、入力
装置250のための検出器として作動するとき、CPU201は、参照符号26
0で識別される信号パスによって図示されるように、DSP202への割り込み
インジケータの存在を表示する。逆に、別の実施が、割り込みインジケータを提
供するために、検出器アプリケーションに結合されるローカル音声認識装置(D
SP202および/またはCPU201内で実施されることが好ましい)を使用
する。その場合、CPU201か、あるいは、DSP202かのいずれかが、参
照符号260aによって識別される信号パスによって表わされるように、割り込
みインジケータの存在を信号で知らせる。とにかく、割り込みインジケータの存
在が検出されると、音声認識要素の部分(このましくは、加入者ユニットと関連
して、あるいは加入者ユニットの一部として実施されるクライアント部分)は、
音声利用コマンドを処理し始めるために始動される。そのうえ、音声認識要素の
部分が始動されたという表示は、さらに、ユーザと音声認識サーバとに提供され
ることができる。好ましい実施の形態において、このような表示は、音声認識要
素を提供するために、送信データ接続232を媒介として、音声認識クライアン
トと協働する音声認識サーバへの送信のための無線データトランシーバ203に
搬送される。
【0026】 最後に、加入者ユニットは、音声認識機能が割り込みインジケータに応答して
始動されたというアナンシエータ制御256に応答して加入者ユニットのユーザ
に表示を提供するアナンシエータ255を装備することが好ましい。アナンシエ
ータ255は、割り込みインジケータの検出に応答して始動され、そして、制限
した持続期間のトーン、あるいは、ビーッという音などの音響表示を提供するの
に使用されるスピーカを備えることができる。(もう一度、割り込みインジケー
タの存在は、入力装置利用信号260か、あるいは、音声利用信号26aのいず
れかを使用して、信号で知らされることが可能である。)別の実施において、ア
ナンシエータの機能は、オーディオをスピーカ出力211に向けるDSP202
によって実行されるソフトウェアプログラムを媒介として提供される。スピーカ
は、オーディオ出力211を可聴させるのに使用されるスピーカ271から独立
しているか、あるいは、同一のものでよい。別の方法として、アナンシエータ2
55は、可視インジケータを提供する、LED、あるいは、LCDディスプレイ
などのディスプレイ装置を備えることができる。アナンシエータ255の特定の
形状は、設計選択の問題であり、そして、本発明は、この点では限定される必要
はない。さらに、アナンシエータ255は、双方向性インターフェイス230と
自動車内データバス208とを媒介として、CPU201に接続されることがで
きる。
【0027】 ここでは図3を参照すると、加入者ユニット内で行われる処理の部分(本発明
による動作)が、概略的に図示されている。図3に示される処理は、CPU20
1および/またはDSP202によって実行される格納された機械可読インスト
ラクションを使用して実施される。以下に呈される論議は、自動車の車両内に採
用される加入者ユニットの動作について記述している。とはいえ、図3に全体と
して示され、そして、ここに記述される機能は、同様に、音声認識を使用する、
あるいは、音声認識の使用で利益を得る非自動車利用アプリケーションに適用可
能である。
【0028】 マイクロフォンオーディオ220は、加入者ユニットに入力として提供される
。自動車環境において、マイクロフォンは、自動車の遮光板、あるいは、ステア
リングコラムに、または、近くに、一般に取り付けられるハンドフリーマイクロ
フォンである。マイクロフォンオーディオ220は、デジタル形状でエコーキャ
ンセルおよび環境処理(ECEP)ブロック301に到達することが好ましい。
スピーカオーディオ211は、あらゆる必要な処理を行った後、ECEPブロッ
ク301によって、1つまたは複数のスピーカに引き渡される。自動車内におい
て、このようなスピーカは、ダッシュボードの下に取り付けられることが可能で
ある。別の方法として、スピーカオーディオ211は、エンターテインメントシ
ステムのスピーカシステムを介してプレイされるべく、自動車内のエンターテイ
ンメントシステムを介してルートされることが可能である。スピーカオーディオ
211は、デジタルフォーマットであることが好ましい。セルラー電話コールが
、たとえば、処理中であるとき、セルラー電話からの受信オーディオは、受信オ
ーディオ接続210を媒介としてECEPブロック301に到達する。同様に、
送信オーディオは、送信オーディオ接続221全体にわたりセル電話に引き渡さ
れる。
【0029】 ECEPブロック301は、送信オーディオ接続221を媒介として、無線音
声トランシーバ204に引き渡す前に、マイクロフォンオーディオ220からス
ピーカオーディオ211のエコーキャンセルを行う。エコーキャンセルのこの形
状は、音響エコーキャンセルとして周知であり、そして、技術上周知である。た
とえば、Amanoらに発行され、そして、“Sub−band Adoust
ic Echo Canceller(サブバンド音響エコーキャンセラー)”
と題する米国特許第5,136,599号およびGenterに発行され、そし
て、“Echo Canceler with Subband Attenu
ation and Noise Injection Control(サブ
バンド減衰およびノイズインジェクション制御を有するエコーキャンセル)”と
題する米国特許第5,561,668号は、音響エコーキャンセルを行うための
適切な技術を教示し、その特許の教示は、この結果、ここに参照として含まれて
いる。
【0030】 ECEPブロック301が、さらに、エコーキャンセルに加えて、いっそう快
い音声信号を加入者ユニットによって伝送されるオーディオを受信する関係者に
提供するために、環境処理をマイクロフォンオーディオ220に提供する。一般
に使用されている1つの技術は、ノイズ抑制と呼ばれる。自動車内のハンドフリ
ーマイクロフォンは、一般に、別の関係者によって聞かされる多くのタイプの音
響ノイズをピックアップする。この技術は、別の関係者が聞く知覚バックグラウ
ンドノイズを減少し、そして、たとえば、Vilmurらに発行された米国特許
第4,811,404号に記述されており、その特許の教示は、この結果、参照
としてここに含まれている。
【0031】 ECEPブロック301は、さらに、第1のオーディオパス316を媒介とし
て音声合成バックエンド304によって提供される合成された音声のエコーキャ
ンセル処理を行い、その合成された音声は、オーディオ出力211を媒介として
1つまたは複数のスピーカに引き渡される。1つまたは複数のスピーカにルート
される受信された音声を有するこの場合におけるように、マイクロフォンオーデ
ィオパス220に到達するスピーカオーディオ“エコー”は、キャンセルされる
。これにより、アコースティックにマイクロフォンに結合されるスピーカオーデ
ィオが、音声認識フロントエンド302に引き渡される前に、マイクロフォンオ
ーディオから削除されることを可能とする。このタイプの処理は、“バージイン
”として技術上周知であることを可能にする。バージインにより、音声認識シス
テムが、出力音声が同時にシステムによって生成される間に、入力音声に応答す
ることを可能とする。“バージイン”実施の実施例は、たとえば、米国特許第4
,914,692号、第5,475,791号、第5,708,704号および
第5,765,130号に見られる。バージイン処理についての本発明の適用は
、以下にいっそう詳細に記述されている。
【0032】 エコーがキャンセルされたマイクロフォンオーディオは、音声認識処理が行わ
れるたびに、第2のオーディオパス326を媒介として音声認識フロントエンド
302に提供される。任意に、ECEPブロック301は、第1のデータパス3
27を媒介として音声認識フロントエンド302にバックグラウンドノイズ情報
を提供する。このバックグラウンドノイズ情報は、ノイズのある環境における音
声認識システムオペレーティングのための認識性能を改善するのに使用されるこ
とが可能である。このような処理を行うための適切な技術は、Gersonらに
発行された米国特許第4,918,732号に記述されており、その特許の教示
は、この結果、参照としてここに含まれている。
【0033】 エコーがキャンセルされたマイクロフォンオーディオと、任意に、ECEPブ
ロック301から受信されるバックグラウンドノイズ情報とに基づき、音声認識
フロントエンド302は、パラメータで表示された音声情報を生成する。全体と
して、音声認識フロントエンド302および音声合成バックエンド304は、ク
ライアント−サーバ利用音声認識および合成システムのクライアントサイド部分
のコア機能を提供する。パラメータで表示された音声情報は、一般に、特徴ベク
トルの形をとり、新しいベクトルは、10msecから20msec毎に計算さ
れる。音声信号のパラメータ表示化のための1つの一般に使用される技術は、“
Comparison Of Parametric Reprsentati
ons For Monosyllabic Word Recognitio
n In Continuously Spoken Senntenses,
”IEEE Transactions on acoustics Spee
ch adn Signal Processing,ASSP−28(4),
pp.357−366,1980年8月に、Davisらによって記述されるよ
うにmel cepstraであり、その公報の教示は、この結果、参照として
ここに含まれている。
【0034】 音声認識フロントエンド302によって計算されるパラメータベクトルは、ロ
ーカル音声認識処理のための第2のデータパス325を媒介としてローカル音声
認識ブロック303に受け渡される。パラメータベクトルは、さらに、任意に、
第3のデータパス323を媒介として、音声適用プロトコルインターフェイス(
API‘s)およびデータプロトコルとを備えるプロトコル処理ブロック306
に受け渡される。周知の技術によれば、処理ブロック306は、送信データ接続
232を媒介として、パラメータベクトルを無線データトランシーバ203に送
信する。順番に、無線データトランシーバ203は、クライアント−サーバ利用
音声認識の一部として機能するサーバにパラメータベクトルを搬送する。(加入
者ユニットは、パラメータベクトルを送信するのではなく、その代わりに、無線
データトランシーバ203か、あるいは、無線音声トランシーバ204のいずれ
かを使用して、サーバーに音声情報を送信することは明らかである。これは、加
入者ユニットから電話網への音声の伝送をサポートするのに使用されるのと類似
の方法で、あるいは、音声信号の他の適切な表現を使用して、行われることがで
きる。すなわち、音声情報は、様々なパラメータで表示されない表現:未使用の
デジタイズされたオーディオ、セルラー音声コーダによって処理されたオーディ
オ、IP(インターネットプロトコル)などの特定のプロトコルによる伝送に適
切なオーディオデータ等の様々なパラメータで表示されない表現のいずれかを備
えることができる。順番に、サーバは、パラメータで表示されない音声情報を受
信すると、必要なパラメータ表示化を行うことが可能である。)単一の音声認識
フロントエンド302が示されるのに対して、ローカル音声認識装置303およ
びクライアント−サーバ利用音声認識装置は、実際には、異なる音声認識フロン
トエンドを利用することができる。
【0035】 ローカル音声認識装置303は、音声認識フロントエンド302からパラメー
タベクトル325を受信し、そして、たとえば、パラメータで表示された音声内
に何か認識可能な発話があるかどうかを決定するために、その結果として、音声
認識分析を行う。1つの実施の形態において、認識された発話(一般に、ワード
・言葉)は、第4のデータパス324を媒介として、ローカル音声認識装置30
3からプロトコル処理ブロック306に送信され、それは、順番に、さらなる処
理のため様々なアプリケーション307に認識された発話を受け渡す。CPU2
01およびDSP202のいずれか、あるいは、両方を使用して実施されること
ができるアプリケーション307は、認識された発話に基づき、音声利用割り込
みインジケータが受信されたことを確かめる検出器アプリケーションを含むこと
が可能である。たとえば、検出器は、同一性を検索する予め定められた発話(た
とえば、“ウェークアップ”)のリストに対して、認識された発話を比較する。
同一性が検出されるとき、検出器アプリケーションは、割り込みインジケータの
存在を表わす信号260aを発する。割り込みインジケータの存在は、順番に、
音声利用コマンドを処理し始めるために、音声認識要素の部分を始動するのに使
用される。これは、音声認識フロントエンドに送られる信号260aによって、
図3に概略的に示されている。応答中、音声認識フロントエンド302は、パラ
メータで表示されたオーディオを、ローカル音声認識装置にか、あるいは、好ま
しくは、追加の処理のため音声認識サーバへの伝送のためのプロトコル処理ブロ
ック306にかのいずれかに、ルーティングし続ける。(さらに、入力装置25
0によって任意に提供される入力装置利用信号260は、さらに、同一の機能を
作用することに留意してください。)そのうえ、割り込みインジケータの存在は
、音声認識装置のインフラストラクチャ利用要素に警告するために、送信データ
接続232に送信されることができる。
【0036】 音声合成バックエンド304は、音声のパラメトリック表現を入力とみなし、
そして、パラメトリック表現を、次に、第1のオーディオパス316を媒介とし
てECEPブロック301に引き渡される音声信号に変換する。使用される特定
のパラメトリック表現は、設計選択の考慮すべき問題である。1つの一般に使用
されているパラメトリック表現は、Klattの“Software For
A Cascade/Parallel Formant Synthesiz
er”,Journal of the Acoustical societ
y of America,Vol.67,1980,pp.971−995に
記述されるように、フォルマントパラメータである。線形予測パラメータは、M
arkelらのLinear Prediction of Speech,S
pringer Verlag,New York,1976に記述されるよう
に、別の一般に使用されるパラメトリック表現である。KlattおよびMar
kelらの公報のそれぞれの教示は、参照としてここに含まれている。
【0037】 クライアント−サーバ利用音声合成の場合、音声のパラメトリック表現は、無
線チャンネル105、無線データトランシーバ203およびプロトコル処理ブロ
ック306を媒介として、回線網から受信され、それは、第5のデータパス31
3を媒介として音声合成バックエンドに転送される。ローカル音声合成の場合、
アプリケーション307は、話されるテキストストリングを生成する。このテキ
ストストリングは、第6のデータパス314を媒介としてプロトコル処理ブロッ
ク306からローカル音声シンセサイザ305に受け渡される。ローカル音声シ
ンセサイザ305は、テキストストリングを音声信号のパラメトリック表現に変
換し、そして、第7のデータパスを媒介としてこのパラメトリック表現を音声信
号への変換のため音声合成バックエンド304に受け渡す。
【0038】 受信データデータ接続231が、音声合成情報に加えて、他の受信された情報
を搬送するのに使用されることが可能であることは留意されるべきである。たと
えば、他の受信された情報は、インフラストラクチャから受信されるデータ(デ
ィスプレイ情報などの)および/または制御情報、およびシステムにダウンロー
ドされるコードを含むことができる。同様に、送信データ接続232は、音声認
識フロントエンド302によって計算されるパラメータベクトルに加えて、他の
伝送情報を搬送するのに使用されることが可能である。たとえば、他の伝送情報
は、装置ステータス情報、装置可能出力およびバージインタイミングに関連する
情報を含むことができる。
【0039】 ここでは、図4を参照すると、本発明によるクライアント−サーバ音声認識お
よび合成システムのサーバ部分を提供する音声認識サーバのハードウェアの実施
の形態が示されている。このサーバは、図1を参照として上記に記述されるよう
に、いくつかの環境にいることが可能である。加入者ユニット、あるいは、制御
エンティティとのデータ通信は、インフラストラクチャ、あるいは、網接続41
1を介して可能にされる。この接続411は、たとえば、図1に示されるように
、無線システムに局部的であり、および直接無線網に接続されることができる。
別の方法として、接続411は、パブリックデータ網にか、あるいは、プライベ
ートデータ網にか、または、なにか他のデータ通信リンクにかである;本発明は
、この点では限定されるものではない。
【0040】 網インターフェイス405は、CPU401と網接続411との間の接続を行
う。網インターフェイス405は、受信パス408を媒介として、網411から
CPU401に、そして、送信パス410を媒介として、CPU401から網接
続411にデータをルートする。クライアント−サーバ構成の一部として、CP
U401は、網インターフェイス405と網接続411とを媒介として、1つ以
上のクライアント(加入者ユニットにおいて実施されることが好ましい)と通信
する。好ましい実施の形態において、CPU401は、クライアント−サーバ音
声認識および合成システムのサーバ部分を実施する。図示されていないが、図4
に示されるサーバは、さらに、サーバへのローカルアクセスを可能とするローカ
ルインターフェイスを備えることができ、それによって、たとえば、サーバメン
テナンス、ステータスチェッキングおよび他の同様の機能を促進する。
【0041】 メモリー403は、機械可読インストラクション(ソフトウェア)と、クライ
アント−サーバ構成のサーバ部分を実施する際に、CPU401による実行およ
び使用のためのプログラムデータとを格納する。このソフトウェアの動作および
構造は、さらに、図5を参照として記述される。
【0042】 図5は、音声認識および合成サーバ機能の実施を示している。少なくとも1つ
の音声認識クライアントと協働して、図5に示される音声認識サーバ機能は、音
声認識要素を提供する。加入者ユニットからのデータは、受信パス408を媒介
として、受信機(RX)502に到達する。受信機は、データを復号化し、そし
て、音声認識クライアントから音声認識分析器504に音声認識データ503を
ルートする。装置ステータス情報、装置可能出力、バージインコンテキストに関
連する情報などの加入者ユニットからの他の情報506は、受信機502によっ
てローカル制御プロセッサ508にルートされる。1つの実施の形態において、
他の情報506は、音声認識要素(たとえば、音声認識クライアント)の部分が
、始動されたという加入者ユニットからの表示を含む。このような表示は、音声
認識サーバにおける音声認識処理を始動するのに使用されることが可能である。
【0043】 クライアント−サーバ音声認識構成の一部として、音声認識分析器504は、
加入者ユニットからの音声認識パラメータベクトルを受け、そして、認識処理を
完了する。認識されたワード、あるいは、発話507は、次に、ローカル制御プ
ロセッサ508に受け渡される。パラメータベクトルを認識された発話に変換す
るのに必要な処理の記述は、Leeらの“自動音声認識:The Develo
pment of theSphinx System”,1988に見られる
ことが可能であり、その公報の教示は、参照としてここに含まれている。上記に
述べられるように、加入者ユニットからパラメータベクトルを受信するのではな
く、サーバ(すなわち、音声認識分析器504)は、パラメータで表示されない
音声情報を受信することができることも分かる。もう一度、音声情報は、上記に
記述されるようにいくつかの形状のいずれかをとる。この場合、音声認識分析器
504は、第一に、たとえば、mel cepstra技術を使用して、音声情
報をパラメータで表示する。結果として生ずるパラメータベクトルは、次に、上
記に記述されるように、認識された発話に変換されることができる。
【0044】 ローカル制御プロセッサ508は、音声認識分析器504と他の情報508と
から認識された発話507を受信する。一般に、本発明は、認識された発話に作
用し、そして、認識された発話に基づき、制御信号を提供するために、制御プロ
セッサを必要とする。好ましい実施の形態において、これらの制御信号は、加入
者ユニット、あるいは、加入者ユニットに結合される少なくとも1つの装置の動
作を実質的に制御するのに使用される。このために、ローカルコントロープロセ
ッサは、2つの方法の1つで作動されることが好ましい。第一に、ローカル制御
プロセッサ508は、アプリケーションプログラムを実施することが可能である
。典型的なアプリケーションの1つの実施例は、米国特許第5,652,789
号に記述されるように電子アシスタントである。別の方法として、このようなア
プリケーションは、リモート制御プロセッサ516でリモート制御によりランす
ることが可能である。たとえば、図1のシステムにおいて、リモート制御プロセ
ッサは、制御エンティティ116を備えている。この場合、ローカル制御プロセ
ッサ508は、データ網接続515を媒介として、リモート制御プロセッサ51
6と通信することにより、データを受け渡して、受信することによってゲートウ
ェイのように作動する。データ網接続515は、公衆(たとえば、インターネッ
ト)、プライベート(たとえば、イントラネット)、他のデータ通信リンクなど
でよい。実際に、ローカル制御プロセッサ508は、ユーザによって利用される
アプリケーション/サービスによって異なるが、データ網にある様々なリモート
制御プロセッサと通信することができる。
【0045】 リモート制御プロセッサ516か、あるいは、ローカル制御プロセッサ508
かのいずれかでランするアプリケーションプログラムは、認識された発話507
および/または他の情報506への応答を決定する。その応答は、合成されたメ
ッセージおよび/または制御信号を備えることが好ましい。制御信号513は、
ローカル制御プロセッサ508からトランシーバ(TX)510に中継される。
合成される情報514、一般に、テキスト情報は、ローカル制御プロセッサ50
8から、テキストから音声への分析器512に送信される。テキストから音声へ
の分析器512は、入力テキストストリングをパラメトリック音声表現に変換す
る。このような変換を行う適切な技術は、Sproat(編集者)の“Mult
ilingual Text−To−Speech Synthesis:Th
e Bell Labs Approach”,1997に記述され、その公報
の教示は、参照としてここに含まれている。テキストから音声への分析器512
からのパラメトリック音声表現は、必要に応じて、加入者ユニットへの伝送のた
めの送信パス410全体にわたりパラメトリック音声表現511および制御情報
513を多重送信するトランスミッタ510に提供される。ほんの今記述された
のと同じ方法のオペレーティングで、テキストから音声への分析器512は、さ
らに、加入者ユニットで出力オーディオ信号としてプレイされる合成されたプロ
ンプトなどを提供するのに使用されることができる。
【0046】 本発明によるコンテキスト決定は、図6に示されている。図6に示されるアク
ティビティのための基準のポイントは、加入者ユニットのものであることは留意
されるべきである。すなわち、図6は、加入者への、また、加入者からの可聴信
号のタイム進行を示している。特に、出力オーディオ信号601のタイムを通じ
ての進行が図示されている。出力オーディオ信号601は、出力サイレンス・消
音604aの第1の周期によって分離される先行の出力オーディオ信号602に
よって処置されることができ、そして、出力サイレンス604bの第2の周期に
よって、結果として生ずる出力オーディオ信号が続く。出力オーディオ信号60
1は、音声信号などのあらゆるオーディオ信号、合成された音声信号、あるいは
、プロンプト、可聴トーン、あるいは、ビーッという音等を備えることができる
。本発明の1つの実施の形態において、各出力オーディオ信号601−603は
、ちょうどよいあらゆる所定のモーメントで出力される信号を識別するのを促進
するために、それに割り当てられる関連したユニークな識別子を有している。こ
のような識別子は、非リアルタイムで、様々な出力オーディオ信号(たとえば、
合成されたプロンプト、トーンなど)予め割り当てられることができ、あるいは
、リアルタイムで作成され、そして、割り当てられることができる。さらに、識
別子自体は、たとえば、帯域内信号方式、あるいは、帯域外周波信号方式を使用
して、出力オーディオ信号を提供するのに使用される情報とともに伝送されるこ
とができる。別の方法として、予め割り当てられた識別子の場合、識別子自体は
、加入者ユニットに提供されることが可能であり、そして、その識別に基づいて
、加入者ユニットは、出力オーディオ信号を合成することが可能である。通常の
技量の者には、出力オーディオ信号のための識別子を提供し、そして、使用する
様々な技術が、難なく考案され、そして、本発明に適用されることができるとい
うことは認められるであろう。
【0047】 示されるように、入力音声信号605は、出力オーディオ信号601のプレゼ
ンテーションに対してちょうどよいあるポイントで発生する。これは、たとえば
、出力オーディオ信号601−603が、一連の合成された音声プロンプトであ
り、そして、入力音声信号605が、音声プロンプトのいずれか1つへのユーザ
の応答である場合である。同様に、出力オーディオ信号は、さらに、加入者ユニ
ットに通信される合成されない音声信号でもありうる。とにかく、入力音声信号
が検出され、そして、入力開始時間608が、入力音声信号605の開始をメモ
リーアリズするために確立される。入力音声信号の開始を決定するための様々な
技術がある。1つのこのような方法は、米国特許第4,821,325号に記述
されている。入力音声信号の開始を決定するのに使用されるあらゆる方法は、1
/20秒より多い分解で開始を決定できることが好ましい。
【0048】 入力音声信号の開始は、入力音声信号が出力オーディオ信号に対して検出され
た精密なポイントを表わすインターバル609を生じさせると、2つの連続する
出力開始時間607,610間のあらゆるタイムで検出されることが可能である
。したがって、入力音声信号の開始は、任意に、出力オーディオ信号に続くサイ
レンス・消音の周期(すなわち、出力オーディオ信号が提供されないとき)を含
むことができる出力オーディオ信号が生ずる間のあらゆるポイントで効果的に検
出されることが可能である。別の方法として、出力オーディオ信号の終了に続く
任意の長さのタイムアウト周期611は、出力オーディオ信号が生ずる終りを画
定するのに使用されることができる。このように、入力音声信号の開始は、個々
の出力オーディオ信号と関連することが可能である。有効な検出周期を確立する
他のプロトコルが確立されることが可能であることがわかる。たとえば、一連の
出力プロンプトが、互いにすべて関連される所では、有効な検出周期は、一連の
プロンプトのための第1の出力開始時間で開始し、そして、連続した最後のプロ
ンプトの後のタイムアウト周期でか、あるいは、連続に直ぐ続く出力オーディオ
信号のための第1の出力開始時間で終る。
【0049】 入力開始時間を検出するのに使用されるのと同じ方法は、出力開始時間607
,610を確立するのに使用されることができる。これは、特に、出力オーディ
オ信号がインフラストラクチャから直接提供される音声信号であるこれらの例に
は真実である。出力オーディオ信号が、たとえば、合成されたプロンプト、ある
いは、他の合成された出力である所では、出力開始時間は、以下にいっそう詳細
に記述されるように、クロックサイクル、サンプル、境界、フレーム境界などの
使用によりいっそう直接に確実にされることができる。とにかく、出力オーディ
オ信号は、入力音声信号が処理されることが可能なコンテキストを確立する。
【0050】 上記に述べられるように、各出力オーディオ信号は、識別と関連することがで
き、それによって、出力オーディオ信号間の微分を提供する。したがって、入力
音声信号が、出力オーディオ信号のコンテキストに対して開始したときを決定す
る別の方法として、さらに、入力音声信号のコンテキストを記述する方法として
だけ、出力オーディオ信号の識別を使用することが可能である。これは、たとえ
ば、入力音声信号が、出力オーディオ信号に対して開始する精密な時間を知るの
に重要でない所では、単に、入力音声信号が、実際に、出力オーディオ信号が生
ずる間のある時期に開始した場合である。このような出力オーディオ信号識別は
、除外とは対照的に、入力オーディオ開始時間の決定に関連して使用されること
ができることも分かる。
【0051】 入力開始時間および/または出力オーディオ信号識別が使用されるかどうかに
かかわらず、本発明は、不確実な遅延特性を有するこれらのシステムにおける精
密なコンテキスト決定を可能にする。上記に記述されるコンテキスト決定技術を
実施し、そして、使用する方法は、図7および図8を参照としてさらに示されて
いる。
【0052】 図7は、出力オーディオ信号が生ずる間に入力音声信号を処理するため、加入
者ユニット内で実施されることが好ましい方法を示している。たとえば、図7に
示される方法は、格納されたソフトウェアルーチンおよび図2に示されるCPU
201および/またはDSP202などの適切なプラットフォームによって実行
されるアルゴリズムを使用して実施されることが好ましい。網でカバーされたコ
ンピュータなどの他の装置が、図7に示されるステップを実施するのに使用され
ることが可能であること、そして、図7に示されるステップのいくつか、あるい
は、すべてが、ゲートアレイ、カスタマイズされた集積回路などの特殊化ハード
ウェア装置を使用して実施されることが可能であることが分かる。
【0053】 出力オーディオ信号が生ずる間に、入力音声信号の開始が検出されたかどうか
が、ステップ701で、連続して決定される。もう一度、音声信号の開始を決定
するための様々な技術は、技術上周知であり、そして、設計の選択の考慮すべき
問題として本発明によって同時に採用されることができる。好ましい実施の形態
において、入力音声信号の開始を検出する効果的な周期は、出力オーディオ信号
の開始が、結果として生ずる出力オーディオ信号の開始でか、あるいは、カレン
ト出力オーディオ信号の終結で開始されるタイムアウトタイマの終結でかのいず
れかで終了するや否や開始する。入力音声信号の開始が検出されるとき、出力オ
ーディオ信号によって確立されるコンテキストに対する入力開始時間が決定され
る。入力開始時間を決定するための様々な技術のいずれかが採用されることがで
きる。1つの実施の形態において、リアルタイム参照は、CPU201(秒など
のあらゆる便宜なタイムベース、あるいは、クロックサイクルを使用して)によ
って維持されることができ、それによって、特定の時間のコンテキストを確立す
る。この場合、入力開始時間は、出力オーディオ信号のコンテキストに対するタ
イム特質として表わされる。別の実施の形態において、可聴信号は、サンプル1
つずつのベースで、再構成され、および/または、符号化される。たとえば、8
kHzオーディオサンプリングレートを使用するシステムにおいて、各オーディ
オサンプルは、オーディオ入力、あるいは、出力の125マイクロセカンドに相
当する。したがって、ちょうどよいあらゆるポイント(たとえば、入力開始時間
)は、出力オーディオ信号(サンプルコンテキスト)の開始サンプルに対するオ
ーディオサンプルのインデックスによって表わされることができる。この場合、
入力開始時間は、出力オーディオ信号の第1のサンプルに対するサンプルインデ
ックスとして表わされる。さらに別の実施の形態において、可聴信号は、フレー
ム1つずつのベースで、再構成され、各フレームは、マルチプルサンプル周期を
備えている。この方法において、出力オーディオ信号は、フレームコンテキスト
を確立し、そして、入力開始時間は、フレームコンテキスト内のフレームインデ
ックスとして表わされている。入力開始時間が表わされる方法にかかわらず、入
力開始時間は、入力音声信号が出力オーディオ信号に関して開始したとき、精確
に、分解の変化する程度で、メモライズする。
【0054】 いずれにせよ、入力音声信号の開始の検出から、入力音声信号は、任意に、ス
テップ703によって表わされるように、パラメータで表示された音声信号を提
供するために分析されることが可能である。音声信号のパラメータによる表示化
のための特定の技術は、図3に対して上記に論じられた。ステップ704で、い
ずれにせよ、入力開始時間は、入力音声信号に対応するために提供される。図7
の方法が、無線電話加入ユニット内で実施されるとき、このステップは、音声認
識/合成サーバへの入力開始時間の無線伝送を含む。
【0055】 最後に、ステップ705で、情報信号は、任意に、少なくとも入力開始時間に
応じて、そして、提供されるとき、パラメータで表示された音声信号に応じて、
受信される。本発明のコンテキストにおいて、このような“情報信号”は、加入
者ユニットが操作するデータ信号を含んでいる。たとえば、このようなデータ信
号は、ユーザディスプレイを生成するディスプレイデータ、あるいは、加入者ユ
ニットが自動的にダイヤルすることが可能な電話番号を備えている。他の実施例
は、通常の技量の者によって難なく同一とみなしうる。本発明の“情報信号”は
、さらに、加入者ユニット、あるいは、加入者ユニットに結合されるあらゆる装
置の動作を制御するのに使用される制御信号を備えている。たとえば、制御信号
は、ロケーションデータ、あるいは、ステータスアップデートを提供するために
加入者ユニットに指示することが可能である。もう一度、通常の技量の者は、多
数のタイプの制御信号を考案することができる。音声認識サーバによってこのよ
うな情報信号を提供する方法は、図9を参照としてさらに記述されている。とは
いえ、入力音声信号を処理する別の実施の形態は、図8を参照としてさらに示さ
れている。
【0056】 図8の方法は、図2に示されるCPU201および/またはDSP202など
の適切なプラットフォームによって実行される格納されたソフトウェアルーチン
およびアルゴリズムを使用して、加入者ユニット内で実施されることが好ましい
。網でカバーされたコンピュータなどの他の装置は、図8に示されるステップを
実施するのに使用されることが可能であり、そして、図8に示されるステップの
いくつか、あるいは、すべては、ゲートアレイ、あるいは、カスタマイズされた
集積回路などの特殊化ハードウェア装置を使用して実施されることが可能である
【0057】 出力オーディオ信号が生ずる間に、入力音声信号が検出されたかどうかが、ス
テップ801で、連続して決定される。音声信号の存在を決定する様々な技術は
、技術上周知であり、そして、設計の選択の考慮すべき問題として本発明によっ
て同時に採用されることができる。図8に示される技術は、このような決定が、
入力音声信号の存在を検出するステップに含まれることができるが、入力音声信
号の開始を検出することに特に関係がないことに留意してください。
【0058】 ステップ802において、出力オーディオ信号に対応する識別が決定される。
図6に関して上記に述べられるように、その識別は、出力オーディオ信号から独
立するか、あるいは、出力オーディオ信号に組み込まれることができるかである
。最も重要なことは、出力オーディオ信号識別は、出力オーディオ信号とすべて
の他の出力オーディオ信号とを独特に区別する必要がある。合成されたプロンプ
トなどの場合、これは、各そのような合成されたプロンプトに独特のコードを割
り当てることによって、達成されることが可能である。リアルタイム音声の場合
、インフラストラクチャ利用タイム特質などの反復性のないコードが使用される
ことができる。識別が表わされる方法にかかわらず、それは、加入者ユニットに
よって確かめ得る必要がある。
【0059】 ステップ803は、ステップ703に相当し、そして、さらに詳細に論じられ
る必要はない。ステップ804において、入力音声信号に対応する識別が提供さ
れる。図8の方法が、無線電話加入者ユニット内で実施されるとき、このステッ
プは、音声認識/合成サーバへの識別の無線伝送を含んでいる。ステップ705
と本質的に同一である方法で、加入者ユニットは、いずれにせよ、識別に基づき
、ステップ805においてインフラストラクチャから情報信号を受信することが
可能である。
【0060】 図9は、音声認識サーバによって情報信号を提供する方法を示している。述べら
れている点を除いては、図9に示される方法は、図4および図5に示されるCP
U 401および/またはリモート制御プロセッサ516などの適切な1つまた
は複数のプラットフォームによって実行される格納されたソフトウェアルーチン
およびアルゴリズムを使用して実施されることが好ましい。もう一度、他のソフ
トウェアおよび/またはハードウェア利用の実施は、設計の選択の考慮すべき問
題として可能である。
【0061】 ステップ901において、音声認識サーバは、加入者ユニットで提供される出
力オーディオ信号を生じさせる。これは、たとえば、独特の識別された音声プロ
ンプトあるいは連続のプロンプトを合成することを加入者ユニットに指示する加
入者ユニットに制御信号を提供することによって達成されることが可能である。
別の方法として、たとえば、テキストから音声への分析器512によって提供さ
れるパラメトリック音声表現は、音声信号の結果として生ずる再構成のために加
入者ユニットに送信されることが可能である。本発明の1つの実施の形態におい
て、リアルタイム音声信号は、音声認識サーバが存在する(音声認識サーバの介
入を有して、あるいは、持たないで)インフラストラクチャによって提供される
。これは、たとえば、加入者ユニットがインフラストラクチャを媒介として別の
関係者との音声通信にかかわる場合である。
【0062】 加入者ユニットで出力オーディオ信号を生じさせるのに使用される技術にかか
わらず、上記に記述されるタイプのコンテキスト情報(入力開始時間および/ま
たは出力オーディオ信号識別子)が、ステップ902で受信される。好ましい技
術において、入力開始時間および出力オーディオ信号識別子の両方は、入力音声
信号に対応するパラメータで表示された音声信号と共に提供される。
【0063】 ステップ903において、少なくともコンテキスト上の情報に基づいて、加入
者ユニットに搬送される制御信号および/またはデータ信号を備える情報信号が
決定される。もう一度、図5を参照すると、これは、ローカル制御プロセッサ5
08および/またはリモート制御プロセッサ516によって遂行されることが好
ましい。最低限度で、コンテキスト上の情報は、出力オーディオ信号に対する入
力音声信号のコンテキストを確立するのに使用される。コンテキストは、入力音
声信号が、間隔を決定するのに使用される出力オーディオ信号に応答したかどう
かを決定するのに使用されることが可能である。特定の出力オーディオ信号に対
応する独特の識別子は、どの特定の出力オーディオ信号が入力音声信号のための
コンテキストを確立したかについて、あいまいさが可能であるコンテキストを確
立するのに使用されることが好ましい。これは、たとえば、ユーザが電話帳のだ
れかに電話をかけようとする場合である。システムは、オーディオ出力を媒介と
して電話をかけるために、いくつか可能な人の名前提供することが可能である。
ユーザは、“呼び出し”などのコマンドで出力オーディオに割り込むことが可能
である。システムは、次に、独特の識別子および/または入力開始時間に基づい
て、ユーザが割り込んだときどの名前が出力されたかを決定し、そして、その名
前に関連する電話番号に電話をかけることが可能である。さらに、コンテキスト
を確立すると、パラメータで表示された音声信号は、提供される場合、認識され
た発話を提供するために分析されることが可能である。認識された発話は、何か
入力音声信号に応答するのに必要とされる場合、順番に、制御信号、あるいは、
データ信号を確かめるのに使用される。あらゆる制御、あるいは、データ信号が
ステップ903で決定される場合、それらは、ステップ904で、コンテキスト
上の情報のソースに提供される。
【0064】 上記に記述される本発明は、出力オーディオ信号が生ずる間に入力音声信号を
処理する独特の技術を提供する。入力音声信号のための適切なコンテキストは、
入力開始時間および/または出力オーディオ信号識別子の使用により確立される
。このように、加入者ユニットに送信される情報信号は、入力音声信号に適切に
応答するというより大きな確実性が、提供される。上記に記述されたことは、本
発明の原理の応用について単に示しているものである。他の構成および方法は、
本発明の精神と範囲とから逸脱することなく、当業者によって実施されることが
可能である。
【図面の簡単な説明】
【図1】 本発明による無線通信システムのブロック図である。
【図2】 本発明による加入者ユニットのブロック図である。
【図3】 本発明による加入者ユニット内の音声およびデータ処理機能の概略図である。
【図4】 本発明による音声認識サーバのブロック図である。
【図5】 本発明による音声認識サーバ内の音声およびデータ処理機能の概略図である。
【図6】 本発明によるコンテキスト決定を図示している。
【図7】 本発明による出力オーディオ信号が生ずる間に入力音声信号を処理する方法を
図示しているフローチャートである。
【図8】 本発明による出力オーディオ信号が生ずる間に入力音声信号を処理する別の方
法を図示しているフローチャートである。
【図9】 本発明による音声認識サーバ内で実施されることができる方法を図示している
フローチャートである。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04B 7/26 G10L 3/00 551A H04M 1/00 571K 3/42 513Z H04B 7/26 Q 3/50 Fターム(参考) 5D015 KK01 5K015 AA06 AA07 AF06 5K024 AA71 BB01 BB03 CC11 DD01 DD02 EE09 FF06 5K027 AA11 BB05 CC08 DD10 FF28 HH19 HH20 5K067 AA23 BB03 BB04 EE02 EE10 EE16 FF02 FF25 FF26 FF38 HH21 HH23

Claims (55)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号の開始を検出するステップと、 出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定する
    ステップと、 入力音声信号に応答するのに使用される入力開始時間を提供するステップとを
    備える、出力オーディオ信号が生ずる間に入力音声信号を処理する方法。
  2. 【請求項2】 入力開始時間が、出力オーディオ信号の一時的なコンテキス
    トに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対す
    るサンプルインデックス、および出力オーディオ信号のフレームコンテキストに
    対するフレームインデックスのいずれか1つを備える、請求項1に記載の方法。
  3. 【請求項3】 請求項1に記載のステップを行うコンピュータ実行可能命令
    を有するコンピュータ読出し可能媒体。
  4. 【請求項4】 入力音声信号を検出するステップと、 出力オーディオ信号に対応する識別を決定するステップと、 入力音声信号に応答するのに使用される識別を提供するステップとを備える、
    出力オーディオ信号が生ずる間に入力音声信号を処理する方法。
  5. 【請求項5】 請求項4に記載のステップを行うコンピュータ実行可能命令
    を有するコンピュータ読出し可能媒体。
  6. 【請求項6】 音声認識サーバを備えるインフラストラクチャとの無線通信
    における加入者ユニットにおいて、加入者ユニットがスピーカおよびマイクロフ
    ォンを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音
    声信号を提供し、入力音声信号を処理する方法であって、 出力音声信号が生ずる間に入力音声信号の開始を検出するステップと、 出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定する
    ステップと、 制御パラメータとして音声認識サーバに前記入力開始時間を提供するステップ
    とを備える、入力音声信号を処理する方法。
  7. 【請求項7】 少なくとも一部の入力開始時間に基づき、音声認識サーバか
    ら少なくとも1つの情報信号を受信するステップをさらに備える、請求項6に記
    載の方法。
  8. 【請求項8】 オンセットマーカを決定するステップが、 出力オーディオ信号の開始より遅く、かつその後の出力オーディオ信号の開始
    よりも早い入力開始時間を決定するステップをさらに備える、請求項6に記載の
    方法。
  9. 【請求項9】 入力開始時間が、出力オーディオ信号の一時的なコンテキス
    トに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対す
    るサンプルインデックス、および出力オーディオ信号のフレームコンテキストに
    対するフレームインデックスのいずれか1つである、請求項6に記載の方法。
  10. 【請求項10】 出力オーディオ信号が、インフラストラクチャにより提供
    された音声信号を備える、請求項6に記載の方法。
  11. 【請求項11】 出力オーディオ信号が、インフラストラクチャにより提供
    された制御シグナリングに応答して加入者ユニットにより合成された音声信号を
    備える、請求項6に記載の方法。
  12. 【請求項12】 パラメータで表示された音声信号を提供するために入力音
    声信号を分析するステップと、 パラメータで表示された音声信号を音声認識サーバに提供するステップと、 少なくとも一部の入力開始時間およびパラメータで表示された音声信号に基づ
    き音声認識サーバから少なくとも1つの情報信号を受信するステップとをさらに
    備える、請求項6に記載の方法。
  13. 【請求項13】 音声認識サーバを備えるインフラストラクチャとの無線通
    信における加入者ユニットにおいて、加入者ユニットがスピーカおよびマイクロ
    フォンを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力
    音声信号を提供し、入力音声信号を処理する方法であって、 出力オーディオ信号が生ずる間に入力音声信号を検出するステップと、 出力オーディオ信号に対応する識別を決定するステップと、 制御パラメータとして音声認識サーバに識別を提供するステップとを備える、
    入力音声信号を処理する方法。
  14. 【請求項14】 少なくとも一部の識別に基づき、音声認識サーバから少な
    くとも1つの情報信号を受信するステップをさらに備える、請求項13に記載の
    方法。
  15. 【請求項15】 出力オーディオ信号が、インフラストラクチャにより提供
    された音声信号を備える、請求項13に記載の方法。
  16. 【請求項16】 出力オーディオ信号が、インフラストラクチャにより提供
    された制御シグナリングに応答して加入者ユニットにより合成された音声信号を
    備える、請求項13に記載の方法。
  17. 【請求項17】 パラメータで表示された音声信号を提供するために入力音
    声信号を分析するステップと、 パラメータで表示された音声信号を音声認識サーバに提供するステップと、 少なくとも一部の識別およびパラメータで表示された音声信号に基づき、音声
    認識サーバから少なくとも1つの情報信号を受信するステップとをさらに備える
    、請求項13に記載の方法。
  18. 【請求項18】 1つ以上の加入者ユニットと無線通信するインフラストラ
    クチャの一部を形成する音声認識サーバにおいて、1つ以上の加入者ユニットの
    加入者ユニットに情報信号を提供する方法であって、 加入者ユニットで出力オーディオ信号を生じさせるステップと、 加入者ユニットにおける出力オーディオ信号に対する入力音声信号の開始に対
    応する少なくとも入力開始時間を加入者ユニットから受信するステップと、 少なくとも一部の開始時間に応答して、加入者ユニットに情報信号を提供する
    ステップとを備える、1つ以上の加入者ユニットの加入者ユニットに情報信号を
    提供する方法。
  19. 【請求項19】 入力開始時間が、出力オーディオ信号の一時的なコンテキ
    ストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対
    するサンプルインデックス、および出力オーディオ信号のフレームコンテキスト
    に対するフレームインデックスのいずれか1つである、請求項18に記載の方法
  20. 【請求項20】 出力オーディオ信号を生じさせるステップが、 加入者ユニットに音声信号を提供するステップをさらに備える、請求項18に
    記載の方法。
  21. 【請求項21】 情報信号を提供するステップが、 加入者ユニットに情報信号を向けるステップをさらに備え、情報信号が、前記
    加入者ユニットの動作を制御する、請求項18に記載の方法。
  22. 【請求項22】 前記加入者ユニットが、少なくとも1つの装置に結合され
    、情報信号を提供するステップが、 少なくとも1つの装置に情報を向けるステップをさらに備え、情報信号が、少
    なくとも1つの装置の動作を制御する、請求項18に記載の方法。
  23. 【請求項23】 出力オーディオ信号を生じさせるステップが、 加入者ユニットに制御シグナリングを提供するステップをさらに備え、制御シ
    グナリングが、加入者ユニットに出力オーディオ信号として音声信号を合成させ
    る、請求項18に記載の方法。
  24. 【請求項24】 入力音声信号に対応するパラメータで表示された音声信号
    を受信するステップと、 少なくとも一部の開始時間およびパラメータで表示された音声信号に応答して
    、加入者ユニットに情報信号を提供するステップとをさらに備える、請求項18
    に記載の方法。
  25. 【請求項25】 1つ以上の加入者ユニットと無線通信するインフラストラ
    クチャの一部を形成する音声認識サーバにおいて、1つ以上の加入者ユニットの
    加入者ユニットに情報信号を提供する方法であって、 加入者ユニットで出力オーディオ信号を生じさせるステップであって、出力オ
    ーディオ信号が対応する識別を有する、加入者ユニットで出力オーディオ信号を
    生じさせるステップと、 出力オーディオ信号が生ずる間に入力音声信号が加入者ユニットで検出される
    と、加入者ユニットから少なくとも識別を受信するステップと、 少なくとも一部の識別に応答して、加入者ユニットに情報信号を提供するステ
    ップとを備える、1つ以上の加入者ユニットの加入者ユニットに情報信号を提供
    する方法。
  26. 【請求項26】 出力オーディオ信号を生じさせるステップが、 加入者ユニットに音声信号を提供するステップを備える、請求項25に記載の
    方法。
  27. 【請求項27】 情報信号を提供するステップが、 加入者ユニットに情報信号を向けるステップをさらに備え、情報信号が、加入
    者ユニットの動作を制御する、請求項25に記載の方法。
  28. 【請求項28】 加入者ユニットが、少なくとも1つの装置に結合され、情
    報信号を提供するステップが、 少なくとも1つの装置に情報を向けるステップをさらに備え、情報信号が、少
    なくとも1つの装置の動作を制御する、請求項25に記載の方法。
  29. 【請求項29】 出力オーディオ信号を生じさせるステップが、 加入者ユニットに制御シグナリングを提供するステップをさらに備え、制御シ
    グナリングが、加入者ユニットに出力オーディオ信号として音声信号を合成させ
    る、請求項25に記載の方法。
  30. 【請求項30】 入力音声信号に対応するパラメータで表示された音声信号
    を受信するステップと、 少なくとも一部の識別およびパラメータで表示された音声信号に応答して、加
    入者ユニットに情報信号を提供するステップとをさらに備える、請求項25に記
    載の方法。
  31. 【請求項31】 音声認識サーバを備えるインフラストラクチャと無線通信
    する加入者ユニットであって、加入者ユニットがスピーカおよびマイクロフォン
    を備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音声信
    号を提供し、加入者ユニットが、 入力音声信号の開始を検出する手段と、 出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定する
    手段と、 制御パラメータとして音声認識サーバに入力開始時間を提供する手段とを備え
    る、加入者ユニット。
  32. 【請求項32】 少なくとも一部の入力開始時間に基づき、音声認識サーバ
    から少なくとも1つの情報信号を受信する手段をさらに備える、請求項31に記
    載の加入者ユニット。
  33. 【請求項33】 パラメータで表示された音声信号を提供するために入力音
    声信号を分析する手段をさらに備え、 提供する手段が、さらに、パラメータで表示された音声信号を音声認識サーバ
    に提供するよう機能し、受信する手段が、さらに、少なくとも一部の入力開始時
    間およびパラメータで表示された音声信号に基づき音声認識サーバから少なくと
    も1つの制御信号を受信するよう機能する、請求項32に記載の加入者ユニット
  34. 【請求項34】 入力開始時間を決定する手段が、出力オーディオ信号の開
    始より遅く、かつその後の出力オーディオ信号の開始よりも早い入力開始時間を
    決定するよう機能する、請求項31に記載の加入者ユニット。
  35. 【請求項35】 入力開始時間が、出力オーディオ信号の一時的なコンテキ
    ストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対
    するサンプルインデックス、および出力オーディオ信号のフレームコンテキスト
    に対するフレームインデックスのいずれか1つである、請求項31に記載の加入
    者ユニット。
  36. 【請求項36】 インフラストラクチャから出力オーディオ信号として提供
    される音声信号を受信する手段をさらに備える、請求項31に記載の加入者ユニ
    ット。
  37. 【請求項37】 インフラストラクチャから出力オーディオ信号に関する制
    御シグナリングを受信する手段と、 制御シグナリングに応答して出力オーディオ信号として音声信号を合成する手
    段とをさらに備える、請求項31に記載の加入者ユニット。
  38. 【請求項38】 音声認識サーバを備えるインフラストラクチャと無線通信
    する加入者ユニットであって、加入者ユニットがスピーカおよびマイクロフォン
    とを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音声
    信号を提供し、 出力オーディオ信号が生ずる間に入力音声信号を検出する手段と、 出力オーディオ信号に対応する識別を決定するする手段と、 制御パラメータとして音声認識サーバに識別を提供する手段とをさらに備える
    、加入者ユニット。
  39. 【請求項39】 少なくとも一部の識別に基づき、音声認識サーバから少な
    くとも1つの制御信号を受信する手段をさらに備える、請求項38に記載の加入
    者ユニット。
  40. 【請求項40】 パラメータで表示された音声信号を提供するために入力音
    声信号を分析する手段をさらに備え、 提供する手段が、さらに、パラメータで表示された音声信号を音声認識サーバ
    に提供するよう機能し、受信する手段が、さらに、少なくとも一部の識別および
    パラメータで表示された音声信号とに基づき音声認識サーバから少なくとも1つ
    の制御信号を受信するよう機能する、請求項39に記載の加入者ユニット。
  41. 【請求項41】 インフラストラクチャから出力オーディオ信号として提供
    される音声信号を受信する手段をさらに備える、請求項38に記載の加入者ユニ
    ット。
  42. 【請求項42】 インフラストラクチャから出力オーディオ信号に関する制
    御シグナリングを受信する手段と、 制御シグナリングに応答して出力オーディオ信号として音声信号を合成する手
    段とをさらに備える、請求項38に記載の加入者ユニット。
  43. 【請求項43】 1つ以上の加入者ユニットと無線通信するインフラストラ
    クチャの一部を形成する音声認識サーバであって、 1つ以上の加入者ユニットの加入者ユニットで出力オーディオ信号を生じさせ
    る手段と、 加入者ユニットにおける出力オーディオ信号に対する入力音声信号の開始に対
    応する少なくとも入力開始時間を加入者ユニットから受信する手段と、 少なくとも一部の入力開始時間に応答して加入者ユニットに情報信号を提供す
    る手段とを備える、音声認識サーバ。
  44. 【請求項44】 入力開始時間が、出力オーディオ信号の一時的なコンテキ
    ストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対
    するサンプルインデックス、および出力オーディオ信号のフレームコンテキスト
    に対するフレームインデックスのいずれか1つである、請求項43に記載の音声
    認識サーバ。
  45. 【請求項45】 情報信号を提供する手段が、 加入者ユニットに情報信号を向けるよう機能し、情報信号が、加入者ユニット
    の動作を制御する、請求項43に記載の音声認識サーバ。
  46. 【請求項46】 加入者ユニットが、少なくとも1つの装置に結合され、情
    報信号を提供する手段が、さらに、少なくとも1つの装置に情報を向けるよう機
    能し、情報信号が、少なくとも1つの装置の動作を制御する、請求項43に記載
    の方法。
  47. 【請求項47】 出力オーディオ信号を生じさせる手段が、さらに、出力オ
    ーディオ信号として提供される音声信号を提供するよう機能する、請求項43に
    記載の音声認識サーバ。
  48. 【請求項48】 出力オーディオ信号を生じさせる手段が、さらに、加入者
    ユニットに制御シグナリングを提供するよう機能し、制御シグナリングが、加入
    者ユニットに出力オーディオ信号として音声信号を合成させる、請求項43に記
    載の音声認識サーバ。
  49. 【請求項49】 受信する手段が、さらに、入力音声信号に対応するパラメ
    ータで表示された音声信号を受信するよう機能し、提供する手段が、さらに、少
    なくとも一部の入力開始時間およびパラメータで表示された音声信号に応答して
    加入者ユニットに情報信号を提供するよう機能する、請求項43に記載の音声認
    識サーバ。
  50. 【請求項50】 1つ以上の加入者ユニットと無線通信するインフラストラ
    クチャの一部を形成する音声認識サーバであって、 1つ以上の加入者ユニットの加入者ユニットで出力オーディオ信号を生じさせ
    る手段であって、出力オーディオ信号が対応する識別を有する、1つ以上の加入
    者ユニットの加入者ユニットで出力オーディオ信号を生じさせる手段と、 入力音声信号が、出力オーディオ信号が生ずる間に加入者ユニットにおいて検
    出されると、加入者ユニットから少なくとも識別を受信する手段と、 少なくとも一部の識別に応答して、加入者ユニットに情報信号を提供する手段
    とをさらに備える、音声認識サーバ。
  51. 【請求項51】 出力オーディオ信号を生じさせる手段が、さらに、出力オ
    ーディオ信号として提供される音声信号を提供するよう機能する、請求項50に
    記載の音声認識サーバ。
  52. 【請求項52】 出力オーディオ信号を生じさせる手段が、さらに、加入者
    ユニットに制御シグナリングを提供するよう機能し、制御シグナリングが、加入
    者ユニットに出力オーディオ信号として音声信号を合成させる、請求項50に記
    載の音声認識サーバ。
  53. 【請求項53】 受信する手段が、さらに、入力音声信号に対応するパラメ
    ータで表示された音声信号を受信するよう機能し、提供する手段が、さらに、少
    なくとも一部の入力開始時間およびパラメータで表示された音声信号に応答して
    加入者ユニットに情報信号を提供するよう機能する、請求項50に記載の音声認
    識サーバ。
  54. 【請求項54】 情報信号を提供する手段が、さらに、加入者ユニットに情
    報信号を向けるよう機能し、情報信号が、加入者ユニットの動作を制御する、請
    求項50に記載の音声認識サーバ。
  55. 【請求項55】 加入者ユニットが、少なくとも1つの装置に結合され、情
    報信号を提供する手段が、さらに、少なくとも1つの装置に情報を向けるよう機
    能し、情報信号が、少なくとも1つの装置の動作を制御する、請求項50に記載
    の方法。
JP2001528975A 1999-10-05 2000-10-04 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置 Withdrawn JP2003511884A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/412,202 1999-10-05
US09/412,202 US6937977B2 (en) 1999-10-05 1999-10-05 Method and apparatus for processing an input speech signal during presentation of an output audio signal
PCT/US2000/027307 WO2001026096A1 (en) 1999-10-05 2000-10-04 Method and apparatus for processing an input speech signal during presentation of an output audio signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012060252A Division JP5306503B2 (ja) 1999-10-05 2012-03-16 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置

Publications (1)

Publication Number Publication Date
JP2003511884A true JP2003511884A (ja) 2003-03-25

Family

ID=23632018

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001528975A Withdrawn JP2003511884A (ja) 1999-10-05 2000-10-04 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置
JP2012060252A Expired - Lifetime JP5306503B2 (ja) 1999-10-05 2012-03-16 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012060252A Expired - Lifetime JP5306503B2 (ja) 1999-10-05 2012-03-16 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置

Country Status (6)

Country Link
US (1) US6937977B2 (ja)
JP (2) JP2003511884A (ja)
KR (1) KR100759473B1 (ja)
CN (1) CN1188834C (ja)
AU (1) AU7852700A (ja)
WO (1) WO2001026096A1 (ja)

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010054622A (ko) * 1999-12-07 2001-07-02 서평원 음성 인식 시스템의 음성 인식률 향상 방법
EP1117191A1 (en) * 2000-01-13 2001-07-18 Telefonaktiebolaget Lm Ericsson Echo cancelling method
US7233903B2 (en) * 2001-03-26 2007-06-19 International Business Machines Corporation Systems and methods for marking and later identifying barcoded items using speech
US7336602B2 (en) * 2002-01-29 2008-02-26 Intel Corporation Apparatus and method for wireless/wired communications interface
US7369532B2 (en) * 2002-02-26 2008-05-06 Intel Corporation Apparatus and method for an audio channel switching wireless device
US7254708B2 (en) * 2002-03-05 2007-08-07 Intel Corporation Apparatus and method for wireless device set-up and authentication using audio authentication—information
AU2003228422A1 (en) * 2002-04-02 2003-10-20 William S. Randazzo Navigation system for locating and communicating with wireless mesh network
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US20050137877A1 (en) * 2003-12-17 2005-06-23 General Motors Corporation Method and system for enabling a device function of a vehicle
US20050193092A1 (en) * 2003-12-19 2005-09-01 General Motors Corporation Method and system for controlling an in-vehicle CD player
US20050134504A1 (en) * 2003-12-22 2005-06-23 Lear Corporation Vehicle appliance having hands-free telephone, global positioning system, and satellite communications modules combined in a common architecture for providing complete telematics functions
US7801283B2 (en) * 2003-12-22 2010-09-21 Lear Corporation Method of operating vehicular, hands-free telephone system
US7050834B2 (en) * 2003-12-30 2006-05-23 Lear Corporation Vehicular, hands-free telephone system
US7778604B2 (en) * 2004-01-30 2010-08-17 Lear Corporation Garage door opener communications gateway module for enabling communications among vehicles, house devices, and telecommunications networks
US7197278B2 (en) 2004-01-30 2007-03-27 Lear Corporation Method and system for communicating information between a vehicular hands-free telephone system and an external device using a garage door opener as a communications gateway
US20050186992A1 (en) * 2004-02-20 2005-08-25 Slawomir Skret Method and apparatus to allow two way radio users to access voice enabled applications
JP2005250584A (ja) * 2004-03-01 2005-09-15 Sharp Corp 入力装置
FR2871978B1 (fr) * 2004-06-16 2006-09-22 Alcatel Sa Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede
TWM260059U (en) * 2004-07-08 2005-03-21 Blueexpert Technology Corp Computer input device having bluetooth handsfree handset
DE602004024318D1 (de) * 2004-12-06 2010-01-07 Sony Deutschland Gmbh Verfahren zur Erstellung einer Audiosignatur
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US20060258336A1 (en) * 2004-12-14 2006-11-16 Michael Sajor Apparatus an method to store and forward voicemail and messages in a two way radio
US9104650B2 (en) * 2005-07-11 2015-08-11 Brooks Automation, Inc. Intelligent condition monitoring and fault diagnostic system for preventative maintenance
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US7876996B1 (en) 2005-12-15 2011-01-25 Nvidia Corporation Method and system for time-shifting video
US8738382B1 (en) * 2005-12-16 2014-05-27 Nvidia Corporation Audio feedback time shift filter system and method
US20080086311A1 (en) * 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
US8249238B2 (en) * 2006-09-21 2012-08-21 Siemens Enterprise Communications, Inc. Dynamic key exchange for call forking scenarios
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US9135797B2 (en) 2006-12-28 2015-09-15 International Business Machines Corporation Audio detection using distributed mobile computing
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
JP5635522B2 (ja) * 2009-10-09 2014-12-03 パナソニック株式会社 車載装置
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US8977555B2 (en) 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
JP5753869B2 (ja) * 2013-03-26 2015-07-22 富士ソフト株式会社 音声認識端末およびコンピュータ端末を用いる音声認識方法
US9277354B2 (en) * 2013-10-30 2016-03-01 Sprint Communications Company L.P. Systems, methods, and software for receiving commands within a mobile communications application
US20170286049A1 (en) * 2014-08-27 2017-10-05 Samsung Electronics Co., Ltd. Apparatus and method for recognizing voice commands
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US9912977B2 (en) * 2016-02-04 2018-03-06 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10453449B2 (en) * 2016-09-01 2019-10-22 Amazon Technologies, Inc. Indicator for voice-based communications
US10580404B2 (en) 2016-09-01 2020-03-03 Amazon Technologies, Inc. Indicator for voice-based communications
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
KR102371313B1 (ko) * 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10515637B1 (en) 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109166570B (zh) * 2018-07-24 2019-11-26 百度在线网络技术(北京)有限公司 一种语音切分的方法、装置、设备和计算机存储介质
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) * 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
JP2020052145A (ja) * 2018-09-25 2020-04-02 トヨタ自動車株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4253157A (en) * 1978-09-29 1981-02-24 Alpex Computer Corp. Data access system wherein subscriber terminals gain access to a data bank by telephone lines
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
JPH0831021B2 (ja) * 1986-10-13 1996-03-27 日本電信電話株式会社 音声ガイダンス出力制御方法
US4914692A (en) * 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
CA2032765C (en) * 1989-12-21 1995-12-12 Hidetaka Yoshikawa Variable rate encoding and communicating apparatus
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
JP3681414B2 (ja) * 1993-02-08 2005-08-10 富士通株式会社 通話路制御方法及び装置
US5657423A (en) * 1993-02-22 1997-08-12 Texas Instruments Incorporated Hardware filter circuit and address circuitry for MPEG encoded data
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
FI93915C (fi) * 1993-09-20 1995-06-12 Nokia Telecommunications Oy Digitaalisen radiopuhelinjärjestelmän transkoodausyksikkö ja transdekoodausyksikkö sekä menetelmä transkoodausyksikön ulostulon säätämiseksi ja transdekoodausyksikön ulostulon säätämiseksi
US5758317A (en) * 1993-10-04 1998-05-26 Motorola, Inc. Method for voice-based affiliation of an operator identification code to a communication unit
DE4339464C2 (de) * 1993-11-19 1995-11-16 Litef Gmbh Verfahren zur Sprachverschleierung und -entschleierung bei der Sprachübertragung und Einrichtung zur Durchführung des Verfahrens
GB2292500A (en) * 1994-08-19 1996-02-21 Ibm Voice response system
US5652789A (en) 1994-09-30 1997-07-29 Wildfire Communications, Inc. Network based knowledgeable assistant
US5708704A (en) * 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
US5652791A (en) * 1995-07-19 1997-07-29 Rockwell International Corp. System and method for simulating operation of an automatic call distributor
US6236715B1 (en) * 1997-04-15 2001-05-22 Nortel Networks Corporation Method and apparatus for using the control channel in telecommunications systems for voice dialing
US6044108A (en) * 1997-05-28 2000-03-28 Data Race, Inc. System and method for suppressing far end echo of voice encoded speech
US5910976A (en) * 1997-08-01 1999-06-08 Lucent Technologies Inc. Method and apparatus for testing customer premises equipment alert signal detectors to determine talkoff and talkdown error rates
US6098043A (en) * 1998-06-30 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved user interface in speech recognition systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems

Also Published As

Publication number Publication date
KR100759473B1 (ko) 2007-09-20
US20030040903A1 (en) 2003-02-27
WO2001026096A1 (en) 2001-04-12
JP5306503B2 (ja) 2013-10-02
CN1188834C (zh) 2005-02-09
US6937977B2 (en) 2005-08-30
KR20020071850A (ko) 2002-09-13
CN1408111A (zh) 2003-04-02
AU7852700A (en) 2001-05-10
JP2012137777A (ja) 2012-07-19

Similar Documents

Publication Publication Date Title
JP5306503B2 (ja) 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置
JP5425945B2 (ja) ローカルなインターラプト検出に基づく音声認識技術
USRE45066E1 (en) Method and apparatus for the provision of information signals based upon speech recognition
US5594784A (en) Apparatus and method for transparent telephony utilizing speech-based signaling for initiating and handling calls
US6744860B1 (en) Methods and apparatus for initiating a voice-dialing operation
US6424945B1 (en) Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
US20050180464A1 (en) Audio communication with a computer
US20020173333A1 (en) Method and apparatus for processing barge-in requests
US20020097844A1 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs
US20020118803A1 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs, for telephones without private branch exchanges
WO2021150647A1 (en) System and method for data analytics for communications in walkie-talkie network
JP2002237877A (ja) ハンズフリーシステム、携帯電話およびハンズフリー装置
JP3773917B2 (ja) 携帯通信装置、通信方法
JP2003008745A (ja) 音声補完方法及び音声補完装置ならびに電話端末装置
KR20020072359A (ko) 음성인식을 이용한 무인 자동 전화교환 및 웹메일링시스템 및 방법
JPH118711A (ja) 電話装置
KR19990059293A (ko) 전화기에서의 잔향 및 환경잡음 제거 장치 및방법

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060828

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20091013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120316

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120411

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120608

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20121026