JP5425945B2 - ローカルなインターラプト検出に基づく音声認識技術 - Google Patents

ローカルなインターラプト検出に基づく音声認識技術 Download PDF

Info

Publication number
JP5425945B2
JP5425945B2 JP2012048111A JP2012048111A JP5425945B2 JP 5425945 B2 JP5425945 B2 JP 5425945B2 JP 2012048111 A JP2012048111 A JP 2012048111A JP 2012048111 A JP2012048111 A JP 2012048111A JP 5425945 B2 JP5425945 B2 JP 5425945B2
Authority
JP
Japan
Prior art keywords
voice
subscriber unit
speech recognition
speech
infrastructure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2012048111A
Other languages
English (en)
Other versions
JP2012108557A (ja
Inventor
アイラ・エイ・ガーソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BlackBerry Ltd
Original Assignee
BlackBerry Ltd
Research in Motion Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BlackBerry Ltd, Research in Motion Ltd filed Critical BlackBerry Ltd
Publication of JP2012108557A publication Critical patent/JP2012108557A/ja
Application granted granted Critical
Publication of JP5425945B2 publication Critical patent/JP5425945B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/08Access point devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

(発明の属する技術分野)
この発明は、一般的に音声認識が組み込まれている通信システムに関し、またより具体的には、音声通信中のインターラプト検出のための新規の技術に関する。
(従来の技術)
音声認識システムは、特に電話システムに関して一般的に公知の技術である。
米国特許4,914,692、5,475,791、5,708,704と、また5,765,130は、音声認識システムを組み込んだ電話網を例示している。各システムの共通する特徴は、音声認識エレメント(即ち、音声認識を実施するデバイス)は、加入者の通信デバイス(即ち、ユーザーの電話)とは逆に、一般的に、電話網の構成の中心に位置されている。典型的には、音声の合成と音声認識エレメントとの組み合せは、電話網あるいはインフラストラクチャ内で展開されている。呼者は、そのシステムにアクセスし、音声合成エレメントを介して、合成された音声の形での情報のプロンプトあるいはクエリーの提供を受けることができる。呼者は、一般的に、合成された音声に対して口頭による応答を行い、音声認識エレメントは、呼者にさらなるサービスを提供するために、呼者の口頭による応答を処理する。
このタイプのシステムの特定のアプリケーションは、時には、“仮想アシスタント”あるいは“自動アシスタント”と呼ばれる“電子アシスタント”であった。例えば、米国特許5,652,789(以下“789特許”と称す)は、電子アシスタントを経由して加入者が、個人通話を管理できるサービスを説明している。音声認識技術を使用して、加入者は、命令を発して、出入りする通話とメッセージを管理できる。一般的な、電話をベースとするシステムの中の様に、‘789特許の中で説明されている音声認識エレメントは、全て電話インフラ組織の中にある。‘789特許の中で説明されている特徴の一つは、電子アシスタントを設けて、加入者が。他の当事者と音声通話中に、バックグラウンド・モードに入ることができる音声認識エレメントの性能である。このバックグラウンド・モード中に、電子アシスタントは、音声をベースとする、特に電子アシスタントが、“フォアグラウンド・モード”にさせる“呼び出しコマンド”の様な所定の発生のセットに対して加入者の音声通話を監視する。フォアグラウンド・モードの中で、電子アシスタントは、引続き音声をベースとするコマンドの大きなセットに対して監視する。この方法で、電子台は、文字どおり“通話中”となり、加入者のニーズに答え、特定の呼び出しあるいは“ウェークアップ”コマンドの検出を通して呼び出される。
前記で説明されているとおり、‘789特許の中で説明されている、電子台を呼び出す機能は、電話網の中に展開されている音声認識エレメントを通して動作させることができる。同様の電子アシスタントのサービスを実行する種々の他のシステムは、現在一般に入手可能である。同様に、このようなシステムは、ネットワークをベースとする音声認識エレメントを通して動作させることができる。呼び出し時間あるいは遅延が、大部分の電話網の中で一般的に短いので(約数ミリ秒間)、特に電子アシスタントに対する“ウェークアップ”コマンドが応用されたインフラをベースとする音声認識エレメントが実用的であるが、しかし、現行のシステムは、無線システムに的を絞ることを怠ってきた。例えば、異なるセルラ・システムの中で、無線通信チャンネルの変動する性格(即ち、時間と共に変化する劣化とスループットの遅延)と、また応用される音声の処理の差、があると仮定して、純粋にインフラをベースとする音声認識エレメントの使用は、問題を引き起こす可能性がある。現在の解決として、また完全に音声チャンネルと専用のネットワーク資源を使用して、音声認識機能に“ウェークアップ”を提供する。この方法では、“空白時間”と、ネットワークをベースとする音声認識を利用可能とするサービスのためのネットワーク資源の非効率的な使用につながる。従って、加入者が電子アシスタントサービス、あるいは音声をベースとするサービスを利用して、無線通信の環境の中で“ウェークアップ”音声認識性能を発揮させることができるより効率的な技術を提供することが有利である。
この発明は、一般的に、音声認識機能をウェークアップさせたり呼び出したりするための、主として無線通信環境に応用可能な技術を提供する。特に、この発明は、加入者と他の当事者との間の音声通話の間のインターラプト表示のローカルの検出を組み込んでいる。インターラプト表示に応答して、音声認識エレメントの一部が動作して、音声をベースとするコマンドの処理を開始する。一つの実施例の中では、音声認識エレメントは、インフラの中の少なくとも部分的に実行され、できれば、加入者ユニットの中で実施される音声認識クライアントと、また無線通信システムのインフラの中で実施される音声認識サーバを備えることがこのましい。他方の実施例の中では、加入者ユニットの一部を形成する入力デバイスを使用してインターラプト表示を提供することができる。更にもう一つの実施例の中では、加入者ユニットの中の音声認識装置を使用して、インターラプト表示を提供することができる。加入者ユニットの中で表示信号を検出することで、この発明により、無線通信環境の中でより容易に電子アシスタントあるいは同様のサービスを利用することができる。
本発明は、例えば、以下を提供する。
(項目1) インフラと無線通信して、インフラを経由して、加入者ユニットのユーザーと他の者との間で音声通信を提供できる加入者ユニットの中で、インフラが、音声認識サーバからなるものにおいて、
インフラを経由して、加入者ユニットのユーザーと他の者との間の音声通話を行うことと、
加入者ユニットの中で、音声通話中に、インターラプト表示を検出することと、また、インターラプト表示に応答して、音声認識エレメントを動作させて、音声をベースとするコマンドの処理を開始することにおいて、音声認識エレメントが、少なくとも部分的にインフラの中で実行されることを備えることを特徴とする方法。
(項目2) 加入者ユニットの中で検出する方法が、更に、加入者ユニットの一部を形成している入力デバイスを動作させて、インターラプト表示を提供する方法からなることを特徴とする、項目1に記載されている方法。
(項目3) 入力デバイスを動作させる方法が、ボタンと、セレクタと、メニューで駆動される入力デバイスの何れかを動作させる方法を備えることを特徴とする、項目2に記載されている方法。
(項目4) 加入者ユニットの中で検出する方法において、
加入者ユニットの中で実行されるローカルの音声認識装置を経由して、加入者ユニットの中で音声通信を、少なくとも1個の予め設定された発話に対してモニターすることと、また、
少なくとも1個の予め設定された発話が検出されたら、直ちにインターラプト表示を提供することを備えることを特徴とする、項目1に記載されている方法。
(項目5) 音声認識エレメントの一部を動作させる方法において、加入者ユニットの中で実行される音声認識クライアントを動作させる、作用の中で、音声認識クライアントと音声認識サーバが、協働して、音声認識エレメントを提供することを特徴とする、項目1に記載されている方法。
(項目6) 音声認識クライアントにより、パラメータ化された音声情報を音声認識サーバに提供することを特徴とする、項目5に記載されている方法。
(項目7) ユーザーに、音声認識エレメントが動作した部分の表示を提供することを特徴とする、項目1に記載されている方法。
(項目8) 音声認識サーバに、音声認識エレメントが動作した部分の表示を提供することを特徴とする、項目1に記載されている方法。
(項目9) 無線でインフラと通信する加入者ユニットにおいて、
加入者ユニットとインフラとの間の通信中に、加入者ユニットの中でインターラプト表示の存在を検出する検出装置と、また、
入力としてインターラプト表示の存在を取り込んでから、インターラプト表示の存在により動作させられ、音声をベースとするコマンドの処理を開始する音声認識エレメントの部分において、音声認識エレメントが、少なくともインフラの中で実行されるものを備えることを特徴とする加入者ユニット。
(項目10) 更に、動作したときにインターラプト表示を提供する検出装置に接続されている入力デバイスを備えることを特徴とする、項目9に記載されている加入者ユニット。
(項目11) 入力デバイスが、ボタン、セレクタとメニュー駆動入力デバイスを備えることを特徴とする、項目10に記載されている加入者ユニット。
(項目12) 検出装置が、少なくとも1個の予め設定された発話に対して音声通話をモニターし、また少なくとも1個の予め設定された発話検出したら、直ちにインターラプト表示の存在を検出するローカルの音声認識装置を備えることを特徴とする、項目9に記載されている加入者ユニット。
(項目13) 音声認識エレメントの一部が、音声認識クライアントを備えるものにおいて音声認識クライアントと音声認識サーバが、インフラの中で協働して音声認識エレメントを提供することを特徴とする、項目9に記載されている加入者ユニット。
(項目14) 音声認識エレメント一部が動作したことを示すためのインターラプト表示に対応する表示装置を備えることを特徴とする、項目9に記載されている加入者ユニット。
(項目15) インフラに対して、音声認識エレメント一部により提供されたパラメータ化された音声情報を送信する無線トランシーバことを特徴とする、項目9に記載されている加入者ユニット。
(項目16) 無線トランシーバが、インフラに、音声認識エレメント一部が動作した表示を送信することを特徴とする、項目15に記載されている加入者ユニット。
(項目17) インフラと無線で通信する少なくとも1個の加入者ユニットを備える無線通信システムにおいて、
少なくとも1個の加入者ユニットの中で、
少なくとも1個の加入者装置とインフラとの間の音声通話中に、加入者ユニットの中でインターラプト表示の存在を検出する検出装置と、
入力としてインターラプト表示の存在を取り込んでから、音声をベースとするコマンドの処理を開始する、インターラプト表示の存在により動作させられる音声認識クライアントと、また、
インフラの中で、音声認識クライアントと協働して、音声認識エレメントを提供する音声認識サーバを備えることを特徴とする無線通信システム。
(項目18) 少なくとも1個の加入者ユニットが、無線電話を備えることを特徴とする、項目17に記載されている無線通信システム。
(項目19) 少なくとも1個の加入者ユニットが、車両搭載無線通信デバイスを備えることを特徴とする、項目17に記載されている無線通信システム。
(項目20) インフラの一部と音声認識エレメントの一部を形成する音声認識サーバで、インフラが、少なくとも1個の加入者ユニットと無線で通信することにおいて、
音声通話中に、少なくとも1個の加入者ユニットの加入者ユニットから、ローカルのインターラプト表示の検出に応答して提供された音声情報を受信することと、
音声情報をベースとして音声認識処理を実行することを備えることを特徴とする方法。
(項目21) 加入者ユニットから、音声認識エレメントが動作させられたと言う表示を受信することと、また、
表示をベースとして音声認識処理を開始することを備えることを特徴とする、
項目20に記載されている方法。
(項目22) 加入者ユニットの所で、入力デバイスを動作させることで、インターラプト表示が提供されることを特徴とする、項目20に記載されている方法。
(項目23) 加入者ユニットの中で提供されたインターラプト表示が、
少なくとも1個の予め設定された発話に対して音声通話のモニターすることを特徴とする、項目20に記載されている方法。
(項目24) 音声情報を処理して、パラメータ化された音声情報と提供することにおいて、音声認識の処理がパラメータ化された音声情報をベースとしていることを特徴とする、項目20に記載されている方法。
(項目25) 少なくとも1個の加入者ユニットと無線通信であるインフラの中で使用される音声認識サーバにおいて、
音声通話中に、インターラプト表示のローカルの検出に応答して入力として受信する受信機と、また、
音声情報をベースとして音声認識処理を実行する音声認識分析装置を備えることを特徴とする音声認識サーバ。
(項目26) 受信機が、加入者ユニットから、音声認識エレメントが動作させられたと言う表示を受信するように動作することと、また表示が、音声認識処理を開始することを特徴とする、項目25に記載されている音声認識サーバ。
(項目27) インターラプト表示が、加入者ユニットの所で、入力デバイスを動作させることで提供されることを特徴とする、項目25に記載されている音声認識サーバ。
(項目28) インターラプト表示が、加入者ユニットの中で、少なくとも1個の予め設定された発話に対して音声通話をモニターされることで提供されることを特徴とする、項目25に記載されている音声認識サーバ。
(項目29) 音声認識分析装置が、音声情報を処理して、パラメータ化された音声情報を提供し、音声認識処理が、パラメータ化された音声情報をベースとしていることを特徴とする、項目25に記載されている音声認識サーバ。
この発明に係る無線通信システムのブロック図である。 この発明に係る加入者ユニットのブロック図である。 この発明に係る加入者ユニットの中の音声とデータ処理機能の略図である。 この発明に係る音声認識サーバのブロック図である。 この発明に係る音声認識サーバ内の音声とデータ処理機能の略図である。 この発明に係る加入者ユニットの動作を示すフローチャートである。
(発明の実施の形態)
本発明を、図1〜6を引用して、より詳しく説明することができる。図1は、加入者ユニット102、103を備える無線通信100のシステム全体のアーキテクチャを示している。加入者の装置102、103は、無線システム110に対応している無線チャンネル105を経由してインフラストラクチャと通信する。本発明のインフラストラクチャは、無線システム110に加えて、スモール・エンティティ・システム120と、コンテンツ・プロバイダ・システム130と、企業システム140がデータ網150を介して相互に接続されているものとすることもできる。
加入者ユニットは、通信インフラストラクチャと通信可能な携帯電話103あるいは車両搭載の無線通信デバイス102のような無線通信デバイスであってもよい。図1の中に示されている以外の各種の加入者ユニットを使用することができ、本発明はこの点で限定されないものと解釈されるものとする。加入者ユニット102、103を、ハンズフリーで音声通信するためのハンズフリーセルラ電話と、ローカルの音声認識及び合成システムと、またクライアント−サーバ音声認識及び合成システムのクライアント部分の構成部品を備えるものとすることができる。これらの構成部品は、図2、図3に関して、更に詳しく説明される。
加入者ユニット102、103は、無線チャンネル105を経由して無線システム110と無線通信を行う。無線システム110は、当業者であれば、本発明を、音声通信に対応しているセルラ以外のタイプの無線システムに有利に応用することが分かるが、好ましくは、セルラ・システムを備えるものとすることが好ましい。無線チャンネル105は、一般的に、デジタル搬送技術を実施し、また音声あるいはデータあるいはその双方を、加入者ユニット102、103へ及びユニットから搬送できる無線周波数(RF)搬送波である。アナログ技術のような他の伝送技術でも、使用できるものと解釈されるものとする。好ましい実施例の中で、無線チャンネル105は、欧州通信規格協会(ETSI)により規定されている一般パケット無線サービス(GPRS)のような無線パケット・データ・チャンネルである。無線チャンネル105は、データを転送して、クライアント−サーバ音声認識及び合成システムのクライアント部分と、クライアント−サーバ音声認識及び合成システムのサーバ部分との間の通信を容易にする。表示、制御、あるいは状態情報の様な他の情報も、また無線チャンネル105上で転送できる。
無線システム110は、加入者ユニット102、103から無線チャンネル105により送信されたものを受信するアンテナ112を備える。アンテナ112は、またチャンネル105を経由して加入者ユニット102、103に送信する。アンテナ112を経由して受信されたデータは、データ信号に転換されて、無線網113に転送される。反対に、無線網113からのデータは、転送のためにアンテナ112に送信される。本発明に関連しては、無線網113は、一般的に公知の基地局や、制御装置や、リソース・アロケータ(資源割当装置)や、インターフェースや、データベース等の様な無線システムを実行するのに必要な諸デバイスを備える。当業者であれば分かるとおり、無線網113に組み込まれる特定のエレメントは、例えば、セルラ・システム、自動車に搭載された地上移動システムのような無線システム110の特定のタイプに応じて異なる。
クライアント−サーバ音声認識及び合成システムのサーバ部分を提供する音声認識サーバ115を無線網113に連結して、無線システム110のオペレータが、音声を基礎とするサービスを、加入者ユニット102、103に提供することができるようにすることができる。制御エンティティ116を、無線網113に連結することができる。音声認識サーバ115により提供された入力に応答して、制御エンティティ116を使用して、制御信号を加入者ユニット102、103に送って、加入者ユニットあるいは装置に相互接続されているデバイスを制御することができる。図示されているとおり、適切にプログラムされた全ての汎用コンピュータを備えるものとすることができるエンティティ116を、無線網113を経由するかあるいは図の中の破線で示されているように直接に音声認識サーバ115に接続することができる。
前記で指摘されているとおり、本発明のインフラストラクチャを、データ網150を経由して互いに接続された種々のシステム110、120、130、140を備えるものとすることができる。適切なデータ網150は、公知の通信網技術を使用したプライベートデータ網やインターネットなどの公衆ネットワークや、これらの組み合せなどを備えるものとすることができる。無線システム110内の音声認識サーバ115と選択的に又は付加的に、遠隔音声認識サーバ123、132、143、145を、各種の方法でデータ網150に接続して、音声を基礎とするサービスを、加入者ユニット102、103に提供するようにしてもよい。遠隔音声認識サーバが備わっている場合は、同様に、データ網150及び全ての介在する通信パス(経路)を経由して、制御エンティティ116と通信することができる。
小型のエンティティ・システム120(小規模事業所あるいは在宅の様な)内では、デスクトップ・パソコンあるいは他の汎用処理デバイスの様な、コンピュータ122を使用して、音声認識サーバ123を実行することができる。加入者ユニット102、103を出入りするデータは、無線システム110とデータ網150を経由して、コンピュータ122に向けられる。保存されたソフトウエアのアルゴリズム及び処理を実行してから、コンピュータ122は、音声認識サーバ123の機能を提供する。サーバは、好ましい実施例の中で、音声認識システムと音声合成システムの双方のサーバ部分を備える。場合、例えば、コンピュータ122がユーザーのパソコンである場合、コンピュータ上の音声認識サーバのソフトウエアを、コンピュータ内のユーザーのEメールや、電話帖や、カレンダーや、他の情報の様なユーザーの個人情報に接続させることができる。この構成で、加入者ユニットのユーザーは、音声をベースとするインターフェースを利用して、自分のパソコン上の個人情報にアクセスできる。本発明に基づくクライアント−サーバ音声認識と音声合成システムのクライアント部分は、下記の図2と3に関連させて説明される。本発明に基づくクライアント−サーバ音声認識と音声合成システムのサーバ部分は、下記の図4と5に関連させて説明される。
また、加入者ユニットのユーザーが利用可能にしたい情報を有するコンテンツ・プロバイダ130は、音声認識サーバ132を、データ網に接続させることができる。特集あるいは特別のサービスとしての申出に、音声認識サーバ132は、コンテンツのプロバイダの情報(図示されていない)へのアクセスを希望する加入者ユニットのユーザーに、音声をベースとするインターフェースを提供する。
別の音声認識サーバのための可能な場所は、大企業あるいは同様のエンティティなどの企業140内である。イントラネットの様な企業内の通信網146は、セキュリティ(安全)ゲートウエイ(複数のネット間の接続)142を経由してデータ網150に接続される。セキュリティ・ゲートウエイ142は、加入者ユニットと連動して、企業内通信網146に対する安全なアクセスを提供する。公知の技術のとおり、この方法で提供される安全なアクセスは、一般的に、認証と暗号技術に一部依存する。この方法で、安全でないデータ網150を介した、加入者ユニットと内部通信網146との間の安全な通信が提供される。企業140内で、音声認識サーバ145を実行するサーバ・ソフトウエアを、所定の従業員のワークステーションのようなパソコン144上に提供できる。小規模のエンティティ・システムの中で使用するための前記で説明された構成と同様に、このワークステーションアプローチで、従業員は音声をベースとするインターフェースを経由して、作業に関連の又は他の情報にアクセスできる。また、コンテンツ・プロバイダ130モデルと同様に、企業140は、内部で利用できる音声認識サーバ143を提供して、企業のデータベースへのアクセスを提供することができる。
本発明の音声認識サーバが配置されている場所の如何を問わず、サーバを使用して、各種の音声をベースとするサービスを実行することができる。例えば、制御エンティティ116が設けられている場合、これと連動させて、音声認識サーバで、加入者ユニット又は、これに接続されているデバイスの操作の制御をすることができる。この明細書全体を通じて使用されている音声認識サーバと言う用語が、音声合成機能をも同時に含むことに留意しなければならない。
本発明のインフラストラクチャは、また、音声認識サーバ102、103とまた通常の電話システムとの間の相互接続を提供する。機能は、無線網113をPOTS(旧式の電話システム)網118に接続することで、図1の中に示されている。公知の技術のとおり、POTS網、あるいは同様の電話網は、陸上通信線あるいは他の無線デバイスのような複数の呼び局への通話アクセスを提供する。この方法で、音声認識サーバ102、103のユーザーは、他の呼び局119との音声通信を続行できる。下記に詳しく説明されているとおり、この発明は、ローカルで、音声通信中に電子アシスタントに対するウェークアップコマンドの様なインターラプト表示を検出する技術を提供する。
図2は、この発明に係る加入者ユニットを実行するのに使用できるハードウエアのアーキテクチュアを示している。図示されているように、2個の無線トランシーバ、即ち無線データ・トランシーバと無線音声トランシーバを使用することができる。公知の技術のように、これらのトランシーバを、データと音声機能の双方を実行することができる単独のトランシーバに結合させることができる。無線データ・トランシーバ203と無線音声トランシーバ204の双方ともアンテナ205に接続されている。また、各々のトランシーバに対して、別個のアンテナを使用することができる。無線音声トランシーバ204は、全ての必要な信号処理や、プロトコル終了や、変調/復調等を実行して、無線音声通信を提供し、セルラ・トランシーバを備える。同様の方法で、無線データ・トランシーバー203はインフラとのデータ接続性を提供する。好ましい実施例の中では、無線データ・トランシーバ203は、欧州通信規格協会(ETSI)により規定されている一般パケット・データ無線サービス(GPRS)のような無線パケットデータに対応している。
この発明を、下記で説明されているとおり、車両搭載システムに有利に応用できることが見込まれる。車両搭載に利用された場合、この発明に係る加入者ユニットは、また、一般的に車両の一部であり、加入者ユニットの一部ではないと見なされる処理構成部品を備える。この発明を説明する目的で、処理構成部品を、加入者ユニットの一部と仮定する。加入者ユニットの実用に当たって、設計面を斟酌して、処理構成部品を含めたり専用とし含めないこともできるものと解釈されるものとする。好ましい実施例の中で、処理構成部品は、IBM社の“POWER PC”のような汎用プロセッサ(CPU)201と、また、Motorola社のDSP56300シリーズ・プロセッサのようなデジタル信号処理装置(DSP)202を備える。CPU201とDSP202は、公知の技術のとおり、データ・バスとアドレス・バスを介して互いに接続されていることと、また他の制御接続を示すために、図2の中で隣接して示されている。また、実施例の中で、CPU201とDSP202の双方の機能を単独のプロセッサに結合させたり、あるいは複数のプロセッサに分割することができるようになっている。CPU201とDSP202の双方は、関連するプロセッサに対するプログラムとデータの保存を提供する個々のメモリー240、241に接続されている。保存されているソフトウエアのルーチンを使用して、CPU201あるいはDSP202あるいはその双方をプログラム化して、この発明の機能の少なくとも一部を実行することができる。CPU201とDSP202は、下記の図3と6に関連させて、少なくとも部分的に、下記で説明される。
好ましい実施例の中で、加入者ユニットは、また、アンテナ207に接続されている全地球測位衛星(GPS)受信機206を備える。GPS受信機206は、DSP202に接続されて、受信されたGPS情報を提供している。DSP202は、GPS受信機から情報を取り込んでから、無線通信デバイスの場所の座標を計算する。また、GPS受信機206を、CPU201に直接場所の情報を提供するものとすることができる。
CPU201とDSP202の種々の出入力は、図2の中に示されている。図2の中に示されているとおり、太線は、音声関係情報に対応し、また太い破線は、制御/データ関連情報に対応する。オプションとしてのエレメントと信号パスは、点線で示されている。DSP202は、下記で更に詳しく説明されているとおり、電話(セル電話)の音声に対する音声入力と、ローカルの音声認識装置とクライアント−サーバ音声認識装置のクライアント側の部分の双方に音声入力を提供するマイク270から、マイク音声220を受信する。DSP202は、また、電話(セル電話)の音声に対する音声出力と、ローカルの音声合成装置とクライアント−サーバ音声合成装置のクライアント側の部分の双方からの音声出力の双方を提供する少なくとも1個のスピーカー271に向けられている出力音声211に接続されている。携帯デバイスの中のように、マイク270とスピーカー271の位置を互いに近付けたり、あるいは、サンバイザーに取り付けられているマイクとダッシュボードあるいはドアに取り付けられているスピーカーを有する自動車での応用のように、互いに引き離すことができることに留意しなければならない。
この発明のもう一つの実施例の中で、CPU201は、双方向インターフェース230を経由して、車両搭載のデータ・バス208に接続されている。データ・バス208で、セル電話や、娯楽(ラジオ、カセット・プレーヤー)システムや、車内環境システムのような車に搭載されている種々のデバイス209a〜nとCPU201との間で通信される状態情報を制御することができる。適切なデータ・バス208を、自動車技術者協会により現在標準化作業が進行中のITSデータ・バス(IDB)とすることが見込まれる。ブルーツース・シグ(SIG)(意見交換フォーラム)により定義される近距離無線データ通信システムのような種々のデバイス間の制御と状態情報を通信するまたの手段を使用することができる。データ・バス208で、CPU201は、ローカルの認識装置、あるいはクライアント−サーバ認識装置の何れかにより認識された音声命令に応答して、車両搭載のデータ・バス上のデバイス209を制御できる。
CPU201は、データ受信接続線231と、またデータ送信接続線232を経由して無線データ・トランシーバ203に接続されている。接続線231、232で、CPU201は、無線システム110から送信された制御情報と音声合成情報を受信することができる。音声合成情報は、無線データ・チャンネル105を経由して、クライアント−サーバ音声合成システムのサーバ部分から受信される。CPU201は、音声合成情報を復号してから、DSP202に届けられる。DSP202は、出力された音声を合成してから、合成されたものを音声出力211に届けられる。受信データ接続線231を経由して受信された全ての制御情報を、加入者ユニット自身を操作するために利用したり、1個あるいはそれ以上のデバイスに送信して、デバイスの動作を制御することができる。更に、CPU201は、状態情報と、またクライアント−サーバ音声認識システムのクライアント部分からの出力データを、無線システム110に送信することができる。クライアント−サーバ音声認識システムのクライアント部分は、下記で更に詳しく説明されているとおり、好ましくは、DSP202とCPU201内のソフトウエアの中で実行されることが好ましい。音声認識に対応させるときに、DSP202は、マイク入力線220を受信してから、音声を処理して、パラメータ化された音声信号を、CPU201に音声を提供する。CPU201は、パラメータ化された音声信号を符号化して、情報は、接続線232を経由して、無線データ・トランシーバ203に送信され、更に、無線データ・チャンネル105上で、インフラストラクチャの中の音声認識サーバに向けて送信される。
無線音声トランシーバ204は、双方向データ・バス233を経由して、CPU201に接続されている。データ・バスで、音声トランシーバ204を操作して、無線音声トランシーバ204からの状態情報を受信することができる。無線音声トランシーバ204は、音声送信接続線221と、また受信音声接続線210を経由して、DSP202に接続されている。電話(セルラ)の通話を活用するために無線音声トランシーバ204が使用されているとき、音声は、DSP202により、マイクの入力線220から受信される。マイクの音声は、処理(例えば、フィルター、圧縮等)されてから、無線音声トランシーバ204に提供されて、更にセルラ・インフラに送信される。反対に、無線音声トランシーバ204により受信された音声は、受信音声接続線210を経由して、DSP202に送信され、DSP202で、音声は処理(解凍、フィルター等)されてから、スピーカー出力線211に提供される。DSP202により実行される処理は、図3を引用して、更に詳しく説明される。
図2の中に示されている加入者ユニットを、オプションとして、音声通信中に、手動でインターラプト表示線251を使用するための入力デバイス250を備えるものとすることができる。即ち、音声による通信中に、加入者ユニットのユーザーは、手動で入力デバイスを動作させて、インターラプト表示を提供することで、音声認識機能をウェークアップさせたいと言うユーザーの意思を伝えることができる。例えば、音声による通信中に、加入者ユニットのユーザーが、音声をインターラプトして、音声をベースとするコマンドを電子アシスタントに提供して、ダイヤルして、通話に第三者を加えたくなることがある。入力デバイス250を、実質的に如何なるタイプのユーザーにより動作化される入力機構を備えるものとすることができる。例として、特に挙げることができるものは、単一あるいは多目的ボタンや、多重位置セレクタや、あるいは入力機能を有するメニューで駆動されるディスプレーである。また、入力デバイス250を、双方向インターフェース230と、また車両搭載データ・バス208を経由して、CPU201に接続することができる。入力デバイスが設けられていると否とを問わず、CPU201は、インターラプト表示があるかないかを識別するための検出装置としての役割を果たす。CPU201が、入力デバイス250に対する検出装置としての役割を果たしているときは、CPU201は、参照符号260がふられている信号パスにより示されているとおり、インターラプト表示の存在をDSP202に指摘する。反対に、インターラプト表示を提供するための検出装置に接続されているローカルの音声認識装置を使用する他の機能(できれば、DSP202あるいはCPU201あるいはその双方により実行されることが好ましい)を有している。この場合、参照符号260aが振られている信号パスで示されているとおり、CPU201あるいはDSP202の何れかは、インターラプト表示の存在を指摘する。一旦インターラプト表示の存在が検出されたか否かを問わず、音声認識エレメントの一部(できれば、加入者ユニットに関連してか、あるいは一部として実行されるクライアント部分であることが好ましい)が動作して、コマンドをベースとする音声処理を開始する。更に、音声認識エレメントの一部が動作したと言う表示をユーザーと、また音声認識サーバに提供することができる。好ましい実施例の中で、この表示は、送信データ接続線232を経由して、無線データ・トランシーバ203に搬送され、更に、音声識別エレメントを提供するために、音声認識クライアントと協動する音声認識サーバに送信される。
最後に、加入者ユニットには、インターラプト表示に応答して音声認識の機能が動作したことを伝える表示器制御線256に応答して加入者ユニットのユーザーに表示を提供する表示器255が装備されていることが好ましい。表示器255は、インターラプト表示装置に応答して動作させられ、一定期間のトーンあるいはビープの様な、音声表示を提供するのに使用されるスピーカーを備えるものとすることができる(ここでも、入力デバイスをベースとする信号260、あるいは音声をベースとする信号260aの何れかを使用して、インターラプト表示装置が、表示を受けることができるようになっている。)他の実施例の中で、音声をスピーカー出力線211に向ける、DSP202により実行されるソフトウエア・プログラムを経由して表示器の機能が設けられている。スピーカーを、別々のものにするか、あるいは同じスピーカー271を使用して、出力音声線211を可聴とすることができる。また、表示器255を、可視表示装置を提供するLEDあるいはLCD表示装置の様な表示装置を備えるものとすることができる。表示器255の特定の形態は、設計の選択の問題であり、この発明では、必ずしもこの事項に限定されないものとする。更に、表示器255を、双方向インターフェース230と、また車両搭載データ・バス208を経由して、CPU201に接続することができる。
ここで、図3を引用して、加入者ユニット(この発明に従って動作する)の中で実行される処理部分は、保存された、CPU201あるいはDSP202あるいはその双方により実行されるマシンにより読み取り可能な命令を使用して実行される。下記に発表されている解説は、自動車の中に展開されている加入者ユニットの動作を説明しているが、図3の中に一般的に示され、この明細書の中で説明されている機能は、同様に非車両をベースとする使用に応用できるか、あるいは音声認識を使用することで利点を発揮させることができる。
マイクの音声線220は、入力として加入者ユニットに提供される。自動車の環境下では、マイクは、一般的にサンバイサあるいは車両のステアリングコラムに直接取り付けられているか隣接した所にある通常ハンズフリーマイクである。できれば、マイクの音声線220が、デジタルの形態で、エコー・キャンセラー(2個の信号の伝送遅延による反射の取消)と環境処理(ECEP)ブロック301の所まで到達することが好ましい。スピーカーの音声211は、全ての必要な処理を受けてから、ECEPブロック301を経由して、スピーカー(複数を含む)に届けられる。車両の中では、スピーカーは、ダッシュボードの下に取り付けられる。また、スピーカー音声線211を、娯楽システムのスピーカー・システムを経由して演奏される車両の中の娯楽システムを経由させることができる。スピーカー音声線211は、できれば、デジタル・フォーマットであることが好ましい。例えば、セルラ通話が進行中であるとき、セルラ電話から受信された音声は、受信音声接続線210を経由してECEPブロック301に到達する。同様にして、送信される音声は、送信音声接続線221を経由して、セル電話に届けられる。
ECEPブロック301には、送信音声接続線221を経由して、無線トランシーバ204に届けられる前に、マイク音声線220からのスピーカー音声線211のエコー・キャンセルが提供される。エコー・キャンセルは、音声エコー・キャンセルとして知られており、また公知の技術である。例えば、Amano他に交付された、“サブ・バンド音声エコー・キャンセラー”の名称の米国特許5,136,599と、またGenterに交付された、“サブバンド減衰とノイズ除去制御を有するエコー・キャンセラー”の名称の米国特許5,561,668は、音声エコー・キャンセルを実施するのに適切な技術を教示しており、特許の教示事項は、引用により、この明細書の中に組み込まれている。
ECEPブロック301は、またエコー・キャンセルの他に、環境処理をマイク音声線220に提供して、加入者ユニットにより送信された音声を受信する側により快適な音声信号を提供する。一般的に普及している一つの技術は、ノイズ抑圧と呼ばれている。車両の中のハンズフリーマイクは、一般的に、他人に聞き取られる多数のタイプの音声ノイズを取り込む。他人に聞き取られる知覚されるバックグラウンド・ノイズを減らす技術は、例えば、Vilmur他に交付された米国特許4,811,404により説明されており、特許の教示事項は、引用により、この明細書の中に組み込まれている。
ECEPブロック301は、また、第1音声パス316を経由して、音声合成バックエンド304により提供された合成された音声のエコー・キャンセル処理を提供する。合成された音声は、音声出力線211を経由して、スピーカー(複数を含む)に届けられる。受信された音声がスピーカー(複数を含む)に向けられた場合と同様に、マイクの音声パス220上で到達したスピーカーの音声“エコー”は、打ち消される。作用で、音響的にマイクに連結されたスピーカーの音声を、音声が音声認識のフロント・エンド302に届く前に、マイクの音声から取り除くことができる。タイプの処理により、公知の技術で“バージイン”として知られている技術を動作させることができる。バージインで、出力音声が同時にシステムで生成されながら、音声認識システムを、音声に対応させることができる。“バージイン”の実施例は、例えば、米国特許4,914,692と、5,475,791と、5,708,704また5,765,130の中に見い出すことができる。
エコーが打ち消されたマイクの音声は、音声認識処理が事項される度に、第2音声パス326を経由して、音声認識フロント・エンド302に供給される。オプションとして、ECEPブロック301は、第1データ・パス327を経由して、バックグラウンド・ノイズ情報を音声認識フロント・エンド302に提供する。バックグラウンド・ノイズ情報を、ノイズが多い環境の中で動作する音声認識システムに対する認識性能を改善するのに使用できる。処理を実施するのに適する技術は、Gerson他に交付された米国特許4,918,732の中で説明されており、特許の教示事項は、この明細書の中で、引用で組み込まれている。
エコーが打ち消されたマイクの音声と、オプションとして、ECEPブロック301から受信されたバックグラウンド・ノイズ情報を基礎として、音声認識フロント・エンド302は、パラメータ化された音声情報を生成する。音声認識フロント・エンド302と、また音声合成バック・エンド304は、共に、音声認識及び合成システムをベースとするクライアント−サーバのクライアント側の部分の核となる機能を提供する。パラメータ化された音声情報は、一般的に、特徴ベクトルの形態であり、この場合、10から20ミリ秒毎に新しいベクトルが計算される。音声信号のパラメータ化のために普及している一つの技術は、1980年8月の、音声音声と信号処理に関する、ASSP−28(4)の、頁357−366IEEE(米国電気電子技術者協会の会報の、“連続的に喋られる文の単音節の言葉の認識に対するパラメータによる表示の比較”Davi他により説明されているとおりの、mel cepstraであり、刊行物の教示、引用によりこの明細書の中に組み込まれている。
音声認識フロント・エンド302により計算されたパラメータのベクトルは、
ローカルの音声認識処理のために、第2データ・パス325を経由して、ローカルの音声認識ブロック303に送られる。パラメータのベクトルは、また、オプションとして、第3データ・パス323を経由して、音声アプリケーション・プロトコル・インターフェース(API)(複数)と、またデータ・プロトコル(複数)を備えるプロトコル処理ブロック306に送られる。公知の技術に従って、処理ブロック306は、送信データ接続線232を経由して、パラメータ・ベクトルを無線データトランシーバ203に送る。反対に、無線データトランシーバ203は、音声認識装置をベースとするクライアント−サーバの一部として機能するパラメータ・ベクトルをサーバに送る。(パラメータ・ベクトルを送信するよりも、加入者ユニットのほうが、無線データトランシーバ203または無線音声トランシーバ204のいずれかを用いるサーバに音声情報を代わりに送信することができるということが理解される。このことは、加入者ユニットから電話ネットワークへの音声伝送を支持するのに用いられる、または、音声信号を生ずる他の適切な同様の方法で行われてもよい。すなわち音声信号は、生のデジタル化されたオーディオ、セルラー音声コーダで処理したオーディオ、IP(インターネットプロトコル)等の特定のプロトコルに準ずる伝送に好適なオーディオデータ等の種々のパラメータ化されていない生成物のいずれかを備えてもよい。次いでサーバは、パラメータ化されていない音声情報を受信すると、必要とされるパラメータ化を行うことができる。)単独の音声認識フロント・エンド302が示されているが、実際的には、ローカルの音声認識装置303と、音声認識装置をベースとするクライアント−サーバは、種々の音声認識フロントエンドを利用することができる。
ローカルの音声認識装置303は、音声認識フロント・エンド302からパラメータ・ベクトル325を受信してから、フロント・エンド上で音声認識分析を実行し、例えば、パラメータ化された音声の中に認識できる発話があるかどうかを決定する。一つの実施例の中で、認識された発話(一般的に単語)は、加入者ユニットの中の音声認識装置303から、第4データ・パス324を経由して、プロトコル処理ブロック306に送られ、パスは、更に処理を行うために、認識された発話を種々のアプリケーション307に渡す。CPU201、あるいはDSP202あるいはその双方を使用して実行することができるアプリケーション307は、認識された発話をベースとする検出装置アプリケーションを備えるものとすることができ、音声をベースとするインターラプト指示表示が受信されたことを確かめる。例えば、検出装置は、マッチングのための検索を行いながら、認識された発話を予め設定された発話のリスト(例えば“ウェークアップ”)と比較する。整合が検出されたときは、検出装置アプリケーションは、信号260aを発して、インターラプト表示の存在を知らせる。インターラプト表示の存在は、次に、音声認識エレメントを動作させて、音声をベースとするコマンドの処理を開始させるのに使用される。作用の概略は、音声認識フロント・エンドに送られる信号260aにより図3の中で示されている。この作用に応答して、音声認識フロント・エンド302は、引続き、パラメータ化された音声を、加入者ユニットの中の音声認識装置に向けて送るか、あるいは、できれば、追加の処理のために音声認識サーバに送信するために、プロトコル処理ブロック306に送ることが好ましい。(また、オプションとして入力デバイス250により提供される入力デバイスをベースとする信号260が、同じ役割を果たすことができることに留意しなければならない)。更に、インターラプト表示の存在を、送信データ接続線232に送信して、音声認識装置のインフラをベースとするエレメントに表示を与えることができる。
音声合成バック・エンド304は、入力として音声のパラメータ化された表示を取り込んでから、パラメータ化された表示を、音声信号に転換し、信号は、それから、第1音声パス316を経由して、ECEPブロック301に届けられる。使用される特定のパラメータ化された表示は、設計の選択の問題である。一般的に普及しているパラメータ化された表示は、Klattの“縦続接続/並列接続フォルマント合成装置のためのソフトウエア”の題名の米国音声協会の協会誌の、1980年の67卷の頁971−995の中で説明されている、フォルマント(音色を特徴づける周波数成分)である。直線予測パラメータは、1976年のSpringer書房の、Markel他の、音声の直線予測の中で解説されている、もう一つの一般に普及しているパラメータ化された表示である。KlattとMarkel他の関連する教示は、引用で、この明細書の中に組み込まれている。
クライアント−サーバをベースとする音声合成の場合、音声のパラメータ化された表示は、無線チャンネル105と、無線データ・トランシーバ203と、またプロトコル処理ブロック306を経由する通信網から受信され、それから、音声のパラメータ化された表示は、第5パス313を経由して、音声合成バック−エンドに送られる。加入者ユニットの中の音声合成の場合は、アプリケーション307は、喋られるテキストのストリングを生成する。テキスト・ストリングは、プロトコル処理ブロック306を通過してから、第6パス314を経由して、ローカルの音声合成装置305に送られる。音声合成装置305は、テキスト・ストリングを、音声信号のパラメータ化された表示に転換してから、パラメータ化された表示を、第7パス315を経由して、音声合成バック−エンド304に送って、音声信号に転換する。
受信データ接続線231を、音声合成情報以外の受信された情報を、更に転送するのに使用できることに留意しなければならない。例えば、音声合成情報以外の情報を、インフラから受信されたデータ(表示情報の様な)あるいは制御情報あるいはその双方と、またシステムにダウンロードされるべきコードを備えるものとすることができる。同様に、送信データ接続線232を、音声認識フロント−エンド302により計算されたパラメータ・ベクトル以外の送信情報を転送するのに使用できる。例えば、他の送信情報を、デバイス状態情報と、デバイスの容量と、またバージインのタイミングに関する情報を備えるものとすることができる。
ここで、図4を引用して、音声認識サーバのハードウエアの実施例が示されており、実施例には、この発明に係るクライアント−サーバ音声認識及び合成システムのサーバ部分が設けられている。図1に関連して前記で説明されているとおり、サーバを、複数の環境の中で常駐させることができる。インフラあるいは通信網接続線411を経由して、加入者ユニットあるいは制御エンティティとのデータ通信を行うことができる。図1の中で示されているとおり、接続線411を、例えば無線システム内に限定して、無線通信網に直接接続させることができる。また、接続線411を、公衆あるいは専用通信網、あるいは、他のデータ通信リンクとすることができるが、この発明は、点に限定されない。
通信網インターフェース405は、CPU401と通信網接続線との間の接続性を提供する。通信網インターフェース405は、通信網411からのデータを、受信パス408を経由して、CPU401に向けて送り、送信パス410を経由してCPU401から通信網接続線411に向けて送る。クライアント−サーバ構成の一部として、CPU401は、通信網インターフェースと通信網接続線411を経由して、1個あるいはそれ以上のクライアントと通信する(できれば、加入者ユニットの中で実行される)。好ましい実施例の中で、CPU401は、クライアント−サーバ音声認識及び合成システムのサーバ部分を実行する。図示されていないが、図4の中のサーバを、加入者ユニットの中のインターフェースを備えるものとして、サーバへの装置内のアクセスを行って、例えばサーバの保守と、状態の点検と他の同様の機能を容易にすることができる。
メモリー403は、マシンで読み取り可能な命令(ソフトウエア)と、また、クライアント−サーバ構成のサーバ部分を実施するのに当たって、CPU401による実行と使用のためのプログラム・データを保存する。ソフトウエアの動作と構造は、図5を引用して説明される。
図5は、音声認識及び合成サーバ機能を示している。少なくとも1個の音声認識クライアントと協働して、図5の中に示されている音声認識サーバの機能は、音声認識エレメントを提供する。加入者ユニットからのデータは、受信パス408を経由して、受信機(RX)502の所に到達する。受信機は、データを復号してから、音声認識データ503を、音声認識クライアントから音声認識分析装置504に向ける。デバイスの状態情報と、デバイスの容量、とバージイン・コンテキストに関する情報の様な、加入者ユニットからの他の情報506は、受信機502により、ローカル制御プロセッサ508に向けられる。一つの実施例の中で、他の情報506は、音声認識エレメント(例えば、音声認識クライアント)の一部が動作した加入者ユニットからの表示を備える。表示を、音声認識サーバの中の音声認識処理を開始させるのに使用することができる。
クライアント−サーバ構成の一部として、音声認識分析装置504は、加入者ユニットから音声認識パラメータ・ベクトルを取り込んでから、認識処理を完了する。認識された単語あるいは発話507は、それから、ローカルの制御プロセッサ508に送られる。パラメータ・ベクトルを認識された発話に転換するのに必要な処理の説明は、1988年の、“自動音声認識:スフィンクス・システム”の中で見ることができ、刊行物の教示事項は、引用でこの明細書の中に組み込まれている。
ローカルの制御プロセッサ508は、音声認識分析装置504と、他の情報508から認識された発話507を受信する。一般的に、この発明には、認識された発話を受信したら直ちに動作し、認識された発話が、制御信号を提供する制御プロセッサが必要である。好ましい実施例の中で、諸制御信号が、使用されて、次の加入者ユニット、あるいは加入者ユニットに接続されている少なくとも1個のデバイスの動作を制御する。この目的のために、ローカルの制御プロセッサを、できれば1個あるいはそれ以上の方法で動作するようになっていることが好ましい。第1に、ローカルの制御プロセッサ508が、アプリケーション・プログラムを実行することができる。一般的なアプリケーションの一つの例は、米国特許5,652,789の中で説明されているとおりの電子アシスタントである。また、アプリケーションを、遠隔操作プロセッサ516上で操作できる。例えば、図1のシステムの中で、遠隔操作プロセッサは、制御エンティティ116を備える。前述の場合、ローカルの制御プロセッサ508は、データ通信網接続線515を経由して、遠隔操作プロセッサ516と通信することで、データを通過させてから受信するゲートウェーとして動作する。データ通信網接続線515を、公衆(例えばインターネット)や、専用通信網(例えば、イントラネット)、あるいは他の一部のデータ通信リンクとすることができる。事実、ローカルの制御プロセッサ508は、ユーザーにより使用されるアプリケーション又はサービスあるいはその双方次第で、データ通信網上に常駐する種々の遠隔操作プロセッサと通信できる。
遠隔操作プロセッサ516あるいはローカルの制御プロセッサ508の何れかを実行させるアプリケーション・プログラムは、認識された発話507あるいは他の情報506あるいはその双方に対する応答を決定する。できれば、応答を、合成されたメッセージあるいは、制御信号あるいはその双方を備えるものとすることができることが好ましい。制御信号513は、ローカルの制御プロセッサ508から、送信機(TX)510に中継される。一般的にテキスト情報に合成される情報514は、ローカルの制御プロセッサ508から、テキストから音声への分析装置512に送られる。テキストから音声への分析装置512は、入力テキスト・ストリングを、パラメータ化された音声表示に転換する。前記に転換を実行するのに適切な技術は、1997年の、Sproat(編集者)の“多言語テキストから音声の合成:ベル社の取り組み”の中に説明されており、刊行物の教示事項は、引用により、この明細書の中に組み込まれている。テキストから音声への分析装置512からのパラメータ化された音声表示511は、必要に応じて多重化する送信機510に、パラメータ化された音声表示511と制御情報513は、送信パス410上で加入者ユニットに提供される。前述で説明されたものと同じ方法で操作して、テキストから音声への分析装置512を使用して、合成されたプロンプトを提供するか、あるいは同様に、加入者ユニットの所での出力音声信号としての役割を果たさせることができる。
ここで、図6を引用して、この発明に係る音声認識サーバの動作を説明するフローチャートが示されている。ステップ601の所で、音声認識サーバは、加入者ユニットからパラメータ化された音声信号を受信する。実用面では、音声認識サーバは、単独の加入者ユニットからのパラメータ化された音声信号を処理する性能を有しており、利用可能な処理と通信資源によってのみ制約される。ステップ602の所で、音声認識サーバは、パラメータ化された音声信号を受信したら、直ちに音声認識分析を実行する。良好な環境を仮定して、音声認識分析は、パラメータ化された信号の中で検出された認識された発話に関する情報を提供する。
インターラプト表示の存在に応答して、音声認識エレメントの部分は、ステップ603の所で動作させられる。前記で説明されているとおり、好ましい実施例の中で、動作により、クライアント−サーバ音声認識及び合成システムのクライアント側の部分は、音声をベースとするコマンドの処理が開始される。更に、ステップ604の所で、インターラプト表示の存在に応答する表示で、音声認識エレメント、とまた特に加入者ユニットの中に常駐している音声認識エレメントの部分が、動作したことをユーザーに表示することができる。表示を、独特で知覚できる刺激とすることができる。前述の方法で、加入者ユニットのユーザーは、音声通信をインターラプトしたい自己の意向が認識されたことを知り、さらに、音声認識エレメントが動作しているとの認識で継続できること知るのである。更に、ステップ604の所で、無線送信のために適切に処理された表示を、音声認識エレメントの一部を形成している音声認識サーバに提供できる。
前記に説明されたこの発明は、音声認識機能をウェークアップしたりあるいは呼び出すための独特の技術を提供する。前述の技術は、例えばウェークアップコマンドの様なインターラプト表示の検出部が、ローカルに加入者ユニットで実行されるので、無線通信環境に対して容易に応用できる。前記で説明されたことは、単にこの発明の原理の応用の例示である。当業者であれば、この発明の精神と範囲を逸脱することなく、他の構成と方法を実行できる。

Claims (22)

  1. インフラと無線で通信する加入者ユニットを動作させる方法であって、該方法は、該インフラを経由して、該加入者ユニットのユーザーと他の者との間で音声通信を提供するためのものであり、該インフラは、音声認識サーバを含み、
    該方法は、
    該インフラを経由して、該加入者ユニットのユーザーと他の者との間で音声通信を行うことと、
    該加入者ユニットに含まれるローカルの音声認識装置を用いて、少なくとも1つの所定の発話に対して該音声通信をローカルにモニターすることと、
    該ローカルの音声認識装置を用いて該少なくとも1つの所定の発話が認識されると、インターラプト表示を提供することと、
    該インターラプト表示に応答して、該音声通信中に、該加入者ユニットに含まれる音声認識エレメントの一部を動作させることにより、音声ベースのコマンドを処理することによりパラメータ化された音声ベクトルにすることを開始することであって、該音声認識エレメントは、該インフラの中に少なくとも部分的に実装されており、該加入者ユニット内に含まれる該音声認識エレメントの該一部は、ローカルにエコー・キャンセルおよび環境処理が実行された音声通信とバックグラウンド・ノイズ・データとを用いて、該音声ベースのコマンドを処理することにより該パラメータ化された音声ベクトルにする、ことと、
    さらなる音声認識処理のために、該加入者ユニットから該音声認識サーバに該パラメータ化された音声ベクトルを無線で送信することと
    を含む、方法。
  2. 前記ローカルにモニターすることは、前記加入者ユニットの一部を形成している入力デバイスを動作させることにより、前記インターラプト表示を提供することをさらに含む、請求項1に記載の方法。
  3. 前記入力デバイスを動作させることは、ボタン、セレクタ、メニューで駆動される入力デバイスのうちの何れかを動作させることを含む、請求項2に記載の方法。
  4. 前記音声認識エレメントの一部が動作したことを示すものを前記ユーザーに提供することをさらに含む、請求項1に記載の方法。
  5. 前記音声認識エレメントの一部が動作したことを示すものを前記音声認識サーバに提供することをさらに含む、請求項1に記載の方法。
  6. インフラと無線で通信する加入者ユニットであって、
    該加入者ユニットは、
    該インフラとの音声通信中に、少なくとも1つの所定の発話を検出し、該少なくとも1つの所定の発話が検出されると、インターラプト表示を提供し、該音声通信に対してエコー・キャンセルおよび環境処理をローカルに実行するローカルの音声認識装置と、
    該インターラプト表示を入力として、該音声通信中に、音声ベースのコマンドを処理することによりパラメータ化された音声ベクトルにするように、該インターラプト表示によって動作させられる音声認識エレメントの一部であって、該音声認識エレメントの該一部は、該パラメータ化された音声ベクトルを生成するために、エコー・キャンセルが実行された音声通信とバックグラウンド・ノイズ・データとを受信し、該音声認識エレメントは、該インフラの中に少なくとも部分的に実装されている、音声認識エレメントの一部と、
    さらなる音声認識処理のために、該パラメータ化された音声ベクトルを該音声認識サーバに送信する無線トランシーバと
    を含む、加入者ユニット。
  7. 前記ローカルの音声認識装置に結合されている入力デバイスをさらに含み、該入力デバイスは、動作したときにインターラプト表示を提供する、請求項6に記載の加入者ユニット。
  8. 前記入力デバイスは、ボタン、セレクタ、メニュー駆動入力デバイスのうちのいずれかを含む、請求項7に記載の加入者ユニット。
  9. 前記音声認識エレメントの前記一部は、音声認識クライアントを含み、該音声認識クライアントと前記インフラの中に実装された音声認識サーバとが、協働して該音声認識エレメントを提供する、請求項6に記載の加入者ユニット。
  10. 前記インターラプト表示に応答して、前記音声認識エレメントの前記一部が動作したことを示す表示装置をさらに含む、請求項6に記載の加入者ユニット。
  11. 前記無線トランシーバは、前記音声認識エレメントの前記一部が動作したことを示すものを前記インフラに送信する、請求項6に記載の加入者ユニット。
  12. インフラと、
    該インフラと無線で通信する少なくとも1つの加入者ユニットと
    を含む無線通信システムであって、
    該少なくとも1つの加入者ユニットのそれぞれは、
    該インフラを経由して、該加入者ユニットと他の者との間での音声通信中に、少なくとも1つの所定の発話を検出し、該少なくとも1つの所定の発話が検出されると、インターラプト表示を提供し、該音声通信に対してエコー・キャンセルおよび環境処理をローカルに実行するローカルの音声認識装置と、
    該インターラプト表示を入力として、該音声通信中に、音声ベースのコマンドを処理することによりパラメータ化された音声ベクトルにすることを開始するように、該インターラプト表示によって動作させられる音声認識クライアントであって、該音声認識クライアントは、該パラメータ化された音声ベクトルを生成するために、エコー・キャンセルが実行された音声通信とバックグラウンド・ノイズ・データとを受信する、音声認識クライアントと、
    さらなる音声認識処理のために、該パラメータ化された音声ベクトルを該音声認識サーバに送信する無線トランシーバと
    を含み、
    該インフラは、該音声認識クライアントと協働して音声認識エレメントを提供する音声認識サーバを含む、無線通信システム。
  13. 少なくとも1つの加入者ユニットは、無線電話を含む、請求項12に記載の無線通信システム。
  14. 少なくとも1つの加入者ユニットは、車両搭載無線通信デバイスを含む、請求項12に記載の無線通信システム。
  15. インフラの一部と音声認識エレメントの一部とを形成する音声認識サーバを動作させる方法であって、該インフラは、少なくとも1つの加入者ユニットと無線で通信し、
    該方法は、
    ラメータ化された音声ベクトルを該少なくとも1つの加入者ユニットから受信することであって、該パラメータ化された音声ベクトルは、ローカルにエコー・キャンセルおよび環境処理が実行された他の者との音声通信とバックグラウンド・ノイズ・データに基づいて生成されたものであり、該パラメータ化された音声ベクトルは、他の者との該音声通信中に該少なくとも1つの加入者ユニットにおいてインターラプト表示をローカルに認識したことに応答して、該少なくとも1つの加入者ユニットの音声認識クライアントによって提供され、該インターラプト表示は、少なくとも1つの所定の発話が検出された場合に、該少なくとも1つの加入者ユニットに含まれるローカルな音声認識装置によって提供される、ことと、
    該音声通信中に、該パラメータ化された音声ベクトルに基づくさらなる音声認識処理を実行することと
    を含む、方法。
  16. 前記音声認識エレメントの一部が動作したことを示すものを前記少なくとも1つの加入者ユニットから受信することと、
    該示すものに基づいて音声認識処理を開始することと
    をさらに含む、請求項15に記載の方法。
  17. 前記インターラプト表示は、前記少なくとも1つの加入者ユニットにおいて、入力デバイスを動作させることによって提供される、請求項15に記載の方法。
  18. 前記インターラプト表示は、前記少なくとも1つの加入者ユニットにおいて、少なくとも1つの所定の発話に対して前記音声通信をローカルにモニターすることによって提供される、請求項15に記載の方法。
  19. 少なくとも1つの加入者ユニットと無線で通信するインフラにおいて用いられる音声認識サーバであって、
    該音声認識サーバは、
    他の者との音声通信中に、該少なくとも1つの加入者ユニットにおいて、インターラプト表示をローカルに認識したことに応答して、該少なくとも1つの加入者ユニットに含まれる音声認識クライアントから受信されたパラメータ化された音声ベクトルを入力として受信する受信機であって、該インターラプト表示は、少なくとも1つの所定の発話が検出された場合に、該少なくとも1つの加入者ユニットに含まれるローカルな音声認識装置によって提供され、該少なくとも1つの加入者ユニットは、該音声通信に対してエコー・キャンセルおよび環境処理をローカルに実行し、受信されたエコー・キャンセルが実行された音声通信とバックグラウンド・ノイズ・データとに基づいて該パラメータ化された音声ベクトルを生成する、受信機と、
    該パラメータ化された音声ベクトルに対するさらなる音声認識処理を実行する音声認識エレメントの一部と
    を含む、音声認識サーバ。
  20. 前記受信機は、前記音声認識エレメントの一部が動作したことを示すものを前記少なくとも1つの加入者ユニットから受信するようにさらに動作し、該示すものが、音声認識処理を開始する、請求項19に記載の音声認識サーバ。
  21. 前記インターラプト表示は、前記少なくとも1つの加入者ユニットにおいて、入力デバイスを動作させることによって提供される、請求項19に記載の音声認識サーバ。
  22. 前記インターラプト表示は、前記少なくとも1つの加入者ユニットにおいて、少なくとも1つの所定の発話に対して前記音声通信をローカルにモニターすることによって提供される、請求項19に記載の音声認識サーバ。
JP2012048111A 1999-10-05 2012-03-05 ローカルなインターラプト検出に基づく音声認識技術 Expired - Lifetime JP5425945B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/412,699 US6963759B1 (en) 1999-10-05 1999-10-05 Speech recognition technique based on local interrupt detection
US09/412,699 1999-10-05

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001529228A Division JP2003511924A (ja) 1999-10-05 2000-10-04 ローカルなインターラプト検出に基づく音声認識技術

Publications (2)

Publication Number Publication Date
JP2012108557A JP2012108557A (ja) 2012-06-07
JP5425945B2 true JP5425945B2 (ja) 2014-02-26

Family

ID=23634085

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001529228A Withdrawn JP2003511924A (ja) 1999-10-05 2000-10-04 ローカルなインターラプト検出に基づく音声認識技術
JP2012048111A Expired - Lifetime JP5425945B2 (ja) 1999-10-05 2012-03-05 ローカルなインターラプト検出に基づく音声認識技術

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2001529228A Withdrawn JP2003511924A (ja) 1999-10-05 2000-10-04 ローカルなインターラプト検出に基づく音声認識技術

Country Status (6)

Country Link
US (1) US6963759B1 (ja)
JP (2) JP2003511924A (ja)
KR (1) KR100742259B1 (ja)
CN (1) CN100433840C (ja)
AU (1) AU2112601A (ja)
WO (1) WO2001026394A1 (ja)

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20010054060A1 (en) * 2000-06-16 2001-12-20 Fillebrown Lisa A. Personal wireless network
US8386557B2 (en) * 2000-06-16 2013-02-26 Enfora, Inc. Method for supporting a personal wireless network
US7233903B2 (en) * 2001-03-26 2007-06-19 International Business Machines Corporation Systems and methods for marking and later identifying barcoded items using speech
US7336602B2 (en) * 2002-01-29 2008-02-26 Intel Corporation Apparatus and method for wireless/wired communications interface
US7369532B2 (en) * 2002-02-26 2008-05-06 Intel Corporation Apparatus and method for an audio channel switching wireless device
US7254708B2 (en) * 2002-03-05 2007-08-07 Intel Corporation Apparatus and method for wireless device set-up and authentication using audio authentication—information
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7197331B2 (en) 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7245951B2 (en) * 2004-03-23 2007-07-17 General Motors Corporation Method and system for telematic data transfer
US7529677B1 (en) * 2005-01-21 2009-05-05 Itt Manufacturing Enterprises, Inc. Methods and apparatus for remotely processing locally generated commands to control a local device
JP2006237735A (ja) * 2005-02-22 2006-09-07 Denso Corp 車両用ナビゲーション装置
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5635522B2 (ja) * 2009-10-09 2014-12-03 パナソニック株式会社 車載装置
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9253304B2 (en) * 2010-12-07 2016-02-02 International Business Machines Corporation Voice communication management
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150063423A (ko) 2012-10-04 2015-06-09 뉘앙스 커뮤니케이션즈, 인코포레이티드 Asr을 위한 개선된 하이브리드 컨트롤러
CN103914344B (zh) * 2013-01-07 2019-05-03 泰为信息科技公司 具有多模式互动机构的计算系统及其操作方法
US9256269B2 (en) * 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
EP2784774A1 (en) * 2013-03-29 2014-10-01 Orange Telephone voice personnal assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
WO2015030474A1 (ko) 2013-08-26 2015-03-05 삼성전자 주식회사 음성 인식을 위한 전자 장치 및 방법
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
US10134395B2 (en) * 2013-09-25 2018-11-20 Amazon Technologies, Inc. In-call virtual assistants
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104197299A (zh) * 2014-08-21 2014-12-10 浙江生辉照明有限公司 照明装置及基于该装置的语音播报系统及方法
US20170286049A1 (en) * 2014-08-27 2017-10-05 Samsung Electronics Co., Ltd. Apparatus and method for recognizing voice commands
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9911415B2 (en) 2014-12-19 2018-03-06 Lenovo (Singapore) Pte. Ltd. Executing a voice command during voice input
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US20160349894A1 (en) * 2015-05-27 2016-12-01 Remote Media, Llc Touchscreen Method and System for Sharing Multimedia Content
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10504511B2 (en) 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
JP2019066702A (ja) 2017-10-02 2019-04-25 東芝映像ソリューション株式会社 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法
JP2020052145A (ja) * 2018-09-25 2020-04-02 トヨタ自動車株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
CN109887490A (zh) * 2019-03-06 2019-06-14 百度国际科技(深圳)有限公司 用于识别语音的方法和装置
CN110910886B (zh) * 2019-12-17 2022-09-20 广州三星通信技术研究有限公司 人机交互方法及装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63138841A (ja) * 1986-12-01 1988-06-10 Hitachi Ltd 入力装置
US4914692A (en) 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
JP3003037B2 (ja) * 1989-03-29 2000-01-24 アイシン精機株式会社 音声入力装置
JPH03108852A (ja) * 1989-09-21 1991-05-09 Japan Steel Works Ltd:The 人声認識音声確認携帯電話機
JPH03159449A (ja) * 1989-11-17 1991-07-09 Nippon Telegr & Teleph Corp <Ntt> 番号認識発信端末
US5155760A (en) 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
US5475791A (en) 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5758317A (en) 1993-10-04 1998-05-26 Motorola, Inc. Method for voice-based affiliation of an operator identification code to a communication unit
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
JPH0823369A (ja) * 1994-07-08 1996-01-23 Nakayo Telecommun Inc 音声操作電話装置およびその音声による操作指示受付方法
US5652789A (en) 1994-09-30 1997-07-29 Wildfire Communications, Inc. Network based knowledgeable assistant
JPH08147310A (ja) * 1994-11-25 1996-06-07 Nippon Telegr & Teleph Corp <Ntt> 要求予測型情報提供サービス装置
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
JP2929959B2 (ja) * 1995-02-17 1999-08-03 日本電気株式会社 音声入力ネットワークサービスシステム
US5708704A (en) 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
JPH096800A (ja) * 1995-06-19 1997-01-10 Toyota Motor Corp 電話番号案内を利用した地点データ検索システム
JP3550855B2 (ja) * 1996-02-16 2004-08-04 日産自動車株式会社 ナビゲーション装置
US5765130A (en) 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
JPH11205430A (ja) * 1998-01-20 1999-07-30 Kobe Steel Ltd 音声ダイアル機能付き電話機
JPH11252281A (ja) * 1998-02-27 1999-09-17 Matsushita Electric Ind Co Ltd 電話端末装置
JPH11261683A (ja) * 1998-03-10 1999-09-24 Nec Saitama Ltd 電話装置、プログラムを記録した記録媒体及びデータを記録した記録媒体
US6240303B1 (en) * 1998-04-23 2001-05-29 Motorola Inc. Voice recognition button for mobile telephones
US6212408B1 (en) * 1999-05-03 2001-04-03 Innovative Global Solution, Inc. Voice command system and method
US6493670B1 (en) * 1999-10-14 2002-12-10 Ericsson Inc. Method and apparatus for transmitting DTMF signals employing local speech recognition

Also Published As

Publication number Publication date
CN1408182A (zh) 2003-04-02
JP2003511924A (ja) 2003-03-25
AU2112601A (en) 2001-05-10
US6963759B1 (en) 2005-11-08
KR100742259B1 (ko) 2007-07-26
CN100433840C (zh) 2008-11-12
WO2001026394A9 (en) 2002-08-01
WO2001026394A1 (en) 2001-04-12
KR20020071851A (ko) 2002-09-13
JP2012108557A (ja) 2012-06-07

Similar Documents

Publication Publication Date Title
JP5425945B2 (ja) ローカルなインターラプト検出に基づく音声認識技術
JP4212809B2 (ja) 音声認識に基づく情報信号の供給する方法および装置
JP5306503B2 (ja) 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置
US6424945B1 (en) Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
US20020173333A1 (en) Method and apparatus for processing barge-in requests
JP2007529916A (ja) コンピュータでの音声通信
US20090204409A1 (en) Voice Interface and Search for Electronic Devices including Bluetooth Headsets and Remote Systems
WO2001078443A2 (en) Earset communication system
US20050272415A1 (en) System and method for wireless audio communication with a computer
US20210227355A1 (en) System and Method for Data Analytics for Communications in Walkie-Talkie Network
JP2002237877A (ja) ハンズフリーシステム、携帯電話およびハンズフリー装置
JP2005222410A (ja) 車載用ハンドフリーメール装置
JP2003046647A (ja) 通話中継システム、通話中継方法、通話中継プログラム及びそれを記録した記録媒体
JP2003008745A (ja) 音声補完方法及び音声補完装置ならびに電話端末装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130308

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130313

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130913

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131127

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5425945

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250