JP2018060207A - デジタル化された音声ストリームを分析するための低電力集積回路 - Google Patents

デジタル化された音声ストリームを分析するための低電力集積回路 Download PDF

Info

Publication number
JP2018060207A
JP2018060207A JP2017215607A JP2017215607A JP2018060207A JP 2018060207 A JP2018060207 A JP 2018060207A JP 2017215607 A JP2017215607 A JP 2017215607A JP 2017215607 A JP2017215607 A JP 2017215607A JP 2018060207 A JP2018060207 A JP 2018060207A
Authority
JP
Japan
Prior art keywords
audio stream
digitized audio
computing device
processor
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017215607A
Other languages
English (en)
Other versions
JP6833659B2 (ja
Inventor
エリック・リウ
Liu Eric
ステファン・ジェイ・マーティ
J Marti Stefan
スン・ウォク・キム
Seung Wook Kim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority to JP2017215607A priority Critical patent/JP6833659B2/ja
Publication of JP2018060207A publication Critical patent/JP2018060207A/ja
Application granted granted Critical
Publication of JP6833659B2 publication Critical patent/JP6833659B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Power Sources (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声ストリームを受信し、デジタル化するための低電力集積回路を提供する。
【解決手段】低電力集積回路において、音声ストリームを受信することと、音声ストリームをデジタル化すること、キーワードを認識するために、デジタル化された音声ストリームを分析することと、を含む。デジタル化された音声ストリーム内にキーワードが認識されると、集積回路は、電力を増大させるようプロセッサに信号を送る。プロセッサへの電力が増大すると、デジタル化された音声ストリームが検索されて、応答が決定される。
【効果】これは、ユーザが特定の音声処理アプリケーションを起動するために消費する時間の長さを減じ、ユーザの話声の反復を防止する。検索された音声ストリームから応答を決定することは、ユーザが、コンピューティングデバイスに話声分析を実行させるための追加の明示的な命令を提供することを防止する。
【選択図】図3

Description

コンピューティングデバイスは、音声命令(audio instructions)を処理し、応答を提供することによって、ユーザに対する高度化を増している。ユーザは、これらのコンピューティングデバイスを制御するために使用され得る音声命令を読み上げ得る。たとえば、ユーザは、特定の場所への道程を提供するようにとの命令といった情報を提供するために、コンピューティングデバイスに話し得る。
添付図面において、同一の参照番号は、同一のコンポーネントまたはブロックを指す。以下の詳細な説明は、図面を参照する。
図1は、音声ストリームを分析するための低電力集積回路と、集積回路によるキーワードの検出に応答してデジタル化された音声ストリームを分析するためのプロセッサと、を含む例示的なコンピューティングデバイスのブロック図である。 図2は、音声ストリームを分析し、キーワードが音声ストリーム中に検出された場合に電力を増大させるようプロセッサに信号を送信するための、例示的な低電力集積回路のブロック図である。 図3は、デジタル化された音声ストリームを分析するための例示的なコンピューティングデバイスと、デジタル化された音声ストリームから発生させたテキストストリームを分析するためにコンピューティングデバイスと通信するサーバと、のブロック図である。 図4は、音声ストリームを受信し、応答を決定するために、コンピューティングデバイスで実行される例示的な方法のフローチャートである。 図5は、デジタル化された音声ストリームを圧縮し、応答を差し出すために、コンピューティングデバイスで実行される例示的な方法のフローチャートである。
詳細な説明
音声情報処理において、ユーザは典型的に、ボタンを押すことおよび/または命令を読み上げることにより、音声を処理するためのアプリケーションをアクティブにする。音声処理アプリケーションを起動すると、ユーザは加えて、彼らがコンピューティングデバイスに実行を所望するであろう明示的な命令を読み上げる必要がある。したがって、ユーザからの話声命令を処理することは、時間を要し、反復的であり得る。加えて、ユーザからの命令を絶えず監視することは、多くの電力を消費し、バッテリーを消耗する。
これらの問題に対処するために、本明細書に開示される例示的な実施形態は、低電力集積回路を使用して音声ストリーム(audio stream)(たとえば、ユーザの話声)中のキーワードの出現を絶えず監視しながら、ユーザの話声のより徹底した分析についてはプロセッサに依拠する。たとえば、本明細書に開示されるさまざまな例は、低電力集積回路において音声ストリームを受信することと、音声ストリームをデジタル化することと、キーワードを認識するためにデジタル化された音声ストリームを分析することと、を提供する。デジタル化された音声ストリーム内にキーワードが認識されると、集積回路は、電力を増大させるようプロセッサに信号を送る。プロセッサへの電力が増大すると、デジタル化された音声ストリームが検索されて、応答が決定される。これは、ユーザが特定の音声処理アプリケーションを起動するために消費する時間の長さを減じ、ユーザの話声の反復を防止する。検索された音声ストリームから応答を決定することは、ユーザが、コンピューティングデバイスに話声分析を実行させるための追加の明示的な命令を提供することを防止する。
加えて、本明細書に開示されるさまざまな例では、プロセッサへの電力が増大すると、プロセッサは、メモリからデジタル化された音声ストリームを検索し、デジタル化された音声ストリームをテキストストリームに変換する。テキストストリームへの変換後、プロセッサは、テキストストリーム内のテキストに基づいて応答を決定する。テキストストリームから応答を決定することは、コンピューティングデバイスのユーザがコンピューティングデバイスに命令するための時間を減じる。加えてさらに、プロセッサは、音声ストリームのコンテキストに基づいて、適切な応答を決定し得る。さらに、コンピューティングデバイスは、ユーザへの応答を履行するためにどのアプリケーションが実行される必要があるかを決定する。さらにまた、デジタル化された音声ストリーム内にキーワードが認識されるとプロセッサへの電力が増大することにより、コンピューティングデバイスは、より少ない電力を消費しながら、ユーザの話声を聞く。
一実施形態において、コンピューティングデバイスはまた、サーバからまたはプロセッサから応答を受信することによって応答を決定し得る。さらなる実施形態において、メモリは、所定の時間期間にわたる記憶されたデジタル化された音声ストリームを維持する。この実施形態では、プロセッサは、時間増分(time increments)でデジタル化された音声ストリームを検索し得る。たとえば、プロセッサは、完全なデジタル化された音声ストリームを検索し得るか、または、より短い時間間隔のデジタル化された音声ストリームを検索し得る。デジタル化された音声ストリームの検索は、音声ストリームのコンテキストを分析して適切な応答を決定することをプロセッサに可能にさせる。
このように、本明細書に開示される例示的な実施形態は、コンピューティングデバイスが音声ストリームのコンテキストに基づいて適切な応答を決定するがゆえにコンピューティングデバイスへの反復する音声命令が防止されることにより、ユーザの時間を節約する。さらに、コンピューティングデバイスは、より少ない電力を消費しながら、音声ストリームを受信および処理する。
ここで図面を参照すると、図1は、音声ストリーム102を受信するための低電力集積回路104と、音声ストリームをデジタル化してメモリ112にデジタル化された音声ストリーム114を提供するためのデジタル化モジュール106と、を含む例示的なコンピューティングデバイス100のブロック図である。さらに、低電力集積回路104は、デジタル化された音声ストリーム114をキーワードと比較し、キーワードの認識に基づいて、電力122を増大させるようプロセッサ118に信号116を送信するための、キーワード比較モジュール108を含む。さらにまた、プロセッサは、デジタル化された音声ストリーム114を分析するための分析モジュール120を含む。コンピューティングデバイス100の実施形態は、コンポーネント104、112、および118を含むのに適した、クライアントデバイス、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップ、モバイルデバイス、または他のコンピューティングデバイスを含む。
音声ストリーム102が、コンピューティングデバイス100、特に、低電力集積回路104によって受信される。音声ストリーム102は、デジタル化された音声ストリーム114を提供するためにデジタル化106される入力アナログ信号である。音声ストリーム102の実施形態は、ユーザからの話声または別のコンピューティングデバイスからの音声を含む。たとえば、音声ストリーム102を受信するいくつかのコンピューティングデバイス300が存在し得、それらは混乱をきたし得る。したがって、コンピューティングデバイスは、音声ストリーム102を受信するための中央ポイントとして1つのデバイスを指定し得る。この実施形態において、低電力集積回路104は、1つ以上のコンピューティングデバイスの中央ユニットであり得るアドホックネットワークの一部として動作する。
たとえば、ユーザが、ニューヨークからカリフォルニア州のロサンゼルスまでの最短ルートを別の人と話し合い得る。この例において、音声ストリームは、ニューヨークからロサンゼルスまでの最短ルートの話し合いであろう。さらなる実施形態では、音声ストリーム102は、所定の時間期間にわたる音声を含み得る。たとえば、音声ストリーム102は、低電力集積回路104によって受信された場合に数秒または数分を含み得る。この例において、低電力集積回路104は、音声ストリーム102を他の音声ストリーム102から区別し得る。
低電力集積回路104は、音声ストリーム102をデジタル化するためのモジュール106と、デジタル化された音声ストリーム114をキーワードと比較するためのモジュール108と、を含む。低電力集積回路104は、他の電子コンポーネント間の相互接続を形成する材料の表面上にパターン化されたトレース素子を有する電子回路である。たとえば、低電力集積回路104は、プロセッサ118とメモリ112との間の接続を形成する。低電力集積回路104の実施形態は、音声ストリーム102を受信し、信号116を送信することができる、マイクロチップ、チップセット、電子回路、チップ、マイクロプロセッサ、半導体、マイクロコントローラ、または他の電子回路を含む。低電力集積回路104は、音声ストリーム102を絶えず監視し、デジタル化モジュール106を利用して音声ストリームをデジタル化し、デジタル化された音声ストリームをメモリ112に記憶することができる。したがって、低電力集積回路104のさらなる実施形態は、送信機、受信機、マイクロフォン、または、音声ストリーム102を受信するための他の適切なコンポーネントを含む。
音声ストリームがモジュール106でデジタル化されて、デジタル化された音声ストリーム114が提供される。デジタル化モジュール106は、音声ストリームを離散時間信号表現に変換する。デジタル化モジュール106の実施形態は、低電力集積回路104と共に動作する、アナログデジタルコンバータ(ADC)、デジタル変換デバイス、命令、ファームウェア、および/またはソフトウェアを含む。たとえば、デジタル化モジュール106は、入力アナログ電圧をアナログ信号の大きさに比例したデジタル数に変換するための電子デバイスを含み得る。
音声ストリーム102がモジュール106でデジタル化されると、それは、モジュール108でキーワードと比較される。音声ストリーム102およびモジュール108で、それは、電力122を増大させ、デジタル化された音声ストリーム114を取得してモジュール120で分析するよう、プロセッサ118にシグナリング116するためのインジケーションとして動作する、キーワードに対して比較される。108の実施形態は、命令、処理、動作、論理、アルゴリズム、技法、論理関数、ファームウェア、および/またはソフトウェアを含む。キーワードが認識されると、低電力集積回路104は、プロセッサ118に電力122を増大させるよう信号116を送信する。
キーワードの実施形態は、モジュール108で比較するための、デジタル信号、アナログ信号、パターン、データベース、コマンド、指示、命令、または他の表現を含む。たとえば、コンピューティングデバイスのユーザが、小エビとクルマエビの違いを友人と話し合い、その後、ウェブ検索を実行して答えを特定することを所望し得る。したがって、ユーザは、キーワード比較モジュール108によるキーワードの認識と分析モジュール120による先の話し合いのその後の分析とをトリガするための、所定のキーワードを表明し得る。
キーワードは、たとえば、フレーズ、単一のキーワード、またはコンピューティングデバイスのユーザにとって私的な単一のキーワードを含み得る。先の例を踏まえると、キーワードは、「コンピュータ、何だと思いますか?」というフレーズであり得る。この例において、このフレーズは、このフレーズの前または後に音声を含み得るデジタル化された音声ストリーム114を取得するようプロセッサ118に信号116を送ることを、低電力集積回路104にさせる。したがって、プロセッサ118がデジタル化された音声ストリーム114を分析して適切な応答のために音声ストリーム102のコンテキストを決定するので、ユーザは、命令を繰り返す必要がない。また、さらなる例において、単一のキーワードは、「ジャジャーン(Shazam)」を含み得る。したがって、特定の例として、ユーザが「ジャジャーン」という単語を話すと、回路104は、キーワードを検出し、デジタル化された音声ストリーム114を取得してこのストリームをテキストストリームに変換するようプロセッサ118に命令するための信号116を送信し得る。テキストストリームがユーザの母親へのテキストメッセージを作成するようにとの命令であると仮定すると、適切な応答は、テキストメッセージを作成することであろう。したがって、上述したように、所定のキーワード(単数または複数)を使用して、低電力集積回路104は、コンピューティングデバイスのユーザが道程またはウェブ検索の実行といったさらなる応答を完了する必要がある場合を認識する。
モジュール108のさらなる実施形態において、キーワードがデジタル化された音声ストリーム114内に認識されない場合、低電力集積回路104は、モジュール106でデジタル化され、メモリ112に記憶された、別の音声ストリーム102を監視し続ける。さらなる別の実施形態において、低電力集積回路104は、デジタル化された音声ストリーム114を圧縮し、この圧縮されたデジタル化された音声ストリームは、それをモジュール108でキーワードと比較することによってキーワードを認識するために使用される。
メモリ112は、デジタル化された音声ストリーム114を記憶および/または維持する。メモリ112の実施形態は、デジタル化された音声ストリーム114を記憶および/または維持することができる、メモリバッファ、キャッシュ、不揮発性メモリ、揮発性メモリ、ランダムアクセスメモリ(RAM)、電気的に消去可能なプログラム可能な読み出し専用メモリ(EEPROM(登録商標))、ストレージドライブ、コンパクトディスク読み出し専用メモリ(CDDROM)、または他のメモリを含み得る。
デジタル化された音声ストリーム114は、メモリ112に記憶される。実施形態は、低電力集積回路104が、デジタル化モジュール106の後に音声ストリーム102を圧縮して、メモリ112における配置の前に、圧縮されたデジタル化された音声ストリームを取得することを含み得る。図1はメモリ112に記憶されたデジタル化された音声ストリーム114を示しているが、デジタル化された音声ストリームはまた、低電力集積回路104上のメモリに記憶されることもできる。さらなる実施形態において、デジタル化された音声ストリーム114は、所定の長さの時間の音声ストリーム102を含む。この実施形態において、音声ストリーム102が、数秒または数分といった所定の時間期間にわたって受信されると、この所定の時間期間の音声ストリーム102は、デジタル化され、プロセッサ118が取得および/または検索するためにメモリ112に記憶される。さらにこの実施形態では、別の音声ストリーム102が低電力集積回路104によって受信され、デジタル化された場合、メモリにおける前のデジタル化された音声ストリームは、より現在に近いデジタル化された音声ストリーム114と置き換えられる。したがって、プロセッサ118は、最も現在に近い音声ストリーム102を取得および/または検索する。この実施形態において、メモリは、最も現在に近い音声ストリーム102を提供するための先入先出バッファとして動作する。
信号116は、デジタル化された音声ストリーム114内にキーワードが認識されると、低電力集積回路104からプロセッサ118に送信される。信号116は、電力122を増大させ、メモリ112からのデジタル化された音声ストリーム114を分析するよう、プロセッサ118に命令する。信号116の実施形態は、電力122を増大させるためのプロセッサ118への通信、送信、電気信号、命令、デジタル信号、アナログ信号、または他のタイプの通信を含む。信号116のさらなる実施形態は、デジタル化された音声ストリーム114内にキーワードが認識されるとプロセッサ118に送信される割り込みを含む。
プロセッサ118は、電力122を増大させ、デジタル化された音声ストリーム114を取得してモジュール120で分析するようにとの信号116を受信する。プロセッサ118の実施形態は、デジタル化された音声ストリーム114を分析120するのに適した中央処理ユニット(CPU)、視覚処理ユニット(VPU)、マイクロプロセッサ、グラフィックスプロセッシングユニット(GPU)、または他のプログラム可能なデバイスを含み得る。
プロセッサ118がメモリ112からデジタル化された音声ストリーム114を取得すると、プロセッサは、モジュール120でデジタル化された音声ストリーム114を分析する。分析モジュール120の実施形態は、プロセッサ118が、フェッチ、復号、および/または実行し得る、命令、処理、動作、論理、アルゴリズム、技法、論理関数、ファームウェア、および/またはソフトウェアを含む。モジュール120の追加の実施形態は、デジタル化された音声ストリーム114をテキストストリームに変換して、音声ストリーム102のコンテキストに基づいて適切な応答を決定することを含む。モジュール120のさらなる実施形態は、後の図面において見られるように、コンピューティングデバイス100のユーザに差し出すための応答を決定することを含む。
電力122は、プロセッサ118に電位の形態で電気エネルギーを供給する。特に、電力122は、低電力集積回路104から信号116が受信されると、プロセッサ118への電気エネルギーを増大させる。プロセッサ118への電力122を増大させることは、デジタル化された音声ストリーム114を取得するよう、プロセッサ118をウェイクまたはトリガする。電力122の実施形態は、プロセッサ118に電力122を与えることができる、電源、電力管理デバイス、バッテリー、エネルギーストレージ、電気機械システム、ソーラーパワー、電源プラグ、または他のデバイスを含む。さらなる実施形態において、電力122は、コンピューティングデバイス100に電気エネルギーを供給する。
ここで図2を参照すると、音声ストリーム202を分析し、キーワードが音声ストリーム202中に検出された場合に電力を増大させるようプロセッサに信号216を送信するための、例示的な低電力集積回路204のブロック図である。低電力集積回路204は、デジタル化回路素子206を使用してデジタル化された音声ストリーム214を生成するための回路素子210を含み、比較回路素子208によってキーワードを検出し、デジタル化された音声ストリーム214中にキーワードを認識すると、信号216を送信する。
音声ストリーム202が、低電力集積回路204によって受信される。音声ストリーム202は、図1の音声ストリーム102と構造が同様であり得る。
低電力集積回路204は、音声ストリーム202をデジタル化し、デジタル化された音声ストリーム214をキーワードと比較するための回路素子210を含む。低電力集積回路204は、図1における上述した低電力集積回路104と機能および構造が同様であり得る。
回路素子210は、デジタル化回路素子206および比較回路素子208を含む。回路素子210の実施形態は、音声ストリーム102をデジタル化し、デジタル化された音声ストリーム214をキーワードと比較することができる、論理、アナログ回路素子、電子回路素子、デジタル回路素子、または他の回路素子を含む。さらなる実施形態において、回路素子は、回路素子206および208をフェッチ、復号、およびまたは実行するために、低電力集積回路204と独立しておよび/または共に利用され得る、アプリケーションおよび/またはファームウェアを含む。
音声ストリーム202が、回路素子206によって受信され、デジタル化されて、デジタル化された音声ストリーム214が生成される。デジタル化回路素子206は、音声ストリーム202のための変換のタイプである。さらに、デジタル化回路素子206は、図1に関連して説明されたデジタル化モジュール106と機能が同様であり得る。
低電力集積回路204は、音声ストリーム202を受信して回路素子206でデジタル化し、デジタル化された音声ストリーム214を生成する。デジタル化された音声ストリーム214は、図1に関連して説明されたデジタル化された音声ストリーム114と構造が同様であり得る。さらに、図2は、低電力集積回路204の外側にデジタル化された音声ストリーム214を示しているが、デジタル化された音声ストリーム214はまた、低電力集積回路204内に位置することもできる。低電力集積回路204内に位置するデジタル化された音声ストリーム214は、キーワードとの比較のために回路素子208で使用される。別の実施形態において、デジタル化された音声ストリーム214は、メモリにおいて記憶および/または維持される。
低電力集積回路204の回路素子210に含まれる回路素子208は、デジタル化された音声ストリーム214をキーワードと比較する。さらに、208は、デジタル化された音声ストリーム214内にキーワードを認識して、プロセッサに電力を増大させるための信号216を送信するために使用される。比較回路素子208は、図1に関連して説明されたモジュール108と機能が同様であり得る。
信号216は、比較回路素子208によりデジタル化された音声ストリーム214内にキーワードが認識されると、電力を増大させるようデバイスに命令する。信号216は、図1の信号116と構造および機能が同様であり得る。信号216の実施形態は、電力を増大させ、メモリからのデジタル化された音声ストリーム214を分析するよう、プロセッサに命令することを含む。この実施形態において、信号216は、デジタル化された音声ストリーム214を取得して分析し、回路素子208でのキーワード認識に基づいて応答を決定するよう、プロセッサに命令する。
図3は、デジタル化された音声ストリーム314を分析するための例示的なコンピューティングデバイス300と、デジタル化された音声ストリーム314から発生させたテキストストリーム324を分析するためにコンピューティングデバイス300と通信するサーバ326と、のブロック図である。コンピューティングデバイス300は、低電力集積回路304、メモリ312、プロセッサ318、出力デバイス328、およびサーバ326を含む。特に、図3は、出力デバイス324でコンピューティングデバイスのユーザに応答を差し出すためにサーバ326またはプロセッサ318によって処理されるテキストストリーム324を示す。コンピューティングデバイス300は、図1に関連して説明されたコンピューティングデバイス100と構造および機能が同様であり得る。
音声ストリーム302が、コンピューティングデバイス300、特に、低電力集積回路304によって受信される。音声ストリーム302は、図1および図2におけるそれぞれの音声ストリーム102および202と、構造が同様であり得る。
低電力集積回路304は、デジタル化モジュール306および分析モジュール308を含む。一実施形態において、低電力集積回路304は、モジュール306および308を備えるための回路素子を含む。低電力集積回路304は、図1および図2に関連してそれぞれ説明された低電力集積回路104および204と構造および機能が同様であり得る。
音声ストリーム302は、コンピューティングデバイス300によって受信されると、デジタル化306されて、デジタル化された音声ストリーム314が生成される。デジタル化モジュール306は、図1および図2におけるそれぞれのデジタル化モジュール106およびデジタル化回路素子206と構造および機能が同様であり得る。さらなる実施形態において、音声ストリーム302がモジュール306でデジタル化されると、低電力集積回路304は、デジタル化された音声ストリーム314を、記憶および/または維持のためにメモリ312に送信する。
音声ストリーム314がデジタル化されると、低電力集積回路は、モジュール308でデジタル化された音声ストリーム314を分析する。一実施形態において、モジュール308は、キーワードをデジタル化された音声ストリーム114と比較する。この実施形態において、308は、図1における上述した比較モジュール108の機能を含む。
メモリ312は、低電力集積回路304からのデジタル化された音声ストリーム314を記憶する。一実施形態において、メモリ312は、所定の時間期間中に受信されたデジタル化された音声ストリーム314を維持する。たとえば、音声ストリーム302は、数秒の所定の時間にわたって監視されることができ、したがって、この数秒の音声ストリーム302は、モジュール306でデジタル化され、メモリ312に送られる。この例において、メモリ312は、信号316を受信すると分析のためにプロセッサ318によって検索および/または取得されるように、数秒のデジタル化された音声ストリーム314を記憶する。また、この例において、数秒の別の音声ストリーム302が受信され、デジタル化された場合、この別のデジタル化された音声ストリーム314は、前のデジタル化された音声ストリーム314と置き換わる。これは、最新の音声ストリーム302をプロセッサ318による取得および/または検索のために維持することをメモリ312に可能にさせる。メモリ312は、図1に関連して説明されたメモリ112と構造および機能が同様であり得る。
音声ストリーム302がデジタル化され306、デジタル化された音声ストリーム314が生成される。デジタル化された音声ストリーム314は、メモリ312に記憶および/または維持される。実施形態において、プロセッサ318は、信号316を受信すると、デジタル化された音声ストリーム314を取得してモジュール320で分析する。デジタル化された音声ストリーム314は、図1および図2に関連してそれぞれ説明されたデジタル化された音声ストリーム114および214と構造および機能が同様であり得る。
信号316は、低電力集積回路304からプロセッサ316への、電力322を増大させるための送信である。信号316の実施形態において、デジタル化された音声ストリーム314を取得してモジュール320で分析するようプロセッサ316に追加で命令する。信号316は、図1および図2に関連してそれぞれ説明された信号116および216と構造および機能が同様であり得る。
電力322は、プロセッサ318および/またはコンピューティングデバイス300に電気エネルギーを供給する。電力322は、図1に関連して説明された電力122と構造および機能が同様であり得る。
プロセッサ318は、分析モジュール320およびテキストストリーム324を含む。特に、プロセッサ318は、電力322を増大させるための信号316を受信する。この信号316を受信すると、プロセッサ318は、デジタル化された音声ストリーム314を取得してモジュール320で分析する。さらなる実施形態において、プロセッサ318は、デジタル化された音声ストリーム314をテキストストリーム324に変換する。この実施形態において、テキストストリーム324内のテキストは、コンピューティングデバイス300のための応答を命じる。テキストストリームは、アルファベット、数字のセット、または英数字のセットからの、シンボルまたは表現の有限のシーケンスのストリングである。たとえば、デジタル化された音声ストリーム314は、二進言語(binary language)におけるものであり得るので、プロセッサは、二進表現のバイトを単語に翻訳する。さらなる例において、デジタル化された音声ストリーム314は、単語および/または数を表す言語におけるものであり得るので、プロセッサ318は、この言語をプロセッサ318が理解するテキストに翻訳する。応答の実施形態は、ウェブ検索を実行すること、電話番号をダイヤルすること、アプリケーションを開くこと、テキストを記録すること、メディアをストリーミングすること、テキストメッセージを作成すること、道程を一覧表示すること、または道程を話すことを含む。さらなる実施形態において、プロセッサ318は、コンピューティングデバイス300のユーザに差し出すための応答を決定する。プロセッサ318は、図1に関連して説明されたプロセッサ118と構造および機能が同様であり得る。
プロセッサ318は、モジュール320で記憶されたデジタル化された音声ストリーム314を分析する。分析モジュール320の実施形態は、メモリ314から取得されたデジタル化された音声ストリーム314をサーバ326に送信することを含む。モジュール320の他の実施形態は、メモリ312から取得されたデジタル化された音声ストリーム314をテキストストリーム324に変換することと、テキストストリーム324をサーバ326に送信することとを含む。モジュール320の他の実施形態は、音声ストリーム302のコンテキストを分析することによって適切な応答を決定するために、デジタル化された音声ストリーム314をテキストストリーム324に変換することを含む。たとえば、デジタル化された音声ストリーム314は、モジュール320でテキストストリーム324に変換されることができ、プロセッサ318は、音声ストリーム302のコンテキストに基づいて適切な応答を決定するためにテキストストリーム324内のテキストを分析するために自然言語処理を利用し得る。
テキストストリーム324は、コンピューティングデバイス300のための適切な応答を決定するためのテキストを含む。一実施形態において、テキストストリーム324は、出力デバイス328でコンピューティングデバイス300のユーザに差し出すための適切な応答を決定するためにプロセッサによって処理される。別の実施形態において、テキストストリーム324は、コンピューティングデバイス300に送信される適切な応答を決定するためにサーバ326によって処理される。この実施形態において、応答は、サーバ326からコンピューティングデバイス300に送られる。さらなる実施形態において、コンピューティングデバイス300は、コンピューティングデバイス300のユーザに応答を差し出す。たとえば、テキストストリーム324は、母親にテキストメッセージを送ることを話し合うテキストを含み得る。したがって、テキストストリーム324内のテキストは、コンピューティングデバイス300のために、母親へのテキストメッセージを作成することによって応答するよう命じる。
サーバ326は、ネットワークにわたってサービスを提供し、テキストストリーム324を処理してコンピューティングデバイス300に応答を送信するのに適した、たとえば、ウェブサーバ、ネットワークサーバ、ローカルエリアネットワーク(LAN)サーバ、ファイルサーバ、または任意の他のコンピューティングデバイスを含み得る。
出力デバイス328は、コンピューティングデバイス300のユーザにテキストストリーム324内のテキストから決定された応答を差し出す。出力デバイス328の実施形態は、コンピューティングデバイス300のユーザに応答を差し出すための、表示デバイス、スクリーン、またはスピーカーを含む。母親へのテキストメッセージの例を踏まえると、コンピューティングデバイス300のユーザは、母親へのテキストメッセージが作成されているのを示すディスプレイ、および/または、テキストメッセージをユーザに通信するためのスピーカーを有し得る。
ここで図4を見てみると、音声ストリームを受信し、応答を決定するためにコンピューティングデバイスで実行される例示的な方法のフローチャートである。図4は、図1におけるようなコンピューティングデバイス100で実行されるものとして説明されるが、それはまた、当業者に理解されるように、他の適切なコンポーネントで実行されることもできる。たとえば、図4は、メモリ112のような機械可読記憶媒体における実行可能な命令の形態で実現され得る。
動作402で、低電力集積回路と共に動作するコンピューティングデバイスが、音声ストリームを受信する。一実施形態において、音声ストリームは、所定の長さの時間のものであり得る。たとえば、音声ストリームは、数秒または数ミリ秒であり得る。この実施形態において、コンピューティングデバイスは、絶えず音声を監視し得る。さらなる実施形態において、音声ストリームは、ユーザからの話声または他のコンピューティングデバイスからの音声の少なくとも1つを含む。
動作404で、コンピューティングデバイスと共に動作する低電力集積回路は、動作402で受信された音声ストリームをデジタル化して、デジタル化された音声ストリームを生成する。動作404の実施形態は、低電力集積回路と共に動作する、アナログデジタルコンバータ(ADC)、デジタル変換デバイス、命令、ファームウェア、および/またはソフトウェアの使用を含む。動作404の実施形態は、デジタル化された音声ストリームをメモリに送信することを含む。404のさらなる実施形態が動作402で受信された音声ストリームを圧縮することを含む一方で、404の別の実施形態は、デジタル化された音声ストリームを圧縮することを含む。
動作406で、動作404で生成されたデジタル化された音声ストリームが、メモリに記憶される。動作406の実施形態は、メモリがデジタル化された音声ストリームを記憶および/または維持することを含む。動作406の別の実施形態において、動作402で所定の長さの時間中に受信された音声ストリームが動作404でデジタル化され、たとえば、別の音声ストリームが、動作402で受信され、動作404でデジタル化された場合、この現在のデジタル化された音声ストリームが、前のデジタル化された音声ストリームと置き換わる。この実施形態において、メモリは、現在の時間より前の所定の時間期間中に受信された記憶されたデジタル化された音声ストリームを維持する。
動作408で、低電力集積回路は、動作404で生成されたデジタル化された音声ストリームを分析する。動作408の実施形態が、デジタル化された音声ストリームを処理することを含む一方で、他の実施形態は、デジタル化された音声ストリームをキーワードと比較することを含む。動作408のこれらの実施形態において、低電力集積回路は、キーワードについてデジタル化された音声ストリームを処理する。デジタル化された音声ストリーム内にキーワードが認識されると、方法は、信号を送信するための動作410へと移行する。さらなる実施形態において、低電力集積回路がデジタル化された音声ストリーム内にキーワードを認識しない場合、方法は、動作402へと戻る。さらに、さらなる実施形態において、デジタル化された音声ストリームを、コンピューティングデバイスのユーザがコンピューティングデバイスによる応答を所望することを示すアナログまたはデジタルの表現と比較することを含む。さらなる実施形態ではまた、動作402、404、406、および408は、並行して行われる。たとえば、コンピューティングデバイスが408でデジタル化された音声ストリームを分析するときに、集積回路は、動作402で音声ストリームを受信し、動作404および406で音声ストリームをデジタル化し、記憶し続ける。
動作410で、低電力集積回路は、電力を増大させるようプロセッサに信号を送信する。特に、デジタル化された音声ストリーム内にキーワードが認識されると、低電力集積回路は、電力を増大させるようプロセッサに信号を送信する。動作410の実施形態において、プロセッサは、プロセッサおよび/またはコンピューティングデバイスに与えられる電力または電気エネルギーを増大させる。
動作412で、プロセッサは、メモリから動作406で記憶されたデジタル化された音声ストリームを取得する。動作412の一実施形態では、メモリがプロセッサに、デジタル化された音声ストリームを送信する一方で、動作412の別の実施形態では、プロセッサがメモリから、デジタル化された音声ストリームを検索する。
動作414で、プロセッサは、動作412で取得されたデジタル化された音声ストリームをテキストストリームに変換する。デジタル化された音声ストリームをテキストストリームに変換した後、プロセッサは、テキストストリーム内のテキストを分析して、適切な応答を決定する。動作414の実施形態は、スピーチトゥテキスト(STT)、ボイストゥテキスト、デジタルトゥテキスト、または他のタイプの、テキスト変換を使用することを含む。動作414のさらなる実施形態は、テキストストリームへの変換後に自然言語処理を使用することを含む。この実施形態では、コンピューティングデバイスは、テキストストリーム内のテキストを処理して、動作402で受信された音声ストリームのコンテキストに基づいて適切な応答を決定する。たとえば、408でデジタル化された音声ストリーム内にキーワードを検出すると、プロセッサが動作412で取得して、デジタル化された音声ストリームが動作414でテキストストリームに変換される。さらなる例において、音声ストリームは、2つの場所の間の道程についての会話を含み得、たとえば、このデジタル化された音声ストリームが動作412でテキストストリームに変換されると、プロセッサは、テキストストリーム内のテキストを分析することによって適切な応答を決定し得る。
動作416で、プロセッサは、動作414で生成されたテキストストリームに基づいて応答を決定する。応答の実施形態は、ウェブ検索を実行すること、電話番号をダイヤルすること、アプリケーションを開くこと、テキストを記録すること、メディアをストリーミングすること、テキストメッセージを作成すること、道程を一覧表示すること、または道程を話すことを含む。一実施形態において、テキストストリーム内のテキストは、プロセッサのための適切な応答を命じる。さらなる実施形態において、応答は、コンピューティングデバイスのユーザに差し出される。たとえば、テキストストリームは、どのようにして中国に到達するかを尋ねる話声を含み得、したがって、中国への道程が適切な応答であろう。加えて、この例では、中国への道程を、地図表示で一覧表示すること、および/または、話すことが含まれ得る。
ここで図5を参照すると、デジタル化された音声ストリームを圧縮し、コンピューティングデバイスのユーザに応答を差し出すためにコンピューティングデバイスで実行される例示的な方法のフローチャートである。図5は、図3における上述したコンピューティングデバイス300で実行されるものとして説明されるが、それはまた、当業者に理解されるように、他の適切なコンポーネントで実行されることもできる。たとえば、図5は、メモリ312のような機械可読記憶媒体における実行可能な命令の形態で実現され得る。
動作502で、コンピューティングデバイスは、デジタル化された音声ストリームを圧縮する。一実施形態において、動作502は、図4における動作406より前の動作404と共に実行される。たとえば、受信された音声ストリームがデジタル化されると、低電力集積回路がコンピューティングデバイスと共に動作して、ストリームのデータバイトサイズを減じるためにデジタル化された音声ストリームを圧縮し得る。この例において、デジタル化された音声ストリームの圧縮は、動作406でメモリに記憶される前に行われる。さらなる実施形態において、動作502は、図4における動作412でデジタル化された音声ストリームを受信する前に実行される。たとえば、プロセッサが、メモリからのデジタル化された音声ストリームを圧縮するための動作502を実行し得る一方で、別の例では、メモリが、プロセッサがデジタル化された音声ストリームを取得する前にデジタル化された音声ストリームを圧縮し得る。動作502のさらなる別の実施形態では、圧縮されたデジタル化された音声ストリームが、図4におけるステップ408でのように、キーワードを認識するために分析される。
動作504で、コンピューティングデバイスは、コンピューティングデバイスのユーザに応答を差し出す。動作504の実施形態は、図4における動作416中または後に行われることを含む。たとえば、プロセッサが適切な応答を決定すると、この応答は、コンピューティングデバイスのユーザに差し出され得る。さらなる実施形態において、応答は、コンピューティングデバイスと共に動作するディスプレイ画面またはスピーカーといった出力デバイス上でユーザに差し出されることができる。たとえば、ユーザが小エビとクルマエビとの違いを話し合っている場合、プロセッサは、ウェブ検索アプリケーションを起動して、たとえば、小エビとクルマエビとの違いのウェブ検索を実行し得る。実行されたウェブ検索は、コンピューティングデバイスの表示デバイス上でユーザに差し出され得る。さらなる例において、コンピューティングデバイスは、小エビとクルマエビの違いを、スピーカーを通じてユーザに聞こえるように読み上げる。これらの実施形態において、コンピューティングデバイスは、ユーザがコンピューティングデバイスに命令するよりもむしろ音声ストリームを用いて応答を決定するように動作する。
本明細書において詳細に説明された実施形態は、キーワードを検出するために音声ストリームをデジタル化し、デジタル化された音声ストリーム内のキーワードの認識に基づいて、電力を増大させ、さらにデジタル化された音声ストリームを分析して応答を決定するよう、プロセッサに信号を送信することに関する。このように、例示的な実施形態は、コンピューティングデバイスへの反復した音声命令を防止しながら、コンピューティングデバイスの電力消費を減じることによって、ユーザの時間を節約する。
音声ストリーム102が、コンピューティングデバイス100、特に、低電力集積回路104によって受信される。音声ストリーム102は、デジタル化された音声ストリーム114を提供するためにデジタル化106される入力アナログ信号である。音声ストリーム102の実施形態は、ユーザからの話声または別のコンピューティングデバイスからの音声を含む。たとえば、音声ストリーム102を受信するいくつかのコンピューティングデバイス100が存在し得、それらは混乱をきたし得る。したがって、コンピューティングデバイスは、音声ストリーム102を受信するための中央ポイントとして1つのデバイスを指定し得る。この実施形態において、低電力集積回路104は、1つ以上のコンピューティングデバイスの中央ユニットであり得るアドホックネットワークの一部として動作する。
音声ストリーム102がモジュール106でデジタル化されると、それは、モジュール108でキーワードと比較される。モジュール108で、音声ストリーム102が電力122を増大させ、デジタル化された音声ストリーム114を取得してモジュール120で分析するよう、プロセッサ118にシグナリング116するためのインジケーションとして動作する、キーワードに対して比較される。108の実施形態は、命令、処理、動作、論理、アルゴリズム、技法、論理関数、ファームウェア、および/またはソフトウェアを含む。キーワードが認識されると、低電力集積回路104は、プロセッサ118に電力122を増大させるよう信号116を送信する。
回路素子210は、デジタル化回路素子206および比較回路素子208を含む。回路素子210の実施形態は、音声ストリーム202をデジタル化し、デジタル化された音声ストリーム214をキーワードと比較することができる、論理、アナログ回路素子、電子回路素子、デジタル回路素子、または他の回路素子を含む。さらなる実施形態において、回路素子は、回路素子206および208をフェッチ、復号、およびまたは実行するために、低電力集積回路204と独立しておよび/または共に利用され得る、アプリケーションおよび/またはファームウェアを含む。
音声ストリーム314がデジタル化されると、低電力集積回路は、モジュール308でデジタル化された音声ストリーム314を分析する。一実施形態において、モジュール308は、キーワードをデジタル化された音声ストリーム314と比較する。この実施形態において、308は、図1における上述した比較モジュール108の機能を含む。
信号316は、低電力集積回路304からプロセッサ318への、電力322を増大させるための送信である。信号316の実施形態、デジタル化された音声ストリーム314を取得してモジュール320で分析するようプロセッサ318に追加で命令する。信号316は、図1および図2に関連してそれぞれ説明された信号116および216と構造および機能が同様であり得る。
動作408で、低電力集積回路は、動作404で生成されたデジタル化された音声ストリームを分析する。動作408の実施形態が、デジタル化された音声ストリームを処理することを含む一方で、他の実施形態は、デジタル化された音声ストリームをキーワードと比較することを含む。動作408のこれらの実施形態において、低電力集積回路は、キーワードについてデジタル化された音声ストリームを処理する。デジタル化された音声ストリーム内にキーワードが認識されると、方法は、信号を送信するための動作410へと移行する。さらなる実施形態において、低電力集積回路がデジタル化された音声ストリーム内にキーワードを認識しない場合、方法は、動作402へと戻る。さらに、さらなる実施形態、デジタル化された音声ストリームを、コンピューティングデバイスのユーザがコンピューティングデバイスによる応答を所望することを示すアナログまたはデジタルの表現と比較することを含む。さらなる実施形態ではまた、動作402、404、406、および408は、並行して行われる。たとえば、コンピューティングデバイスが408でデジタル化された音声ストリームを分析するときに、集積回路は、動作402で音声ストリームを受信し、動作404および406で音声ストリームをデジタル化し、記憶し続ける。
動作414で、プロセッサは、動作412で取得されたデジタル化された音声ストリームをテキストストリームに変換する。デジタル化された音声ストリームをテキストストリームに変換した後、プロセッサは、テキストストリーム内のテキストを分析して、適切な応答を決定する。動作414の実施形態は、スピーチトゥテキスト(STT)、ボイストゥテキスト、デジタルトゥテキスト、または他のタイプの、テキスト変換を使用することを含む。動作414のさらなる実施形態は、テキストストリームへの変換後に自然言語処理を使用することを含む。この実施形態では、コンピューティングデバイスは、テキストストリーム内のテキストを処理して、動作402で受信された音声ストリームのコンテキストに基づいて適切な応答を決定する。たとえば、408でデジタル化された音声ストリーム内にキーワードを検出すると、プロセッサがデジタル化された音声ストリームを動作412で取得して、デジタル化された音声ストリームが動作414でテキストストリームに変換される。さらなる例において、音声ストリームは、2つの場所の間の道程についての会話を含み得、たとえば、このデジタル化された音声ストリームが動作412でテキストストリームに変換されると、プロセッサは、テキストストリーム内のテキストを分析することによって適切な応答を決定し得る。
本明細書において詳細に説明された実施形態は、キーワードを検出するために音声ストリームをデジタル化し、デジタル化された音声ストリーム内のキーワードの認識に基づいて、電力を増大させ、さらにデジタル化された音声ストリームを分析して応答を決定するよう、プロセッサに信号を送信することに関する。このように、例示的な実施形態は、コンピューティングデバイスへの反復した音声命令を防止しながら、コンピューティングデバイスの電力消費を減じることによって、ユーザの時間を節約する。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
低電力集積回路とプロセッサとを含むコンピューティングデバイスによって実行される方法であって、
音声ストリームを受信することと、
前記音声ストリームをデジタル化することと、
前記デジタル化された音声ストリームをメモリに記憶することと、
前記低電力集積回路を使用してキーワードの認識のために前記デジタル化された音声ストリームを分析することと、
前記デジタル化された音声ストリーム内に前記キーワードが認識されると、前記低電力集積回路から前記プロセッサに電力を増大させるための信号を送信することと、
前記メモリから前記プロセッサに前記記憶されたデジタル化された音声ストリームを送信することと、
前記プロセッサを使用して前記デジタル化された音声ストリームをテキストストリームに変換することと、
前記テキストストリームに基づいて前記プロセッサのための応答を決定することと
を備える方法。
[C2]
前記デジタル化された音声ストリームを圧縮して、圧縮されたデジタル化された音声ストリームにすること
をさらに備え、前記分析することは、前記キーワードの認識のために前記圧縮されたデジタル化された音声ストリームを分析することを備える、C1に記載の方法。
[C3]
前記コンピューティングデバイスのユーザに前記応答を差し出すこと
をさらに備える、C1に記載の方法。
[C4]
前記応答は、ウェブ検索を実行すること、電話番号をダイヤルすること、アプリケーションを開くこと、テキストを記録すること、メディアをストリーミングすること、テキストメッセージを作成すること、道程を一覧表示すること、または道程を話すこと、の少なくとも1つを含む、C3に記載の方法。
[C5]
前記メモリは、現在の時間より前の所定の時間期間中に受信された、前記記憶されたデジタル化された音声ストリームを維持する、C1に記載の方法。
[C6]
前記プロセッサのための前記応答を決定することは、
サーバから前記サーバによる前記テキストストリームの分析に基づいた前記応答を受信することと、
前記プロセッサによって前記テキストストリームの分析に基づいて前記応答を決定することと
の1つを備える、C1に記載の方法。
[C7]
前記音声ストリームは、ユーザからの話声、別のコンピューティングデバイスからの話声、および前記別のコンピューティングデバイスからの音声、の少なくとも1つを含む、C1に記載の方法。
[C8]
コンピューティングデバイスであって、
音声ストリームを受信すると、前記音声ストリームをデジタル化してメモリに記憶し、
キーワードを認識するために前記デジタル化された音声ストリームを分析し、
前記デジタル化された音声ストリーム中に前記キーワードを認識すると、プロセッサに電力を増大させるための信号を送信する
ための低電力集積回路と、
前記低電力集積回路からの前記信号に基づいて電力を増大させ、
応答を決定するために前記デジタル化された音声ストリームを分析する
ためのプロセッサと
を備えるコンピューティングデバイス。
[C9]
前記デジタル化された音声ストリームを分析するために、前記プロセッサはさらに、
前記電力を増大させるための信号を受信することに基づいて、前記メモリから前記デジタル化された音声ストリームを検索し、
前記デジタル化された音声ストリームをテキストストリームに変換し、
前記テキストストリーム中のテキストによって命じられた前記応答を決定する
ためのものである、C8に記載のコンピューティングデバイス。
[C10]
前記デジタル化された音声ストリームを分析するために、前記プロセッサはさらに、
前記電力を増大させるための信号を受信することに基づいて、前記メモリから前記デジタル化された音声ストリームを検索し、
前記応答を決定するために、サーバに、前記デジタル化された音声ストリームまたは前記デジタル化された音声ストリームから発生させたテキストストリームを送信し、
前記サーバから前記応答を受信する
ためのものである、C8に記載のコンピューティングデバイス。
[C11]
前記低電力集積回路はさらに、
前記デジタル化された音声ストリームを圧縮して、圧縮されたデジタル化された音声ストリームを取得し、
前記キーワードを認識するために前記圧縮されたデジタル化された音声ストリームを分析する
ためのものである、C8に記載のコンピューティングデバイス。
[C12]
前記コンピューティングデバイスのユーザに前記応答を差し出すための出力デバイス
をさらに備える、C8に記載のコンピューティングデバイス。
[C13]
前記キーワードを認識するために前記デジタル化された音声ストリームを分析するために、前記低電力集積回路は、前記デジタル化された音声ストリームを前記キーワードと比較する、C8に記載のコンピューティングデバイス。
[C14]
低電力集積回路であって、
音声ストリームを受信し、
前記音声ストリームをデジタル化し、
前記デジタル化された音声ストリームをメモリに記憶し、
前記デジタル化された音声ストリームをキーワードと比較し、
前記デジタル化された音声ストリーム中に前記キーワードが認識されると、電力を増大させ、前記メモリからの前記記憶されたデジタル化された音声ストリームを分析するよう、コンピューティングデバイスのプロセッサに命令するための信号を送信する
ための回路素子
を備える低電力集積回路。
[C15]
前記メモリは、所定の時間期間にわたる前記記憶されたデジタル化された音声ストリームを維持する、C14に記載の低電力集積回路。

Claims (15)

  1. 低電力集積回路とプロセッサとを含むコンピューティングデバイスによって実行される方法であって、
    音声ストリームを受信することと、
    前記音声ストリームをデジタル化することと、
    前記デジタル化された音声ストリームをメモリに記憶することと、
    前記低電力集積回路を使用してキーワードの認識のために前記デジタル化された音声ストリームを分析することと、
    前記デジタル化された音声ストリーム内に前記キーワードが認識されると、前記低電力集積回路から前記プロセッサに電力を増大させるための信号を送信することと、
    前記メモリから前記プロセッサに前記記憶されたデジタル化された音声ストリームを送信することと、
    前記プロセッサを使用して前記デジタル化された音声ストリームをテキストストリームに変換することと、
    前記テキストストリームに基づいて前記プロセッサのための応答を決定することと
    を備える方法。
  2. 前記デジタル化された音声ストリームを圧縮して、圧縮されたデジタル化された音声ストリームにすること
    をさらに備え、前記分析することは、前記キーワードの認識のために前記圧縮されたデジタル化された音声ストリームを分析することを備える、請求項1に記載の方法。
  3. 前記コンピューティングデバイスのユーザに前記応答を差し出すこと
    をさらに備える、請求項1に記載の方法。
  4. 前記応答は、ウェブ検索を実行すること、電話番号をダイヤルすること、アプリケーションを開くこと、テキストを記録すること、メディアをストリーミングすること、テキストメッセージを作成すること、道程を一覧表示すること、または道程を話すこと、の少なくとも1つを含む、請求項3に記載の方法。
  5. 前記メモリは、現在の時間より前の所定の時間期間中に受信された、前記記憶されたデジタル化された音声ストリームを維持する、請求項1に記載の方法。
  6. 前記プロセッサのための前記応答を決定することは、
    サーバから前記サーバによる前記テキストストリームの分析に基づいた前記応答を受信することと、
    前記プロセッサによって前記テキストストリームの分析に基づいて前記応答を決定することと
    の1つを備える、請求項1に記載の方法。
  7. 前記音声ストリームは、ユーザからの話声、別のコンピューティングデバイスからの話声、および前記別のコンピューティングデバイスからの音声、の少なくとも1つを含む、請求項1に記載の方法。
  8. コンピューティングデバイスであって、
    音声ストリームを受信すると、前記音声ストリームをデジタル化してメモリに記憶し、
    キーワードを認識するために前記デジタル化された音声ストリームを分析し、
    前記デジタル化された音声ストリーム中に前記キーワードを認識すると、プロセッサに電力を増大させるための信号を送信する
    ための低電力集積回路と、
    前記低電力集積回路からの前記信号に基づいて電力を増大させ、
    応答を決定するために前記デジタル化された音声ストリームを分析する
    ためのプロセッサと
    を備えるコンピューティングデバイス。
  9. 前記デジタル化された音声ストリームを分析するために、前記プロセッサはさらに、
    前記電力を増大させるための信号を受信することに基づいて、前記メモリから前記デジタル化された音声ストリームを検索し、
    前記デジタル化された音声ストリームをテキストストリームに変換し、
    前記テキストストリーム中のテキストによって命じられた前記応答を決定する
    ためのものである、請求項8に記載のコンピューティングデバイス。
  10. 前記デジタル化された音声ストリームを分析するために、前記プロセッサはさらに、
    前記電力を増大させるための信号を受信することに基づいて、前記メモリから前記デジタル化された音声ストリームを検索し、
    前記応答を決定するために、サーバに、前記デジタル化された音声ストリームまたは前記デジタル化された音声ストリームから発生させたテキストストリームを送信し、
    前記サーバから前記応答を受信する
    ためのものである、請求項8に記載のコンピューティングデバイス。
  11. 前記低電力集積回路はさらに、
    前記デジタル化された音声ストリームを圧縮して、圧縮されたデジタル化された音声ストリームを取得し、
    前記キーワードを認識するために前記圧縮されたデジタル化された音声ストリームを分析する
    ためのものである、請求項8に記載のコンピューティングデバイス。
  12. 前記コンピューティングデバイスのユーザに前記応答を差し出すための出力デバイス
    をさらに備える、請求項8に記載のコンピューティングデバイス。
  13. 前記キーワードを認識するために前記デジタル化された音声ストリームを分析するために、前記低電力集積回路は、前記デジタル化された音声ストリームを前記キーワードと比較する、請求項8に記載のコンピューティングデバイス。
  14. 低電力集積回路であって、
    音声ストリームを受信し、
    前記音声ストリームをデジタル化し、
    前記デジタル化された音声ストリームをメモリに記憶し、
    前記デジタル化された音声ストリームをキーワードと比較し、
    前記デジタル化された音声ストリーム中に前記キーワードが認識されると、電力を増大させ、前記メモリからの前記記憶されたデジタル化された音声ストリームを分析するよう、コンピューティングデバイスのプロセッサに命令するための信号を送信する
    ための回路素子
    を備える低電力集積回路。
  15. 前記メモリは、所定の時間期間にわたる前記記憶されたデジタル化された音声ストリームを維持する、請求項14に記載の低電力集積回路。
JP2017215607A 2017-11-08 2017-11-08 デジタル化された音声ストリームを分析するための低電力集積回路 Active JP6833659B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017215607A JP6833659B2 (ja) 2017-11-08 2017-11-08 デジタル化された音声ストリームを分析するための低電力集積回路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017215607A JP6833659B2 (ja) 2017-11-08 2017-11-08 デジタル化された音声ストリームを分析するための低電力集積回路

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014545864A Division JP2015501106A (ja) 2011-12-07 2011-12-07 デジタル化された音声ストリームを分析するための低電力集積回路

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020005933A Division JP6728507B2 (ja) 2020-01-17 2020-01-17 デジタル化された音声ストリームを分析するための低電力集積回路

Publications (2)

Publication Number Publication Date
JP2018060207A true JP2018060207A (ja) 2018-04-12
JP6833659B2 JP6833659B2 (ja) 2021-02-24

Family

ID=61907712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017215607A Active JP6833659B2 (ja) 2017-11-08 2017-11-08 デジタル化された音声ストリームを分析するための低電力集積回路

Country Status (1)

Country Link
JP (1) JP6833659B2 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315097A (ja) * 1999-04-30 2000-11-14 Canon Inc 電子機器、その制御方法、及び記録媒体
JP2004226698A (ja) * 2003-01-23 2004-08-12 Yaskawa Electric Corp 音声認識装置
JP2004265217A (ja) * 2003-03-03 2004-09-24 Nec Corp 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法
JP2007219207A (ja) * 2006-02-17 2007-08-30 Fujitsu Ten Ltd 音声認識装置
JP2007255897A (ja) * 2006-03-20 2007-10-04 Clarion Co Ltd ナビゲーションシステム並びに装置、その制御方法及び制御プログラム
CN101483683A (zh) * 2008-01-08 2009-07-15 宏达国际电子股份有限公司 手持装置及其语音识别方法
JP2009265219A (ja) * 2008-04-23 2009-11-12 Nec Infrontia Corp 音声入力分散処理方法及び音声入力分散処理システム
WO2010078386A1 (en) * 2008-12-30 2010-07-08 Raymond Koverzin Power-optimized wireless communications device
WO2011037264A1 (ja) * 2009-09-28 2011-03-31 京セラ株式会社 電子機器および制御方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315097A (ja) * 1999-04-30 2000-11-14 Canon Inc 電子機器、その制御方法、及び記録媒体
JP2004226698A (ja) * 2003-01-23 2004-08-12 Yaskawa Electric Corp 音声認識装置
JP2004265217A (ja) * 2003-03-03 2004-09-24 Nec Corp 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法
JP2007219207A (ja) * 2006-02-17 2007-08-30 Fujitsu Ten Ltd 音声認識装置
JP2007255897A (ja) * 2006-03-20 2007-10-04 Clarion Co Ltd ナビゲーションシステム並びに装置、その制御方法及び制御プログラム
CN101483683A (zh) * 2008-01-08 2009-07-15 宏达国际电子股份有限公司 手持装置及其语音识别方法
JP2009265219A (ja) * 2008-04-23 2009-11-12 Nec Infrontia Corp 音声入力分散処理方法及び音声入力分散処理システム
WO2010078386A1 (en) * 2008-12-30 2010-07-08 Raymond Koverzin Power-optimized wireless communications device
WO2011037264A1 (ja) * 2009-09-28 2011-03-31 京セラ株式会社 電子機器および制御方法

Also Published As

Publication number Publication date
JP6833659B2 (ja) 2021-02-24

Similar Documents

Publication Publication Date Title
US11810569B2 (en) Low power integrated circuit to analyze a digitized audio stream
CN111566730B (zh) 低功率设备中的语音命令处理
AU2014200407B2 (en) Method for Voice Activation of a Software Agent from Standby Mode
US10079014B2 (en) Name recognition system
US9613626B2 (en) Audio device for recognizing key phrases and method thereof
US20160125883A1 (en) Speech recognition client apparatus performing local speech recognition
US20170243585A1 (en) System and method of analyzing audio data samples associated with speech recognition
US10824664B2 (en) Method and apparatus for providing text push information responsive to a voice query request
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
CN109844857B (zh) 具有语音能力的便携式音频装置
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
US10313845B2 (en) Proactive speech detection and alerting
JP6728507B2 (ja) デジタル化された音声ストリームを分析するための低電力集積回路
JP6833659B2 (ja) デジタル化された音声ストリームを分析するための低電力集積回路
US7788097B2 (en) Multiple sound fragments processing and load balancing
US20230368785A1 (en) Processing voice input in integrated environment
CN114267358A (zh) 音频处理方法、装置、设备、存储介质及程序

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190604

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190917

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200117

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20200526

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20200623

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20200804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201104

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20201124

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210105

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210203

R150 Certificate of patent or registration of utility model

Ref document number: 6833659

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250