JP6751433B2 - アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 - Google Patents

アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP6751433B2
JP6751433B2 JP2018247645A JP2018247645A JP6751433B2 JP 6751433 B2 JP6751433 B2 JP 6751433B2 JP 2018247645 A JP2018247645 A JP 2018247645A JP 2018247645 A JP2018247645 A JP 2018247645A JP 6751433 B2 JP6751433 B2 JP 6751433B2
Authority
JP
Japan
Prior art keywords
wake
word
voice data
application program
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018247645A
Other languages
English (en)
Other versions
JP2019185011A (ja
Inventor
先堂 常
先堂 常
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019185011A publication Critical patent/JP2019185011A/ja
Application granted granted Critical
Publication of JP6751433B2 publication Critical patent/JP6751433B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • Stored Programmes (AREA)

Description

本発明は、コンピュータアプリケーション技術に関し、特に、アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体に関する。
音声によるヒューマンマシンインタラクションをサポートする従来の端末装置においては、一般的に、音声対話を行うために、ウェイクアップ操作を行う必要がある。すなわち、ユーザは、ウェイクアップするために予め設定された用語(以下、ウェイクアップワードという)を発話して、当該端末装置をウェイクアップする。そして、認識させたいコンテンツを発話して音声認識を行うことができる。
従来技術では、先ず、端末装置が音声によってウェイクアップされ、ウェイクアップした後に音声認識モードに移行する。端末装置は、音声認識を完了した後に、再度、音声によるウェイクアップを待機するモードに切り替える。しかしながら、このような技術を用いる場合には、1回のウェイクアップを実現することができるが、連続的にウェイクアップする必要がある一部の場面(例えば、ウェイクアップワードが「こんにちは」である場合に、ユーザが「こんにちは、今日、こんにちは、明日の天気は?」と発話する場合)において、従来技術によるウェイクアップ及び認識方法に基づく端末装置は、1回目の「こんにちは」によってウェイクアップされ、「今日、こんにちは、明日の天気は?」を認識すべき音声コンテンツとして認識するようになっている。以上から分かるように、従来技術では、ユーザによる連続的な音声データによりアプリケーションプログラムを連続的にウェイクアップすることができないので、音声に基づくアプリケーションプログラムのウェイクアップの信頼性が低いという問題点があった。
本発明は、従来技術における上記問題点を解決するためになされたものであり、アプリケーションプログラムのウェイクアップの信頼性を向上させるために、アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体を提供する。
本発明は、アプリケーションプログラムをウェイクアップする処理方法を提供する。前記方法は、ユーザが入力した第1音声データを収集するステップと、前記第1音声データを認識するステップと、前記第1音声データに1回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するステップと、を含む。
前記方法は、前記第1音声データに目的アプリケーションプログラムのウェイクアップワードが出現する場合に、前記第1音声データに含まれる目的アプリケーションプログラムの部分ウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するステップをさらに含む。
本発明の一実施例において、前記方法は、前記第1音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、前記第1音声データからi回目(iは2以上の正の整数である)の前記ウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御するステップをさらに含む。
本発明の一実施例において、前記方法は、前記第1音声データにおいてi回目(iは2以上の正の整数である)に出現する前記ウェイクアップワードに対してウェイクアップ操作を実行した後に、前記第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップをさらに含む。
本発明の一実施例において、前記第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップは、当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データを前記サーバに認識させるステップを含む。
本発明の一実施例において、前記第1音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、前記第1音声データにおける当該ウェイクアップワードの終了位置である。
本発明の一実施例において、前記方法は、前記第1音声データにおける認識されたウェイクアップワードの終了位置及び前記認識されたウェイクアップワードの長さ情報を判別するステップと、前記終了位置及び前記長さ情報に基づいて、前記第1音声データにおける前記認識されたウェイクアップワードの開始位置を判別するステップと、前記開始位置を取得時の開始位置として判別するステップと、を含む。
本発明の一実施例において、前記方法は、前記第1音声データから認識される音声データを特定するように前記サーバに指示するために、前記長さ情報及び/又は前記認識されたウェイクアップワードをサーバに送信するステップをさらに含む。
本発明の一実施例において、前記方法は、前記第1音声データを収集するときの環境情報に基づいて、前記第1音声データの信頼度を示す重み値を判別するステップと、前記認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するように前記サーバに指示するために、前記重み値を前記サーバに送信するステップと、をさらに含む。
本発明は、アプリケーションプログラムのウェイクアップを処理する装置を提供する。前記装置は、ユーザが入力した第1音声データを収集する収集モジュールと、前記第1音声データを認識する認識モジュールと、前記第1音声データに1回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するウェイクアップモジュールと、を含む。
本発明の一実施例において、前記ウェイクアップモジュールは、前記第1音声データに目的アプリケーションプログラムのウェイクアップワードが出現する場合に、前記第1音声データに含まれる目的アプリケーションプログラムの部分ウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行する。
本発明の一実施例において、前記ウェイクアップモジュールは、前記第1音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、前記第1音声データからi回目(iは2以上の正の整数である)の前記ウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御する。
本発明の一実施例において、前記認識モジュールは、前記第1音声データにおいてi回目(iは2以上の正の整数である)に出現する前記ウェイクアップワードに対してウェイクアップ操作を実行した後に、前記第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行う。
本発明の一実施例において、前記認識モジュールは、当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データを前記サーバに認識させる。
本発明の一実施例において、前記第1音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、前記第1音声データにおける当該ウェイクアップワードの終了位置である。
本発明の一実施例において、前記認識モジュールは、前記第1音声データにおける認識されたウェイクアップワードの終了位置及び前記認識されたウェイクアップワードの長さ情報を判別し、前記終了位置及び前記長さ情報に基づいて、前記第1音声データにおける前記認識されたウェイクアップワードの開始位置を判別し、前記開始位置を取得時の開始位置として判別する。
本発明の一実施例において、前記認識モジュールは、前記第1音声データから認識される音声データを特定するように前記サーバに指示するために、前記長さ情報及び/又は前記認識されたウェイクアップワードをサーバに送信する。
本発明の一実施例において、前記認識モジュールは、前記第1音声データを収集するときの環境情報に基づいて、前記第1音声データの信頼度を示す重み値を判別し、前記認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するように前記サーバに指示するために、前記重み値を前記サーバに送信する。
本発明は、電子機器において実行されるときに上記各実施例の何れかに記載の方法を電子機器に実行させるためのプログラムを含む、電子機器可読記憶媒体を提供する。
本発明は、アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体を提供する。ユーザが入力した第1音声データを収集して認識し、第1音声データに1回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、目的アプリケーションプログラムに対してウェイクアップ操作を実行するものである。本発明に係るアプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体は、ユーザが入力した第1音声データにウェイクアップワードが1回以上出現する場合に目的アプリケーションプログラムをウェイクアップすることによって、アプリケーションプログラムのウェイクアップにおける信頼性を向上させることができる。
本発明の実施例又は従来技術における技術的な解決手段を明瞭に説明するために、実施例又は従来技術の説明に用いられる図面を簡単に説明する。当然ながら、以下に記載される図は、本発明の実施例の一部に過ぎず、当業者は、創造的な労力を払うことなく、これらの図面から他の図面を得ることができる。
本発明に係るアプリケーションプログラムをウェイクアップする処理方法の第1実施例の概略的なフローチャートである。 本発明に係るアプリケーションプログラムをウェイクアップする処理方法の第2実施例のプロセスを概略的に示す図である。 本発明に係るアプリケーションプログラムのウェイクアップを処理する装置の第1実施例の構造を概略的に示す図である。
本発明の実施例における技術的な解決手段は、本発明の実施例における添付図面を参照して以下に明瞭且つ十分に説明されるが、説明される実施例は本発明の実施例の一部に過ぎない。当業者が本発明の実施例に基づいて創造的な努力なしに得られる他の全ての実施例は、本発明の技術的範囲に含まれる。
本発明の明細書、特許請求の範囲及び上記の図の説明における「第1」、「第2」、「第3」、「第4」等の用語(該当部品が存在する場合)は、順序を規定したり部品間の前後関係を示したりするものではなく、類似する対象を区分するために用いられる。本明細書に記載される実施例が、当該図面に示され、説明される内容と異なる順序であっても実施可能にするために、適切な場合には、部品の番号を入れ替えて用いることもできる。また、「含む」、「備える」及びこれらに準じる他の用語は、非排他的な包括の場合を含むことを意図するために用いられるものであり、例えば、いくつかのステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明示されているステップ又はユニットに必ずしも限定されるものではなく、明示されていない他のステップ又はユニットや、当該プロセス、方法、製品又は機器に固有の他ステップ又はユニットを含んでもよい。
図1は、本発明に係るアプリケーションプログラムをウェイクアップする処理方法の第1実施例1の概略的なフローチャートである。図1に示すように、本実施例に係るアプリケーションプログラムをウェイクアップする処理方法は、以下のステップS101〜ステップS103を含む。
ステップS101:ユーザが入力した第1音声データを収集する。
ステップS102:第1音声データを認識する。
ステップS103:第1音声データに1回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、目的アプリケーションプログラムに対してウェイクアップ操作を実行する。
本実施例を実行する機器は、音声収集機能及び処理機能を備える電子機器であってもよい。例えば、電子機器は、ラップトップコンピュータ、内蔵型コンピュータを含むコンピュータ用ディスプレイ、タブレットコンピュータ、携帯電話、メディアプレーヤ、他のハンドヘルド式電子機器やポータブル式電子機器、時計型ウェアラブルデバイス、装着型ウェアラブルデバイス、ヘッドホン、イヤフォン、他のウェアラブルデバイスやマイクロデバイスに搭載された表示機能を備える小型機器、テレビ、内蔵型コンピュータを含まないコンピュータ用ディスプレイ、ゲーム機、航法装置、組み込みシステム(例えば、ディスプレイを備える電子機器をキオスク端末又は自動車に取り付けて構成されるシステム)、上記機器のうち2つ以上の機能を実現するための機器、又は、デスクトップコンピュータ(Computer)、ノートパソコン(Notebook)、タブレットパソコン(Pad)、スマートフォン(Smart Phone)、ウォッチ型ウェアラブル端末(Smart Watch)、メガネ型ウェアラブル端末、ワークステーション、データベースやサーバ等であってもよい。
具体的には、電子機器は、マイクロフォン、ヘッドホン等の音声処理機器を介してユーザの音声を第1音声データとして収集し、第1音声データに対して認識処理を行ってもよい。また、電子機器は、電子機器にインストールされた目的アプリケーションプログラム毎にウェイクアップワードを予め設定し、当該ウェイクアップワードがユーザの第1音声データに出現する場合に、当該ウェイクアップワードに対応する目的アプリケーションプログラムをウェイクアップしてもよい。例えば、写真を管理するアプリケーションプログラムに対応するウェイクアップワードを「アルバム」とし、天気予報アプリケーションプログラムに対応するウェイクアップワードを「天気」とする。なお、アプリケーションプログラムは、電子機器そのものであってもよい。例えば、空気清浄専用装置が空気清浄機能のみを有しており、当該空気清浄装置にインストールされた空気清浄アプリケーションプログラムに対応するウェイクアップワードを「清浄」とする。この場合、空気清浄装置が収集したユーザの第1音声データが「清浄、開始」であれば、空気清浄アプリケーションプログラムがウェイクアップされる。すなわち、空気清浄装置そのものがウェイクアップされ、内蔵されているアプリケーションプログラムを動作させて当該ウェイクアップに応答する。
しかしながら、ユーザが音声で指示を発する場合、言い間違えや繰り返し表現することによって、1つの文においてアプリケーションプログラムに対応するウェイクアップワードが複数回出現する可能性がある。例えば、天気予報アプリケーションプログラムに対応するウェイクアップワードが「こんにちは」である場合に、ユーザが天気を聞きたくて電子機器に対して「こんにちは、今日、こんにちは、明日の天気は?」という音声指示を発すると(すなわち、ユーザは、元々、明日の天気を知りたいのに、音声指示において「今日」と言い間違えてしまった)、電子機器は、「こんにちは、今日、こんにちは、明日の天気は?」を第1音声データとして収集する。しかしながら、音声データを認識してアプリケーションプログラムをウェイクアップするという従来技術では、ユーザが第1音声データによって伝えたい意味を正確に捉えることができない。
したがって、本実施例のステップS103では、認識された第1音声データにウェイクアップワードが出現する毎に、ウェイクアップワードに対応する目的アプリケーションプログラムをウェイクアップすることによって、目的アプリケーションプログラムは、各ウェイクアップワード以後の音声データに対して音声認識操作を行うことができる。例えば、上記実施例において、第1音声データに「こんにちは」というウェイクアップワードが2回出現する場合には、電子機器は、1回目の「こんにちは」が出現した後に目的アプリケーションプログラムの天気予報アプリケーションプログラムをウェイクアップし、このアプリケーションプログラムが、「こんにちは」という音声を認識する。電子機器は、2回目の「こんにちは」が出現した後に、目的アプリケーションプログラムの天気予報アプリケーションプログラムをウェイクアップし、このアプリケーションプログラムが「明日の天気は?」という音声を認識する。すなわち、繰り返し表現され、意味がはっきりしない第1音声データにおいてウェイクアップワードが出現する毎に、目的アプリケーションプログラムがウェイクアップされる。従来技術であれば、第1音声データ全体によって目的アプリケーションプログラムをウェイクアップし、「今日、こんにちは、明日の天気は?」という第1音声データ全体を認識するので、構文的に問題がある文章の場合には目的アプリケーションプログラムを認識し難くなる。本実施例に係るアプリケーションプログラムをウェイクアップする処理方法では、ユーザが一続きで発した第1音声データにおいてウェイクアップワードが出現する毎に目的アプリケーションプログラムをウェイクアップすることによって、アプリケーションプログラムのウェイクアップにおける信頼性が向上し、さらに、アプリケーションプログラムがウェイクアップワード以後の音声データに対して音声認識操作を行う際の難易度を下げることができる。
オプションとして、上記実施例では、第1音声データに目的アプリケーションプログラムのウェイクアップワードが出現した場合、第1音声データに含まれる目的アプリケーションプログラムの部分ウェイクアップワードが認識される毎に、目的アプリケーションプログラムをウェイクアップしてもよい。例えば、画像を処理するアプリケーションプログラムに対応するウェイクアップワードが「画像処理」である場合、ユーザが、同アプリケーションプログラムによってアルバムに保存される画像を処理するために「画像処理、画像調整」という音声指示を発すると、電子機器は、「画像処理、画像調整」という第1音声データを収集する。電子機器は、「画像処理」というウェイクアップワードの前半部分の「画像」というワードを認識すると直ぐに、当該画像を処理するアプリケーションプログラムをウェイクアップしてもよい。次に、画像を処理するアプリケーションプログラムが「画像調整」という音声を認識する。これにより、例えば、長いウェイクアップワードが設定されたり、電子機器の処理速度が遅かったりする場合であっても、部分ウェイクアップワードが認識されたら直ぐに目的アプリケーションプログラムをウェイクアップするように、ウェイクアップを前倒しする方式を採用することによって、アプリケーションプログラムに対するウェイクアップの効率を高めることができ、ユーザエクスペリエンスを向上させることができる。なお、本例において、「画像処理」の一部として「画像」というワードが選択されているが、これに限定されず、実際には、ウェイクアップワードの長さN、話の内容やユーザの話すスピード等のパラメータに基づいて、ウェイクアップワードに含まれるN個の単語のうち、始めからM個の単語を部分ウェイクアップワードに設定し、設定された部分ウェイクアップワードに基づいて、アプリケーションプログラムに対してウェイクアップ操作を実行してもよい。
オプションとして、上記実施例では、第1音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、第1音声データからi回目(iは2以上の正の整数である)のウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御してもよい。また、第1音声データにi回目(iは2以上の正の整数である)に出現したウェイクアップワードに対してウェイクアップ操作を実行した後に、第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を実行してもよい。
例えば、上記実施例において、電子機器が収集した「こんにちは、今日、こんにちは、明日の天気は?」というユーザの第1音声データには、「こんにちは」というウェイクアップワードが2回出現する。ここで、1回目の「こんにちは」以後の音声データは、言い間違えによって意味のないデータということが明らかであるものの、目的アプリケーションプログラムは、この部分のデータ(すなわち「今日」)に対して音声認識を行う必要がある。本実施例では、第1音声データに2回目に出現した「こんにちは」が認識されると、「今日」に対する音声認識操作を停止して、2回目の「こんにちは」以後の「明日の天気は?」に対する音声認識操作を行うように目的アプリケーションプログラムを制御する。すなわち、本実施例は、1回目のウェイクアップを完了した後に、これに対応する音声認識が終了しないうちにユーザが再度音声ウェイクアップを行った場合には、待機状態を保つのではなく、現在進行中の音声認識をキャンセルすることができる。これにより、ユーザによる音声ウェイクアップ及び音声認識の要求に素早く応答することができ、ユーザが再度音声対話をスタートする際に、一定の時間待たなければならないという問題を解決することができる。よって、ウェイクアップワードが複数回出現する場合には、意味のない音声データが目的アプリケーションプログラムに認識される等のように目的アプリケーションプログラムが無効な認識を実行する回数を減らすことができ、アプリケーションプログラムのウェイクアップにおける信頼性をある程度向上させることができる。
オプションとして、上記実施例では、第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップは、当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データをサーバに認識させるステップを含んでもよい。
オプションとして、上記各実施例では、第1音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、第1音声データにおける当該ウェイクアップワードの終了位置であってもよい。
さらに、上記方法は、第1音声データにおける認識されたウェイクアップワードの終了位置及び認識されたウェイクアップワードの長さ情報を判別するステップと、終了位置及び長さ情報に基づいて、第1音声データにおける認識されたウェイクアップワードの開始位置を判別するステップと、開始位置を取得時の開始位置として判別するステップと、を含んでもよい。
さらにまた、上記方法は、第1音声データから認識される音声データを特定するようにサーバに指示するために、長さ情報及び/又は認識されたウェイクアップワードをサーバに送信するステップを含んでもよい。
例えば、図2は、本発明に係るアプリケーションプログラムをウェイクアップする処理方法の第2実施例のプロセスを概略的に示す図である。従来技術では、ユーザの音声データにおけるウェイクアップワードに対して電子機器が実行する音声ウェイクアップは、ある程度の遅延を伴う。例えば、電子機器が「こんにちは、今日北京の天気は?」というユーザの第1音声データを収集した場合、音声ウェイクアップにおける遅延によって、ウェイクアップワード以後に続く「今日北京」が抜けてしまい、「の天気は?」という部分のみがウェイクアップワード以後の音声データとして認識され、アプリケーションプログラムのウェイクアップにおける信頼性及びアプリケーションプログラムによる音声データ認識の精度が低下する場合がある。したがって、図2に示す本発明の実施例では、電子機器の音声録音モジュールがユーザの音声データを収集した後に、書き込みデータストリームによって音声データをリングバッファに書き込む。リングバッファは、例えば15秒の音声データを保存するように設計されてもよい。15秒のリングバッファエリアが満たされると、16秒目のデータが1秒目のデータを上書きするように繰り返す仕組みになっている。なお、経験データによれば、人間が話す時に生成する音声データのスピードは、一般的に16k/sであるため、リングバッファのデータのサイズは、15×16k=240kとなり、電子機器のメモリに保存することができる。図2に示すように、音声読み取りモジュールは、リングバッファから継続的に録音データを読み取り、毎回読み取られる録音データを、上記実施例における第1音声データとみなすことができる。このように、音声読み取りモジュールがリングバッファから第1音声データを収集した後に、第1音声データをウェイクアップモジュールに送信し、ウェイクアップモジュールにおいて第1音声データを認識してウェイクアップを実行する。音声ウェイクアップに成功した場合には、音声読み取りモジュールがウェイクアップワードの最終ビット(音声データにおいて「こんにちは」が終了したビットが、ウェイクアップワードの最終ビットである)以後の音声データを全て認識モジュールに送信して音声データの認識を行う。すなわち、実施例1における目的アプリケーションプログラムにおいてウェイクアップワード以後の音声データに対して音声認識操作を行うという操作となる。ここで、図2に示す認識モジュールをサーバに設け、電子機器上の音声読み取りモジュールがウェイクアップワード以後のデータを全てサーバに送信して、当該ウェイクアップワード以後の音声データをサーバに認識させてもよい。
特に、本実施例では、音声読み取りモジュールがリングバッファから継続的に音声データを読み取り、毎回読み取られた音声データを上記実施例における第1音声データとし、音声読み取りモジュールが音声データを読み取る頻度を、リングバッファ全体が更新される頻度よりも大きく設定することによって、収集されリングバッファに記憶される音声データを漏れなく認識することが可能になる。例えば、上記実施例の場合には、「こんにちは、今日北京の天気は?」という音声データ全体がリングバッファに送信された後に、音声データの取得、認識及び後続のアプリケーションプログラムのウェイクアップを行うことによって、全ての音声データを漏れなく認識することができ、音声によって連続的にウェイクアップされるという問題を解決して、アプリケーションプログラムのウェイクアップにおける信頼性を向上させることができるとともに、アプリケーションプログラムによる音声認識の精度を向上させることができる。
また、第1音声データにおけるウェイクアップワード以後の音声データをリングバッファからより正確に読み取るために、ウェイクアップワードの開始位置を取得する必要がある。本実施例では、音声読み取りモジュールが読み取った第1音声データにウェイクアップワードが存在する場合には、ウェイクアップワードの開始点の位置情報を取得した後に、開始点以後の音声データの全てを図2に示す音声認識モジュールに送信する。実際には、ウェイクアップワードの開始点の位置を取得することができない場合には、ウェイクアップワードの語尾(「こんにちは」の音声データが終了するビットは、ウェイクアップワードの語尾位置である)の位置情報を取得した後に、語尾位置からN秒前までのデータをウェイクアップワードの開始点の位置とみなすことができる。ここで、N秒は、経験から得られた値であってもよい。例えば、ユーザが「こんにちは」というウェイクアップワードを発話する場合を観察すると、最大で1秒を要している。これにより、本実施例では、音声読み取りモジュールは、ウェイクアップワードの音声データ及びウェイクアップワード以後の認識すべき音声データの何れも認識モジュールに送信して認識させ、送信する際にウェイクアップワードの音声データの長さ及び認識結果を付随させてもよい。これにより、認識モジュールは、第1音声データを、当該長さに基づいて2つの部分に構成することができる。ここで、第1部分のデータは、ウェイクアップワードの音声データであり、第2部分のデータは、認識対象となる音声の音声データである。
オプションとして、上記実施例に係る方法は、第1音声データを収集するときの環境情報に基づいて、第1音声データの信頼度を示す重み値を判別するステップと、認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するようにサーバに指示するために、重み値をサーバに送信するステップと、を含む。具体的に説明すると、認識モジュールは、一般的にクラウドに設けられ得るので、認識モジュールが第1音声データにおけるウェイクアップワード以後の音声データを受信した場合には、これに含まれるウェイクアップワードに対して二次認識を行うこともできる。認識して得られた結果が電子機器のウェイクアップモジュールに設定されたウェイクアップワードの判別結果と同一である場合には、ウェイクアップが正確に行われたと認識されてもよく、結果が異なる場合には、ウェイクアップが正確に行われなかったいと認識されてもよい。また、電子機器上のウェイクアップモジュールが第1音声データ内のウェイクアップワードを認識する際に重み値を付随させ、当該重み値が予め設定された閾値よりも大きい場合には、ローカルのウェイクアップモジュールによる認識結果を使用してもよく、クラウドにおいてウェイクアップデータの二次認識の要否に関する判別を行わなくてもよい。逆に、重み値が予め設定された閾値よりも小さい場合には、認識モジュールが二次認識を行う必要があると判別されてもよい。例えば、ウェイクアップモジュールが静かな環境で収集したユーザの第1音声データを認識した後に、当該データの信頼性が高いとする場合には、例えば90%等の大きな重み値を付随させ、クラウドにおいて重み値が50%よりも大きいと判別することによって、二次認識の要否に関する判別を行わなくてもよい。ウェイクアップモジュールが、雑音の大きな環境においてユーザの第1音声データを認識した場合には、当該データの信頼性が低い可能性があるとして例えば20%等の小さな重み値を付随させ、クラウドにおいて重み値が50%よりも小さいと判別することによって、ウェイクアップワードが二次認識を行う必要があると判別されてもよい。これにより、アプリケーションプログラムのウェイクアップにおける信頼性を向上させるとともに、アプリケーションプログラムによる音声認識の精度を向上させることができる。
図3は、本発明に係るアプリケーションプログラムのウェイクアップを処理する装置の第1実施例の構造を概略的に示す図である。本実施例に係るアプリケーションプログラムのウェイクアップを処理する装置は、収集モジュール301と、認識モジュール302と、ウェイクアップモジュール303と、を含む。
モジュール301は、ユーザが入力した第1音声データを収集する。認識モジュール302は、第1音声データを認識する。ウェイクアップモジュール303は、第1音声データに1回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、目的アプリケーションプログラムに対してウェイクアップ操作を実行する。
本実施例に係るアプリケーションプログラムのウェイクアップを処理する装置は、図1に示す実施例に係るアプリケーションプログラムのウェイクアップ方法を実行するためのものであり、同一の技術的特徴及び有益な効果を有することから、詳細な説明については省略する。
オプションとして、上記実施例では、ウェイクアップモジュール303は、第1音声データに目的アプリケーションプログラムのウェイクアップワードが出現する場合に、第1音声データに含まれる目的アプリケーションプログラムの部分ウェイクアップワードが認識される毎に、目的アプリケーションプログラムに対してウェイクアップ操作を実行してもよい。
オプションとして、上記実施例では、ウェイクアップモジュール303は、第1音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、第1音声データからi回目(iは2以上の正の整数である)のウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御してもよい。
オプションとして、上記実施例では、認識モジュール302は、第1音声データにおいてi回目(iは2以上の正の整数である)に出現するウェイクアップワードに対してウェイクアップ操作を実行した後に、第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行ってもよい。
オプションとして、上記実施例では、認識モジュール302は、当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データをサーバに認識させてもよい。
オプションとして、上記実施例では、第1音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、第1音声データにおける当該ウェイクアップワードの終了位置であってもよい。
オプションとして、上記実施例では、認識モジュール302は、第1音声データにおける認識されたウェイクアップワードの終了位置及び認識されたウェイクアップワードの長さ情報を判別し、終了位置及び長さ情報に基づいて、第1音声データにおける認識されたウェイクアップワードの開始位置を判別し、開始位置を取得時の開始位置として判別してもよい。
オプションとして、上記実施例では、認識モジュール302は、第1音声データから認識される音声データを特定するようにサーバに指示するために、長さ情報及び/又は認識されたウェイクアップワードをサーバに送信してもよい。
オプションとして、上記実施例では、認識モジュール302は、第1音声データを収集するときの環境情報に基づいて、第1音声データの信頼度を示す重み値を判別し、認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するようにサーバに指示するために、重み値をサーバに送信してもよい。
上記実施例に係るアプリケーションプログラムのウェイクアップを処理する装置は、前記実施例に示すアプリケーションプログラムのウェイクアップ方法を実行するためのものであり、同一の技術的特徴及び有益な効果を有していることから、詳細な説明については省略する。
本発明は、電子機器において実行されると、上記各実施例の何れかに記載の方法を電子機器に実行させるためのプログラムを含む、電子機器可読記憶媒体を提供する。
本発明の一実施例では、電子機器を提供する。当該電子機器は、実行可能命令を実行すると、上記何れかの実施例に係るアプリケーションプログラムをウェイクアップする処理方法を実行するように構成されたプロセッサと、当該実行可能指令を記憶するメモリと、を含む。
本発明の一実施例では、アプリケーションプログラムのウェイクアップを処理する装置を提供する。当該装置は、メモリと、前記メモリに記憶されたコンピュータプログラムと、前記コンピュータプログラムを実行すると、上記各実施例に記載されたアプリケーションプログラムをウェイクアップする処理方法を実行するプロセッサと、を含む。
本発明の一実施例では、記憶媒体を提供する。当該記憶媒体は、可読記憶媒体と、前記可読記憶媒体に記憶され、上記各実施例に記載されたアプリケーションプログラムをウェイクアップする処理方法を実現するためのコンピュータプログラムと、を含む。
本発明の一実施例では、プログラム製品を提供する。当該プログラム製品は、可読記憶媒体に記憶されたコンピュータプログラム(すなわち、実行命令)を含む。符号化装置の少なくとも1つのプロセッサは、可読記憶媒体から当該コンピュータプログラムを読み取ることができ、符号化装置が上記各実施形態に係るアプリケーションプログラムをウェイクアップする処理方法を実行することができるように、前記少なくとも1つのプロセッサが当該コンピュータプログラムを実行する。
当業者に明らかであるように、上記各方法の実施例を実施するステップの全部又は一部は、コンピュータ可読媒体に記憶されたプログラムによって、関連するハードウェアを操作することで実行することができる。当該プログラムを実行する場合には、上記各方法に関する実施例のステップが実行され、前記媒体は、ROM、RAM、磁気ディスク、コンパクトディスク等のようにプログラムコードを記憶可能な様々な媒体を含む。
なお、上記各実施例は、本願発明を説明するものに過ぎず、本願発明に対して限定を加えるものではない。上記各実施例を参照して本発明について詳細に説明しているが、当業者は、上記各実施例に記載された発明に変更を加えてもよいし、その一部又は全ての技術的特徴に対して等価な置換を行ってもよい。このような変更や置換は、本願の各実施例に係る発明から逸脱するものではない。

Claims (15)

  1. アプリケーションプログラムをウェイクアップする処理方法であって、
    ユーザが入力した第1音声データを収集するステップと、
    前記第1音声データを認識するステップと、
    前記第1音声データに出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するステップと、
    前記第1音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、前記第1音声データからi回目(iは2以上の正の整数である)の前記ウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御するステップと、を含む、
    ことを特徴とする方法。
  2. 前記第1音声データにおいてi回目(iは2以上の正の整数である)に出現する前記ウェイクアップワードに対してウェイクアップ操作を実行した後に、前記第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップを含む、
    ことを特徴とする請求項に記載の方法。
  3. 前記第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップは、
    当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データを前記サーバに認識させるステップを含む、
    ことを特徴とする請求項に記載の方法。
  4. 前記第1音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、前記第1音声データにおける当該ウェイクアップワードの終了位置である、
    ことを特徴とする請求項に記載の方法。
  5. 前記第1音声データにおける認識されたウェイクアップワードの終了位置及び前記認識されたウェイクアップワードの長さ情報を判別するステップと、
    前記終了位置及び前記長さ情報に基づいて、前記第1音声データにおける認識されたウェイクアップワードの開始位置を判別するステップと、
    前記開始位置を取得時の開始位置として判別するステップと、を含む、
    ことを特徴とする請求項に記載の方法。
  6. 前記第1音声データから認識される音声データを特定するように前記サーバに指示するために、前記長さ情報及び/又は前記認識されたウェイクアップワードをサーバに送信するステップを含む、
    ことを特徴とする請求項に記載の方法。
  7. 前記第1音声データを収集するときの環境情報に基づいて、前記第1音声データの信頼度を示す重み値を判別するステップと、
    前記認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するように前記サーバに指示するために、前記重み値を前記サーバに送信するステップと、を含む、
    ことを特徴とする請求項に記載の方法。
  8. アプリケーションプログラムのウェイクアップを処理する装置であって、
    ユーザが入力した第1音声データを収集する収集モジュールと、
    前記第1音声データを認識する認識モジュールと、
    前記第1音声データに出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するウェイクアップモジュールであって、前記第1音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、前記第1音声データからi回目(iは2以上の正の整数である)の前記ウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御するウェイクアップモジュールと、を含む、
    装置。
  9. 前記認識モジュールは、
    前記第1音声データにおいてi回目(iは2以上の正の整数である)に出現する前記ウェイクアップワードに対してウェイクアップ操作を実行した後に、前記第1音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を実行する、
    ことを特徴とする請求項に記載の装置。
  10. 前記認識モジュールは、
    当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データを前記サーバに認識させる、
    ことを特徴とする請求項に記載の装置。
  11. 前記第1音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、前記第1音声データにおける当該ウェイクアップワードの終了位置である、
    ことを特徴とする請求項10に記載の装置。
  12. 前記認識モジュールは、
    前記第1音声データにおける認識されたウェイクアップワードの終了位置及び前記認識されたウェイクアップワードの長さ情報を判別し、
    前記終了位置及び前記長さ情報に基づいて、前記第1音声データにおける前記認識されたウェイクアップワードの開始位置を判別し、
    前記開始位置を取得時の開始位置として判別する、
    ことを特徴とする請求項11に記載の装置。
  13. 前記認識モジュールは、
    前記第1音声データから認識され音声データを特定するように前記サーバに指示するために、前記長さ情報及び/又は前記認識されたウェイクアップワードをサーバに送信する、
    ことを特徴とする請求項12に記載の装置。
  14. 前記認識モジュールは、
    前記第1音声データを収集するときの環境情報に基づいて、前記第1音声データの信頼度を示す重み値を判別し、前記認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するように前記サーバに指示するために、前記重み値を前記サーバに送信する、
    ことを特徴とする請求項13に記載の装置。
  15. 電子機器において実行されると、請求項1〜の何れか1項に記載の方法を前記電子機器に実行させるためのプログラムを含む、
    ことを特徴とする電子機器可読記憶媒体。
JP2018247645A 2018-04-02 2018-12-28 アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 Active JP6751433B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810282805.8 2018-04-02
CN201810282805.8A CN108492827B (zh) 2018-04-02 2018-04-02 应用程序的唤醒处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2019185011A JP2019185011A (ja) 2019-10-24
JP6751433B2 true JP6751433B2 (ja) 2020-09-02

Family

ID=63318168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018247645A Active JP6751433B2 (ja) 2018-04-02 2018-12-28 アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体

Country Status (3)

Country Link
US (1) US11037560B2 (ja)
JP (1) JP6751433B2 (ja)
CN (1) CN108492827B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062703B2 (en) * 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing
CN109360552B (zh) * 2018-11-19 2021-12-24 广东小天才科技有限公司 一种自动过滤唤醒词的方法及系统
CN109448720A (zh) * 2018-12-18 2019-03-08 维拓智能科技(深圳)有限公司 便民服务自助终端及其语音唤醒方法
CN109493863A (zh) * 2018-12-26 2019-03-19 广州灵聚信息科技有限公司 一种智能唤醒方法和装置
CN111862943B (zh) * 2019-04-30 2023-07-25 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质
CN110223687B (zh) * 2019-06-03 2021-09-28 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
CN110211589B (zh) * 2019-06-05 2022-03-15 广州小鹏汽车科技有限公司 车载系统的唤醒方法、装置以及车辆、机器可读介质
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110310636A (zh) * 2019-06-24 2019-10-08 歌尔股份有限公司 交互控制方法、装置、设备及音频设备
CN110989963B (zh) * 2019-11-22 2023-08-01 北京梧桐车联科技有限责任公司 唤醒词推荐方法及装置、存储介质
CN113031749A (zh) * 2019-12-09 2021-06-25 Oppo广东移动通信有限公司 电子设备
CN113096651A (zh) * 2020-01-07 2021-07-09 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、可读存储介质及电子设备
CN111367488B (zh) * 2020-01-07 2023-08-22 百度在线网络技术(北京)有限公司 语音设备及语音设备的交互方法、设备、存储介质
CN112382285B (zh) 2020-11-03 2023-08-15 北京百度网讯科技有限公司 语音控制方法、装置、电子设备和存储介质
GB2612073A (en) * 2021-10-21 2023-04-26 Jaguar Land Rover Ltd Apparatus and method for providing a wake-up signal
CN114915514B (zh) * 2022-03-28 2024-03-22 青岛海尔科技有限公司 意图的处理方法和装置、存储介质及电子装置
CN115312049A (zh) * 2022-06-30 2022-11-08 青岛海尔科技有限公司 指令的响应方法、存储介质及电子装置
CN118053423A (zh) * 2022-11-16 2024-05-17 荣耀终端有限公司 唤醒应用程序的方法及电子设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629077B1 (en) * 2000-11-22 2003-09-30 Universal Electronics Inc. Universal remote control adapted to receive voice input
US20060085199A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for controlling the behavior of a device capable of speech recognition
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
US20120052907A1 (en) * 2010-08-30 2012-03-01 Sensory, Incorporated Hands-Free, Eyes-Free Mobile Device for In-Car Use
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9219559B2 (en) * 2012-05-16 2015-12-22 The Nielsen Company (Us), Llc Methods and systems for audience measurement
US10770075B2 (en) 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9368105B1 (en) * 2014-06-26 2016-06-14 Amazon Technologies, Inc. Preventing false wake word detections with a voice-controlled device
JP6520100B2 (ja) 2014-12-15 2019-05-29 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー
TWI525532B (zh) * 2015-03-30 2016-03-11 Yu-Wei Chen Set the name of the person to wake up the name for voice manipulation
CA2982196C (en) * 2015-04-10 2022-07-19 Huawei Technologies Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US10043521B2 (en) * 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
CN106875945B (zh) * 2017-03-09 2020-06-26 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107610695B (zh) * 2017-08-08 2021-07-06 大众问问(北京)信息科技有限公司 驾驶人语音唤醒指令词权重的动态调整方法
KR102374910B1 (ko) * 2017-08-22 2022-03-16 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
IL277087B2 (en) * 2018-04-02 2024-04-01 Sec Labs Ltd High Secure audio switch
EP3561806B1 (en) * 2018-04-23 2020-04-22 Spotify AB Activation trigger processing

Also Published As

Publication number Publication date
CN108492827B (zh) 2019-07-30
US20190304449A1 (en) 2019-10-03
US11037560B2 (en) 2021-06-15
JP2019185011A (ja) 2019-10-24
CN108492827A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
JP6751433B2 (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
EP3389044B1 (en) Management layer for multiple intelligent personal assistant services
AU2019246868B2 (en) Method and system for voice activation
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
EP3714453B1 (en) Full duplex communication for conversation between chatbot and human
US11430428B2 (en) Method, apparatus, and storage medium for segmenting sentences for speech recognition
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
CN111566730B (zh) 低功率设备中的语音命令处理
US20200328903A1 (en) Method and apparatus for waking up via speech
EP2959474B1 (en) Hybrid performance scaling for speech recognition
JP6078964B2 (ja) 音声対話システム及びプログラム
JP6844608B2 (ja) 音声処理装置および音声処理方法
US8255218B1 (en) Directing dictation into input fields
KR20150121038A (ko) 음성 제어식 통신 커넥션
JP2015011170A (ja) ローカルな音声認識を行なう音声認識クライアント装置
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
US20180166073A1 (en) Speech Recognition Without Interrupting The Playback Audio
JPWO2019031268A1 (ja) 情報処理装置、及び情報処理方法
WO2020057624A1 (zh) 语音识别的方法和装置
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
WO2016206646A1 (zh) 使机器装置产生动作的方法及系统
CN114333774A (zh) 语音识别方法、装置、计算机设备及存储介质
US11817097B2 (en) Electronic apparatus and assistant service providing method thereof
US11641592B1 (en) Device management using stored network metrics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200814

R150 Certificate of patent or registration of utility model

Ref document number: 6751433

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250