JP6751433B2

JP6751433B2 - アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体

Info

Publication number: JP6751433B2
Application number: JP2018247645A
Authority: JP
Inventors: 先堂常
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-04-02
Filing date: 2018-12-28
Publication date: 2020-09-02
Anticipated expiration: 2038-12-28
Also published as: CN108492827B; US20190304449A1; US11037560B2; JP2019185011A; CN108492827A

Description

本発明は、コンピュータアプリケーション技術に関し、特に、アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体に関する。

音声によるヒューマンマシンインタラクションをサポートする従来の端末装置においては、一般的に、音声対話を行うために、ウェイクアップ操作を行う必要がある。すなわち、ユーザは、ウェイクアップするために予め設定された用語（以下、ウェイクアップワードという）を発話して、当該端末装置をウェイクアップする。そして、認識させたいコンテンツを発話して音声認識を行うことができる。

従来技術では、先ず、端末装置が音声によってウェイクアップされ、ウェイクアップした後に音声認識モードに移行する。端末装置は、音声認識を完了した後に、再度、音声によるウェイクアップを待機するモードに切り替える。しかしながら、このような技術を用いる場合には、１回のウェイクアップを実現することができるが、連続的にウェイクアップする必要がある一部の場面（例えば、ウェイクアップワードが「こんにちは」である場合に、ユーザが「こんにちは、今日、こんにちは、明日の天気は？」と発話する場合）において、従来技術によるウェイクアップ及び認識方法に基づく端末装置は、１回目の「こんにちは」によってウェイクアップされ、「今日、こんにちは、明日の天気は？」を認識すべき音声コンテンツとして認識するようになっている。以上から分かるように、従来技術では、ユーザによる連続的な音声データによりアプリケーションプログラムを連続的にウェイクアップすることができないので、音声に基づくアプリケーションプログラムのウェイクアップの信頼性が低いという問題点があった。

本発明は、従来技術における上記問題点を解決するためになされたものであり、アプリケーションプログラムのウェイクアップの信頼性を向上させるために、アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体を提供する。

本発明は、アプリケーションプログラムをウェイクアップする処理方法を提供する。前記方法は、ユーザが入力した第１音声データを収集するステップと、前記第１音声データを認識するステップと、前記第１音声データに１回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するステップと、を含む。

前記方法は、前記第１音声データに目的アプリケーションプログラムのウェイクアップワードが出現する場合に、前記第１音声データに含まれる目的アプリケーションプログラムの部分ウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するステップをさらに含む。

本発明の一実施例において、前記方法は、前記第１音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、前記第１音声データからｉ回目（ｉは２以上の正の整数である）の前記ウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御するステップをさらに含む。

本発明の一実施例において、前記方法は、前記第１音声データにおいてｉ回目（ｉは２以上の正の整数である）に出現する前記ウェイクアップワードに対してウェイクアップ操作を実行した後に、前記第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップをさらに含む。

本発明の一実施例において、前記第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップは、当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データを前記サーバに認識させるステップを含む。

本発明の一実施例において、前記第１音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、前記第１音声データにおける当該ウェイクアップワードの終了位置である。

本発明の一実施例において、前記方法は、前記第１音声データにおける認識されたウェイクアップワードの終了位置及び前記認識されたウェイクアップワードの長さ情報を判別するステップと、前記終了位置及び前記長さ情報に基づいて、前記第１音声データにおける前記認識されたウェイクアップワードの開始位置を判別するステップと、前記開始位置を取得時の開始位置として判別するステップと、を含む。

本発明の一実施例において、前記方法は、前記第１音声データから認識される音声データを特定するように前記サーバに指示するために、前記長さ情報及び／又は前記認識されたウェイクアップワードをサーバに送信するステップをさらに含む。

本発明の一実施例において、前記方法は、前記第１音声データを収集するときの環境情報に基づいて、前記第１音声データの信頼度を示す重み値を判別するステップと、前記認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するように前記サーバに指示するために、前記重み値を前記サーバに送信するステップと、をさらに含む。

本発明は、アプリケーションプログラムのウェイクアップを処理する装置を提供する。前記装置は、ユーザが入力した第１音声データを収集する収集モジュールと、前記第１音声データを認識する認識モジュールと、前記第１音声データに１回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するウェイクアップモジュールと、を含む。

本発明の一実施例において、前記ウェイクアップモジュールは、前記第１音声データに目的アプリケーションプログラムのウェイクアップワードが出現する場合に、前記第１音声データに含まれる目的アプリケーションプログラムの部分ウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行する。

本発明の一実施例において、前記ウェイクアップモジュールは、前記第１音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、前記第１音声データからｉ回目（ｉは２以上の正の整数である）の前記ウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御する。

本発明の一実施例において、前記認識モジュールは、前記第１音声データにおいてｉ回目（ｉは２以上の正の整数である）に出現する前記ウェイクアップワードに対してウェイクアップ操作を実行した後に、前記第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行う。

本発明の一実施例において、前記認識モジュールは、当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データを前記サーバに認識させる。

本発明の一実施例において、前記認識モジュールは、前記第１音声データにおける認識されたウェイクアップワードの終了位置及び前記認識されたウェイクアップワードの長さ情報を判別し、前記終了位置及び前記長さ情報に基づいて、前記第１音声データにおける前記認識されたウェイクアップワードの開始位置を判別し、前記開始位置を取得時の開始位置として判別する。

本発明の一実施例において、前記認識モジュールは、前記第１音声データから認識される音声データを特定するように前記サーバに指示するために、前記長さ情報及び／又は前記認識されたウェイクアップワードをサーバに送信する。

本発明の一実施例において、前記認識モジュールは、前記第１音声データを収集するときの環境情報に基づいて、前記第１音声データの信頼度を示す重み値を判別し、前記認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するように前記サーバに指示するために、前記重み値を前記サーバに送信する。

本発明は、電子機器において実行されるときに上記各実施例の何れかに記載の方法を電子機器に実行させるためのプログラムを含む、電子機器可読記憶媒体を提供する。

本発明は、アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体を提供する。ユーザが入力した第１音声データを収集して認識し、第１音声データに１回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、目的アプリケーションプログラムに対してウェイクアップ操作を実行するものである。本発明に係るアプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体は、ユーザが入力した第１音声データにウェイクアップワードが１回以上出現する場合に目的アプリケーションプログラムをウェイクアップすることによって、アプリケーションプログラムのウェイクアップにおける信頼性を向上させることができる。

本発明の実施例又は従来技術における技術的な解決手段を明瞭に説明するために、実施例又は従来技術の説明に用いられる図面を簡単に説明する。当然ながら、以下に記載される図は、本発明の実施例の一部に過ぎず、当業者は、創造的な労力を払うことなく、これらの図面から他の図面を得ることができる。

本発明に係るアプリケーションプログラムをウェイクアップする処理方法の第１実施例の概略的なフローチャートである。本発明に係るアプリケーションプログラムをウェイクアップする処理方法の第２実施例のプロセスを概略的に示す図である。本発明に係るアプリケーションプログラムのウェイクアップを処理する装置の第１実施例の構造を概略的に示す図である。

本発明の実施例における技術的な解決手段は、本発明の実施例における添付図面を参照して以下に明瞭且つ十分に説明されるが、説明される実施例は本発明の実施例の一部に過ぎない。当業者が本発明の実施例に基づいて創造的な努力なしに得られる他の全ての実施例は、本発明の技術的範囲に含まれる。

本発明の明細書、特許請求の範囲及び上記の図の説明における「第１」、「第２」、「第３」、「第４」等の用語（該当部品が存在する場合）は、順序を規定したり部品間の前後関係を示したりするものではなく、類似する対象を区分するために用いられる。本明細書に記載される実施例が、当該図面に示され、説明される内容と異なる順序であっても実施可能にするために、適切な場合には、部品の番号を入れ替えて用いることもできる。また、「含む」、「備える」及びこれらに準じる他の用語は、非排他的な包括の場合を含むことを意図するために用いられるものであり、例えば、いくつかのステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明示されているステップ又はユニットに必ずしも限定されるものではなく、明示されていない他のステップ又はユニットや、当該プロセス、方法、製品又は機器に固有の他ステップ又はユニットを含んでもよい。

図１は、本発明に係るアプリケーションプログラムをウェイクアップする処理方法の第１実施例１の概略的なフローチャートである。図１に示すように、本実施例に係るアプリケーションプログラムをウェイクアップする処理方法は、以下のステップＳ１０１〜ステップＳ１０３を含む。
ステップＳ１０１：ユーザが入力した第１音声データを収集する。
ステップＳ１０２：第１音声データを認識する。
ステップＳ１０３：第１音声データに１回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、目的アプリケーションプログラムに対してウェイクアップ操作を実行する。

本実施例を実行する機器は、音声収集機能及び処理機能を備える電子機器であってもよい。例えば、電子機器は、ラップトップコンピュータ、内蔵型コンピュータを含むコンピュータ用ディスプレイ、タブレットコンピュータ、携帯電話、メディアプレーヤ、他のハンドヘルド式電子機器やポータブル式電子機器、時計型ウェアラブルデバイス、装着型ウェアラブルデバイス、ヘッドホン、イヤフォン、他のウェアラブルデバイスやマイクロデバイスに搭載された表示機能を備える小型機器、テレビ、内蔵型コンピュータを含まないコンピュータ用ディスプレイ、ゲーム機、航法装置、組み込みシステム（例えば、ディスプレイを備える電子機器をキオスク端末又は自動車に取り付けて構成されるシステム）、上記機器のうち２つ以上の機能を実現するための機器、又は、デスクトップコンピュータ（Computer）、ノートパソコン（Notebook）、タブレットパソコン（Pad）、スマートフォン（Smart Phone）、ウォッチ型ウェアラブル端末（Smart Watch）、メガネ型ウェアラブル端末、ワークステーション、データベースやサーバ等であってもよい。

具体的には、電子機器は、マイクロフォン、ヘッドホン等の音声処理機器を介してユーザの音声を第１音声データとして収集し、第１音声データに対して認識処理を行ってもよい。また、電子機器は、電子機器にインストールされた目的アプリケーションプログラム毎にウェイクアップワードを予め設定し、当該ウェイクアップワードがユーザの第１音声データに出現する場合に、当該ウェイクアップワードに対応する目的アプリケーションプログラムをウェイクアップしてもよい。例えば、写真を管理するアプリケーションプログラムに対応するウェイクアップワードを「アルバム」とし、天気予報アプリケーションプログラムに対応するウェイクアップワードを「天気」とする。なお、アプリケーションプログラムは、電子機器そのものであってもよい。例えば、空気清浄専用装置が空気清浄機能のみを有しており、当該空気清浄装置にインストールされた空気清浄アプリケーションプログラムに対応するウェイクアップワードを「清浄」とする。この場合、空気清浄装置が収集したユーザの第１音声データが「清浄、開始」であれば、空気清浄アプリケーションプログラムがウェイクアップされる。すなわち、空気清浄装置そのものがウェイクアップされ、内蔵されているアプリケーションプログラムを動作させて当該ウェイクアップに応答する。

しかしながら、ユーザが音声で指示を発する場合、言い間違えや繰り返し表現することによって、１つの文においてアプリケーションプログラムに対応するウェイクアップワードが複数回出現する可能性がある。例えば、天気予報アプリケーションプログラムに対応するウェイクアップワードが「こんにちは」である場合に、ユーザが天気を聞きたくて電子機器に対して「こんにちは、今日、こんにちは、明日の天気は？」という音声指示を発すると（すなわち、ユーザは、元々、明日の天気を知りたいのに、音声指示において「今日」と言い間違えてしまった）、電子機器は、「こんにちは、今日、こんにちは、明日の天気は？」を第１音声データとして収集する。しかしながら、音声データを認識してアプリケーションプログラムをウェイクアップするという従来技術では、ユーザが第１音声データによって伝えたい意味を正確に捉えることができない。

したがって、本実施例のステップＳ１０３では、認識された第１音声データにウェイクアップワードが出現する毎に、ウェイクアップワードに対応する目的アプリケーションプログラムをウェイクアップすることによって、目的アプリケーションプログラムは、各ウェイクアップワード以後の音声データに対して音声認識操作を行うことができる。例えば、上記実施例において、第１音声データに「こんにちは」というウェイクアップワードが２回出現する場合には、電子機器は、１回目の「こんにちは」が出現した後に目的アプリケーションプログラムの天気予報アプリケーションプログラムをウェイクアップし、このアプリケーションプログラムが、「こんにちは」という音声を認識する。電子機器は、２回目の「こんにちは」が出現した後に、目的アプリケーションプログラムの天気予報アプリケーションプログラムをウェイクアップし、このアプリケーションプログラムが「明日の天気は？」という音声を認識する。すなわち、繰り返し表現され、意味がはっきりしない第１音声データにおいてウェイクアップワードが出現する毎に、目的アプリケーションプログラムがウェイクアップされる。従来技術であれば、第１音声データ全体によって目的アプリケーションプログラムをウェイクアップし、「今日、こんにちは、明日の天気は？」という第１音声データ全体を認識するので、構文的に問題がある文章の場合には目的アプリケーションプログラムを認識し難くなる。本実施例に係るアプリケーションプログラムをウェイクアップする処理方法では、ユーザが一続きで発した第１音声データにおいてウェイクアップワードが出現する毎に目的アプリケーションプログラムをウェイクアップすることによって、アプリケーションプログラムのウェイクアップにおける信頼性が向上し、さらに、アプリケーションプログラムがウェイクアップワード以後の音声データに対して音声認識操作を行う際の難易度を下げることができる。

オプションとして、上記実施例では、第１音声データに目的アプリケーションプログラムのウェイクアップワードが出現した場合、第１音声データに含まれる目的アプリケーションプログラムの部分ウェイクアップワードが認識される毎に、目的アプリケーションプログラムをウェイクアップしてもよい。例えば、画像を処理するアプリケーションプログラムに対応するウェイクアップワードが「画像処理」である場合、ユーザが、同アプリケーションプログラムによってアルバムに保存される画像を処理するために「画像処理、画像調整」という音声指示を発すると、電子機器は、「画像処理、画像調整」という第１音声データを収集する。電子機器は、「画像処理」というウェイクアップワードの前半部分の「画像」というワードを認識すると直ぐに、当該画像を処理するアプリケーションプログラムをウェイクアップしてもよい。次に、画像を処理するアプリケーションプログラムが「画像調整」という音声を認識する。これにより、例えば、長いウェイクアップワードが設定されたり、電子機器の処理速度が遅かったりする場合であっても、部分ウェイクアップワードが認識されたら直ぐに目的アプリケーションプログラムをウェイクアップするように、ウェイクアップを前倒しする方式を採用することによって、アプリケーションプログラムに対するウェイクアップの効率を高めることができ、ユーザエクスペリエンスを向上させることができる。なお、本例において、「画像処理」の一部として「画像」というワードが選択されているが、これに限定されず、実際には、ウェイクアップワードの長さＮ、話の内容やユーザの話すスピード等のパラメータに基づいて、ウェイクアップワードに含まれるＮ個の単語のうち、始めからＭ個の単語を部分ウェイクアップワードに設定し、設定された部分ウェイクアップワードに基づいて、アプリケーションプログラムに対してウェイクアップ操作を実行してもよい。

オプションとして、上記実施例では、第１音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、第１音声データからｉ回目（ｉは２以上の正の整数である）のウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御してもよい。また、第１音声データにｉ回目（ｉは２以上の正の整数である）に出現したウェイクアップワードに対してウェイクアップ操作を実行した後に、第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を実行してもよい。

例えば、上記実施例において、電子機器が収集した「こんにちは、今日、こんにちは、明日の天気は？」というユーザの第１音声データには、「こんにちは」というウェイクアップワードが２回出現する。ここで、１回目の「こんにちは」以後の音声データは、言い間違えによって意味のないデータということが明らかであるものの、目的アプリケーションプログラムは、この部分のデータ（すなわち「今日」）に対して音声認識を行う必要がある。本実施例では、第１音声データに２回目に出現した「こんにちは」が認識されると、「今日」に対する音声認識操作を停止して、２回目の「こんにちは」以後の「明日の天気は？」に対する音声認識操作を行うように目的アプリケーションプログラムを制御する。すなわち、本実施例は、１回目のウェイクアップを完了した後に、これに対応する音声認識が終了しないうちにユーザが再度音声ウェイクアップを行った場合には、待機状態を保つのではなく、現在進行中の音声認識をキャンセルすることができる。これにより、ユーザによる音声ウェイクアップ及び音声認識の要求に素早く応答することができ、ユーザが再度音声対話をスタートする際に、一定の時間待たなければならないという問題を解決することができる。よって、ウェイクアップワードが複数回出現する場合には、意味のない音声データが目的アプリケーションプログラムに認識される等のように目的アプリケーションプログラムが無効な認識を実行する回数を減らすことができ、アプリケーションプログラムのウェイクアップにおける信頼性をある程度向上させることができる。

オプションとして、上記実施例では、第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップは、当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データをサーバに認識させるステップを含んでもよい。

オプションとして、上記各実施例では、第１音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、第１音声データにおける当該ウェイクアップワードの終了位置であってもよい。

さらに、上記方法は、第１音声データにおける認識されたウェイクアップワードの終了位置及び認識されたウェイクアップワードの長さ情報を判別するステップと、終了位置及び長さ情報に基づいて、第１音声データにおける認識されたウェイクアップワードの開始位置を判別するステップと、開始位置を取得時の開始位置として判別するステップと、を含んでもよい。

さらにまた、上記方法は、第１音声データから認識される音声データを特定するようにサーバに指示するために、長さ情報及び／又は認識されたウェイクアップワードをサーバに送信するステップを含んでもよい。

例えば、図２は、本発明に係るアプリケーションプログラムをウェイクアップする処理方法の第２実施例のプロセスを概略的に示す図である。従来技術では、ユーザの音声データにおけるウェイクアップワードに対して電子機器が実行する音声ウェイクアップは、ある程度の遅延を伴う。例えば、電子機器が「こんにちは、今日北京の天気は？」というユーザの第１音声データを収集した場合、音声ウェイクアップにおける遅延によって、ウェイクアップワード以後に続く「今日北京」が抜けてしまい、「の天気は？」という部分のみがウェイクアップワード以後の音声データとして認識され、アプリケーションプログラムのウェイクアップにおける信頼性及びアプリケーションプログラムによる音声データ認識の精度が低下する場合がある。したがって、図２に示す本発明の実施例では、電子機器の音声録音モジュールがユーザの音声データを収集した後に、書き込みデータストリームによって音声データをリングバッファに書き込む。リングバッファは、例えば１５秒の音声データを保存するように設計されてもよい。１５秒のリングバッファエリアが満たされると、１６秒目のデータが１秒目のデータを上書きするように繰り返す仕組みになっている。なお、経験データによれば、人間が話す時に生成する音声データのスピードは、一般的に１６ｋ／ｓであるため、リングバッファのデータのサイズは、１５×１６ｋ＝２４０ｋとなり、電子機器のメモリに保存することができる。図２に示すように、音声読み取りモジュールは、リングバッファから継続的に録音データを読み取り、毎回読み取られる録音データを、上記実施例における第１音声データとみなすことができる。このように、音声読み取りモジュールがリングバッファから第１音声データを収集した後に、第１音声データをウェイクアップモジュールに送信し、ウェイクアップモジュールにおいて第１音声データを認識してウェイクアップを実行する。音声ウェイクアップに成功した場合には、音声読み取りモジュールがウェイクアップワードの最終ビット（音声データにおいて「こんにちは」が終了したビットが、ウェイクアップワードの最終ビットである）以後の音声データを全て認識モジュールに送信して音声データの認識を行う。すなわち、実施例１における目的アプリケーションプログラムにおいてウェイクアップワード以後の音声データに対して音声認識操作を行うという操作となる。ここで、図２に示す認識モジュールをサーバに設け、電子機器上の音声読み取りモジュールがウェイクアップワード以後のデータを全てサーバに送信して、当該ウェイクアップワード以後の音声データをサーバに認識させてもよい。

特に、本実施例では、音声読み取りモジュールがリングバッファから継続的に音声データを読み取り、毎回読み取られた音声データを上記実施例における第１音声データとし、音声読み取りモジュールが音声データを読み取る頻度を、リングバッファ全体が更新される頻度よりも大きく設定することによって、収集されリングバッファに記憶される音声データを漏れなく認識することが可能になる。例えば、上記実施例の場合には、「こんにちは、今日北京の天気は？」という音声データ全体がリングバッファに送信された後に、音声データの取得、認識及び後続のアプリケーションプログラムのウェイクアップを行うことによって、全ての音声データを漏れなく認識することができ、音声によって連続的にウェイクアップされるという問題を解決して、アプリケーションプログラムのウェイクアップにおける信頼性を向上させることができるとともに、アプリケーションプログラムによる音声認識の精度を向上させることができる。

また、第１音声データにおけるウェイクアップワード以後の音声データをリングバッファからより正確に読み取るために、ウェイクアップワードの開始位置を取得する必要がある。本実施例では、音声読み取りモジュールが読み取った第１音声データにウェイクアップワードが存在する場合には、ウェイクアップワードの開始点の位置情報を取得した後に、開始点以後の音声データの全てを図２に示す音声認識モジュールに送信する。実際には、ウェイクアップワードの開始点の位置を取得することができない場合には、ウェイクアップワードの語尾（「こんにちは」の音声データが終了するビットは、ウェイクアップワードの語尾位置である）の位置情報を取得した後に、語尾位置からＮ秒前までのデータをウェイクアップワードの開始点の位置とみなすことができる。ここで、Ｎ秒は、経験から得られた値であってもよい。例えば、ユーザが「こんにちは」というウェイクアップワードを発話する場合を観察すると、最大で１秒を要している。これにより、本実施例では、音声読み取りモジュールは、ウェイクアップワードの音声データ及びウェイクアップワード以後の認識すべき音声データの何れも認識モジュールに送信して認識させ、送信する際にウェイクアップワードの音声データの長さ及び認識結果を付随させてもよい。これにより、認識モジュールは、第１音声データを、当該長さに基づいて２つの部分に構成することができる。ここで、第１部分のデータは、ウェイクアップワードの音声データであり、第２部分のデータは、認識対象となる音声の音声データである。

オプションとして、上記実施例に係る方法は、第１音声データを収集するときの環境情報に基づいて、第１音声データの信頼度を示す重み値を判別するステップと、認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するようにサーバに指示するために、重み値をサーバに送信するステップと、を含む。具体的に説明すると、認識モジュールは、一般的にクラウドに設けられ得るので、認識モジュールが第１音声データにおけるウェイクアップワード以後の音声データを受信した場合には、これに含まれるウェイクアップワードに対して二次認識を行うこともできる。認識して得られた結果が電子機器のウェイクアップモジュールに設定されたウェイクアップワードの判別結果と同一である場合には、ウェイクアップが正確に行われたと認識されてもよく、結果が異なる場合には、ウェイクアップが正確に行われなかったいと認識されてもよい。また、電子機器上のウェイクアップモジュールが第１音声データ内のウェイクアップワードを認識する際に重み値を付随させ、当該重み値が予め設定された閾値よりも大きい場合には、ローカルのウェイクアップモジュールによる認識結果を使用してもよく、クラウドにおいてウェイクアップデータの二次認識の要否に関する判別を行わなくてもよい。逆に、重み値が予め設定された閾値よりも小さい場合には、認識モジュールが二次認識を行う必要があると判別されてもよい。例えば、ウェイクアップモジュールが静かな環境で収集したユーザの第１音声データを認識した後に、当該データの信頼性が高いとする場合には、例えば９０％等の大きな重み値を付随させ、クラウドにおいて重み値が５０％よりも大きいと判別することによって、二次認識の要否に関する判別を行わなくてもよい。ウェイクアップモジュールが、雑音の大きな環境においてユーザの第１音声データを認識した場合には、当該データの信頼性が低い可能性があるとして例えば２０％等の小さな重み値を付随させ、クラウドにおいて重み値が５０％よりも小さいと判別することによって、ウェイクアップワードが二次認識を行う必要があると判別されてもよい。これにより、アプリケーションプログラムのウェイクアップにおける信頼性を向上させるとともに、アプリケーションプログラムによる音声認識の精度を向上させることができる。

図３は、本発明に係るアプリケーションプログラムのウェイクアップを処理する装置の第１実施例の構造を概略的に示す図である。本実施例に係るアプリケーションプログラムのウェイクアップを処理する装置は、収集モジュール３０１と、認識モジュール３０２と、ウェイクアップモジュール３０３と、を含む。

モジュール３０１は、ユーザが入力した第１音声データを収集する。認識モジュール３０２は、第１音声データを認識する。ウェイクアップモジュール３０３は、第１音声データに１回以上出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、目的アプリケーションプログラムに対してウェイクアップ操作を実行する。

本実施例に係るアプリケーションプログラムのウェイクアップを処理する装置は、図１に示す実施例に係るアプリケーションプログラムのウェイクアップ方法を実行するためのものであり、同一の技術的特徴及び有益な効果を有することから、詳細な説明については省略する。

オプションとして、上記実施例では、ウェイクアップモジュール３０３は、第１音声データに目的アプリケーションプログラムのウェイクアップワードが出現する場合に、第１音声データに含まれる目的アプリケーションプログラムの部分ウェイクアップワードが認識される毎に、目的アプリケーションプログラムに対してウェイクアップ操作を実行してもよい。

オプションとして、上記実施例では、ウェイクアップモジュール３０３は、第１音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、第１音声データからｉ回目（ｉは２以上の正の整数である）のウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御してもよい。

オプションとして、上記実施例では、認識モジュール３０２は、第１音声データにおいてｉ回目（ｉは２以上の正の整数である）に出現するウェイクアップワードに対してウェイクアップ操作を実行した後に、第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行ってもよい。

オプションとして、上記実施例では、認識モジュール３０２は、当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データをサーバに認識させてもよい。

オプションとして、上記実施例では、第１音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、第１音声データにおける当該ウェイクアップワードの終了位置であってもよい。

オプションとして、上記実施例では、認識モジュール３０２は、第１音声データにおける認識されたウェイクアップワードの終了位置及び認識されたウェイクアップワードの長さ情報を判別し、終了位置及び長さ情報に基づいて、第１音声データにおける認識されたウェイクアップワードの開始位置を判別し、開始位置を取得時の開始位置として判別してもよい。

オプションとして、上記実施例では、認識モジュール３０２は、第１音声データから認識される音声データを特定するようにサーバに指示するために、長さ情報及び／又は認識されたウェイクアップワードをサーバに送信してもよい。

オプションとして、上記実施例では、認識モジュール３０２は、第１音声データを収集するときの環境情報に基づいて、第１音声データの信頼度を示す重み値を判別し、認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するようにサーバに指示するために、重み値をサーバに送信してもよい。

上記実施例に係るアプリケーションプログラムのウェイクアップを処理する装置は、前記実施例に示すアプリケーションプログラムのウェイクアップ方法を実行するためのものであり、同一の技術的特徴及び有益な効果を有していることから、詳細な説明については省略する。

本発明は、電子機器において実行されると、上記各実施例の何れかに記載の方法を電子機器に実行させるためのプログラムを含む、電子機器可読記憶媒体を提供する。

本発明の一実施例では、電子機器を提供する。当該電子機器は、実行可能命令を実行すると、上記何れかの実施例に係るアプリケーションプログラムをウェイクアップする処理方法を実行するように構成されたプロセッサと、当該実行可能指令を記憶するメモリと、を含む。

本発明の一実施例では、アプリケーションプログラムのウェイクアップを処理する装置を提供する。当該装置は、メモリと、前記メモリに記憶されたコンピュータプログラムと、前記コンピュータプログラムを実行すると、上記各実施例に記載されたアプリケーションプログラムをウェイクアップする処理方法を実行するプロセッサと、を含む。

本発明の一実施例では、記憶媒体を提供する。当該記憶媒体は、可読記憶媒体と、前記可読記憶媒体に記憶され、上記各実施例に記載されたアプリケーションプログラムをウェイクアップする処理方法を実現するためのコンピュータプログラムと、を含む。

本発明の一実施例では、プログラム製品を提供する。当該プログラム製品は、可読記憶媒体に記憶されたコンピュータプログラム（すなわち、実行命令）を含む。符号化装置の少なくとも１つのプロセッサは、可読記憶媒体から当該コンピュータプログラムを読み取ることができ、符号化装置が上記各実施形態に係るアプリケーションプログラムをウェイクアップする処理方法を実行することができるように、前記少なくとも１つのプロセッサが当該コンピュータプログラムを実行する。

当業者に明らかであるように、上記各方法の実施例を実施するステップの全部又は一部は、コンピュータ可読媒体に記憶されたプログラムによって、関連するハードウェアを操作することで実行することができる。当該プログラムを実行する場合には、上記各方法に関する実施例のステップが実行され、前記媒体は、ＲＯＭ、ＲＡＭ、磁気ディスク、コンパクトディスク等のようにプログラムコードを記憶可能な様々な媒体を含む。

なお、上記各実施例は、本願発明を説明するものに過ぎず、本願発明に対して限定を加えるものではない。上記各実施例を参照して本発明について詳細に説明しているが、当業者は、上記各実施例に記載された発明に変更を加えてもよいし、その一部又は全ての技術的特徴に対して等価な置換を行ってもよい。このような変更や置換は、本願の各実施例に係る発明から逸脱するものではない。

Claims

アプリケーションプログラムをウェイクアップする処理方法であって、
ユーザが入力した第１音声データを収集するステップと、
前記第１音声データを認識するステップと、
前記第１音声データに出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するステップと、
前記第１音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、前記第１音声データからｉ回目（ｉは２以上の正の整数である）の前記ウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御するステップと、を含む、
ことを特徴とする方法。
前記第１音声データにおいてｉ回目（ｉは２以上の正の整数である）に出現する前記ウェイクアップワードに対してウェイクアップ操作を実行した後に、前記第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップを含む、
ことを特徴とする請求項１に記載の方法。
前記第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を行うステップは、
当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データを前記サーバに認識させるステップを含む、
ことを特徴とする請求項２に記載の方法。
前記第１音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、前記第１音声データにおける当該ウェイクアップワードの終了位置である、
ことを特徴とする請求項３に記載の方法。
前記第１音声データにおける認識されたウェイクアップワードの終了位置及び前記認識されたウェイクアップワードの長さ情報を判別するステップと、
前記終了位置及び前記長さ情報に基づいて、前記第１音声データにおける認識されたウェイクアップワードの開始位置を判別するステップと、
前記開始位置を取得時の開始位置として判別するステップと、を含む、
ことを特徴とする請求項４に記載の方法。
前記第１音声データから認識される音声データを特定するように前記サーバに指示するために、前記長さ情報及び／又は前記認識されたウェイクアップワードをサーバに送信するステップを含む、
ことを特徴とする請求項５に記載の方法。
前記第１音声データを収集するときの環境情報に基づいて、前記第１音声データの信頼度を示す重み値を判別するステップと、
前記認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するように前記サーバに指示するために、前記重み値を前記サーバに送信するステップと、を含む、
ことを特徴とする請求項６に記載の方法。
アプリケーションプログラムのウェイクアップを処理する装置であって、
ユーザが入力した第１音声データを収集する収集モジュールと、
前記第１音声データを認識する認識モジュールと、
前記第１音声データに出現する目的アプリケーションプログラムのウェイクアップワードが認識される毎に、前記目的アプリケーションプログラムに対してウェイクアップ操作を実行するウェイクアップモジュールであって、前記第１音声データに目的アプリケーションプログラムのウェイクアップワードが複数回出現する場合に、前記第１音声データからｉ回目（ｉは２以上の正の整数である）の前記ウェイクアップワードが認識されると、当該ウェイクアップワード以前の音声データに対して実行されている音声認識操作を停止するように当該目的アプリケーションプログラムを制御するウェイクアップモジュールと、を含む、
装置。
前記認識モジュールは、
前記第１音声データにおいてｉ回目（ｉは２以上の正の整数である）に出現する前記ウェイクアップワードに対してウェイクアップ操作を実行した後に、前記第１音声データにおける当該ウェイクアップワード以後の音声データに対して音声認識操作を実行する、
ことを特徴とする請求項８に記載の装置。
前記認識モジュールは、
当該ウェイクアップワード以後の音声データをサーバに送信して、当該ウェイクアップワード以後の音声データを前記サーバに認識させる、
ことを特徴とする請求項９に記載の装置。
前記第１音声データにおける当該ウェイクアップワード以後の音声データの開始位置は、前記第１音声データにおける当該ウェイクアップワードの終了位置である、
ことを特徴とする請求項１０に記載の装置。
前記認識モジュールは、
前記第１音声データにおける認識されたウェイクアップワードの終了位置及び前記認識されたウェイクアップワードの長さ情報を判別し、
前記終了位置及び前記長さ情報に基づいて、前記第１音声データにおける前記認識されたウェイクアップワードの開始位置を判別し、
前記開始位置を取得時の開始位置として判別する、
ことを特徴とする請求項１１に記載の装置。
前記認識モジュールは、
前記第1音声データから認識され音声データを特定するように前記サーバに指示するために、前記長さ情報及び／又は前記認識されたウェイクアップワードをサーバに送信する、
ことを特徴とする請求項１２に記載の装置。
前記認識モジュールは、
前記第１音声データを収集するときの環境情報に基づいて、前記第１音声データの信頼度を示す重み値を判別し、前記認識されたウェイクアップワードに対して二次認識を行う必要があるか否かを判別するように前記サーバに指示するために、前記重み値を前記サーバに送信する、
ことを特徴とする請求項１３に記載の装置。
電子機器において実行されると、請求項１〜７の何れか１項に記載の方法を前記電子機器に実行させるためのプログラムを含む、
ことを特徴とする電子機器可読記憶媒体。