JP2021099533A

JP2021099533A - 音声インタラクション処理方法、装置及び電子機器

Info

Publication number: JP2021099533A
Application number: JP2021043721A
Authority: JP
Inventors: コイホー; Gui He
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2021-03-17
Publication date: 2021-07-01
Also published as: CN111354360A; KR20210038460A; KR102523350B1

Abstract

【課題】電子機器が対応するサービスをユーザに適時に提供することを可能にし、それによってユーザエクスペリエンスを向上させる音声インタラクション処理方法、装置及び電子機器を提供する。【解決手段】方法は、音声データを受信し、この音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する、ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれる音声ライブラリとマッチングさせ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、ウェイクアップされることなく、音声データに対応する動作を直接実行する。【選択図】図２

Description

本出願は、データ技術分野、特に音声技術分野に関する。

人工知能技術の発展に伴い、ユーザは日常生活で音声インタラクション方式を通じて電子機器からサービスを受けることがますます多くなっている。

現在、ほとんどの電子機器は、ユーザによってウェイクされる必要があり、ユーザは、電子機器をウェイクアップしないと、音声クエリ（ｑｕｅｒｙ）要求を正常に開始できず、すなわち、ユーザは電子機器と対話できない。ユーザが音声クエリ要求を開始するたびに電子機器をウェイクアップしなければならないという状況のため、ユーザエクスペリエンスが劣化することになる。これに基づいて、従来技術では、ウェイクフリー方式が提供されており、電子機器は、予め設定されたいくつかのウェイクフリーワードについて大量のコーパスデータを収集し、これらのコーパスデータに基づいて初期ウェイクモデルを継続的に訓練してウェイクモデルを得る。これにより、電子機器は、音声データを取得した時、取得した音声データを訓練により得られたウェイクモデルとマッチングさせ、予め設定されたウェイクフリーワードとマッチングした場合、電子機器をウェイクアップする。

しかしながら、上記のウェイクフリー方式では、予め設定されたウェイクフリーワードの数が限られているため、音声データに予め設定されたウェイクフリーワードが含まれていない場合には、電子機器が対応するサービスを適時に提供できず、ユーザエクスペリエンスの劣化を引き起こすことがある。

本出願の実施例は、電子機器が対応するサービスをユーザに適時に提供することを可能にし、それによってユーザエクスペリエンスを向上させることができる音声インタラクション処理方法、装置及び電子機器を提供する。

第１の態様では、本出願の実施例は、
音声データを受信するステップと、
前記音声データを、現在フォアグラウンド（ｆｏｒｅｇｒｏｕｎｄ）で実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれているステップと、
マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるステップと、を含む音声インタラクション処理方法を提供する。

これから分かるように、従来技術とは異なり、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。

第２の態様では、本出願の実施例は、
音声データを受信するための受信モジュールと、
前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるためのものであって、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれている処理モジュールとを含み、
前記処理モジュールは、さらに、マッチングが成功した場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるために用いられる、音声インタラクション処理装置をさらに提供する。

第３の態様では、本出願の実施例は、
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、そのうち、前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶しており、前記少なくとも１つのプロセッサが上記の第１の態様のいずれかの可能な実施形態に記載の音声インタラクション処理方法を実行することを可能にするように、前記命令が前記少なくとも１つのプロセッサによって実行される、電子機器をさらに提供する。

第４の態様では、本出願の実施例は、コンピュータ命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、上記第１の態様のいずれかの可能な実施形態に記載の音声インタラクション処理方法をコンピュータに実行させるために用いられる。

第５の態様では、本出願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータ可読記憶媒体に記憶され、電子機器の少なくとも１つのプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサは、前記コンピュータプログラムを実行することによって、前記電子機器に上記第１の態様のいずれかの可能な実施形態に記載の音声インタラクション処理方法を実行させる。

上記の出願の一実施例は、以下の利点又は有益な効果を有する。音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。したがって、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。

上記任意選択的な形態が有する他の効果は、具体的な実施例を参照して以下で説明される。

図面は、本技術案をよく理解しやすくするためのものであり、本出願を制限するものではない。
本出願の実施例による音声インタラクション処理方法の適用シーンの模式図である。本出願の実施例１による音声インタラクション処理方法の模式的フローチャートである。本出願の実施例２による音声インタラクション処理方法の模式的フローチャートである。音声ライブラリの更新の模式図である。本出願の実施例３による音声インタラクション処理方法の模式的フローチャートである。本出願の実施例による音声インタラクション処理装置６０の構造模式図である。本出願の実施例に係る音声インタラクション処理方法を実現するための電子機器のブロック図である。

以下では、図面を参照しながら本出願の例示的な実施例を説明するが、この説明には、理解を容易にするために本出願の実施例の様々な詳細が含まれるが、これらは単に例示的なものであると考えられるべきである。したがって、当業者が理解できるように、本出願の範囲及び精神を逸脱することなく、ここで記載される実施例に対して様々な変更及び修正を行うことができる。同様に、以下の説明では、明確化及び簡明化のために、周知の機能及び構造については、説明を省略する。

本出願の実施例において、「少なくとも１つ」は１つ又は複数を意味し、「複数」は２つ又はそれ以上を意味する。「及び／又は」は、関連付けられた対象の関連関係を記述し、３つの関係が存在し得ることを表し、たとえば、Ａ及び／又はＢは、Ａが単独で存在する場合、ＡとＢの両方が存在する場合、Ｂが単独で存在する場合の３つの場合を表し、ここで、Ａ、Ｂは単数又は複数であってもよい。本出願の説明において、「／」という符号は、一般に、前後の関連付けられた対象が「又は」の関係であることを意味する。

本出願の実施例では、電子機器は、情報通信をサポートし、音声データを処理することができる様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ポータブルコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。

音声インタラクション方式で電子機器からサービスを受けるためには、まず、電子機器をウェイクアップする必要があるが、この方式は、ユーザの操作が煩雑になり、ユーザエクスペリエンスが悪くなる。これに基づいて、現在、電子機器が予め設定されたいくつかのウェイクフリーワードについて大量のコーパスデータを収集し、これらのコーパスデータに基づいて初期ウェイクモデルを継続的に訓練してウェイクモデルを得る方法もある。これにより、電子機器は、音声データを取得した時、取得した音声データを訓練により得られたウェイクモデルとマッチングさせ、予め設定されたウェイクフリーワードとマッチングした場合、電子機器をウェイクアップする。しかし、予め設定されたウェイクフリーワードの数は限られており、また、電子機器から取得したい関連サービスは人によって異なるため、ユーザが電子機器を使用して関連サービスを取得し、電子機器に入力した音声データに上記の予め設定されたウェイクフリーワードが含まれていない場合、電子機器は対応するサービスを適時に提供できないことになり、それによってユーザエクスペリエンスの劣化を引き起こす。

電子機器がユーザの要求に応じて、対応するサービスをユーザに適時に提供できるようにするために、ユーザがいくつかのウェイクフリーワードをカスタマイズすることとしてもよく、すなわち、電子機器のウェイクフリーの目的を達成するように、ユーザが自分の要求に応じて、電子機器にいくつかのウェイクフリーワードを事前に記憶しておく。しかし、この方法を採用すると、電子機器が、ウェイクフリー状況でユーザに関連サービスを提供する適時性をある程度で向上させることができるが、電子機器が提供できるサービスは常に変化するため、電子機器が提供するサービスが変化するとユーザはウェイクフリーワードを新たに設定する必要があり、その結果、ユーザの操作が煩雑になり、ユーザエクスペリエンスが悪くなる。

以上の検討に基づいて、電子機器が対応するサービスをユーザに適時に提供することを可能にして、ユーザエクスペリエンスを向上させるために、本出願の実施例は、音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる音声インタラクション処理方法を提供する。これから分かるように、従来技術とは異なり、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。

本出願の実施例による音声インタラクション処理方法は、音声認識のシーンに適用し、特に、ウェイクフリー方式で電子機器を制御して、関連サービスを取得するシーンに適用することができることが理解されるであろう。以下、ある映画シーンを再生するように電子機器を音声方式で制御する場合を例として、音声インタラクション処理をどのように行うかについて詳細に説明する。

図１は、本出願の実施例による音声インタラクション処理方法の適用シーンの模式図であり、図１に示すように、ユーザが電子機器である映画を再生したい場合、ユーザは、「映画Ｃを再生しなさい」という音声データを電子機器に入力し、電子機器は、この音声データを受信すると、現在フォアグラウンドで実行されているターゲットアプリケーション（ａｐｐｌｉｃａｔｉｏｎ、ＡＰＰ）を確定し、現在フォアグラウンドで実行されているターゲットアプリケーションがあるビデオアプリケーションであると確定した場合、「映画Ｃを再生しなさい」がこのビデオアプリケーションの音声ライブラリにあるか否かを問い合わせる。「映画Ｃを再生しなさい」がこのビデオアプリケーションの音声ライブラリにあれば、電子機器は、電子機器をウェイクアップする必要がなく、つまり、ウェイクエンジンをオフにし、認識エンジンを直接オンにして、受信した「映画Ｃを再生しなさい」を認識することで、映画Ｃの再生を開始する。このように、ウェイクフリー方式により、対応するサービスをユーザに提供することができ、従来技術における、ユーザが入力する音声データに予め設定されたウェイクフリーワードを含まなければ端末がサービスを提供できないという現象を回避し、これによって、電子機器がサービスを提供する適時性を向上させることができ、それによってユーザエクスペリエンスを向上させることができる。

以下、本出願による音声インタラクション処理方法について、具体的な実施例により詳細に説明する。以下のいくつかの具体的な実施例は、互いに組み合わせることができ、同一又は類似の概念又はプロセスについては、いくつかの実施例では詳しく説明しないことがあることが理解されるであろう。

図２は、本出願の実施例１による音声インタラクション処理方法の模式的フローチャートであり、この音声インタラクション処理方法は、ソフトウェア及び／又はハードウェア装置によって実行することができ、たとえば、このハードウェア装置は、音声インタラクション処理装置であってもよく、該音声インタラクション処理装置は電子機器又は車載端末に配置することができる。一例として、図２に示すように、この音声インタラクション処理方法は、ステップＳ２０１〜Ｓ２０３を含むことができる。

Ｓ２０１において、音声データを受信する。

Ｓ２０２において、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる。

ただし、音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれている。

このステップでは、電子機器は、ユーザから入力された音声データを受信すると、現在、電子機器における、フォアグラウンドで実行されているターゲットアプリケーションを確定し、且つ、受信した音声データを、このターゲットアプリケーションの音声ライブラリとマッチングさせ、すなわち、この音声データがターゲットアプリケーションの音声ライブラリにあるか否かを問い合わせる。

ただし、ターゲットアプリケーションは、ユーザにサービスを提供できる様々なプラットフォームを含むことができ、たとえば、ビデオアプリケーション、画像処理アプリケーション、インスタントコミュニケーションアプリケーション、及びナビゲーションアプリケーションなどであってもよい。

Ｓ２０３において、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。

このステップでは、音声データとターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した場合、すなわち、ターゲットアプリケーションに対応する音声ライブラリにこの音声データが存在する場合、電子機器を制御してウェイクフリー機能を起動させ、つまり、電子機器をウェイクアップすることなく、受信した音声データを直接認識して、この音声データに対応する動作を実行する。

本実施例では、電子機器は、受信した音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功する限り、電子機器を制御して音声データに対応する動作を実行させることができ、それによって従来技術における、電子機器がウェイクアップされた後、ユーザが予め設定された期間内にしか電子機器とインタラクションすることができず、予め設定された期間が過ぎると、電子機器を再度ウェイクアップする必要があるという現象を回避し、それによって、ユーザと電子機器との間の複数回のインタラクションを可能とする。

本出願の実施例による音声インタラクション処理方法は、音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。したがって、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。

さらに、電子機器内で実行されるアプリケーションについては、それに対応する音声ライブラリを予め作成する必要があり、この音声ライブラリには、このアプリケーションに関連付けられているか、又は相関の複数の制御コマンドが含まれている。一例として、この音声ライブラリは、ユーザによって予め登録されていてもよいし、アプリケーション開発者によって予め入力されて記憶されていてもよい。

なお、異なるアプリケーションに対応する音声ライブラリ内の制御コマンドは、同じであってもよく、異なってもよい。たとえば、ビデオアプリケーションでは、それに対応する音声ライブラリには、「映画Ａを再生しなさい」、「再生」、「一時停止」、「次のページ」、「前のページ」などが記憶されていることがある。画像アプリケーションでは、それに対応する音声ライブラリには、「画像を見たい」、「削除」、「拡大」、「次のページ」、「前のページ」などが記憶されていることがある。

本実施例では、音声ライブラリは、アプリケーションがサポートできるサービスに応じて作成され得、これによって、音声データのマッチングの精度を向上させることができる。また、ユーザは必要に応じてウェイクフリー機能をサポートするアプリケーションのリストを登録することができ、それによって、音声インタラクション処理の柔軟性が向上する。

図３は、本出願の実施例２による音声インタラクション処理方法の模式的フローチャートであり、本実施例は、上記の各実施例に基づいて、ターゲットアプリケーションに対応する音声ライブラリを更新するプロセスを詳細に説明する。図３に示すように、この音声インタラクション処理方法は、ステップＳ３０１〜Ｓ３０２を含むことができる。

Ｓ３０１において、ターゲットアプリケーションの識別情報及び新たな制御コマンドを含む更新命令を受信する。

このステップでは、電子機器が提供できるサービスは常に変化しており、たとえば、ビデオアプリケーションにおけるビデオは常に変化しており、このため、音声データと音声ライブラリとのマッチングの精度を向上させるためには、アプリケーションに対応する音声ライブラリを常に更新する必要がある。

具体的には、ユーザは、音声方式で電子機器に更新命令を送信してもよいし、あるキーをタッチしたり、ある物理キーを押下したりすることにより、この更新命令を送信してもよいが、更新命令の具体的な送信方式については、本出願の実施例は制限しない。

Ｓ３０２において、識別情報及び新たな制御コマンドに従って、ターゲットアプリケーションの音声ライブラリを更新する。

このステップでは、電子機器が受信した更新命令には、ターゲットアプリケーションの識別情報と新たな制御コマンドとが含まれており、電子機器は、この識別情報に基づいて、この識別情報に対応するターゲットアプリケーションの音声ライブラリに対して更新を行うと確定し、次に、新たな制御コマンドに従って、ターゲットアプリケーションの音声ライブラリを更新する。ただし、更新とは、新たな制御コマンドを音声ライブラリに追加したり、新たな制御コマンドに従って音声ライブラリ内の制御コマンドを削除したりすることを含むものである。

１つの可能な実施形態では、音声ライブラリを更新する際に、電子機器は、まず、この新たな制御コマンドが音声ライブラリに既に含まれているか否かを問い合わせ、この新たな制御コマンドが音声ライブラリに既に含まれている場合、この音声ライブラリに対して更新処理を行わない。

図４は、音声ライブラリの更新の模式図であり、図４に示すように、たとえば、ユーザが「アプリケーションＡに「ビデオ１を再生しなさい」を追加する」と電子機器に入力するなど、ユーザが音声方式で更新命令を電子機器に送信すると、電子機器は、この更新命令に基づいて、アプリケーションＡの音声ライブラリに対して更新を行い、かつ、この音声ライブラリに「ビデオ１を再生しなさい」の制御コマンドを追加する必要があることを把握できる。電子機器は、図４に示すように、ユーザに追加確認ページを表示し、ユーザが「確認」をクリックすると、電子機器は、アプリケーションＡに対応する音声ライブラリに「ビデオ１を再生しなさい」の制御コマンドを追加する。ただし、電子機器は、この制御コマンドを追加する前に、アプリケーションＡに対応する音声ライブラリに「ビデオ１を再生しなさい」が既に存在するか否かを判断することができ、存在する場合、音声ライブラリを更新せず、存在しない場合、音声ライブラリにこの制御コマンドを追加する。

別の可能な実施形態では、電子機器は、ターゲットアプリケーションが提供できるサービスに基づいて、それに対応する音声ライブラリを定期的に更新することもできる。たとえば、ビデオアプリケーションでは、更新されたビデオや更新されたビデオ処理機能に基づいて、音声ライブラリ内の制御コマンドを更新し、画像処理アプリケーションでは、更新された画像や更新された画像処理機能に基づいて、音声ライブラリ内の制御コマンドを更新するなどが可能である。

本実施例では、電子機器は、更新命令を受信すると、その更新命令に従って音声ライブラリ内の制御コマンドを更新するので、音声データと音声ライブラリのマッチングの精度を向上させることができ、さらに作成された音声ライブラリ内の制御コマンドをより豊富にすることができる。

図５は、本出願の実施例３による音声インタラクション処理方法の模式的フローチャートであり、本実施例は、上記の各実施例に基づいて、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるプロセスを詳細に説明する。図５に示すように、この音声インタラクション処理方法は、ステップＳ５０１〜Ｓ５０４を含むことができる。

Ｓ５０１において、音声データを受信する。

Ｓ５０１は、Ｓ２０１の実行プロセスと同様であるので、ここでは詳しく説明しない。

Ｓ５０２において、ターゲットオブジェクトの向きを確定する。

Ｓ５０３において、ターゲットオブジェクトが電子機器に向かう場合、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる。

具体的には、実際に利用する際に、ユーザは、電子機器を介して関連サービスを取得しようとすることではなく、チャット中にターゲットアプリケーションの音声ライブラリ内のある制御コマンドを言及するだけである場合があり、たとえば、ユーザがチャット中に、「ＸＸ映画を見たい」と言及した場合、電子機器は誤って認識することにより、この制御コマンドに関連付けられた動作を実行する可能性がある。

この問題を解決するために、本出願の実施例では、電子機器は、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる際に、まずターゲットオブジェクトの向きを確定し、ターゲットオブジェクトが電子機器に向かう場合、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる。

具体的には、上記したターゲットオブジェクトは、ユーザであってもよく、電子機器に音声データを入力するユーザであると理解されてもよい。電子機器は、ユーザによって入力された音声データを受信すると、音源定位技術により、電子機器に対するユーザの角度を確定することができ、確定された角度が予め設定された値よりも小さい場合、ユーザが電子機器に向かうと確定することができ、ユーザが電子機器を介して関連サービスを取得しようとすることを示す。この場合、電子機器は、受信した音声データをターゲットアプリケーションに対応する音声ライブラリとマッチングさせることができる。

もちろん、電子機器は、たとえば、カメラによって撮影されたターゲットオブジェクトを含む画像に基づき、かつ画像を認識することにより、ターゲットオブジェクトが電子機器に向かうか否かを確定するなど、他の方式によってターゲットオブジェクトの向きを確定することもできる。ターゲットオブジェクトの向きを確定する具体的な方式については、本出願の実施例は制限しない。

本実施例では、電子機器は、ターゲットオブジェクトの向きを確定し、ターゲットオブジェクトが電子機器に向かう場合、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせることにより、電子機器の誤認識の確率を低減し、ユーザエクスペリエンスを向上させることができる。

電子機器の誤認識の確率をさらに低減するために、ターゲットオブジェクトが電子機器に向かうと確定した後、ターゲットオブジェクトと電子機器との間の距離が予め設定された値よりも小さいか否かを確定し、ターゲットオブジェクトと電子機器との間の距離が予め設定された値よりも小さいと確定した場合、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるようにしてもよい。

具体的には、上記したターゲットオブジェクトは、ユーザであってもよく、具体的な実現過程では、ユーザと電子機器との間の距離は赤外線誘導によって確定することができ、ユーザと電子機器との間の距離が予め設定された値よりも小さいと確定した場合、現在、ユーザは電子機器を操作している可能性があり、すなわちユーザは電子機器を介して対応するサービスを取得しようとすることを示し、この場合、電子機器は、受信した音声データを現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせる。

ただし、上記した予め設定された値は、実際の状況や経験に応じて設定することができ、たとえば、１０ｃｍや１５ｃｍなどに設定することができ、予め設定された値の具体的な値については、本実施例は制限しない。

本実施例では、ターゲットオブジェクトが電子機器に向かい、かつターゲットオブジェクトと電子機器との間の距離が予め設定された値よりも小さい場合、受信された音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせることができ、それによって、誤認識の確率をよりよく低減し、ユーザエクスペリエンスを向上させることができる。

Ｓ５０４において、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。

１つの可能な実施形態では、電子機器を制御してウェイクフリー機能を起動させることは、電子機器を制御して、ウェイクエンジンをオフにさせ、認識エンジンをオンにさせることであってもよい。すなわち、音声データとターゲットアプリケーションの音声ライブラリとのマッチングが成功した後、電子機器は、ウェイクエンジンをオフにし、この場合、電子機器は、ウェイクエンジンによってウェイクアップする必要がなく、認識エンジンをオンにすることによって、受信した音声データを認識して、この音声データに対応する動作を実行する。

本実施例では、音声データとターゲットアプリケーションの音声ライブラリとのマッチングが成功した後、電子機器を制御して、ウェイクエンジンをオフにさせ、認識エンジンをオンにさせ、これにより、電子機器は、ウェイクフリーの状態で、音声データを直接認識することにより、音声データに対応する動作を実行することができ、これによって、電子機器が関連サービスをユーザに提供する適時性を向上させることができ、ユーザエクスペリエンスが向上する。

さらに、音声データと現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが失敗した場合、すなわち、ターゲットアプリケーションに対応する音声ライブラリにこの音声データが存在しない場合は、この音声データを無視してもよく、電子機器はいずれの動作も実行しない。

上記の各実施例に基づいて、電子機器が、ターゲットアプリケーションがオフにされるか、又はバックグラウンドで実行されていることを監視した場合は、この電子機器を制御してウェイクフリー機能を終了させる。

ただし、この電子機器を制御してウェイクフリー機能を終了させることは、電子機器を制御してウェイクエンジンをオンにさせるとして理解でき、すなわち、電子機器は、ウェイクワードでウェイクされたこそ、ユーザに対応するサービスを提供し続けえる。

本実施例では、電子機器は、ターゲットアプリケーションがオフにされるか、又はバックグラウンド実行状態にあることを監視した場合、この電子機器を制御してウェイクフリー機能を終了させ、これによって、電子機器が関連動作を実行する精度を向上させることができるだけでなく、誤トリガを効果的に防止することができる。

また、一例として、電子機器は、ウェイクエンジンをオンにした後、認識エンジンをオフにすることができ、それによって、メモリを節約し、電力消費を低減することができる。

図６は、本出願の実施例による音声インタラクション処理装置６０の構造模式図であり、図６に示すように、この音声インタラクション処理装置６０は、
音声データを受信するための受信モジュール６０１と、
前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるためのものであって、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれている処理モジュール６０２とを含み、
前記処理モジュール６０２は、さらに、マッチングが成功した場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるために用いられる。

オプションとして、前記処理モジュール６０２は、さらに、前記ターゲットアプリケーションがオフにされるか、又はバックグラウンド実行状態にあることが監視された場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を終了させるために用いられる。

オプションとして、前記処理モジュール６０２は、さらに、前記ターゲットアプリケーションに対応する音声ライブラリを作成するために用いられる。

オプションとして、前記受信モジュール６０１は、さらに、ターゲットアプリケーションの識別情報及び新たな制御コマンドを含む更新命令を受信するために用いられ、
前記処理モジュール６０２は、さらに、前記識別情報及び前記新たな制御コマンドに従って、前記ターゲットアプリケーションの音声ライブラリを更新するために用いられる。

オプションとして、前記処理モジュール６０２は、具体的には、
ターゲットオブジェクトの向きを確定し、
前記ターゲットオブジェクトが前記音声インタラクション処理装置に向かう場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるために用いられる。

オプションとして、前記処理モジュール６０２は、具体的には、
前記ターゲットオブジェクトが前記音声インタラクション処理装置に向かう場合、前記ターゲットオブジェクトと前記音声インタラクション処理装置との間の距離が予め設定された値よりも小さいか否かを確定し、
前記ターゲットオブジェクトと前記音声インタラクション処理装置との間の距離が前記予め設定された値よりも小さい場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるために用いられる。

オプションとして、前記処理モジュール６０２は、具体的には、
前記電子機器を制御して、ウェイクエンジンをオフにさせ、認識エンジンをオンにさせるために用いられる。

本出願の実施例による音声インタラクション処理装置６０は、上記のいずれかの実施例における音声インタラクション処理方法の技術案を実行することができ、その実現の原理及び有益な効果は音声インタラクション処理方法の実現の原理及び有益効果と類似しており、音声インタラクション処理方法の実現の原理及び有益な効果を参照してもよいが、ここでは詳しく説明しない。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図７に示すように、本出願の実施例による音声インタラクション処理方法の電子機器のブロック図である。電子機器は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを示すことを意図している。電子機器は、たとえば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器、及びその他の類似のコンピューティング装置など、様々な形式の移動装置をさらに示してもよい。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書に説明及び／又は要求される本出願の実施を制限する意図はしない。

図７に示すように、この電子機器は、１つ又は複数のプロセッサ７０１と、メモリ７０２と、各コンポーネントを接続するためのインターフェースであって高速インターフェースと低速インターフェースを含むものとを含む。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ得るか、又は必要に応じて他の方式で取り付けられ得る。プロセッサは、電子機器内で実行される、ＧＵＩのグラフィックス情報を外部入力／出力装置（例えば、インターフェースに結合された表示機器）上に表示させるようにメモリ内又はメモリ上に記憶された命令を含む命令を処理することができる。他の実施形態では、複数のプロセッサ及び／又は複数のバスを、必要に応じて、複数のメモリとともに使用することができる。同様に、それぞれが必要な操作の一部（たとえば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする）を提供する複数の電子機器を接続することができる。図７では、１つのプロセッサ７０１の場合が例示されている。

メモリ７０２は、本出願による非一時的なコンピュータ読み取り可能な記憶媒体である。ただし、前記メモリは少なくとも１つのプロセッサによって実行可能な命令を記憶していることで、前記少なくとも１つのプロセッサは本出願による音声インタラクション処理方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、本出願による音声インタラクション処理方法をコンピュータに実行させるためのコンピュータ命令を記憶している。

非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ７０２は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、たとえば、本出願の実施例における音声インタラクション処理方法に対応するプログラム命令／モジュール（たとえば、図６に示す受信モジュール６０１及び処理モジュール６０２）を記憶することができる。プロセッサ７０１は、メモリ７０２に記憶された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例における音声インタラクション処理方法を実現する。

メモリ７０２は、オペレーティングシステム、及び少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、音声インタラクション処理方法の電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含むことができる。さらに、メモリ７０２は、高速ランダムアクセスメモリを含み、さらに、たとえば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含むことができる。いくつかの実施例では、メモリ７０２は、任意選択敵に、プロセッサ７０１に対して遠隔に設置されるメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して音声インタラクション処理方法の電子機器に接続され得る。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。

音声インタラクション処理方法の電子機器は、入力装置７０３及び出力装置７０４をさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３及び出力装置７０４はバス又はその他の方式で接続してもよく、図７には、バスによる接続が例示されている。

入力装置７０３は、入力される数字又はキャラクター情報を受信し、音声インタラクション処理方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができるものであり、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置７０４は、表示機器、補助照明装置（たとえば、ＬＥＤ）、触覚フィードバック装置（たとえば、振動モータ）などを含むことができる。この表示機器は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであり得る。

ここで説明するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳIＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラム内で実施されることを含むことができ、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、この記憶システム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置にデータ及び命令を送信することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械語でこれらのコンピュータプログラムを実行することができる。本明細書に使用される用語の「機械可読媒体」及び「コンピュータ可読媒体」は、プログラマブルプロセッサに機械命令及び／又はデータを提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラマブルロジック機器（ＰＬＤ））を指し、機械可読信号としての機械命令を受信する機械可読媒体を含む。用語の「機械可読信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

本開示の実施例の別の態様において、本開示の実施例はさらに、コンピュータプログラムをさらに提供し、前記コンピュータプログラムは、コンピュータ可読記憶媒体に記憶され、電子機器の少なくとも１つのプロセッサは、コンピュータ可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサは、コンピュータプログラムを実行することによって、電子機器に上記実施例に記載の方法を実行させる。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）やＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）であって、ユーザがこのキーボード及びこのポインティングデバイスによりコンピュータに入力を提供できるものとを有する。他の種類の装置は、ユーザとのインタラクションを提供するために用いることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、また、任意の形態（音響入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントとの任意の組み合わせを含むコンピューティングシステムで実施される。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。

本出願の実施例の技術案によれば、音声データを受信すると、音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、この音声ライブラリにはターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれ、マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、音声データに対応する動作を実行させる。したがって、本出願の実施例は、受信された音声データと、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとのマッチングが成功した後、電子機器をウェイクアップすることなく、音声データを直接認識して、音声データに対応する動作を実行し、これにより、ユーザの操作を簡略化することができるだけでなく、電子機器が対応するサービスをユーザに適時に提供することができるので、ユーザエクスペリエンスを向上させることができる。また、本出願の実施例による技術案は、ウェイクモデルを得るために、大量のコーパスデータを収集して初期ウェイクモデルを継続的に訓練する必要があるという従来技術の問題を回避することができ、それによって、音声処理のコストを低減できる。

上記に示される様々な形態のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本出願に記載されている各ステップは、並列に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよいが、本出願で開示されている技術的解決手段が所望する結果を実現することができる限り、本明細書ではこれに限定されない。

上記の具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因によって、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本出願の精神及び原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

音声データを受信するステップと、
前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせ、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれているステップと、
マッチングが成功した場合、電子機器を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるステップと、を含む、ことを特徴とする音声インタラクション処理方法。
前記ターゲットアプリケーションがオフにされるか、又はバックグラウンド実行状態にあることが監視された場合、前記電子機器を制御して、ウェイクフリー機能を終了させるステップをさらに含む、ことを特徴とする請求項１に記載の音声インタラクション処理方法。
前記音声データを、前記ターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップの前に、前記方法は、
前記ターゲットアプリケーションに対応する音声ライブラリを作成するステップをさらに含む、ことを特徴とする請求項１に記載の音声インタラクション処理方法。
ターゲットアプリケーションの識別情報及び新たな制御コマンドを含む更新命令を受信するステップと、
前記識別情報及び前記新たな制御コマンドに従って、前記ターゲットアプリケーションの音声ライブラリを更新するステップと、をさらに含む、ことを特徴とする請求項１〜３のいずれか１項に記載の音声インタラクション処理方法。
前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップは、
ターゲットオブジェクトの向きを確定するステップと、
前記ターゲットオブジェクトが前記電子機器に向かう場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップとを含む、ことを特徴とする請求項１〜３のいずれか１項に記載の音声インタラクション処理方法。
前記ターゲットオブジェクトが前記電子機器に向かう場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップは、
前記ターゲットオブジェクトが前記電子機器に向かう場合、前記ターゲットオブジェクトと前記電子機器との間の距離が予め設定された値よりも小さいか否かを確定するステップと、
前記ターゲットオブジェクトと前記電子機器との間の距離が予め設定された値よりも小さい場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるステップとを含む、ことを特徴とする請求項５に記載の音声インタラクション処理方法。
電子機器を制御してウェイクフリー機能を起動させるステップは、
前記電子機器を制御して、ウェイクエンジンをオフにさせ、且つ、認識エンジンをオンにさせるステップを含む、ことを特徴とする請求項１〜３のいずれか１項に記載の音声インタラクション処理方法。
音声インタラクション処理装置であって、
音声データを受信するための受信モジュールと、
前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるためのものであって、前記音声ライブラリには前記ターゲットアプリケーションに関連付けられた複数の制御コマンドが含まれている処理モジュールとを含み、
前記処理モジュールは、さらに、マッチングが成功した場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を起動させ、前記音声データに対応する動作を実行させるために用いられる、ことを特徴とする音声インタラクション処理装置。
前記処理モジュールは、さらに、前記ターゲットアプリケーションがオフにされるか、又はバックグラウンド実行状態にあることが監視された場合、前記音声インタラクション処理装置を制御してウェイクフリー機能を終了させるために用いられる、ことを特徴とする請求項８に記載の音声インタラクション処理装置。
前記処理モジュールは、さらに、前記ターゲットアプリケーションに対応する音声ライブラリを作成するために用いられる、ことを特徴とする請求項８に記載の音声インタラクション処理装置。
前記受信モジュールは、さらに、ターゲットアプリケーションの識別情報及び新たな制御コマンドを含む更新命令を受信するために用いられ、
前記処理モジュールは、さらに、前記識別情報及び前記新たな制御コマンドに従って、前記ターゲットアプリケーションの音声ライブラリを更新するために用いられる、ことを特徴とする請求項８〜１０のいずれか１項に記載の音声インタラクション処理装置。
前記処理モジュールは、
ターゲットオブジェクトの向きを確定し、
前記ターゲットオブジェクトが前記音声インタラクション処理装置に向かう場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるために用いられる、ことを特徴とする請求項８〜１０のいずれか１項に記載の音声インタラクション処理装置。
前記処理モジュールは、
前記ターゲットオブジェクトが前記音声インタラクション処理装置に向かう場合、前記ターゲットオブジェクトと前記音声インタラクション処理装置との間の距離が予め設定された値よりも小さいか否かを確定し、
前記ターゲットオブジェクトと前記音声インタラクション処理装置との間の距離が前記予め設定された値よりも小さい場合、前記音声データを、現在フォアグラウンドで実行されているターゲットアプリケーションに対応する音声ライブラリとマッチングさせるために用いられる、ことを特徴とする請求項１２に記載の音声インタラクション処理装置。
前記処理モジュールは、
前記音声インタラクション処理装置を制御して、ウェイクエンジンをオフにさせ、且つ、認識エンジンをオンにさせるために用いられる、ことを特徴とする請求項８〜１０のいずれか１項に記載の音声インタラクション処理装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶しており、前記少なくとも１つのプロセッサが請求項１〜７のいずれかに記載の音声インタラクション処理方法を実行することを可能にするように、前記命令が前記少なくとも１つのプロセッサによって実行される、ことを特徴とする電子機器。
コンピュータ命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、請求項１〜７のいずれか１項に記載の音声インタラクション処理方法をコンピュータに実行させるために用いられる、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサで実行されると、コンピュータに請求項１〜７のいずれか１項に記載の音声インタラクション処理方法を実行させる、ことを特徴とするコンピュータプログラム。