JP2021056483A

JP2021056483A - 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体

Info

Publication number: JP2021056483A
Application number: JP2019237718A
Authority: JP
Inventors: ヨンシールォ，; Yongxi Luo; シャシャワン，; Shasha Wang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-09-29
Filing date: 2019-12-27
Publication date: 2021-04-08
Anticipated expiration: 2039-12-27
Also published as: US20210097993A1; CN112669831B; JP7051799B2; KR20210038811A; CN112669831A; EP3799040A1; KR102331254B1

Abstract

【課題】さまざまなユーザのパーソナライズニーズを満たすように、ユーザが自分のニーズに応じて、第１動作状態をトリガーするシーンを設定することができ、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御し、ユーザに対する迷惑を減らし、ユーザ体験を改善する。【解決手段】音声認識制御方法は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定し、ターゲットシーンが第１動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第２動作状態を第１動作状態に切り替え、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。【選択図】図１

Description

本願は、音声認識及び人工知能の技術分野に関し、特に音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体に関する。

人工知能技術及び端末技術の継続的な発展に伴って、人工知能製品、たとえばスマートスピーカ等の電子デバイスが普及しつつあり、ユーザは電子デバイスが対応する制御命令を実行するように音声で制御することができる。現在、ユーザが電子デバイスと連続的に音声インタラクションをする必要があり、すなわち、ユーザに連続的に会話を開始させるニーズがある場合、電子デバイスが設定された動作モードに入るように音声で制御し、全二重継続会話（Ｆｕｌｌ−ｄｕｐｌｅｘＣｏｎｔｉｎｕｅｄＣｏｎｖｅｒｓａｔｉｏｎ）の機能を体験することができる。

しかしながら、ユーザに連続的に会話を開始させるニーズがない場合、たとえば、ユーザがその他のユーザと会話する場合には、対応する制御命令を意図せずにトリガーするシーンにおいて、電子デバイスが設定された動作モードに入ると、ユーザが迷惑を被ることがあり、ユーザ体験を著しく悪化させる。

本願は、関連技術の技術課題の１つを少なくともある程度解決することを目的とする。

本願は、音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体を提供し、さまざまなユーザのパーソナライズニーズを満たすように、ユーザが自分のニーズに応じて、第１動作状態をトリガーするシーンを設定することを達成し、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御し、ユーザに対する迷惑を減らすことで、ユーザ体験を改善することができる。

本願の第１態様の実施例は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、前記ターゲットシーンが第１動作状態に適用されるか否かを決定するステップと、前記ターゲットシーンが前記第１動作状態に適用される場合、実行中の第２動作状態を前記第１動作状態に切り替えるステップであって、前記第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するステップと、前記第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識するステップと、を含む音声認識制御方法を提供する。

本願の第２態様の実施例は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、前記ターゲットシーンが第１動作状態に適用されるか否かを決定するための照会モジュールと、ターゲットシーンが前記第１動作状態に適用される場合、実行中の第２動作状態を前記第１動作状態に切り替えるための切り替えモジュールであって、前記第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識する切り替えモジュールと、前記第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームに対して音声認識を行うための認識モジュールと、を含む音声認識制御装置を提供する。

本願の第３態様の実施例は、ターゲットシーンで、第１動作状態の構成情報を照会し、前記ターゲットシーンが第１動作状態に適用されるか否かを決定するステップと、ターゲットシーンが前記第１動作状態に適用される場合、実行中の第２動作状態を前記第１動作状態に切り替えるステップであって、前記第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するステップと、前記第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームに対して音声認識を行うステップと、を含む他の音声認識制御方法を提供する。

本願の第４態様の実施例は、ターゲットシーンで、第１動作状態の構成情報を照会し、前記ターゲットシーンが第１動作状態に適用されるか否かを決定するための照会モジュールと、ターゲットシーンが前記第１動作状態に適用される場合、実行中の第２動作状態を前記第１動作状態に切り替えるための切り替えモジュールであって、前記第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識する切り替えモジュールと、前記第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームに対して音声認識を行うための認識モジュールと、を含む他の音声認識制御装置を提供する。

本願の第５態様の実施例は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに本願の第１態様の実施例に係る音声認識制御方法を実行させ、又は、本願の第３態様の実施例に係る音声認識制御方法を実行させる電子デバイスを提供する。

本願の第６態様の実施例は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本願の第１態様の実施例に係る音声認識制御方法、又は、本願の第３態様の実施例に係る音声認識制御方法を実行させる。

上記出願の１つの実施例は、以下の利点又は有益な効果を有する。
ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定し、ターゲットシーンが第１動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第２動作状態を第１動作状態に切り替え、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザが自分のニーズに応じて、第１動作状態をトリガーするシーンを設定することができ、また、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御し、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。

以下、具体的な実施例を参照しながら、上記好ましい態様が有するその他の効果について説明する。

図面は、本実施案を理解するためのものにすぎず、本願を限定するものではなく、本願の上記及び／又は付加的な態様及び利点は、図面を組み合わせた実施例についての以下の説明から明瞭かつ理解しやすくなる。
本願の実施例１に係る音声認識制御方法の概略フローチャートである。本願の実施例の設定インターフェイス模式図である。本願の実施例２に係る音声認識制御方法の概略フローチャートである。本願の実施例３に係る音声認識制御方法の概略フローチャートである。本願の実施例４に係る音声認識制御方法の概略フローチャートである。本願の実施例５に係る音声認識制御装置の構造概略図である。本願の実施例６に係る音声認識制御装置の構造概略図である。本願の実施例７に係る音声認識制御装置の構造概略図である。本願の実施例８に係る電子デバイスの構造概略図である。

以下、図面を参照しながら本願の例示的な実施例を説明する。理解しやすくするために、本願の実施例の様々な詳細を含むが、それらは例示的なものにすぎない。従って、当業者であれば、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更や改定を行うことができる。同様に、明瞭化かつ簡素化するために、以下の説明では、周知機能及び構造についての説明が省略される。

以下、図面を参照しながら、本願の実施例の音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体を説明する。

図１は、本願の実施例１に係る音声認識制御方法の概略フローチャートである。

本願の実施例は、該音声認識制御方法が音声認識制御装置に配置されることを例として説明し、該音声認識制御装置は、任意の電子デバイスに適用されることにより該電子デバイスは音声認識制御機能を実行できる。

ここで、電子デバイスは、パーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣと略称する）、クラウドデバイス、モバイルデバイス、スマートスピーカなどであってもよい。モバイルデバイスは、たとえば、携帯電話、タブレットコンピュータ、携帯情報端末、ウェアラブルデバイス、カーデバイスなどの、さまざまなオペレーティングシステム、タッチスクリーンおよび／またはディスプレイを搭載したハードウェアデバイスであってもよい。

図１に示すように、該音声認識制御方法は、ステップ１０１〜ステップ１０３を含むことができる。

ステップ１０１において、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定する。

本願の実施例では、ターゲットシーンはユーザが呼び出しているアプリケーションプログラムインターフェイス（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｅｒｓＩｎｔｅｒｆａｃｅ、ＡＰＩと略称される）に関連するシーンであり、たとえば、ターゲットシーンは、天気シーン、音楽シーン、ビデオシーンなどのシーンであってもよい。

本願の実施例では、第１動作状態は、リスニング状態であってもよく、電子デバイスが該リスニング状態にあるとき、ユーザはウェイクワードを音声で入力せずに、音声命令をリアルタイムに入力して、電子デバイスとインタラクションすることができる。第１動作状態の構成情報はユーザが自分のニーズに応じて設定されるものであり、該構成情報は第１動作状態に適用されるシーンリストを含み、該シーンリストはユーザの選択操作に応答して、異なるシーンから選択して生成されるものであり、たとえば、該シーンリストは、ユーザの選択操作に応答して、音楽シーン、オーディオブックシーン、ビデオシーン、天気シーン、ショッピングシーンなどのシーンから選択して生成されるものであってもよい。

本願の実施例では、あるアプリケーションプログラムインターフェイスを呼び出す場合、音声認識制御装置は、該アプリケーションプログラムインターフェイスに対応するターゲットシーンを決定できる。好ましくは、ユーザがあるアプリケーションプログラムを開き、該アプリケーションプログラムにおけるあるアプリケーションプログラムインターフェイスを呼び出す場合、音声認識制御装置は該アプリケーションプログラムインターフェイスに対応するターゲットシーンを決定でき、たとえば、ユーザが天気類アプリケーションプログラムを呼び出す場合、呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンが天気シーンであり、又は、ユーザがインスタントメッセージング類アプリケーションプログラムにおけるあるアプリケーションプログラムインターフェイスを呼び出して、天気を照会する場合、呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンが天気シーンである。また、たとえば、音楽類アプリケーションプログラムを呼び出す場合、呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンが音楽シーンであり、又は、ユーザがインスタントメッセージング類アプリケーションプログラムにおけるあるアプリケーションプログラムインターフェイスを呼び出して、音楽を再生する場合、呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンが音楽シーンであり、ここでは列挙されていない。

本願の実施例では、音声認識制御装置はモニタリング方式によって、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、該ターゲットシーンが第１動作状態に適用されるか否かを決定することができる。具体的には、構成情報が第１動作状態のシーンリストに該ターゲットシーンが含まれることを示す場合、該ターゲットシーンが第１動作状態に適用されると決定でき、構成情報が第１動作状態のシーンリストに該ターゲットシーンが含まれないことを示す場合、該ターゲットシーンが第１動作状態に適用されないと決定する。

一例としては、図２を参照すれば、図２は、本願の実施例の設定インターフェイス概略図である。ユーザは自分のニーズに応じて、音楽シーン、オーディオブックシーン及びビデオシーンから対応するシーンを選択し、第１動作状態のシーンリストを生成することができ、ユーザが音楽シーン及びビデオシーンを選択すると仮定する場合、第１動作状態のシーンリストが音楽シーン及びビデオシーンを含み、ターゲットシーンが音楽シーンであると仮定する場合、第１動作状態の構成情報を照会することにより、ターゲットシーンが第１動作状態に適用されると決定できる。

なお、図２は、シーンリストが音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成される場合のみを例とし、つまり、図２は、シーンリストが音楽シーン、オーディオブックシーン及びビデオシーンの少なくとも１つを含む場合を例とするが、実際に適用するとき、シーンリストは、たとえば天気シーン、ショッピングシーンなど、その他のシーンをさらに含んでもよく、本願はこれについては制限しない。

ステップ１０２において、ターゲットシーンが第１動作状態に適用される場合、実行中の第２動作状態を第１動作状態に切り替え、第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。

本願の実施例では、第２動作状態は、非リスニング状態であってもよく、電子デバイスが該非リスニング状態にあるとき、ユーザはウェイクワードを音声で入力し、該電子デバイスをウェイクアップして後続の音声認識を実行させることができる。ここでは、ウェイクワードは、電子デバイスの内蔵プログラムにより予め設定されるものであってもよく、又は、ユーザのパーソナライズニーズを満たすために、ウェイクワードは、ユーザが自分のニーズに応じて設定されるものであってもよく、本願はこれについて限定しない。例示すると、電子デバイスがスマートスピーカである場合、ウェイクワードは、「小度小度（ドちゃんドちゃん）」であってもよい。

本願の実施例では、電子デバイスが第２動作状態にあるとき、音声認識制御装置は、ユーザがウェイクワードを入力したか否かを検出して入力した場合、ユーザがウェイクワードの後に入力したオーディオクリップを収集し、音声認識を行う。例示すると、電子デバイスがスマートスピーカである場合には、該スマートスピーカが該第２動作状態にあるときに、歌を再生したい場合、ユーザは、「小度小度（ドちゃんドちゃん）、歌Ａを再生してください」又は「小度小度（ドちゃんドちゃん）、歌を聞きたい」と音声で入力し、電子デバイスは、ウェイクワードの後のオーディオクリップ「歌Ａを再生してください」又は「歌を聞きたい」を認識し、対応する歌を再生する。

本願の実施例では、音声認識制御装置が、ターゲットシーンが第１動作状態に適用されると決定した場合、実行中の第２動作状態を第１動作状態に切り替えることができ、音声認識制御装置が、ターゲットシーンが第１動作状態に適用されないと決定した場合、第２動作状態を実行し続けることができる。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザが自分のニーズに応じて、第１動作状態をトリガーするシーンを設定することができる。また、呼び出したターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御し、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。

なお、「第１」、「第２」の用語は、単に目的を説明するためのものであり、相対重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。そこで、「第１」、「第２」が限定されている特徴は、一つ又はより多くの該特徴を含むことを明示又は暗示するものである。

ステップ１０３において、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。

本願の実施例では、電子デバイスが第１動作状態にあるとき、電子デバイスは、オーディオを連続的に収集してオーディオストリームを取得して、音声認識を行うことができる。これにより、該第１動作状態で、ユーザがウェイクワードを入力せずに、電子デバイスとリアルタイムにインタラクションする又は連続的にインタラクションすることができ、ユーザの操作を簡素化し、ユーザ体験を改善することができる。

従来技術では、ユーザは連続的に会話するニーズを有していないとき、対応する制御命令を誤操作でトリガーして、電子デバイスが設定された動作モードに入るように制御する可能性があるが、このような場合には、ユーザは迷惑を被ることがあり、ユーザ体験を著しく悪化させる。

例えば、電子デバイスが設定された動作モードに入るように制御する条件は、ユーザが入力した音声データの意図が設定された制御意図とマッチングすることであると仮定する。設定された制御意図が「オーディオまたはビデオを再生する」場合であることを例として、ユーザＡがユーザＢと会話するシナリオでは、ユーザＡが「このスマートスピーカをウェイクアップする方法を知っている？」と聞き、ユーザＢが「もちろん。小度小度（ドちゃんドちゃん）じゃない？それで、音楽を聴いたり、映画を観たりできるんだよ。」と言った場合、スマートスピーカはユーザＢの音声データを認識し、ユーザがウェイクワード「小度小度（ドちゃんドちゃん）」を入力したことを検出し、該ユーザＢが入力した音声データの意図が「音楽を聴いたり、映画を観たり」することであると認識する。これは、明らかに、設定された制御意図とマッチングしているので、この場合、スマートスピーカは、音楽又は映画を再生する。もちろん、この場合、ユーザが音楽及び映画を再生したくない場合には、ユーザにとって迷惑になる。

本願の実施例の音声認識制御方法は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定し、ターゲットシーンが第１動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第２動作状態を第１動作状態に切り替え、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、ユーザは自分のニーズに応じて、さまざまなユーザのパーソナライズニーズを満たすように、第１動作状態をトリガーするシーンを設定することができる。また、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御することで、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。

１つの可能な実施態様としては、ターゲットシーンが第１動作状態に適用される場合、ユーザがウェイクワードの後に入力したオーディオクリップの意図がターゲットシーンとマッチングするか否かを判断する必要があり、マッチングした場合、実行中の第２動作状態を第１動作状態に切り替え、マッチングしない場合、第２動作状態を実行し続ける。これにより、ユーザがターゲットシーンとマッチングする制御意図を入力するのみ、電子デバイスの動作状態を切り替え、ユーザに対する迷惑を回避する。以下、実施例２と組み合わせて、上記過程について詳細に説明する。

図３は、本願の実施例２に係る音声認識制御方法の概略フローチャートである。

図３に示すように、該音声認識制御方法は、ステップ２０１〜ステップ２０７を含むことができる。

ステップ２０１において、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会する。

ステップ２０２において、構成情報に基づいて、ターゲットシーンが第１動作状態に適用されるか否かを判断し、適用される場合、ステップ２０３を実行し、適用されない場合、ステップ２０７を実行する。

ステップ２０１〜２０２の実行過程は、上記実施例におけるステップ１０１の実行過程を参照できるが、ここで詳しい説明は省略される。

ステップ２０３において、第２動作状態で、オーディオクリップを音声認識することにより取得された第１制御意図を取得する。

ここでは、第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。

本願の実施例では、第２動作状態において、音声認識制御装置は、ユーザがウェイクワードを入力したか否かを検出し、入力した場合には、ユーザがウェイクワードの後に入力したオーディオクリップを収集して、該オーディオクリップに対して音声認識を行い、該オーディオクリップに対応する第１制御意図を得る。たとえば、音声認識技術に基づいて、該オーディオクリップを認識し、該オーディオクリップに対応するテキスト情報を決定した後、該テキスト情報に対してセマンティクス認識を行い、対応する第１制御意図を決定する。例えば、オーディオクリップが「歌を聞きたい」である場合、該オーディオクリップの意図は「歌を聞く」又は「オーディオを再生する」ことである。

ステップ２０４において、第１制御意図がターゲットシーンとマッチングするか否かを判断し、マッチングする場合には、ステップ２０５〜２０６を実行し、マッチングしない場合には、ステップ２０７を実行する。

本願の実施例では、第１制御意図及びターゲットシーンの制御意図に対してセマンティクスマッチングを行い、第１制御意図がターゲットシーンとマッチングするか否かを決定する。

ステップ２０５において、実行中の第２動作状態を第１動作状態に切り替える。

本願の実施例では、ターゲットシーンが第１動作状態に適用され、ユーザが入力したオーディオクリップの意図がターゲットシーンとマッチングする場合のみ、実行中の第２動作状態を第１動作状態に切り替える。これにより、ユーザが入力したオーディオクリップの意図がターゲットシーンとマッチングする場合にのみ、電子デバイスの動作状態を切り替えるので、ユーザに対する迷惑を更に回避することができる。

一例としては、電子デバイスがスマートスピーカであり、ターゲットシーンがビデオシーンであることを例とする。ユーザが「小度小度（ドちゃんドちゃん）、歌を聞きたい」と音声で入力した場合、スマートスピーカは、ユーザが入力したオーディオクリップを収集して認識し、オーディオクリップ「歌を聞きたい」に対応する第１制御意図が「オーディオを再生する」であると決定する。しかし、ターゲットシーンに対応する制御意図が「ビデオを再生する」であるときには、該第１制御意図がターゲットシーンとマッチングしないと決定するので、スマートスピーカが第２動作状態を実行し続けるように制御することができる。ユーザが「小度小度（ドちゃんドちゃん）、映画Ａを再生してください」と音声で入力した場合、スマートスピーカはユーザが入力したオーディオクリップを収集して認識し、オーディオクリップ「映画Ａを再生してください」に対応する第１制御意図が「ビデオを再生する」であると決定する。ターゲットシーンに対応する制御意図も「ビデオを再生する」であるときに、該第１制御意図がターゲットシーンとマッチングすると決定するので、スマートスピーカが実行中の第２動作状態を第１動作状態に切り替えるように制御することで、該第１動作状態における、ユーザとスマートスピーカとの連続的な会話、たとえば、「カンフー映画を再生してください」、「再生を終了してください」などを行うことができ、これによりマン−マシン会話が自然かつリアルになり、ユーザの没入感を向上させることができる。

ステップ２０６において、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。

ステップ２０７において、第２動作状態を実行し続ける。

本願の実施例では、ターゲットシーンが第１動作状態に適用されないか、又は、ターゲットシーンが第１動作状態に適用され、且つユーザが入力したオーディオクリップの意図がターゲットシーンとマッチングしない場合、第２動作状態を実行し続ける。これにより、ユーザに対する迷惑を更に回避することができる。

例えば、第１動作状態の構成情報が、第１動作状態のシーンリストにビデオシーンが含まれることを示す場合、ユーザが入力したオーディオクリップの意図がビデオシーンとマッチングしても、ターゲットシーンが第１動作状態に適用されない場合、電子デバイスが第１動作状態に入るように制御しない。たとえば、ユーザが天気類ＡＰＰを開いたときに呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンは天気シーンであり、明らかに、該天気シーンはビデオシーンとマッチングしていない。これは、ユーザに連続的に会話を開始させるニーズがないことを示しているので、電子デバイスが第１動作状態に入るように制御せず、ユーザに対する迷惑を減らすことができる。

１つの可能な実施態様として、ユーザに対する迷惑を更に回避するために、第１動作状態で、ユーザが電子デバイスとリアルタイムにインタラクションする際に、ユーザが入力したオーディオデータの意図がターゲットシーンとマッチングする場合のみ、オーディオデータの意図に対応する制御命令を実行する。以下、実施例３と組み合わせて、上記過程について詳細に説明する。

図４は、本願の実施例３に係る音声認識制御方法の概略フローチャートである。

図４を参照して、図１に示す実施例に基づいて、ステップ１０３の後、該音声認識制御方法は、さらにステップ３０１〜ステップ３０４を含むことができる。

ステップ３０１において、オーディオストリームを音声認識することにより取得された情報ストリームを取得する。

本願の実施例では、ユーザがオーディオデータを入力した後、音声認識制御装置は、オーディオストリームを収集して、該オーディオストリームを音声認識し、対応する情報ストリームを決定することができる。

ステップ３０２において、情報ストリームから各候補意図を取得する。

本願の実施例では、情報ストリームを取得した後、該情報ストリームに対してセマンティクス認識を行い、対応する各候補意図を決定することができる。

ステップ３０３において、各候補意図から、ターゲットシーンの制御意図とマッチングする第２制御意図をフィルタリングする。

ステップ３０４において、第２制御意図がフィルタリングして取得された場合、第２制御意図に対応する制御命令を実行する。

本願の実施例では、各候補意図及びターゲットシーンの制御意図に対してセマンティクスマッチングを行うことができ、ある候補意図がターゲットシーンの制御意図とマッチングする場合、該候補意図を第２制御意図として、第２制御意図に対応する制御命令を実行する。

例えば、ターゲットシーンがビデオシーンであり、ターゲットシーンに対応する制御意図が「ビデオを再生する」であり、情報ストリームが「映画Ａを見たい」であると仮定すると、該情報ストリームが１つの候補意図「ビデオを再生する」のみを有すると決定できる。このとき、該候補意図に対応する制御命令を実行するので、電子デバイスが映画Ａを再生するように制御することができる。

本願の実施例の音声認識制御方法は、第１動作状態で、ユーザが電子デバイスとリアルタイムにインタラクションするとき、ユーザが入力したオーディオデータの意図がターゲットシーンとマッチングする場合のみ、オーディオデータの意図に対応する制御命令を実行し、このため、ユーザに対する迷惑を更に回避できる。

１つの可能な実施態様としては、設定期間内に、第２制御意図が取得されなかった場合、ユーザに電子デバイスを制御する意図がないことを示す。このとき、電子デバイスのエネルギー消費量を低減させ、電子デバイスが常に第１動作状態にあることを回避するために、第１動作状態を終了することができる。

ここでは、設定期間は予め設定されたものであり、たとえば、電子デバイスの内蔵プログラムにより予め設定されたものであってもよく、又は、ユーザにより設定されたものであってもよく、これについては限定しない。たとえば、設定期間の値の範囲は２０秒〜４０秒であってもよい。

１つの可能な実施態様としては、前記情報ストリームから各候補意図を取得した後、ターゲットシーンの制御意図とマッチングしない候補意図が存在する場合、該ユーザに対する迷惑を減らすために、候補意図への応答を拒否することができる。

例えば、ビデオシーンでは、ユーザが入力したオーディオデータが「ねえ、この映画の主題歌の歌Ａはかなり良いから後で歌Ａを聞くよ」である場合、電子デバイスは該オーディオデータを認識し、該オーディオデータに対応する意図が「歌を再生する」ことであると決定する。これは、明らかに、ビデオシーンに対応する制御意図「ビデオを再生する」とマッチングしないので、ユーザに対する迷惑を回避するために、該オーディオデータに対応する意図への応答を拒否することができる。

つまり、電子デバイスが第１動作状態にあるとき、ユーザが入力したオーディオデータの意図がターゲットシーンの制御意図とマッチングする場合のみ、ユーザに対する迷惑を回避するために、オーディオデータに対応する意図に応答する。

上記実施例を達成するために、本願は、さらに、音声認識制御方法を提供する。

図５は、本願の実施例４に係る音声認識制御方法の概略フローチャートである。

図５に示すように、該音声認識制御方法は、ステップ４０１、ステップ４０２、及びステップ４０３を含むことができる。
ステップ４０１において、ターゲットシーンで、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定する。

本願の実施例では、ターゲットシーンは、電子デバイスに現在表示されているインターフェイスに対応するシーンであってもよく、たとえば、天気シーン、音楽シーン、ビデオシーンなどのシーンであってもよい。

本願の実施例では、ユーザがあるインターフェイスを開くと、音声認識制御装置は該インターフェイスに対応するターゲットシーンを決定できる。たとえば、ユーザがビデオ類のアプリケーションを開くと、ターゲットシーンがビデオシーンであると決定でき、ユーザが音楽類のアプリケーションを開くと、ターゲットシーンが音楽シーンであると決定でき、ユーザが天気問い合わせインターフェイスを開くと、ターゲットシーンが天気シーンであると決定できるが、ここでは列挙されていない。

本願の実施例では、ターゲットシーンで、音声認識制御装置は第１動作状態の構成情報を照会し、該ターゲットシーンが第１動作状態に適用されるか否かを決定することができる。具体的には、構成情報が第１動作状態のシーンリストに該ターゲットシーンが含まれることを示す場合、該ターゲットシーンが第１動作状態に適用されると決定でき、構成情報が第１動作状態のシーンリストに該ターゲットシーンが含まれないことを示す場合、該ターゲットシーンが第１動作状態に適用されないと決定する。

一例としては、図２を参照すれば、図２は、本願の実施例の設定インターフェイス概略図である。ユーザは自分のニーズに応じて、音楽シーン、オーディオブックシーン及びビデオシーンから対応するシーンを選択し、第１動作状態のシーンリストを生成することができる。ユーザが音楽シーン及びビデオシーンを選択すると仮定する場合、第１動作状態のシーンリストが音楽シーン及びビデオシーンを含み、ターゲットシーンが音楽シーンであると仮定する場合、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されると決定できる。

なお、図２はシーンリストが音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成される場合のみを例としており、図２は、シーンリストが音楽シーン、オーディオブックシーン及びビデオシーンの少なくとも１つを含む場合を例としている。しかし、実際に適用するときには、シーンリストは、たとえば天気シーン、ショッピングシーンなど、その他のシーンをさらに含んでもよく、本願はこれについては制限しない。

ステップ４０２において、ターゲットシーンが第１動作状態に適用される場合、実行中の第２動作状態を第１動作状態に切り替え、第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。

本願の実施例では、第２動作状態は、非リスニング状態であってもよく、電子デバイスが該非リスニング状態にあるときには、ユーザはウェイクワードを音声で入力し、該電子デバイスをウェイクアップして後続の音声認識を実行させることができる。ここでは、ウェイクワードは、電子デバイスの内蔵プログラムにより予め設定されるものであってもよいし、又は、ユーザのパーソナライズニーズを満たすために、ウェイクワードは、ユーザが自分のニーズに応じて設定されるものであってもよく、本願はこれについては限定しない。例示すると、電子デバイスがスマートスピーカである場合、ウェイクワードは、「小度小度（ドちゃんドちゃん）」であってもよい。

本願の実施例では、電子デバイスが第２動作状態にあるとき、音声認識制御装置は、ユーザがウェイクワードを入力したか否かを検出し、入力した場合、ユーザがウェイクワードの後に入力したオーディオクリップを収集し、音声認識を行う。例示すると、電子デバイスがスマートスピーカである場合、該スマートスピーカが該第２動作状態にあるときに、ユーザが歌を再生したい場合には、「小度小度（ドちゃんドちゃん）、歌Ａを再生してください」又は「小度小度（ドちゃんドちゃん）、歌を聞きたい」と音声で入力し、電子デバイスはウェイクワード後のオーディオクリップ「歌Ａを再生してください」又は「歌を聞きたい」を認識して、対応する歌を再生する。

本願の実施例では、音声認識制御装置が、ターゲットシーンが第１動作状態に適用されると決定した場合、実行中の第２動作状態を第１動作状態に切り替えることができ、音声認識制御装置が、ターゲットシーンが第１動作状態に適用されないと決定した場合、第２動作状態を実行し続けることができる。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第１動作状態をトリガーするシーンを設定する。また、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御するので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。

ステップ４０３において、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。

本願の実施例では、電子デバイスが第１動作状態にあるとき、電子デバイスはオーディオを連続的に収集してオーディオストリームを取得して、音声認識を行うことができる。これにより、該第１動作状態で、ユーザはウェイクワードを入力せずに、電子デバイスとリアルタイムにインタラクションする又は連続的にインタラクションすることができ、ユーザ操作を簡素化し、ユーザ体験を改善することができる。

本願の実施例の音声認識制御方法は、ターゲットシーンで、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定し、ターゲットシーンが第１動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第２動作状態を第１動作状態に切り替え、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第１動作状態をトリガーするシーンを設定することができる。また、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御するので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。

上記実施例を達成するために、本願は、さらに、音声認識制御装置を提供する。

図６は、本願の実施例５に係る音声認識制御装置の構造概略図である。

図６に示すように、該音声認識制御装置６００は、照会モジュール６０１、切り替えモジュール６０２及び認識モジュール６０３を含む。

ここでは、照会モジュール６０１は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合に、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定する。

切り替えモジュール６０２は、ターゲットシーンが第１動作状態に適用される場合に、実行中の第２動作状態を第１動作状態に切り替え、第２動作状態では、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。

認識モジュール６０３は、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。

更に、本願の実施例の１つの可能な実施態様では、図７を参照する。図６に示す実施例に基づいて、該音声認識制御装置６００は、さらにモジュール６０４〜６１０を含む。

第１取得モジュール６０４は、第２動作状態で、オーディオクリップを音声認識することにより取得された第１制御意図を取得する。

決定モジュール６０５は、第１制御意図がターゲットシーンとマッチングすると決定する。

第２取得モジュール６０６は、オーディオストリームを音声認識することにより取得された情報ストリームを取得し、情報ストリームから各候補意図を取得する。

フィルタリングモジュール６０７は、各候補意図から、ターゲットシーンの制御意図とマッチングする第２制御意図をフィルタリングする。

実行モジュール６０８は、第２制御意図がフィルタリングして取得された場合、第２制御意図に対応する制御命令を実行する。

終了モジュール６０９は、設定期間内に、第２制御意図が取得されなかった場合、第１動作状態を終了し、前記設定期間の範囲は２０秒〜４０秒である。

拒否モジュール６１０は、ターゲットシーンの制御意図とマッチングしない候補意図への応答を拒否する。

１つの可能な実施態様としては、構成情報は第１動作状態に適用されるシーンリストを含む。シーンリストはユーザの選択操作に応答して、音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成されるものである。

なお、音声認識制御方法についての上記図１〜図４の実施例での解釈説明も該実施例の音声認識制御装置に適用されるが、ここでは説明が省略される。

本願の実施例の音声認識制御装置は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合には、第１動作状態の構成情報を照会して、ターゲットシーンが第１動作状態に適用されるか否かを決定し、ターゲットシーンが第１動作状態に適用される場合には、ウェイクワードに基づいてオーディオクリップを収集して、オーディオクリップを音声認識する実行中の第２動作状態を第１動作状態に切り替え、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第１動作状態をトリガーするシーンを設定することができる。また、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御するので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。

図８は、本願の実施例７に係る音声認識制御装置の概略図構造概略図である。

図８に示すように、該音声認識制御装置８００は、照会モジュール８０１、切り替えモジュール８０２及び認識モジュール８０３を備える。

ここでは、照会モジュール８０１は、ターゲットシーンで、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定する。

切り替えモジュール８０２は、ターゲットシーンが第１動作状態に適用される場合、実行中の第２動作状態を第１動作状態に切り替え、第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。

認識モジュール８０３は、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。

なお、音声認識制御方法についての上記図５の実施例での解釈説明も該実施例の音声認識制御装置に適用されるが、ここでは説明が省略される。

本願の実施例の音声認識制御装置は、ターゲットシーンで、第１動作状態の構成情報を照会して、ターゲットシーンが第１動作状態に適用されるか否かを決定し、ターゲットシーンが第１動作状態に適用される場合には、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第２動作状態を第１動作状態に切り替え、第１動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第１動作状態をトリガーするシーンを設定することができる。また、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御するので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。

上記実施例を達成するために、本願は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含む電子デバイスをさらに提供する。ここでは、メモリには少なくとも１つのプロセッサによって実行している命令が記憶され、命令が少なくとも１つのプロセッサによって実行されることにより、少なくとも１つのプロセッサに本願の上記実施例に係る音声認識制御方法を実行可能である。

上記実施例を達成するために、本願は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令はコンピュータに本願の上記実施例に係る音声認識制御方法を実行させる。

本願の実施例に基づいて、本願は、さらに、電子デバイス及び読み取り可能な記憶媒体を提供する。

図９に示すように、本発明の一実施例に係る音声制御方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、その他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続および関係、およびそれらの機能は単なる例であり、本明細書で説明および／または必要とされる本出願の実現を限定することを意図するものではない。

図９に示すように、当該電子デバイスは、１つまたは複数のプロセッサ９０１、メモリ９０２、および高速インターフェイスおよび低速インターフェイスを含む様々なコンポーネントを接続するためのインターフェイスを含む。さまざまなコンポーネントは、異なるバスを使用して相互接続され、共通のマザーボードに取り付けられるか、または必要に応じて取り付けられてもよい。プロセッサは、外部入力／出力デバイス（たとえば、インターフェイスに結合されたディスプレイデバイス）にＧＵＩのグラフィカル情報を表示するためにメモリに記憶されている命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施例では、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続し、それぞれの電子デバイスが必要な操作（たとえば、サーバアレイ、１グループのブレードサーバ、マルチプロセッサシステム）の一部を提供することができる。図９では、１つのプロセッサ９０１を例に挙げているインターフェイスを示している。

メモリ９０２は、本出願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶し、その結果、前記少なくとも１つのプロセッサは、本出願に係る音声制御方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、本出願によって提供される音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ９０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本出願の実施例の音声制御方法に対応するプログラム命令／モジュール（
たとえば、図６に示される照会モジュール６０１、切り替えモジュール６０２、および認識モジュール６０３）を記憶することができる。プロセッサ９０１は、メモリ９０２に記憶されている非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能的アプリケーションおよびデータ処理を実行し、すなわち、前述の方法の実施例における音声制御方法を実現する。

メモリ９０２は、ストレージプログラム領域およびストレージデータ領域を含むことができ、ストレージプログラム領域は、少なくとも１つの機能に必要なオペレーティングシステムおよびアプリケーションプログラムを記憶することができる。ストレージデータ領域は、電子デバイスの使用に基づいて作成されたデータを記憶することができる。また、メモリ９０２は、高速ランダムアクセスメモリを含むことができるし、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ装置、または他の非一時的な固体メモリなどの非一時的なメモリも含むことができる。いくつかの実施例では、メモリ９０２は、プロセッサ９０１に対して遠隔に配置されたメモリを選択可能に含むことができ、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。

電子デバイスは、入力装置９０３および出力装置９０４をさらに含むことができる。プロセッサ９０１、メモリ９０２、入力装置９０３、および出力装置９０４は、バスまたは他の方式を介して接続することができ、図９では、バスを介した接続を例に挙げている。

入力装置９０３は、入力された数字または文字情報を受信し、電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力デバイス電子デバイス。出力装置９０４は、表示装置、補助照明装置（たとえば、ＬＥＤ）、触覚フィードバック装置（たとえば、振動モータ）などを含んでもよい。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置はタッチスクリーンであってもよい。

本明細書で説明されるシステムおよび技術の様々な実施例は、デジタル電子回路、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現され得る。これらの様々な実施例は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムで実装されてもよく、当プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に送信することができる専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサの機械命令を含み、さらに高レベルの手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語を用いてこれらのンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ）を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む、「機械読み取り可能な信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための信号を指す。

ユーザとのインタラクションを提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）と、キーボードおよびポインティング装置（たとえば、マウスまたはトラックボール）とを有するコンピュータで実施されてもよく、ユーザは当該キーボードおよび当該ポインティング装置を介してコンピュータに入力を提供できる。他の種類の装置を使用してユーザとのインタラクションを提供することもできる。たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（たとえば、音響入力、音声入力、または触覚入力）を用いてユーザからの入力を受信することができる。

本明細書に記載のシステムおよび技術の各実施例は、バックエンドコンポーネントを含むコンピューティングシステム（たとえば、データサーバとして）、またはミドルコンポーネントを含むコンピューティングシステム（たとえば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（たとえば、グラフィカルユーザインターフェイスまたはＷｅｂブラウザを備えたユーザコンピュータであってもよい。ユーザは、当該グラフィカルユーザインターフェイスまたは当該Ｗｅｂブラウザを介して、ここで説明されるシステムおよび技術の実施例とインタラクションできる）、またはこのようなバックエンドコンポーネント、ミドルコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。デジタルデータ通信の任意の形式または媒体（たとえば、通信ネットワーク）によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。通常、クライアントとサーバとは互いにリモートであり、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され、互いにクライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。

本願の実施例による技術案では、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、ターゲットシーンが第１動作状態に適用されるか否かを決定し、ターゲットシーンが第１動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第２動作状態を第１動作状態に切り替え、第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第１動作状態をトリガーするシーンを設定することができ、また、ターゲットシーンが第１動作状態に適用される場合のみ、装置が第１動作状態に入るように制御することができるので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。

なお、上記のさまざまな形態のプロセスを使用して、ステップを並べ替え、追加、または削除できることを理解されたい。たとえば、本出願で説明されている各ステップは、並列、順次、または異なる順序で実行できる。本出願で開示された技術的解決策の望ましい結果が達成できれば、本明細書は、ここで限定しない。

前述した具体的な実施例は、本出願の保護範囲を制限しない。設計要件および他の要因に応じて、さまざまな修正、組み合わせ、サブ組み合わせ、および置き換えを行うことができることを当業者は理解するべきである。本出願の思想および原則の範囲内で行われた修正、同等の置き換え、および改善は、いずれも本出願の保護範囲に含まれるものとする。

Claims

ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、前記ターゲットシーンが第１動作状態に適用されるか否かを決定するステップと、
前記ターゲットシーンが前記第１動作状態に適用される場合、実行中の第２動作状態を前記第１動作状態に切り替えるステップであって、前記第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するステップと、
前記第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識するステップと、を含むことを特徴とする、音声認識制御方法。
前記実行中の第２動作状態を前記第１動作状態に切り替えるステップの前に、
前記第２動作状態で、前記オーディオクリップを音声認識することにより取得された第１制御意図を取得するステップと、
前記第１制御意図が前記ターゲットシーンとマッチングすると決定するステップと、をさらに含むことを特徴とする、請求項１に記載の音声認識制御方法。
前記オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識するステップの後に、
前記オーディオストリームを音声認識することにより取得された情報ストリームを取得するステップと、
前記情報ストリームから各候補意図を取得するステップと、
各候補意図から前記ターゲットシーンの制御意図とマッチングする第２制御意図をフィルタリングするステップと、
前記第２制御意図がフィルタリングして取得された場合、前記第２制御意図に対応する制御命令を実行するステップと、をさらに含むことを特徴とする、請求項１に記載の音声認識制御方法。
前記各候補意図から前記ターゲットシーンの制御意図とマッチングする第２制御意図をフィルタリングするステップの後に、
設定期間内に、前記第２制御意図が取得されなかった場合、前記第１動作状態を終了するステップをさらに含み、
前記設定期間の範囲は、２０秒〜４０秒であることを特徴とする、請求項３に記載の音声認識制御方法。
前記情報ストリームから各候補意図を取得するステップの後に、
前記ターゲットシーンの制御意図とマッチングしない候補意図への応答を拒否するステップをさらに含むことを特徴とする、請求項３に記載の音声認識制御方法。
前記構成情報は、前記第１動作状態に適用されるシーンリストを含み、前記シーンリストはユーザの選択操作に応答して、音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成されるものであることを特徴とする、請求項１から５のいずれかに記載の音声認識制御方法。
ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第１動作状態の構成情報を照会し、前記ターゲットシーンが第１動作状態に適用されるか否かを決定するための照会モジュールと、
ターゲットシーンが前記第１動作状態に適用される場合、実行中の第２動作状態を前記第１動作状態に切り替えるための切り替えモジュールであって、前記第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識する切り替えモジュールと、
前記第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識する認識モジュールと、を含むことを特徴とする、音声認識制御装置。
前記第２動作状態で、前記オーディオクリップを音声認識することにより取得された第１制御意図を取得するための第１取得モジュールと、
前記第１制御意図が前記ターゲットシーンとマッチングすると決定するための決定モジュールと、をさらに含むことを特徴とする、請求項７に記載の音声認識制御装置。
前記オーディオストリームを音声認識することにより取得された情報ストリームを取得し、前記情報ストリームから各候補意図を取得するための第２取得モジュールと、
各候補意図から前記ターゲットシーンの制御意図とマッチングする第２制御意図をフィルタリングするためのフィルタリングモジュールと、
前記第２制御意図がフィルタリングして取得された場合、前記第２制御意図に対応する制御命令を実行するための実行モジュールと、をさらに含むことを特徴とする、請求項７に記載の音声認識制御装置。
設定期間内に、前記第２制御意図が取得されなかった場合、前記第１動作状態を終了するための終了モジュールをさらに備え、
前記設定期間の範囲は、２０秒〜４０秒であることを特徴とする、請求項９に記載の音声認識制御装置。
前記ターゲットシーンの制御意図とマッチングしない候補意図への応答を拒否するための拒否モジュールをさらに含むことを特徴とする、請求項９に記載の音声認識制御装置。
前記構成情報は、前記第１動作状態に適用されるシーンリストを含み、前記シーンリストはユーザの選択操作に応答して、音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成されるものであることを特徴とする、請求項７から１１のいずれかに記載の音声認識制御装置。
ターゲットシーンで、第１動作状態の構成情報を照会し、前記ターゲットシーンが第１動作状態に適用されるか否かを決定するステップと、
前記ターゲットシーンが前記第１動作状態に適用される場合、実行中の第２動作状態を前記第１動作状態に切り替えるステップであって、前記第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するステップと、
前記第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識するステップと、を含むことを特徴とする、音声認識制御方法。
ターゲットシーンで、第１動作状態の構成情報を照会し、前記ターゲットシーンが第１動作状態に適用されるか否かを決定するための照会モジュールと、
前記ターゲットシーンが前記第１動作状態に適用される場合、実行中の第２動作状態を前記第１動作状態に切り替えるための切り替えモジュールであって、前記第２動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するための切り替えモジュールと、
前記第１動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識する認識モジュールと、を含むことを特徴とする、音声認識制御装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を備え、
前記メモリには前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが請求項１〜６のいずれかに記載の音声認識制御方法、又は、請求項１３に記載の音声認識制御方法を実行可能であることを特徴とする、電子デバイス。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１から６のいずれかに記載の音声認識制御方法、又は、請求項１３に記載の音声認識制御方法を実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。