JP2022003415A

JP2022003415A - 音声制御方法及び音声制御装置、電子機器並びに記憶媒体

Info

Publication number: JP2022003415A
Application number: JP2021166825A
Authority: JP
Inventors: ヤン，ソン; Song Yang; ゾウ，サイサイ; Saisai Zou; カオ，ジエイ; Jieyi Cao; シャオ，ジュンヤオ; Junyao Shao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-03
Filing date: 2021-10-11
Publication date: 2022-01-11
Anticipated expiration: 2041-10-11
Also published as: US11893988B2; CN112382285B; CN112382285A; US20210319795A1; JP7281521B2

Abstract

【課題】命令認識の効率及び信頼性を向上させることができる、音声制御方法、音声制御装置、電子機器、プログラム及び記憶媒体を提供する。【解決手段】方法は、クライアントから送信された目標オーディオを取得し音声認識を行う。目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ及びウェイクアップ後にクライアントによって収集されたオーディオを含む。方法はさらに、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第２のオーディオセグメントから認識された命令に基づいてクライアントを制御する。第２のオーディオセグメントは、第１のオーディオセグメントより遅いか又は第１のオーディオセグメントと重なり合う部分を有する。【選択図】図１

Description

本出願はコンピュータ及び深層学習の技術分野に関し、具体的には、音声技術、クラウドコンピューティング及び自然言語処理ＮＬＰの技術分野に関し、特に、音声制御方法及び音声制御装置、電子機器並びに記憶媒体に関する。

インテリジェント音声インタラクションの普及に伴い、インテリジェント音声インタラクションのアプリケーション及び製品は絶えず登場してきており、音声認識率の向上への要求も徐々に高くなる。

スマート機器は、取得した音声に基づいて、ウェイクアップワードを検出し、ウェイクアップワードを検出した後に、取得したウェイクアップワードを含む音声を音声サーバにアップロードして認識させ、音声認識結果を得、音声認識結果に基づいて機器を制御する。したがって、音声の認識結果を正確に取得することは、機器の音声制御の精度を向上させるために非常に重要である。したがって、音声中の命令をどのように正確に認識するかは、解決すべき課題となっている。

本出願は、音声制御の精度を向上させるための音声制御方法及び音声制御装置、電子機器並びに記憶媒体を提供する。

本出願の第１の態様によれば、クライアントから送信された目標オーディオを取得するステップであって、前記目標オーディオは、ウェイクアップ前の目標時間長内に前記クライアントによって収集されたオーディオ、及びウェイクアップ後に前記クライアントによって収集されたオーディオを含むステップと、前記目標オーディオの音声認識を行うステップと、前記目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するステップであって、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有するステップと、を含む、音声制御方法が提供される。

本出願の第２の態様によれば、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するステップと、前記ウェイクアップワードが認識された場合にウェイクアップするステップと、ウェイクアップ前の目標時間長内に収集したオーディオ、及びウェイクアップ後に収集したオーディオを目標オーディオとしてサーバに送信するステップであって、前記目標オーディオは、音声認識に用いられ、前記目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて制御し、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有するステップと、を含む、音声制御方法が提供される。

本出願の第３の態様によれば、クライアントから送信された目標オーディオを取得するように構成される取得モジュールであって、前記目標オーディオは、ウェイクアップ前の目標時間長内に前記クライアントによって収集されたオーディオ、及びウェイクアップ後に前記クライアントによって収集されたオーディオを含む取得モジュールと、前記目標オーディオの音声認識を行うように構成される認識モジュールと、前記目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するように構成される制御モジュールであって、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有する制御モジュールと、を含む、音声制御装置が提供される。

本出願の第４の態様によれば、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するように構成される収集モジュールと、前記ウェイクアップワードが認識された場合にウェイクアップするように構成されるウェイクアップモジュールと、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを目標オーディオとしてサーバに送信するように構成される送信モジュールであって、前記目標オーディオは、音声認識に用いられ、前記目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて制御し、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有する送信モジュールと、を含む、音声制御装置が提供される。

本出願の第５の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリとを含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行される場合、少なくとも１つのプロセッサが第１の態様に記載の音声制御方法を実行でき、又は第２の態様に記載の音声制御方法を実行できる、電子機器が提供される。

本出願の第６の態様によれば、コンピュータに第１の態様に記載の音声制御方法を実行させ、又は第２の態様に記載の音声制御方法を実行させるためのコンピュータ命令を記憶している、非一時的コンピュータ読み取り可能な記憶媒体が提供される。
本出願の第７の態様によれば、コンピュータに第１の態様に記載の音声制御方法を実行させ、又は第２の態様に記載の音声制御方法を実行させる、コンピュータプログラムが提供される。

この部分に記載されている内容は、本出願の実施例の肝心な、又は重要な特徴を特定することを意図しておらず、本出願の範囲を限定するものでもないことを理解すべきである。本出願の他の特徴は、以下の明細書により容易に理解される。

図面は、本技術案をよりよく理解するために用いられ、本出願を限定するものではない。
本出願の実施例に係る音声制御方法のフローチャートである。本出願の実施例に係る別の音声制御方法のフローチャートである。本出願の実施例に係る別の音声制御方法のフローチャートである。本出願の実施例に係る別の音声制御方法のフローチャートである。本出願の実施例に係るさらに別の音声制御方法のフローチャートである。本出願の実施例に係る音声制御装置の概略構成図である。本出願の実施例に係る別の音声制御装置の概略構成図である。本出願の実施例に係る音声制御方法を実施するための電子機器のブロック図である。

以下、図面を参照しながら、本出願の例示的な実施例について説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

スマート機器は、取得した音声に基づいて、ウェイクアップワードを検出し、ウェイクアップワードを検出した後に、音声の開始点及び終了点の検出を開始し、開始点と終了点との間の音声を音声サーバにアップロードして認識し、音声認識結果を得る。しかしながら、音声の開始点及び終了点の検出アルゴリズムにより取得された音声に基づいて音声認識を行うことには、以下の問題が存在する。

（１）ウェイクアップの誤報告。ウェイクアップ検出アルゴリズムそのものが厳密且つ精確ではないため、ウェイクアップワードではない音声をウェイクアップワードとして検出することがあり、この場合、音声の開始点及び終了点の検出を開始する行動自体が間違っており、それにより、ユーザの本当の意図ではない音声を送信して認識してしまう。

（２）信頼性が低い。ウェイクアップアルゴリズムにより検出されたウェイクアップ時点が必ずしも正確ではないため、ウェイクアップ時点に基づいて音声の開始点の検出を開始する動作により得られた音声の開始点も必ずしも正確ではない。それにより、クラウドが取得した音声データに基づいて、認識したデータは正確ではないため、認識エンジンが、受信したデータを認識する時に、完全に一致する認識結果を得ることができず、認識性能が影響される。

したがって、本出願の実施例は、音声制御の精度を向上させ、命令認識の効率及び信頼性を向上させるための音声制御方法を提供する。

以下、図面を参照しながら、本出願の実施例に係る音声制御方法、音声制御装置、電子機器並びに記憶媒体を説明する。

図１は、本出願の実施例に係る音声制御方法のフローチャートである。

図１に示すように、この方法は、以下のステップ１０１〜ステップ１０３を含む。

ステップ１０１において、クライアントから送信された目標オーディオを取得し、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含む。

本実施例の実行主体はサーバであり、このサーバはローカルサーバであってもよく、クラウドサーバであってもよく、サーバは単一のサーバであってもよく、サーバクラスターであってもよい。

ここで、クライアントとは、サーバがサービスを提供するアプリケーション、ウェブページ、又は端末機器であり、例えば、ロボットなどが挙げられる。例えば、本出願のサーバが音声制御アプリケーションのサーバである場合、クライアントは、ユーザの端末機器にインストールされた全ての音声制御アプリケーションであり、本出願の実施例ではこれについて限定しない。

ここで、目標オーディオは、オーディオストリームフォーマットであり、このオーディオストリームフォーマットにより、音声の連続的な収集が実現される。

本出願の一実施例では、サーバがクライアントから取得した目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含む。つまり、サーバがクライアントから目標オーディオを取得する前に、クライアントは、音声検出を行い、ウェイクアップワードを検出した後に、ウェイクアップワードを検出した時点よりも前の目標時間長のオーディオを取得し、ウェイクアップ後の設定時間長のオーディオを収集する。本実施例における目標オーディオは、ウェイクアップワードが検出された後に、ウェイクアップワードが検出された時点から目標時間長だけ遡り、例えば、ウェイクアップワードが検出された時点をｔとすると、ｔ−５秒の時点を音声の開始点として、時間長がＴの目標オーディオを取得する。本出願における目標オーディオがウェイクアップ前の目標時間長内のオーディオ、及びウェイクアップ後に収集されたオーディオを含むことにより、取得された目標オーディオは、ウェイクアップワードの音声部分をカバーして、目標オーディオからウェイクアップワードを認識して取得する信頼性を向上させることができる。

ステップ１０２において、目標オーディオの音声認識を行う。

具体的には、サーバは、取得した目標オーディオに基づいて、ウェイクアップワードの認識及びスクリーニングを行い、音声命令の認識を行い、認識した音声命令に基づいてクライアントの制御を行う。

ステップ１０３において、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第２のオーディオセグメントから認識された命令に基づいて、クライアントを制御し、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有する。

本実施例の一例では、目標オーディオを第１のオーディオセグメントと第２のオーディオセグメントに分割し、そのうち、第１のオーディオセグメントは、目標オーディオの最初の所定時間長のオーディオセグメントであり、第１のオーディオセグメントにはウェイクアップワードが含まれる可能性があり、すなわち、まず第１のオーディオセグメントにおいてウェイクアップワードの認識を行うことで、認識の信頼性を向上させる。第２のオーディオセグメントは、音声命令が含まれる可能性があることを示し、すなわち、第２のオーディオセグメントにおいて音声命令の認識を行う。サーバは、目標オーディオを取得した後に、第１のオーディオセグメントにおいてウェイクアップワードの認識及びスクリーニングを行い、第１のオーディオセグメントからウェイクアップワードが認識されると、引き続き、第２のオーディオセグメントに対して認識を行い、第２のオーディオセグメントから命令を認識した後に、認識した当該命令に基づいて、クライアントを制御する。例えば、サーバが取得した目標オーディオが、「小Ａ（ショウＡ）、小Ａ（ショウＡ）、音楽を再生して」というものである場合、認識した命令は、ステレオをオンにするというものであり、サーバは「音楽を再生して」という命令をクライアントに送信することで、クライアントは音楽を再生する。

本実施例では、サーバはまず第１のオーディオセグメントからウェイクアップワードが認識されたと決定することにより、クライアントがウェイクアップワード検出の誤報告で無効な目標オーディオを送信する可能性を低減し、この後の認識の信頼性を向上させることができる。

本実施例では、第２のオーディオセグメントは第１のオーディオセグメントより遅く、又は第１のオーディオセグメントと重なり合う部分を有する。具体的には、本実施例の１つのシーンでは、第１のオーディオセグメントから認識されたウェイクアップワードの音声が第１のオーディオセグメントの終了フレームに位置し、命令がウェイクアップワードより遅いため、第２のオーディオセグメントは第１のオーディオセグメントより遅い。本実施例の別のシーンでは、第１のオーディオセグメントから認識されたウェイクアップワードの音声が第１のオーディオセグメントの終了フレームに位置せず、この場合、命令は第１のオーディオに存在する可能性があるため、第２のオーディオセグメントは第１のオーディオセグメントと重なり合う部分を有してもよく、これにより、命令認識の精度を向上させることができる。

なお、終了フレームは、第１のオーディオセグメントの最後の所定フレームであってもよく、例えば最後の所定の３つのフレーム、又は２つのフレームであってもよく、本実施例では限定されない。

本実施例の音声制御方法では、クライアントから送信された目標オーディオを取得し、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含むため、目標オーディオにはウェイクアップワードが含まれる可能性を高めるとともに、取得した目標オーディオの信頼性及び精度を向上させ、さらに、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第２のオーディオセグメントから認識された命令に基づいてクライアントを制御し、第２のオーディオセグメントは第１のオーディオセグメントより遅く、又は第１のオーディオセグメントと重なり合う部分を有し、認識したウェイクアップワードのオーディオフレームを第１のオーディオセグメントと第２のオーディオセグメントに分割して、認識を連続して行うことにより、命令認識の効率及び信頼性を向上させることができる。

上記実施例に基づいて、本実施例は、別の音声制御方法の可能な実現形態を提供し、具体的には、ウェイクアップワードのスクリーニングにより、第１のオーディオセグメント内のウェイクアップワードに対応するオーディオフレームを決定し、ウェイクアップワードに対応する目標オーディオフレームに対応する時刻に基づいて、ウェイクアップワードが第１のオーディオセグメントにあるか否かを判定することで、ウェイクアップワード認識の信頼性を向上させることを示す。図２は本出願の実施例に係る別の音声制御方法のフローチャートであり、図２に示すように、ステップ１０２の後に、以下のステップ２０１〜２０３をさらに含む。

ステップ２０１において、音声認識により得られたテキストからウェイクアップワードをスクリーニングする。

本出願の実施例の可能な一実現形態では、トレーニングにより得られたテキスト認識ネットワークに基づいて、目標オーディオの音声をテキスト認識ネットワークに入力し、音声に対応するテキストを出力し、テキストには、異なるテキストコンテンツと音声における各オーディオフレームとの対応関係が示され、クライアントの所定のウェイクアップワードに基づいて、音声に対応するテキストにおいてウェイクアップワードのマッチングを行う。可能な一実現形態として、ユークリッド距離又はコサイン距離に基づいて、テキストからウェイクアップワードがマッチングしたか否かを判定することができ、例えば、所定のウェイクアップワードが小Ａ（ショウＡ）、又はディンデォン（dingdong）などであると、マッチングにより得られたウェイクアップワードは「小Ａ（ショウＡ）、小Ａ（ショウＡ）」である。

ステップ２０２において、ウェイクアップワードがスクリーニングされた場合、目標オーディオにおける、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定する。

本実施例では、音声に対応する認識テキストからウェイクアップワードがスクリーニングされた場合、目標オーディオにおける、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定するとともに、目標オーディオフレームに対応する出現時刻を決定する。

１つのシーンでは、取得した音声中のウェイクアップワードに一定の終了音が存在し、音声認識により得られたテキストに終了音の長引きが存在する。例えば、目標オーディオは「ｘｉａｏｄｕ…ｕ（ショウドォウ…ウ）、ビデオを再生して」であり、ここで、ウェイクアップワードは「ｘｉａｏｄｕ…ｕ（ショウドォウ…ウ）」であり、命令は「ビデオを再生して」であり、本実施例では、認識テキストからウェイクアップワード「ｘｉａｏｄｕ…ｕ（ショウドォウ…ウ）」をスクリーニングし、このウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定した後、目標オーディオフレームに対応する出現時刻を決定する。

つまり、本実施例では、ウェイクアップワードをスクリーニングし、目標オーディオフレームが出現する時刻を決定すれば、音声の分割が実現され、その分割結果は「ｘｉａｏｄｕ・・・ｕ（ショウドォウ…ウ）｜ビデオを再生して」であり、ここで、「｜」は分割の時刻を示し、つまり、「｜」よりも前の時刻は目標オーディオフレームの時刻であり、「｜」よりも後の時刻は目標オーディオフレームに続く時刻である。

ステップ２０３において、目標オーディオにおける目標オーディオフレームの出現時刻が第１のオーディオセグメントの終了時刻より早い場合、第１のオーディオセグメントからウェイクアップワードが認識されたと決定する。

本実施例では、目標オーディオにおける目標オーディオフレームの出現時刻が第１のオーディオセグメントの終了時刻より早いと決定される場合、第１のオーディオセグメントにウェイクアップワードが含まれていることが示され、第１のオーディオセグメントからウェイクアップワードを認識する信頼性が向上する。そうでない場合、第１のオーディオセグメントからウェイクアップワードが認識されないことが示される。通常、命令がウェイクアップワードの後に言うため、例えば、「ショウＡ、ショウＡ、ビデオを再生して」の場合、「ショウＡ、ショウＡ」はウェイクアップワードであり、「ビデオを再生して」は命令であり、したがって、第１のオーディオセグメントからウェイクアップワードが認識されると、第２のオーディオセグメントの認識を実行し続けて、命令を認識して取得することができ、これにより、命令認識の信頼性が向上し、ウェイクアップワードが認識されない場合そのまま認識をやめることによって命令を認識して取得できないことが回避される。

本実施例の音声制御方法では、音声認識により得られたテキストからウェイクアップワードをスクリーニングし、ウェイクアップワードにマッチングするテキストの目標オーディオにおける対応するフレームを決定することにより、ウェイクアップワードに対応する目標オーディオフレームの決定の精度を向上させることができる。目標オーディオフレームの出現時刻が第１のオーディオセグメントの終了時刻より早い場合、ウェイクアップワードが第１のオーディオセグメントにあると決定することにより、第１のオーディオセグメントからウェイクアップワードを認識する精度及び信頼性を向上させることができる。

上記実施例に基づいて、本実施例は音声制御方法の可能な実現形態を提供し、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームに基づいて、第２のオーディオセグメントを決定することで、第２のオーディオセグメントの開始時間の決定の精度を向上させ、それにより、命令認識の精度及び信頼性を向上させることができる。したがって、図３は本出願の実施例に係る別の音声制御方法のフローチャートであり、図３に示すように、ステップ２０３の後に、以下のステップ３０１〜３０２をさらに含む。

ステップ３０１において、目標オーディオにおける目標オーディオフレームに続くオーディオフレームの出現時刻を第２のオーディオセグメントの開始時刻とする。

ステップ３０２において、第２のオーディオセグメントの開始時刻、及び第２のオーディオセグメントの設定時間長に基づいて、第２のオーディオセグメントを決定する。

本実施例では、第１のオーディオセグメントからウェイクアップワードが認識されたと決定された場合、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームに基づいて、目標オーディオにおける、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームに続くオーディオフレームの出現時刻を、第２のオーディオセグメントの開始時刻とし、さらに、第２のオーディオセグメントの開始時刻、及び第２のオーディオセグメントの設定時間長に基づいて、第２のオーディオセグメントを決定することで、第２のオーディオセグメントの開始時間の決定の精度を向上させ、命令認識の精度を向上させることができる。

例えば、目標オーディオは「ｘｉａｏｄｕ…ｕ（ショウドォウ…ウ）、ビデオを再生して」であり、ここで、ウェイクアップワードは「ｘｉａｏｄｕ…ｕ（ショウドォウ…ウ）」であり、命令は「ビデオを再生して」である。本実施例では、ウェイクアップワードをスクリーニングし、目標オーディオフレームが出現した時刻を決定すれば、音声の分割が実現されることになり、その分割結果は「ｘｉａｏｄｕ・・・ｕ｜ビデオを再生して」であり、ここで、「｜」は分割の時刻を示し、つまり、「｜」よりも前の時刻は目標オーディオフレームの時刻であり、「｜」よりも後の時刻は、目標オーディオフレームに続く時刻であり、すなわち、本出願における第２のオーディオセグメントは「ビデオを再生して」であり、認識した命令は「ビデオを再生して」である。それにより、本実施例では、決定された第２のオーディオセグメントの開始時刻は、第２のオーディオセグメントの決定の精度を向上させることができる。従来技術では、このオーディオを分割する時に、ウェイクアップワードを検出した時のウェイクアップ時刻に基づいて分割するものであり、ウェイクアップ時刻に基づいて分割する場合、分割した結果は「ｘｉａｏｄｕ（ショウドォウ）｜ｕ（ウ）（注釈：中国語では、ｕの発音はウであり、中国語の「勿」の発音と同じであり、中国語では「勿」は「しない」ことを意味する）〜ビデオを再生」である可能性があり、すなわち、第２のオーディオセグメントは「ｕ〜ビデオを再生」になり、第２のオーディオセグメントに基づいて認識した命令は「ビデオを再生しないで」になり、命令認識が誤ることになる。

なお、このウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームの出現時刻は、第１のオーディオセグメントの終了時刻より早くてもよいし、第１のオーディオセグメントの終了時刻と同じであってもよい。つまり、ウェイクアップワードに対応する目標オーディオフレームは第１のオーディオセグメントの中間フレームであってもよいし、終了フレームであってもよい。１つのシーンでは、ウェイクアップワードに対応する目標オーディオフレームが第１のオーディオセグメントの中間フレームである場合、目標オーディオフレームに続くオーディオフレームの出現時刻を第２のオーディオセグメントの開始時刻として決定された第２のオーディオセグメントは、第１のオーディオセグメントと重なり合う部分を有する。別のシーンでは、ウェイクアップワードに対応する目標オーディオフレームが第１のオーディオセグメントの終了フレームである場合、目標オーディオフレームに続くオーディオフレームの出現時刻を第２のオーディオセグメントの開始時刻として決定された第２のオーディオセグメントは、第１のオーディオセグメントより遅い。ウェイクアップワードが目標オーディオからスクリーニングされた後、決定された第２のオーディオセグメントから命令を認識することにより、命令認識の信頼性を向上させることができる。

本実施例の音声制御方法では、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームに続くオーディオフレームの出現時刻を、第２のオーディオセグメントの開始時刻とし、第２のオーディオセグメントの開始時刻、及び第２のオーディオセグメントの設定時間長に基づいて、第２のオーディオセグメントを決定する。つまり、本出願において、認識したウェイクアップワードに対応する目標オーディオフレームを用いて、第２のオーディオセグメントを決定することで、第２のオーディオセグメントの開始時間決定の精度を向上させ、命令認識の精度を向上させることができる。

実際の応用では、サーバが目標オーディオの音声認識を行った後に、目標オーディオを分割して得た第１のオーディオセグメントからウェイクアップワードを認識して得ることができず、又は第２のオーディオセグメントから命令を認識して得ることができない可能性がある。ウェイクアップワードを認識できず、又は命令を認識できない原因としては、目標オーディオを分割して得た第１のオーディオセグメントと第２のオーディオセグメントの分割が正確ではないことによって、第１のオーディオセグメントからウェイクアップワードを認識できず、又は第２のオーディオセグメントから命令を認識できない可能性がある。したがって、認識の信頼性を向上させるために、本実施例の音声制御方法では、ウェイクアップワード又は命令を認識できない場合、目標オーディオの事前設定された時間長を目標オーディオから削除し、２回目の認識を行うことで、認識の信頼性を向上させることができる。上記実施例に基づいて、本実施例は、音声制御方法の可能な一実現形態を提供し、図４は本出願の実施例に係る別の音声制御方法のフローチャートであり、図４に示すように、この方法は、以下のステップ４０１〜４０３を含む。

ステップ４０１において、第１のオーディオセグメントからウェイクアップワードが認識されない場合、又は第２のオーディオセグメントから命令が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得する。

本実施例の１つのシーンでは、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含み、第１のオーディオセグメントからウェイクアップワードが認識されない場合、第１のオーディオセグメントが目標オーディオの開始時刻から所定時間長に基づいて決定されるものであり、ここで、第１のオーディオセグメントの時間長が目標時間長より大きく、目標時間長とは、ウェイクアップワードが検出された時のウェイクアップワードよりも前の所定時間長であり、例えば目標時間長が２秒であると、第１のオーディオセグメントは２．５秒であってもよい。つまり、第１のオーディオセグメントは目標時間長を含むことで、第１のオーディオセグメントにウェイクアップワードが含まれる可能性を向上させることができる。第１のオーディオセグメントからウェイクアップワードが認識されない場合、第１のオーディオセグメントの分割が正確ではないと考えられ、目標時間長内にウェイクアップワードが含まれないと理解されてもよい。したがって、目標オーディオの開始位置における目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得し、つまり、保持されたオーディオに基づいて、第１のオーディオセグメントと第２のオーディオセグメントの分割を再度行う必要がある。

本実施例の別のシーンでは、第２のオーディオセグメントから命令が認識されない場合、第１のオーディオセグメントと第２のオーディオセグメントの分割が合理的ではない可能性があり、つまり、第２のオーディオセグメントには、ウェイクアップワードの一部の音引きなどの干渉情報がさらに含まれ、例えば、「ｘｉａｏｄｕ（ショウドォウ）｜ｕ（ウ）〜ビデオを再生」（注釈：中国語では、ｕの発音はウであり、中国語の「勿」の発音と同じであり、中国語では「勿」は「しない」ことを意味するから、ビデオ再生しないでという意味になる）が挙げられ、この場合、目標オーディオの開始位置における目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得する必要があり、つまり、保持されたオーディオに基づいて、音声認識を再度行う必要がある。

ステップ４０２において、保持されたオーディオの音声認識を再度行う。

ステップ４０３において、音声認識を再度行うことにより得られた命令に基づいて、クライアントを制御する。

本実施例の一例では、保持されたオーディオの音声認識を再度行うには、保持されたオーディオにおいて、第１のオーディオセグメントと第２のオーディオセグメントを再度決定することで、保持されたオーディオに対して第２のオーディオセグメントの分割を再度行い、再度分割された第２のオーディオセグメントに基づいて命令の認識を行うことができ、ここで、第２のオーディオセグメントの時間長が第１のオーディオセグメントより大きく、比較的長い第２のオーディオセグメントを設定することにより命令認識の信頼性を向上させることができる。

本実施例の音声制御方法では、目標オーディオに対して認識を行い、第１のオーディオセグメント及び第２のオーディオセグメントに対して認識を連続して行い、第１のオーディオセグメントからウェイクアップワードが認識されない、又は第２のオーディオセグメントから命令語が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオを削除して、保持されたオーディオを取得し、次に、保持されたオーディオに対して復号認識を再度行い、これにより、従来技術において取得されたオーディオセグメントの音声認識の動作を１回のみ行うことに比べ、認識の信頼性を向上させることができる。

上記実施例を実現するために、本実施例は、別の音声制御方法を提供し、この制御方法の実行主体はクライアントであり、図５は本出願の実施例に係るさらに別の音声制御方法のフローチャートである。

図５に示すように、この方法は、以下のステップ５０１〜ステップ５０３を含む。

ステップ５０１において、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識する。

本実施例の実行主体はクライアントである。

本実施例では、クライアントは、待機状態では、クライアントに設置されたマイクによりオーディオを収集し、収集したオーディオのノイズ低減処理を行った後、ウェイクアップワードを認識することで、ウェイクアップワード認識の信頼性を向上させることができる。可能な一実現形態として、予めトレーニングして得られた自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）技術に基づくウェイクアップワード認識モデルを用いて、収集したオーディオからウェイクアップワードを認識する。

ステップ５０２において、ウェイクアップワードが認識された場合にウェイクアップする。

具体的には、収集したオーディオにウェイクアップワードが含まれていることをクライアントが認識した場合、クライアントがウェイクアップされる。つまり、クライアントは、ローエンドのスリープ状態から、命令を受信可能なウェイクアップ状態に切り替えられる。

ステップ５０３において、ウェイクアップ前の目標時間長内に収集したオーディオ、及びウェイクアップ後に収集したオーディオを目標オーディオとしてサーバに送信し、目標オーディオは、音声認識に用いられ、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第２のオーディオセグメントから認識された命令に基づいて制御し、第２のオーディオセグメントは第１のオーディオセグメントより遅く、又は第１のオーディオセグメントと重なり合う部分を有する。

本出願の一実施例では、収集したオーディオにウェイクアップワードが含まれていることをクライアントが認識した場合、目標オーディオの収集を行い、目標オーディオの精度を向上させるために、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントが収集したオーディオ、及びウェイクアップ後にクライアントが収集したオーディオを含む。つまり、クライアントは、音声検出を行い、ウェイクアップワードを検出した後に、ウェイクアップワードを検出した時点よりも前の目標時間長のオーディオ、すなわちウェイクアップ前の目標時間長のオーディオ、及びウェイクアップ後の設定時間長のオーディオを取得する。例えば、ウェイクアップワードを検出した時点をｔとすると、ｔ−５秒の時点を音声の開始点として、時間長がＴの目標オーディオを取得する。本出願における目標オーディオは、ウェイクアップ前の目標時間長のオーディオ、及びウェイクアップ後に収集されたオーディオを含むことにより、取得した目標オーディオはウェイクアップワードの音声部分をカバーすることができ、従来技術における、ウェイクアップ時点に基づいてオーディオ収集の開始点を決定することによって検出時点が不正確になって目標オーディオの精度が悪くなるという問題を回避し、目標オーディオ収集の信頼性を向上させることができる。

本実施例では、第２のオーディオセグメントは第１のオーディオセグメントより遅く、又は第１のオーディオセグメントと重なり合う部分を有する。１つのシーンでは、ウェイクアップワードに対応する目標オーディオフレームが第１のオーディオセグメントの中間フレームである場合、目標オーディオフレームに続くオーディオフレームの出現時刻を第２のオーディオセグメントの開始時刻として決定された第２のオーディオセグメントは、第１のオーディオセグメントとは重なり合う部分を有する。別のシーンでは、ウェイクアップワードに対応する目標オーディオフレームが第１のオーディオセグメントの終了フレームである場合、目標オーディオフレームに続くオーディオフレームの出現時刻を第２のオーディオセグメントの開始時刻として決定された第２のオーディオセグメントは、第１のオーディオセグメントより遅い。ウェイクアップワードが目標オーディオからスクリーニングされた後、決定された第２のオーディオセグメントから命令を認識するにより、命令認識の信頼性を向上させることができる。

さらに、クライアントは、目標オーディオを取得した後、目標オーディオをサーバに送信することで、サーバは、取得した目標オーディオに基づいて、目標オーディオに対して認識を行い、第１のオーディオセグメント及び第２のオーディオセグメントに対して認識を連続して行い、第１のオーディオセグメントからウェイクアップワードが認識されない、又は第２のオーディオセグメントから命令語が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオを削除して、保持されたオーディオを取得し、次に、保持されたオーディオに対して復号認識を再度行い、従来技術において取得したオーディオセグメントの音声認識の動作を１回のみ行うことに比べ、認識の信頼性を向上させることができる。

なお、前述したサーバ側に係る実施例における、サーバが取得した目標オーディオに対してどのように認識を行うかについての解釈及び説明は、本実施例にも適用され、ここでは重なり合う説明を省略する。

本実施例の音声制御方法では、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識することで、ウェイクアップワードが認識された場合、クライアントがウェイクアップされ、ウェイクアップ前の目標時間長内に収集したオーディオ、及びウェイクアップ後に収集したオーディオを目標オーディオとしてサーバに送信し、目標オーディオは、音声認識に用いられ、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第２のオーディオセグメントから認識された命令に基づいて制御し、第２のオーディオセグメントは前記第１のオーディオセグメントより遅く、又は第１のオーディオセグメントと重なり合う部分を有する。本実施例では、収集された目標オーディオは、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを含み、取得した音声の開始点を早めることを実現することで、取得した音声にウェイクアップワードが含まれるようになり、それにより、取得した音声がユーザの本当の意図を反映し、認識の信頼性が向上する。ウェイクアップ時刻を取得した音声の開始点とすることによって、音声取得の開始点が不正確になり、取得した目標オーディオがユーザの本当の意図のオーディオではなく、認識の精度が低くなるという問題が回避される。

上記実施例に基づいて、本実施例における目標オーディオは、オーディオストリームフォーマットであり、このオーディオストリームフォーマットにより、音声の連続的な収集が実現される。

上記実施例を実現するために、本出願は音声制御装置をさらに提供し、この装置はサーバ内に設置される。

図６は本出願の実施例に係る音声制御装置の概略構成図である。

図６に示すように、この音声制御装置は、取得モジュール６１と、認識モジュール６２と、制御モジュール６３と、を含む。

取得モジュール６１は、クライアントから送信された目標オーディオを取得するように構成され、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含む。

認識モジュール６２は、目標オーディオの音声認識を行うように構成される。

制御モジュール６３は、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第２のオーディオセグメントから認識された命令に基づいて、クライアントを制御するように構成され、第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有する。

さらに、本出願の実施例の可能な一実現形態では、この音声制御装置は、前記第１のオーディオセグメントから前記ウェイクアップワードが認識されない場合、又は前記第２のオーディオセグメントから前記命令が認識されない場合、前記目標オーディオの開始位置における前記目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得するように構成される削除モジュールをさらに含む。

上記認識モジュール６２は、さらに、前記保持されたオーディオの音声認識を再度行うように構成される。

上記制御モジュール６３は、さらに、音声認識を再度行うことにより得られた命令に基づいて、前記クライアントを制御するように構成される。

本出願の実施例の可能な一実現形態では、前記第１のオーディオセグメントの時間長は前記目標時間長より大きく、前記第２のオーディオセグメントの時間長は前記第１のオーディオセグメントの時間長より大きい。

本出願の実施例の可能な実現形態では、この音声制御装置は、音声認識により得られたテキストから前記ウェイクアップワードをスクリーニングするように構成されるスクリーニングモジュールと、前記ウェイクアップワードがスクリーニングされた場合、前記目標オーディオにおける、前記ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定し、前記目標オーディオにおける前記目標オーディオフレームの出現時刻が前記第１のオーディオセグメントの終了時刻より早い場合、前記第１のオーディオセグメントから前記ウェイクアップワードが認識されたと決定するように構成される決定モジュールと、をさらに含む。

本出願の実施例の可能な一実現形態では、上記制御モジュール６３は、さらに、前記目標オーディオにおける、前記目標オーディオフレームに続くオーディオフレームの出現時刻を前記第２のオーディオセグメントの開始時刻とし、前記第２のオーディオセグメントの開始時刻、及び前記第２のオーディオセグメントの設定時間長に基づいて、前記第２のオーディオセグメントを決定するように構成される。

なお、前述したサーバ側で実現される音声制御方法の実施例についての解釈及び説明は、この実施例の音声制御装置にも適用され、その原理は類似するため、ここでは重複する説明を省略する。

本実施例の音声制御装置では、目標オーディオに対して認識を行い、第１のオーディオセグメント及び第２のオーディオセグメントに対して認識を連続して行い、第１のオーディオセグメントからウェイクアップワードが認識されない、又は第２のオーディオセグメントから命令語が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオを削除して、保持されたオーディオを取得し、次に、保持されたオーディオに対して復号認識を再度行い、従来技術において取得したオーディオセグメントの音声認識の動作を１回のみ行うことに比べ、認識の信頼性を向上させることができる。

上記実施例を実現するために、本出願は、音声制御装置をさらに提供し、この装置はクライアント内に設置される。

図７は本出願の実施例に係る別の音声制御装置の概略構成図である。

図７に示すように、この音声制御装置は、収集モジュール７１と、ウェイクアップモジュール７２と、送信モジュール７３と、を含む。

収集モジュール７１は、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するように構成される。

ウェイクアップモジュール７２は、ウェイクアップワードが認識された場合にウェイクアップするように構成される。

送信モジュール７３は、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを目標オーディオとしてサーバに送信するように構成され、目標オーディオは、音声認識に用いられ、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第２のオーディオセグメントから認識された命令に基づいて制御し、第２のオーディオセグメントは第１のオーディオセグメントより遅く、又は第１のオーディオセグメントと重なり合う部分を有する。

さらに、本出願の実施例の可能な一実現形態では、目標オーディオはオーディオストリームフォーマットである。

なお、前述したクライアントで実現される音声制御方法の実施例についての解釈及び説明は、この実施例の音声制御装置にも適用され、その原理は類似するため、ここでは重複する説明を省略する。

本実施例の音声制御装置では、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識することで、ウェイクアップワードが認識された場合にクライアントをウェイクアップし、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを目標オーディオとしてサーバに送信し、目標オーディオは、音声認識に用いられ、目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第２のオーディオセグメントから認識された命令に基づいて制御し、第２のオーディオセグメントは前記第１のオーディオセグメントより遅く、又は第１のオーディオセグメントと重なり合う部分を有する。本実施例では、収集された目標オーディオは、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを含み、取得した音声の開始点を早めることを実現することで、取得した音声にウェイクアップワードが含まれるようになり、それにより、取得した音声がユーザの本当の意図を反映でき、認識の信頼性を向上させることができる。ウェイクアップ時刻を取得した音声の開始点とすることによって音声取得の開始点が不正確になり、取得した目標オーディオがユーザの本当の意図のオーディオではなく、認識の精度が低くなるという問題が回避される。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図８は本出願の実施例に係る音声制御方法を実施するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態の移動体装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／又は請求される本出願の実施を限定することを意図しない。

図８に示すように、この電子機器は、１つ又は複数のプロセッサ８０１と、メモリ８０２と、各コンポーネントを接続するためのインタフェースであって、高速インタフェースと低速インタフェースを含むものとを含む。各コンポーネントは異なるバスによって相互に接続され、共通のマザーボード上に実装されてもよく、又は必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器内で実行される、ＧＵＩのグラフィックス情報を外部入力／出力装置（例えば、インタフェースに結合された表示機器）上に表示させるようにメモリ内又はメモリ上に記憶された命令を含む命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。また、それぞれの機器が必要な動作の一部を提供する（例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする）複数の電子機器を接続することができる。図８において、１つのプロセッサ８０１を例とする。

メモリ８０２は、本出願に係る非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも１つのプロセッサに本出願に係る音声制御方法を実行させるように、前記少なくとも１つのプロセッサによって実行可能な命令を記憶している。本出願の非一時的コンピュータ読み取り可能な記憶媒体は、本出願に係る音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

非一時的コンピュータ読み取り可能な記憶媒体として、メモリ８０２は、例えば本出願の実施例における音声制御方法に対応するプログラム命令／モジュール（例えば、図６に示す取得モジュール６１、認識モジュール６２及び制御モジュール６３、又は図７に示す収集モジュール７１、ウェイクアップモジュール７２及び送信モジュール７３）のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するために用いることができる。プロセッサ８０１は、メモリ８０２に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声制御方法を実現する。

メモリ８０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶可能なプログラム記憶領域と、音声制御の電子機器の利用に応じて作成されるデータなどを記憶可能なデータ記憶領域とを含んでもよい。また、メモリ８０２は、高速ランダムアクセスメモリを含んでもよく、さらに、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ、又は他の非一時的ソリッドステート記憶装置のような非一時的メモリを含んでもよい。いくつかの実施例では、メモリ８０２は、任意選択的に、プロセッサ８０１に対して遠隔に設置されるメモリを含み、これらの遠隔メモリはネットワークを介して音声制御の電子機器に接続することができる。上記ネットワークの例はインターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びこれらの組み合わせを含むが、これらに限定されない。

音声制御方法を実施するための電子機器は、さらに、入力装置８０３と出力装置８０４を含んでもよい。プロセッサ８０１と、メモリ８０２と、入力装置８０３と、出力装置８０４とは、バス又は他の形態により接続することができ、図８においてバスにより接続することを例とする。

入力装置８０３は入力された数字又は文字情報を受信し、音声制御の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置８０４は、表示機器、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。この表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態では、表示機器はタッチパネルであってもよい。

ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラム内で実施されることを含んでもよく、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、この記憶システム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置にデータ及び命令を送信することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械語でこれらのコンピュータプログラムを実行することができる。本明細書に使用される用語の「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、プログラマブルプロセッサに機械命令及び／又はデータを提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ））を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。用語の「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）やＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）であって、ユーザがこのキーボード及びこのポインティングデバイスによりコンピュータに入力を提供可能なものと、を有する。他の種類の装置は、ユーザとのインタラクションを提供するために用いることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、また、任意の形態（音響入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインタフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントとの任意のグループみ合わせを含むコンピューティングシステムで実施される。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は略称「ＶＰＳ」）において存在する、管理の難易度が大きく、業務拡張性が低いという欠点を解決するためのものである。

本出願の実施例の技術的解決手段によれば、目標オーディオに対して認識を行い、第１のオーディオセグメントと第２のオーディオセグメントに対しての認識を連続して行い、第１のオーディオセグメントからウェイクアップワードが認識されない、又は第２のオーディオセグメントから命令語が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオを削除して、保持されたオーディオを取得し、次に、保持されたオーディオに対して復号認識を再度行い、従来技術において取得したオーディオセグメントの音声認識の動作を１回のみ行うことに比べ、認識の信頼性を向上させることができる。

以上に示される様々な形態のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本出願に記載されている各ステップは、並列に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよいが、本出願に開示されている技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。

上記の具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因によって、様々な修正、グループみ合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本出願の精神及び原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

クライアントから送信された目標オーディオを取得するステップであって、前記目標オーディオは、ウェイクアップ前の目標時間長内に前記クライアントによって収集されたオーディオ、及びウェイクアップ後に前記クライアントによって収集されたオーディオを含むステップと、
前記目標オーディオの音声認識を行うステップと、
前記目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するステップであって、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有するステップと、を含む、音声制御方法。
前記目標オーディオの音声認識を行うステップの後、
前記第１のオーディオセグメントから前記ウェイクアップワードが認識されない場合、又は前記第２のオーディオセグメントから前記命令が認識されない場合、前記目標オーディオの開始位置における前記目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得するステップと、
前記保持されたオーディオの音声認識を再度行うステップと、
音声認識を再度行うことにより得られた命令に基づいて、前記クライアントを制御するステップと、をさらに含む、請求項１に記載の音声制御方法。
前記第１のオーディオセグメントの時間長は前記目標時間長より大きく、
前記第２のオーディオセグメントの時間長は前記第１のオーディオセグメントの時間長より大きい、請求項１に記載の音声制御方法。
前記目標オーディオの音声認識を行うステップの後、
音声認識により得られたテキストから前記ウェイクアップワードをスクリーニングするステップと、
前記ウェイクアップワードがスクリーニングされた場合、前記目標オーディオにおける、前記ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定するステップと、
前記目標オーディオにおける前記目標オーディオフレームの出現時刻が前記第１のオーディオセグメントの終了時刻より早い場合、前記第１のオーディオセグメントから前記ウェイクアップワードが認識されたと決定するステップと、をさらに含む、請求項１〜３のいずれかに記載の音声制御方法。
前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するステップの前に、
前記目標オーディオにおける、前記目標オーディオフレームに続くオーディオフレームの出現時刻を前記第２のオーディオセグメントの開始時刻とするステップと、
前記第２のオーディオセグメントの開始時刻、及び前記第２のオーディオセグメントの設定時間長に基づいて、前記第２のオーディオセグメントを決定するステップと、をさらに含む、請求項４に記載の音声制御方法。
待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するステップと、
前記ウェイクアップワードが認識された場合にウェイクアップするステップと、
ウェイクアップ前の目標時間長に収集したオーディオ、及びウェイクアップ後に収集したオーディオを目標オーディオとしてサーバに送信するステップであって、前記目標オーディオは、音声認識に用いられ、前記目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて制御し、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有するステップと、を含む、音声制御方法。
前記目標オーディオは、オーディオストリームフォーマットである、請求項６に記載の音声制御方法。
クライアントから送信された目標オーディオを取得するように構成される取得モジュールであって、前記目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後に前記クライアントによって収集されたオーディオを含む取得モジュールと、
前記目標オーディオの音声認識を行うように構成される認識モジュールと、
前記目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するように構成される制御モジュールであって、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有する制御モジュールと、を含む、音声制御装置。
前記音声制御装置は、前記第１のオーディオセグメントから前記ウェイクアップワードが認識されない場合、又は前記第２のオーディオセグメントから前記命令が認識されない場合、前記目標オーディオの開始位置における前記目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得するように構成される削除モジュールをさらに含み、
前記認識モジュールは、さらに、前記保持されたオーディオの音声認識を再度行うように構成され、
前記制御モジュールは、さらに、音声認識を再度行うことにより得られた命令に基づいて、前記クライアントを制御するように構成される、請求項８に記載の音声制御装置。
前記第１のオーディオセグメントの時間長は前記目標時間長より大きく、
前記第２のオーディオセグメントの時間長は前記第１のオーディオセグメントの時間長より大きい、請求項８に記載の音声制御装置。
前記音声制御装置は、
音声認識により得られたテキストから前記ウェイクアップワードをスクリーニングするように構成されるスクリーニングモジュールと、
前記ウェイクアップワードがスクリーニングされた場合に、前記目標オーディオにおける、前記ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定し、前記目標オーディオにおける前記目標オーディオフレームの出現時刻が前記第１のオーディオセグメントの終了時刻より早い場合、前記第１のオーディオセグメントから前記ウェイクアップワードが認識されたと決定するように構成される決定モジュールと、をさらに含む、請求項８〜１０のいずれかに記載の音声制御装置。
前記制御モジュールは、さらに、
前記目標オーディオにおける、前記目標オーディオフレームに続くオーディオフレームの出現時刻を、前記第２のオーディオセグメントの開始時刻とし、前記第２のオーディオセグメントの開始時刻、及び前記第２のオーディオセグメントの設定時間長に基づいて、前記第２のオーディオセグメントを決定するように構成される、請求項１１に記載の音声制御装置。
待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するように構成される収集モジュールと、
前記ウェイクアップワードが認識された場合にウェイクアップするように構成されるウェイクアップモジュールと、
ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを目標オーディオとしてサーバに送信するように構成される送信モジュールであって、前記目標オーディオは、音声認識に用いられ、前記目標オーディオの最初の第１のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第２のオーディオセグメントから認識された命令に基づいて制御し、前記第２のオーディオセグメントは、前記第１のオーディオセグメントより遅く、又は前記第１のオーディオセグメントと重なり合う部分を有する送信モジュールと、を含む、音声制御装置。
前記目標オーディオは、オーディオストリームフォーマットである、請求項１３に記載の音声制御装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１〜５のいずれかに記載の音声制御方法を実行でき、或いは請求項６又は７に記載の音声制御方法を実行できる、電子機器。
コンピュータに請求項１〜５のいずれかに記載の音声制御方法を実行させ、或いは請求項６又は７に記載の音声制御方法を実行させるためのコンピュータ命令を記憶している、非一時的コンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１〜５のいずれかに記載の音声制御方法を実行させ、或いは請求項６又は７に記載の音声制御方法を実行させる、コンピュータプログラム。