JP2021056483A - 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体 - Google Patents

音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2021056483A
JP2021056483A JP2019237718A JP2019237718A JP2021056483A JP 2021056483 A JP2021056483 A JP 2021056483A JP 2019237718 A JP2019237718 A JP 2019237718A JP 2019237718 A JP2019237718 A JP 2019237718A JP 2021056483 A JP2021056483 A JP 2021056483A
Authority
JP
Japan
Prior art keywords
operating state
scene
voice recognition
target scene
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019237718A
Other languages
English (en)
Other versions
JP7051799B2 (ja
Inventor
ヨンシー ルォ,
Yongxi Luo
ヨンシー ルォ,
シャシャ ワン,
Shasha Wang
シャシャ ワン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021056483A publication Critical patent/JP2021056483A/ja
Application granted granted Critical
Publication of JP7051799B2 publication Critical patent/JP7051799B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】さまざまなユーザのパーソナライズニーズを満たすように、ユーザが自分のニーズに応じて、第1動作状態をトリガーするシーンを設定することができ、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御し、ユーザに対する迷惑を減らし、ユーザ体験を改善する。【解決手段】音声認識制御方法は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定し、ターゲットシーンが第1動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第2動作状態を第1動作状態に切り替え、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。【選択図】図1

Description

本願は、音声認識及び人工知能の技術分野に関し、特に音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体に関する。
人工知能技術及び端末技術の継続的な発展に伴って、人工知能製品、たとえばスマートスピーカ等の電子デバイスが普及しつつあり、ユーザは電子デバイスが対応する制御命令を実行するように音声で制御することができる。現在、ユーザが電子デバイスと連続的に音声インタラクションをする必要があり、すなわち、ユーザに連続的に会話を開始させるニーズがある場合、電子デバイスが設定された動作モードに入るように音声で制御し、全二重継続会話(Full−duplex Continued Conversation)の機能を体験することができる。
しかしながら、ユーザに連続的に会話を開始させるニーズがない場合、たとえば、ユーザがその他のユーザと会話する場合には、対応する制御命令を意図せずにトリガーするシーンにおいて、電子デバイスが設定された動作モードに入ると、ユーザが迷惑を被ることがあり、ユーザ体験を著しく悪化させる。
本願は、関連技術の技術課題の1つを少なくともある程度解決することを目的とする。
本願は、音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体を提供し、さまざまなユーザのパーソナライズニーズを満たすように、ユーザが自分のニーズに応じて、第1動作状態をトリガーするシーンを設定することを達成し、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御し、ユーザに対する迷惑を減らすことで、ユーザ体験を改善することができる。
本願の第1態様の実施例は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、前記ターゲットシーンが第1動作状態に適用されるか否かを決定するステップと、前記ターゲットシーンが前記第1動作状態に適用される場合、実行中の第2動作状態を前記第1動作状態に切り替えるステップであって、前記第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するステップと、前記第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識するステップと、を含む音声認識制御方法を提供する。
本願の第2態様の実施例は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、前記ターゲットシーンが第1動作状態に適用されるか否かを決定するための照会モジュールと、ターゲットシーンが前記第1動作状態に適用される場合、実行中の第2動作状態を前記第1動作状態に切り替えるための切り替えモジュールであって、前記第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識する切り替えモジュールと、前記第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームに対して音声認識を行うための認識モジュールと、を含む音声認識制御装置を提供する。
本願の第3態様の実施例は、ターゲットシーンで、第1動作状態の構成情報を照会し、前記ターゲットシーンが第1動作状態に適用されるか否かを決定するステップと、ターゲットシーンが前記第1動作状態に適用される場合、実行中の第2動作状態を前記第1動作状態に切り替えるステップであって、前記第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するステップと、前記第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームに対して音声認識を行うステップと、を含む他の音声認識制御方法を提供する。
本願の第4態様の実施例は、ターゲットシーンで、第1動作状態の構成情報を照会し、前記ターゲットシーンが第1動作状態に適用されるか否かを決定するための照会モジュールと、ターゲットシーンが前記第1動作状態に適用される場合、実行中の第2動作状態を前記第1動作状態に切り替えるための切り替えモジュールであって、前記第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識する切り替えモジュールと、前記第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームに対して音声認識を行うための認識モジュールと、を含む他の音声認識制御装置を提供する。
本願の第5態様の実施例は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに本願の第1態様の実施例に係る音声認識制御方法を実行させ、又は、本願の第3態様の実施例に係る音声認識制御方法を実行させる電子デバイスを提供する。
本願の第6態様の実施例は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本願の第1態様の実施例に係る音声認識制御方法、又は、本願の第3態様の実施例に係る音声認識制御方法を実行させる。
上記出願の1つの実施例は、以下の利点又は有益な効果を有する。
ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定し、ターゲットシーンが第1動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第2動作状態を第1動作状態に切り替え、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザが自分のニーズに応じて、第1動作状態をトリガーするシーンを設定することができ、また、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御し、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。
以下、具体的な実施例を参照しながら、上記好ましい態様が有するその他の効果について説明する。
図面は、本実施案を理解するためのものにすぎず、本願を限定するものではなく、本願の上記及び/又は付加的な態様及び利点は、図面を組み合わせた実施例についての以下の説明から明瞭かつ理解しやすくなる。
本願の実施例1に係る音声認識制御方法の概略フローチャートである。 本願の実施例の設定インターフェイス模式図である。 本願の実施例2に係る音声認識制御方法の概略フローチャートである。 本願の実施例3に係る音声認識制御方法の概略フローチャートである。 本願の実施例4に係る音声認識制御方法の概略フローチャートである。 本願の実施例5に係る音声認識制御装置の構造概略図である。 本願の実施例6に係る音声認識制御装置の構造概略図である。 本願の実施例7に係る音声認識制御装置の構造概略図である。 本願の実施例8に係る電子デバイスの構造概略図である。
以下、図面を参照しながら本願の例示的な実施例を説明する。理解しやすくするために、本願の実施例の様々な詳細を含むが、それらは例示的なものにすぎない。従って、当業者であれば、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更や改定を行うことができる。同様に、明瞭化かつ簡素化するために、以下の説明では、周知機能及び構造についての説明が省略される。
以下、図面を参照しながら、本願の実施例の音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体を説明する。
図1は、本願の実施例1に係る音声認識制御方法の概略フローチャートである。
本願の実施例は、該音声認識制御方法が音声認識制御装置に配置されることを例として説明し、該音声認識制御装置は、任意の電子デバイスに適用されることにより該電子デバイスは音声認識制御機能を実行できる。
ここで、電子デバイスは、パーソナルコンピュータ(Personal Computer、PCと略称する)、クラウドデバイス、モバイルデバイス、スマートスピーカなどであってもよい。モバイルデバイスは、たとえば、携帯電話、タブレットコンピュータ、携帯情報端末、ウェアラブルデバイス、カーデバイスなどの、さまざまなオペレーティングシステム、タッチスクリーンおよび/またはディスプレイを搭載したハードウェアデバイスであってもよい。
図1に示すように、該音声認識制御方法は、ステップ101〜ステップ103を含むことができる。
ステップ101において、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定する。
本願の実施例では、ターゲットシーンはユーザが呼び出しているアプリケーションプログラムインターフェイス(Application Programmers Interface、APIと略称される)に関連するシーンであり、たとえば、ターゲットシーンは、天気シーン、音楽シーン、ビデオシーンなどのシーンであってもよい。
本願の実施例では、第1動作状態は、リスニング状態であってもよく、電子デバイスが該リスニング状態にあるとき、ユーザはウェイクワードを音声で入力せずに、音声命令をリアルタイムに入力して、電子デバイスとインタラクションすることができる。第1動作状態の構成情報はユーザが自分のニーズに応じて設定されるものであり、該構成情報は第1動作状態に適用されるシーンリストを含み、該シーンリストはユーザの選択操作に応答して、異なるシーンから選択して生成されるものであり、たとえば、該シーンリストは、ユーザの選択操作に応答して、音楽シーン、オーディオブックシーン、ビデオシーン、天気シーン、ショッピングシーンなどのシーンから選択して生成されるものであってもよい。
本願の実施例では、あるアプリケーションプログラムインターフェイスを呼び出す場合、音声認識制御装置は、該アプリケーションプログラムインターフェイスに対応するターゲットシーンを決定できる。好ましくは、ユーザがあるアプリケーションプログラムを開き、該アプリケーションプログラムにおけるあるアプリケーションプログラムインターフェイスを呼び出す場合、音声認識制御装置は該アプリケーションプログラムインターフェイスに対応するターゲットシーンを決定でき、たとえば、ユーザが天気類アプリケーションプログラムを呼び出す場合、呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンが天気シーンであり、又は、ユーザがインスタントメッセージング類アプリケーションプログラムにおけるあるアプリケーションプログラムインターフェイスを呼び出して、天気を照会する場合、呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンが天気シーンである。また、たとえば、音楽類アプリケーションプログラムを呼び出す場合、呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンが音楽シーンであり、又は、ユーザがインスタントメッセージング類アプリケーションプログラムにおけるあるアプリケーションプログラムインターフェイスを呼び出して、音楽を再生する場合、呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンが音楽シーンであり、ここでは列挙されていない。
本願の実施例では、音声認識制御装置はモニタリング方式によって、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、該ターゲットシーンが第1動作状態に適用されるか否かを決定することができる。具体的には、構成情報が第1動作状態のシーンリストに該ターゲットシーンが含まれることを示す場合、該ターゲットシーンが第1動作状態に適用されると決定でき、構成情報が第1動作状態のシーンリストに該ターゲットシーンが含まれないことを示す場合、該ターゲットシーンが第1動作状態に適用されないと決定する。
一例としては、図2を参照すれば、図2は、本願の実施例の設定インターフェイス概略図である。ユーザは自分のニーズに応じて、音楽シーン、オーディオブックシーン及びビデオシーンから対応するシーンを選択し、第1動作状態のシーンリストを生成することができ、ユーザが音楽シーン及びビデオシーンを選択すると仮定する場合、第1動作状態のシーンリストが音楽シーン及びビデオシーンを含み、ターゲットシーンが音楽シーンであると仮定する場合、第1動作状態の構成情報を照会することにより、ターゲットシーンが第1動作状態に適用されると決定できる。
なお、図2は、シーンリストが音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成される場合のみを例とし、つまり、図2は、シーンリストが音楽シーン、オーディオブックシーン及びビデオシーンの少なくとも1つを含む場合を例とするが、実際に適用するとき、シーンリストは、たとえば天気シーン、ショッピングシーンなど、その他のシーンをさらに含んでもよく、本願はこれについては制限しない。
ステップ102において、ターゲットシーンが第1動作状態に適用される場合、実行中の第2動作状態を第1動作状態に切り替え、第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。
本願の実施例では、第2動作状態は、非リスニング状態であってもよく、電子デバイスが該非リスニング状態にあるとき、ユーザはウェイクワードを音声で入力し、該電子デバイスをウェイクアップして後続の音声認識を実行させることができる。ここでは、ウェイクワードは、電子デバイスの内蔵プログラムにより予め設定されるものであってもよく、又は、ユーザのパーソナライズニーズを満たすために、ウェイクワードは、ユーザが自分のニーズに応じて設定されるものであってもよく、本願はこれについて限定しない。例示すると、電子デバイスがスマートスピーカである場合、ウェイクワードは、「小度小度(ドちゃんドちゃん)」であってもよい。
本願の実施例では、電子デバイスが第2動作状態にあるとき、音声認識制御装置は、ユーザがウェイクワードを入力したか否かを検出して入力した場合、ユーザがウェイクワードの後に入力したオーディオクリップを収集し、音声認識を行う。例示すると、電子デバイスがスマートスピーカである場合には、該スマートスピーカが該第2動作状態にあるときに、歌を再生したい場合、ユーザは、「小度小度(ドちゃんドちゃん)、歌Aを再生してください」又は「小度小度(ドちゃんドちゃん)、歌を聞きたい」と音声で入力し、電子デバイスは、ウェイクワードの後のオーディオクリップ「歌Aを再生してください」又は「歌を聞きたい」を認識し、対応する歌を再生する。
本願の実施例では、音声認識制御装置が、ターゲットシーンが第1動作状態に適用されると決定した場合、実行中の第2動作状態を第1動作状態に切り替えることができ、音声認識制御装置が、ターゲットシーンが第1動作状態に適用されないと決定した場合、第2動作状態を実行し続けることができる。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザが自分のニーズに応じて、第1動作状態をトリガーするシーンを設定することができる。また、呼び出したターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御し、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。
なお、「第1」、「第2」の用語は、単に目的を説明するためのものであり、相対重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。そこで、「第1」、「第2」が限定されている特徴は、一つ又はより多くの該特徴を含むことを明示又は暗示するものである。
ステップ103において、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。
本願の実施例では、電子デバイスが第1動作状態にあるとき、電子デバイスは、オーディオを連続的に収集してオーディオストリームを取得して、音声認識を行うことができる。これにより、該第1動作状態で、ユーザがウェイクワードを入力せずに、電子デバイスとリアルタイムにインタラクションする又は連続的にインタラクションすることができ、ユーザの操作を簡素化し、ユーザ体験を改善することができる。
従来技術では、ユーザは連続的に会話するニーズを有していないとき、対応する制御命令を誤操作でトリガーして、電子デバイスが設定された動作モードに入るように制御する可能性があるが、このような場合には、ユーザは迷惑を被ることがあり、ユーザ体験を著しく悪化させる。
例えば、電子デバイスが設定された動作モードに入るように制御する条件は、ユーザが入力した音声データの意図が設定された制御意図とマッチングすることであると仮定する。設定された制御意図が「オーディオまたはビデオを再生する」場合であることを例として、ユーザAがユーザBと会話するシナリオでは、ユーザAが「このスマートスピーカをウェイクアップする方法を知っている?」と聞き、ユーザBが「もちろん。小度小度(ドちゃんドちゃん)じゃない?それで、音楽を聴いたり、映画を観たりできるんだよ。」と言った場合、スマートスピーカはユーザBの音声データを認識し、ユーザがウェイクワード「小度小度(ドちゃんドちゃん)」を入力したことを検出し、該ユーザBが入力した音声データの意図が「音楽を聴いたり、映画を観たり」することであると認識する。これは、明らかに、設定された制御意図とマッチングしているので、この場合、スマートスピーカは、音楽又は映画を再生する。もちろん、この場合、ユーザが音楽及び映画を再生したくない場合には、ユーザにとって迷惑になる。
本願の実施例の音声認識制御方法は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定し、ターゲットシーンが第1動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第2動作状態を第1動作状態に切り替え、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、ユーザは自分のニーズに応じて、さまざまなユーザのパーソナライズニーズを満たすように、第1動作状態をトリガーするシーンを設定することができる。また、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御することで、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。
1つの可能な実施態様としては、ターゲットシーンが第1動作状態に適用される場合、ユーザがウェイクワードの後に入力したオーディオクリップの意図がターゲットシーンとマッチングするか否かを判断する必要があり、マッチングした場合、実行中の第2動作状態を第1動作状態に切り替え、マッチングしない場合、第2動作状態を実行し続ける。これにより、ユーザがターゲットシーンとマッチングする制御意図を入力するのみ、電子デバイスの動作状態を切り替え、ユーザに対する迷惑を回避する。以下、実施例2と組み合わせて、上記過程について詳細に説明する。
図3は、本願の実施例2に係る音声認識制御方法の概略フローチャートである。
図3に示すように、該音声認識制御方法は、ステップ201〜ステップ207を含むことができる。
ステップ201において、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会する。
ステップ202において、構成情報に基づいて、ターゲットシーンが第1動作状態に適用されるか否かを判断し、適用される場合、ステップ203を実行し、適用されない場合、ステップ207を実行する。
ステップ201〜202の実行過程は、上記実施例におけるステップ101の実行過程を参照できるが、ここで詳しい説明は省略される。
ステップ203において、第2動作状態で、オーディオクリップを音声認識することにより取得された第1制御意図を取得する。
ここでは、第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。
本願の実施例では、第2動作状態において、音声認識制御装置は、ユーザがウェイクワードを入力したか否かを検出し、入力した場合には、ユーザがウェイクワードの後に入力したオーディオクリップを収集して、該オーディオクリップに対して音声認識を行い、該オーディオクリップに対応する第1制御意図を得る。たとえば、音声認識技術に基づいて、該オーディオクリップを認識し、該オーディオクリップに対応するテキスト情報を決定した後、該テキスト情報に対してセマンティクス認識を行い、対応する第1制御意図を決定する。例えば、オーディオクリップが「歌を聞きたい」である場合、該オーディオクリップの意図は「歌を聞く」又は「オーディオを再生する」ことである。
ステップ204において、第1制御意図がターゲットシーンとマッチングするか否かを判断し、マッチングする場合には、ステップ205〜206を実行し、マッチングしない場合には、ステップ207を実行する。
本願の実施例では、第1制御意図及びターゲットシーンの制御意図に対してセマンティクスマッチングを行い、第1制御意図がターゲットシーンとマッチングするか否かを決定する。
ステップ205において、実行中の第2動作状態を第1動作状態に切り替える。
本願の実施例では、ターゲットシーンが第1動作状態に適用され、ユーザが入力したオーディオクリップの意図がターゲットシーンとマッチングする場合のみ、実行中の第2動作状態を第1動作状態に切り替える。これにより、ユーザが入力したオーディオクリップの意図がターゲットシーンとマッチングする場合にのみ、電子デバイスの動作状態を切り替えるので、ユーザに対する迷惑を更に回避することができる。
一例としては、電子デバイスがスマートスピーカであり、ターゲットシーンがビデオシーンであることを例とする。ユーザが「小度小度(ドちゃんドちゃん)、歌を聞きたい」と音声で入力した場合、スマートスピーカは、ユーザが入力したオーディオクリップを収集して認識し、オーディオクリップ「歌を聞きたい」に対応する第1制御意図が「オーディオを再生する」であると決定する。しかし、ターゲットシーンに対応する制御意図が「ビデオを再生する」であるときには、該第1制御意図がターゲットシーンとマッチングしないと決定するので、スマートスピーカが第2動作状態を実行し続けるように制御することができる。ユーザが「小度小度(ドちゃんドちゃん)、映画Aを再生してください」と音声で入力した場合、スマートスピーカはユーザが入力したオーディオクリップを収集して認識し、オーディオクリップ「映画Aを再生してください」に対応する第1制御意図が「ビデオを再生する」であると決定する。ターゲットシーンに対応する制御意図も「ビデオを再生する」であるときに、該第1制御意図がターゲットシーンとマッチングすると決定するので、スマートスピーカが実行中の第2動作状態を第1動作状態に切り替えるように制御することで、該第1動作状態における、ユーザとスマートスピーカとの連続的な会話、たとえば、「カンフー映画を再生してください」、「再生を終了してください」などを行うことができ、これによりマン−マシン会話が自然かつリアルになり、ユーザの没入感を向上させることができる。
ステップ206において、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。
ステップ207において、第2動作状態を実行し続ける。
本願の実施例では、ターゲットシーンが第1動作状態に適用されないか、又は、ターゲットシーンが第1動作状態に適用され、且つユーザが入力したオーディオクリップの意図がターゲットシーンとマッチングしない場合、第2動作状態を実行し続ける。これにより、ユーザに対する迷惑を更に回避することができる。
例えば、第1動作状態の構成情報が、第1動作状態のシーンリストにビデオシーンが含まれることを示す場合、ユーザが入力したオーディオクリップの意図がビデオシーンとマッチングしても、ターゲットシーンが第1動作状態に適用されない場合、電子デバイスが第1動作状態に入るように制御しない。たとえば、ユーザが天気類APPを開いたときに呼び出したアプリケーションプログラムインターフェイスに対応するターゲットシーンは天気シーンであり、明らかに、該天気シーンはビデオシーンとマッチングしていない。これは、ユーザに連続的に会話を開始させるニーズがないことを示しているので、電子デバイスが第1動作状態に入るように制御せず、ユーザに対する迷惑を減らすことができる。
1つの可能な実施態様として、ユーザに対する迷惑を更に回避するために、第1動作状態で、ユーザが電子デバイスとリアルタイムにインタラクションする際に、ユーザが入力したオーディオデータの意図がターゲットシーンとマッチングする場合のみ、オーディオデータの意図に対応する制御命令を実行する。以下、実施例3と組み合わせて、上記過程について詳細に説明する。
図4は、本願の実施例3に係る音声認識制御方法の概略フローチャートである。
図4を参照して、図1に示す実施例に基づいて、ステップ103の後、該音声認識制御方法は、さらにステップ301〜ステップ304を含むことができる。
ステップ301において、オーディオストリームを音声認識することにより取得された情報ストリームを取得する。
本願の実施例では、ユーザがオーディオデータを入力した後、音声認識制御装置は、オーディオストリームを収集して、該オーディオストリームを音声認識し、対応する情報ストリームを決定することができる。
ステップ302において、情報ストリームから各候補意図を取得する。
本願の実施例では、情報ストリームを取得した後、該情報ストリームに対してセマンティクス認識を行い、対応する各候補意図を決定することができる。
ステップ303において、各候補意図から、ターゲットシーンの制御意図とマッチングする第2制御意図をフィルタリングする。
ステップ304において、第2制御意図がフィルタリングして取得された場合、第2制御意図に対応する制御命令を実行する。
本願の実施例では、各候補意図及びターゲットシーンの制御意図に対してセマンティクスマッチングを行うことができ、ある候補意図がターゲットシーンの制御意図とマッチングする場合、該候補意図を第2制御意図として、第2制御意図に対応する制御命令を実行する。
例えば、ターゲットシーンがビデオシーンであり、ターゲットシーンに対応する制御意図が「ビデオを再生する」であり、情報ストリームが「映画Aを見たい」であると仮定すると、該情報ストリームが1つの候補意図「ビデオを再生する」のみを有すると決定できる。このとき、該候補意図に対応する制御命令を実行するので、電子デバイスが映画Aを再生するように制御することができる。
本願の実施例の音声認識制御方法は、第1動作状態で、ユーザが電子デバイスとリアルタイムにインタラクションするとき、ユーザが入力したオーディオデータの意図がターゲットシーンとマッチングする場合のみ、オーディオデータの意図に対応する制御命令を実行し、このため、ユーザに対する迷惑を更に回避できる。
1つの可能な実施態様としては、設定期間内に、第2制御意図が取得されなかった場合、ユーザに電子デバイスを制御する意図がないことを示す。このとき、電子デバイスのエネルギー消費量を低減させ、電子デバイスが常に第1動作状態にあることを回避するために、第1動作状態を終了することができる。
ここでは、設定期間は予め設定されたものであり、たとえば、電子デバイスの内蔵プログラムにより予め設定されたものであってもよく、又は、ユーザにより設定されたものであってもよく、これについては限定しない。たとえば、設定期間の値の範囲は20秒〜40秒であってもよい。
1つの可能な実施態様としては、前記情報ストリームから各候補意図を取得した後、ターゲットシーンの制御意図とマッチングしない候補意図が存在する場合、該ユーザに対する迷惑を減らすために、候補意図への応答を拒否することができる。
例えば、ビデオシーンでは、ユーザが入力したオーディオデータが「ねえ、この映画の主題歌の歌Aはかなり良いから後で歌Aを聞くよ」である場合、電子デバイスは該オーディオデータを認識し、該オーディオデータに対応する意図が「歌を再生する」ことであると決定する。これは、明らかに、ビデオシーンに対応する制御意図「ビデオを再生する」とマッチングしないので、ユーザに対する迷惑を回避するために、該オーディオデータに対応する意図への応答を拒否することができる。
つまり、電子デバイスが第1動作状態にあるとき、ユーザが入力したオーディオデータの意図がターゲットシーンの制御意図とマッチングする場合のみ、ユーザに対する迷惑を回避するために、オーディオデータに対応する意図に応答する。
上記実施例を達成するために、本願は、さらに、音声認識制御方法を提供する。
図5は、本願の実施例4に係る音声認識制御方法の概略フローチャートである。
図5に示すように、該音声認識制御方法は、ステップ401、ステップ402、及びステップ403を含むことができる。
ステップ401において、ターゲットシーンで、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定する。
本願の実施例では、ターゲットシーンは、電子デバイスに現在表示されているインターフェイスに対応するシーンであってもよく、たとえば、天気シーン、音楽シーン、ビデオシーンなどのシーンであってもよい。
本願の実施例では、第1動作状態は、リスニング状態であってもよく、電子デバイスが該リスニング状態にあるとき、ユーザはウェイクワードを音声で入力せずに、音声命令をリアルタイムに入力して、電子デバイスとインタラクションすることができる。第1動作状態の構成情報はユーザが自分のニーズに応じて設定されるものであり、該構成情報は第1動作状態に適用されるシーンリストを含み、該シーンリストはユーザの選択操作に応答して、異なるシーンから選択して生成されるものであり、たとえば、該シーンリストは、ユーザの選択操作に応答して、音楽シーン、オーディオブックシーン、ビデオシーン、天気シーン、ショッピングシーンなどのシーンから選択して生成されるものであってもよい。
本願の実施例では、ユーザがあるインターフェイスを開くと、音声認識制御装置は該インターフェイスに対応するターゲットシーンを決定できる。たとえば、ユーザがビデオ類のアプリケーションを開くと、ターゲットシーンがビデオシーンであると決定でき、ユーザが音楽類のアプリケーションを開くと、ターゲットシーンが音楽シーンであると決定でき、ユーザが天気問い合わせインターフェイスを開くと、ターゲットシーンが天気シーンであると決定できるが、ここでは列挙されていない。
本願の実施例では、ターゲットシーンで、音声認識制御装置は第1動作状態の構成情報を照会し、該ターゲットシーンが第1動作状態に適用されるか否かを決定することができる。具体的には、構成情報が第1動作状態のシーンリストに該ターゲットシーンが含まれることを示す場合、該ターゲットシーンが第1動作状態に適用されると決定でき、構成情報が第1動作状態のシーンリストに該ターゲットシーンが含まれないことを示す場合、該ターゲットシーンが第1動作状態に適用されないと決定する。
一例としては、図2を参照すれば、図2は、本願の実施例の設定インターフェイス概略図である。ユーザは自分のニーズに応じて、音楽シーン、オーディオブックシーン及びビデオシーンから対応するシーンを選択し、第1動作状態のシーンリストを生成することができる。ユーザが音楽シーン及びビデオシーンを選択すると仮定する場合、第1動作状態のシーンリストが音楽シーン及びビデオシーンを含み、ターゲットシーンが音楽シーンであると仮定する場合、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されると決定できる。
なお、図2はシーンリストが音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成される場合のみを例としており、図2は、シーンリストが音楽シーン、オーディオブックシーン及びビデオシーンの少なくとも1つを含む場合を例としている。しかし、実際に適用するときには、シーンリストは、たとえば天気シーン、ショッピングシーンなど、その他のシーンをさらに含んでもよく、本願はこれについては制限しない。
ステップ402において、ターゲットシーンが第1動作状態に適用される場合、実行中の第2動作状態を第1動作状態に切り替え、第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。
本願の実施例では、第2動作状態は、非リスニング状態であってもよく、電子デバイスが該非リスニング状態にあるときには、ユーザはウェイクワードを音声で入力し、該電子デバイスをウェイクアップして後続の音声認識を実行させることができる。ここでは、ウェイクワードは、電子デバイスの内蔵プログラムにより予め設定されるものであってもよいし、又は、ユーザのパーソナライズニーズを満たすために、ウェイクワードは、ユーザが自分のニーズに応じて設定されるものであってもよく、本願はこれについては限定しない。例示すると、電子デバイスがスマートスピーカである場合、ウェイクワードは、「小度小度(ドちゃんドちゃん)」であってもよい。
本願の実施例では、電子デバイスが第2動作状態にあるとき、音声認識制御装置は、ユーザがウェイクワードを入力したか否かを検出し、入力した場合、ユーザがウェイクワードの後に入力したオーディオクリップを収集し、音声認識を行う。例示すると、電子デバイスがスマートスピーカである場合、該スマートスピーカが該第2動作状態にあるときに、ユーザが歌を再生したい場合には、「小度小度(ドちゃんドちゃん)、歌Aを再生してください」又は「小度小度(ドちゃんドちゃん)、歌を聞きたい」と音声で入力し、電子デバイスはウェイクワード後のオーディオクリップ「歌Aを再生してください」又は「歌を聞きたい」を認識して、対応する歌を再生する。
本願の実施例では、音声認識制御装置が、ターゲットシーンが第1動作状態に適用されると決定した場合、実行中の第2動作状態を第1動作状態に切り替えることができ、音声認識制御装置が、ターゲットシーンが第1動作状態に適用されないと決定した場合、第2動作状態を実行し続けることができる。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第1動作状態をトリガーするシーンを設定する。また、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御するので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。
ステップ403において、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。
本願の実施例では、電子デバイスが第1動作状態にあるとき、電子デバイスはオーディオを連続的に収集してオーディオストリームを取得して、音声認識を行うことができる。これにより、該第1動作状態で、ユーザはウェイクワードを入力せずに、電子デバイスとリアルタイムにインタラクションする又は連続的にインタラクションすることができ、ユーザ操作を簡素化し、ユーザ体験を改善することができる。
本願の実施例の音声認識制御方法は、ターゲットシーンで、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定し、ターゲットシーンが第1動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第2動作状態を第1動作状態に切り替え、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第1動作状態をトリガーするシーンを設定することができる。また、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御するので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。
上記実施例を達成するために、本願は、さらに、音声認識制御装置を提供する。
図6は、本願の実施例5に係る音声認識制御装置の構造概略図である。
図6に示すように、該音声認識制御装置600は、照会モジュール601、切り替えモジュール602及び認識モジュール603を含む。
ここでは、照会モジュール601は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合に、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定する。
切り替えモジュール602は、ターゲットシーンが第1動作状態に適用される場合に、実行中の第2動作状態を第1動作状態に切り替え、第2動作状態では、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。
認識モジュール603は、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。
更に、本願の実施例の1つの可能な実施態様では、図7を参照する。図6に示す実施例に基づいて、該音声認識制御装置600は、さらにモジュール604〜610を含む。
第1取得モジュール604は、第2動作状態で、オーディオクリップを音声認識することにより取得された第1制御意図を取得する。
決定モジュール605は、第1制御意図がターゲットシーンとマッチングすると決定する。
第2取得モジュール606は、オーディオストリームを音声認識することにより取得された情報ストリームを取得し、情報ストリームから各候補意図を取得する。
フィルタリングモジュール607は、各候補意図から、ターゲットシーンの制御意図とマッチングする第2制御意図をフィルタリングする。
実行モジュール608は、第2制御意図がフィルタリングして取得された場合、第2制御意図に対応する制御命令を実行する。
終了モジュール609は、設定期間内に、第2制御意図が取得されなかった場合、第1動作状態を終了し、前記設定期間の範囲は20秒〜40秒である。
拒否モジュール610は、ターゲットシーンの制御意図とマッチングしない候補意図への応答を拒否する。
1つの可能な実施態様としては、構成情報は第1動作状態に適用されるシーンリストを含む。シーンリストはユーザの選択操作に応答して、音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成されるものである。
なお、音声認識制御方法についての上記図1〜図4の実施例での解釈説明も該実施例の音声認識制御装置に適用されるが、ここでは説明が省略される。
本願の実施例の音声認識制御装置は、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合には、第1動作状態の構成情報を照会して、ターゲットシーンが第1動作状態に適用されるか否かを決定し、ターゲットシーンが第1動作状態に適用される場合には、ウェイクワードに基づいてオーディオクリップを収集して、オーディオクリップを音声認識する実行中の第2動作状態を第1動作状態に切り替え、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第1動作状態をトリガーするシーンを設定することができる。また、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御するので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。
上記実施例を達成するために、本願は、さらに、音声認識制御装置を提供する。
図8は、本願の実施例7に係る音声認識制御装置の概略図構造概略図である。
図8に示すように、該音声認識制御装置800は、照会モジュール801、切り替えモジュール802及び認識モジュール803を備える。
ここでは、照会モジュール801は、ターゲットシーンで、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定する。
切り替えモジュール802は、ターゲットシーンが第1動作状態に適用される場合、実行中の第2動作状態を第1動作状態に切り替え、第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する。
認識モジュール803は、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。
なお、音声認識制御方法についての上記図5の実施例での解釈説明も該実施例の音声認識制御装置に適用されるが、ここでは説明が省略される。
本願の実施例の音声認識制御装置は、ターゲットシーンで、第1動作状態の構成情報を照会して、ターゲットシーンが第1動作状態に適用されるか否かを決定し、ターゲットシーンが第1動作状態に適用される場合には、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第2動作状態を第1動作状態に切り替え、第1動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第1動作状態をトリガーするシーンを設定することができる。また、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御するので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。
上記実施例を達成するために、本願は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含む電子デバイスをさらに提供する。ここでは、メモリには少なくとも1つのプロセッサによって実行している命令が記憶され、命令が少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサに本願の上記実施例に係る音声認識制御方法を実行可能である。
上記実施例を達成するために、本願は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令はコンピュータに本願の上記実施例に係る音声認識制御方法を実行させる。
本願の実施例に基づいて、本願は、さらに、電子デバイス及び読み取り可能な記憶媒体を提供する。
図9に示すように、本発明の一実施例に係る音声制御方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、その他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続および関係、およびそれらの機能は単なる例であり、本明細書で説明および/または必要とされる本出願の実現を限定することを意図するものではない。
図9に示すように、当該電子デバイスは、1つまたは複数のプロセッサ901、メモリ902、および高速インターフェイスおよび低速インターフェイスを含む様々なコンポーネントを接続するためのインターフェイスを含む。さまざまなコンポーネントは、異なるバスを使用して相互接続され、共通のマザーボードに取り付けられるか、または必要に応じて取り付けられてもよい。プロセッサは、外部入力/出力デバイス(たとえば、インターフェイスに結合されたディスプレイデバイス)にGUIのグラフィカル情報を表示するためにメモリに記憶されている命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施例では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続し、それぞれの電子デバイスが必要な操作(たとえば、サーバアレイ、1グループのブレードサーバ、マルチプロセッサシステム)の一部を提供することができる。図9では、1つのプロセッサ901を例に挙げているインターフェイスを示している。
メモリ902は、本出願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、その結果、前記少なくとも1つのプロセッサは、本出願に係る音声制御方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、本出願によって提供される音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ902は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本出願の実施例の音声制御方法に対応するプログラム命令/モジュール(
たとえば、図6に示される照会モジュール601、切り替えモジュール602、および認識モジュール603)を記憶することができる。プロセッサ901は、メモリ902に記憶されている非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能的アプリケーションおよびデータ処理を実行し、すなわち、前述の方法の実施例における音声制御方法を実現する。
メモリ902は、ストレージプログラム領域およびストレージデータ領域を含むことができ、ストレージプログラム領域は、少なくとも1つの機能に必要なオペレーティングシステムおよびアプリケーションプログラムを記憶することができる。ストレージデータ領域は、電子デバイスの使用に基づいて作成されたデータを記憶することができる。また、メモリ902は、高速ランダムアクセスメモリを含むことができるし、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ装置、または他の非一時的な固体メモリなどの非一時的なメモリも含むことができる。いくつかの実施例では、メモリ902は、プロセッサ901に対して遠隔に配置されたメモリを選択可能に含むことができ、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。
電子デバイスは、入力装置903および出力装置904をさらに含むことができる。プロセッサ901、メモリ902、入力装置903、および出力装置904は、バスまたは他の方式を介して接続することができ、図9では、バスを介した接続を例に挙げている。
入力装置903は、入力された数字または文字情報を受信し、電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力デバイス電子デバイス。出力装置904は、表示装置、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含んでもよい。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置はタッチスクリーンであってもよい。
本明細書で説明されるシステムおよび技術の様々な実施例は、デジタル電子回路、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現され得る。これらの様々な実施例は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムで実装されてもよく、当プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に送信することができる専用または汎用のプログラマブルプロセッサであってもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう)は、プログラマブルプロセッサの機械命令を含み、さらに高レベルの手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらのンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD)を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む、「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための信号を指す。
ユーザとのインタラクションを提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)と、キーボードおよびポインティング装置(たとえば、マウスまたはトラックボール)とを有するコンピュータで実施されてもよく、ユーザは当該キーボードおよび当該ポインティング装置を介してコンピュータに入力を提供できる。他の種類の装置を使用してユーザとのインタラクションを提供することもできる。たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(たとえば、音響入力、音声入力、または触覚入力)を用いてユーザからの入力を受信することができる。
本明細書に記載のシステムおよび技術の各実施例は、バックエンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、またはミドルコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインターフェイスまたはWebブラウザを備えたユーザコンピュータであってもよい。ユーザは、当該グラフィカルユーザインターフェイスまたは当該Webブラウザを介して、ここで説明されるシステムおよび技術の実施例とインタラクションできる)、またはこのようなバックエンドコンポーネント、ミドルコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。デジタルデータ通信の任意の形式または媒体(たとえば、通信ネットワーク)によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。通常、クライアントとサーバとは互いにリモートであり、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され、互いにクライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。
本願の実施例による技術案では、ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、ターゲットシーンが第1動作状態に適用されるか否かを決定し、ターゲットシーンが第1動作状態に適用される場合、ウェイクワードに基づいてオーディオクリップを収集し、オーディオクリップを音声認識する実行中の第2動作状態を第1動作状態に切り替え、第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、オーディオストリームを音声認識する。これにより、さまざまなユーザのパーソナライズニーズを満たすように、ユーザは自分のニーズに応じて、第1動作状態をトリガーするシーンを設定することができ、また、ターゲットシーンが第1動作状態に適用される場合のみ、装置が第1動作状態に入るように制御することができるので、ユーザに対する迷惑を減らし、ユーザ体験を改善することができる。
なお、上記のさまざまな形態のプロセスを使用して、ステップを並べ替え、追加、または削除できることを理解されたい。たとえば、本出願で説明されている各ステップは、並列、順次、または異なる順序で実行できる。本出願で開示された技術的解決策の望ましい結果が達成できれば、本明細書は、ここで限定しない。
前述した具体的な実施例は、本出願の保護範囲を制限しない。設計要件および他の要因に応じて、さまざまな修正、組み合わせ、サブ組み合わせ、および置き換えを行うことができることを当業者は理解するべきである。本出願の思想および原則の範囲内で行われた修正、同等の置き換え、および改善は、いずれも本出願の保護範囲に含まれるものとする。

Claims (16)

  1. ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、前記ターゲットシーンが第1動作状態に適用されるか否かを決定するステップと、
    前記ターゲットシーンが前記第1動作状態に適用される場合、実行中の第2動作状態を前記第1動作状態に切り替えるステップであって、前記第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するステップと、
    前記第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識するステップと、を含むことを特徴とする、音声認識制御方法。
  2. 前記実行中の第2動作状態を前記第1動作状態に切り替えるステップの前に、
    前記第2動作状態で、前記オーディオクリップを音声認識することにより取得された第1制御意図を取得するステップと、
    前記第1制御意図が前記ターゲットシーンとマッチングすると決定するステップと、をさらに含むことを特徴とする、請求項1に記載の音声認識制御方法。
  3. 前記オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識するステップの後に、
    前記オーディオストリームを音声認識することにより取得された情報ストリームを取得するステップと、
    前記情報ストリームから各候補意図を取得するステップと、
    各候補意図から前記ターゲットシーンの制御意図とマッチングする第2制御意図をフィルタリングするステップと、
    前記第2制御意図がフィルタリングして取得された場合、前記第2制御意図に対応する制御命令を実行するステップと、をさらに含むことを特徴とする、請求項1に記載の音声認識制御方法。
  4. 前記各候補意図から前記ターゲットシーンの制御意図とマッチングする第2制御意図をフィルタリングするステップの後に、
    設定期間内に、前記第2制御意図が取得されなかった場合、前記第1動作状態を終了するステップをさらに含み、
    前記設定期間の範囲は、20秒〜40秒であることを特徴とする、請求項3に記載の音声認識制御方法。
  5. 前記情報ストリームから各候補意図を取得するステップの後に、
    前記ターゲットシーンの制御意図とマッチングしない候補意図への応答を拒否するステップをさらに含むことを特徴とする、請求項3に記載の音声認識制御方法。
  6. 前記構成情報は、前記第1動作状態に適用されるシーンリストを含み、前記シーンリストはユーザの選択操作に応答して、音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成されるものであることを特徴とする、請求項1から5のいずれかに記載の音声認識制御方法。
  7. ターゲットシーンに関連するアプリケーションプログラムインターフェイスを呼び出したことが検出された場合、第1動作状態の構成情報を照会し、前記ターゲットシーンが第1動作状態に適用されるか否かを決定するための照会モジュールと、
    ターゲットシーンが前記第1動作状態に適用される場合、実行中の第2動作状態を前記第1動作状態に切り替えるための切り替えモジュールであって、前記第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識する切り替えモジュールと、
    前記第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識する認識モジュールと、を含むことを特徴とする、音声認識制御装置。
  8. 前記第2動作状態で、前記オーディオクリップを音声認識することにより取得された第1制御意図を取得するための第1取得モジュールと、
    前記第1制御意図が前記ターゲットシーンとマッチングすると決定するための決定モジュールと、をさらに含むことを特徴とする、請求項7に記載の音声認識制御装置。
  9. 前記オーディオストリームを音声認識することにより取得された情報ストリームを取得し、前記情報ストリームから各候補意図を取得するための第2取得モジュールと、
    各候補意図から前記ターゲットシーンの制御意図とマッチングする第2制御意図をフィルタリングするためのフィルタリングモジュールと、
    前記第2制御意図がフィルタリングして取得された場合、前記第2制御意図に対応する制御命令を実行するための実行モジュールと、をさらに含むことを特徴とする、請求項7に記載の音声認識制御装置。
  10. 設定期間内に、前記第2制御意図が取得されなかった場合、前記第1動作状態を終了するための終了モジュールをさらに備え、
    前記設定期間の範囲は、20秒〜40秒であることを特徴とする、請求項9に記載の音声認識制御装置。
  11. 前記ターゲットシーンの制御意図とマッチングしない候補意図への応答を拒否するための拒否モジュールをさらに含むことを特徴とする、請求項9に記載の音声認識制御装置。
  12. 前記構成情報は、前記第1動作状態に適用されるシーンリストを含み、前記シーンリストはユーザの選択操作に応答して、音楽シーン、オーディオブックシーン及びビデオシーンから選択して生成されるものであることを特徴とする、請求項7から11のいずれかに記載の音声認識制御装置。
  13. ターゲットシーンで、第1動作状態の構成情報を照会し、前記ターゲットシーンが第1動作状態に適用されるか否かを決定するステップと、
    前記ターゲットシーンが前記第1動作状態に適用される場合、実行中の第2動作状態を前記第1動作状態に切り替えるステップであって、前記第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するステップと、
    前記第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識するステップと、を含むことを特徴とする、音声認識制御方法。
  14. ターゲットシーンで、第1動作状態の構成情報を照会し、前記ターゲットシーンが第1動作状態に適用されるか否かを決定するための照会モジュールと、
    前記ターゲットシーンが前記第1動作状態に適用される場合、実行中の第2動作状態を前記第1動作状態に切り替えるための切り替えモジュールであって、前記第2動作状態で、ウェイクワードに基づいてオーディオクリップを収集し、前記オーディオクリップを音声認識するための切り替えモジュールと、
    前記第1動作状態で、オーディオを連続的に収集してオーディオストリームを取得して、前記オーディオストリームを音声認識する認識モジュールと、を含むことを特徴とする、音声認識制御装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備え、
    前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが請求項1〜6のいずれかに記載の音声認識制御方法、又は、請求項13に記載の音声認識制御方法を実行可能であることを特徴とする、電子デバイス。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1から6のいずれかに記載の音声認識制御方法、又は、請求項13に記載の音声認識制御方法を実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
JP2019237718A 2019-09-29 2019-12-27 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体 Active JP7051799B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910933124.8A CN112669831B (zh) 2019-09-29 2019-09-29 语音识别控制方法、装置、电子设备和可读存储介质
CN201910933124.8 2019-09-29

Publications (2)

Publication Number Publication Date
JP2021056483A true JP2021056483A (ja) 2021-04-08
JP7051799B2 JP7051799B2 (ja) 2022-04-11

Family

ID=69055817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019237718A Active JP7051799B2 (ja) 2019-09-29 2019-12-27 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体

Country Status (5)

Country Link
US (1) US20210097993A1 (ja)
EP (1) EP3799040A1 (ja)
JP (1) JP7051799B2 (ja)
KR (1) KR102331254B1 (ja)
CN (1) CN112669831B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409758A (zh) * 2021-06-10 2021-09-17 恒大新能源汽车投资控股集团有限公司 一种智能语音的交互方法、装置和系统
CN113805698B (zh) * 2021-09-10 2024-05-03 中国第一汽车股份有限公司 一种执行指令确定方法、装置、设备及存储介质
CN114244879A (zh) * 2021-12-15 2022-03-25 北京声智科技有限公司 一种工业控制系统、工业控制方法和电子设备
CN114785838B (zh) * 2022-03-30 2024-01-26 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114900505B (zh) * 2022-04-18 2024-01-30 广州市迪士普音响科技有限公司 一种基于web的音频场景定时切换方法、装置及介质
CN117196449B (zh) * 2023-11-08 2024-04-09 讯飞智元信息科技有限公司 一种视频识别方法、系统以及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US20170169817A1 (en) * 2015-12-09 2017-06-15 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
WO2018135753A1 (ko) * 2017-01-17 2018-07-26 삼성전자주식회사 전자 장치 및 그의 동작 방법
WO2019022797A1 (en) * 2017-07-25 2019-01-31 Google Llc STATEMENT CLASSIFIER
US20190139547A1 (en) * 2017-11-08 2019-05-09 Alibaba Group Holding Limited Interactive Method and Device
JP2019139146A (ja) * 2018-02-14 2019-08-22 オンキヨー株式会社 音声認識システム、及び、音声認識方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014084413A1 (ko) * 2012-11-28 2014-06-05 엘지전자 주식회사 가전 기기 구동 장치 및 방법
CN106782554B (zh) * 2016-12-19 2020-09-25 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN107564518B (zh) * 2017-08-21 2021-10-22 百度在线网络技术(北京)有限公司 智能设备控制方法、装置及计算机设备
CN110277094A (zh) * 2018-03-14 2019-09-24 阿里巴巴集团控股有限公司 设备的唤醒方法、装置及电子设备
US11074249B2 (en) * 2018-04-10 2021-07-27 Intel Corporation Dynamic adaptation of language understanding systems to acoustic environments
CN109473100A (zh) * 2018-11-12 2019-03-15 四川驹马科技有限公司 基于语音识别的业务场景语音人机交互方法及其系统
CN109524010A (zh) * 2018-12-24 2019-03-26 出门问问信息科技有限公司 一种语音控制方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US20170169817A1 (en) * 2015-12-09 2017-06-15 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
WO2018135753A1 (ko) * 2017-01-17 2018-07-26 삼성전자주식회사 전자 장치 및 그의 동작 방법
WO2019022797A1 (en) * 2017-07-25 2019-01-31 Google Llc STATEMENT CLASSIFIER
US20190139547A1 (en) * 2017-11-08 2019-05-09 Alibaba Group Holding Limited Interactive Method and Device
JP2019139146A (ja) * 2018-02-14 2019-08-22 オンキヨー株式会社 音声認識システム、及び、音声認識方法

Also Published As

Publication number Publication date
US20210097993A1 (en) 2021-04-01
CN112669831B (zh) 2022-10-21
JP7051799B2 (ja) 2022-04-11
KR20210038811A (ko) 2021-04-08
CN112669831A (zh) 2021-04-16
EP3799040A1 (en) 2021-03-31
KR102331254B1 (ko) 2021-11-26

Similar Documents

Publication Publication Date Title
JP7051799B2 (ja) 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体
KR102320708B1 (ko) 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN111192591B (zh) 智能设备的唤醒方法、装置、智能音箱及存储介质
JP7051798B2 (ja) 音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体
KR102358012B1 (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP7017598B2 (ja) スマートデバイスのデータ処理方法、装置、機器及び記憶媒体
JP7381518B2 (ja) アプリケーションプログラムの操作ガイダンス方法、装置、機器及び読み取り可能な記憶媒体
JP6967095B2 (ja) プログラムの起動方法、装置、デバイス及び記憶媒体
WO2021196617A1 (zh) 一种语音交互方法、装置、电子设备及存储介质
JP7051800B2 (ja) 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
CN112825013A (zh) 终端设备的控制方法和装置
JP2022024110A (ja) 音声認識方法、装置、電子機器及び記憶媒体
KR20230118164A (ko) 디바이스 또는 어시스턴트-특정 핫워드들의 단일 발언으로의결합
JP2021056989A (ja) 音声スキル推薦方法、装置、機器及び記憶媒体
KR20210038277A (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN116182215A (zh) 智能化吸油烟机控制方法、装置、终端设备及存储介质
CN112804593A (zh) 一种应用系统音量的控制方法、装置、机器人及存储介质
CN117880687A (zh) 耳机控制方法和电子设备
CN116820383A (zh) 一种音源控制方法、装置、系统、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220114

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220114

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220124

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220330

R150 Certificate of patent or registration of utility model

Ref document number: 7051799

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150