JP2021056486A - 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体 - Google Patents

音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2021056486A
JP2021056486A JP2019238253A JP2019238253A JP2021056486A JP 2021056486 A JP2021056486 A JP 2021056486A JP 2019238253 A JP2019238253 A JP 2019238253A JP 2019238253 A JP2019238253 A JP 2019238253A JP 2021056486 A JP2021056486 A JP 2021056486A
Authority
JP
Japan
Prior art keywords
control
operating state
intention
voice
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019238253A
Other languages
English (en)
Other versions
JP7051800B2 (ja
Inventor
ヨンシー ルォ,
Yongxi Luo
ヨンシー ルォ,
シャシャ ワン,
Shasha Wang
シャシャ ワン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021056486A publication Critical patent/JP2021056486A/ja
Application granted granted Critical
Publication of JP7051800B2 publication Critical patent/JP7051800B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ターゲットシーンで、ユーザが入力した音声データを連続的に取得した後、他のシーンに切り替えることなく、ユーザ体験を向上する音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体を提供する。【解決手段】音声制御方法は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。【選択図】図1

Description

本出願は、音声認識および人工知能の技術分野に関し、特に、音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体に関する。
人工知能技術および端末技術の持続的な発展に伴い、人工知能製品、たとえばスマートスピーカなどの電子デバイスが絶えず普及され、ユーザは、対応する制御命令を実行するように電子デバイスを音声で制御することができる。ユーザが電子デバイスを使用してゲームをプレイする間に、ユーザが電子デバイスと音声インタラクションを行い、ユーザによって入力された制御命令がゲームに関連していない場合でも、電子デバイスは、対応する制御命令に応答し、他の動作シーンに切り替える。この場合、ユーザのゲームプレイプロセスが中断され、ユーザ体験に影響する。
本出願は、関連技術における技術的課題の少なくとも1つをある程度解決することを目的とする。
本出願は、ターゲットシーンで、ユーザが入力した音声データを連続的に取得した後、他のシーンに切り替えることなく、ユーザ体験を向上する音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体を提供する。
本出願の第1態様の実施例は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行するステップと、前記オーディオクリップの音声認識によって取得された第1制御意図を取得するステップと、前記第1制御意図にマッチングする制御命令を実行し、前記第1動作状態を第2動作状態に切り替えるステップと、前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップと、音声認識によって前記ターゲットシーンに合致する第2制御意図が取得された場合、前記第2制御意図にマッチングする制御命令を実行するステップと、を含む音声制御方法を提供する。
本出願の実施例の第1の可能な実施形態として、前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップの後に、オーディオストリームの音声認識によって取得された情報ストリームを取得するステップと、前記情報ストリームから各候補意図を取得するステップと、各候補意図から、前記ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングするステップと、所定期間内に前記第2制御意図が取得されなかった場合、前記第2動作状態を終了するステップと、をさらに含み、前記所定期間の範囲は、20秒〜40秒である。
本出願の実施例の第2の可能な実施形態として、前記情報ストリームから各候補意図を取得するステップの後に、前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するステップをさらに含む。
本出願の実施例の第3の可能な実施形態として、前記第1動作状態を第2動作状態に切り替えるステップの後に、前記第2動作状態で、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するステップを更に含み、前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示する、および/または、オーディオまたはビデオを再生するためのものである。
本出願の実施例の第4の可能な実施形態として、前記第1動作状態を第2動作状態に切り替えるステップの前に、前記第1制御意図が前記ターゲットシーンにマッチングすると決定するステップをさらに含む。
本出願の実施例の第5の可能な実施形態として、前記ターゲットシーンはゲームシーンを含む。
本出願の第2態様の実施例は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行するように構成される実行モジュールと、前記オーディオクリップの音声認識によって取得された第1制御意図を取得するように構成される第1取得モジュールと、前記第1制御意図にマッチングする制御命令を実行し、前記第1動作状態を第2動作状態に切り替えるように構成される切り替えモジュールと、前記第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うように構成される認識モジュールと、音声認識によって前記ターゲットシーンに合致する第2制御意図が取得された場合、前記第2制御意図にマッチングする制御命令を実行するように構成される制御モジュールと、を含む音声制御装置を提供する。
本出願の第3態様の実施例は、電子デバイスを提供し、前記電子デバイスは、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリに前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサは本出願の第1態様に係る音声制御方法を実行する。
本出願の第4態様の実施例は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、本出願の第1態様の実施例に係る音声制御方法をコンピュータに実行させるためのものである。
上記出願の実施例は、以下の利点または有益な効果を有する。
ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因するユーザ体験が悪くなるという技術的な問題が回避される。
上記の選択可能な実施形態が有する他の効果について、具体的な実施例と併せて以下に説明する。
図面は、本出願の構成をよりよく理解するためのものであり、本出願を限定するものではない。本出願の上記および/または追加の態様および利点は、図面と併せて実施例の以下の説明により明らかになり、理解されやすくなる。
本出願の実施例1に係る音声制御方法の概略フローチャートである。 本出願の実施例2に係る音声制御方法の概略フローチャートである。 本出願の実施例3に係る音声制御方法の概略フローチャートである。 本出願の実施例4に係る音声制御装置の概略構成図である。 本出願の実施例5に係る電子デバイスの概略構成図である。
本出願の例示的な実施例について、図面を参照して以下に説明する。理解を容易にするために、その中に本出願の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本出願の範囲および精神から逸脱することなく、本明細書に記載の実施例に様々な変更および修正を加えることができることを認識すべきである。また、明確さおよび簡潔さのために、周知の機能および構成の説明は、以下の説明では省略される。
本発明の実施例に係る音声制御方法、音声制御装置、電子デバイス、及び読み取り可能な記録媒体について、図面を参照して以下に説明する。
図1は、本出願の実施例1に係る音声制御方法の概略フローチャートである。
本発明の実施例において、音声制御方法が音声制御装置で構成されることを例とし、当該音声制御装置は、任意の電子デバイスに適用されることにより、電子デバイスが音声制御機能を実行することができる。
ここで、電子デバイスは、パーソナルコンピュータ(Personal Computer、PCと略称する)、クラウドデバイス、モバイルデバイス、スマートスピーカなどであってもよい。モバイルデバイスは、たとえば、携帯電話、タブレットコンピュータ、携帯情報端末、ウェアラブルデバイス、カーデバイスなどの、さまざまなオペレーティングシステム、タッチスクリーンおよび/またはディスプレイを搭載したハードウェアデバイスであってもよい。
図1に示すように、当該音声制御方法は、以下のステップ101〜ステップ105を含むことができる。
ステップ101において、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行する。
可能なシーンとして、ターゲットシーンはゲームシーンを含む。なお、ターゲットシーンは、子供のシーンなど他の可能なシーンであってもよく、これについて限定しない。
本発明の実施例において、第1動作状態は非リスニング状態であってもよく、ターゲットシーンで、電子デバイスは、ユーザの音声によって入力されたウェイクワードに基づいて音声フラグメントを収集するように、当該非リスニング状態を実行する。
本出願の実施例では、ウェイクワードは、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、ユーザのパーソナライズニーズを満たすために、自分のニーズに応じてユーザによって設定されてもよく、本出願はこれについて限定しない。たとえば、電子デバイスがスマートスピーカである場合、ウェイクワードは「小度小度(ドちゃんドちゃん)」であってもよい。
本出願の実施例では、ターゲットシーンで、電子デバイスが第1動作状態を実行するとき、電子デバイスは、ユーザがウェイクワードを入力したか否かを検出することができる。ユーザがウェイクワードを入力したと検出された場合、ユーザがウェイクワードに続いて入力したオーディオクリップを収集して、音声認識を行うことができる。たとえば、電子デバイスがスマートスピーカである場合、当該スマートスピーカが当該第1動作状態にあるとき、ユーザが歌を再生したい場合、ユーザは、「小度小度、歌Aを再生してください」または「小度小度、歌を聴きたい」を音声で入力することができる。そうすると、電子デバイスは、ウェイクワードに続く「歌Aを再生してください」または「歌を聴きたい」というオーディオクリップを認識することができる。
本出願の実施例では、電子デバイスが第1動作状態にあるとき、音声制御装置は、監視モードで、ユーザによって入力されたウェイクワードを監視することができる。ユーザによって入力されたウェイクワードを監視した場合、ウェイクワードに続くオーディオクリップを認識することができる。ユーザによって入力されたウェイクワードを監視していない場合、ユーザによって入力されたウェイクワードを引き続き監視することができる。つまり、ユーザによって入力されたウェイクワードを監視していない場合、電子デバイスは、依然として第1動作状態、すなわち非リスニング状態にある。このとき、ユーザが音声で電子デバイスを制御したい場合は、対応するウェイクワードを音声で入力する必要もある。たとえば、ユーザが歌を再生したい場合、ユーザは、「小度小度、歌を聞きたい」と入力することができる。
ステップ102において、オーディオクリップの音声認識によって取得された第1制御意図を取得する。
本出願の実施例において、第1制御意図は、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、当該方法の柔軟性および適用可能性を向上させるために、第1制御意図は、ユーザによって設定されてもよく、これについて限定しない。たとえば、ゲームシーンでは、第1制御意図は、エネルギの増加、装備の購入などであってもよい。
本出願の実施例では、電子デバイスが第1動作状態にあり、電子デバイスが、ユーザによって入力されたウェイクワードを検出した後、ユーザによって入力されたウェイクワードに続くオーディオクリップを収集し、次にオーディオクリップの音声認識を行い、オーディオクリップの音声認識によって得られた第1制御意図を取得する。
たとえば、ターゲットシーンがゲームシーンである場合、ゲームシーンでは、電子デバイスが第1動作状態を実行するとき、ユーザがゲーム装備を変更したい場合、ユーザがウェイクワード「小度小度」を音声で入力した後、ユーザは、「装備を変更したい」または「装備Aを変更してください」と音声で入力することができる。そうすると、電子デバイスは、ウェイクワードに続くオーディオクリップを認識して、「装備を変更したい」または「装備Aを変更してください」という第1制御意図を取得することができる。
ステップ103において、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替える。
本出願の実施例において、第2動作状態は、リスニング状態であってもよい。電子デバイスが当該リスニング状態にあるとき、ユーザは、ウェイクワードを音声で入力する必要がなく、リアルタイムで音声命令を入力して、電子デバイスとインタラクションすることができる。
なお、ゲームシーンでは、電子デバイスがリスニング状態にあるとき、電子デバイスの音声やビデオは、引き続き再生され、端末でのゲームプロセスは終了しないことを説明する必要がある。
本出願の実施例では、電子デバイスがオーディオクリップの音声認識によって取得された第1制御意図を取得した場合、第1制御意図にマッチングする制御命令を実行する。この場合、ターゲットシーンでユーザが電子デバイスとリアルタイムのインタラクションまたは連続的なインタラクションを実行するニーズがあることを示す。
たとえば、電子デバイスがスマートスピーカであり、ターゲットシーンがゲームシーンであり、第1制御意図がエネルギの補充であることを例とし、ユーザが「小度小度、私にエネルギを補充してください」と音声で入力した場合、スマートスピーカは、ユーザによって入力されたオーディオクリップを収集して認識した後、ウェイクワードに続くオーディオクリップの意図が「エネルギを補充」であると判定することができ、この場合、非リスリング状態からリスリング状態に切り替えるように電子デバイスの動作状態を制御するとともに、ユーザのゲームキャラクタにエネルギを補充し、エネルギの補充が終了した後、スマートスピーカは、「エネルギ補充終了」のような提示情報を音声で再生するか、インターフェイスに表示することができる。
ステップ104において、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームを認識する。
本出願の実施例において、電子デバイスが第2動作状態にあるとき、電子デバイスはオーディオを連続的に収集してオーディオストリームを取得して音声認識することができる。したがって、ユーザが電子デバイスとリアルタイムのインタラクションまたは連続的なインタラクションを実行するニーズがある場合、ウェイクワードを連続的に入力する必要はなく、電子デバイスが動作状態にあるとき、オーディオストリームを連続的に入力し、オーディオストリームの音声認識を行えば、ユーザの操作を簡素化し、ユーザ体験を向上させることができる。
依然として上記の例を例とし、スマートスピーカがリスニング状態にあるとき、ユーザはウェイクワードを入力する必要がなく、スマートスピーカと連続的なインタラクションを行うことにより、電子デバイスは、「装備を変更」、「装備を購入」など、ユーザによって入力されたオーディオストリームを連続的に収集し、オーディオストリームの音声認識を行うことができる。
ステップ105において、音声認識によってターゲットシーンにマッチングする第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。
本出願の実施例において、第2制御意図は、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、方法の柔軟性および適用可能性を向上させるために、第2制御意図はユーザによって設定されてもよく、これについて限定しない。上記の第1制御意図と区別するために、第2動作状態でオーディオストリームの音声認識によって取得された、ターゲットシーンに合致する制御意図を第2制御意図と名付ける。
本出願の実施例において、電子デバイスが第2動作状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行う。1つの可能な場合、オーディオストリームの音声認識を行うことによって取得された制御意図が、ターゲットシーンに合致する第2制御意図である場合、第2制御意図にマッチングする制御命令を実行する。
たとえば、ターゲットシーンがゲームシーンであることを例とし、電子デバイスが第2動作状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識によって取得された第2制御意図は「装備を購入」である。「装備を購入」という制御意図はゲームシーンに合致するため、電子デバイスは「装備を購入」にマッチングする制御命令を実行する。
別の可能な場合では、電子デバイスがオーディオストリームの音声認識を行うことによって得られた制御意図が、ターゲットシーンに合致しない第2制御意図である場合、電子デバイスは何の動作も実行しない。
たとえば、対象シーンをゲームシーンであることを例とし、電子デバイスが第2作動状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行うことによって取得された第2制御意図は「今日の天気はどう」である。オーディオストリームの音声認識を行うことによって取得された第2制御意図はゲームシーンに合致しないため、この場合、電子デバイスは何の応答もしない。その結果、ゲームのプレイ中のユーザの没入感が向上し、ゲーム中の他のスキルによる干渉が回避される。
なお、「第1」、「第2」の用語は単に説明するためのものであり、比較的な重要性を指示又は暗示するか、又は示された技術的特徴の数を黙示的に指示すると理解してはならない。したがって、「第1」、「第2」で限定された特徴は、少なくとも1つの前記特徴を含むことを明示又は暗示する。
本発明の実施例に係る音声制御方法は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行することにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されるオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えによるユーザ体験が悪くなるという技術的な問題が回避される。
上記の実施例に基づいて、別の可能な場合では、電子デバイスが第2動作状態にあるとき、電子デバイスは、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行って情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図にはターゲットシーンの制御意図にマッチングする第2制御意図が含まれているか否かを判断し、第2制御意図が含まれていない場合、第2動作状態を終了し、ターゲットシーンの制御意図にマッチングしない意図候補への応答を拒否する。上記のプロセスについて実施例2と併せて詳細に説明する。
図2は、本出願の実施例2に係る音声制御方法の概略フローチャートである。
図2に示すように、図1に示す実施例に基づいて、当該音声制御方法はさらに以下のステップ201〜ステップ204をさらに含むことができる。
ステップ201において、オーディオストリームの音声認識によって得られた情報ストリームを取得する。
本出願の実施例では、ユーザが音声データを入力した後、電子デバイスは、オーディオストリームを収集し、オーディオストリームの音声認識を行って、対応する情報ストリームを決定することができる。
ステップ202において、情報ストリームから各候補意図を取得する。

本出願の実施例において、情報ストリームが取得された後、当該情報ストリームに対してセマンティクス認識を行い、情報ストリームに対応する制御意図を決定することができ、情報ストリームに対応する制御意図から各候補意図をスクリーニングすることができる。
ステップ203において、各候補意図から、ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングする。
本出願の実施例では、情報ストリームから各候補意図が取得された後、各候補意図をスクリーニングして、ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングする。
たとえば、ターゲットシーンがゲームシーンである場合、情報ストリームから電子デバイスによって取得された各候補意図は、「歌を再生」、「装備を購入」を含み、候補意図をスクリーニングして、ゲームシーンの制御意図にマッチングする「装備を購入」という第2制御意図を得る。
本出願の実施例では、情報ストリームから各候補意図が取得された後、候補意図をスクリーニングし、ターゲットシーンの制御意図にマッチングしない候補意図がスクリーニングされた場合、電子デバイスは、ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否する。これにより、ターゲットシーンでのユーザの没入感が確保される。
依然として上記の例を例とし、ターゲットシーンがゲームシーンである場合、情報ストリームから電子デバイスによって取得された各意図候補は、「歌を再生」、「装備を購入」を含み、意図候補をスクリーニングして、ゲームシーンの制御意図にマッチングしない「歌を再生」という候補意図を得る。この場合、電子デバイスは、「歌を再生」という候補意図への応答を拒否することにより、ゲームのプレイ中にユーザが中断されてユーザの没入型のゲーム体験に影響を与えることが回避される。
ステップ204において、所定期間内に第2制御意図が得られない場合、第2動作状態を終了し、所定期間の範囲は20秒〜40秒である。
本発明の実施例において、所定期間は予め設定され、たとえば、電子デバイスの内蔵プログラムによって予め設定されるか、またはユーザによって設定されてもよく、これは限定されない。たとえば、所定期間の範囲は20秒〜40秒である。
本出願の実施例において、所定期間内にターゲットシーンの制御意図にマッチングする第2制御意図がスクリーニングされなかった場合、この時点では、ターゲットシーンでユーザが電子デバイスを連続的に制御する意図がないことを示す。したがって、第2動作状態を終了することができる。
たとえば、所定期間が30秒であるとすると、電子デバイスがリスニング状態になったとき、ユーザが所定期間内に音声データを入力しなかった場合、または、電子デバイスが各候補意図からターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングしなかった場合、リスニング状態を終了することができる。
本発明の実施例に係る音声制御方法は、情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図からターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングし、所定期間内に第2制御意図が取得されなかった場合、第2動作状態を終了する。これにより、ターゲットシーンの制御意図にマッチングする第2制御意図が所定期間内に候補意図からスクリーニングされなかった場合、第2動作状態を終了するように電子デバイスを制御することで、電子デバイスが常にリスニング状態または動作状態にあることを回避し、電子デバイスのエネルギ消費を削減することができる。
本発明の実施例において、ターゲットシーンで、オーディオクリップの音声認識によって取得された第1制御意図が取得された後、まず、第1制御意図がターゲットシーンにマッチングすることを決定し、次に第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替えた後、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示する。上記のプロセスを実施例3と併せて以下に詳細に説明する。
図3は、本出願の実施例3に係る音声制御方法の概略フローチャートである。
図3に示すように、当該音声制御方法は、以下のステップ301〜ステップ305をさらに含むことができる。
ステップ301において、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行する。
ステップ302において、オーディオクリップの音声認識によって取得された第1制御意図を取得する。
本出願の実施例において、ステップ301および302の実行プロセスについては、実施例1におけるステップ101およびステップ102を参照し、ここでは詳細な説明を省略する。
ステップ303において、第1制御意図がターゲットシーンにマッチングすることを決定する。
本出願の実施例において、ターゲットシーンで、電子デバイスが第1動作状態にあるとき、ユーザによって音声で入力されたウェイクワードに基づいてオーディオクリップを収集する。さらに、電子デバイスは、オーディオクリップの音声認識によって取得された第1制御意図を取得した後、第1制御意図がターゲットシーンにマッチングするか否かを判定する。制御意図がターゲットシーンにマッチングする場合に、ステップ304を実行する。制御意図がターゲットシーンにマッチングしない場合、電子デバイスは、当該第1制御意図への応答を拒否し、第1動作状態を実行し続ける。
たとえば、ターゲットシーンがゲームシーンであるとすると、電子デバイスは、非リスニング状態で、ユーザがウェイクワードを音声で入力した後にオーディオクリップを収集し、オーディオクリップの音声認識を行って、「装備を購入」という第1制御意図を取得する。「装備を購入」の制御意図はゲームシーンにマッチングするため、電子デバイスは、「装備を購入」にマッチングする制御命令を実行し続ける。
ステップ304において、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替える。

本出願の実施例において、ステップ304の実行プロセスについては、上記の実施例1のステップ103を参照し、ここでは説明を省略する。
ステップ305において、第2動作状態では、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示する。
本出願の実施例の可能な実施形態として、電子デバイスが第2動作状態にあるとき、電子デバイスの表示インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示することができる。ここで、第1要素は、電子デバイスが第1動作状態にあることを提示するためのものであり、第2要素は、電子デバイスが第2動作状態にあることを提示するためのものであり、第3要素は、ウェイクワードを提示するおよび/またはオーディオまたはビデオを再生するためのものである。
1つの適用シーンとして、ターゲットシーンがゲームシーンであることを例とし、電子デバイスが第2動作状態にあるとき、すなわち、電子デバイスがリスニング状態にあるとき、ユーザが電子デバイスの現在の状態情報をわかりやすくするために、電子デバイスのインターフェイスにおける第1要素を第2要素に置き換えることができる。電子デバイスが所定期間内に第2制御状態を得ていないため、電子デバイスは第2動作状態を終了する。この場合、ユーザはウェイクワードを再入力する必要がある。したがって、第3要素を表示してウェイクワードを提示する必要がある。
ステップ306において、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームを認識する。
ステップ307において、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。
本出願の実施例において、ステップ306およびステップ307の実行プロセスについては、実施例1におけるステップ104および105を参照し、ここでは、説明を省略する。
本出願の実施例において、電子デバイスが第2動作状態にあるとき、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示することにより、ユーザは電子デバイスの現在の動作状態をさらに了解し、ユーザの使用体験を向上させることができる。
上記の実施例を実現するために、本出願は、音声制御装置をさらに提供する。
図4は、本発明の実施例4に係る音声制御装置の概略構成図である。
図4に示すように、当該音声制御装置400は、実行モジュール410、第1取得モジュール420、切り替えモジュール430、認識モジュール440、および制御モジュール450を含む。
実行モジュール410は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行するように構成される。
第1取得モジュール420は、オーディオクリップの音声認識によって取得された第1制御意図を取得するように構成される。
切り替えモジュール430は、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替えるように構成される。
認識モジュール440は、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行うように構成される。
制御モジュール450は、音声認識によってターゲットシーンにマッチングする第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行するように構成される。
さらに、本出願の実施例の可能な一実施形態において、当該音声制御装置400は、オーディオストリームの音声認識によって得られた情報ストリームを取得するように構成される第2取得モジュールと、情報ストリームから各候補意図を取得するように構成される第3取得モジュールと、各候補意図からターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングするように構成されるスクリーニングモジュールと、所定期間内に第2制御意図が取得されなかった場合、第2動作状態を終了するように構成される終了モジュールと、をさらに含むことができる。所定期間の範囲は20秒〜40秒である。
本出願の実施例の別の可能な実施形態では、当該音声制御装置400は、前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するように構成される応答拒否モジュールをさらに含むことができる。
本出願の実施例の別の可能な実施形態では、当該音声制御装置400は、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するように構成される切り替えモジュールをさらに含み、前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示するおよび/またはオーディオまたはビデオを再生するためのものである。
本出願の実施例の別の可能な実施形態では、当該音声制御装置400は、第1制御意図がターゲットシーンにマッチングすることを決定するように構成される決定モジュールをさらに含むことができる。
本出願の実施例の別の可能な実施形態では、前記ターゲットシーンはゲームシーンを含む。
なお、音声制御方法の実施例の前述の説明は、この実施例の音声制御装置にも適用可能であり、ここでは説明を省略する。
本発明の実施例に係る音声制御装置は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因してユーザ体験が悪くなるという技術的な問題が回避される。
上記の実施例を実現するために、本出願は、電子デバイスをさらに提供し、前記電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、メモリに少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令が少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサは、本出願の前述の実施例に係る音声制御方法を実行する。
上記の実施例を実現するために、本出願は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令は、本出願の前述の実施例に係る音声制御方法をコンピュータに実行させるためのものである。
本出願の実施例によれば、本出願は、電子デバイスおよび読み取り可能な記憶媒体をさらに提供する。
図5は、本発明の一実施例に係る音声制御方法の電子デバイスのブロック図を示している。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを含んでもよい。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、その他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを含んでもよい。
本明細書で示されるコンポーネント、それらの接続および関係、およびそれらの機能は単なる例であり、本明細書で説明および/または必要とされる本出願の実現を限定することを意図するものではない。
図5に示すように、当該電子デバイスは、1つまたは複数のプロセッサ501、メモリ502、および高速インターフェイスおよび低速インターフェイスを含む様々なコンポーネントを接続するためのインターフェイスを含む。さまざまなコンポーネントは、異なるバスを使用して相互接続され、共通のマザーボードに取り付けられるか、必要に応じて取り付けられてもよい。プロセッサは、外部入力/出力デバイス(たとえば、インターフェイスに結合されたディスプレイデバイス)にGUIのグラフィカル情報を表示するためにメモリに記憶された命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施例では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続し、それぞれの電子デバイスが必要な操作(たとえば、サーバアレイ、1グループのブレードサーバ、マルチプロセッサシステム)の一部を提供することができる。図5では、1つのプロセッサ501を例に挙げている。
メモリ502は、本出願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、その結果、前記少なくとも1つのプロセッサは、本出願に係る音声制御方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、本出願によって提供される音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本出願の実施例の音声制御方法に対応するプログラム命令/モジュール(たとえば、図4に示される実行モジュール410、第1取得モジュール420、切り替えモジュール430、認識モジュール440、および制御モジュール450)を記憶することができる。プロセッサ501は、メモリ502に記憶された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能的アプリケーションおよびデータ処理を実行し、すなわち、前述の方法の実施例における音声制御方法を実現する。
メモリ502は、ストレージプログラム領域およびストレージデータ領域を含むことができ、ストレージプログラム領域は、少なくとも1つの機能に必要なオペレーティングシステムおよびアプリケーションプログラムを記憶することができる。ストレージデータ領域は、電子デバイスの使用に基づいて作成されたデータを記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含むことができるし、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的な固体記憶装置などの非一時的なメモリも含むことができる。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に配置されたメモリを選択可能に含むことができ、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。
電子デバイスは、入力装置503および出力装置504をさらに含むことができる。プロセッサ501、メモリ502、入力装置503、および出力装置504は、バスまたは他の方式を介して接続することができ、図5では、バスを介した接続を例に挙げている。
入力装置503は、入力された数字または文字情報を受信し、電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力デバイスや電子デバイスである。出力装置504は、表示装置、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含んでもよい。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置はタッチスクリーンであってもよい。
本明細書で説明されるシステムおよび技術の様々な実施形態は、デジタル電子回路、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現され得る。これらの様々な実施例は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムで実装されてもよく、当プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に送信することができる専用または汎用のプログラマブルプロセッサであってもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも言える)は、プログラマブルプロセッサの機械命令を含み、さらに高レベルの手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらのンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための信号を指す。
ユーザとのインタラクションを提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)と、キーボードおよびポインティング装置(たとえば、マウスまたはトラックボール)とを有するコンピュータで実施されてもよく、ユーザは当該キーボードおよび当該ポインティング装置を介してコンピュータに入力を提供できる。他の種類の装置を使用してユーザとのインタラクションを提供することもできる。たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(たとえば、音響入力、音声入力、または触覚入力)を用いてユーザからの入力を受信することができる。
本明細書に記載のシステムおよび技術の各実施形態は、バックエンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、またはミドルコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインターフェイスまたはWebブラウザを備えたユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェイスまたは当該Webブラウザを介して、ここで説明されるシステムおよび技術の実施形態とインタラクションできる)、またはこのようなバックエンドコンポーネント、ミドルコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。デジタルデータ通信の任意の形式または媒体(たとえば、通信ネットワーク)によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。通常、クライアントとサーバとは互いにリモートであり、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され、互いにクライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。
本出願の実施例の技術的解決策によれば、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因してユーザ体験が悪くなるという技術的な問題が回避される。
なお、上記のさまざまな形態のプロセスを使用して、ステップを並べ替え、追加、または削除できることを理解されたい。たとえば、本出願で説明されている各ステップは、並列、順次、または異なる順序で実行できる。本出願で開示された技術的解決策の望ましい結果が達成できれば、本明細書は、ここで限定しない。
前述した具体的な実施形態は、本出願の保護範囲を制限しない。設計要件および他の要因に応じて、さまざまな修正、組み合わせ、サブ組み合わせ、および置き換えを行うことができることを当業者は理解するべきである。本出願の思想および原則の範囲内で行われた修正、同等の置き換え、および改善は、いずれも本出願の保護範囲に含まれるものとする。

Claims (14)

  1. ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように、第1動作状態を実行するステップと、
    前記オーディオクリップの音声認識によって取得された第1制御意図を取得するステップと、
    前記第1制御意図にマッチングする制御命令を実行し、前記第1動作状態を第2動作状態に切り替えるステップと、
    前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップと、
    音声認識によって前記ターゲットシーンに合致する第2制御意図が取得された場合、前記第2制御意図にマッチングする制御命令を実行するステップと、を含む音声制御方法。
  2. 前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップの後に、
    前記オーディオストリームの音声認識によって取得された情報ストリームを取得するステップと、
    前記情報ストリームから各候補意図を取得するステップと、
    各候補意図から、前記ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングするステップと、
    所定期間内に前記第2制御意図が取得されなかった場合、前記第2動作状態を終了するステップと、をさらに含み、
    前記所定期間の範囲は、20秒〜40秒である請求項1に記載の音声制御方法。
  3. 前記情報ストリームから各候補意図を取得するステップの後に、
    前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するステップをさらに含む請求項2に記載の音声制御方法。
  4. 前記第1動作状態を第2動作状態に切り替えるステップの後に、
    前記第2動作状態で、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するステップをさらに含み、
    前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示する、および/または、オーディオまたはビデオを再生するためのものである請求項1から3のいずれかに記載の音声制御方法。
  5. 前記第1動作状態を第2動作状態に切り替えるステップの前に、
    前記第1制御意図が前記ターゲットシーンにマッチングすると決定するステップをさらに含む請求項1から3のいずれかに記載の音声制御方法。
  6. 前記ターゲットシーンは、ゲームシーンを含む請求項1から3のいずれかに記載の音声制御方法。
  7. ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように、第1動作状態を実行するように構成される実行モジュールと、
    前記オーディオクリップの音声認識によって取得された第1制御意図を取得するように構成される第1取得モジュールと、
    前記第1制御意図にマッチングする制御命令を実行し、前記第1動作状態を第2動作状態に切り替えるように構成される切り替えモジュールと、
    前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うように構成される認識モジュールと、
    音声認識によって前記ターゲットシーンに合致する第2制御意図が取得された場合、前記第2制御意図にマッチングする制御命令を実行するように構成される制御モジュールと、を含む音声制御装置。
  8. 前記装置は、
    前記オーディオストリームの音声認識によって取得された情報ストリームを取得するように構成される第2取得モジュールと、
    前記情報ストリームから各候補意図を取得するように構成される第3取得モジュールと、
    各候補意図から、前記ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングするように構成されるスクリーニングモジュールと、
    所定期間内に前記第2制御意図が取得されなかった場合、前記第2動作状態を終了するように構成される終了モジュールと、をさらに含み、
    前記所定期間の範囲は、20秒〜40秒である請求項7に記載の音声制御装置。
  9. 前記装置は、
    前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するように構成される応答拒否モジュールをさらに含む請求項8に記載の音声制御装置。
  10. 前記装置は、
    前記第2動作状態で、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するように構成される切り替えモジュールをさらに含み、
    前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示する、および/または、オーディオまたはビデオを再生するためのものである請求項7から9のいずれかに記載の音声制御装置。
  11. 前記装置は、
    前記第1制御意図が前記ターゲットシーンにマッチングすると決定するように構成される決定モジュールをさらに含む請求項7から9のいずれかに記載の音声制御装置。
  12. 前記ターゲットシーンは、ゲームシーンを含む請求項7から9のいずれかに記載の音声制御装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子デバイスであって、
    前記メモリに前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが、請求項1から6のいずれかに記載の音声制御方法を実行する電子デバイス。
  14. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、請求項1から6のいずれかに記載の音声制御方法を前記コンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
JP2019238253A 2019-09-29 2019-12-27 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体 Active JP7051800B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910933788.4A CN112581945A (zh) 2019-09-29 2019-09-29 语音控制方法、装置、电子设备和可读存储介质
CN201910933788.4 2019-09-29

Publications (2)

Publication Number Publication Date
JP2021056486A true JP2021056486A (ja) 2021-04-08
JP7051800B2 JP7051800B2 (ja) 2022-04-11

Family

ID=69055744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019238253A Active JP7051800B2 (ja) 2019-09-29 2019-12-27 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体

Country Status (5)

Country Link
US (1) US20210097991A1 (ja)
EP (1) EP3799039A1 (ja)
JP (1) JP7051800B2 (ja)
KR (1) KR20210038278A (ja)
CN (1) CN112581945A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115476366B (zh) * 2021-06-15 2024-01-09 北京小米移动软件有限公司 足式机器人的控制方法、装置、控制设备及存储介质
CN114071318B (zh) * 2021-11-12 2023-11-14 阿波罗智联(北京)科技有限公司 语音处理方法、终端设备及车辆
CN115083412B (zh) * 2022-08-11 2023-01-17 科大讯飞股份有限公司 语音交互方法及相关装置、电子设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051694A (ja) * 1999-08-10 2001-02-23 Fujitsu Ten Ltd 音声認識装置
JP2007101892A (ja) * 2005-10-04 2007-04-19 Denso Corp 音声認識装置
WO2016063564A1 (ja) * 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
US20170169817A1 (en) * 2015-12-09 2017-06-15 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
WO2018135753A1 (ko) * 2017-01-17 2018-07-26 삼성전자주식회사 전자 장치 및 그의 동작 방법
JP2019001428A (ja) * 2017-06-20 2019-01-10 クラリオン株式会社 車載装置、音声操作システムおよび音声操作方法
WO2019022797A1 (en) * 2017-07-25 2019-01-31 Google Llc STATEMENT CLASSIFIER

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864815A (en) * 1995-07-31 1999-01-26 Microsoft Corporation Method and system for displaying speech recognition status information in a visual notification area
CN107277672B (zh) * 2017-06-07 2020-01-10 福州瑞芯微电子股份有限公司 一种支持唤醒模式自动切换的方法和装置
CN109243431A (zh) * 2017-07-04 2019-01-18 阿里巴巴集团控股有限公司 一种处理方法、控制方法、识别方法及其装置和电子设备
CN107564518B (zh) * 2017-08-21 2021-10-22 百度在线网络技术(北京)有限公司 智能设备控制方法、装置及计算机设备
CN108337362A (zh) * 2017-12-26 2018-07-27 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和存储介质
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US10818288B2 (en) * 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN109671426B (zh) * 2018-12-06 2021-01-29 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
CN109493849A (zh) * 2018-12-29 2019-03-19 联想(北京)有限公司 语音唤醒方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051694A (ja) * 1999-08-10 2001-02-23 Fujitsu Ten Ltd 音声認識装置
JP2007101892A (ja) * 2005-10-04 2007-04-19 Denso Corp 音声認識装置
WO2016063564A1 (ja) * 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
US20170169817A1 (en) * 2015-12-09 2017-06-15 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
WO2018135753A1 (ko) * 2017-01-17 2018-07-26 삼성전자주식회사 전자 장치 및 그의 동작 방법
JP2019001428A (ja) * 2017-06-20 2019-01-10 クラリオン株式会社 車載装置、音声操作システムおよび音声操作方法
WO2019022797A1 (en) * 2017-07-25 2019-01-31 Google Llc STATEMENT CLASSIFIER

Also Published As

Publication number Publication date
JP7051800B2 (ja) 2022-04-11
EP3799039A1 (en) 2021-03-31
US20210097991A1 (en) 2021-04-01
KR20210038278A (ko) 2021-04-07
CN112581945A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN110660390B (zh) 智能设备唤醒方法、智能设备及计算机可读存储介质
JP2021047835A (ja) ビデオ再生方法、ビデオ再生装置、電子デバイス及び読み取り可能な記憶媒体
JP7051800B2 (ja) 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
JP7051799B2 (ja) 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体
JP7051798B2 (ja) 音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体
JP2021056986A (ja) 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
CN111276139A (zh) 语音唤醒方法及装置
JP7262532B2 (ja) 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム
CN110647617B (zh) 对话引导模型的训练样本构建方法和生成模型的方法
CN111709362B (zh) 用于确定重点学习内容的方法、装置、设备及存储介质
CN111429907A (zh) 语音服务模式切换方法、装置、设备及存储介质
CN110718221A (zh) 语音技能控制方法、语音设备、客户端以及服务器
US20210098012A1 (en) Voice Skill Recommendation Method, Apparatus, Device and Storage Medium
CN111723343B (zh) 电子设备的交互控制方法、装置以及电子设备
JP2021056485A (ja) 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
CN113495621A (zh) 一种交互模式的切换方法、装置、电子设备及存储介质
CN112804593A (zh) 一种应用系统音量的控制方法、装置、机器人及存储介质
CN113495622A (zh) 一种交互模式的切换方法、装置、电子设备及存储介质
CN113555014A (zh) 一种语音交互的方法、装置、电子设备及存储介质
CN111881348A (zh) 信息处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210430

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220114

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220114

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220124

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220330

R150 Certificate of patent or registration of utility model

Ref document number: 7051800

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150