JP2021179642A - 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム - Google Patents

音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム Download PDF

Info

Publication number
JP2021179642A
JP2021179642A JP2021134212A JP2021134212A JP2021179642A JP 2021179642 A JP2021179642 A JP 2021179642A JP 2021134212 A JP2021134212 A JP 2021134212A JP 2021134212 A JP2021134212 A JP 2021134212A JP 2021179642 A JP2021179642 A JP 2021179642A
Authority
JP
Japan
Prior art keywords
user
voice
waiting time
voice command
perfection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021134212A
Other languages
English (en)
Other versions
JP7262532B2 (ja
Inventor
錦峰 白
Jinfeng Bai
知践 王
Zhijian Wang
聡 高
Cong Gao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021179642A publication Critical patent/JP2021179642A/ja
Application granted granted Critical
Publication of JP7262532B2 publication Critical patent/JP7262532B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声インタラクティブの処理方法を提供する。【解決手段】音声インタラクティブ処理方法は、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第1の完全度を予測することと、第1の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定することと、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御することと、を含む。【選択図】図1

Description

本願は、コンピュータ技術分野に関し、特に、知能音声と深度学習などの人工知能技術分野に関し、特に、音声インタラクティブの処理方法、装置、電子機器及び記憶媒体に関する。
現在、市場での音声インタラクティブに基づく製品の多くは、1回のウェイクアップで1回のインタラクティブに基づく方式である。このインタラクティブ方式は、ウェイクアップワード検出技術と製品戦略との組み合わせによるものであり、その特徴は、主に、ユーザが当該音声インタラクティブ機器を起動するウェイクアップワードを発話するたびに、内蔵されるウェイクアップワード検出モジュールが、当該ウェイクアップワード信号を検出し、識別および聴取を開始し、音声の終了を検出しまたは予め設定された時間に達した場合、聴取を終了することである。そして、聴取過程で収音された音声を認識し、音声認識の結果に基づいてユーザの要求に応答し、ユーザの要求に応答する処理を実現する。
以上のことから、従来技術における製品戦略には、ウェイクアップワードが終了したから数秒から十数秒までが聴取過程であると考えられ、当該過程において、ユーザは、音声インタラクティブ機器にウェイクアップワード後の音声命令を発話し、音声インタラクティブ機器は、当該音声命令に基づいて、今回のウェイクアップ後のユーザ需要に応答することがわかる。
本開示の課題は、音声インタラクティブの処理方法、装置、電子機器及び記憶媒体を提供することにある。
本開示の一態様によれば、音声インタラクティブの処理方法が提供され、
前記方法は、
ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第1の完全度を予測することと、
前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御することと、を含む。
本開示の別の態様によれば、音声インタラクティブの処理方法が提供され、
前記方法は、
ユーザの音声命令を受信することと、
クラウドサーバに前記ユーザの音声命令をアップロードすることと、
前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信することと、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答することと、を含む。
本開示のさらなる態様によれば、クラウドサーバが提供され、
前記クラウドサーバは、
ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第1の完全度を予測する予測モジュールと、
前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定する設定モジュールと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュールと、を含む。
本開示の別のさらなる態様によれば、音声インタラクティブ機器が提供され、
前記機器は、
ユーザの音声命令を受信する受信モジュールと、
クラウドサーバに前記ユーザの音声命令をアップロードするアップロードモジュールと、を含み、
前記受信モジュールは、前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信し、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答する応答モジュール、を含む。
本開示のさらに別の態様によれば、音声インタラクティブシステムが提供され、
前記システムは、
音声インタラクティブ機器と、クラウドサーバとを含み、
前記クラウドサーバは、前記音声インタラクティブ機器と通信可能に接続され、
前記クラウドサーバは、上述のクラウドサーバを採用し、前記音声インタラクティブ機器は、上述の音声インタラクティブ機器を採用している。
本開示のさらに別の態様によれば、電子機器が提供され、
前記機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが上述の方法のうちのいずれか一つの方法を実行するように、前記少なくとも1つのプロセッサによって実行される。
本開示のさらに別の態様では、コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体が提供され、
前記記録媒体は、
コンピュータに上述の方法のうちのいずれか一つの方法を実行させる。
本願のさらに別の態様では、コンピュータプログラムが提供され、前記コンピュータプログラムは、プロセッサによって実行される際に、請求項1〜7のいずれか一項、または請求項8に記載の方法を実現する。
本発明の技術によれば、ユーザの音声命令が終了してすぐに応答する必要がなく、音声インタラクティブ機器の「プリエンプション」現象を回避することができ、ユーザの音声命令に応答する操作の待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御し、音声インタラクティブ機器の知能性を効果的に高めることができる。
このセクションに記載された内容は、本開示の実施例の主要な特徴または重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。
図面は、本技術案をよりよく理解するためのものであり、本発明を限定するものではない。
本願の第1の実施例に係る概略図である。 本願の実施例の音声インタラクティブの処理方法の応用場面模式図である。 本願の第2の実施例に係る概略図である。 本願の第3の実施例に係る概略図である。 本願の第4の実施例に係る概略図である。 本願の第5の実施例に係る概略図である。 本願の第6の実施例に係る概略図である。 本願の第7の実施例に係る概略図である。 本願の第8の実施例に係る概略図である。 本願の実施例の音声インタラクティブの処理方法を実現するための電子機器のブロック図である。
以下、図面を組み合わせて、本願の例示的な実施例を説明し、理解を容易にするために本願実施例の様々な詳細を含むが、それらは単に例示的なものとみなされるべきである。したがって、当業者は、本開示の範囲および精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更および修正を行うことができることを認識するであろう。同様に、明確化および簡潔化のため、以下の説明では、周知の機能及び構成についての記載は省略される。
図1は、本願の第1の実施例に係る概略図であり、図1に示すように、本実施例は、音声インタラクティブの処理方法を提供し、具体的には、以下のステップを含むことができる。
S101では、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第1の完全度を予測する。
S102では、第1の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定する。
S103では、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御する。
本実施例の音声インタラクティブの処理方法の実行主体はクラウドサーバであり、すなわち、本実施例は、クラウドサーバ側で音声インタラクティブに対する処理を実現する。音声インタラクティブ機器側では、通常の処理方式に従って、クラウドサーバと連携して音声インタラクティブ処理を実現すればよい。
図2は、本実施例の音声インタラクティブの処理方法の応用場面概略図である。図2に示すように、音声インタラクティブでは、ユーザは、音声インタラクティブ機器にウェイクアップワードの音声およびユーザの音声命令を開始し得る。音声インタラクティブ機器は、ウェイクアップワードを検出した後、ウェイクアップされる。かつ、ウェイクアップワードの後のユーザの音声命令を視聴し、クラウドサーバにアップロードすることができる。クラウドサーバによって、受信したユーザの音声命令に基づいて、音声インタラクティブ処理を行う。
本実施例の技術案は、音声インタラクティブ機器がユーザによるウェイクアップワードを検出してウェイクアップした後に、ユーザの音声命令に基づいて実現する音声インタラクティブ方案に適用される。
具体的には、クラウドサーバは、音声インタラクティブ機器が送信したユーザの音声命令を受信した後に、まず、当該ユーザの音声命令が高頻度命令であるか否かを検出する必要がある。例えば、本実施例では、すべての高頻度命令が収集される高頻度命令ライブラリを予め設定することができ、具体的な高頻度命令の内容は、音声インタラクティブ機器の応用場面に関連し、例えば、音声インタラクティブ機器がスマートボックスである場合、当該の高頻度命令は、スタート、一時停止、ターンオフ、前の曲、次の曲、音を大きくすること、音を小さくすることなどを含むことができる。音声インタラクティブ機器がスマート家庭用機器である場合、当該の高頻度命令は、ライトをターンオンすること、ライトをターンオフすること、エアコンをターンオンすること、エアコンをターンオフすること、温度を高くすること、温度を低くすることなどを含むことができる。音声インタラクティブ機器がスマート車載装置である場合、該当する高頻度命令は、窓を開けること、窓を閉めること、音楽をターンオンすること、音楽をターンオフすること、ナビゲーションをターンオンすること、ナビゲーションをターンオフすることなどを含み得る。各場面において、高頻度命令ライブラリにおける高頻度命令は、音声命令であってもよく、音声命令を音声認識した文字命令であってもよい。音声インタラクティブ機器は、高頻度命令ライブラリに基づいて、ユーザの音声命令が高頻度命令であるか否かを検出する検出過程において、高頻度命令が音声命令である場合、直接、ユーザの音声命令を高頻度命令ライブラリにおける各高頻度命令とそれぞれ比較し、同一である場合、当該ユーザの音声命令が高頻度命令であると決定し、そうでない場合、ユーザの音声命令が高頻度命令ライブラリにおける全ての高頻度命令と異なる場合、当該ユーザの音声命令が非高頻度命令である。同様に、高頻度命令ライブラリにおける高頻度命令が文字形式である場合、まず、ユーザの音声命令を音声認識して相応的な文字形式のユーザ命令を取得し、そして、文字形式のユーザ命令を高頻度命令ライブラリにおける各高頻度命令とそれぞれ比較して、当該文字形式のユーザ命令が高頻度命令であるか否かを検出し、比較原理が同じであるため、ここでは贅言しない。
ユーザの音声命令が高頻度命令でないことが検出された場合、本実施例では、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第1の完全度を予測することができる。具体的には、ユーザの音声命令又はユーザの音声命令の文字形式を当該完全性検出モデルに入力することができ、当該完全性検出モデルは、当該ユーザの音声命令の語意の完全度を予測して、第1の完全度を取得することができる。例えば、当該第1の完全度は、必要に応じて0〜1に設定されることができ、数値が大きいほど、ユーザの音声命令の語意完全性がよくなることを示し、逆に、数値が小さいほど、ユーザの音声命令の語意完全性が悪くなることを示す。
本実施例の完全性検出モデルは、1つのニューラルネットワークモデルであることができ、トレーニングの前に、複数のトレーニングサンプルを予め収集することができ、各トレーニングサンプルには、トレーニングユーザの音声命令と人工的にマークされた当該トレーニングユーザの音声命令の完全度とが含まれることができる。例えば、完全度の良い幾つかのトレーニングユーザの音声命令を収集し、それらの完全度を1として、トレーニングポジティブサンプルとすることができる。そして、完全度が非常に悪いいくつかのトレーニングユーザの音声命令を収集し、それらの完全度を0として、トレーニングネガティブサンプルとすることができる。トレーニングする際に、各トレーニングサンプルを完全性検出モデルに入力し、該完全性検出モデルは、入力されたトレーニングサンプルにおけるトレーニングユーザの音声命令に基づいて、該トレーニングユーザの音声命令の完全度を予測することができる。次いで、予測されたトレーニングユーザの音声命令の完全度と、マークされたトレーニングユーザの音声命令の完全度とが一致するか否かを比較し、一致しない場合、予測されたトレーニングユーザの音声命令の完全度がマークされたトレーニングユーザの音声命令の完全度に近づくように、完全度検出モデルのパラメータを調整する。連続的な所定の回数のトレーニングにおいて、予測されたトレーニングユーザの音声命令の完全度と、マークされたトレーニングユーザの音声命令の完全度とが常に一致するまでに、複数のトレーニングサンプルを用いて、上記のように完全度検出モデルをトレーニングする。この場合、トレーニングが終了し、完全度検出モデルのパラメータを確定し、さらに完全度検出モデルを確定する。
本実施例では、ユーザの音声命令の第1の完全度を取得した後、第1の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定することができる。つまり、本実施例では、第1の完全度と予め設定された完全度閾値との異なる大小関係は、異なる待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御することができる。ユーザの音声命令が終了してすぐに応答し、ユーザが音声インタラクティブ過程で短く停止しても応答し、音声インタラクティブ機器が「プリエンプション」現象を起こし、ユーザの音声命令に応答する操作を正確に行うことができないという従来技術とは異なる。
本実施例の音声インタラクティブの処理方法では、ユーザの音声命令が高頻度命令でないと検出した場合、予めトレーニングされた完全性検出モデルを用いることにより、ユーザの音声命令の第1の完全度を予測し、第1の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御し、ユーザの音声命令が終了してすぐに応答する必要がなく、音声インタラクティブ機器の「プリエンプション」現象を回避することができ、ユーザの音声命令に応答する操作の待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御し、音声インタラクティブ機器の知能性を効果的に高めることができる。
図3は、本願の第2の実施例に係る概略図であり、図3に示すように、本実施例における音声インタラクティブの処理方法は、上記図1に示す実施例の技術案に加えて、さらに、本願の技術案をより詳細に紹介する。図3に示すように、本実施例の音声インタラクティブの処理方法は、具体的には、以下のステップを含むことができる。
S301では、音声インタラクティブ機器からアップロードされたユーザの音声命令を受信する。
音声インタラクティブ機器側では、当該ユーザの音声命令は、音声インタラクティブ機器がユーザの開始を視聴したものである。
S302では、予め設定された高頻度命令ライブラリに基づいて、ユーザの音声命令が高頻度命令であるか否かを検出し、高頻度命令でなければ、ステップS303を実行し、高頻度命令である場合、ステップS307を実行する。
S303では、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第1の完全度を予測し、ステップS304を実行する。
当該第1の完全度は、ユーザの音声命令の完全度を表す。
S304では、第1の完全度が予め設定された完全度閾値以上であるか否かを判断し、完全度閾値以上である場合、ステップS305を実行し、完全度閾値以上でなければ、ステップS306を実行する。
本実施例における予め設定された完全度閾値は、実際の経験により設定すればよく、具体的な数値は限定されない。
S305では、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を第1の待機時間に設定し、ステップS308を実行する。
例えば、本実施例の第1の待機時間は、実際の経験に基づいて、例えば、300ms、320ms、又はその他の時間などのあまり長くも短くもない合理的な時間に設定することができるが、ここでは限定されない。
S306では、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を、第1の待機時間より大きい第2の待機時間に設定し、ステップS315を実行する。
同様に、本実施例の第2の待機時間も実際の経験に基づいて、例えば、800ms、7800msでは、又はその他の時間などに設定することができ、第1の待機時間より長ければよく、具体的な時間はここでは限定されない。
本実施例では、第1の完全度と予め設定された完全度閾値との異なる大小関係に基づいて、異なる待機時間を合理的に設定し、音声インタラクティブの知能性を効果的に高める。
S307では、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を、第1の待機時間より小さい第3の待機時間に設定し、ステップS322を実行する。
同様に、本実施例の第3の待機時間も実際の経験に基づいて、例えば、160ms、180ms又はその他の時間に設定されてもよく、第1の待機時間より小さければよく、具体的な時間はここでは限定されない。
S308では、ユーザの音声命令を受信した後の待機時間が第1の待機時間に達したか否かを検出し、達すれば、第1の待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップS309を実行する。
S309では、ユーザの補充音声命令を受信したか否かを検出し、受信していなければ、ステップS308に戻って引き続き検出し、受信すれば、ステップS310を実行する。
なお、受信した当該ユーザの補充音声命令も、音声インタラクティブ機器に視聴されてクラウドサーバにアップロードされるものである。
S310では、予め設定された高頻度命令ライブラリに基づいて、ユーザの補充音声命令が高頻度命令であるか否かを検出し、そうでなければ、ステップS311を実行し、そうであれば、ステップS323を実行する。
S311では、完全性検出モデルを用いて、ユーザの音声命令とユーザの補充音声命令とからなる結合命令の第2の完全度を予測し、ステップS312を実行する。
このプロセスは、上述の実施例における完全性検出モデルを用いてユーザの音声命令の第1の完全度を予測するという実現プロセスと同じであり、ここでは贅言しない。
S312では、第2の完全度が第1の完全度よりも大きいか否かを判断し、そうであれば、ステップS313を実行し、そうでなければ、いかなる操作も行わずに、ステップS305で設定された第1の待機時間を保持し、ステップS308に戻って引き続き検出する。
S313では、第2の完全度及び予め設定された完全度閾値に基づいて、ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定し、ステップS314を実行する。
具体的には、この分岐において、上記ステップS304〜S305で、第1の完全度が既に予め設定された完全度閾値より大きく、第2の完全度が再び第1の完全度より大きいため、この分岐における第2の完全度は、必ず予め設定された完全度閾値より大きく、そのため、当該の更新設定は、具体的には、以下の(a1),(b1)のステップを含むことができる。
(a1)ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間の設定、即ち、上記第1の待機時間の設定を削除する。
(b1)第2の完全度が予め設定された完全度閾値よりも大きいことに基づいて、ユーザの補充音声命令が終了した後に結合命令に応答する操作の待機時間を、第1の待機時間に設定する。
すなわち、待機時間も第1の待機時間であり、以前、ユーザの音声命令の後に計時し、更新後、ユーザの補充音声命令の終了後に計時する。
実際の応用におけるユーザの「快速」質問とは、音声インタラクティブにおいて、ユーザが正確かつ快速に質問を説明し、応答を快速に取得することを望むことを意味する。「躊躇」質問とは、音声インタラクティブにおいて、ユーザが質問を躊躇にセグメントごとに説明し、質問を完全に説明し、応答をより正確に取得することを望むことを意味する。本実施例の当該技術方案は、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定することで、ユーザによる「快速」質問に基づく応答を実現することができ、設定情報を更新することで、ユーザの「躊躇」質問の少なくとも2つのセグメントの質問を完全な質問として応答させ、「快速」質問と「躊躇」質問とのバランスをとり、音声インタラクティブの知能性を効果的に高めることができる。
S314では、ユーザの補充音声命令を受信した後の待機時間が第1の待機時間に達したか否かを検出し、達すれば、第1の待機時間に基づいて結合命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップS314に戻って引き続き検出する。
なお、ステップS314では、ユーザが補充音声命令を1回だけ補充することを例とする。実際の応用では、ユーザの補充音声命令後の待機時間が第1の待機時間に達しない過程で、ユーザの次の補充音声命令を受けることがあり、このように順次に類推し、このロジックに従って音声命令を複数回補充し、即ち、一回のウェイクアップ後の複数回のインタラクティブ操作を実現することができる。詳細には、上記ステップS308〜S313に関連する操作を追加すればよく、ここでは贅言しない。
S315では、ユーザの音声命令を受信した後の待機時間が第2の待機時間に達したか否かを検出し、達すれば、第2の待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップS316を実行する。
S316では、ユーザの補充音声命令を受信したか否かを検出し、受信していなければ、ステップS315に戻って引き続き検出し、受信すれば、ステップS317を実行する。
S317では、予め設定された高頻度命令ライブラリに基づいて、ユーザの補充音声命令が高頻度命令であるか否かを検出し、そうでなければ、ステップS318を実行し、そうであれば、ステップS323を実行する。
S318では、完全性検出モデルを用いて、ユーザの音声命令とユーザの補充音声命令とからなる結合命令の第2の完全度を予測し、ステップS319を実行する。
S319では、第2の完全度が第1の完全度より大きいか否かを判断し、そうであれば、ステップS320を実行し、そうでなければ、いかなる操作も行わずに、ステップS306で設定された第2の待機時間を保持し、ステップS315に戻って引き続き検出する。
S320では、第2の完全度及び予め設定された完全度閾値に基づいて、ユーザの補充音声命令の終了後に応答する操作の待機時間を更新して設定し、ステップS321を実行する。
具体的には、この分岐において、上記ステップS304及びS306で第1の完全度が予め設定された完全度閾値より小さく、第2の完全度が第1の完全度より大きいため、第2の完全度が第1の完全度閾値より大きいか否かは不明である。したがって、この分岐では、第2の完全度が予め設定された完全度閾値よりも大きいか否かを判定して設定を更新する必要があり、具体的には、以下の(a2),(b2)のステップを含むことができる。
(a2)ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間の設定、すなわち、上記第2の待機時間の設定を削除する。
(b2)第2の完全度が予め設定された完全度閾値よりも大きいか否かを判定し、そうであれば、ユーザの補充音声命令が終了した後に結合命令に応答する操作の待機時間を第1の待機時間に設定し、そうではなければ、ユーザの補充音声命令が終了した後に結合命令に応答する操作の待機時間を第2の待機時間に設定する。
S321では、ユーザの補充音声命令を受信した後の待機時間が、設定された待機時間に達したか否かを検出し、達すれば、設定された待機時間に基づいて結合命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップS321に戻って引き続き検出する。
S322では、ユーザの音声命令を受信した後の待機時間が第3の待機時間に達したか否かを検出し、達すれば、第3の待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップS322に戻って引き続き検出する。
このときのユーザの音声命令が高頻度命令であり、第3の待機時間が短いため、この過程ではユーザの補充音声命令を検出しない。
あるいは、このステップS322の後、ユーザの音声命令後の待機時間が第3の待機時間に達しない場合に、次の高頻度命令を受信したか否かを検出し、受信した場合に、同じ方式に従って次の高頻度命令の応答の待機時間を第3の待機時間に設定し、実現原理が上記のようなものであり、この場合、前の高頻度命令に対応する応答操作がまだ実行されていない場合に、新たな高頻度命令を受信した場合に、前の高頻度命令の応答操作を実行せず、新たな高頻度命令の応答操作を実行することに相当する。
S323では、ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定し、ステップS324を実行する。
この時点で受信したユーザの補充音声命令が高頻度命令であるので、対応する更新設定は、具体的に以下の(a3),(b3)のステップを含むことができる。
(a3)ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間の設定、即ち、上記第1待機時間の設定を削除する。
(b3)ユーザの補充音声命令が終了した後にユーザの補充音声命令に応答する操作の待機時間を第3の待機時間に設定する。
すなわち、この時点ではユーザの音声命令の操作に応答しなく、ユーザの補充音声命令に応答する操作の待機時間を直接に設定して、ユーザの補充音声命令に正確に応答する。同様に、この技術案は、「快速」質問と「躊躇」質問の応答をバランスし、音声インタラクティブの知能性を効果的に高めることができる。
S324では、ユーザの補充音声命令を受信した後の待機時間が第3の待機時間に達したか否かを検出し、達すれば、第3の待機時間に基づいてユーザの補充音声命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップS324に戻って引き続き検出する。
上記ステップS305では、ステップS306、及びステップS307を比較して分かるように、ユーザの音声命令が高頻度命令である場合、高頻度命令が非常に明確な命令であり、完全性が非常に高いため、例えば第3の待機時間のような最も短い待機時間を設定することができ、最も短い待機時間を設定して、最も速い応答を行うことができる。ユーザの音声命令の第1の完全度がよく、即ち、予め設定された完全度閾値より大きい場合、当該ユーザの音声命令の完全性がよく、完全であると考えられ、ユーザの音声命令に応答するように、例えば第1の待機時間という少し短い待機時間を設定することができる。ユーザの音声命令の第1の完全度が悪く、即ち、予め設定された完全度閾値より小さい場合、当該ユーザの音声命令の完全性は悪く、あまり完全ではないと考えられ、ユーザが音声命令を更に補充するか否かを検出し、音声命令の完全性を補充し、ユーザの音声命令にさらに効果的に応答するように、例えば第2の待機時間のようなわずかに長い待機時間を設定し、ユーザの音声命令に応答することができる。例えば、ユーザの質問説明過程において躊躇する場合があり、躊躇過程にユーザの音声命令の一時停止があるため、音声インタラクティブ機器がユーザの音声命令と補充音声命令をセグメントに収集することができ、かつ本実施例の技術案を採用することによって、一回のウェイクアップで複数回のインタラクティブを実現して、ユーザの音声命令に正確に応答し、ユーザの「快速」質問と「躊躇」質問を効果的にバランスし、場合によって、異なる待機時間を設定し、適切に応答し、音声インタラクティブ機器の知能性を高めることができる。
本実施例の処理過程において、高頻度命令の検出と完全度予測には一定の優先順位があり、いずれのユーザの音声命令に対しても、まず、当該ユーザの音声命令が高頻度命令であるか否かを検出し、そうでなければ、さらに、当該ユーザの音声命令の完全度を予測する。
本実施例では、完全度を2つのセグメントに分けて処理し、例えば、第1の完全度が完全度閾値に基づいてセグメント化される。実際の応用では、実際な需要に応じて、完成度をより細かく分類処理し、例えば、第1の完全度閾値と第2の完全度閾値のような2つの異なる完全度閾値を設定し、第1の完全度閾値が第2の完全度閾値よりも大きい。第1の完全度が第1の完全度閾値以上である場合、ユーザの音声命令に応答する操作の待機時間を第4の待機時間に設定し、第1の完全度が第1の完全度閾値未満であり、かつ、第2の完全度閾値以上である場合、ユーザの音声命令に応答する操作の待機時間を第5の待機時間に設定し、第1の完全度が第2の完全度閾値未満である場合、ユーザの音声命令に応答する操作の待機時間を第5の待機時間に設定する。このように順次に類推し、さらに細かい分類を行い、異なる分類でのより多い待機時間を設定することができ、ここでは贅言しない。
本実施例の音声インタラクティブの処理方法は、上記技術案を採用することにより、ユーザの「快速」質問と「躊躇」質問を効果的にバランスし、ユーザと音声インタラクティブ機器との間の一回のウェイクアップで複数回のインタラクティブというインタラクティブ方式を実現し、音声インタラクティブの知能性を効果的に向上させ、ユーザの使用体験を向上させることができる。
図4は、本願の第3の実施例に係る概略図であり、図4に示すように、本実施例は、音声インタラクティブの処理方法を提供し、具体的には、以下のステップを含むことができる。
S401では、ユーザの音声命令を受信する。
S402では、クラウドサーバにユーザの音声命令をアップロードする。
S403では、クラウドサーバがユーザの音声命令に基づいて生成した制御命令を受信し、前記制御命令は、クラウドに設定された、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を持つ。
S404では、制御命令における待機時間に応じて、ユーザの音声命令に応答する。
本実施例の語意インタラクティブの処理方法の実行主体は、音声インタラクティブ機器であり、当該音声インタラクティブ機器は、端末側に位置する機器である。例えば、当該音声インタラクティブ機器は、スマートキャビネット、スマート家庭用機器、スマート車載装置などであってもよい。
音声インタラクティブの場面では、ユーザが音声命令を発した後、まず、音声インタラクティブ機器によってユーザの音声命令を収集して受信した。しかし、本実施例の場面では、音声インタラクティブ機器は、当該ユーザの音声命令を直接処理せず、ユーザの音声命令をクラウドサーバに直接にアップロードすることができる。対応的には、クラウドサーバがユーザの音声命令を受信した後、上記図1に示す実施例の方式を採用して、ユーザの音声命令に基づいて処理し、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第1の完全度を予測し、第1の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定し、あるいは、図3に示す実施例に従って、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定し、音声インタラクティブ機器に発行される制御命令中に、クラウドに設定された、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を持ちでもよい。待機時間の設定の具体的な過程について、詳細に、上記図1又は図3に示す実施例の記載を参照してもよく、ここでは贅言しない。
本実施例の音声インタラクティブの処理方法は、ユーザの音声命令を受信し、ユーザの音声命令をクラウドサーバにアップロードし、クラウドサーバがユーザの音声命令に基づいて生成した制御命令を受信し、当該制御命令には、クラウドに設定された、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を持ち、制御命令における待機時間に基づいて、ユーザの音声命令に応答する。本実施例の技術案は、ユーザの音声命令が終了してすぐに応答する必要がなく、音声インタラクティブ機器の「プリエンプション」現象を回避することができ、クラウドサーバに設定されたユーザの音声命令に応答する操作の待機時間に基づいて、ユーザの音声命令に応答することができ、音声インタラクティブ機器の知能性を効果的に高めることができる。
図5は、本願の第4の実施例に係る概略図であり、図5に示すように、本実施例では、音声インタラクティブの処理方法の一例を具体的に説明し、ユーザの音声入力が順に、聞きたい/A歌手/X曲/次の曲ということである。
以下、本願の実施例の技術案を用いて、当該例示の音声インタラクティブ過程を説明する。
図5に示すように、まず、クラウドサーバは、音声インタラクティブ機器によってアップロードされたユーザの「聞きたい」という第1の音声命令を受信する。クラウドサーバは、まず、当該第1のセグメントの音声命令が高頻度命令であるか否かを検出し、そうでなければ、完全性検出モデルを用いて当該第1のセグメントの音声命令の完全度を予測し、例えば第1の完全度と記載する。次に、第1の完全度が予め設定された完全度閾値以上であるか否かを判断し、例えば、本実施例では、該第1の完全度が予め設定された完全度閾値未満であることを検出し、この場合、対応的には、ユーザの第1のセグメントの音声命令が終了した後にユーザの第1のセグメントの音声命令に応答する操作の待機時間を第2の待機時間に設定することができる。
さらに、図5に示すように、第1の音声命令の終了後、待機時間が第2の待機時間に達していない過程に、クラウドサーバは、音声インタラクティブ機器によってアップロードされたユーザの第2のセグメントの音声命令である「A歌手」を再び受信する。この場合、クラウドサーバは、まず、当該「A歌手」が高頻度命令であるか否かを検出し、検出の結果、それが高頻度命令ではない。そして、当該第2のセグメントの音声命令が第1のセグメントの音声命令の補充命令であると考えることができ、この場合、第1のセグメントの音声命令と第2のセグメントの音声命令とを合わせて「A歌手を聞きたい」という結合命令を構成することができる。かつ、完全性検出モデルを用いて、当該結合命令の完全度を予測し、例えば、第2の完全度と記載する。次に、第2の完全度が第1の完全度よりも大きいか否かを判断し、検出の結果、第2の完全度が第1の完全度よりも大きい。さらに、当該第2の完全度が予め設定された完全度閾値以上であるか否かを判断し、例えば、本実施例では、判断の結果、当該第2の完全度が予め設定された完全度閾値以上であると確定する。このとき、元の設定、すなわち、ユーザの第1のセグメントの音声命令が終了した後にユーザの第1のセグメントの音声命令に応答する操作の待機時間を第2の待機時間に設定するということを削除し、ユーザの第2のセグメントの音声命令が終了した後に第1のセグメントの音声命令と第2のセグメントの音声命令との結合指令に応答する操作の待機時間を第1の待機時間に設定するように更新する。
また、図5に示すように、第2のセグメントの音声命令が終了した後、待機時間が第1の待機時間に達していない過程に、クラウドサーバは、音声インタラクティブ機器によってアップロードされたユーザの第3のセグメントの音声命令である「曲X」を再び受信する。この場合、クラウドサーバは、まず、当該「X曲」が高頻度命令であるか否かを検出し、検出の結果、それが高頻度命令ではない。そして、当該第3のセグメントの音声命令が第1のセグメントの音声命令および第2のセグメントの音声命令の後の補充命令であると考えることができ、この場合、第1のセグメントの音声命令、第2のセグメントの音声命令および第3のセグメントの音声命令を合わせて「A歌手X曲を聞きたい」という結合命令を構成することができ、すなわち、X曲がA歌手の曲であることを示す。かつ、完全性検出モデルを用いて、当該結合命令の完全度を予測し、例えば、第3の完全度と記載する。次に、第3の完全度が第2の完全度よりも大きいか否かを判断し、検出の結果、第3の完全度が第2の完全度よりも大きい。第2の完全度が予め設定された完全度閾値より大きく、当該第3の完全度が第2の完全度より大きいため、当該第3の完全度が必ず予め設定された完全度閾値より大きい。このとき、元の設定、すなわち、ユーザの第2のセグメントの音声命令が終了した後にユーザの第1のセグメントの音声命令と第2のセグメントの音声命令との結合命令に応答する操作の待機時間を第1の待機時間に設定するということを削除し、ユーザの第3のセグメントの音声命令が終了した後に第1のセグメントの音声命令、第2のセグメントの音声命令および第3のセグメントの音声命令の結合指令に応答する操作の待機時間を第1の待機時間に設定するように更新する。
さらに、図5に示すように、第3のセグメントの音声命令が終了した後、待機時間が第1の待機時間に達していない過程に、クラウドサーバは、音声インタラクティブ機器によってアップロードされたユーザの第4のセグメントの音声命令である「次の曲」を再び受信する。この場合、クラウドサーバは、まず、当該「次の曲」が高頻度命令であるか否かを検出し、検出の結果、それが高頻度命令である。すなわち、当該高頻度命令が独立な命令であり、その前の音声命令と結合して結合命令を構成しない。この場合、完全度予測を行う必要がない。このとき、元の設定、すなわち、ユーザの第3のセグメントの音声命令が終了した後に第1のセグメントの音声命令、第2のセグメントの音声命令および第3のセグメントの音声命令の結合指令に応答する操作の待機時間を第1の待機時間に設定するということを削除し、ユーザの第4のセグメントの音声命令が終了した後に第4のセグメントの音声命令に応答する操作の待機時間を第3の待機時間に設定するように更新する。
本実施例の音声インタラクティブの処理方法は、上記実現方式を採用することにより、ユーザの「快速」質問と「躊躇」質問を効果的にバランスし、ユーザと音声インタラクティブ機器との間の一回のウェイクアップで複数回のインタラクティブというインタラクティブ方式を実現し、音声インタラクティブの知能性を効果的に向上させ、ユーザの使用体験を向上させることができる。
図6は、本願の第5の実施例に係る概略図であり、図6に示すように、本実施例は、クラウドサーバ600を提供し、
クラウドサーバ600は、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第1の完全度を予測する予測モジュール601と、第1の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定する設定モジュール602と、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュール603とを含む。
本実施例のクラウドサーバ600は、上記モジュールを採用することにより音声インタラクティブの処理の実現原理及び技術効果を実現し、上記関連方法の実施例の実現と同様であり、詳細について上記関連方法の実施例の記載を参考することができ、ここでは贅言しない。
図7は、本願の第6の実施例に係る概略図であり、図7に示すように、本実施例のクラウドサーバ700は、上記図6に示す実施例の技術案に加えて、本願の技術案をさらに詳細に説明する。本実施のクラウドサーバ700における予測モジュール701、設定モジュール702及び制御モジュール703は、それぞれ、上記図6に示す実施例のクラウドサーバ600における予測モジュール601、設定モジュール602及び制御モジュール603と同様の機能を有する。
さらに、本実施例のクラウドサーバ700において、設定モジュール702は、具体的に、
第1の完全度が予め設定された完全度閾値以上である場合、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を第1の待機時間に設定する。
さらに選択的には、本実施例のクラウドサーバ700において、設定モジュール702は、さらに、第1の完全度が予め設定された完全度閾値より小さい場合、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を、第1の待機時間より大きい第2の待機時間に設定する。
さらに選択的には、図7に示すように、本実施例のクラウドサーバ700は、前記ユーザの音声命令が終了した後の待機時間内、ユーザの補充音声命令を受信する受信モジュール704をさらに含む。
予測モジュール701は、さらに、ユーザの補充音声命令が高頻度命令でない場合、完全性検出モデルを用いて、ユーザの音声命令とユーザの補充音声命令とからなる結合命令の第2の完全度を予測する。
設定モジュール702は、さらに、第2の完全度が第1の完全度よりも大きい場合、第2の完全度と予め設定された完全度閾値に基づいて、ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新する。
さらに選択的には、本実施例のクラウドサーバ700において、設定モジュール702は、ユーザの音声命令が終了した後、ユーザの音声命令に応答する操作の待機時間を設定することを削除し、第2の完全度及び予め設定された完全度閾値に基づいて、ユーザの補足音声命令が終了した後に結合命令に応答する操作の待機時間を設定する。
さらに選択的には、本実施例のクラウドサーバ700において、設定モジュール702は、第2の完全度が予め設定された完全度閾値以上である場合、ユーザの補充音声命令が終了した後に結合命令に応答する操作の待機時間を第1の待機時間に設定し、第2の完全度が予め設定された完全度閾値より小さい場合、ユーザの補充音声命令が終了した後、結合命令に応答する操作の待機時間を、第1の待機時間よりも長い第2の待機時間に設定する。
さらに選択的には、本実施例のクラウドサーバ700において、設定モジュール702は、さらに、ユーザの音声命令またはユーザの補充音声命令が高頻度命令であると検出された場合、ユーザの音声命令またはユーザの補充音声命令が終了した後にユーザの音声命令またはユーザの補充音声命令に応答する操作の待機時間を、第1の待機時間より短い第3の待機時間に設定する。
制御モジュール703は、第3の待機時間に基づいて、ユーザの音声命令またはユーザの補充音声命令に応答するように音声インタラクティブ機器を制御する。
本実施例のクラウドサーバ700は、上記モジュールを採用することにより音声インタラクティブ処理の実現原理及び技術効果を実現し、上記関連方法の実施例の実現と同様であり、詳細は上記関連方法の実施例の記載を参考することができ、ここでは贅言しない。
図8は、本願の第7の実施例による概略図であり、図8に示すように、本実施例は、音声インタラクティブ機器800を提供する。
音声インタラクティブ機器800は、ユーザの音声命令を受信する受信モジュール801と、クラウドサーバにユーザの音声命令をアップロードするアップロードモジュール802と、を含む。
受信モジュール801は、さらに、前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信する。
受信モジュール801は、さらに、制御命令における待機時間に基づいて、ユーザの音声命令に応答する応答モジュール803をさらに含む。
本実施例の音声インタラクティブ機器800は、上記モジュールを用いて音声インタラクティブ処理の実現原理及び技術効果を実現し、上記関連方法の実施例の実現と同様であり、詳細は上記関連方法の実施例の記載を参考することができ、ここでは贅言しない。
図9は、本願の第8の実施例による概略図であり、図9に示すように、本実施例は、音声インタラクティブ機器901と、音声インタラクティブ機器901と通信可能に接続されるクラウドサーバ902とを含む音声インタラクティブシステム900を提供している。
クラウドサーバ902は、図6または図7に示されるクラウドサーバを採用し、音声インタラクティブ機器901は、上記図8に示す実施例の音声インタラクティブ機器を採用している。また、具体的には、上記図1〜図5に示す実施例の音声インタラクティブの処理方法を用いて音声インタラクティブ処理を実現することができ、詳細は、上記関連実施例の記載を参考することができ、ここでは贅言しない。
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供している。
図10に示すように、本願の実施例の音声インタラクティブ処理方法を実現する電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータである。電子機器は、例えば、パーソナルデジタルプロセッシング、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似なコンピューティングデバイス等、様々な形態のモバイルデバイスであってもよい。本明細書に示される部品、それらの接続及び関係、並びにそれらの機能は、単なる例示であり、本明細書に記載及び/又は請求される本願の実施を限定しない。
図10に示すように、当該電子機器は、1つまたは複数のプロセッサ1001と、メモリ1002と、高速インターフェースと低速インターフェースとを含む、各部品を接続するためのインターフェースとを備える。各部品は、異なるバスで互いに接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器で実行される命令を処理してもよく、外部入出力装置(例えば、インターフェースに結合された表示機器)にGUIのグラフィック情報を表示するようにメモリ中またはメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを、複数のメモリおよび複数のメモリと共に使用し得る。同様に、複数の電子機器を接続し、各機器が必要な操作の一部(例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど)を提供するようにしてもよい。図10では、1つのプロセッサ1001を例に挙げている。
メモリ1002は、本願に提供される非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも1つのプロセッサに、本願に提供される音声インタラクティブ処理方法を実行させるように、少なくとも1つのプロセッサによって実行可能な命令を記憶する。本願の非一時的コンピュータ読み取り可能な記憶媒体は、コンピュータに本願に提供される音声インタラクティブ処理方法を実行させるためのコンピュータ命令を記憶する。
メモリ1002は、非一時的コンピュータ読み取り可能な記憶媒体として、例えば、本願の実施例における音声インタラクティブ処理方法に対応するプログラム命令/モジュール(例えば、図8及び図9に示す関連モジュール)のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶する。
プロセッサ1001は、メモリ1002に記憶された非一時的ソフトウェアプログラム、命令およびモジュールを実行することによって、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上記方法の実施例における音声インタラクティブ処理方法を実現する。
メモリ1002は、記憶プログラム領域および記憶データ領域を含み、記憶プログラム領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶し、記憶データ領域は、音声インタラクティブ処理方法を実現する電子機器の使用により作成されたデータ等を記憶する。また、メモリ1002は、高速ランダムアクセスメモリを含んでもよく、例えば少なくとも1つのディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的固体記憶デバイスなどの非一時的メモリを含んでもよい。
いくつかの実施例では、メモリ1002は、プロセッサ1001から遠隔に配置されたメモリを選択することができ、それらの遠隔メモリは、ネットワークを介して、音声インタラクティブ処理方法を実現する電子機器に接続され得る。上記ネットワークの例示は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせが挙げられるが、これらに限定されない。
音声インタラクティブ処理方法を実現する電子機器は、入力装置1003と、出力装置1004とをさらに含んでもよい。プロセッサ1001、メモリ1002、入力装置1003、及び出力装置1004は、バス又は他の方式で接続されてもよく、図10では、バスで接続することを例に挙げている。
入力装置1003は、入力された数字または文字情報を受信し、音声インタラクティブ処理方法を実現する電子機器のユーザ設定および機能制御に関するキー信号入力を発生させることができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングバー、一つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1004は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むが、これらに限らない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現され得る。これらの様々な実施形態は、1つまたは複数のコンピュータプログラム内で実施されることを含み、当該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈され、当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであり、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置に送信する。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても言われる)は、プログラマブルプロセッサの機械命令を含み、高級プロセス、および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語でこれらの計算プログラムを実施することができる。本明細書で使用される場合、「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサのいずれかのコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))に提供することであり、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号である。
ユーザとのインタラクティブを提供するために、コンピュータで本明細書に記載されるシステムおよび技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供し得るキーボードおよびポインティングデバイス(たとえば、マウスまたはトラックボール)とを有する。他の種類の装置は、ユーザとのインタラクティブを提供するために使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(例えば、音声入力、発話入力または触覚入力)でユーザからの入力を受信することができる。
本明細書で説明されるシステムおよび技術を、バックエンド部品を含むコンピューティングシステム(例えば、データサーバとして)、またはミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンド部品を含むコンピューティングシステム(例えば、ユーザが本明細書で説明されるシステムおよび技術の実施形態とインタラクティブすることができるグラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)、またはそのようなバックエンド部品、ミドルウェア部品、もしくはフロントエンド部品の任意の組合せを含むコンピューティングシステムにおいて実施され得る。任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を互いに接続することができる。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットおよびブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般に、互いから離れており、通常、通信ネットワークを介してインタラクティブしている。相応的なコンピュータで運行し、互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバの関係を生成する。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも称され、クラウドコンピューティングサービス体系におけるホスト製品の1つであり、従来の物理ホストおよびVPSサービス(「Virtual Private Server」、または「VPS」と簡略する)に存在する管理が困難でありサービス拡張性が弱いという欠点を解決する。
本願の実施例の技術案によれば、ユーザの音声命令が終了してすぐに応答する必要がなく、音声インタラクティブ機器の「プリエンプション」現象を回避することができ、ユーザの音声命令に応答する操作の待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御し、音声インタラクティブ機器の知能性を効果的に高めることができる。
本願の実施例の技術案によれば、ユーザの「快速」質問と「躊躇」質問を効果的にバランスし、ユーザと音声インタラクティブ機器との間の一回のウェイクアップで複数回のインタラクティブというインタラクティブ方式を実現し、音声インタラクティブの知能性を効果的に向上させ、ユーザの使用体験を向上させることができる。
なお、上記に示された様々な形態のフローを用いて、ステップを並べ替え、追加、または削除することができることを理解されたい。例えば、本願に記載された各ステップは、並列的に実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよく、本願において開示された技術案の所望の結果を達成することができる限り、ここで制限されない。
上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計の要求及び他の要因に応じて、各種の補正、組合、サブ組合および切り替えを行うことができることは明らかであろう。本願の思想及び原則における任意の補正、均等物及び改善は、本願の保護範囲に含まれるべきである。
600,700 クラウドサーバ
601,701 予測モジュール
602,702 設定モジュール
603,703 制御モジュール
704,801 受信モジュール
800,901 音声インタラクティブ機器
802 アップロードモジュール
803 応答モジュール
900 音声インタラクティブシステム
902 クラウドサーバ
1001 プロセッサ
1002 メモリ
1003 入力装置
1004 出力装置

Claims (20)

  1. ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第1の完全度を予測することと、
    前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することと、
    前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御することと、を含む
    音声インタラクティブ処理方法。
  2. 前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することは、
    前記第1の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を第1の待機時間に設定することを含む
    請求項1に記載の方法。
  3. 前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することは、
    前記第1の完全度が予め設定された完全度閾値未満であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を、前記第1の待機時間よりも長い第2の待機時間に設定することを、さらに含む
    請求項2に記載の方法。
  4. 前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定した後、前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する前に、前記方法は、
    前記ユーザの音声命令が終了した後の前記待機時間内にユーザの補充音声命令を受信することと、
    前記ユーザの補充音声命令が高頻度命令でないと検出した場合、前記完全性検出モデルを用いて、前記ユーザの音声命令と前記ユーザの補充音声命令とからなる結合命令の第2の完全度を予測することと、
    前記第2の完全度が前記第1の完全度より大きい場合、第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定することと、をさらに含む
    請求項1〜3のいずれか一項に記載の方法。
  5. 前記第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定することは、
    前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間の設定を削除することと、
    前記第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定することと、を含む
    請求項4に記載の方法。
  6. 前記第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定することは、
    前記第2の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を第1の待機時間に設定すること、あるいは、
    前記第2の完全度が予め設定された完全度閾値未満であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を、前記第1の待機時間より長い第2の待機時間に設定すること、を含む
    請求項5に記載の方法。
  7. 前記ユーザの音声命令または前記ユーザの補充音声命令が高頻度命令であると検出した場合、前記ユーザの音声命令または前記ユーザの補充音声命令が終了した後に前記ユーザの音声命令または前記ユーザの補充音声命令に応答する操作の待機時間を、前記第1の待機時間より小さい第3の待機時間に設定することと、
    前記第3の待機時間に基づいて前記ユーザの音声命令または前記ユーザの補充音声命令に応答するように前記音声インタラクティブ機器を制御することと、をさらに含む
    請求項2または3に記載の方法。
  8. ユーザの音声命令を受信することと、
    クラウドサーバに前記ユーザの音声命令をアップロードすることと、
    前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信することと、
    前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答することと、を含む
    音声インタラクティブ処理方法。
  9. ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第1の完全度を予測する予測モジュールと、
    前記第1の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定する設定モジュールと、
    前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュールと、を含む
    クラウドサーバ。
  10. 前記設定モジュールは、
    前記第1の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を第1の待機時間に設定する
    請求項9に記載のクラウドサーバ。
  11. 前記設定モジュールは、
    前記第1の完全度が予め設定された完全度閾値未満であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を、前記第1の待機時間よりも長い第2の待機時間に設定する
    請求項10に記載のクラウドサーバ。
  12. 受信モジュールをさらに含み、
    前記受信モジュールは、前記ユーザの音声命令が終了した後の前記待機時間内に、ユーザの補充音声命令を受信し、
    前記予測モジュールは、前記ユーザの補充音声命令が高頻度命令でないと検出した場合、前記完全性検出モデルを用いて、前記ユーザの音声命令と前記ユーザの補充音声命令とからなる結合命令の第2の完全度を予測し、
    前記設定モジュールは、前記第2の完全度が前記第1の完全度より大きい場合、第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定する
    請求項9〜11のいずれか一項に記載のクラウドサーバ。
  13. 前記設定モジュールは、
    前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間の設定を削除し、
    前記第2の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定する
    請求項12に記載のクラウドサーバ。
  14. 前記設定モジュールは、
    前記第2の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を第1の待機時間に設定し、あるいは、
    前記第2の完全度が予め設定された完全度閾値未満であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を、前記第1の待機時間より長い第2の待機時間に設定する
    請求項13に記載のクラウドサーバ。
  15. 前記設定モジュールは、前記ユーザの音声命令または前記ユーザの補充音声命令が高頻度命令であると検出した場合、前記ユーザの音声命令または前記ユーザの補充音声命令が終了した後に前記ユーザの音声命令または前記ユーザの補充音声命令に応答する操作の待機時間を、前記第1の待機時間より小さい第3の待機時間に設定し、
    前記制御モジュールは、前記第3の待機時間に基づいて前記ユーザの音声命令または前記ユーザの補充音声命令に応答するように前記音声インタラクティブ機器を制御する
    請求項10または11に記載のクラウドサーバ。
  16. ユーザの音声命令を受信する受信モジュールと、
    クラウドサーバに前記ユーザの音声命令をアップロードするアップロードモジュールと、を含み、
    前記受信モジュールは、前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信し、
    前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答する応答モジュール、を含む
    音声インタラクティブ機器。
  17. 音声インタラクティブ機器と、クラウドサーバとを含み、
    前記クラウドサーバは、前記音声インタラクティブ機器と通信可能に接続され、
    前記クラウドサーバは、上記請求項9〜15のいずれか一項に記載のクラウドサーバを採用し、前記音声インタラクティブ機器は、上記請求項16に記載の音声インタラクティブ機器を採用している
    音声インタラクティブシステム。
  18. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが請求項1〜7のいずれか一項、または請求項8に記載の方法を実行するように、前記少なくとも1つのプロセッサによって実行される
    電子機器。
  19. コンピュータに請求項1〜7のいずれか一項、または請求項8に記載の方法を実行させる
    コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
  20. プロセッサによって実行される際に、請求項1〜7のいずれか一項、または請求項8に記載の方法を実現する
    コンピュータプログラム。
JP2021134212A 2020-11-10 2021-08-19 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム Active JP7262532B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011246776.3A CN112466296A (zh) 2020-11-10 2020-11-10 语音交互的处理方法、装置、电子设备及存储介质
CN202011246776.3 2020-11-10

Publications (2)

Publication Number Publication Date
JP2021179642A true JP2021179642A (ja) 2021-11-18
JP7262532B2 JP7262532B2 (ja) 2023-04-21

Family

ID=74825542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021134212A Active JP7262532B2 (ja) 2020-11-10 2021-08-19 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム

Country Status (4)

Country Link
US (1) US12112746B2 (ja)
JP (1) JP7262532B2 (ja)
KR (1) KR20210088464A (ja)
CN (1) CN112466296A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284496B (zh) * 2021-07-22 2021-10-12 广州小鹏汽车科技有限公司 语音控制方法、语音控制系统、车辆、服务器和存储介质
CN113903329B (zh) * 2021-09-08 2022-08-23 北京百度网讯科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114078478B (zh) * 2021-11-12 2022-09-23 北京百度网讯科技有限公司 语音交互的方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003255972A (ja) * 2002-03-04 2003-09-10 Mitsubishi Electric Corp 音声認識装置
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2018504623A (ja) * 2015-09-03 2018-02-15 グーグル エルエルシー 強化された発話エンドポイント指定

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置
KR20180084394A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 발화 완료 감지 방법 및 이를 구현한 전자 장치
JP6998517B2 (ja) * 2017-06-14 2022-01-18 パナソニックIpマネジメント株式会社 発話継続判定方法、発話継続判定装置およびプログラム
CN107195303B (zh) * 2017-06-16 2021-08-20 云知声智能科技股份有限公司 语音处理方法及装置
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
TW201937480A (zh) * 2018-03-01 2019-09-16 聯捷創新股份有限公司 適性調整語音輸入等待時間系統及其方法
CN109473104B (zh) * 2018-11-07 2021-11-30 思必驰科技股份有限公司 语音识别网络延时优化方法及装置
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN111627423B (zh) * 2019-02-27 2023-08-04 百度在线网络技术(北京)有限公司 Vad尾点检测方法、装置、服务器和计算机可读介质
CN111292729B (zh) * 2020-02-06 2021-01-15 北京声智科技有限公司 音频数据流的处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003255972A (ja) * 2002-03-04 2003-09-10 Mitsubishi Electric Corp 音声認識装置
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2018504623A (ja) * 2015-09-03 2018-02-15 グーグル エルエルシー 強化された発話エンドポイント指定

Also Published As

Publication number Publication date
JP7262532B2 (ja) 2023-04-21
KR20210088464A (ko) 2021-07-14
US12112746B2 (en) 2024-10-08
US20220005474A1 (en) 2022-01-06
CN112466296A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
JP7262532B2 (ja) 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム
JP6492069B2 (ja) 環境を認識した対話ポリシーおよび応答生成
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
JP7017598B2 (ja) スマートデバイスのデータ処理方法、装置、機器及び記憶媒体
CN112735418B (zh) 一种语音交互的处理方法、装置、终端及存储介质
JP7051799B2 (ja) 音声認識制御方法、装置、電子デバイス及び読み取り可能な記憶媒体
CN110473537B (zh) 语音技能的控制方法、装置、设备及存储介质
KR102358012B1 (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN112840313B (zh) 电子设备及其控制方法
JP2022037100A (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
US11393490B2 (en) Method, apparatus, device and computer-readable storage medium for voice interaction
JP7051798B2 (ja) 音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体
CN112133307A (zh) 人机交互方法、装置、电子设备及存储介质
JP7051800B2 (ja) 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
JP2022024110A (ja) 音声認識方法、装置、電子機器及び記憶媒体
CN111638787A (zh) 用于展示信息的方法和装置
US20220392436A1 (en) Method for voice recognition, electronic device and storage medium
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
CN112037786B (zh) 语音交互方法、装置、设备以及存储介质
CN117891517A (zh) 一种显示设备及语音唤醒方法
JP2021056485A (ja) 音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
CN111881348A (zh) 信息处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230411

R150 Certificate of patent or registration of utility model

Ref document number: 7262532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150