JP2022003415A - 音声制御方法及び音声制御装置、電子機器並びに記憶媒体 - Google Patents

音声制御方法及び音声制御装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2022003415A
JP2022003415A JP2021166825A JP2021166825A JP2022003415A JP 2022003415 A JP2022003415 A JP 2022003415A JP 2021166825 A JP2021166825 A JP 2021166825A JP 2021166825 A JP2021166825 A JP 2021166825A JP 2022003415 A JP2022003415 A JP 2022003415A
Authority
JP
Japan
Prior art keywords
audio
target
segment
audio segment
wakeup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021166825A
Other languages
English (en)
Other versions
JP7281521B2 (ja
Inventor
ヤン,ソン
Song Yang
ゾウ,サイサイ
Saisai Zou
カオ,ジエイ
Jieyi Cao
シャオ,ジュンヤオ
Junyao Shao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022003415A publication Critical patent/JP2022003415A/ja
Application granted granted Critical
Publication of JP7281521B2 publication Critical patent/JP7281521B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】命令認識の効率及び信頼性を向上させることができる、音声制御方法、音声制御装置、電子機器、プログラム及び記憶媒体を提供する。【解決手段】方法は、クライアントから送信された目標オーディオを取得し音声認識を行う。目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ及びウェイクアップ後にクライアントによって収集されたオーディオを含む。方法はさらに、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第2のオーディオセグメントから認識された命令に基づいてクライアントを制御する。第2のオーディオセグメントは、第1のオーディオセグメントより遅いか又は第1のオーディオセグメントと重なり合う部分を有する。【選択図】図1

Description

本出願はコンピュータ及び深層学習の技術分野に関し、具体的には、音声技術、クラウドコンピューティング及び自然言語処理NLPの技術分野に関し、特に、音声制御方法及び音声制御装置、電子機器並びに記憶媒体に関する。
インテリジェント音声インタラクションの普及に伴い、インテリジェント音声インタラクションのアプリケーション及び製品は絶えず登場してきており、音声認識率の向上への要求も徐々に高くなる。
スマート機器は、取得した音声に基づいて、ウェイクアップワードを検出し、ウェイクアップワードを検出した後に、取得したウェイクアップワードを含む音声を音声サーバにアップロードして認識させ、音声認識結果を得、音声認識結果に基づいて機器を制御する。したがって、音声の認識結果を正確に取得することは、機器の音声制御の精度を向上させるために非常に重要である。したがって、音声中の命令をどのように正確に認識するかは、解決すべき課題となっている。
本出願は、音声制御の精度を向上させるための音声制御方法及び音声制御装置、電子機器並びに記憶媒体を提供する。
本出願の第1の態様によれば、クライアントから送信された目標オーディオを取得するステップであって、前記目標オーディオは、ウェイクアップ前の目標時間長内に前記クライアントによって収集されたオーディオ、及びウェイクアップ後に前記クライアントによって収集されたオーディオを含むステップと、前記目標オーディオの音声認識を行うステップと、前記目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するステップであって、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有するステップと、を含む、音声制御方法が提供される。
本出願の第2の態様によれば、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するステップと、前記ウェイクアップワードが認識された場合にウェイクアップするステップと、ウェイクアップ前の目標時間長内に収集したオーディオ、及びウェイクアップ後に収集したオーディオを目標オーディオとしてサーバに送信するステップであって、前記目標オーディオは、音声認識に用いられ、前記目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて制御し、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有するステップと、を含む、音声制御方法が提供される。
本出願の第3の態様によれば、クライアントから送信された目標オーディオを取得するように構成される取得モジュールであって、前記目標オーディオは、ウェイクアップ前の目標時間長内に前記クライアントによって収集されたオーディオ、及びウェイクアップ後に前記クライアントによって収集されたオーディオを含む取得モジュールと、前記目標オーディオの音声認識を行うように構成される認識モジュールと、前記目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するように構成される制御モジュールであって、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有する制御モジュールと、を含む、音声制御装置が提供される。
本出願の第4の態様によれば、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するように構成される収集モジュールと、前記ウェイクアップワードが認識された場合にウェイクアップするように構成されるウェイクアップモジュールと、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを目標オーディオとしてサーバに送信するように構成される送信モジュールであって、前記目標オーディオは、音声認識に用いられ、前記目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて制御し、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有する送信モジュールと、を含む、音声制御装置が提供される。
本出願の第5の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリとを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行される場合、少なくとも1つのプロセッサが第1の態様に記載の音声制御方法を実行でき、又は第2の態様に記載の音声制御方法を実行できる、電子機器が提供される。
本出願の第6の態様によれば、コンピュータに第1の態様に記載の音声制御方法を実行させ、又は第2の態様に記載の音声制御方法を実行させるためのコンピュータ命令を記憶している、非一時的コンピュータ読み取り可能な記憶媒体が提供される。
本出願の第7の態様によれば、コンピュータに第1の態様に記載の音声制御方法を実行させ、又は第2の態様に記載の音声制御方法を実行させる、コンピュータプログラムが提供される。
この部分に記載されている内容は、本出願の実施例の肝心な、又は重要な特徴を特定することを意図しておらず、本出願の範囲を限定するものでもないことを理解すべきである。本出願の他の特徴は、以下の明細書により容易に理解される。
図面は、本技術案をよりよく理解するために用いられ、本出願を限定するものではない。
本出願の実施例に係る音声制御方法のフローチャートである。 本出願の実施例に係る別の音声制御方法のフローチャートである。 本出願の実施例に係る別の音声制御方法のフローチャートである。 本出願の実施例に係る別の音声制御方法のフローチャートである。 本出願の実施例に係るさらに別の音声制御方法のフローチャートである。 本出願の実施例に係る音声制御装置の概略構成図である。 本出願の実施例に係る別の音声制御装置の概略構成図である。 本出願の実施例に係る音声制御方法を実施するための電子機器のブロック図である。
以下、図面を参照しながら、本出願の例示的な実施例について説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
インテリジェント音声インタラクションの普及に伴い、インテリジェント音声インタラクションのアプリケーション及び製品は絶えず登場してきており、音声認識率の向上への要求も徐々に高くなる。
スマート機器は、取得した音声に基づいて、ウェイクアップワードを検出し、ウェイクアップワードを検出した後に、音声の開始点及び終了点の検出を開始し、開始点と終了点との間の音声を音声サーバにアップロードして認識し、音声認識結果を得る。しかしながら、音声の開始点及び終了点の検出アルゴリズムにより取得された音声に基づいて音声認識を行うことには、以下の問題が存在する。
(1)ウェイクアップの誤報告。ウェイクアップ検出アルゴリズムそのものが厳密且つ精確ではないため、ウェイクアップワードではない音声をウェイクアップワードとして検出することがあり、この場合、音声の開始点及び終了点の検出を開始する行動自体が間違っており、それにより、ユーザの本当の意図ではない音声を送信して認識してしまう。
(2)信頼性が低い。ウェイクアップアルゴリズムにより検出されたウェイクアップ時点が必ずしも正確ではないため、ウェイクアップ時点に基づいて音声の開始点の検出を開始する動作により得られた音声の開始点も必ずしも正確ではない。それにより、クラウドが取得した音声データに基づいて、認識したデータは正確ではないため、認識エンジンが、受信したデータを認識する時に、完全に一致する認識結果を得ることができず、認識性能が影響される。
したがって、本出願の実施例は、音声制御の精度を向上させ、命令認識の効率及び信頼性を向上させるための音声制御方法を提供する。
以下、図面を参照しながら、本出願の実施例に係る音声制御方法、音声制御装置、電子機器並びに記憶媒体を説明する。
図1は、本出願の実施例に係る音声制御方法のフローチャートである。
図1に示すように、この方法は、以下のステップ101〜ステップ103を含む。
ステップ101において、クライアントから送信された目標オーディオを取得し、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含む。
本実施例の実行主体はサーバであり、このサーバはローカルサーバであってもよく、クラウドサーバであってもよく、サーバは単一のサーバであってもよく、サーバクラスターであってもよい。
ここで、クライアントとは、サーバがサービスを提供するアプリケーション、ウェブページ、又は端末機器であり、例えば、ロボットなどが挙げられる。例えば、本出願のサーバが音声制御アプリケーションのサーバである場合、クライアントは、ユーザの端末機器にインストールされた全ての音声制御アプリケーションであり、本出願の実施例ではこれについて限定しない。
ここで、目標オーディオは、オーディオストリームフォーマットであり、このオーディオストリームフォーマットにより、音声の連続的な収集が実現される。
本出願の一実施例では、サーバがクライアントから取得した目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含む。つまり、サーバがクライアントから目標オーディオを取得する前に、クライアントは、音声検出を行い、ウェイクアップワードを検出した後に、ウェイクアップワードを検出した時点よりも前の目標時間長のオーディオを取得し、ウェイクアップ後の設定時間長のオーディオを収集する。本実施例における目標オーディオは、ウェイクアップワードが検出された後に、ウェイクアップワードが検出された時点から目標時間長だけ遡り、例えば、ウェイクアップワードが検出された時点をtとすると、t−5秒の時点を音声の開始点として、時間長がTの目標オーディオを取得する。本出願における目標オーディオがウェイクアップ前の目標時間長内のオーディオ、及びウェイクアップ後に収集されたオーディオを含むことにより、取得された目標オーディオは、ウェイクアップワードの音声部分をカバーして、目標オーディオからウェイクアップワードを認識して取得する信頼性を向上させることができる。
ステップ102において、目標オーディオの音声認識を行う。
具体的には、サーバは、取得した目標オーディオに基づいて、ウェイクアップワードの認識及びスクリーニングを行い、音声命令の認識を行い、認識した音声命令に基づいてクライアントの制御を行う。
ステップ103において、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第2のオーディオセグメントから認識された命令に基づいて、クライアントを制御し、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有する。
本実施例の一例では、目標オーディオを第1のオーディオセグメントと第2のオーディオセグメントに分割し、そのうち、第1のオーディオセグメントは、目標オーディオの最初の所定時間長のオーディオセグメントであり、第1のオーディオセグメントにはウェイクアップワードが含まれる可能性があり、すなわち、まず第1のオーディオセグメントにおいてウェイクアップワードの認識を行うことで、認識の信頼性を向上させる。第2のオーディオセグメントは、音声命令が含まれる可能性があることを示し、すなわち、第2のオーディオセグメントにおいて音声命令の認識を行う。サーバは、目標オーディオを取得した後に、第1のオーディオセグメントにおいてウェイクアップワードの認識及びスクリーニングを行い、第1のオーディオセグメントからウェイクアップワードが認識されると、引き続き、第2のオーディオセグメントに対して認識を行い、第2のオーディオセグメントから命令を認識した後に、認識した当該命令に基づいて、クライアントを制御する。例えば、サーバが取得した目標オーディオが、「小A(ショウA)、小A(ショウA)、音楽を再生して」というものである場合、認識した命令は、ステレオをオンにするというものであり、サーバは「音楽を再生して」という命令をクライアントに送信することで、クライアントは音楽を再生する。
本実施例では、サーバはまず第1のオーディオセグメントからウェイクアップワードが認識されたと決定することにより、クライアントがウェイクアップワード検出の誤報告で無効な目標オーディオを送信する可能性を低減し、この後の認識の信頼性を向上させることができる。
本実施例では、第2のオーディオセグメントは第1のオーディオセグメントより遅く、又は第1のオーディオセグメントと重なり合う部分を有する。具体的には、本実施例の1つのシーンでは、第1のオーディオセグメントから認識されたウェイクアップワードの音声が第1のオーディオセグメントの終了フレームに位置し、命令がウェイクアップワードより遅いため、第2のオーディオセグメントは第1のオーディオセグメントより遅い。本実施例の別のシーンでは、第1のオーディオセグメントから認識されたウェイクアップワードの音声が第1のオーディオセグメントの終了フレームに位置せず、この場合、命令は第1のオーディオに存在する可能性があるため、第2のオーディオセグメントは第1のオーディオセグメントと重なり合う部分を有してもよく、これにより、命令認識の精度を向上させることができる。
なお、終了フレームは、第1のオーディオセグメントの最後の所定フレームであってもよく、例えば最後の所定の3つのフレーム、又は2つのフレームであってもよく、本実施例では限定されない。
本実施例の音声制御方法では、クライアントから送信された目標オーディオを取得し、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含むため、目標オーディオにはウェイクアップワードが含まれる可能性を高めるとともに、取得した目標オーディオの信頼性及び精度を向上させ、さらに、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第2のオーディオセグメントから認識された命令に基づいてクライアントを制御し、第2のオーディオセグメントは第1のオーディオセグメントより遅く、又は第1のオーディオセグメントと重なり合う部分を有し、認識したウェイクアップワードのオーディオフレームを第1のオーディオセグメントと第2のオーディオセグメントに分割して、認識を連続して行うことにより、命令認識の効率及び信頼性を向上させることができる。
上記実施例に基づいて、本実施例は、別の音声制御方法の可能な実現形態を提供し、具体的には、ウェイクアップワードのスクリーニングにより、第1のオーディオセグメント内のウェイクアップワードに対応するオーディオフレームを決定し、ウェイクアップワードに対応する目標オーディオフレームに対応する時刻に基づいて、ウェイクアップワードが第1のオーディオセグメントにあるか否かを判定することで、ウェイクアップワード認識の信頼性を向上させることを示す。図2は本出願の実施例に係る別の音声制御方法のフローチャートであり、図2に示すように、ステップ102の後に、以下のステップ201〜203をさらに含む。
ステップ201において、音声認識により得られたテキストからウェイクアップワードをスクリーニングする。
本出願の実施例の可能な一実現形態では、トレーニングにより得られたテキスト認識ネットワークに基づいて、目標オーディオの音声をテキスト認識ネットワークに入力し、音声に対応するテキストを出力し、テキストには、異なるテキストコンテンツと音声における各オーディオフレームとの対応関係が示され、クライアントの所定のウェイクアップワードに基づいて、音声に対応するテキストにおいてウェイクアップワードのマッチングを行う。可能な一実現形態として、ユークリッド距離又はコサイン距離に基づいて、テキストからウェイクアップワードがマッチングしたか否かを判定することができ、例えば、所定のウェイクアップワードが小A(ショウA)、又はディンデォン(dingdong)などであると、マッチングにより得られたウェイクアップワードは「小A(ショウA)、小A(ショウA)」である。
ステップ202において、ウェイクアップワードがスクリーニングされた場合、目標オーディオにおける、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定する。
本実施例では、音声に対応する認識テキストからウェイクアップワードがスクリーニングされた場合、目標オーディオにおける、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定するとともに、目標オーディオフレームに対応する出現時刻を決定する。
1つのシーンでは、取得した音声中のウェイクアップワードに一定の終了音が存在し、音声認識により得られたテキストに終了音の長引きが存在する。例えば、目標オーディオは「xiaodu…u(ショウドォウ…ウ)、ビデオを再生して」であり、ここで、ウェイクアップワードは「xiaodu…u(ショウドォウ…ウ)」であり、命令は「ビデオを再生して」であり、本実施例では、認識テキストからウェイクアップワード「xiaodu…u(ショウドォウ…ウ)」をスクリーニングし、このウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定した後、目標オーディオフレームに対応する出現時刻を決定する。
つまり、本実施例では、ウェイクアップワードをスクリーニングし、目標オーディオフレームが出現する時刻を決定すれば、音声の分割が実現され、その分割結果は「xiaodu・・・u(ショウドォウ…ウ)|ビデオを再生して」であり、ここで、「|」は分割の時刻を示し、つまり、「|」よりも前の時刻は目標オーディオフレームの時刻であり、「|」よりも後の時刻は目標オーディオフレームに続く時刻である。
ステップ203において、目標オーディオにおける目標オーディオフレームの出現時刻が第1のオーディオセグメントの終了時刻より早い場合、第1のオーディオセグメントからウェイクアップワードが認識されたと決定する。
本実施例では、目標オーディオにおける目標オーディオフレームの出現時刻が第1のオーディオセグメントの終了時刻より早いと決定される場合、第1のオーディオセグメントにウェイクアップワードが含まれていることが示され、第1のオーディオセグメントからウェイクアップワードを認識する信頼性が向上する。そうでない場合、第1のオーディオセグメントからウェイクアップワードが認識されないことが示される。通常、命令がウェイクアップワードの後に言うため、例えば、「ショウA、ショウA、ビデオを再生して」の場合、「ショウA、ショウA」はウェイクアップワードであり、「ビデオを再生して」は命令であり、したがって、第1のオーディオセグメントからウェイクアップワードが認識されると、第2のオーディオセグメントの認識を実行し続けて、命令を認識して取得することができ、これにより、命令認識の信頼性が向上し、ウェイクアップワードが認識されない場合そのまま認識をやめることによって命令を認識して取得できないことが回避される。
本実施例の音声制御方法では、音声認識により得られたテキストからウェイクアップワードをスクリーニングし、ウェイクアップワードにマッチングするテキストの目標オーディオにおける対応するフレームを決定することにより、ウェイクアップワードに対応する目標オーディオフレームの決定の精度を向上させることができる。目標オーディオフレームの出現時刻が第1のオーディオセグメントの終了時刻より早い場合、ウェイクアップワードが第1のオーディオセグメントにあると決定することにより、第1のオーディオセグメントからウェイクアップワードを認識する精度及び信頼性を向上させることができる。
上記実施例に基づいて、本実施例は音声制御方法の可能な実現形態を提供し、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームに基づいて、第2のオーディオセグメントを決定することで、第2のオーディオセグメントの開始時間の決定の精度を向上させ、それにより、命令認識の精度及び信頼性を向上させることができる。したがって、図3は本出願の実施例に係る別の音声制御方法のフローチャートであり、図3に示すように、ステップ203の後に、以下のステップ301〜302をさらに含む。
ステップ301において、目標オーディオにおける目標オーディオフレームに続くオーディオフレームの出現時刻を第2のオーディオセグメントの開始時刻とする。
ステップ302において、第2のオーディオセグメントの開始時刻、及び第2のオーディオセグメントの設定時間長に基づいて、第2のオーディオセグメントを決定する。
本実施例では、第1のオーディオセグメントからウェイクアップワードが認識されたと決定された場合、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームに基づいて、目標オーディオにおける、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームに続くオーディオフレームの出現時刻を、第2のオーディオセグメントの開始時刻とし、さらに、第2のオーディオセグメントの開始時刻、及び第2のオーディオセグメントの設定時間長に基づいて、第2のオーディオセグメントを決定することで、第2のオーディオセグメントの開始時間の決定の精度を向上させ、命令認識の精度を向上させることができる。
例えば、目標オーディオは「xiaodu…u(ショウドォウ…ウ)、ビデオを再生して」であり、ここで、ウェイクアップワードは「xiaodu…u(ショウドォウ…ウ)」であり、命令は「ビデオを再生して」である。本実施例では、ウェイクアップワードをスクリーニングし、目標オーディオフレームが出現した時刻を決定すれば、音声の分割が実現されることになり、その分割結果は「xiaodu・・・u|ビデオを再生して」であり、ここで、「|」は分割の時刻を示し、つまり、「|」よりも前の時刻は目標オーディオフレームの時刻であり、「|」よりも後の時刻は、目標オーディオフレームに続く時刻であり、すなわち、本出願における第2のオーディオセグメントは「ビデオを再生して」であり、認識した命令は「ビデオを再生して」である。それにより、本実施例では、決定された第2のオーディオセグメントの開始時刻は、第2のオーディオセグメントの決定の精度を向上させることができる。従来技術では、このオーディオを分割する時に、ウェイクアップワードを検出した時のウェイクアップ時刻に基づいて分割するものであり、ウェイクアップ時刻に基づいて分割する場合、分割した結果は「xiaodu(ショウドォウ)|u(ウ)(注釈:中国語では、uの発音はウであり、中国語の「勿」の発音と同じであり、中国語では「勿」は「しない」ことを意味する)〜ビデオを再生」である可能性があり、すなわち、第2のオーディオセグメントは「u〜ビデオを再生」になり、第2のオーディオセグメントに基づいて認識した命令は「ビデオを再生しないで」になり、命令認識が誤ることになる。
なお、このウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームの出現時刻は、第1のオーディオセグメントの終了時刻より早くてもよいし、第1のオーディオセグメントの終了時刻と同じであってもよい。つまり、ウェイクアップワードに対応する目標オーディオフレームは第1のオーディオセグメントの中間フレームであってもよいし、終了フレームであってもよい。1つのシーンでは、ウェイクアップワードに対応する目標オーディオフレームが第1のオーディオセグメントの中間フレームである場合、目標オーディオフレームに続くオーディオフレームの出現時刻を第2のオーディオセグメントの開始時刻として決定された第2のオーディオセグメントは、第1のオーディオセグメントと重なり合う部分を有する。別のシーンでは、ウェイクアップワードに対応する目標オーディオフレームが第1のオーディオセグメントの終了フレームである場合、目標オーディオフレームに続くオーディオフレームの出現時刻を第2のオーディオセグメントの開始時刻として決定された第2のオーディオセグメントは、第1のオーディオセグメントより遅い。ウェイクアップワードが目標オーディオからスクリーニングされた後、決定された第2のオーディオセグメントから命令を認識することにより、命令認識の信頼性を向上させることができる。
本実施例の音声制御方法では、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームに続くオーディオフレームの出現時刻を、第2のオーディオセグメントの開始時刻とし、第2のオーディオセグメントの開始時刻、及び第2のオーディオセグメントの設定時間長に基づいて、第2のオーディオセグメントを決定する。つまり、本出願において、認識したウェイクアップワードに対応する目標オーディオフレームを用いて、第2のオーディオセグメントを決定することで、第2のオーディオセグメントの開始時間決定の精度を向上させ、命令認識の精度を向上させることができる。
実際の応用では、サーバが目標オーディオの音声認識を行った後に、目標オーディオを分割して得た第1のオーディオセグメントからウェイクアップワードを認識して得ることができず、又は第2のオーディオセグメントから命令を認識して得ることができない可能性がある。ウェイクアップワードを認識できず、又は命令を認識できない原因としては、目標オーディオを分割して得た第1のオーディオセグメントと第2のオーディオセグメントの分割が正確ではないことによって、第1のオーディオセグメントからウェイクアップワードを認識できず、又は第2のオーディオセグメントから命令を認識できない可能性がある。したがって、認識の信頼性を向上させるために、本実施例の音声制御方法では、ウェイクアップワード又は命令を認識できない場合、目標オーディオの事前設定された時間長を目標オーディオから削除し、2回目の認識を行うことで、認識の信頼性を向上させることができる。上記実施例に基づいて、本実施例は、音声制御方法の可能な一実現形態を提供し、図4は本出願の実施例に係る別の音声制御方法のフローチャートであり、図4に示すように、この方法は、以下のステップ401〜403を含む。
ステップ401において、第1のオーディオセグメントからウェイクアップワードが認識されない場合、又は第2のオーディオセグメントから命令が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得する。
本実施例の1つのシーンでは、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含み、第1のオーディオセグメントからウェイクアップワードが認識されない場合、第1のオーディオセグメントが目標オーディオの開始時刻から所定時間長に基づいて決定されるものであり、ここで、第1のオーディオセグメントの時間長が目標時間長より大きく、目標時間長とは、ウェイクアップワードが検出された時のウェイクアップワードよりも前の所定時間長であり、例えば目標時間長が2秒であると、第1のオーディオセグメントは2.5秒であってもよい。つまり、第1のオーディオセグメントは目標時間長を含むことで、第1のオーディオセグメントにウェイクアップワードが含まれる可能性を向上させることができる。第1のオーディオセグメントからウェイクアップワードが認識されない場合、第1のオーディオセグメントの分割が正確ではないと考えられ、目標時間長内にウェイクアップワードが含まれないと理解されてもよい。したがって、目標オーディオの開始位置における目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得し、つまり、保持されたオーディオに基づいて、第1のオーディオセグメントと第2のオーディオセグメントの分割を再度行う必要がある。
本実施例の別のシーンでは、第2のオーディオセグメントから命令が認識されない場合、第1のオーディオセグメントと第2のオーディオセグメントの分割が合理的ではない可能性があり、つまり、第2のオーディオセグメントには、ウェイクアップワードの一部の音引きなどの干渉情報がさらに含まれ、例えば、「xiaodu(ショウドォウ)|u(ウ)〜ビデオを再生」(注釈:中国語では、uの発音はウであり、中国語の「勿」の発音と同じであり、中国語では「勿」は「しない」ことを意味するから、ビデオ再生しないでという意味になる)が挙げられ、この場合、目標オーディオの開始位置における目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得する必要があり、つまり、保持されたオーディオに基づいて、音声認識を再度行う必要がある。
ステップ402において、保持されたオーディオの音声認識を再度行う。
ステップ403において、音声認識を再度行うことにより得られた命令に基づいて、クライアントを制御する。
本実施例の一例では、保持されたオーディオの音声認識を再度行うには、保持されたオーディオにおいて、第1のオーディオセグメントと第2のオーディオセグメントを再度決定することで、保持されたオーディオに対して第2のオーディオセグメントの分割を再度行い、再度分割された第2のオーディオセグメントに基づいて命令の認識を行うことができ、ここで、第2のオーディオセグメントの時間長が第1のオーディオセグメントより大きく、比較的長い第2のオーディオセグメントを設定することにより命令認識の信頼性を向上させることができる。
本実施例の音声制御方法では、目標オーディオに対して認識を行い、第1のオーディオセグメント及び第2のオーディオセグメントに対して認識を連続して行い、第1のオーディオセグメントからウェイクアップワードが認識されない、又は第2のオーディオセグメントから命令語が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオを削除して、保持されたオーディオを取得し、次に、保持されたオーディオに対して復号認識を再度行い、これにより、従来技術において取得されたオーディオセグメントの音声認識の動作を1回のみ行うことに比べ、認識の信頼性を向上させることができる。
上記実施例を実現するために、本実施例は、別の音声制御方法を提供し、この制御方法の実行主体はクライアントであり、図5は本出願の実施例に係るさらに別の音声制御方法のフローチャートである。
図5に示すように、この方法は、以下のステップ501〜ステップ503を含む。
ステップ501において、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識する。
本実施例の実行主体はクライアントである。
本実施例では、クライアントは、待機状態では、クライアントに設置されたマイクによりオーディオを収集し、収集したオーディオのノイズ低減処理を行った後、ウェイクアップワードを認識することで、ウェイクアップワード認識の信頼性を向上させることができる。可能な一実現形態として、予めトレーニングして得られた自然言語処理(Natural Language Processing、NLP)技術に基づくウェイクアップワード認識モデルを用いて、収集したオーディオからウェイクアップワードを認識する。
ステップ502において、ウェイクアップワードが認識された場合にウェイクアップする。
具体的には、収集したオーディオにウェイクアップワードが含まれていることをクライアントが認識した場合、クライアントがウェイクアップされる。つまり、クライアントは、ローエンドのスリープ状態から、命令を受信可能なウェイクアップ状態に切り替えられる。
ステップ503において、ウェイクアップ前の目標時間長内に収集したオーディオ、及びウェイクアップ後に収集したオーディオを目標オーディオとしてサーバに送信し、目標オーディオは、音声認識に用いられ、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第2のオーディオセグメントから認識された命令に基づいて制御し、第2のオーディオセグメントは第1のオーディオセグメントより遅く、又は第1のオーディオセグメントと重なり合う部分を有する。
本出願の一実施例では、収集したオーディオにウェイクアップワードが含まれていることをクライアントが認識した場合、目標オーディオの収集を行い、目標オーディオの精度を向上させるために、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントが収集したオーディオ、及びウェイクアップ後にクライアントが収集したオーディオを含む。つまり、クライアントは、音声検出を行い、ウェイクアップワードを検出した後に、ウェイクアップワードを検出した時点よりも前の目標時間長のオーディオ、すなわちウェイクアップ前の目標時間長のオーディオ、及びウェイクアップ後の設定時間長のオーディオを取得する。例えば、ウェイクアップワードを検出した時点をtとすると、t−5秒の時点を音声の開始点として、時間長がTの目標オーディオを取得する。本出願における目標オーディオは、ウェイクアップ前の目標時間長のオーディオ、及びウェイクアップ後に収集されたオーディオを含むことにより、取得した目標オーディオはウェイクアップワードの音声部分をカバーすることができ、従来技術における、ウェイクアップ時点に基づいてオーディオ収集の開始点を決定することによって検出時点が不正確になって目標オーディオの精度が悪くなるという問題を回避し、目標オーディオ収集の信頼性を向上させることができる。
本実施例では、第2のオーディオセグメントは第1のオーディオセグメントより遅く、又は第1のオーディオセグメントと重なり合う部分を有する。1つのシーンでは、ウェイクアップワードに対応する目標オーディオフレームが第1のオーディオセグメントの中間フレームである場合、目標オーディオフレームに続くオーディオフレームの出現時刻を第2のオーディオセグメントの開始時刻として決定された第2のオーディオセグメントは、第1のオーディオセグメントとは重なり合う部分を有する。別のシーンでは、ウェイクアップワードに対応する目標オーディオフレームが第1のオーディオセグメントの終了フレームである場合、目標オーディオフレームに続くオーディオフレームの出現時刻を第2のオーディオセグメントの開始時刻として決定された第2のオーディオセグメントは、第1のオーディオセグメントより遅い。ウェイクアップワードが目標オーディオからスクリーニングされた後、決定された第2のオーディオセグメントから命令を認識するにより、命令認識の信頼性を向上させることができる。
さらに、クライアントは、目標オーディオを取得した後、目標オーディオをサーバに送信することで、サーバは、取得した目標オーディオに基づいて、目標オーディオに対して認識を行い、第1のオーディオセグメント及び第2のオーディオセグメントに対して認識を連続して行い、第1のオーディオセグメントからウェイクアップワードが認識されない、又は第2のオーディオセグメントから命令語が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオを削除して、保持されたオーディオを取得し、次に、保持されたオーディオに対して復号認識を再度行い、従来技術において取得したオーディオセグメントの音声認識の動作を1回のみ行うことに比べ、認識の信頼性を向上させることができる。
なお、前述したサーバ側に係る実施例における、サーバが取得した目標オーディオに対してどのように認識を行うかについての解釈及び説明は、本実施例にも適用され、ここでは重なり合う説明を省略する。
本実施例の音声制御方法では、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識することで、ウェイクアップワードが認識された場合、クライアントがウェイクアップされ、ウェイクアップ前の目標時間長内に収集したオーディオ、及びウェイクアップ後に収集したオーディオを目標オーディオとしてサーバに送信し、目標オーディオは、音声認識に用いられ、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第2のオーディオセグメントから認識された命令に基づいて制御し、第2のオーディオセグメントは前記第1のオーディオセグメントより遅く、又は第1のオーディオセグメントと重なり合う部分を有する。本実施例では、収集された目標オーディオは、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを含み、取得した音声の開始点を早めることを実現することで、取得した音声にウェイクアップワードが含まれるようになり、それにより、取得した音声がユーザの本当の意図を反映し、認識の信頼性が向上する。ウェイクアップ時刻を取得した音声の開始点とすることによって、音声取得の開始点が不正確になり、取得した目標オーディオがユーザの本当の意図のオーディオではなく、認識の精度が低くなるという問題が回避される。
上記実施例に基づいて、本実施例における目標オーディオは、オーディオストリームフォーマットであり、このオーディオストリームフォーマットにより、音声の連続的な収集が実現される。
上記実施例を実現するために、本出願は音声制御装置をさらに提供し、この装置はサーバ内に設置される。
図6は本出願の実施例に係る音声制御装置の概略構成図である。
図6に示すように、この音声制御装置は、取得モジュール61と、認識モジュール62と、制御モジュール63と、を含む。
取得モジュール61は、クライアントから送信された目標オーディオを取得するように構成され、目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後にクライアントによって収集されたオーディオを含む。
認識モジュール62は、目標オーディオの音声認識を行うように構成される。
制御モジュール63は、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第2のオーディオセグメントから認識された命令に基づいて、クライアントを制御するように構成され、第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有する。
さらに、本出願の実施例の可能な一実現形態では、この音声制御装置は、前記第1のオーディオセグメントから前記ウェイクアップワードが認識されない場合、又は前記第2のオーディオセグメントから前記命令が認識されない場合、前記目標オーディオの開始位置における前記目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得するように構成される削除モジュールをさらに含む。
上記認識モジュール62は、さらに、前記保持されたオーディオの音声認識を再度行うように構成される。
上記制御モジュール63は、さらに、音声認識を再度行うことにより得られた命令に基づいて、前記クライアントを制御するように構成される。
本出願の実施例の可能な一実現形態では、前記第1のオーディオセグメントの時間長は前記目標時間長より大きく、前記第2のオーディオセグメントの時間長は前記第1のオーディオセグメントの時間長より大きい。
本出願の実施例の可能な実現形態では、この音声制御装置は、音声認識により得られたテキストから前記ウェイクアップワードをスクリーニングするように構成されるスクリーニングモジュールと、前記ウェイクアップワードがスクリーニングされた場合、前記目標オーディオにおける、前記ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定し、前記目標オーディオにおける前記目標オーディオフレームの出現時刻が前記第1のオーディオセグメントの終了時刻より早い場合、前記第1のオーディオセグメントから前記ウェイクアップワードが認識されたと決定するように構成される決定モジュールと、をさらに含む。
本出願の実施例の可能な一実現形態では、上記制御モジュール63は、さらに、前記目標オーディオにおける、前記目標オーディオフレームに続くオーディオフレームの出現時刻を前記第2のオーディオセグメントの開始時刻とし、前記第2のオーディオセグメントの開始時刻、及び前記第2のオーディオセグメントの設定時間長に基づいて、前記第2のオーディオセグメントを決定するように構成される。
なお、前述したサーバ側で実現される音声制御方法の実施例についての解釈及び説明は、この実施例の音声制御装置にも適用され、その原理は類似するため、ここでは重複する説明を省略する。
本実施例の音声制御装置では、目標オーディオに対して認識を行い、第1のオーディオセグメント及び第2のオーディオセグメントに対して認識を連続して行い、第1のオーディオセグメントからウェイクアップワードが認識されない、又は第2のオーディオセグメントから命令語が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオを削除して、保持されたオーディオを取得し、次に、保持されたオーディオに対して復号認識を再度行い、従来技術において取得したオーディオセグメントの音声認識の動作を1回のみ行うことに比べ、認識の信頼性を向上させることができる。
上記実施例を実現するために、本出願は、音声制御装置をさらに提供し、この装置はクライアント内に設置される。
図7は本出願の実施例に係る別の音声制御装置の概略構成図である。
図7に示すように、この音声制御装置は、収集モジュール71と、ウェイクアップモジュール72と、送信モジュール73と、を含む。
収集モジュール71は、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するように構成される。
ウェイクアップモジュール72は、ウェイクアップワードが認識された場合にウェイクアップするように構成される。
送信モジュール73は、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを目標オーディオとしてサーバに送信するように構成され、目標オーディオは、音声認識に用いられ、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第2のオーディオセグメントから認識された命令に基づいて制御し、第2のオーディオセグメントは第1のオーディオセグメントより遅く、又は第1のオーディオセグメントと重なり合う部分を有する。
さらに、本出願の実施例の可能な一実現形態では、目標オーディオはオーディオストリームフォーマットである。
なお、前述したクライアントで実現される音声制御方法の実施例についての解釈及び説明は、この実施例の音声制御装置にも適用され、その原理は類似するため、ここでは重複する説明を省略する。
本実施例の音声制御装置では、待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識することで、ウェイクアップワードが認識された場合にクライアントをウェイクアップし、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを目標オーディオとしてサーバに送信し、目標オーディオは、音声認識に用いられ、目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、目標オーディオの第2のオーディオセグメントから認識された命令に基づいて制御し、第2のオーディオセグメントは前記第1のオーディオセグメントより遅く、又は第1のオーディオセグメントと重なり合う部分を有する。本実施例では、収集された目標オーディオは、ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを含み、取得した音声の開始点を早めることを実現することで、取得した音声にウェイクアップワードが含まれるようになり、それにより、取得した音声がユーザの本当の意図を反映でき、認識の信頼性を向上させることができる。ウェイクアップ時刻を取得した音声の開始点とすることによって音声取得の開始点が不正確になり、取得した目標オーディオがユーザの本当の意図のオーディオではなく、認識の精度が低くなるという問題が回避される。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図8は本出願の実施例に係る音声制御方法を実施するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態の移動体装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本出願の実施を限定することを意図しない。
図8に示すように、この電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、各コンポーネントを接続するためのインタフェースであって、高速インタフェースと低速インタフェースを含むものとを含む。各コンポーネントは異なるバスによって相互に接続され、共通のマザーボード上に実装されてもよく、又は必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器内で実行される、GUIのグラフィックス情報を外部入力/出力装置(例えば、インタフェースに結合された表示機器)上に表示させるようにメモリ内又はメモリ上に記憶された命令を含む命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。また、それぞれの機器が必要な動作の一部を提供する(例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする)複数の電子機器を接続することができる。図8において、1つのプロセッサ801を例とする。
メモリ802は、本出願に係る非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも1つのプロセッサに本出願に係る音声制御方法を実行させるように、前記少なくとも1つのプロセッサによって実行可能な命令を記憶している。本出願の非一時的コンピュータ読み取り可能な記憶媒体は、本出願に係る音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
非一時的コンピュータ読み取り可能な記憶媒体として、メモリ802は、例えば本出願の実施例における音声制御方法に対応するプログラム命令/モジュール(例えば、図6に示す取得モジュール61、認識モジュール62及び制御モジュール63、又は図7に示す収集モジュール71、ウェイクアップモジュール72及び送信モジュール73)のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するために用いることができる。プロセッサ801は、メモリ802に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声制御方法を実現する。
メモリ802は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶可能なプログラム記憶領域と、音声制御の電子機器の利用に応じて作成されるデータなどを記憶可能なデータ記憶領域とを含んでもよい。また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、さらに、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ、又は他の非一時的ソリッドステート記憶装置のような非一時的メモリを含んでもよい。いくつかの実施例では、メモリ802は、任意選択的に、プロセッサ801に対して遠隔に設置されるメモリを含み、これらの遠隔メモリはネットワークを介して音声制御の電子機器に接続することができる。上記ネットワークの例はインターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びこれらの組み合わせを含むが、これらに限定されない。
音声制御方法を実施するための電子機器は、さらに、入力装置803と出力装置804を含んでもよい。プロセッサ801と、メモリ802と、入力装置803と、出力装置804とは、バス又は他の形態により接続することができ、図8においてバスにより接続することを例とする。
入力装置803は入力された数字又は文字情報を受信し、音声制御の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置804は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。この表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態では、表示機器はタッチパネルであってもよい。
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラム内で実施されることを含んでもよく、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、この記憶システム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置にデータ及び命令を送信することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語でこれらのコンピュータプログラムを実行することができる。本明細書に使用される用語の「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。用語の「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)であって、ユーザがこのキーボード及びこのポインティングデバイスによりコンピュータに入力を提供可能なものと、を有する。他の種類の装置は、ユーザとのインタラクションを提供するために用いることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインタフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントとの任意のグループみ合わせを含むコンピューティングシステムで実施される。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は略称「VPS」)において存在する、管理の難易度が大きく、業務拡張性が低いという欠点を解決するためのものである。
本出願の実施例の技術的解決手段によれば、目標オーディオに対して認識を行い、第1のオーディオセグメントと第2のオーディオセグメントに対しての認識を連続して行い、第1のオーディオセグメントからウェイクアップワードが認識されない、又は第2のオーディオセグメントから命令語が認識されない場合、目標オーディオの開始位置における目標時間長のオーディオを削除して、保持されたオーディオを取得し、次に、保持されたオーディオに対して復号認識を再度行い、従来技術において取得したオーディオセグメントの音声認識の動作を1回のみ行うことに比べ、認識の信頼性を向上させることができる。
以上に示される様々な形態のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本出願に記載されている各ステップは、並列に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよいが、本出願に開示されている技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記の具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因によって、様々な修正、グループみ合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本出願の精神及び原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (17)

  1. クライアントから送信された目標オーディオを取得するステップであって、前記目標オーディオは、ウェイクアップ前の目標時間長内に前記クライアントによって収集されたオーディオ、及びウェイクアップ後に前記クライアントによって収集されたオーディオを含むステップと、
    前記目標オーディオの音声認識を行うステップと、
    前記目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するステップであって、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有するステップと、を含む、音声制御方法。
  2. 前記目標オーディオの音声認識を行うステップの後、
    前記第1のオーディオセグメントから前記ウェイクアップワードが認識されない場合、又は前記第2のオーディオセグメントから前記命令が認識されない場合、前記目標オーディオの開始位置における前記目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得するステップと、
    前記保持されたオーディオの音声認識を再度行うステップと、
    音声認識を再度行うことにより得られた命令に基づいて、前記クライアントを制御するステップと、をさらに含む、請求項1に記載の音声制御方法。
  3. 前記第1のオーディオセグメントの時間長は前記目標時間長より大きく、
    前記第2のオーディオセグメントの時間長は前記第1のオーディオセグメントの時間長より大きい、請求項1に記載の音声制御方法。
  4. 前記目標オーディオの音声認識を行うステップの後、
    音声認識により得られたテキストから前記ウェイクアップワードをスクリーニングするステップと、
    前記ウェイクアップワードがスクリーニングされた場合、前記目標オーディオにおける、前記ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定するステップと、
    前記目標オーディオにおける前記目標オーディオフレームの出現時刻が前記第1のオーディオセグメントの終了時刻より早い場合、前記第1のオーディオセグメントから前記ウェイクアップワードが認識されたと決定するステップと、をさらに含む、請求項1〜3のいずれかに記載の音声制御方法。
  5. 前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するステップの前に、
    前記目標オーディオにおける、前記目標オーディオフレームに続くオーディオフレームの出現時刻を前記第2のオーディオセグメントの開始時刻とするステップと、
    前記第2のオーディオセグメントの開始時刻、及び前記第2のオーディオセグメントの設定時間長に基づいて、前記第2のオーディオセグメントを決定するステップと、をさらに含む、請求項4に記載の音声制御方法。
  6. 待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するステップと、
    前記ウェイクアップワードが認識された場合にウェイクアップするステップと、
    ウェイクアップ前の目標時間長に収集したオーディオ、及びウェイクアップ後に収集したオーディオを目標オーディオとしてサーバに送信するステップであって、前記目標オーディオは、音声認識に用いられ、前記目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて制御し、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有するステップと、を含む、音声制御方法。
  7. 前記目標オーディオは、オーディオストリームフォーマットである、請求項6に記載の音声制御方法。
  8. クライアントから送信された目標オーディオを取得するように構成される取得モジュールであって、前記目標オーディオは、ウェイクアップ前の目標時間長内にクライアントによって収集されたオーディオ、及びウェイクアップ後に前記クライアントによって収集されたオーディオを含む取得モジュールと、
    前記目標オーディオの音声認識を行うように構成される認識モジュールと、
    前記目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて、前記クライアントを制御するように構成される制御モジュールであって、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有する制御モジュールと、を含む、音声制御装置。
  9. 前記音声制御装置は、前記第1のオーディオセグメントから前記ウェイクアップワードが認識されない場合、又は前記第2のオーディオセグメントから前記命令が認識されない場合、前記目標オーディオの開始位置における前記目標時間長のオーディオセグメントを削除して、保持されたオーディオを取得するように構成される削除モジュールをさらに含み、
    前記認識モジュールは、さらに、前記保持されたオーディオの音声認識を再度行うように構成され、
    前記制御モジュールは、さらに、音声認識を再度行うことにより得られた命令に基づいて、前記クライアントを制御するように構成される、請求項8に記載の音声制御装置。
  10. 前記第1のオーディオセグメントの時間長は前記目標時間長より大きく、
    前記第2のオーディオセグメントの時間長は前記第1のオーディオセグメントの時間長より大きい、請求項8に記載の音声制御装置。
  11. 前記音声制御装置は、
    音声認識により得られたテキストから前記ウェイクアップワードをスクリーニングするように構成されるスクリーニングモジュールと、
    前記ウェイクアップワードがスクリーニングされた場合に、前記目標オーディオにおける、前記ウェイクアップワードにマッチングするテキストに対応する目標オーディオフレームを決定し、前記目標オーディオにおける前記目標オーディオフレームの出現時刻が前記第1のオーディオセグメントの終了時刻より早い場合、前記第1のオーディオセグメントから前記ウェイクアップワードが認識されたと決定するように構成される決定モジュールと、をさらに含む、請求項8〜10のいずれかに記載の音声制御装置。
  12. 前記制御モジュールは、さらに、
    前記目標オーディオにおける、前記目標オーディオフレームに続くオーディオフレームの出現時刻を、前記第2のオーディオセグメントの開始時刻とし、前記第2のオーディオセグメントの開始時刻、及び前記第2のオーディオセグメントの設定時間長に基づいて、前記第2のオーディオセグメントを決定するように構成される、請求項11に記載の音声制御装置。
  13. 待機状態では、オーディオを収集し、収集したオーディオからウェイクアップワードを認識するように構成される収集モジュールと、
    前記ウェイクアップワードが認識された場合にウェイクアップするように構成されるウェイクアップモジュールと、
    ウェイクアップ前の目標時間長内に収集されたオーディオ、及びウェイクアップ後に収集されたオーディオを目標オーディオとしてサーバに送信するように構成される送信モジュールであって、前記目標オーディオは、音声認識に用いられ、前記目標オーディオの最初の第1のオーディオセグメントからウェイクアップワードが認識された場合、前記目標オーディオの第2のオーディオセグメントから認識された命令に基づいて制御し、前記第2のオーディオセグメントは、前記第1のオーディオセグメントより遅く、又は前記第1のオーディオセグメントと重なり合う部分を有する送信モジュールと、を含む、音声制御装置。
  14. 前記目標オーディオは、オーディオストリームフォーマットである、請求項13に記載の音声制御装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1〜5のいずれかに記載の音声制御方法を実行でき、或いは請求項6又は7に記載の音声制御方法を実行できる、電子機器。
  16. コンピュータに請求項1〜5のいずれかに記載の音声制御方法を実行させ、或いは請求項6又は7に記載の音声制御方法を実行させるためのコンピュータ命令を記憶している、非一時的コンピュータ読み取り可能な記憶媒体。
  17. コンピュータに請求項1〜5のいずれかに記載の音声制御方法を実行させ、或いは請求項6又は7に記載の音声制御方法を実行させる、コンピュータプログラム。
JP2021166825A 2020-11-03 2021-10-11 音声制御方法及び音声制御装置、電子機器並びに記憶媒体 Active JP7281521B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011211760.9A CN112382285B (zh) 2020-11-03 2020-11-03 语音控制方法、装置、电子设备和存储介质
CN202011211760.9 2020-11-03

Publications (2)

Publication Number Publication Date
JP2022003415A true JP2022003415A (ja) 2022-01-11
JP7281521B2 JP7281521B2 (ja) 2023-05-25

Family

ID=74579059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021166825A Active JP7281521B2 (ja) 2020-11-03 2021-10-11 音声制御方法及び音声制御装置、電子機器並びに記憶媒体

Country Status (3)

Country Link
US (1) US11893988B2 (ja)
JP (1) JP7281521B2 (ja)
CN (1) CN112382285B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820296B (zh) * 2021-01-06 2022-05-20 北京声智科技有限公司 一种数据传输方法及电子设备
CN113035189A (zh) * 2021-02-24 2021-06-25 北京小米移动软件有限公司 一种文档演示的控制方法、装置和设备
CN113782025B (zh) * 2021-09-27 2024-01-09 北京声智科技有限公司 语音识别方法、装置、终端及存储介质
CN117116263B (zh) * 2023-09-15 2024-04-12 广州易云信息技术有限公司 一种基于语音识别的智能机器人唤醒方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254475A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2010055044A (ja) * 2008-04-22 2010-03-11 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
JP2019185011A (ja) * 2018-04-02 2019-10-24 百度在線網絡技術(北京)有限公司 アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2975633B2 (ja) * 1990-03-29 1999-11-10 三洋電機株式会社 音声認識方法
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
GB201105502D0 (en) * 2010-04-01 2011-05-18 Apple Inc Real time or near real time streaming
WO2015005927A1 (en) * 2013-07-11 2015-01-15 Intel Corporation Device wake and speaker verification using the same audio input
US10559303B2 (en) * 2015-05-26 2020-02-11 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US9666192B2 (en) * 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
CN105446489B (zh) * 2015-12-08 2017-09-22 广州神马移动信息科技有限公司 语音双模控制方法、装置及用户终端
KR102495517B1 (ko) * 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법
US10271093B1 (en) * 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
CN106782554B (zh) * 2016-12-19 2020-09-25 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
US10311875B2 (en) * 2016-12-22 2019-06-04 Soundhound, Inc. Full-duplex utterance processing in a natural language virtual assistant
CN107145329A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 设备控制方法、装置及智能设备
US10943606B2 (en) * 2018-04-12 2021-03-09 Qualcomm Incorporated Context-based detection of end-point of utterance
EP3762909A1 (en) * 2018-05-28 2021-01-13 Greenwave Systems PTE. LTD. Area monitoring and communication
CN108962240B (zh) * 2018-06-14 2021-09-21 百度在线网络技术(北京)有限公司 一种基于耳机的语音控制方法及系统
KR20200052638A (ko) * 2018-11-07 2020-05-15 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 방법
CN109378000B (zh) * 2018-12-19 2022-06-07 科大讯飞股份有限公司 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN113748462A (zh) * 2019-03-01 2021-12-03 奇跃公司 确定用于语音处理引擎的输入
CN110136715B (zh) * 2019-05-16 2021-04-06 北京百度网讯科技有限公司 语音识别方法和装置
US20200374269A1 (en) * 2019-05-22 2020-11-26 Synaptics Incorporated Secure audio systems and methods
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
US11138975B2 (en) * 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
US20220103883A1 (en) * 2020-09-30 2022-03-31 Synamedia Limited Broadcast In-Home Streaming

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254475A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2010055044A (ja) * 2008-04-22 2010-03-11 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
JP2019185011A (ja) * 2018-04-02 2019-10-24 百度在線網絡技術(北京)有限公司 アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体

Also Published As

Publication number Publication date
US11893988B2 (en) 2024-02-06
CN112382285B (zh) 2023-08-15
CN112382285A (zh) 2021-02-19
US20210319795A1 (en) 2021-10-14
JP7281521B2 (ja) 2023-05-25

Similar Documents

Publication Publication Date Title
JP2022003415A (ja) 音声制御方法及び音声制御装置、電子機器並びに記憶媒体
KR102523350B1 (ko) 음성 인터랙션 처리 방법, 장치와 전자기기
JP2020004376A (ja) 第三者アプリケーションのインタラクション方法、及びシステム
JP5948671B2 (ja) マルチメディア情報検索方法及び電子機器
JP7130194B2 (ja) ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
JP7328265B2 (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
KR102331254B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR20220002750A (ko) 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
WO2017100015A1 (en) Language and domain independent model based approach for on-screen item selection
JP7258932B2 (ja) 車載多音域に基づくノイズ低減方法、装置、電子機器及び記憶媒体
JP7017598B2 (ja) スマートデバイスのデータ処理方法、装置、機器及び記憶媒体
JP2021170394A (ja) 役割のラベル付け方法、役割のラベル付け装置、電子機器及び記憶媒体
CN111968631B (zh) 智能设备的交互方法、装置、设备及存储介质
US20220005474A1 (en) Method and device for processing voice interaction, electronic device and storage medium
US20210390254A1 (en) Method, Apparatus and Device for Recognizing Word Slot, and Storage Medium
US20210090562A1 (en) Speech recognition control method and apparatus, electronic device and readable storage medium
KR102358012B1 (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP7264957B2 (ja) 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム
CN112133307A (zh) 人机交互方法、装置、电子设备及存储介质
JP7309818B2 (ja) 音声認識方法、装置、電子機器及び記憶媒体
US20210097991A1 (en) Speech control method and apparatus, electronic device, and readable storage medium
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230515

R150 Certificate of patent or registration of utility model

Ref document number: 7281521

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150