JP2022013610A - 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム - Google Patents

音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム Download PDF

Info

Publication number
JP2022013610A
JP2022013610A JP2021002323A JP2021002323A JP2022013610A JP 2022013610 A JP2022013610 A JP 2022013610A JP 2021002323 A JP2021002323 A JP 2021002323A JP 2021002323 A JP2021002323 A JP 2021002323A JP 2022013610 A JP2022013610 A JP 2022013610A
Authority
JP
Japan
Prior art keywords
wake word
reliability
audio signal
result
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021002323A
Other languages
English (en)
Other versions
JP7328265B2 (ja
Inventor
ツン ガオ
Cong Gao
サイサイ ゾウ
Saisai Zou
ジンフォン バイ
Jinfeng Bai
レイ ジャ
Lei Jia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022013610A publication Critical patent/JP2022013610A/ja
Application granted granted Critical
Publication of JP7328265B2 publication Critical patent/JP7328265B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)
  • Transmitters (AREA)

Abstract

【課題】インタラクションフローを簡素化する音声インタラクション制御方法を提供する。【解決手段】音声インタラクション制御方法は、オーディオ信号を収集し、オーディオ信号におけるウェイクワードを検出し、検出されたウェイクワードの結果に基づいて提示音を再生する及び/またはオーディオ信号における音声コマンドを実行する。【選択図】図1

Description

本願は、コンピュータ技術の分野に関し、特に音声認識、ヒューマンコンピュータインタラクション、及び深層学習技術の分野に関する。
音声技術やヒューマンコンピュータインタラクション技術の発展に伴い、スマートスピーカ、スマートホーム及びスマートウォッチなど、ユーザと音声インタラクションが可能なスマート端末機器(音声インタラクション端末と略称する)が登場している。
従来の音声インタラクション端末を使用する際には、「シャオドゥ、シャオドゥ」などの4つの音節を有するウェイクワードを採用するのが一般的である。音声インタラクション端末は、ウェイクワードを認識した後、ユーザに音声コマンドを送信し続けることができるように提示するための提示音を発する。その後、音声インタラクション端末は、ユーザから送信された音声コマンドに応答する。通常、1つのコマンドに応答するには2回のインタラクションが必要である。このように、従来のウェイクワードは比較的長くかつインタラクションフローが煩雑であることが分かる。
本願は音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステムを提供する。
本願の一態様に係る音声インタラクション制御方法は、
オーディオ信号を収集するステップと、
前記オーディオ信号におけるウェイクワードを検出して、ウェイクワードの結果と音声コマンドの結果を取得するステップと、
ウェイクワードの結果に基づいて提示音を再生する及び/またはオーディオ信号における音声コマンドを実行するステップと、を含む。
本発明の他の態様に係る音声インタラクション制御方法は、
オーディオ信号を取得するステップと、
前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得するステップと、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御するステップと、を含む。
本発明の他の態様に係る音声インタラクション制御装置は、
オーディオ信号を収集することに用いられる収集モジュールと、
前記オーディオ信号におけるウェイクワードを検出することに用いられる検出モジュールと、
検出されたウェイクワードの結果に基づいて提示音を再生する及び/またはオーディオ信号における音声コマンドを実行することに用いられる実行モジュールと、を含む。
本発明の他の態様に係る音声インタラクション制御装置は、
オーディオ信号を取得することに用いられる取得モジュールと、
前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得することに用いられる検出モジュールと、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御することに用いられる制御モジュールと、を含む。
本発明の他の態様に係る電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドは、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサがいずれかの実施例に記載の音声インタラクション制御方法を実行できる。
本発明の他の態様に係る他の電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドは、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサがいずれかの実施例に記載の音声インタラクション制御方法を実行できる。
本発明の他の態様は、コンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータコマンドはいずれかの実施例に記載の音声インタラクション制御方法を前記コンピュータに実行させることに用いられる。
本発明の他の態様に係る音声インタラクション制御システムは、音声インタラクション端末及びサーバを含み、
前記音声インタラクション端末は、オーディオ信号を収集し、前記オーディオ信号におけるウェイクワードを検出し、検出されたウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信する及び/または提示音を再生し、前記サーバから返された音声コマンド及び/または提示音再生コマンドを受信して実行することに用いられ、
前記サーバは、前記音声インタラクション端末から送信されたオーディオ信号を受信し、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出し、検出されたウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末に音声コマンド及び/または提示音再生コマンドを発行することに用いられる。
本願の実施例に係る技術はインタラクションフローを簡素化する。
このセクションに記載されている内容は本開示の実施例のキー特徴または重要な特徴を特定することや、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解される。
図面は本案をよりよく理解することに用いられ、本願を限定するものではない。
本願の実施例における第1の音声インタラクション制御方法のフローチャートである。 本願の実施例における第2の音声インタラクション制御方法のフローチャートである。 本願の実施例における第3の音声インタラクション制御方法のフローチャートである。 本願の実施例におけるオーディオ信号の概略図である。 本願の実施例における第4の音声インタラクション制御方法のフローチャートである。 本願の実施例に係るスマートスピーカとクラウドサーバのインタラクション概略図である。 本願の実施例における第5の音声インタラクション制御方法のフローチャートである。 本願の実施例における第6の音声インタラクション制御方法のフローチャートである。 本願の実施例における第7の音声インタラクション制御方法のフローチャートである。 本願の実施例における第1の音声インタラクション制御装置の構造図である。 本願の実施例における第2の音声インタラクション制御装置の構造図である。 本願の実施例における音声インタラクション制御方法を実現することに用いられる電子機器のブロック図である。 本願の実施例における音声インタラクション制御システムの概略構造図である。
理解を容易にするために、以下は添付図面を参照しながら、本願の実施例のさまざまな詳細を含む本発明の好適な実施例について説明し、単なる例示と見なされるべきである。したがって、当業者が理解できるように、本願の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。同様に、明確さと簡潔さのために、よく知られている機能と構造の説明は、以下の説明では省略される。
本願の実施例によれば、図1は本願の実施例における第1の音声インタラクション制御方法のフローチャートであり、本願の実施例はオーディオ信号からウェイクワードを検出する状況に適する。該方法は音声インタラクション制御装置によって実行され、該装置はソフトウェア及び/またはハードウェアによって実現され、かつ具体的に特定のデータ演算能力を備えた電子機器に配置され、電子機器は音声インタラクション端末、サーバ及び他のスマート機器を含むが、これらに制限されず、音声インタラクション端末はスマートスピーカ、スマートホーム及びスマートウォッチなどを含むが、これらに制限されない。
図1に示される音声インタラクション制御方法はS110~S130を含む。
S110、オーディオ信号を収集する。
電子機器には、機器周辺のオーディオ信号をリアルタイムで収集するためのマイクが配置されている。多くの状況を考慮して、機器は、ユーザが音声インタラクション端末とインタラクションを行う音声コマンド(query)、ユーザと他の人や物との間で交わされる音声信号、または雨やテレビに由来する声などの非音声信号を収集する可能性があり、これらをまとめてオーディオ信号と呼ばれる。
機器がオーディオ信号からユーザが機器とインタラクションを行う音声コマンドを検出することを容易にし、音声コマンドを他の信号と区別するために、業界では、音声コマンドの前にウェイクワードを追加し、ウェイクワードが検出されると、ウェイクワード後のオーディオ信号を音声コマンドと見なすことが一般的である。
1つの応用シナリオでは、ユーザは「シャオドゥ、ライトをオフにしなさい」という音声を機器に一度に発し、ただし、「シャオドゥ」はウェイクワードであり、「ライトをオフにしなさい」は音声コマンドである。「シャオドゥ、ライトをオフにしなさい」ことに対応するオーディオ信号は機器によって収集される。
S120、オーディオ信号におけるウェイクワードを検出する。
機器には、少なくとも1つのウェイクワードが予め設定されている。本実施例は、ウェイクワードの内容及び音節数について制限しない。いくつかの実施例では、ユーザは、ウェイクワードの内容及び音節数を独立して設定することができる。
ここでの音節(Syllable)は、エピフォンティック語族で単一の母音音符と子音音符を組み合わせた発音の最小の音声単位である。音節は中国語の音節や英語の音節であってもよい。中国語の音節(中国語の文字の発音の音節であってもよい)は通常、イニシャルとファイナルを組み合わせた中国語ピンインであり、2つのファイナルを組み合わせた中国語ピンインもあり、さらに1つのファイナルの中国語ピンインもあり、エピフォンティック語族の子音音符を借りて、中国語のイニシャル音符をマークし、母音音符と子音音符の組み合わせで中国語のファイナル音符をマークする。英語の母音は特に大声であり、1つの母音音符は1つの音節を構成することができ、1つの母音音符と1つ以上の子音音符との組み合わせも1つの音節を構成することができる。例として、ウェイクワードの音節数は、中国語の文字の数または母音音符の数として簡単に理解されてもよい。
本実施例は音声認識技術を用いて収集されたオーディオ信号におけるウェイクワードを検出し、具体的にオーディオ信号における音響特徴を抽出し、かつ複数種類のウェイクワードに対応するオーディオ信号をトレーニングして得られた、予めトレーニングされたウェイクワード検出モデルに入力し、オーディオ信号にウェイクワード、検出されたウェイクワードの内容及び音節数が含まれるか否かを検出する。
上記の応用シナリオに従って、オーディオ信号が「シャオドゥ、ライトをオフにしなさい」である場合、該オーディオ信号から「シャオドゥ」であるウェイクワードを検出し、オーディオ信号が「シャオドゥ、シャオドゥ、ライトをオフにしなさい」である場合、該オーディオ信号から「シャオドゥ、シャオドゥ」であるウェイクワードを検出する。
S130、検出されたウェイクワードの結果に基づいて提示音を再生する及び/またはオーディオ信号における音声コマンドを実行する。
ウェイクワードの結果は、オーディオ信号にウェイクワードが含まれるか否か及び含まれたウェイクワードの内容を含み、異なるウェイクワードの結果は、実行する必要のある操作と対応する関係を持ち、異なるウェイクワードの結果に応じて提示音の再生と音声コマンドの実行の少なくとも1つの操作を実行できる。
本実施例における提示音は、機器がウェイクアップされたことをユーザに提示するように、機器がウェイクワードに応答してユーザに発した応答音声であり、「はい」、「どうした」、及び「どうぞ」などの音声コマンドを発声することができる。音声コマンドはオーディオ信号に由来し、音声コマンドの種類には、機器自体の機能実行コマンドと外部スマート機器への制御コマンドが含まれるが、これらに制限されず、例えば、機器がスマートスピーカである場合、ウェイクワードの結果に「シャオドゥ」が含まれる場合、音声コマンドしか実行しなくてもよく、ウェイクワードに「シャオドゥ、シャオドゥ」が含まれる場合、提示音しか再生しなくてもよく、提示音を再生しながら音声コマンドを実行してもよく、ウェイクワードの結果にいずれかのウェイクワードが含まれていない場合、何も操作しなくてもよい。なお、提示音の再生と音声コマンドの両方も実行される場合、提示音の再生終了後に音声コマンドを実行してもよい。
本実施例に係る音声インタラクション制御方法はユーザがウェイクワード+音声コマンドを発話するのを許可し、オーディオ信号におけるウェイクワードを検出し、また検出されたウェイクワードの結果に基づいて提示音を再生する及び/または音声コマンドを実行することによって、1回のインタラクションで音声コマンドの応答を完了し、ユーザのニーズを満たし、インタラクションの長さを短くし、音声コマンドがすばやく到着し、すばやく応答することができる。
さらに、本実施例は、次の技術的効果も達成し、新規ユーザの使用コストを削減し、音声インタラクション端末に不慣れなすべてのユーザが、慣れ親しんだ練習を経ることなく機器を自由に体験できるようにする。
本願の実施例によれば、図2は本願の実施例における第2の音声インタラクション制御方法のフローチャートであり、本実施例は上記の実施例に基づいて最適化される。
好ましくは、「検出されたウェイクワードの結果に基づいて提示音を再生する及び/またはオーディオ信号における音声コマンドを実行する」という操作を「第1の信頼度が第1の信頼度閾値要件を満たす場合、音声コマンドを実行し、第1の信頼度が第1の信頼度閾値要件を満たさない場合、提示音を再生する」ことに特定する。
「検出されたウェイクワードの結果に基づいて音声コマンドを実行する」という操作のときまたはその前に、「提示音を再生しない」という操作を追加する。
図2に示される音声インタラクション制御方法はS210~S260を含む。
S210、オーディオ信号を収集する。
S220、オーディオ信号におけるウェイクワードを検出する。
本実施例では、検出されたウェイクワードの結果は第1の信頼度を含み、第1の信頼度は、ターゲットウェイクワードを含むオーディオ信号の確実度を表現することに用いられる。ただし、ターゲットウェイクワードは、設定されたウェイクワードであり、説明と区別を容易にするために、ターゲットウェイクワードを含むオーディオ信号を表現する確実度は、第1の信頼度と呼ばれる。好ましくは、ウェイクワード検出モデルを使用して検出し、第1の信頼度を得、具体的には以下の実施例で詳しく紹介する。
S230、第1の信頼度が第1の信頼度閾値要件を満たすか否かを判断し、そうである場合、即ちターゲットウェイクワードを検出した場合、S240及びS250にジャンプし、そうではない場合、即ちターゲットウェイクワードを検出しなかった場合、S260にジャンプする。
第1の信頼度閾値要件は1つの信頼度閾値や1つの信頼度区間であってもよく、ターゲットウェイクワードを含むオーディオ信号の確実度の臨界点を表現する。第1の信頼度が第1の信頼度閾値要件を満たす場合、例えば、第1の信頼度閾値を超える場合、ターゲットウェイクワードが検出されたと見なされ、第1の信頼度が第1の信頼度閾値要件を満たさない場合、例えば、第1の信頼度閾値を超えない場合、ターゲットウェイクワードが検出されなかったと見なされる。
S240、提示音を再生しない。
機器がターゲットウェイクワードを検出すると、音声コマンドが続く可能性が高いため、提示音を再生せず、ユーザに著しく迷惑をかけるのを回避するとともに、後続の音声コマンドと提示音との重ねによる「グラブトーク」状態を回避し、また音声コマンドが干渉されて検出精度に影響を与えるのを回避する。
S250、オーディオ信号における音声コマンドを実行する。
なお、S240とS250の実行順序は制限されず、並行して実行してもよく、S240を実行してからS250を実行してもよく、S250を実行してからS240を実行してもよい。
S260、提示音を再生する。
ターゲットウェイクワードが検出されなかった場合、ユーザが他のウェイクワードを話したかまたはウェイクワードを話さなかった可能性があり、従って提示音を再生する。提示音を聞いた後、ユーザは音声コマンドを話し、さらに音声コマンドを実行する。本ステップでは、基本的に2回のインタラクションを実現する。
本実施例は、独特な提示音応答メカニズムを設計し、ターゲットウェイクワードが検出された後、提示音を発せず、また、従来の通常のウェイクワードの提示音応答フロー及び音声インタラクションフロー、ならびにターゲットウェイクワードの非提示音フローをサポートし、フォールトトレランスを向上させ、ユーザの多様な使用習慣に対応する。
本願の実施例によれば、図3は本願の実施例における第3の音声インタラクション制御方法のフローチャートであり、本実施例は上記の実施例に基づいて最適化される。
好ましくは、「検出されたウェイクワードの結果に基づいて提示音を再生する」という操作を「第2の信頼度が第2の信頼度閾値要件を満たしかつ第1の信頼度が第1の信頼度閾値要件を満たさない場合、提示音を再生する」ことに特定する。
図3に示される音声インタラクション制御方法はS310~S360を含む。
S310、オーディオ信号を収集する。
S320、オーディオ信号におけるウェイクワードを検出する。
好ましくは、ウェイクワード検出モデルを使用してウェイクワードを検出し、ウェイクワード検出モデルは、混合ガウスモデル、マルコフ連鎖、及び隠れマルコフモデルを含むが、これらに制限されない。具体的には、オーディオ信号をウェイクワード検出モデルに入力し、ターゲットウェイクワードを含むオーディオ信号の確実度を表現することに用いられる第1の信頼度、及び通常のウェイクワードを含むオーディオ信号の確実度を表現することに用いられる第2の信頼度を含む、ウェイクワードの結果を出力する。説明と区別を容易にするために、通常のウェイクワードを含むオーディオ信号を表現する確実度は、第2の信頼度と呼ばれる。好ましくは、ウェイクワード検出モデルを使用して検出し、第2の信頼度を得る。
S330、第1の信頼度が第1の信頼度閾値要件を満たすか否か、及び第2の信頼度が第2の信頼度閾値要件を満たすか否かを判断し、第1の信頼度が第1の信頼度閾値要件を満たす場合、S340及びS350にジャンプし、第1の信頼度が第1の信頼度閾値要件に満たずかつ第2の信頼度が第2の信頼度閾値要件を満たす場合、S360にジャンプする。
好ましくは、本操作は、ウェイクワード検出モデルを使用して実行されてもよく、ウェイクワード検出モデルの最後のレイヤーは分類レイヤーとして設定され、前記分類レイヤーは、第1の信頼度と第2の信頼度を入力し、それぞれの信頼度閾値要件と比較することにより、信頼度閾値要件を満たすか否かの分類結果を出力することに用いられる。
第1の信頼度閾値要件と同様に、第2の信頼度閾値要件は1つの信頼度閾値や1つの信頼度区間であってもよく、通常のウェイクワードを含むオーディオ信号の確実度の臨界点を表現する。第2の信頼度が第2の信頼度閾値要件を満たす場合、例えば、第2の信頼度閾値を超える場合、通常のウェイクワードが検出されたと見なされ、第2の信頼度が第2の信頼度閾値要件を満たさない場合、例えば、第2の信頼度閾値を超えない場合、通常のウェイクワードが検出されなかったと見なされる。
上記のように、ウェイクワード検出モデルが解決する必要のある問題は、1)ターゲットウェイクワードを検出することと、2)通常のウェイクワードを検出することと、3)ターゲットウェイクワードと通常のウェイクワードを区別することと、を含む。これに基づいて、実際の応用シナリオでは、1つ、2つ、またはそれ以上のウェイクワード検出モデルを使用して、上記の問題を解決することができる。
1つのウェイクワード検出モデルを使用する場合、該ウェイクワード検出モデルはオーディオ信号におけるターゲットウェイクワードと通常のウェイクワードを検出し、第1の信頼度及び第2の信頼度を同時に得、さらに第1の信頼度と第2の信頼度に基づいてウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定する。
2つのウェイクワード検出モデルを使用する場合、1つのウェイクワード検出モデルはオーディオ信号におけるターゲットウェイクワードを検出して第1の信頼度を得、もう1つのウェイクワード検出モデルはオーディオ信号における通常のウェイクワードを検出して第2の信頼度を得る。次に第1の信頼度と第2の信頼度に基づいてウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定する。
3つのウェイクワード検出モデルを使用する場合、1つのウェイクワード検出モデルはオーディオ信号におけるターゲットウェイクワードを検出して第1の信頼度を得、もう1つのウェイクワード検出モデルはオーディオ信号における通常のウェイクワードを検出して第2の信頼度を得る。さらに1つのウェイクワード検出モデルは第1の信頼度と第2の信頼度に基づいてウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定する。
S340、提示音を再生しない。
S350、オーディオ信号における音声コマンドを実行する。
なお、S340とS350の実行順序は制限されず、並行して実行してもよく、S340を実行してからS350を実行してもよく、S350を実行してからS340を実行してもよい。
S360、提示音を再生する。
本実施例はウェイクワード検出モデルを使用してターゲットウェイクワードと通常のウェイクワードを同時に検出し、また信頼度によってウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定することで、ターゲットウェイクワードと通常のウェイクワードのある程度の検出精度を保証し、ウェイクワードの誤検知によって提示音でユーザに迷惑をかけるのを回避する。
上記の実施例及び以下の実施例では、ターゲットウェイクワードと通常のウェイクワードの内容と音節数を設定してもよく、それに対応して、異なる内容と音節数を設定するとき、ウェイクワードの検出方法も異なる。次に、ターゲットウェイクワードと通常のウェイクワードが同じであるかまたは異なるいくつかの状況に基づいて、いくつかのウェイクワード及び好ましい検出方法を詳しく紹介する。
状況1、ターゲットウェイクワードと通常のウェイクワードは音節数が同じである。
本状況では、ターゲットウェイクワードと通常のウェイクワードは音節数が同じであるが内容が違い、例えば、ターゲットウェイクワードが「1、2、3」であり、通常のウェイクワードが「4、5、6」である。音節に関する説明は上記の実施例を参照されたく、ここでは詳しく説明しない。検出するとき、1つのウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードと通常のウェイクワードを同時に検出し、かつ第1の信頼度と第2の信頼度を提供し、或いは、2つのウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードと通常のウェイクワードをそれぞれ検出し、かつ第1の信頼度と第2の信頼度をそれぞれ提供する。さらに、他のウェイクワード検出モデルを使用して第1の信頼度と第2の信頼度に基づいてウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定する。
状況2、通常のウェイクワードは1つのターゲットウェイクワードを含む。
ターゲットウェイクワードが通常のウェイクワードの一部であり、ターゲットウェイクワードの音節数が通常のウェイクワードの音節数より少ない。例えば、ターゲットウェイクワードが「ショウゴ」で、通常のウェイクワードが「ショウゴ様」である。この場合、状況1に係る方法で検出することができる。ターゲットウェイクワードと通常のウェイクワードの間の包括的関係を考慮すると、通常のウェイクワードにあるターゲットウェイクワードの位置に基づいて1つのウェイクワード検出モデルを使用してターゲットウェイクワードと通常のウェイクワードを連続して検出できる。好ましくは、ターゲットウェイクワードが通常のウェイクワードの先頭にあり、例えば、「ショウゴ」と「ショウゴ様」であれば、ウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得、初期検出した後の設定期間内においてターゲットウェイクワードを除いた通常のウェイクワードの残りの部分(例えば、「様」)を再検出し、再検出結果を得、初期検出結果と再検出結果に基づいて第1の信頼度と第2の信頼度を決定する。設定期間を0.5秒とすると、ターゲットウェイクワードを検出した後の0.5秒以内に残りの部分を検出した場合、第2の信頼度が高く、ターゲットウェイクワードを検出した後の0.5秒以内に残りの部分を検出しなかった場合、第1の信頼度が高く、初期検出するときターゲットウェイクワードを検出しなかった場合、通常のウェイクワードも検出できず、第1の信頼度と第2の信頼度は両方とも低い。
ターゲットウェイクワードが通常のウェイクワードのテール部にあり、例えば、「様」と「ショウゴ様」であれば、ウェイクワード検出モデルを使用してターゲットウェイクワードを除いた通常のウェイクワードの残りの部分(例えば、「ショウゴ」)を初期検出し、初期検出結果を得、初期検出した後の設定期間内においてターゲットウェイクワードを再検出し、再検出結果を得、初期検出結果と再検出結果に基づいて第1の信頼度と第2の信頼度を決定する。設定期間を0.5秒とすると、残りの部分を検出した後の0.5秒以内にターゲットウェイクワードを検出した場合、第2の信頼度が高く、残りの部分を検出した後の0.5秒以内にターゲットウェイクワードを検出しなかった場合、第1の信頼度と第2の信頼度は両方とも低く、初期検出するときに残りの部分を検出しなかったが、0.5秒の後にターゲットウェイクワードを検出した場合、第1の信頼度が高い。
状況3、通常のウェイクワードは少なくとも2つのターゲットウェイクワードを含む。
ターゲットウェイクワードが通常のウェイクワードの一部であり、ターゲットウェイクワードの音節数が通常のウェイクワードの音節数より少ない。状況2との異なる点は、通常のウェイクワードが2つ以上のターゲットウェイクワードを含むことである。この場合、状況1に係る方法で検出することができる。ターゲットウェイクワードと通常のウェイクワードの間の包括的関係を考慮すると、1つのウェイクワード検出モデルを使用してターゲットウェイクワードと通常のウェイクワードを連続して検出できる。1つの応用シナリオでは、通常のウェイクワードは2つのターゲットウェイクワードしか含まず、例えば、通常のウェイクワードは「ショウA、ショウA」であり、ターゲットウェイクワードは「ショウA」であり、また例えば、通常のウェイクワードは「ハンサムガイ、ハンサムガイ」であり、ターゲットウェイクワードは「ハンサムガイ」である。通常のウェイクワードとターゲットウェイクワードのこのような数設定に基づいてウェイクワードの検出プロセスは次のように制限される。具体的には、ウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出した後の設定期間内においてターゲットウェイクワードを再検出し、初期検出結果と再検出結果に基づいて第1の信頼度と第2の信頼度を決定する。設定期間を0.5秒とすると、ターゲットウェイクワードを検出した後の0.5秒以内にターゲットウェイクワードを再検出した場合、第2の信頼度が高く、ターゲットウェイクワードを検出した後の0.5秒以内にターゲットウェイクワードを検出しなかった場合、第1の信頼度が高く、初期検出するときターゲットウェイクワードを検出しなかった場合、通常のウェイクワードも検出できず、第1の信頼度と第2の信頼度は両方とも低い。本実施例では、ユーザが受信しやすいために通常のウェイクワードは2つのターゲットウェイクワードを含み、またターゲットウェイクワードを再検出することによってターゲットウェイクワードと通常のウェイクワードを正確に区別することができる。
状況4、通常のウェイクワードは4つ以上の音節を有する単語であり、ターゲットウェイクワードは4つ未満の音節を有する単語である。
本状況は通常のウェイクワードとターゲットウェイクワードの内容について制限せず、状況2及び状況3を参照されたく、ターゲットウェイクワードが通常のウェイクワード内に含まれる。さらに、ターゲットウェイクワードと通常のウェイクワードの内容は完全に異なってもよく、例えば、ターゲットウェイクワードが「シャオドゥ」であり、通常のウェイクワードが「ショウゴ様」である。この場合、状況1に係る方法で検出してもよい。
本実施例におけるターゲットウェイクワードの音節数が少なくなり、特に4つの音節からダブル音節になり、これは、2つの漢字を発するという使用習慣など、実生活におけるユーザの使用習慣に合致し、直感的な体験がより人間的になり、機器とのコミュニケーションがより自然になり、人間の自然なコミュニケーションの仕方により合致する。
なお、上記の検出プロセスにおいて、第1の信頼度閾値要件と第2の信頼度閾値要件の両方を同時に満たす状況がある可能性があることを考慮すると、混乱を避けるために、通常のウェイクワードとターゲットウェイクワードを明確に区別する必要があり、また、現在の音声検出技術の限界により、4つの音節未満のターゲットウェイクワードの誤検出率が比較的高いため、通常のウェイクワードであると疑われると提示音を発することはいけず、そうしないと、ユーザに著しく迷惑をかけてしまう。これ以外にも、提示音がユーザに迷惑をかけるのをさらに回避するために、また、「ターゲットウェイクワード+音声コマンド」の方式が機器に対するユーザの操作を最大限にしやすいようにするために、実際にはターゲットウェイクワードである場合は、通常のウェイクワードとして検出することはいけず、実際には通常のウェイクワードである場合、少ない部分がターゲットウェイクワードとして検出することを許可する。これに基づいて、第1の信頼度が第1の信頼度閾値要件を満たす場合、第2の信頼度が第2の信頼度閾値要件を満たすか否かに関係なく、ターゲットウェイクワードとして検出し、第1の信頼度が第1の信頼度閾値要件に満たずかつ第2の信頼度が第2の信頼度閾値要件を満たす場合、通常のウェイクワードが検出されたと決定し、第1の信頼度が第1の信頼度閾値要件に満たずかつ第2の信頼度も第2の信頼度閾値要件を満たさない場合、いずれのウェイクワードが検出されなかったと決定する。
上記の実施例及び以下の実施例では、音声コマンドは、オーディオ信号におけるウェイクワードに続く部分を検出することによって得られる。図4aは本願の実施例におけるオーディオ信号の概略図である。ウェイクワードの前後にもオーディオ信号があり、ウェイクワードに対応するオーディオ信号はL1であり、ウェイクワードの後にあるオーディオ信号はL2であり、オーディオ信号が消えるまで続く。音声コマンドは、L2を検出することによって得られる。好ましくは、音声アクティビティ検出(Voice activity detection、VAD)技術を使用して、オーディオ信号が消えたか否かを検出する。
本実施例は、ユーザが停止することなく一度にウェイクワード+音声コマンドを話すのを許可し、音声コマンドの応答を完了するために1回のインタラクションのみが必要であり、インタラクションプロセスを簡素化する。なお、ここでのウェイクワードは、ターゲットウェイクワードと通常のウェイクワードに制限されない。
図4bは本願の実施例における第4の音声インタラクション制御方法のフローチャートであり、好ましくは、実行主体は音声インタラクション端末に制限され、「第1の信頼度が第1の信頼度閾値要件を満たす場合、音声コマンドを実行する」という操作を「第1の信頼度が第1の信頼度閾値要件を満たす場合、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出するように、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をサーバに送信すること、及びサーバから音声コマンドを取得して実行すること」ことに特定する。
図4bに示される音声インタラクション制御方法はS410~S460を含む。
S410、オーディオ信号を収集する。
S420、オーディオ信号におけるウェイクワードを検出する。
音声インタラクション端末はオーディオ信号をリアルタイムで収集し、また収集されたオーディオ信号を検出する。検出方法は上記実施例の説明を参照されたく、ここでは詳しく説明しない。音声インタラクション端末の検出能力が限られているため、4つの音節未満のターゲットウェイクワードの誤検出率は比較的高く、サーバはウェイクワードをさらに検出する必要がある。
S430、第1の信頼度が第1の信頼度閾値要件を満たすか否かを判断し、そうである場合、即ちターゲットウェイクワードを検出した場合、S440にジャンプし、そうではない場合、即ちターゲットウェイクワードを検出しなかった場合、S460にジャンプする。
S440、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出するように、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をサーバに送信する。S450を実行し続ける。
ターゲットウェイクワードを検出した後、提示音を再生せず、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を提示音なく透過伝送するのを実現する。
図4cは本願の実施例に係るスマートスピーカとクラウドサーバのインタラクション概略図である。スマートスピーカはターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をクラウドサーバに送信し、クラウドサーバは、受信されたオーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得する。ターゲットウェイクワードは音節数が少ないため、端末の誤判定率が高く(通常のウェイクワードやノイズがある可能性がある)、クラウドサーバは、オーディオ信号の先頭にウェイクワードとウェイクワードに続く音声コマンドが含まれているか否かを再検出する必要がある。オーディオ信号の先頭にあるウェイクワードの再検出について以下の実施例で説明する。
S450、サーバから音声コマンドを取得して実行する。
1つの応用シナリオでは、ユーザは、音声インタラクション端末に「シャオドゥ、ライトをオフにしなさい」という音声を一度に発し、端末は、ターゲットウェイクワード「シャオドゥ」を検出すると、提示音を発せず、「シャオドゥ、ライトをオフにしなさい」というオーディオ信号をサーバに直接送信する。サーバは、ターゲットウェイクワードを再検出するとともに、ターゲットウェイクワードに続くライトオフコマンドを検出し、ライトをオフにするように音声インタラクション端末を制御する。好ましい実施形態では、ライトに赤外線スイッチがあり、スマートスピーカに赤外線放射装置があると、この場合、クラウドサーバはライトオフコマンドを検出し、次いでライトオフの赤外線コードをスマートスピーカにフィードバックし、スマートスピーカは赤外線コードを送信してライトをオフにし、ライトオフを制御する。もう1つの好ましい実施形態では、ライトはローカルエリアネットワークを介してスマートスピーカのネットワークに接続され、クラウドサーバはライトオフコマンドを検出してスマートスピーカにライトオフコマンドを発行し、スマートスピーカはローカルエリアネットワークを介してライトオフコマンドをライトに送信し、ライトオフを制御する。
S460、提示音を再生する。
本実施例では、ターゲットウェイクワード及び音声コマンドに対応するオーディオ信号をサーバに送信することで、サーバはオーディオ信号の先頭にあるウェイクワード+音声コマンドを検出し、音声インタラクション端末から送信された「ターゲットウェイクワード+音声コマンド」と疑われるオーディオ信号は、オーディオ信号全体(すなわち、ターゲットウェイクワード+音声コマンド)として検出され、音声コマンドを検出することによって、先頭にあるウェイクワードの検出を効果的に支援し、音声コマンドが検出されなかった場合、ターゲットウェイクワードの検出が間違っていることを間接的に示し、誤検出率を下げる。
本願の実施例によれば、図5は本願の実施例における第5の音声インタラクション制御方法のフローチャートであり、本願の実施例はオーディオ信号全体を検出する状況に適する。該方法は音声インタラクション制御装置によって実行され、該装置はソフトウェア及び/またはハードウェアによって実現され、かつ具体的に特定のデータ演算能力を備えた電子機器に配置され、電子機器は音声インタラクション端末、サーバ及び他のスマート機器を含むが、これらに制限されず、音声インタラクション端末はスマートスピーカ、スマートホーム及びスマートウォッチなどを含むが、これらに制限されず、サーバはクラウドに実装されることが好ましい。
図5に示される音声インタラクション制御方法はS510~S530を含む。
S510、オーディオ信号を取得する。
本実施例におけるオーディオ信号は、収集されたオーディオ信号であってもよく、音声インタラクション端末から送信されたオーディオ信号であってもよい。上記の実施例の説明によれば、本実施例がサーバによって実行されるとき、音声インタラクション端末から送信されたオーディオ信号は、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を含む。これにより音声インタラクション端末とインタラクションを行うことによってコマンド応答を完了し、オーディオ信号を再検出するための高精度で、複雑かつ膨大なアルゴリズムをサーバに実装し、サーバの膨大な記憶容量と計算効率を利用することにより、再検出の精度を向上させるのに寄与し、さらにコマンド応答の精度を向上させる。
S520、オーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得する。
上記の実施例のように、ウェイクワードのみを簡単で検出した場合、ウェイクワード、特にターゲットウェイクワードは音節数が少ないため、誤検出率が高く、誤検出率を下げるために、本実施例は、オーディオ信号全体を検出する。
好ましくは、オーディオ信号の先頭にウェイクワードが含まれるか否かを先に検出し、そうである場合、ウェイクワードがターゲットウェイクワードであるか通常のウェイクワードであるかを検出し続ける必要がある。ターゲットウェイクワードと通常のウェイクワードに対する説明は上記の各実施例を参照されたく、ここでは詳しく説明しない。
ただし、オーディオ信号の先頭は、2秒または3秒の長さの信号など、所定期間の信号であってもよい。
先頭にあるウェイクワードの検出結果に応じて3つの状況を分けて後続のオーディオに対して音声コマンドの検出を行う。選択可能として、首部のターゲットウェイクワードが検出されたことをウェイクワードの検出結果が示す場合、オーディオ信号からターゲットウェイクワードに対応する部分を取り除き、残りのオーディオ信号を検出して音声コマンドまたは非インタラクション音声信号(即ち非音声信号またはユーザと他の人や物との間で交わされる信号)を得ることができる。通常のウェイクワードが検出されたことを首部のウェイクワードの検出結果が示す場合、オーディオ信号から通常のウェイクワードに対応する部分を取り除き、残りのオーディオ信号を検出して音声コマンドまたは非インタラクション音声信号を得ることができる。いずれのウェイクワードが検出されなかったがノイズであることを首部のウェイクワードの検出結果が示す場合、後続のオーディオ信号を検出しない。
S530、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御する。
ウェイクワードが検出されたか否かは、ユーザが機器の応答を期待しているか否かを示し、ターゲットウェイクワードと通常のウェイクワードは、ユーザが1回のインタラクションまたは2回のインタラクションのようなどのような方法でインタラクションしているかを示す。これに基づいて、提示音を再生すること、及び音声コマンドを実行することの少なくとも1つの操作を実行する。
選択可能として、首部のターゲットウェイクワードが検出されたことをウェイクワードの検出結果が示し、かつ音声コマンドが検出されたことを音声コマンドの結果が示す場合、音声コマンドを実行するように音声インタラクション端末を制御する。通常のウェイクワードが検出されたことを首部のウェイクワードの検出結果が示し、かつ音声コマンドが検出されたことを音声コマンドの結果とする場合、提示音を再生するように音声インタラクション端末を制御する。ターゲットウェイクワードまたは通常のウェイクワードが検出されたことを首部のウェイクワードの検出結果が示すが、非インタラクション音声信号が検出されたことを音声コマンドの結果とする場合、提示音を再生するように音声インタラクション端末を制御し、「もう一度話してください」という追加の問い合わせ音声を応答として発するなど、音声インタラクション端末への所望のコマンドを明確にするようにユーザをガイドする。選択可能として、いずれのウェイクワードが検出されなかったがノイズであることを首部のウェイクワードの検出結果とする場合、音声インタラクション端末にヌルコマンドを直接送信し、端末はヌルコマンドに応答しないので、ウェイクワードの誤検知によるシステムへの干渉を正常に解決する。
いくつかの状況では、通常のウェイクワードが検出されたことを首部のウェイクワードの検出結果とする場合、残りのオーディオ信号を検出せずに提示音を再生するように音声インタラクション端末を直接制御してもよく、提示音を再生するように音声インタラクション端末を制御するとともに音声コマンドを実行するように音声インタラクション端末を制御してもよい。
選択可能として、本実施例の実行主体がサーバである場合、音声コマンド及び/または提示音再生コマンドを音声インタラクション端末に発行してもよく、それにより提示音を再生すること、及び音声コマンドを実行することの少なくとも1つを実行するように音声インタラクション端末を制御する。
本実施例では、オーディオ信号を全体として検出し、音声コマンドを検出することによって、先頭にあるウェイクワードの検出を効果的に支援し、音声コマンドが検出されなかった場合、ターゲットウェイクワードの検出が間違っていることを間接的に示し、誤検出率を下げる。
本願の実施例によれば、図6は本願の実施例における第6の音声インタラクション制御方法のフローチャートであり、本実施例は、上記の実施例に基づいて音声インタラクション端末の制御プロセスを最適化する。
選択可能として、「ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御する」という操作を「第3の信頼度が第3の信頼度閾値要件を満たす場合、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御し、第3の信頼度が第3の信頼度閾値要件を満たさない場合、提示音を再生するように音声インタラクション端末を制御する」ことに特定する。
選択可能として、「ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御する」という操作を「第4の信頼度が第4の信頼度閾値要件を満たす場合、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御するかまたは提示音を再生するように音声インタラクション端末を制御し、第4の信頼度が第4の信頼度閾値要件に満たずかつ第3の信頼度が第3の信頼度閾値要件を満たさない場合、音声インタラクション端末にヌルコマンドを送信する」ことに特定する。
図6に示される音声インタラクション制御方法はS610~S660を含む。
S610、オーディオ信号を取得する。
S620、オーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得する。
S630、第3の信頼度が第3の信頼度閾値要件を満たすか否か、及び第4の信頼度が第4の信頼度閾値要件を満たすか否かを判断する。第3の信頼度が第3の信頼度閾値要件を満たす場合、S640にジャンプし、第3の信頼度が第3の信頼度閾値要件を満たさない場合、S650にジャンプし、第4の信頼度が第4の信頼度閾値要件を満たす場合、S640及び/またはS650にジャンプし、第4の信頼度が第4の信頼度閾値要件に満たずかつ第3の信頼度が第3の信頼度閾値要件を満たさない場合、S660にジャンプする。
ウェイクワードの結果は第3の信頼度及び第4の信頼度を含む。第3の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、第4の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられる。
第3(または第4)の信頼度要件は1つの信頼度閾値や1つの信頼度区間であってもよく、オーディオ信号の先頭がターゲットウェイクワード(または通常のウェイクワード)を含む確実度の臨界点を表現する。第3(または第4)の信頼度が第3(または第4)の信頼度閾値要件を満たす場合、例えば、第3(または第4)の信頼度閾値を超える場合、ターゲットウェイクワード(または通常のウェイクワード)が検出されたと見なされ、第3(または第4)の信頼度が第3(または第4)の信頼度閾値要件を満たさない場合、例えば、第3(または第4)の信頼度閾値を超えない場合、ターゲットウェイクワード(または通常のウェイクワード)が検出されなかったと見なされる。
S640、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御する。
S650、提示音を再生するように音声インタラクション端末を制御する。
S660、音声インタラクション端末にヌルコマンドを送信する。
ノイズによる誤検知と判別される場合、ウェイクアップが発生せずに音声インタラクション端末にヌルコマンドを直接送信し、端末はヌルコマンドに応答しないので、ウェイクワードの誤検知によるシステムへの干渉を正常に解決する。
ウェイクワードの結果及び音声コマンドの結果の検出については以下の実施例において詳しく紹介する。
本実施例は、信頼度の判断によりウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードであるか通常のウェイクワードであるかを明確にすることができ、音声コマンドの結果と合わせて端末への制御方式を決定することにより、ウェイクワード及び音声コマンドの検出精度を向上させる。
本願の実施例によれば、図7は本願の実施例における第7の音声インタラクション制御方法のフローチャートであり、本実施例は、上記の実施例に基づいてウェイクワード及び音声コマンドの検出プロセスを最適化する。
図7に示される音声インタラクション制御方法はS710~S760を含む。
S710、オーディオ信号を取得する。
S720、オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得する。
機器に認識テキストと呼ばれるオーディオ信号に対応するテキストを認識するためのデコーダが実装されている。ウェイクワードがオーディオ信号の先頭に位置するため、ウェイクワードも認識テキストの先頭に位置する。したがって、認識テキストの先頭からその中のターゲットウェイクワードまたは通常のウェイクワードを検出する。
S730、オーディオ信号の音響特徴表現とオーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、オーディオ信号のインタラクション信頼度を決定し、インタラクション信頼度は、端末とのインタラクションに使用される音声コマンドとしてのオーディオ信号の信頼性を示す。
音声インタラクション制御のプロセスでは、ユーザの真の音声コマンドにタイムリーで正確に応答することが期待されており、オーディオ信号の信頼度を判断する必要がある。具体的には、オーディオ信号及び/または認識テキストの全体角度からインタラクション信頼度を決定してもよく、該インタラクション信頼度は、該オーディオ信号が実際の音声であり、かつ該オーディオ信号はインタラクション用の音声コマンドであることを示す。オーディオ信号が実際の音声に属するか否かを判断することは、前の処理で音声のないサウンド(さまざまなアンビエントサウンドなど)が音声として検出されたり、サウンドからテキストが認識されたりするのを防ぐことができる。オーディオ信号がインタラクションのことに用いられるか否かを判断することは、ユーザが音声インタラクション端末とインタラクションを行うか、周囲の他の人とインタラクションを行うかを区別することに用いられる。
全体的なインタラクション信頼度の決定は、オーディオ信号の音響特徴表現に基づくか、及び/または認識テキストのテキスト特徴表現に基づくことができる。音響特徴表現は、音声と非音声の違いを捉えるのに役立ち、インタラクションに使用される音声とインタラクションに使用されない音声を区別することもできる。非音声のサウンド信号から認識されたテキストは通常無意味であり、人と音声インタラクション端末の間のインタラクションが意味的に区別することもできるため、認識テキストのテキスト特徴表現はセマンティックレベルから判断することができる。いくつかの実施例では、機械学習モデルを使用して、オーディオ信号と認識テキストに対する分析を実現することができる。
S740、認識テキストとオーディオ信号とのマッチングステータスを決定し、マッチングステータスは認識テキストがオーディオ信号に含まれる情報を正しく反映している度合いを示す。
認識テキストとサウンド信号とのマッチングステータスを決定し、マッチングステータスは認識テキストがオーディオ信号に含まれる情報を正しく反映している度合いを示す。インタラクション信頼度は、オーディオ信号が音声インタラクション端末とインタラクションを行うための音声コマンドであるか否かを確率的で判断するため、音声コマンドへの応答方法を決定するときは、通常、認識テキストに基づいてユーザの意図を理解する必要がある。
認識テキストは、異なる粒度で1つ以上のユニットのシーケンスとして表すことができ、各ユニットは、単語、音節、画像要素、フォン、サブフォン、またはこれらの組み合わせにしてもよい。認識テキストとオーディオ信号とのマッチングステータスは、認識テキストのユニットレベルにおいてオーディオ信号と認識テキストが1つずつマッチングするか否かを認識することができる。これにより、応答方法も決定する。いくつかの実施例では、機械学習モデルを使用して、認識テキストとオーディオ信号とのマッチングステータスを決定することもできる。
S750、インタラクション信頼度、マッチングステータス及び首部のウェイクワードの検出結果に基づいてウェイクワードの結果と音声コマンドの結果を得る。
選択可能として、S710~S750の操作は深層学習に基づく複数のニューラルネットワークモデルを使用して実現することができる。
S760、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御する。
選択可能として、認識テキストの先頭からターゲットウェイクワードが検出され、オーディオ信号のインタラクション信頼度が設定閾値より大きく、かつ認識テキストとオーディオ信号が1つずつマッチングするのを決定した場合、ターゲットウェイクワードに対応する第3の信頼度が高く、かつ音声コマンドが検出される。認識テキストの先頭からターゲットウェイクワードが検出され、オーディオ信号のインタラクション信頼度が設定閾値より大きい場合、ターゲットウェイクワードに対応する第3の信頼度が高いが、認識テキストとオーディオ信号がマッチングしていないとき、認識テキストから依然としてユーザの意図を正確に決定できる場合、依然として直ちに応答してもよく、認識テキストからユーザの意図を正確に決定できない場合、マッチングステータスに応じてユーザへのガイダンスフィードバックを決定し、応答として音声インタラクション端末への所望のコマンドを明確にするようにユーザをガイドする。認識テキストの先頭からターゲットウェイクワードが検出されたが、オーディオ信号のインタラクション信頼度が設定閾値以下である場合、第3の信頼度が低く、提示音を再生するように音声インタラクション端末を制御することができる。
選択可能として、認識テキストの先頭から通常のウェイクワードが検出され、オーディオ信号のインタラクション信頼度が設定閾値より大きく、かつ認識テキストとオーディオ信号が1つずつマッチングするのを決定した場合、ターゲットウェイクワードに対応する第4の信頼度が高く、音声コマンドが検出された場合、通常のウェイクワードに続く音声コマンドに応答し、及び/または提示音を再生するように音声インタラクション端末を制御することができる。認識テキストの先頭から通常のウェイクワードが検出されたが、オーディオ信号のインタラクション信頼度が設定閾値以下である場合、または認識テキストとオーディオ信号がマッチングしていないのを決定した場合、第4の信頼度が低く、音声インタラクション端末にヌルコマンドを送信する。
認識テキストの先頭からいずれのウェイクワードが検出されなかった場合、第3の信頼度と第4の信頼度が低く、音声インタラクション端末にヌルコマンドを送信する。
本実施例では、通常のウェイクワードが検出された場合、提示音を再生するように音声インタラクション端末を制御し、またはオーディオ信号における通常のウェイクワードに続く音声コマンドに応答し、それにより、通常のウェイクワードの提示音応答フロー及び音声インタラクションフローを両立させ、かつ通常のウェイクワード+音声コマンドの音声インタラクションフローを提供し、フォールトトレランスを向上させ、ユーザの多様な使用習慣に対応する。
さらに、インタラクション信頼度とマッチングステータスは、それぞれインタラクション音声の判断と認識テキストの詳細な評価の2つの側面から測定されるため、音声インタラクションを制御して正確かつ迅速に応答するのに役立ち、非音声信号には応答せず、音声コマンに属するがその中からテキストを正確に認識できない状況について、マッチングステータスに応じて応答方法をさらに決定することができる。具体的な例として、ユーザが「シャオドゥ、ジェイチョウのダオシャンを聴きたい」と言ったが、認識テキストが「シャオドゥ、ジェイチョウのターシャを聴きたい」とすると、一方では、テキストの先頭にあるターゲットウェイクワード「シャオドゥ」が認識され、他方では、インタラクション信頼度は、サウンド信号及び/または認識テキストに基づいてユーザが音声インタラクション端末とインタラクションを行っていることを決定したが、認識テキストにおける「ジェイチョウの…を聴きたい」のマッチング信頼度が高いが、「ターシャ」のマッチング信頼度が低い。この状況に応じて、認識テキストとオーディオ信号のマッチングステータスに基づいて、応答として、意図をさらに明確にするようにユーザをガイドすることができる。
本願の実施例によれば、図8は本願の実施例における第1の音声インタラクション制御装置の構造図であり、本願の実施例はオーディオ信号からウェイクワードを検出する状況に適し、該装置はソフトウェア及び/またはハードウェアによって実現され、かつ具体的に特定のデータ演算能力を備えた電子機器に配置される。
図8に示される音声インタラクション制御装置800は、
オーディオ信号を収集することに用いられる収集モジュール801と、
オーディオ信号におけるウェイクワードを検出することに用いられる検出モジュール802と、
検出されたウェイクワードの結果に基づいて提示音を再生する及び/またはオーディオ信号における音声コマンドを実行することに用いられる実行モジュール803と、を含む。
本実施例に係る音声インタラクション制御方法はユーザがウェイクワード+音声コマンドを発するのを許可し、オーディオ信号におけるウェイクワードを検出し、また検出されたウェイクワードの結果に基づいて提示音を再生する及び/または音声コマンドを実行することによって、1回のインタラクションで音声コマンドの応答を完了し、ユーザのニーズを満たし、インタラクションの長さを短くし、それにより音声コマンドがすばやく到着し、すばやく応答することができる。
さらに、ウェイクワードの結果は第1の信頼度を含み、第1の信頼度は、ターゲットウェイクワードを含むオーディオ信号の確実度を表現することに用いられ、実行モジュール803は、第1の信頼度が第1の信頼度閾値要件を満たす場合、オーディオ信号における音声コマンドを実行することに用いられるコマンド実行ユニットと、第1の信頼度が第1の信頼度閾値要件を満たさない場合、提示音を再生することに用いられる再生ユニットと、を含む。
さらに、該装置800は、検出されたウェイクワードの結果に基づいてオーディオ信号における音声コマンドを実行するときまたはその前、提示音を再生しないことに用いられる非再生モジュールを含む。
さらに、ウェイクワードの結果は第2の信頼度を含み、第2の信頼度は、通常のウェイクワードを含むオーディオ信号の確実度を表現することに用いられ、実行モジュール803は、検出されたウェイクワードの結果に基づいて提示音を再生するとき、具体的には、第2の信頼度が第2の信頼度閾値要件を満たしかつ第1の信頼度が第1の信頼度閾値要件を満たさない場合、提示音を再生することに用いられる。
さらに、通常のウェイクワードは少なくとも1つのターゲットウェイクワードを含み、検出モジュール802は、ウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得ることに用いられる初期検出モジュールと、初期検出した後の設定期間内においてターゲットウェイクワードを再検出し、再検出結果を得ることに用いられる再検出モジュールと、初期検出結果と再検出結果に基づいて第1の信頼度と第2の信頼度を決定することに用いられる決定モジュールと、を含む。
さらに、音声コマンドは、オーディオ信号におけるウェイクワードに続く部分を検出することによって得られる。
さらに、該装置800は音声インタラクション端末に配置され、コマンド実行ユニットは、第1の信頼度が第1の信頼度閾値要件を満たす場合、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出するように、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をサーバに送信することに用いられる送信サブユニットと、サーバから音声コマンドを取得して実行することに用いられる取得サブユニットと、を含む。
さらに、ターゲットウェイクワードは4つ未満の音節を有する単語であり、通常のウェイクワードは4つ以上の音節を有する単語である。
さらに、ターゲットウェイクワードと通常のウェイクワードは音節数が同じである。
上記の音声インタラクション制御装置は本願のいずれかの実施例に係る音声インタラクション制御方法を実行することができ、音声インタラクション制御方法を実行するための機能モジュールと有益な効果を有する。
本願の実施例によれば、図9は本願の実施例における第2の音声インタラクション制御装置の構造図であり、本願の実施例はオーディオ信号全体を検出する状況に適し、該装置はソフトウェア及び/またはハードウェアによって実現され、かつ具体的に特定のデータ演算能力を備えた電子機器に配置される。
図9に示される音声インタラクション制御装置900は、
オーディオ信号を取得することに用いられる取得モジュール901と、
オーディオ信号の先頭にあるウェイクワード、及びウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得することに用いられる検出モジュール902と、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御することに用いられる制御モジュール903と、を含む。
本実施例では、オーディオ信号を全体として検出し、音声コマンドを検出することによって、先頭にあるウェイクワードの検出を効果的に支援し、音声コマンドが検出されなかった場合、ターゲットウェイクワードの検出が間違っていることを間接的に示し、誤検出率を下げる。
さらに、ウェイクワードの結果は第3の信頼度を含み、第3の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、制御モジュール903は、第3の信頼度が第3の信頼度閾値要件を満たす場合、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御することに用いられる第1の実行ユニットと、第3の信頼度が第3の信頼度閾値要件を満たさない場合、提示音を再生するように音声インタラクション端末を制御する制御ユニットと、を含む。
さらに、ウェイクワードの結果は第4の信頼度を含み、第4の信頼度は、通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、制御モジュール903は、第4の信頼度が第4の信頼度閾値要件を満たす場合、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御する及び/または提示音を再生するように音声インタラクション端末を制御することに用いられる第2の実行ユニットと、第4の信頼度が第4の信頼度閾値要件に満たずかつ第3の信頼度が第3の信頼度閾値要件を満たさない場合、音声インタラクション端末にヌルコマンドを送信することに用いられる送信ユニットと、を含む。
さらに、検出モジュール902は、オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得することに用いられる検出ユニットと、インタラクション信頼度決定ユニットであって、オーディオ信号の音響特徴表現とオーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、オーディオ信号のインタラクション信頼度を決定することに用いられ、インタラクション信頼度は、端末とのインタラクションに使用される音声コマンドとしてのオーディオ信号の信頼性を示すインタラクション信頼度決定ユニットと、マッチングステータス決定ユニットであって、認識テキストとオーディオ信号とのマッチングステータスを決定することに用いられ、マッチングステータスは認識テキストがオーディオ信号に含まれる情報を正しく反映している度合いを示すマッチングステータス決定ユニットと、インタラクション信頼度、マッチングステータス及び首部のウェイクワードの検出結果に基づいてウェイクワードの結果と音声コマンドの結果を得ることに用いられる結果取得ユニットと、を含む。
さらに、該装置900はサーバに配置され、取得モジュール901は具体的には、音声インタラクション端末から送信されたオーディオ信号を受信することに用いられる。
上記の音声インタラクション制御装置は本願のいずれかの実施例に係る音声インタラクション制御方法を実行することができ、音声インタラクション制御方法を実行するための機能モジュールと有益な効果を有する。
本願の実施例によれば、本願は2つの電子機器及び1つの読み取り可能な記憶媒体をさらに提供する。
図10に示されるのは本願の実施例に係る音声インタラクション制御方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図する。電子機器は、さらに、パーソナルデジタルプロセシング、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング装置など、様々な形態のモバイル装置を表すことができる。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書に記載及び/または要求される本願の実現を制限することを意図していない。
図10に示すように、当該電子機器は、1つ以上のプロセッサ1001と、メモリ1002と、各部材を接続するための、高速インタフェース及び低速インタフェースを含むインタフェースとを含む。各部材は、異なるバスを介して互いに接続し、共通のマザーボード上に取り付けられてもよく、必要に応じて他の方法で取り付けられてもよい。プロセッサは、外部入力/出力装置(インタフェースに結合された表示機器)上にGUIのグラフィック情報を表示するために、メモリ内またはメモリ上に記憶されているコマンドを含む、電子機器内で実行されるコマンドを処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び/または複数のバスを複数のメモリ及び複数のメモリとともに使用してもよい。同様に、複数の電子機器を接続してもよく、各機器により一部の必要な操作(例えば、サーバアレイ、ブレードサーバセット、またはマルチプロセッサシステムなど)が提供される。図10では1つのプロセッサ1001を例に挙げている。
メモリ1002は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ただし、メモリには、少なくとも1つのプロセッサに本願に係る音声インタラクション制御方法を実行させるために、少なくとも1つのプロセッサによって実行可能なコマンドが記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願に係る音声インタラクション制御方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。
非一時的なコンピュータ読み取り可能な記憶媒体として、メモリ1002は、本願の実施例における音声インタラクション制御方法に対応するプログラムコマンド/モジュールなどの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール(例えば、図8に示される収集モジュール801、検出モジュール802及び実行モジュール803であり、また例えば、図9に示される取得モジュール901、検出モジュール902及び制御モジュール903である)を記憶するために用いられてもよい。プロセッサ1001は、メモリ1002に記憶されている非一時的なソフトウェアプログラム、コマンド、及びモジュールを実行することにより、電子機器の様々な機能適用及びデータ処理を実行し、すなわち、上記の方法の実施例における音声インタラクション制御方法を実現する。
メモリ1002は、プログラム記憶領域及びデータ記憶領域を含んでもよく、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、音声インタラクション制御の電子機器の使用に応じて作成されたデータなどを記憶することができる。また、メモリ1002は、高速ランダムアクセスメモリを含んでもよく、さらに、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステート記憶デバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ1002は選択可能として、プロセッサ1001に対して遠隔に設定されたメモリを含んでもよく、これらの遠隔メモリは、ネットワーク経由で音声インタラクション制御の電子機器に接続されることができる。上記のネットワークの例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに制限されるものではない。
音声インタラクション制御方法の電子機器は、入力装置1003及び出力装置1004をさらに含んでもよい。プロセッサ1001、メモリ1002、入力装置1003及び出力装置1004は、バスまたは他の方法を介して接続されてもよいが、図10ではバスを介して接続されることを例に挙げている。
入力装置1003は入力された数字または文字情報を受信し、電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、小型キーボード、マウス、トラックパッド、タッチパネル、指示レバー、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1004は、表示機器、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、プラズマディスプレイを含んでもよいが、これらに制限されるものではない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。
本願の実施例によれば、図11は本願の実施例における音声インタラクション制御システムの概略構造図であり、本実施例に係る音声インタラクション制御システム100は、通信接続された音声インタラクション端末10及びサーバ20を含み、サーバ20はクラウドに実装され、音声インタラクション端末10はスマートスピーカ、スマートホーム及びスマートウォッチを含むが、これらに制限されるものではない。図11を参照して音声インタラクション端末10及びサーバ20を詳細に説明する。
図11に示すように、音声インタラクション端末10は、オーディオ信号を収集し、前記オーディオ信号におけるウェイクワードを検出し、検出されたウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号と後続のオーディオ信号をサーバ20に送信し、及び/または提示音を再生し、サーバ20から返された音声コマンド及び/または提示音再生コマンドを受信して実行することに用いられる。
選択可能として、ここでのウェイクワードはターゲットウェイクワードや通常のウェイクワードであってもよい。ターゲットウェイクワードと通常のウェイクワードに対する説明は上記の実施例の記載を参照されたく、ここでは詳しく説明しない。
音声インタラクション端末10は提示音再生コマンドを実行することで提示音を再生する。
サーバ20は、前記音声インタラクション端末10から送信されたオーディオ信号を取得し、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得し、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末10に音声コマンド及び/または提示音再生コマンドを発行することに用いられる。
本実施例に係る音声インタラクション制御システムはユーザがウェイクワード+音声コマンドを発するのを許可し、1回のインタラクションで音声コマンドの応答を完了し、ユーザのニーズを満たし、インタラクションの長さを短くし、それにより音声コマンドがすばやく到着し、すばやく応答することができる。端末10はオーディオ信号におけるウェイクワードに対して初期検出し、ウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をサーバ20に送信し、それによりサーバ20は、受信されたオーディオ信号全体を再検出して、ウェイクワード及び音声コマンドの認識精度を向上させる。
選択可能として、ウェイクワードの結果は第1の信頼度を含み、前記第1の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、それに対応して、音声インタラクション端末10は、ウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバ20に送信するとき、具体的には、前記第1の信頼度が第1の信頼度閾値要件を満たす場合、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバ20に送信することに用いられ、音声インタラクション端末10は、ウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第1の信頼度が前記第1の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる。
選択可能として、音声インタラクション端末10は、前記サーバ20から返された音声コマンドを実行する前にまたはそのとき、前記提示音を再生しないことに用いられる。
選択可能として、ウェイクワードの結果は第2の信頼度を含み、前記第2の信頼度は、通常のウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、それに対応して、音声インタラクション端末10は、ウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第2の信頼度が第2の信頼度閾値要件を満たしかつ前記第1の信頼度が前記第1の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる。
選択可能として、通常のウェイクワードは少なくとも1つの前記ターゲットウェイクワードを含み、音声インタラクション端末10は、前記オーディオ信号におけるウェイクワードを検出するとき、具体的には、ウェイクワード検出モデルを使用して前記オーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得、前記初期検出した後の設定期間内において前記ターゲットウェイクワードを再検出し、再検出結果を得、前記初期検出結果と前記再検出結果に基づいて前記第1の信頼度と前記第2の信頼度を決定することに用いられる。
選択可能として、音声コマンドは、前記オーディオ信号における前記ウェイクワードに続く部分を検出することによって得られる。
選択可能として、ターゲットウェイクワードは4つ未満の音節を有する単語であり、通常のウェイクワードは4つ以上の音節を有する単語である。
選択可能として、ターゲットウェイクワードと通常のウェイクワードは音節数が同じである。
選択可能として、ウェイクワードの結果は第3の信頼度を含み、前記第3の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、サーバ20は、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末10に前記音声コマンド及び/または前記提示音再生コマンドを発行するとき、具体的には、前記第3の信頼度が第3の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声インタラクション端末10に前記音声コマンドを発行し、前記第3の信頼度が前記第3の信頼度閾値要件を満たさない場合、前記音声インタラクション端末10に提示音再生コマンドを発行することに用いられる。
選択可能として、ウェイクワードの結果は第4の信頼度を含み、前記第4の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、サーバ20は、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末10に前記音声コマンド及び/または前記提示音再生コマンドを発行するとき、具体的には、前記第4の信頼度が第4の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声インタラクション端末10に前記音声コマンド及び/または前記提示音再生コマンドを発行し、前記第4の信頼度が前記第4の信頼度閾値要件に満たずかつ前記第3の信頼度が前記第3の信頼度閾値要件を満たさない場合、前記音声インタラクション端末10にヌルコマンドを発行することに用いられる。
選択可能として、サーバ20は、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出するとき、具体的には、前記オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得し、前記オーディオ信号の音響特徴表現と前記オーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、前記オーディオ信号のインタラクション信頼度を決定し、前記インタラクション信頼度は、前記端末とのインタラクションに使用される音声コマンドとしての前記オーディオ信号の信頼性を示し、前記認識テキストと前記オーディオ信号とのマッチングステータスを決定し、前記マッチングステータスは前記認識テキストが前記オーディオ信号に含まれる情報を正しく反映している度合いを示し、前記インタラクション信頼度、前記マッチングステータス及び首部のウェイクワードの検出結果に基づいて前記ウェイクワードの結果と前記音声コマンドの結果を得ることに用いられる。
本実施例に係るシステムにおける音声インタラクション端末10及びサーバ20の詳細については、上記実施例の記載を参照し、上記実施例の技術的効果を有するため、ここでは詳しく説明しない。
ここで説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組み合わせによって実現されることができる。これらの様々な実施形態は、以下のようであってもよい。1つ以上のコンピュータプログラムに実行され、当該1つ以上のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/または解釈されてもよく、当該プログラマブルプロセッサは専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及びコマンドを受信し、かつデータ及びコマンドを当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信する。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械コマンドを含み、ハイレベルのプロセス及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械語でこれらのコンピュータプログラムを実行してもよい。本明細書で使用される用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、プログラマブルプロセッサに機械コマンド及び/またはデータを提供するための任意のコンピュータプログラム製品、機器、及び/または装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理機器(PLD))を指し、機械読み取り可能な信号として機械コマンドを受け取る機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械コマンド及び/またはデータをプログラマブルプロセッサに提供することに用いられる任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステムと技術は、コンピュータで実行されてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置(例えばCRT(陰極線管)やLCD(液晶ディスプレイ)モニター)、及びキーボードやポインティング装置(例えばマウスやトラックボール)を有し、ユーザは、当該キーボード及び当該ポインティング装置を介してコンピュータに入力を提供することができる。他の種類の装置はユーザとのインタラクションを提供することに用いられることもでき、例えば、ユーザに提供するフィードバックは、任意の形態の感知フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形態(サウンド入力、音声入力または触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明するシステムと技術は、バックエンド部材を含むコンピューティングシステム(例えば、データサーバとして)、またはミドルウェア部材を含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンド部材を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはインターネットブラウザを備えたユーザコンピュータであり、ユーザが当該グラフィカルユーザインタフェースまたは当該インターネットブラウザを介してここで説明するシステムと技術の実施形態とインタラクションを行うことができる)、またはこのようなバックエンド部材、ミドルウェア部材、またはフロントエンド部材の任意の組み合わせを含むコンピューティングシステム内で実施されてもよい。システムの部材は、任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって互いに接続されてもよい。通信ネットワークとしては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク及びインターネットなどが挙げられる。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションを行う。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであり、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとVPSサービスにおいて、管理の難易度が大きく、業務拡張性が弱いという欠点を解決する。
上記に示された様々な形態のフローは、ステップに対して順序変更、追加、または削除して使用できることが理解されたい。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できればよく、本明細書はここで制限しない。
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本願の趣旨と原則の範囲内で行われた変更、同等の置換、及び改善などは、本願の保護範囲に含まれるべきである。

Claims (43)

  1. 音声インタラクション制御方法であって、
    オーディオ信号を収集するステップと、
    前記オーディオ信号におけるウェイクワードを検出するステップと、
    検出されたウェイクワードの結果に基づいて提示音を再生する及び/または前記オーディオ信号における音声コマンドを実行するステップと、を含む、
    音声インタラクション制御方法。
  2. 前記ウェイクワードの結果は第1の信頼度を含み、前記第1の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
    検出されたウェイクワードの結果に基づいて提示音を再生する及び/または前記オーディオ信号における音声コマンドを実行するステップは、
    前記第1の信頼度が第1の信頼度閾値要件を満たす場合、前記音声コマンドを実行するステップと、
    前記第1の信頼度が前記第1の信頼度閾値要件を満たさない場合、前記提示音を再生するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 検出されたウェイクワードの結果に基づいて前記オーディオ信号における音声コマンドを実行するステップのときまたはその前に、
    前記提示音を再生しないステップをさらに含む、
    ことを特徴とする請求項1または2に記載の方法。
  4. 前記ウェイクワードの結果は第2の信頼度を含み、前記第2の信頼度は、通常のウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
    検出されたウェイクワードの結果に基づいて提示音を再生するステップは、
    前記第2の信頼度が第2の信頼度閾値要件を満たし、かつ前記第1の信頼度が前記第1の信頼度閾値要件を満たさない場合、前記提示音を再生するステップを含む、
    ことを特徴とする請求項2に記載の方法。
  5. 前記通常のウェイクワードは少なくとも1つの前記ターゲットウェイクワードを含み、
    前記オーディオ信号におけるウェイクワードを検出するステップは、
    ウェイクワード検出モデルを使用して前記オーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得るステップと、
    前記初期検出した後の設定期間内において前記ターゲットウェイクワードを再検出し、再検出結果を得るステップと、
    前記初期検出結果と前記再検出結果に基づいて前記第1の信頼度と前記第2の信頼度を決定するステップと、を含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記音声コマンドは、前記オーディオ信号における前記ウェイクワードに続く部分を検出することによって得られる、
    ことを特徴とする請求項1または2に記載の方法。
  7. 前記方法は音声インタラクション端末によって実行され、
    前記第1の信頼度が第1の信頼度閾値要件を満たす場合、前記音声コマンドを実行するステップは、
    前記第1の信頼度が第1の信頼度閾値要件を満たす場合、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及び前記ウェイクワードに続く音声コマンドを検出するように、前記ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信するステップと、
    前記サーバから前記音声コマンドを取得して実行するステップと、を含む、
    ことを特徴とする請求項2に記載の方法。
  8. 前記ターゲットウェイクワードは4つ未満の音節を有する単語であり、
    前記通常のウェイクワードは4つ以上の音節を有する単語である、
    ことを特徴とする請求項2、4、5または7に記載の方法。
  9. 前記ターゲットウェイクワードと前記通常のウェイクワードは音節数が同じである、
    ことを特徴とする請求項2、4、5または7に記載の方法。
  10. 音声インタラクション制御方法であって、
    オーディオ信号を取得するステップと、
    前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得するステップと、
    ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御するステップと、を含む、
    音声インタラクション制御方法。
  11. 前記ウェイクワードの結果は第3の信頼度を含み、前記第3の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
    ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御するステップは、
    前記第3の信頼度が第3の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声コマンドを実行するように前記音声インタラクション端末を制御するステップと、
    前記第3の信頼度が前記第3の信頼度閾値要件を満たさない場合、前記提示音を再生するように前記音声インタラクション端末を制御するステップと、を含む、
    ことを特徴とする請求項10に記載の方法。
  12. 前記ウェイクワードの結果は第4の信頼度を含み、前記第4の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
    ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御するステップは、
    前記第4の信頼度が第4の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声コマンドを実行する及び/または前記提示音を再生するように前記音声インタラクション端末を制御するステップと、
    前記第4の信頼度が前記第4の信頼度閾値要件に満たず、かつ前記第3の信頼度が前記第3の信頼度閾値要件を満たさない場合、前記音声インタラクション端末にヌルコマンドを送信するステップと、を含む、
    ことを特徴とする請求項11に記載の方法。
  13. 前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得するステップは、
    前記オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、先頭のウェイクワードの検出結果を取得するステップと、
    前記オーディオ信号の音響特徴表現と前記オーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、前記オーディオ信号のインタラクション信頼度を決定し、前記インタラクション信頼度は、前記端末とのインタラクションに使用される音声コマンドとしての前記オーディオ信号の信頼性を示すステップと、
    前記認識テキストと前記オーディオ信号とのマッチングステータスを決定し、前記マッチングステータスは前記認識テキストが前記オーディオ信号に含まれる情報を正しく反映している度合いを示すステップと、
    前記インタラクション信頼度、前記マッチングステータス及び先頭のウェイクワードの検出結果に基づいて前記ウェイクワードの結果と前記音声コマンドの結果を得るステップと、を含む、
    ことを特徴とする請求項10に記載の方法。
  14. 前記方法はサーバによって実行され、
    オーディオ信号を取得するステップは、
    音声インタラクション端末から送信された前記オーディオ信号を受信するステップを含む、
    ことを特徴とする請求項10~13のいずれかに記載の方法。
  15. 音声インタラクション制御装置であって、
    オーディオ信号を収集することに用いられる収集モジュールと、
    前記オーディオ信号におけるウェイクワードを検出することに用いられる検出モジュールと、
    検出されたウェイクワードの結果に基づいて提示音を再生する及び/または前記オーディオ信号における音声コマンドを実行することに用いられる実行モジュールと、を含む、
    音声インタラクション制御装置。
  16. 前記ウェイクワードの結果は第1の信頼度を含み、前記第1の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
    前記実行モジュールは、
    前記第1の信頼度が第1の信頼度閾値要件を満たす場合、前記音声コマンドを実行することに用いられるコマンド実行ユニットと、
    前記第1の信頼度が前記第1の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる再生ユニットと、を含む、
    ことを特徴とする請求項15に記載の装置。
  17. 検出されたウェイクワードの結果に基づいて前記オーディオ信号における音声コマンドを実行するときまたはその前に、前記提示音を再生しないことに用いられる非再生モジュールをさらに含む、
    ことを特徴とする請求項15または16に記載の装置。
  18. 前記ウェイクワードの結果は第2の信頼度を含み、前記第2の信頼度は、通常のウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
    前記実行モジュールは、検出されたウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第2の信頼度が第2の信頼度閾値要件を満たし、かつ前記第1の信頼度が前記第1の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる、
    ことを特徴とする請求項16に記載の装置。
  19. 前記通常のウェイクワードは少なくとも1つの前記ターゲットウェイクワードを含み、
    前記検出モジュールは、
    ウェイクワード検出モデルを使用して前記オーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得ることに用いられる初期検出モジュールと、
    前記初期検出した後の設定期間内において前記ターゲットウェイクワードを再検出し、再検出結果を得ることに用いられる再検出モジュールと、
    前記初期検出結果と前記再検出結果に基づいて前記第1の信頼度と前記第2の信頼度を決定することに用いられる決定モジュールと、を含む、
    ことを特徴とする請求項18に記載の装置。
  20. 前記音声コマンドは、前記オーディオ信号における前記ウェイクワードに続く部分を検出することによって得られる、
    ことを特徴とする請求項15または16に記載の装置。
  21. 前記装置は音声インタラクション端末に配置され、
    前記コマンド実行ユニットは、
    前記第1の信頼度が第1の信頼度閾値要件を満たす場合、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及び前記ウェイクワードに続く音声コマンドを検出するように、前記ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信することに用いられる送信サブユニットと、
    前記サーバから前記音声コマンドを取得して実行することに用いられる取得サブユニットと、を含む、
    ことを特徴とする請求項16に記載の装置。
  22. 前記ターゲットウェイクワードは4つ未満の音節を有する単語であり、
    前記通常のウェイクワードは4つ以上の音節を有する単語である、
    ことを特徴とする請求項16、18、19または21に記載の装置。
  23. 前記ターゲットウェイクワードと前記通常のウェイクワードは音節数が同じである、
    ことを特徴とする請求項16、18、19または21に記載の装置。
  24. 音声インタラクション制御装置であって、
    オーディオ信号を取得することに用いられる取得モジュールと、
    前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得することに用いられる検出モジュールと、
    ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び/または音声コマンドを実行するように音声インタラクション端末を制御することに用いられる制御モジュールと、を含む、
    音声インタラクション制御装置。
  25. 前記ウェイクワードの結果は第3の信頼度を含み、前記第3の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
    前記制御モジュールは、
    前記第3の信頼度が第3の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声コマンドを実行するように前記音声インタラクション端末を制御することに用いられる第1の実行ユニットと、
    前記第3の信頼度が前記第3の信頼度閾値要件を満たさない場合、前記提示音を再生するように前記音声インタラクション端末を制御することに用いられる制御ユニットと、を含む、
    ことを特徴とする請求項24に記載の装置。
  26. 前記ウェイクワードの結果は第4の信頼度を含み、前記第4の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
    前記制御モジュールは、
    前記第4の信頼度が第4の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声コマンドを実行する及び/または前記提示音を再生するように前記音声インタラクション端末を制御することに用いられる第2の実行ユニットと、
    前記第4の信頼度が前記第4の信頼度閾値要件に満たず、かつ前記第3の信頼度が前記第3の信頼度閾値要件を満たさない場合、前記音声インタラクション端末にヌルコマンドを送信することに用いられる送信ユニットと、を含む、
    ことを特徴とする請求項25に記載の装置。
  27. 前記検出モジュールは、
    前記オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得することに用いられる検出ユニットと、
    前記オーディオ信号の音響特徴表現と前記オーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、前記オーディオ信号のインタラクション信頼度を決定することに用いられるインタラクション信頼度決定ユニットであって、前記インタラクション信頼度は、前記端末とのインタラクションに使用される音声コマンドとしての前記オーディオ信号の信頼性を示すインタラクション信頼度決定ユニットと、
    前記認識テキストと前記オーディオ信号とのマッチングステータスを決定することに用いられるマッチングステータス決定ユニットであって、前記マッチングステータスは前記認識テキストが前記オーディオ信号に含まれる情報を正しく反映している度合いを示すマッチングステータス決定ユニットと、
    前記インタラクション信頼度、前記マッチングステータス及び首部のウェイクワードの検出結果に基づいて前記ウェイクワードの結果と前記音声コマンドの結果を得ることに用いられる結果取得ユニットと、を含む、
    ことを特徴とする請求項24に記載の装置。
  28. 前記装置はサーバに配置され、
    前記取得モジュールは、音声インタラクション端末から送信された前記オーディオ信号を受信することに用いられる、
    ことを特徴とする請求項24~27のいずれかに記載の装置。
  29. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドは、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1~9のいずれかに記載の音声インタラクション制御方法を実行できる、
    電子機器。
  30. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドは、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項10~14のいずれかに記載の音声インタラクション制御方法を実行できる、
    電子機器。
  31. コンピュータコマンドが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータコマンドは請求項1~14のいずれかに記載の音声インタラクション制御方法を前記コンピュータに実行させることに用いられる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  32. 音声インタラクション制御システムであって、
    音声インタラクション端末及びサーバを含み、
    前記音声インタラクション端末は、オーディオ信号を収集し、前記オーディオ信号におけるウェイクワードを検出し、検出されたウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信する及び/または提示音を再生し、前記サーバから返された音声コマンド及び/または提示音再生コマンドを受信して実行することに用いられ、
    前記サーバは、前記音声インタラクション端末から送信されたオーディオ信号を受信し、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得しウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末に前記音声コマンド及び/または前記提示音再生コマンドを発行することに用いられる、
    音声インタラクション制御システム。
  33. 前記ウェイクワードの結果は第1の信頼度を含み、前記第1の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
    前記音声インタラクション端末は、検出されたウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信するとき、具体的には、前記第1の信頼度が第1の信頼度閾値要件を満たす場合、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信することに用いられ、
    前記音声インタラクション端末は、検出されたウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第1の信頼度が前記第1の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる、
    ことを特徴とする請求項32に記載のシステム。
  34. 前記音声インタラクション端末は、前記サーバから返された音声コマンドを実行するときまたはその前に、前記提示音を再生しないことに用いられる、
    ことを特徴とする請求項32または33に記載のシステム。
  35. 前記ウェイクワードの結果は第2の信頼度を含み、前記第2の信頼度は、通常のウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
    前記音声インタラクション端末は、検出されたウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第2の信頼度が第2の信頼度閾値要件を満たし、かつ前記第1の信頼度が前記第1の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる、
    ことを特徴とする請求項33に記載のシステム。
  36. 前記通常のウェイクワードは少なくとも1つの前記ターゲットウェイクワードを含み、
    前記音声インタラクション端末は、前記オーディオ信号におけるウェイクワードを検出するとき、具体的には、
    ウェイクワード検出モデルを使用して前記オーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得、
    前記初期検出した後の設定期間内において前記ターゲットウェイクワードを再検出し、再検出結果を得、
    前記初期検出結果と前記再検出結果に基づいて前記第1の信頼度と前記第2の信頼度を決定することに用いられる、
    ことを特徴とする請求項35に記載のシステム。
  37. 前記音声コマンドは、前記オーディオ信号における前記ウェイクワードに続く部分を検出することによって得られる、
    ことを特徴とする請求項32または33に記載のシステム。
  38. 前記ターゲットウェイクワードは4つ未満の音節を有する単語であり、
    前記通常のウェイクワードは4つ以上の音節を有する単語である、
    ことを特徴とする請求項33、35または36に記載のシステム。
  39. 前記ターゲットウェイクワードと前記通常のウェイクワードは音節数が同じである、
    ことを特徴とする請求項33、35または36に記載のシステム。
  40. 前記ウェイクワードの結果は第3の信頼度を含み、前記第3の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
    前記サーバは、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末に前記音声コマンド及び/または前記提示音再生コマンドを発行するとき、具体的には、
    前記第3の信頼度が第3の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声インタラクション端末に前記音声コマンドを発行し、
    前記第3の信頼度が前記第3の信頼度閾値要件を満たさない場合、前記音声インタラクション端末に提示音再生コマンドを発行することに用いられる、
    ことを特徴とする請求項32に記載のシステム。
  41. 前記ウェイクワードの結果は第4の信頼度を含み、前記第4の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
    前記サーバは、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末に前記音声コマンド及び/または前記提示音再生コマンドを発行するとき、具体的には、
    前記第4の信頼度が第4の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声インタラクション端末に前記音声コマンド及び/または前記提示音再生コマンドを発行し、
    前記第4の信頼度が前記第4の信頼度閾値要件に満たずかつ前記第3の信頼度が前記第3の信頼度閾値要件を満たさない場合、前記音声インタラクション端末にヌルコマンドを発行することに用いられる、
    ことを特徴とする請求項40に記載のシステム。
  42. 前記サーバは、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出するとき、具体的には、
    前記オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得し、
    前記オーディオ信号の音響特徴表現と前記オーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、前記オーディオ信号のインタラクション信頼度を決定し、前記インタラクション信頼度は、前記端末とのインタラクションに使用される音声コマンドとしての前記オーディオ信号の信頼性を示し、
    前記認識テキストと前記オーディオ信号とのマッチングステータスを決定し、前記マッチングステータスは前記認識テキストが前記オーディオ信号に含まれる情報を正しく反映している度合いを示し、
    前記インタラクション信頼度、前記マッチングステータス及び首部のウェイクワードの検出結果に基づいて前記ウェイクワードの結果と前記音声コマンドの結果を得ることに用いられる、
    ことを特徴とする請求項32に記載のシステム。
  43. コンピュータ上に実行される場合、前記コンピュータに請求項1~14のいずれかに記載の音声インタラクション制御方法を実行させる、
    コンピュータプログラム。
JP2021002323A 2020-06-30 2021-01-08 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム Active JP7328265B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010622594.5 2020-06-30
CN202010622594.5A CN111768783B (zh) 2020-06-30 2020-06-30 语音交互控制方法、装置、电子设备、存储介质和系统

Publications (2)

Publication Number Publication Date
JP2022013610A true JP2022013610A (ja) 2022-01-18
JP7328265B2 JP7328265B2 (ja) 2023-08-16

Family

ID=72723342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021002323A Active JP7328265B2 (ja) 2020-06-30 2021-01-08 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム

Country Status (5)

Country Link
US (2) US11615784B2 (ja)
EP (1) EP3933831A1 (ja)
JP (1) JP7328265B2 (ja)
KR (1) KR20210088467A (ja)
CN (1) CN111768783B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11756531B1 (en) * 2020-12-18 2023-09-12 Vivint, Inc. Techniques for audio detection at a control system
US20220293109A1 (en) * 2021-03-11 2022-09-15 Google Llc Device arbitration for local execution of automatic speech recognition
CN113010216B (zh) * 2021-03-12 2021-10-08 深圳市超维实业有限公司 一种基于吸顶灯唤醒事件的管理方法
CN113488053A (zh) * 2021-08-10 2021-10-08 合肥美菱物联科技有限公司 一种茶吧机的语音模块唤醒控制方法
CN113674732B (zh) * 2021-08-16 2022-05-17 北京百度网讯科技有限公司 语音置信度检测方法、装置、电子设备和存储介质
CN114979781A (zh) * 2022-04-22 2022-08-30 海信视像科技股份有限公司 显示设备、设备控制方法及可读存储介质
CN114974308A (zh) * 2022-06-20 2022-08-30 宁波奥克斯电气股份有限公司 一种语音模块自动测试方法及系统
CN117334198B (zh) * 2023-09-14 2024-04-30 中关村科学城城市大脑股份有限公司 语音信号处理方法、装置、电子设备和计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019026313A1 (ja) * 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
US20200013407A1 (en) * 2019-05-21 2020-01-09 Lg Electronics Inc. Method and apparatus for recognizing a voice
JP2020502555A (ja) * 2016-10-19 2020-01-23 ソノズ インコーポレイテッド アービトレーションに基づく音声認識

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US11164570B2 (en) * 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
US10510340B1 (en) * 2017-12-05 2019-12-17 Amazon Technologies, Inc. Dynamic wakeword detection
CN108538293B (zh) * 2018-04-27 2021-05-28 海信视像科技股份有限公司 语音唤醒方法、装置及智能设备
CN109215647A (zh) * 2018-08-30 2019-01-15 出门问问信息科技有限公司 语音唤醒方法、电子设备及非暂态计算机可读存储介质
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
CN109545207A (zh) * 2018-11-16 2019-03-29 广东小天才科技有限公司 一种语音唤醒方法及装置
US10861446B2 (en) * 2018-12-10 2020-12-08 Amazon Technologies, Inc. Generating input alternatives
CN109360567B (zh) * 2018-12-12 2021-07-20 思必驰科技股份有限公司 可定制唤醒的方法和装置
CN109584878A (zh) * 2019-01-14 2019-04-05 广东小天才科技有限公司 一种语音唤醒方法及系统
CN109754788B (zh) * 2019-01-31 2020-08-28 百度在线网络技术(北京)有限公司 一种语音控制方法、装置、设备及存储介质
US11361756B2 (en) * 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
CN110534102B (zh) * 2019-09-19 2020-10-30 北京声智科技有限公司 一种语音唤醒方法、装置、设备及介质
CN110570861B (zh) * 2019-09-24 2022-02-25 Oppo广东移动通信有限公司 用于语音唤醒的方法、装置、终端设备及可读存储介质
CN110718212A (zh) * 2019-10-12 2020-01-21 出门问问信息科技有限公司 语音唤醒方法、装置及系统、终端和计算机可读存储介质
CN110718223B (zh) * 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020502555A (ja) * 2016-10-19 2020-01-23 ソノズ インコーポレイテッド アービトレーションに基づく音声認識
WO2019026313A1 (ja) * 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
US20200013407A1 (en) * 2019-05-21 2020-01-09 Lg Electronics Inc. Method and apparatus for recognizing a voice

Also Published As

Publication number Publication date
US20210407494A1 (en) 2021-12-30
CN111768783B (zh) 2024-04-02
KR20210088467A (ko) 2021-07-14
CN111768783A (zh) 2020-10-13
US11615784B2 (en) 2023-03-28
US20210407496A1 (en) 2021-12-30
EP3933831A1 (en) 2022-01-05
JP7328265B2 (ja) 2023-08-16
US11823662B2 (en) 2023-11-21

Similar Documents

Publication Publication Date Title
JP7328265B2 (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
US20230267921A1 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
JP6325626B2 (ja) ハイブリッド性能スケーリングまたは音声認識
KR102371313B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
CN112466302B (zh) 语音交互的方法、装置、电子设备和存储介质
KR101986354B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
KR102413616B1 (ko) 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성
CN114041283A (zh) 利用事件前和事件后输入流来接洽自动化助理
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
EP3966809B1 (en) Wake word selection assistance architectures and methods
US20140304606A1 (en) Information processing apparatus, information processing method and computer program
US20140303975A1 (en) Information processing apparatus, information processing method and computer program
JP7063937B2 (ja) 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
US20200219487A1 (en) Information processing apparatus and information processing method
KR20190096308A (ko) 전자기기
KR20200099380A (ko) 음성 인식 서비스를 제공하는 방법 및 그 전자 장치
KR20230005966A (ko) 거의 일치하는 핫워드 또는 구문 검출
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
KR102061206B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
US20230215422A1 (en) Multimodal intent understanding for automated assistant
US11501762B2 (en) Compounding corrective actions and learning in mixed mode dictation
CN118339609A (zh) 自动化助理装置之间的暖词仲裁
CN115148188A (zh) 语种识别方法、装置、电子设备和介质
KR20200092763A (ko) 사용자 음성을 처리하는 전자장치 및 그 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230803

R150 Certificate of patent or registration of utility model

Ref document number: 7328265

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150