JP2022529708A - 音声認識デバイス及びそのウェイクアップ応答方法、コンピュータ記憶媒体 - Google Patents

音声認識デバイス及びそのウェイクアップ応答方法、コンピュータ記憶媒体 Download PDF

Info

Publication number
JP2022529708A
JP2022529708A JP2021562155A JP2021562155A JP2022529708A JP 2022529708 A JP2022529708 A JP 2022529708A JP 2021562155 A JP2021562155 A JP 2021562155A JP 2021562155 A JP2021562155 A JP 2021562155A JP 2022529708 A JP2022529708 A JP 2022529708A
Authority
JP
Japan
Prior art keywords
response element
response
central device
wake
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021562155A
Other languages
English (en)
Other versions
JP7279992B2 (ja
Inventor
瑞澄 何
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Guangdong Midea White Goods Technology Innovation Center Co Ltd
Original Assignee
Midea Group Co Ltd
Guangdong Midea White Goods Technology Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd, Guangdong Midea White Goods Technology Innovation Center Co Ltd filed Critical Midea Group Co Ltd
Publication of JP2022529708A publication Critical patent/JP2022529708A/ja
Application granted granted Critical
Publication of JP7279992B2 publication Critical patent/JP7279992B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本願は、一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、中枢デバイスにより音声信号を収集し分析することで、中枢デバイスの応答要素を得ることと、非中枢デバイスにより音声信号を収集し分析することで得られた非中枢デバイスの応答要素を受信することと、中枢デバイスの応答要素と非中枢デバイスの応答要素を比較することと、エリアネットワークにおける音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含む音声認識デバイスのウェイクアップ応答方法、音声認識デバイス及びコンピュータ記憶媒体を開示する。本願によるウェイクアップ応答方法によれば、当該音声信号に応答できる複数の音声認識デバイスから当該音声信号に応答する一つのデバイスを決定することが可能になる。

Description

本願は音声ウェイクアップの分野に関し、特に、音声認識デバイスのウェイクアップ応答方法、音声認識デバイス及びコンピュータ記憶媒体に関する。
本願は2019年4月26日に提出された出願番号が2019103430678、発明の名称が「音声認識デバイス及びそのウェイクアップ応答方法、コンピュータ記憶媒体」である中国特許出願の優先権を主張し、その内容のすべてを援用により本願に組み込んだ。
音声認識や音声対話等の技術は複数の分野において適用されており、音声認識システムを搭載したデバイスは音声信号を受け取った場合、ウェイクアップされてから音声信号に応答することが一般的である。
同一領域又は複数の隣接領域にある複数の音声認識デバイスは、同時に音声信号によりウェイクアップされて応答することが発生する可能性があり、通常のシーンでは、ユーザは一つの音声認識デバイスのみをウェイクアップするはずであるのが言うまでもなく、また、複数の音声認識デバイスの同時ウェイクアップと応答により複数の音声認識デバイス同士が互いに干渉してしまい、例えば、一つの音声認識デバイスが前記音声信号に応答して朗読した声を別の音声認識デバイスが受け取って応答し、逆もまた同様であり、即ち、互いに干渉することが発生してしまう。
本願は、従来技術による複数の音声認識デバイスが同時にウェイクアップ音声に応答することで互いに干渉することを解決するために、音声認識デバイスのウェイクアップ応答ウェイクアップ応答方法、音声認識デバイス及びコンピュータ記憶媒体を提供する。
上記した技術的課題を解決するために、本願は、一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、中枢デバイスにより音声信号を収集し分析することで、中枢デバイスの応答要素を得ることと、非中枢デバイスにより音声信号を収集し分析することで得られた非中枢デバイスの応答要素を受信することと、中枢デバイスの応答要素と非中枢デバイスの応答要素を比較することと、エリアネットワークにおける音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含む音声認識デバイスのウェイクアップ応答ウェイクアップ応答方法を提供する。
上記した技術的課題を解決するために、本願は、一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、非中枢デバイスにより音声信号を収集し分析することで、非中枢デバイスの応答要素を得ることと、中枢デバイスへ非中枢デバイスの応答要素を送信し、中枢デバイスにより非中枢デバイスの応答要素と中枢デバイスの応答要素を比較することで、エリアネットワークにおける音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含む音声認識デバイスのウェイクアップ応答ウェイクアップ応答方法を提供する。
上記した技術的課題を解決するために、本願は、コンピュータプログラムを実行することでウェイクアップ応答方法の手順を実現するためのプロセッサと、コンピュータプログラムが記憶されているメモリとを含む音声認識デバイスを提供する。
上記した技術的問題を解決するために、本願は、実行されることで上記ウェイクアップ応答方法の手順を実現するコンピュータプログラムが記憶されているコンピュータ記憶媒体を提供する。
本願によるウェイクアップ応答方法では、複数の音声認識デバイスからエリアネットワークが構成され、音声認識デバイスはいずれも音声信号を収集し、そして収集された音声信号を分析することで応答要素を得る。複数の音声認識デバイスは一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる。中枢デバイスはその自体の応答要素を取得しながら、非中枢デバイスの応答要素を受信し、そして、自体の応答要素と非中枢デバイスの応答要素を比較することで、本エリアネットワークにおける音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定する。本願では、エリアネットワークを構成する音声認識デバイスは音声信号によりウェイクアップされた場合ではしばらく応答せず、どのデバイスから応答するかを中枢デバイスにより決定することで、複数の音声認識デバイスのいずれも応答することに起因して互いに干渉することは回避されている。
本願による音声認識デバイスを互いに接続したネットワークの構造模式図である。 本願による音声認識デバイスのウェイクアップ応答方法を単一エリアネットワークに適用したフロー模式図である。 本願による音声認識デバイスのウェイクアップ応答方法をマルチエリアネットワークに適用したフロー模式図である。 本願による音声認識デバイスのウェイクアップ応答方法の中枢デバイスでの作動フロー模式図である。 本願による音声認識デバイスウェイクアップ応答方法の非中枢デバイスでの作動フロー模式図である。 本願による音声認識デバイスの一実施例の構造模式図である。 本願によるコンピュータ記憶媒体の一実施例の構造模式図である。
本発明の技術的解決手段を当業者がより良好に理解できるようにするために、本願による音声認識デバイスのウェイクアップ応答方法、音声認識デバイス及びコンピュータ記憶媒体を図面と具体的な実施形態に合わせて以下でさらに詳細に説明する。
本願によるウェイクアップ応答方法は複数の音声認識デバイスがいずれも同一の音声信号に応答可能な場合に適用されるものであり、このような場合、家電の分野を例とすれば、同一領域又は複数の隣接領域に複数の家電機器が存在しており、それらの家電機器はいずれも音声認識機能を持ち、つまり音声認識デバイスとして機能するものである。例えば、客間領域にはテレビ、空調機、冷蔵庫等の音声認識デバイスが存在し、台所領域には冷蔵庫、電子レンジ、電気ポット、炊飯器等の音声認識デバイスが存在している。ユーザが客間領域から音声信号を出すと、声の伝播特性から、客間領域内の複数の家電機器はいずれもこの音声信号を受け取って応答する可能性があり、この場合、家電機器Aが答えた声を家電機器Bが受け取って応答することも発生し得るので、家電機器同士が互いに干渉してしまい、正常にユーザの需要に答えることができなくなった。また、例えばユーザが客間領域と台所領域との間から音声信号を出すと、二つの領域のいずれにおいても音声信号を受け取って応答する可能性があり、互いに干渉することも発生してしまった。
本願による音声認識デバイスはウェイクアップされてから応答するモード、即ち、ユーザが出した音声信号によりウェイクアップされてから応答し返答するものである。これに対して、本願はウェイクアップと応答との間に選択・決定メカニズムを導入し、即ち、音声信号によりウェイクアップされた場合ではしばらく応答せず、応答する必要になるのを確認してから返答するものとされている。
具体的には、単一領域の場合、複数の音声認識デバイスを互いに接続してエリアネットワークを構成し、その一つの音声認識デバイスをこのエリアネットワークにおける中枢デバイスとし、本エリアネットワークにおけるどの音声認識デバイスにより当該音声信号に応答するかを中枢デバイスにて決定する。
複数領域の場合、まず、エリアネットワーク毎における中枢デバイスにより本エリアネットワークにおいて音声信号に応答する応答予定音声認識デバイスを決定した後、どのエリアネットワークにおける応答予定音声認識デバイスにより応答するかをすべての中枢デバイスにおける一つの第一中枢デバイスにて決定することで、複数の音声認識デバイスのいずれも音声信号に応答することに起因して互いに干渉することは解決される。
家電の分野に適用する場合、中枢デバイスはいつでもユーザの音声信号に対応して音声信号に応答するデバイスを決定する必要があるので、長期間に電源に接続されてほとんど停電しない家電機器を選択するのが一般的であり、また、ネットワークにおける中枢デバイスとして対話スクリーンを有する家電機器を優先的に選択し、これは、対話スクリーンを介すれば、関連設定を行いやすくなるためである。例えば、冷蔵庫を中枢デバイスとする。
一般には、領域毎例えば客間領域、台所領域のいずれにおいて家電機器のそれぞれによりエリアネットワークを構成でき、このエリアネットワークは領域の区分に対応し、ネットワーク接続から言えば、必ずしも独立したエリアネットワークを構成せず、即ち、家庭中のすべての領域の家電機器は互いに接続して一体となる家電機器ネットワークを構成することがある。
本願によるネットワークは、WIFI無線ネットワークからなるローカルエリアネットワーク、有線ネットワークからなるローカルエリアネットワーク、ブルートゥース(登録商標)meshからなるローカルエリアネットワーク、zigbeeからなるローカルエリアネットワーク、RS485からなるローカルエリアネットワーク、LoRaからなるローカルエリアネットワーク、1394からなるローカルエリアネットワーク、CANからなるローカルエリアネットワーク等を含むがそれらに限らない。ネットワークの通信メカニズムはUDP、TCP/IP、HTTP、MQTT、CoAP等を含むがそれらに限らなく、同一ネットワークの音声認識デバイス毎が迅速かつ確実に情報対話を行えればよい。
以下で、音声認識デバイスからなるネットワークをもとに本願によるウェイクアップ応答方法を説明する。
図1を参照し、本願による音声認識デバイスを互いに接続したネットワークの構造模式図である。図1では、領域は客間領域A、台所領域B、寝室領域Cに分けられ、客間領域Aにおいて、音声認識デバイスは冷蔵庫A1、テレビA2、空気清浄機A3を含み、台所領域Bにおいて、音声認識デバイスはレンジフードB1、炊飯器B2、高速ブレンダB3を含み、寝室領域Cにおいて、音声認識デバイスは空調機C1、加湿器C2を含む。すべての的音声認識デバイスを接続してネットワークを構成しており、領域毎の音声認識デバイスからエリアネットワークも構成されている。
エリアネットワーク毎における音声デバイスは一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられ、本エリアネットワークにおいて音声信号に応答する応答予定音声認識デバイスを中枢デバイスにて決定する。すべてのエリアネットワークの中枢デバイスはさらに一つの第一中枢デバイスと少なくとも一つの第二中枢デバイスとに分けられ、具体的にどのエリアネットワークにおける応答予定音声認識デバイスにより音声信号に応答するかを第一中枢デバイスにて決定する。
本願のいくつかの実施例では、エリアネットワークにおける音声デバイスは中枢デバイスと非中枢デバイスとに分けられるのみならず、さらにウェイクアップ優先順位をも有し、ウェイクアップ優先順位は音声認識デバイスの出荷時にメーカにより設定されてもよく、接続によりネットワークを構成した場合、ウェイクアップ優先順位の最も高い音声認識デバイスは自動的にエリアネットワークの中枢デバイスとなり、また、ウェイクアップ優先順位はネットワークを構築する時に設定されてもよく、つまり、ユーザ自らにより設定されてもよいし、又はネットワークを作るプロバイダにより設定されてもよく、それにより、ウェイクアップ優先順位の最も高い音声認識デバイスはネットワークの中枢デバイスとなる。
図1に示されるネットワークでは、客間領域Aの優先順位はA1>A2>A3、台所領域Bの優先順位はB1>B2>B3、寝室領域Cの優先順位はC1>C2とされており、ただし、A1、B1、C1はそれぞれの所在するエリアネットワークの中枢デバイスとなる。各エリアネットワークの中枢デバイス同士についても優先順位はA1>B1>C1とされ、本願では、A1は第一中枢デバイス、B1とC1は第二中枢デバイスとなる。
図1に示されるネットワークによれば、単一領域でのウェイクアップ応答及び複数領域でのウェイクアップ応答が実現可能になる。具体的には、図2と図3を参照し、図2は本願による音声認識デバイスのウェイクアップ応答方法を単一エリアネットワークに適用したフロー模式図であり、図3は本願による音声認識デバイスのウェイクアップ応答方法をマルチエリアネットワークに適用したフロー模式図である。
図2に示されるように、単一エリアネットワークにおいては、下記手順によりウェイクアップ応答方法が実現される。
S201:音声認識デバイスにより音声信号を収集し分析することで、応答要素を得る。
本ステップでは、音声認識デバイスは主に二つの動作つまり収集と分析を行う。ユーザつまり信号源から音声信号を出した後、音声認識デバイスはいずれも音声信号を収集できるが、ユーザに対する音声認識デバイス毎の相対位置が異なるため、収集された音声信号も異なっている。そのうち、ユーザから遠い音声認識デバイスはエリアネットワークにあるが、音声信号を収集できない可能性もある。
音声認識デバイスのそれぞれは収集された音声信号を分析し、本実施例では、エリアネットワーク毎におけるすべての音声認識デバイスは音声信号に対する分析メカニズムが同様であり、これは、それに続く比較計算を容易にするためである。音声信号に対する分析と計算により応答要素が得られ、応答要素は当該音声信号に対する音声認識デバイスの対応程度、即ち、当該音声信号が当該音声認識デバイスに対して出されたものである可能性の高低を示すものである。
音声信号に応答する応答予定音声認識デバイスを応答要素に応じて決定する必要があるので、応答要素には音声認識デバイスの標識と、判断のためのエネルギ値とが含まれており、具体的には、音声信号の音声特徴及び音声信号と音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算することで応答要素のエネルギ値を得ることができる。そのうち、音声特徴は音声信号の音量であってもよく、音量が大きいほど、当該音声認識デバイスにユーザが近いことを示し、当該音声認識デバイスのウェイクアップテンプレートとのマッチング度が高いほど、ユーザが当該音声認識デバイスに対して音声信号を出した可能性が高いことを示す。
さらには、応答要素のエネルギ値の計算は以下の様にされてもよい。
音声信号の音声特徴に基づいて計算することでウェイクアップエネルギE1が得られ、音声認識デバイスが所在する環境での環境騒音の音声特徴に基づいて計算することで暗騒音エネルギE2が得られ、ウェイクアップエネルギと暗騒音エネルギとの差を有効エネルギE=E1-E2とし、
音声信号とウェイクアップテンプレートとのマッチング度に基づいて信頼度Pを計算し、信頼度Pは音声信号とウェイクアップテンプレートとのマッチング度を示し、音声認識デバイスが音声信号によりウェイクアップされた場合、音声信号とウェイクアップテンプレートとのマッチング程度を判断し、例えば完全にマッチングしていると100%、大部分がマッチングしていると90%や80%又は70%等と表記してもよく、マッチング程度が一定の閾値を超える場合、音声認識デバイスのウェイクアップが可能であると判定する。同様に、ウェイクアップ要素のエネルギを計算する場合に計算される信頼度Pも、ウェイクアップに関する音声信号とウェイクアップテンプレートとのマッチング程度を示すものとなり、例えば、Pは1、0.9、0.8、0.7等とされてもよい。
有効エネルギEと信頼度Pとの加重和を求めることで、応答要素のエネルギ値Kが得られ、
K=xE+yP、ただし、xは有効エネルギEの重み係数、yは信頼度Pの重み係数である。
そのうち、重み係数x、yは固定数値であってもよいし、複数の固定数値から選択してもよく、さらに、最後に決定される音声信号に応答する音声認識デバイスの正確度に応じて動的に調整されてもよい。
本実施例の領域Aでは、デバイスA1により得られる応答要素のエネルギ値をK1、デバイスA2により得られる応答要素のエネルギ値をK2、デバイスA3により得られる応答要素のエネルギ値をK3と表記する。
本ステップS201では、中枢デバイスにより音声信号を収集し分析することで、中枢デバイスの応答要素が得られ、非中枢デバイスにより音声信号を収集し分析することで、非中枢デバイスの応答要素が得られる。
S202:非中枢デバイスの応答要素を中枢デバイスが受信する。
音声認識デバイスにより計算することで応答要素が得られた後、非中枢デバイスは自体が取得した応答要素を中枢デバイスに送信する。本実施例では、中枢デバイスA1は非中枢デバイスから送信される応答要素を受信する。
S203:中枢デバイスの応答要素と非中枢デバイスの応答要素とを中枢デバイスにて比較することで、応答予定音声認識デバイスを決定する。
本ステップでは、中枢デバイスの応答要素と非中枢デバイスの応答要素とを中枢デバイスにて比較することで、エリアネットワークにおいて音声信号に応答する応答予定音声認識デバイスを決定する。具体的には、中枢デバイスはソートアルゴリズムにより応答要素のエネルギ値を比較することで、すべての応答要素のエネルギ値の並べ替えが得られ、それによりエネルギ値の最も大きい応答要素が得られる。ソートアルゴリズムは挿入ソート、シェルソート、選択ソート、ヒープソート、バブルソート、クイックソート、マージソート、計算ソート、バケットソート、基数ソート等を含むがそれらに限らない。本実施例では、応答要素のエネルギ値の並べ替えはK2>K1>K3となる。
応答要素のエネルギ値を比較することで、応答予定音声認識デバイスを決定することができる。具体的な決定方法は様々がある。
例えば、エネルギ値の最も大きい応答要素を得た場合、それに対応する音声認識デバイスを応答予定音声認識デバイスと決定してもよい。
また、例えば、エネルギ値の最も大きい応答要素を得た場合、エネルギ値の最も大きい応答要素が中枢デバイスの応答要素であることに応じて、即ち、エネルギ値の最も大きい応答要素が中枢デバイスの応答要素であれば、中枢デバイスを応答予定音声認識デバイスと決定する。
エネルギ値の最も大きい応答要素が非中枢デバイスの応答要素であることに応じて、即ち、エネルギ値の最も大きい応答要素が非中枢デバイスの応答要素であれば、本実施例ではエネルギ値の最も大きいものがK2であるので、さらにエネルギ値の最も大きい応答要素と中枢デバイスの応答要素とのエネルギ差であるδ=K2-K1を計算する。
エネルギ差δとウェイクアップ閾値δdを比較し、エネルギ差δがウェイクアップ閾値δdより大きいと、エネルギ値の最も大きい応答要素に対応する音声認識デバイスを応答予定音声認識デバイスと決定し、エネルギ差δがウェイクアップ閾値δdより小さいか等しいことに応じて、中枢デバイスを応答予定音声認識デバイスと決定する。
応答要素を比較し分析する場合、エネルギ値の最も大きい応答要素は二つひいてはそれ以上が得られる可能性があり、この時、さらに音声認識デバイスのウェイクアップ優先順位に基づいて音声信号に応答するデバイスを決定し、即ち、エネルギ値の最も大きい応答要素に対応する音声認識デバイスから優先順位の最も高いものを応答予定音声認識デバイスと決定する。
S204:中枢デバイスから非中枢デバイスへ音声信号に応答するかどうかの通知を送信する。
中枢デバイスは音声信号に応答する応答予定音声認識デバイスを決定した後、ネットワークを介して非中枢デバイス、即ち、エリアネットワークにおけるウェイクアップされたが応答していない音声認識デバイスのすべてへこの音声信号に応答するかどうかの通知を送信し、この通知として、具体的に応答するか応答する必要がないかを示す情報であってもよいし、決定された当該音声信号に応答する音声認識デバイスのデバイス情報であってもよい。応答予定音声認識デバイスのみに通知を送信してもよく、通知を受けなかった他の音声認識デバイスは応答せず、通知を受けたものは応答する。
S205:応答予定音声認識デバイスにより音声信号に応答する。
決定された音声認識デバイスは音声信号に応答し、他の音声認識デバイスは応答しない。それにより、一つの音声認識デバイスのみによりこの音声信号に応答することは保証され、互いに干渉することがなくなる。
上記図2に示される方法は単一エリアネットワークの音声ウェイクアップ認識に適用されるものであり、単一エリアネットワークにおいて、音声認識デバイスは音声情報によりウェイクアップされた場合では直ちに応答せず、単一エリアネットワークにおける中枢デバイスにより応答予定デバイスを決定してから応答する様である。
マルチエリアネットワークのウェイクアップ応答方法は、図2に示される単一エリアネットワーク中の応答予定音声認識デバイスの決定に基づいたものである。具体的には、マルチエリアネットワークつまり互いに接続されている複数のエリアネットワークでは、エリアネットワーク毎の中枢デバイスは互いに接続されながら、一つの第一中枢デバイスと少なくとも一つの第二中枢デバイスとに分けられ、エリアネットワーク毎においてその応答予定音声認識デバイスを決定した後、さらに第一中枢デバイスにより音声信号に応答する音声認識デバイスを確認する。
マルチエリアネットワーク中のエリアネットワーク毎によるウェイクアップ応答方法の手順について贅言しないが、さらに図3を参照し、マルチエリアネットワークのウェイクアップ応答方法は以下の手順をさらに含む。
S301:第二中枢デバイスから第一中枢デバイスへ第二応答要素を送信し、第二応答要素を第一中枢デバイスが受信する。
マルチエリアネットワークでは、第一中枢デバイスはすべてのエリアネットワークにおける応答予定音声認識デバイスの応答要素を比較することで、音声信号に応答する音声認識デバイスを決定する必要があり、応答予定音声認識デバイスは単一エリアネットワークにおいて判断された音声信号に応答する音声認識デバイスであり、マルチエリアネットワークに適用する場合、単一エリアネットワークにおいて決定された応答予定音声認識デバイスは直ちに応答せず、第一中枢デバイスにより複数の応答予定音声認識デバイスからどのデバイスで音声信号に応答するか、即ち、音声信号に応答する最終的な音声認識デバイスを決定する。従って、本ステップS301では、第二中枢デバイスからその第二応答要素を第一中枢デバイスへ送信し、第二応答要素は第二中枢デバイスが所在する領域の応答予定音声認識デバイスの応答要素である。
例えば、領域Aでは、A1によりKA1とKA2とKA3を比較することで、A2を応答予定音声認識デバイスと決定し、領域Bでは、B1によりKB1とKB2とKB3を比較することで、B3を応答予定音声認識デバイスと決定し、領域Cでは、C1によりKC1とKC2を比較することで、C1を応答予定デバイスと決定する。
B1はその所在するエリアネットワークの応答予定音声認識デバイスB3の応答要素KB3をA1に送信し、C1も応答要素KC1をA1に送信し、A1自体により決定された応答予定音声認識デバイスA2の応答要素はKA2である。
S302:第一中枢デバイスにより第二応答要素と第一応答要素を比較することで、音声信号に応答する音声認識デバイスを決定する。
第一中枢デバイスにより応答予定音声認識デバイス毎の応答要素つまり第一応答要素と第二応答要素を比較し、第一応答要素は第一中枢デバイスが所在するエリアネットワークにおける応答予定音声認識デバイスの応答要素である。
本ステップS302での比較は上記ステップS203での比較と類似するものであり、詳細について贅言しない。
例えば、第一応答要素のエネルギ値と第二応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素が得られ、エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより音声信号に応答することを決定するようにしてもよい。
また、例えば、第一応答要素のエネルギ値と第二応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素が得られ、エネルギ値の最も大きい応答要素が第一応答要素であれば、第一中枢デバイスにより音声信号に応答し、エネルギ値の最も大きい応答要素が第二応答要素であれば、エネルギ値の最も大きい応答要素と第一応答要素とのエネルギ差を計算してエネルギ差とウェイクアップ閾値を比較し、エネルギ差がウェイクアップ閾値より大きいと、エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより音声信号に応答し、エネルギ差がウェイクアップ閾値より小さいか等しいと、第一中枢デバイスにより音声信号に応答する。
本実施例では、A1によりKA2とKB3とKC1を比較することで、例えばB2を音声信号に応答する音声認識デバイスと決定する。
同様に、エネルギ値の最も大きい応答要素は二つひいてはそれ以上が得られる可能性があり、この時、さらに音声認識デバイスのウェイクアップ優先順位に基づいて音声信号に応答するデバイスを決定し、即ち、エネルギ値の最も大きい応答要素に対応する音声認識デバイスから優先順位の最も高いものを応答予定音声認識デバイスと決定する。
S303:第一中枢デバイスからマルチエリアネットワークにおける他の音声認識デバイスへ音声信号に応答するかどうかの通知を送信する。
第一中枢デバイスは音声信号に応答する音声認識デバイスを決定した後、直接ネットワーク全体つまり複数のエリアネットワークへ通知を送信してもよいし、あるいは、最初に各エリアネットワークの中枢デバイスへ通知を送信し、そして各中枢デバイスから非中枢デバイスへ通知を送信するようにしてもよい。同様に、音声信号に応答する音声認識デバイスのみに送信し、通知を受けなかった他の音声認識デバイスは応答しない。
S304:決定された音声認識デバイスにより音声信号に応答する。
本ステップS304は上記ステップS205と類似するものであり、贅言しない。
図3に示される方法は複数領域の音声ウェイクアップ認識に適用されるものであり、領域毎において本領域での応答するべき音声デバイスを決定した後、さらに第一中枢デバイスによりどの領域の音声デバイスから応答するかを決定することで、一つの音声認識デバイスのみにより音声信号に応答することは保証されている。
図2と図3を適用したネットワークでは、音声認識デバイスはウェイクアップ優先順位を有するので、優先順位の最も高い音声認識デバイスが故障した場合、ウェイクアップ優先順位に基づいてそれに次ぐウェイクアップ優先順位の音声認識デバイスを中枢デバイス又は第一中枢デバイスと決定してもよい。
音声認識デバイスはその自体がエリアネットワークにおいてウェイクアップ優先順位の最も高いものであるかどうかを周期的に検知してもよいし、エリアネットワークが変化した時に自体がウェイクアップ優先順位の最も高いものであるかどうかを検知してもよく、自体が現在のエリアネットワークにおいてウェイクアップ優先順位の最も高いものであることを検知した場合、即ち、エリアネットワークにおいてウェイクアップ優先順位の最も高いものであるのを検知したことに応じて、中枢デバイスとして作動するようになる。
本実施例によるネットワークのウェイクアップ応答方法は、ネットワークにおける音声認識デバイスがウェイクアップ優先順位を有すること、及び、音声認識デバイスがネットワークの中枢デバイスとして応答要素の比較を行い得ることに基づいたものである。従って、新たにネットワークに参加する音声認識デバイスも本実施例のウェイクアップメカニズムに適合する必要があり、中枢デバイスにより関連設定を行ってもよい。
中枢デバイスはネットワークに参加する音声認識デバイスのデバイス情報を取得する。予め設定されたルールに従ってデバイス情報を分析することで、ネットワークにおける音声認識デバイスについてウェイクアップ優先順位を改めて並べ替えるようにしてもよい。
音声認識デバイス毎に音声認識システムが搭載され、音声認識システムによりウェイクアップ優先順位や音声認識アルゴリズム、ウェイクアップテンプレート等が決められている。新たに参加する音声認識デバイスは異なる音声認識システムを有し、即ち、異なるウェイクアップ優先順位の設定を有すれば、ネットワークの中枢デバイスはその新しいウェイクアップ優先順位に基づいて改めて並べ替えを行ってもよい。例えば、ネットワークA1-A2-A3に対して音声認識デバイスA4が新たに参加し、そのウェイクアップ優先順位がA3より大きくなるように設定されており、この場合、ウェイクアップ優先順位を改めてA1>A2>A4>A3とする。
新たに参加する音声認識デバイスは同一の音声認識システムを有し、即ち、同一のウェイクアップ優先順位の設定を有すれば、先にネットワークに参加した音声認識デバイスのウェイクアップ優先順位の方が高いようにする。例えば、新たに参加する音声認識デバイスA3は先に参加したA3と同一の音声認識システムを有する場合、先に参加したA3をA31、新たに参加するA3をA32として、ウェイクアップ優先順位を改めてA1>A2>A31>A32とする。
本実施例のネットワークの場合、そのウェイクアップ応答方法を実現するすべての手順がネットワーク内部にて完了できるので、本実施例の音声認識デバイスはオフラインで作動可能である。
上記音声認識デバイスを互いに接続した単一エリアネットワークでは、音声認識デバイスは中枢デバイスと非中枢デバイスの二つの役割を果たすことができる。音声認識デバイス毎は中枢デバイスとして高くて多い機能を有してもよいし、単に非中枢デバイスとして低い機能を有してもよい。
家電の分野では、大型家電例えば冷蔵庫やテレビ等において機能の高くて多い音声認識システムを搭載することで、中枢デバイスとして作動させてもよく、小型家電例えば炊飯器や電気ポット等において機能の低い音声認識システムを搭載することで、非中枢デバイスとして作動させてもよい。
ネットワークの中枢デバイスとなり得る音声認識装置について、そのウェイクアップ応答方法を実現する手順が図4に示され、図4は本願による音声認識デバイスのウェイクアップ応答方法の中枢デバイスでの作動フロー模式図である。ネットワークの中枢デバイスとして、そのウェイクアップ応答方法の実現は下記手順を含む。
S401:音声信号を収集し分析することで、中枢デバイスの応答要素を得る。
エリアネットワーク毎における中枢デバイスの場合、本ステップS401は上記ステップS201にて完了し、詳細について贅言しない。
S402:非中枢デバイスの応答要素を受信する。
本ステップS402は上記ステップS202に対応しており、詳細について贅言しない。
S403:中枢デバイスの応答要素と非中枢デバイスの応答要素を比較することで、エリアネットワークにおける応答予定音声認識デバイスを決定する。
本ステップS403は上記ステップS203と類似するものであり、詳細について贅言しない。
上記手順において、音声認識デバイスを中枢デバイスとして単一領域でのウェイクアップ応答方法を実現するための手段を説明したが、ステップ毎の詳細や中枢デバイスが作動する詳細も上述されたため、贅言しない。本実施例の音声認識デバイスは複数の音声認識デバイスから当該音声信号に応答する一つの音声認識デバイスを決定可能であり、いずれも応答することに起因して互いに干渉することは回避されている。
さらには、マルチエリアネットワークの場合、中枢デバイスはさらに第一中枢デバイスと第二中枢デバイスとに分けられ、第一中枢デバイスは下記手順をさらに実行する。
S404:第二応答要素を第一中枢デバイスが受信する。
本ステップS404は上記ステップS301にて完了し、詳細について贅言しない。
S406:第一応答要素と第二応答要素を比較することで、音声信号に応答する音声認識デバイスを決定する。
本ステップS406は上記ステップS302と類似するものであり、詳細について贅言しない。
第二中枢デバイスは下記手順を実行する。
S405:第二中枢デバイスから第一中枢デバイスへ第二応答要素を送信し、第一中枢デバイスにより第一応答要素と第二応答要素を比較することで、音声信号に応答する音声認識デバイスを決定する。
本ステップS405は上記ステップS301-S302にて完了し、詳細について贅言しない。
さらには、マルチエリアネットワークでは、どのエリアネットワークにおける応答予定音声認識デバイスにより音声信号に応答するかを第一中枢デバイスにてさらに決定する。
非中枢デバイスから見れば、そのウェイクアップ応答方法を実現する手順が図5に示され、図5は本願による音声認識デバイスウェイクアップ応答方法の非中枢デバイスでの作動フロー模式図である。当該音声認識デバイスは非中枢デバイスとされており、本実施例のウェイクアップ応答方法は下記手順を含む。
S501:音声信号を収集し分析することで、非中枢デバイスの応答要素を得る。
本ステップS501は上記ステップS201と類似し、いずれも応答要素を取得するものであり、詳細について贅言しない。
S502:中枢デバイスへ非中枢デバイスの応答要素を送信し、中枢デバイスにより非中枢デバイスの応答要素と中枢デバイスの応答要素を比較することで、応答予定音声認識デバイスを決定する。
非中枢デバイスは音声信号を収集した場合では直ちに当該音声信号に応答せず、計算と分析を行うことで応答要素を得てから、この応答要素を中枢デバイスに伝送して分析し比較することで、中枢デバイスにより音声信号に応答する音声認識デバイスを決定する。
本実施例において、音声認識デバイスを非中枢デバイスとしてそのウェイクアップ応答方法を実行するための手段を説明したが、ステップ毎の詳細や非中枢デバイスが作動する詳細も上述されたため、贅言しない。本実施例の音声認識デバイスは音声信号を受信した場合では直ちに応答せず、通知を受けた後に応答するかどうかを決定するので、他の音声認識デバイスと同時に応答することに起因して互いに干渉することは回避されている。
上記ウェイクアップ応答方法は音声認識デバイスにより実現されるため、本願は図6に示される音声認識デバイスをさらに提案し、図6は本願による音声認識デバイスの一実施例の構造模式図であり、本実施例の音声認識デバイス100は互いに接続されている音声収集装置11とプロセッサ12とメモリ13とを含む家電であってもよく、本実施例の音声認識デバイス100によれば、上記ウェイクアップ応答方法の実施例を実現可能になる。そのうち、音声収集装置11は音声信号を収集するためのものであり、メモリ13にコンピュータプログラムが記憶され、プロセッサ12はコンピュータプログラムを実行することで上記ウェイクアップ応答方法を実現するためのものである。
具体的には、音声収集装置11は音声信号を収集するためのものであり、プロセッサ12は収集された音声信号を分析して応答要素を得てから、予め設定されたアルゴリズムに従ってすべての応答要素を比較することで、音声信号に応答する音声認識デバイスを決定し、そして他の音声認識デバイスへ音声信号に応答するかどうかの通知を送信するためのものである。
あるいは、音声収集装置11は音声信号を収集するためのものであり、プロセッサ12は収集された音声信号を分析して応答要素を得てから中枢デバイスに送信し、受信された中枢デバイスからの音声信号に応答するかどうかの通知に基づいて応答するかどうかを決定するためのものである。
そのうち、プロセッサ12は集積回路チップであってもよく、信号処理能力を有する。プロセッサ12は汎用プロセッサ、デジタル信号プロセッサ(DSP)、専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブル論理素子、ディスクリートゲート又はトランジスタ論理素子、ディスクリートハードウェア部品であってもよい。汎用プロセッサはマイクロプロセッサであってもよいし、あらゆる一般的なプロセッサ等であってもよい。
上記実施例の方法はコンピュータプログラムとして提供されてもよいので、本願は図7に示されるコンピュータ記憶媒体を提案し、図7は本願によるコンピュータ記憶媒体の一実施例の構造模式図である。本実施例のコンピュータ記憶媒体200には、実行されることで上記実施例の方法を実現可能なコンピュータプログラム21が記憶されている。
本実施例のコンピュータ記憶媒体200はUディスク、ポータブルハードディスク、読取専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスク等のプログラム指令を記憶できる媒体であってもよいし、又は当該プログラム指令を記憶したサーバであってもよく、当該サーバは記憶されたプログラム指令を他のデバイスに実行させるように送信してもよいし、又は記憶されたプログラム指令を自分で実行してもよい。
本願によるいくつかの実施例において開示される方法とデバイスは他の態様で実現され得ることは理解されたい。例えば、上記したデバイスの実施形態は模式的なものに過ぎず、例えば、モジュール又はユニットは論理機能に従って分けられており、実際に実現する場合には他の態様で分けてもよく、例えば、複数のユニット又はコンポーネントは別のシステムに組み合わせ又は統合されてもよく、あるいは、一部の特徴を無視したり、実行しなかったりしてもよい。また、表示又は検討される互いの結合や直接結合又は通信接続はあるインタフェース、デバイス又はユニットを介する間接結合又は通信接続であってもよく、電気的や機械的又は他の態様のものであってもよい。
個別部品として説明されるユニットは物理的に独立したものであってもよくではなくてもよく、ユニットとして表示される部品は物理的なユニットであってもよくではなくてもよく、即ち、ある場所にあってもよいし、複数のネットワークユニットに分布されてもよい。実際の需要に応じてその一部又は全部のユニットを選択して本実施形態による解決手段を実現するようにしてもよい。
また、本願の各実施例中の各機能ユニットは一つの処理ユニットに統合されてもよいし、物理的なものとして個別に存在してもよく、また、二つ又はそれ以上のユニットを一つのユニットに統合してもよい。上記統合されているユニットはハードウェアとして実現されてもよいし、ソフトウェア機能ユニットとして実現されてもよい。
統合されているユニットはソフトウェア機能ユニットとして実現されながら独立した製品として販売され使用される場合、コンピュータ読取可能な記憶媒体に記憶されてもよい。このような理解のもとに、本願による技術的解決手段は本質的に、あるいは、従来技術に貢献する部分又はその全部や一部がソフトウェア製品として表現でき、このコンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器(パソコン、サーバ又はネットワークデバイス等であってもよい)又はプロセッサ(processor)に本願の各実施形態による方法の全部や一部の手順を実行させるように若干の指令を含む。前述した記憶媒体はUディスク、ポータブルハードディスク、読取専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる様々な媒体を含む。
上記は本願の実施形態に過ぎず、それにより本願の保護範囲を制限するべきではなく、本願の明細書及び図面に基づいてなされた等価構造又は等価流れなどの変形、あるいは、直接又は間接的に他の関連技術分野に適用したものはいずれも本願の保護範囲に含まれる。
11 音声収集装置
12 プロセッサ
13 メモリ
100 音声認識デバイス
200 コンピュータ記憶媒体
A1 第一中枢デバイス
B1 第二中枢デバイス
C1 第二中枢デバイス

Claims (23)

  1. 一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、
    前記中枢デバイスにより音声信号を収集し分析することで、前記中枢デバイスの応答要素を得ることと、
    前記非中枢デバイスにより前記音声信号を収集し分析することで得られた前記非中枢デバイスの応答要素を受信することと、
    前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を比較することと、
    前記エリアネットワークにおける前記音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含むことを特徴とする音声認識デバイスのウェイクアップ応答方法。
  2. 前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を比較して応答予定音声認識デバイスを決定することは、
    前記中枢デバイスの応答要素のエネルギ値と前記非中枢デバイスの応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
    前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することとを含むことを特徴とする、請求項1に記載のウェイクアップ応答方法。
  3. 前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を比較して応答予定音声認識デバイスを決定することは、
    前記中枢デバイスの応答要素のエネルギ値と前記非中枢デバイスの応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
    前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素であるかどうかを判断することと、
    前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素であることに応じて、前記中枢デバイスを前記応答予定音声認識デバイスと決定することと、
    前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素ではないことに応じて、前記エネルギ値の最も大きい応答要素と前記中枢デバイスの応答要素とのエネルギ差を計算することと、
    前記エネルギ差とウェイクアップ閾値を比較することと、
    前記エネルギ差が前記ウェイクアップ閾値より大きいことに応じて、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することと、
    前記エネルギ差が前記ウェイクアップ閾値より小さいか等しいことに応じて、前記中枢デバイスを前記応答予定音声認識デバイスと決定することとを含むことを特徴とする、請求項1に記載のウェイクアップ応答方法。
  4. 前記複数の音声認識デバイスはウェイクアップ優先順位を有し、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することは、
    前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスからウェイクアップ優先順位の最も高いものを前記応答予定音声認識デバイスと決定することを含むことを特徴とする、請求項2又は請求項3に記載のウェイクアップ応答方法。
  5. 前記中枢デバイスから前記非中枢デバイスへ前記音声信号に応答するかどうかの通知を送信することを含むことを特徴とする、請求項1に記載のウェイクアップ応答方法。
  6. 複数の前記エリアネットワークは互いに接続され、すべてのエリアネットワークにおける複数の中枢デバイスは一つの第一中枢デバイスと少なくとも一つの第二中枢デバイスとに分けられ、
    前記第二中枢デバイスから前記第一中枢デバイスへ第二応答要素を送信し、前記第一中枢デバイスにより前記第二中枢デバイスが所在するエリアネットワークにおける応答予定音声認識デバイスの応答要素である前記第二応答要素と前記第一中枢デバイスが所在するエリアネットワークの応答予定音声認識デバイスの応答要素である第一応答要素を比較することで、前記音声信号に応答する音声認識デバイスを決定することをさらに含むことを特徴とする、請求項1に記載のウェイクアップ応答方法。
  7. 複数の前記エリアネットワークは互いに接続され、すべてのエリアネットワークにおける複数の中枢デバイスは一つの第一中枢デバイスと少なくとも一つの第二中枢デバイスとに分けられ、
    前記第二中枢デバイスが所在するエリアネットワークの応答予定音声認識デバイスの応答要素である第二応答要素を前記第一中枢デバイスが受信することと、
    前記第二応答要素と前記第一中枢デバイスが所在するエリアネットワークにおける応答予定音声認識デバイスの応答要素である第一応答要素を比較することで、前記音声信号に応答する音声認識デバイスを決定することとをさらに含むことを特徴とする、請求項1に記載のウェイクアップ応答方法。
  8. 前記第二応答要素と第一応答要素を比較して前記音声信号に応答する音声認識デバイスを決定することは、
    前記第一応答要素のエネルギ値と前記第二応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
    前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより前記音声信号に応答するのを決定することとを含むことを特徴とする、請求項6又は請求項7に記載のウェイクアップ応答方法。
  9. 前記複数の音声認識デバイスはウェイクアップ優先順位を有し、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することは、
    前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにおけるウェイクアップ優先順位の最も高いものにより前記音声信号に応答するのを決定することを含むことを特徴とする、請求項8に記載のウェイクアップ応答方法。
  10. 前記第二応答要素と前記第一中枢デバイスの第一応答要素を比較して前記音声信号に応答する音声認識デバイスを決定することは、
    前記第一応答要素のエネルギ値と前記第二応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
    前記エネルギ値の最も大きい応答要素が前記第一応答要素であるかどうかを判断することと、
    前記エネルギ値の最も大きい応答要素が前記第一応答要素であることに応じて、前記第一中枢デバイスにより前記音声信号に応答するのを決定することと、
    前記エネルギ値の最も大きい応答要素が前記第一応答要素ではないことに応じて、前記エネルギ値の最も大きい応答要素と前記第一応答要素とのエネルギ差を計算することと、
    前記エネルギ差とウェイクアップ閾値を比較することと、
    前記エネルギ差が前記ウェイクアップ閾値より大きいことに応じて、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより前記音声信号に応答するのを決定することと、
    前記エネルギ差が前記ウェイクアップ閾値より小さいか等しいことに応じて、前記第一中枢デバイスにより前記音声信号に応答するのを決定することとを含むことを特徴とする、請求項6又は請求項7に記載のウェイクアップ応答方法。
  11. 前記複数の音声認識デバイスはウェイクアップ優先順位を有し、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより前記音声信号に応答するのを決定することは、
    前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにおけるウェイクアップ優先順位の最も高いものにより前記音声信号に応答するのを決定することを含むことを特徴とする、請求項10に記載のウェイクアップ応答方法。
  12. 前記第一中枢デバイスから前記複数のエリアネットワークにおける他の音声認識デバイスへ前記音声信号に応答するかどうかの通知を送信することをさらに含むことを特徴とする、請求項6又は請求項7に記載のウェイクアップ応答方法。
  13. 前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を応答要素と総称し、収集された音声信号を分析して応答要素を得ることは、
    前記音声信号の音声特徴及び前記音声信号と前記音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算することで、前記応答要素のエネルギ値を得ることを含むことを特徴とする、請求項1、請求項6、請求項7のいずれかに記載のウェイクアップ応答方法。
  14. 前記音声信号の音声特徴及び前記音声信号と前記音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算して前記応答要素のエネルギ値を得ることは、
    前記音声信号の音声特徴に基づいて計算することでウェイクアップエネルギが得られ、前記音声認識デバイスが所在する環境での環境騒音の音声特徴に基づいて計算することで暗騒音エネルギが得られ、前記ウェイクアップエネルギと前記暗騒音エネルギとの差を有効エネルギとすることと、
    前記音声信号と前記ウェイクアップテンプレートとのマッチング程度に基づいて信頼度を計算することと、
    前記有効エネルギと前記信頼度との加重和を求めることで、前記応答要素のエネルギ値を得ることとを含むことを特徴とする、請求項13に記載のウェイクアップ応答方法。
  15. 一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、
    前記非中枢デバイスにより音声信号を収集し分析することで、前記非中枢デバイスの応答要素を得ることと、
    前記中枢デバイスへ前記非中枢デバイスの応答要素を送信し、前記中枢デバイスにより前記非中枢デバイスの応答要素と前記中枢デバイスの応答要素を比較することで、前記エリアネットワークにおける前記音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含むことを特徴とする音声認識デバイスのウェイクアップ応答方法。
  16. 前記中枢デバイスにより前記非中枢デバイスの応答要素と前記中枢デバイスの応答要素を比較して応答予定音声認識デバイスを決定することは、
    前記中枢デバイスにより前記中枢デバイスの応答要素のエネルギ値と前記非中枢デバイスの応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
    前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することとを含むことを特徴とする、請求項15に記載のウェイクアップ応答方法。
  17. 前記中枢デバイスにより前記中枢デバイスの応答要素のエネルギ値と前記非中枢デバイスの応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素が得られ、
    前記エネルギ値の最も大きい応答要素が中枢デバイスの応答要素であるかどうかを判断し、
    前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素であることに応じて、前記中枢デバイスを前記応答予定音声認識デバイスと決定し、
    前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素ではないことに応じて、前記エネルギ値の最も大きい応答要素と前記中枢デバイスの応答要素とのエネルギ差を計算し、
    前記エネルギ差とウェイクアップ閾値を比較し、
    前記エネルギ差が前記ウェイクアップ閾値より大きいことに応じて、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定し、
    前記エネルギ差が前記ウェイクアップ閾値より小さいか等しいことに応じて、前記中枢デバイスを前記応答予定音声認識デバイスと決定することを特徴とする、請求項15に記載のウェイクアップ応答方法。
  18. 前記複数の音声認識デバイスはウェイクアップ優先順位を有し、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することは、
    前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスからウェイクアップ優先順位の最も高いものを前記応答予定音声認識デバイスと決定することを含むことを特徴とする、請求項16又は請求項17に記載のウェイクアップ応答方法。
  19. 前記中枢デバイスから送信される前記音声信号に応答するかどうかの通知を受信することをさらに含むことを特徴とする、請求項15に記載のウェイクアップ応答方法。
  20. 前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を応答要素と総称し、収集された音声信号を分析して応答要素を得ることは、
    前記音声信号の音声特徴及び前記音声信号と前記音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算することで、前記応答要素のエネルギ値を得ることを含むことを特徴とする、請求項15に記載のウェイクアップ応答方法。
  21. 前記音声信号の音声特徴及び前記音声信号と前記音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算して前記応答要素のエネルギ値を得ることは、
    前記音声信号の音声特徴に基づいて計算することでウェイクアップエネルギが得られ、前記音声認識デバイスが所在する環境での環境騒音の音声特徴に基づいて計算することで暗騒音エネルギが得られ、前記ウェイクアップエネルギと前記暗騒音エネルギとの差を有効エネルギとすることと、
    前記音声信号と前記ウェイクアップテンプレートとのマッチング程度に基づいて信頼度を計算することと、
    前記有効エネルギと前記信頼度との加重和を求めることで、前記応答要素のエネルギ値を得ることとを含むことを特徴とする、請求項20に記載のウェイクアップ応答方法。
  22. コンピュータプログラムが記憶されているメモリと、前記コンピュータプログラムを実行することで請求項1~請求項21のいずれかに記載の方法の手順を実現するためのプロセッサとを含むことを特徴とする音声認識デバイス。
  23. 実行されることで請求項1~請求項21のいずれかに記載の方法の手順を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータ記憶媒体。
JP2021562155A 2019-04-26 2019-12-06 音声認識デバイス及びそのウェイクアップ応答方法、コンピュータ記憶媒体 Active JP7279992B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910343067.8 2019-04-26
CN201910343067.8A CN111862988B (zh) 2019-04-26 2019-04-26 语音识别设备及其唤醒响应方法、计算机存储介质
PCT/CN2019/123811 WO2020215736A1 (zh) 2019-04-26 2019-12-06 语音识别设备及其唤醒响应方法、计算机存储介质

Publications (2)

Publication Number Publication Date
JP2022529708A true JP2022529708A (ja) 2022-06-23
JP7279992B2 JP7279992B2 (ja) 2023-05-23

Family

ID=72941506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021562155A Active JP7279992B2 (ja) 2019-04-26 2019-12-06 音声認識デバイス及びそのウェイクアップ応答方法、コンピュータ記憶媒体

Country Status (6)

Country Link
US (1) US20220044685A1 (ja)
EP (1) EP3944231A4 (ja)
JP (1) JP7279992B2 (ja)
KR (1) KR20210141581A (ja)
CN (1) CN111862988B (ja)
WO (1) WO2020215736A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164405B (zh) * 2020-11-05 2024-04-23 佛山市顺德区美的电子科技有限公司 语音设备及其唤醒方法、装置以及存储介质
CN114582337A (zh) * 2020-12-01 2022-06-03 华为技术有限公司 一种设备响应方法和装置
WO2023240649A1 (zh) * 2022-06-17 2023-12-21 北京小米移动软件有限公司 一种唤醒优先级的更新方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107333A (ja) * 2015-12-08 2017-06-15 キヤノン株式会社 通信機器及び通信機器の制御方法
US20180342151A1 (en) * 2017-05-23 2018-11-29 Lenovo (Singapore) Pte. Ltd. Method of associating user input with a device

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US10354653B1 (en) * 2016-01-19 2019-07-16 United Services Automobile Association (Usaa) Cooperative delegation for digital assistants
US10133612B2 (en) * 2016-03-17 2018-11-20 Nuance Communications, Inc. Session processing interaction between two or more virtual assistants
DK179415B1 (en) * 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN107622767B (zh) * 2016-07-15 2020-10-02 青岛海尔智能技术研发有限公司 家电系统的语音控制方法与家电控制系统
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) * 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN107452386B (zh) * 2017-08-16 2020-03-24 联想(北京)有限公司 一种语音数据处理方法和系统
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
US11631017B2 (en) * 2018-01-09 2023-04-18 Microsoft Technology Licensing, Llc Federated intelligent assistance
CN108766422B (zh) * 2018-04-02 2020-09-15 青岛海尔科技有限公司 语音设备的响应方法、装置、存储介质及计算机设备
CN109391528A (zh) * 2018-08-31 2019-02-26 百度在线网络技术(北京)有限公司 语音智能设备的唤醒方法、装置、设备及存储介质
CN109377987B (zh) * 2018-08-31 2020-07-28 百度在线网络技术(北京)有限公司 智能语音设备间的交互方法、装置、设备及存储介质
CN109215663A (zh) * 2018-10-11 2019-01-15 北京小米移动软件有限公司 设备唤醒方法及装置
CN109658927A (zh) * 2018-11-30 2019-04-19 北京小米移动软件有限公司 智能设备的唤醒处理方法、装置及管理设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107333A (ja) * 2015-12-08 2017-06-15 キヤノン株式会社 通信機器及び通信機器の制御方法
US20180342151A1 (en) * 2017-05-23 2018-11-29 Lenovo (Singapore) Pte. Ltd. Method of associating user input with a device

Also Published As

Publication number Publication date
CN111862988A (zh) 2020-10-30
US20220044685A1 (en) 2022-02-10
EP3944231A4 (en) 2022-05-25
CN111862988B (zh) 2023-03-03
KR20210141581A (ko) 2021-11-23
EP3944231A1 (en) 2022-01-26
JP7279992B2 (ja) 2023-05-23
WO2020215736A1 (zh) 2020-10-29

Similar Documents

Publication Publication Date Title
JP2022529708A (ja) 音声認識デバイス及びそのウェイクアップ応答方法、コンピュータ記憶媒体
CN109240111B (zh) 智能家居控制方法、装置、系统及智能网关
CN110085233B (zh) 语音控制方法及其装置、电子设备和计算机可读存储介质
US9431014B2 (en) Intelligent placement of appliance response to voice command
JP2022071199A (ja) スマートプラグの動作のシステムおよび方法
EP3542230B1 (en) Control method, apparatus and system
Katuk et al. Implementation and recent progress in cloud-based smart home automation systems
CN110568771B (zh) 一种智能联动控制智能家居设备的系统及方法
CN110574389B (zh) 使用功率数据和网络数据来识别设备状态改变
CN106909081B (zh) 基于家电设备的扩展平台和家电设备
CN104880954B (zh) 一种信息处理方法和智能家居控制器
US20230169970A1 (en) Remote controller control method and system, storage medium, and electronic device
WO2021012581A1 (zh) 语音识别设备及其唤醒响应方法、计算机存储介质
CN115793481A (zh) 设备控制方法、装置、电子设备及存储介质
CN112086097B (zh) 语音终端的指令响应方法、电子设备及计算机存储介质
WO2020215741A1 (zh) 语音识别设备及其唤醒响应方法、计算机存储介质
CN111354336B (zh) 分布式语音交互方法、装置、系统及家电设备
CN111183478B (zh) 家电系统
WO2023193411A1 (zh) 设备配网方法、装置、计算机设备及存储介质
JP2021092913A (ja) 報知制御装置、報知制御システム、報知制御方法、及び報知制御プログラム
CN113757948B (zh) 遥控器的控制处理方法、装置、遥控器及电器设备
KR20230133302A (ko) 애널리틱스를 사용하여 스마트 전기 스위치 및 관련장치를 원격으로 제어하는 방법 및 시스템
CN117031973A (zh) 一种家电设备控制方法、装置、设备及存储介质
WO2022149325A1 (ja) 機器制御方法、プログラム及び機器制御装置
JP7126141B2 (ja) ログ取得装置、ログ取得システム、およびログ取得方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230502

R150 Certificate of patent or registration of utility model

Ref document number: 7279992

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150