JP2022529708A

JP2022529708A - 音声認識デバイス及びそのウェイクアップ応答方法、コンピュータ記憶媒体

Info

Publication number: JP2022529708A
Application number: JP2021562155A
Authority: JP
Inventors: 瑞澄何
Original assignee: Midea Group Co Ltd; Guangdong Midea White Goods Technology Innovation Center Co Ltd
Current assignee: Midea Group Co Ltd; Guangdong Midea White Goods Technology Innovation Center Co Ltd
Priority date: 2019-04-26
Filing date: 2019-12-06
Publication date: 2022-06-23
Anticipated expiration: 2039-12-06
Also published as: WO2020215736A1; JP7279992B2; CN111862988A; CN111862988B; US20220044685A1; KR20210141581A; EP3944231A1; EP3944231A4

Abstract

本願は、一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、中枢デバイスにより音声信号を収集し分析することで、中枢デバイスの応答要素を得ることと、非中枢デバイスにより音声信号を収集し分析することで得られた非中枢デバイスの応答要素を受信することと、中枢デバイスの応答要素と非中枢デバイスの応答要素を比較することと、エリアネットワークにおける音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含む音声認識デバイスのウェイクアップ応答方法、音声認識デバイス及びコンピュータ記憶媒体を開示する。本願によるウェイクアップ応答方法によれば、当該音声信号に応答できる複数の音声認識デバイスから当該音声信号に応答する一つのデバイスを決定することが可能になる。

Description

本願は音声ウェイクアップの分野に関し、特に、音声認識デバイスのウェイクアップ応答方法、音声認識デバイス及びコンピュータ記憶媒体に関する。

本願は２０１９年４月２６日に提出された出願番号が２０１９１０３４３０６７８、発明の名称が「音声認識デバイス及びそのウェイクアップ応答方法、コンピュータ記憶媒体」である中国特許出願の優先権を主張し、その内容のすべてを援用により本願に組み込んだ。

音声認識や音声対話等の技術は複数の分野において適用されており、音声認識システムを搭載したデバイスは音声信号を受け取った場合、ウェイクアップされてから音声信号に応答することが一般的である。

同一領域又は複数の隣接領域にある複数の音声認識デバイスは、同時に音声信号によりウェイクアップされて応答することが発生する可能性があり、通常のシーンでは、ユーザは一つの音声認識デバイスのみをウェイクアップするはずであるのが言うまでもなく、また、複数の音声認識デバイスの同時ウェイクアップと応答により複数の音声認識デバイス同士が互いに干渉してしまい、例えば、一つの音声認識デバイスが前記音声信号に応答して朗読した声を別の音声認識デバイスが受け取って応答し、逆もまた同様であり、即ち、互いに干渉することが発生してしまう。

本願は、従来技術による複数の音声認識デバイスが同時にウェイクアップ音声に応答することで互いに干渉することを解決するために、音声認識デバイスのウェイクアップ応答ウェイクアップ応答方法、音声認識デバイス及びコンピュータ記憶媒体を提供する。

上記した技術的課題を解決するために、本願は、一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、中枢デバイスにより音声信号を収集し分析することで、中枢デバイスの応答要素を得ることと、非中枢デバイスにより音声信号を収集し分析することで得られた非中枢デバイスの応答要素を受信することと、中枢デバイスの応答要素と非中枢デバイスの応答要素を比較することと、エリアネットワークにおける音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含む音声認識デバイスのウェイクアップ応答ウェイクアップ応答方法を提供する。

上記した技術的課題を解決するために、本願は、一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、非中枢デバイスにより音声信号を収集し分析することで、非中枢デバイスの応答要素を得ることと、中枢デバイスへ非中枢デバイスの応答要素を送信し、中枢デバイスにより非中枢デバイスの応答要素と中枢デバイスの応答要素を比較することで、エリアネットワークにおける音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含む音声認識デバイスのウェイクアップ応答ウェイクアップ応答方法を提供する。

上記した技術的課題を解決するために、本願は、コンピュータプログラムを実行することでウェイクアップ応答方法の手順を実現するためのプロセッサと、コンピュータプログラムが記憶されているメモリとを含む音声認識デバイスを提供する。

上記した技術的問題を解決するために、本願は、実行されることで上記ウェイクアップ応答方法の手順を実現するコンピュータプログラムが記憶されているコンピュータ記憶媒体を提供する。

本願によるウェイクアップ応答方法では、複数の音声認識デバイスからエリアネットワークが構成され、音声認識デバイスはいずれも音声信号を収集し、そして収集された音声信号を分析することで応答要素を得る。複数の音声認識デバイスは一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる。中枢デバイスはその自体の応答要素を取得しながら、非中枢デバイスの応答要素を受信し、そして、自体の応答要素と非中枢デバイスの応答要素を比較することで、本エリアネットワークにおける音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定する。本願では、エリアネットワークを構成する音声認識デバイスは音声信号によりウェイクアップされた場合ではしばらく応答せず、どのデバイスから応答するかを中枢デバイスにより決定することで、複数の音声認識デバイスのいずれも応答することに起因して互いに干渉することは回避されている。

本願による音声認識デバイスを互いに接続したネットワークの構造模式図である。本願による音声認識デバイスのウェイクアップ応答方法を単一エリアネットワークに適用したフロー模式図である。本願による音声認識デバイスのウェイクアップ応答方法をマルチエリアネットワークに適用したフロー模式図である。本願による音声認識デバイスのウェイクアップ応答方法の中枢デバイスでの作動フロー模式図である。本願による音声認識デバイスウェイクアップ応答方法の非中枢デバイスでの作動フロー模式図である。本願による音声認識デバイスの一実施例の構造模式図である。本願によるコンピュータ記憶媒体の一実施例の構造模式図である。

本発明の技術的解決手段を当業者がより良好に理解できるようにするために、本願による音声認識デバイスのウェイクアップ応答方法、音声認識デバイス及びコンピュータ記憶媒体を図面と具体的な実施形態に合わせて以下でさらに詳細に説明する。

本願によるウェイクアップ応答方法は複数の音声認識デバイスがいずれも同一の音声信号に応答可能な場合に適用されるものであり、このような場合、家電の分野を例とすれば、同一領域又は複数の隣接領域に複数の家電機器が存在しており、それらの家電機器はいずれも音声認識機能を持ち、つまり音声認識デバイスとして機能するものである。例えば、客間領域にはテレビ、空調機、冷蔵庫等の音声認識デバイスが存在し、台所領域には冷蔵庫、電子レンジ、電気ポット、炊飯器等の音声認識デバイスが存在している。ユーザが客間領域から音声信号を出すと、声の伝播特性から、客間領域内の複数の家電機器はいずれもこの音声信号を受け取って応答する可能性があり、この場合、家電機器Ａが答えた声を家電機器Ｂが受け取って応答することも発生し得るので、家電機器同士が互いに干渉してしまい、正常にユーザの需要に答えることができなくなった。また、例えばユーザが客間領域と台所領域との間から音声信号を出すと、二つの領域のいずれにおいても音声信号を受け取って応答する可能性があり、互いに干渉することも発生してしまった。

本願による音声認識デバイスはウェイクアップされてから応答するモード、即ち、ユーザが出した音声信号によりウェイクアップされてから応答し返答するものである。これに対して、本願はウェイクアップと応答との間に選択・決定メカニズムを導入し、即ち、音声信号によりウェイクアップされた場合ではしばらく応答せず、応答する必要になるのを確認してから返答するものとされている。

具体的には、単一領域の場合、複数の音声認識デバイスを互いに接続してエリアネットワークを構成し、その一つの音声認識デバイスをこのエリアネットワークにおける中枢デバイスとし、本エリアネットワークにおけるどの音声認識デバイスにより当該音声信号に応答するかを中枢デバイスにて決定する。

複数領域の場合、まず、エリアネットワーク毎における中枢デバイスにより本エリアネットワークにおいて音声信号に応答する応答予定音声認識デバイスを決定した後、どのエリアネットワークにおける応答予定音声認識デバイスにより応答するかをすべての中枢デバイスにおける一つの第一中枢デバイスにて決定することで、複数の音声認識デバイスのいずれも音声信号に応答することに起因して互いに干渉することは解決される。

家電の分野に適用する場合、中枢デバイスはいつでもユーザの音声信号に対応して音声信号に応答するデバイスを決定する必要があるので、長期間に電源に接続されてほとんど停電しない家電機器を選択するのが一般的であり、また、ネットワークにおける中枢デバイスとして対話スクリーンを有する家電機器を優先的に選択し、これは、対話スクリーンを介すれば、関連設定を行いやすくなるためである。例えば、冷蔵庫を中枢デバイスとする。

一般には、領域毎例えば客間領域、台所領域のいずれにおいて家電機器のそれぞれによりエリアネットワークを構成でき、このエリアネットワークは領域の区分に対応し、ネットワーク接続から言えば、必ずしも独立したエリアネットワークを構成せず、即ち、家庭中のすべての領域の家電機器は互いに接続して一体となる家電機器ネットワークを構成することがある。

本願によるネットワークは、ＷＩＦＩ無線ネットワークからなるローカルエリアネットワーク、有線ネットワークからなるローカルエリアネットワーク、ブルートゥース（登録商標）ｍｅｓｈからなるローカルエリアネットワーク、ｚｉｇｂｅｅからなるローカルエリアネットワーク、ＲＳ４８５からなるローカルエリアネットワーク、ＬｏＲａからなるローカルエリアネットワーク、１３９４からなるローカルエリアネットワーク、ＣＡＮからなるローカルエリアネットワーク等を含むがそれらに限らない。ネットワークの通信メカニズムはＵＤＰ、ＴＣＰ／ＩＰ、ＨＴＴＰ、ＭＱＴＴ、ＣｏＡＰ等を含むがそれらに限らなく、同一ネットワークの音声認識デバイス毎が迅速かつ確実に情報対話を行えればよい。

以下で、音声認識デバイスからなるネットワークをもとに本願によるウェイクアップ応答方法を説明する。

図１を参照し、本願による音声認識デバイスを互いに接続したネットワークの構造模式図である。図１では、領域は客間領域Ａ、台所領域Ｂ、寝室領域Ｃに分けられ、客間領域Ａにおいて、音声認識デバイスは冷蔵庫Ａ１、テレビＡ２、空気清浄機Ａ３を含み、台所領域Ｂにおいて、音声認識デバイスはレンジフードＢ１、炊飯器Ｂ２、高速ブレンダＢ３を含み、寝室領域Ｃにおいて、音声認識デバイスは空調機Ｃ１、加湿器Ｃ２を含む。すべての的音声認識デバイスを接続してネットワークを構成しており、領域毎の音声認識デバイスからエリアネットワークも構成されている。

エリアネットワーク毎における音声デバイスは一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられ、本エリアネットワークにおいて音声信号に応答する応答予定音声認識デバイスを中枢デバイスにて決定する。すべてのエリアネットワークの中枢デバイスはさらに一つの第一中枢デバイスと少なくとも一つの第二中枢デバイスとに分けられ、具体的にどのエリアネットワークにおける応答予定音声認識デバイスにより音声信号に応答するかを第一中枢デバイスにて決定する。

本願のいくつかの実施例では、エリアネットワークにおける音声デバイスは中枢デバイスと非中枢デバイスとに分けられるのみならず、さらにウェイクアップ優先順位をも有し、ウェイクアップ優先順位は音声認識デバイスの出荷時にメーカにより設定されてもよく、接続によりネットワークを構成した場合、ウェイクアップ優先順位の最も高い音声認識デバイスは自動的にエリアネットワークの中枢デバイスとなり、また、ウェイクアップ優先順位はネットワークを構築する時に設定されてもよく、つまり、ユーザ自らにより設定されてもよいし、又はネットワークを作るプロバイダにより設定されてもよく、それにより、ウェイクアップ優先順位の最も高い音声認識デバイスはネットワークの中枢デバイスとなる。

図１に示されるネットワークでは、客間領域Ａの優先順位はＡ１＞Ａ２＞Ａ３、台所領域Ｂの優先順位はＢ１＞Ｂ２＞Ｂ３、寝室領域Ｃの優先順位はＣ１＞Ｃ２とされており、ただし、Ａ１、Ｂ１、Ｃ１はそれぞれの所在するエリアネットワークの中枢デバイスとなる。各エリアネットワークの中枢デバイス同士についても優先順位はＡ１＞Ｂ１＞Ｃ１とされ、本願では、Ａ１は第一中枢デバイス、Ｂ１とＣ１は第二中枢デバイスとなる。

図１に示されるネットワークによれば、単一領域でのウェイクアップ応答及び複数領域でのウェイクアップ応答が実現可能になる。具体的には、図２と図３を参照し、図２は本願による音声認識デバイスのウェイクアップ応答方法を単一エリアネットワークに適用したフロー模式図であり、図３は本願による音声認識デバイスのウェイクアップ応答方法をマルチエリアネットワークに適用したフロー模式図である。

図２に示されるように、単一エリアネットワークにおいては、下記手順によりウェイクアップ応答方法が実現される。

Ｓ２０１：音声認識デバイスにより音声信号を収集し分析することで、応答要素を得る。

本ステップでは、音声認識デバイスは主に二つの動作つまり収集と分析を行う。ユーザつまり信号源から音声信号を出した後、音声認識デバイスはいずれも音声信号を収集できるが、ユーザに対する音声認識デバイス毎の相対位置が異なるため、収集された音声信号も異なっている。そのうち、ユーザから遠い音声認識デバイスはエリアネットワークにあるが、音声信号を収集できない可能性もある。

音声認識デバイスのそれぞれは収集された音声信号を分析し、本実施例では、エリアネットワーク毎におけるすべての音声認識デバイスは音声信号に対する分析メカニズムが同様であり、これは、それに続く比較計算を容易にするためである。音声信号に対する分析と計算により応答要素が得られ、応答要素は当該音声信号に対する音声認識デバイスの対応程度、即ち、当該音声信号が当該音声認識デバイスに対して出されたものである可能性の高低を示すものである。

音声信号に応答する応答予定音声認識デバイスを応答要素に応じて決定する必要があるので、応答要素には音声認識デバイスの標識と、判断のためのエネルギ値とが含まれており、具体的には、音声信号の音声特徴及び音声信号と音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算することで応答要素のエネルギ値を得ることができる。そのうち、音声特徴は音声信号の音量であってもよく、音量が大きいほど、当該音声認識デバイスにユーザが近いことを示し、当該音声認識デバイスのウェイクアップテンプレートとのマッチング度が高いほど、ユーザが当該音声認識デバイスに対して音声信号を出した可能性が高いことを示す。

さらには、応答要素のエネルギ値の計算は以下の様にされてもよい。

音声信号の音声特徴に基づいて計算することでウェイクアップエネルギＥ１が得られ、音声認識デバイスが所在する環境での環境騒音の音声特徴に基づいて計算することで暗騒音エネルギＥ２が得られ、ウェイクアップエネルギと暗騒音エネルギとの差を有効エネルギＥ＝Ｅ１－Ｅ２とし、
音声信号とウェイクアップテンプレートとのマッチング度に基づいて信頼度Ｐを計算し、信頼度Ｐは音声信号とウェイクアップテンプレートとのマッチング度を示し、音声認識デバイスが音声信号によりウェイクアップされた場合、音声信号とウェイクアップテンプレートとのマッチング程度を判断し、例えば完全にマッチングしていると１００％、大部分がマッチングしていると９０％や８０％又は７０％等と表記してもよく、マッチング程度が一定の閾値を超える場合、音声認識デバイスのウェイクアップが可能であると判定する。同様に、ウェイクアップ要素のエネルギを計算する場合に計算される信頼度Ｐも、ウェイクアップに関する音声信号とウェイクアップテンプレートとのマッチング程度を示すものとなり、例えば、Ｐは１、０．９、０．８、０．７等とされてもよい。

有効エネルギＥと信頼度Ｐとの加重和を求めることで、応答要素のエネルギ値Ｋが得られ、
Ｋ＝ｘＥ＋ｙＰ、ただし、ｘは有効エネルギＥの重み係数、ｙは信頼度Ｐの重み係数である。

そのうち、重み係数ｘ、ｙは固定数値であってもよいし、複数の固定数値から選択してもよく、さらに、最後に決定される音声信号に応答する音声認識デバイスの正確度に応じて動的に調整されてもよい。

本実施例の領域Ａでは、デバイスＡ１により得られる応答要素のエネルギ値をＫ１、デバイスＡ２により得られる応答要素のエネルギ値をＫ２、デバイスＡ３により得られる応答要素のエネルギ値をＫ３と表記する。

本ステップＳ２０１では、中枢デバイスにより音声信号を収集し分析することで、中枢デバイスの応答要素が得られ、非中枢デバイスにより音声信号を収集し分析することで、非中枢デバイスの応答要素が得られる。

Ｓ２０２：非中枢デバイスの応答要素を中枢デバイスが受信する。

音声認識デバイスにより計算することで応答要素が得られた後、非中枢デバイスは自体が取得した応答要素を中枢デバイスに送信する。本実施例では、中枢デバイスＡ１は非中枢デバイスから送信される応答要素を受信する。

Ｓ２０３：中枢デバイスの応答要素と非中枢デバイスの応答要素とを中枢デバイスにて比較することで、応答予定音声認識デバイスを決定する。

本ステップでは、中枢デバイスの応答要素と非中枢デバイスの応答要素とを中枢デバイスにて比較することで、エリアネットワークにおいて音声信号に応答する応答予定音声認識デバイスを決定する。具体的には、中枢デバイスはソートアルゴリズムにより応答要素のエネルギ値を比較することで、すべての応答要素のエネルギ値の並べ替えが得られ、それによりエネルギ値の最も大きい応答要素が得られる。ソートアルゴリズムは挿入ソート、シェルソート、選択ソート、ヒープソート、バブルソート、クイックソート、マージソート、計算ソート、バケットソート、基数ソート等を含むがそれらに限らない。本実施例では、応答要素のエネルギ値の並べ替えはＫ２＞Ｋ１＞Ｋ３となる。

応答要素のエネルギ値を比較することで、応答予定音声認識デバイスを決定することができる。具体的な決定方法は様々がある。

例えば、エネルギ値の最も大きい応答要素を得た場合、それに対応する音声認識デバイスを応答予定音声認識デバイスと決定してもよい。

また、例えば、エネルギ値の最も大きい応答要素を得た場合、エネルギ値の最も大きい応答要素が中枢デバイスの応答要素であることに応じて、即ち、エネルギ値の最も大きい応答要素が中枢デバイスの応答要素であれば、中枢デバイスを応答予定音声認識デバイスと決定する。

エネルギ値の最も大きい応答要素が非中枢デバイスの応答要素であることに応じて、即ち、エネルギ値の最も大きい応答要素が非中枢デバイスの応答要素であれば、本実施例ではエネルギ値の最も大きいものがＫ２であるので、さらにエネルギ値の最も大きい応答要素と中枢デバイスの応答要素とのエネルギ差であるδ＝Ｋ２－Ｋ１を計算する。

エネルギ差δとウェイクアップ閾値δｄを比較し、エネルギ差δがウェイクアップ閾値δｄより大きいと、エネルギ値の最も大きい応答要素に対応する音声認識デバイスを応答予定音声認識デバイスと決定し、エネルギ差δがウェイクアップ閾値δｄより小さいか等しいことに応じて、中枢デバイスを応答予定音声認識デバイスと決定する。

応答要素を比較し分析する場合、エネルギ値の最も大きい応答要素は二つひいてはそれ以上が得られる可能性があり、この時、さらに音声認識デバイスのウェイクアップ優先順位に基づいて音声信号に応答するデバイスを決定し、即ち、エネルギ値の最も大きい応答要素に対応する音声認識デバイスから優先順位の最も高いものを応答予定音声認識デバイスと決定する。

Ｓ２０４：中枢デバイスから非中枢デバイスへ音声信号に応答するかどうかの通知を送信する。

中枢デバイスは音声信号に応答する応答予定音声認識デバイスを決定した後、ネットワークを介して非中枢デバイス、即ち、エリアネットワークにおけるウェイクアップされたが応答していない音声認識デバイスのすべてへこの音声信号に応答するかどうかの通知を送信し、この通知として、具体的に応答するか応答する必要がないかを示す情報であってもよいし、決定された当該音声信号に応答する音声認識デバイスのデバイス情報であってもよい。応答予定音声認識デバイスのみに通知を送信してもよく、通知を受けなかった他の音声認識デバイスは応答せず、通知を受けたものは応答する。

Ｓ２０５：応答予定音声認識デバイスにより音声信号に応答する。

決定された音声認識デバイスは音声信号に応答し、他の音声認識デバイスは応答しない。それにより、一つの音声認識デバイスのみによりこの音声信号に応答することは保証され、互いに干渉することがなくなる。

上記図２に示される方法は単一エリアネットワークの音声ウェイクアップ認識に適用されるものであり、単一エリアネットワークにおいて、音声認識デバイスは音声情報によりウェイクアップされた場合では直ちに応答せず、単一エリアネットワークにおける中枢デバイスにより応答予定デバイスを決定してから応答する様である。

マルチエリアネットワークのウェイクアップ応答方法は、図２に示される単一エリアネットワーク中の応答予定音声認識デバイスの決定に基づいたものである。具体的には、マルチエリアネットワークつまり互いに接続されている複数のエリアネットワークでは、エリアネットワーク毎の中枢デバイスは互いに接続されながら、一つの第一中枢デバイスと少なくとも一つの第二中枢デバイスとに分けられ、エリアネットワーク毎においてその応答予定音声認識デバイスを決定した後、さらに第一中枢デバイスにより音声信号に応答する音声認識デバイスを確認する。

マルチエリアネットワーク中のエリアネットワーク毎によるウェイクアップ応答方法の手順について贅言しないが、さらに図３を参照し、マルチエリアネットワークのウェイクアップ応答方法は以下の手順をさらに含む。

Ｓ３０１：第二中枢デバイスから第一中枢デバイスへ第二応答要素を送信し、第二応答要素を第一中枢デバイスが受信する。

マルチエリアネットワークでは、第一中枢デバイスはすべてのエリアネットワークにおける応答予定音声認識デバイスの応答要素を比較することで、音声信号に応答する音声認識デバイスを決定する必要があり、応答予定音声認識デバイスは単一エリアネットワークにおいて判断された音声信号に応答する音声認識デバイスであり、マルチエリアネットワークに適用する場合、単一エリアネットワークにおいて決定された応答予定音声認識デバイスは直ちに応答せず、第一中枢デバイスにより複数の応答予定音声認識デバイスからどのデバイスで音声信号に応答するか、即ち、音声信号に応答する最終的な音声認識デバイスを決定する。従って、本ステップＳ３０１では、第二中枢デバイスからその第二応答要素を第一中枢デバイスへ送信し、第二応答要素は第二中枢デバイスが所在する領域の応答予定音声認識デバイスの応答要素である。

例えば、領域Ａでは、Ａ１によりＫＡ１とＫＡ２とＫＡ３を比較することで、Ａ２を応答予定音声認識デバイスと決定し、領域Ｂでは、Ｂ１によりＫＢ１とＫＢ２とＫＢ３を比較することで、Ｂ３を応答予定音声認識デバイスと決定し、領域Ｃでは、Ｃ１によりＫＣ１とＫＣ２を比較することで、Ｃ１を応答予定デバイスと決定する。

Ｂ１はその所在するエリアネットワークの応答予定音声認識デバイスＢ３の応答要素ＫＢ３をＡ１に送信し、Ｃ１も応答要素ＫＣ１をＡ１に送信し、Ａ１自体により決定された応答予定音声認識デバイスＡ２の応答要素はＫＡ２である。

Ｓ３０２：第一中枢デバイスにより第二応答要素と第一応答要素を比較することで、音声信号に応答する音声認識デバイスを決定する。

第一中枢デバイスにより応答予定音声認識デバイス毎の応答要素つまり第一応答要素と第二応答要素を比較し、第一応答要素は第一中枢デバイスが所在するエリアネットワークにおける応答予定音声認識デバイスの応答要素である。

本ステップＳ３０２での比較は上記ステップＳ２０３での比較と類似するものであり、詳細について贅言しない。

例えば、第一応答要素のエネルギ値と第二応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素が得られ、エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより音声信号に応答することを決定するようにしてもよい。

また、例えば、第一応答要素のエネルギ値と第二応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素が得られ、エネルギ値の最も大きい応答要素が第一応答要素であれば、第一中枢デバイスにより音声信号に応答し、エネルギ値の最も大きい応答要素が第二応答要素であれば、エネルギ値の最も大きい応答要素と第一応答要素とのエネルギ差を計算してエネルギ差とウェイクアップ閾値を比較し、エネルギ差がウェイクアップ閾値より大きいと、エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより音声信号に応答し、エネルギ差がウェイクアップ閾値より小さいか等しいと、第一中枢デバイスにより音声信号に応答する。

本実施例では、Ａ１によりＫＡ２とＫＢ３とＫＣ１を比較することで、例えばＢ２を音声信号に応答する音声認識デバイスと決定する。

同様に、エネルギ値の最も大きい応答要素は二つひいてはそれ以上が得られる可能性があり、この時、さらに音声認識デバイスのウェイクアップ優先順位に基づいて音声信号に応答するデバイスを決定し、即ち、エネルギ値の最も大きい応答要素に対応する音声認識デバイスから優先順位の最も高いものを応答予定音声認識デバイスと決定する。

Ｓ３０３：第一中枢デバイスからマルチエリアネットワークにおける他の音声認識デバイスへ音声信号に応答するかどうかの通知を送信する。

第一中枢デバイスは音声信号に応答する音声認識デバイスを決定した後、直接ネットワーク全体つまり複数のエリアネットワークへ通知を送信してもよいし、あるいは、最初に各エリアネットワークの中枢デバイスへ通知を送信し、そして各中枢デバイスから非中枢デバイスへ通知を送信するようにしてもよい。同様に、音声信号に応答する音声認識デバイスのみに送信し、通知を受けなかった他の音声認識デバイスは応答しない。

Ｓ３０４：決定された音声認識デバイスにより音声信号に応答する。

本ステップＳ３０４は上記ステップＳ２０５と類似するものであり、贅言しない。

図３に示される方法は複数領域の音声ウェイクアップ認識に適用されるものであり、領域毎において本領域での応答するべき音声デバイスを決定した後、さらに第一中枢デバイスによりどの領域の音声デバイスから応答するかを決定することで、一つの音声認識デバイスのみにより音声信号に応答することは保証されている。

図２と図３を適用したネットワークでは、音声認識デバイスはウェイクアップ優先順位を有するので、優先順位の最も高い音声認識デバイスが故障した場合、ウェイクアップ優先順位に基づいてそれに次ぐウェイクアップ優先順位の音声認識デバイスを中枢デバイス又は第一中枢デバイスと決定してもよい。

音声認識デバイスはその自体がエリアネットワークにおいてウェイクアップ優先順位の最も高いものであるかどうかを周期的に検知してもよいし、エリアネットワークが変化した時に自体がウェイクアップ優先順位の最も高いものであるかどうかを検知してもよく、自体が現在のエリアネットワークにおいてウェイクアップ優先順位の最も高いものであることを検知した場合、即ち、エリアネットワークにおいてウェイクアップ優先順位の最も高いものであるのを検知したことに応じて、中枢デバイスとして作動するようになる。

本実施例によるネットワークのウェイクアップ応答方法は、ネットワークにおける音声認識デバイスがウェイクアップ優先順位を有すること、及び、音声認識デバイスがネットワークの中枢デバイスとして応答要素の比較を行い得ることに基づいたものである。従って、新たにネットワークに参加する音声認識デバイスも本実施例のウェイクアップメカニズムに適合する必要があり、中枢デバイスにより関連設定を行ってもよい。

中枢デバイスはネットワークに参加する音声認識デバイスのデバイス情報を取得する。予め設定されたルールに従ってデバイス情報を分析することで、ネットワークにおける音声認識デバイスについてウェイクアップ優先順位を改めて並べ替えるようにしてもよい。

音声認識デバイス毎に音声認識システムが搭載され、音声認識システムによりウェイクアップ優先順位や音声認識アルゴリズム、ウェイクアップテンプレート等が決められている。新たに参加する音声認識デバイスは異なる音声認識システムを有し、即ち、異なるウェイクアップ優先順位の設定を有すれば、ネットワークの中枢デバイスはその新しいウェイクアップ優先順位に基づいて改めて並べ替えを行ってもよい。例えば、ネットワークＡ１－Ａ２－Ａ３に対して音声認識デバイスＡ４が新たに参加し、そのウェイクアップ優先順位がＡ３より大きくなるように設定されており、この場合、ウェイクアップ優先順位を改めてＡ１＞Ａ２＞Ａ４＞Ａ３とする。

新たに参加する音声認識デバイスは同一の音声認識システムを有し、即ち、同一のウェイクアップ優先順位の設定を有すれば、先にネットワークに参加した音声認識デバイスのウェイクアップ優先順位の方が高いようにする。例えば、新たに参加する音声認識デバイスＡ３は先に参加したＡ３と同一の音声認識システムを有する場合、先に参加したＡ３をＡ３１、新たに参加するＡ３をＡ３２として、ウェイクアップ優先順位を改めてＡ１＞Ａ２＞Ａ３１＞Ａ３２とする。

本実施例のネットワークの場合、そのウェイクアップ応答方法を実現するすべての手順がネットワーク内部にて完了できるので、本実施例の音声認識デバイスはオフラインで作動可能である。

上記音声認識デバイスを互いに接続した単一エリアネットワークでは、音声認識デバイスは中枢デバイスと非中枢デバイスの二つの役割を果たすことができる。音声認識デバイス毎は中枢デバイスとして高くて多い機能を有してもよいし、単に非中枢デバイスとして低い機能を有してもよい。

家電の分野では、大型家電例えば冷蔵庫やテレビ等において機能の高くて多い音声認識システムを搭載することで、中枢デバイスとして作動させてもよく、小型家電例えば炊飯器や電気ポット等において機能の低い音声認識システムを搭載することで、非中枢デバイスとして作動させてもよい。

ネットワークの中枢デバイスとなり得る音声認識装置について、そのウェイクアップ応答方法を実現する手順が図４に示され、図４は本願による音声認識デバイスのウェイクアップ応答方法の中枢デバイスでの作動フロー模式図である。ネットワークの中枢デバイスとして、そのウェイクアップ応答方法の実現は下記手順を含む。

Ｓ４０１：音声信号を収集し分析することで、中枢デバイスの応答要素を得る。

エリアネットワーク毎における中枢デバイスの場合、本ステップＳ４０１は上記ステップＳ２０１にて完了し、詳細について贅言しない。

Ｓ４０２：非中枢デバイスの応答要素を受信する。

本ステップＳ４０２は上記ステップＳ２０２に対応しており、詳細について贅言しない。

Ｓ４０３：中枢デバイスの応答要素と非中枢デバイスの応答要素を比較することで、エリアネットワークにおける応答予定音声認識デバイスを決定する。

本ステップＳ４０３は上記ステップＳ２０３と類似するものであり、詳細について贅言しない。

上記手順において、音声認識デバイスを中枢デバイスとして単一領域でのウェイクアップ応答方法を実現するための手段を説明したが、ステップ毎の詳細や中枢デバイスが作動する詳細も上述されたため、贅言しない。本実施例の音声認識デバイスは複数の音声認識デバイスから当該音声信号に応答する一つの音声認識デバイスを決定可能であり、いずれも応答することに起因して互いに干渉することは回避されている。

さらには、マルチエリアネットワークの場合、中枢デバイスはさらに第一中枢デバイスと第二中枢デバイスとに分けられ、第一中枢デバイスは下記手順をさらに実行する。

Ｓ４０４：第二応答要素を第一中枢デバイスが受信する。

本ステップＳ４０４は上記ステップＳ３０１にて完了し、詳細について贅言しない。

Ｓ４０６：第一応答要素と第二応答要素を比較することで、音声信号に応答する音声認識デバイスを決定する。

本ステップＳ４０６は上記ステップＳ３０２と類似するものであり、詳細について贅言しない。

第二中枢デバイスは下記手順を実行する。

Ｓ４０５：第二中枢デバイスから第一中枢デバイスへ第二応答要素を送信し、第一中枢デバイスにより第一応答要素と第二応答要素を比較することで、音声信号に応答する音声認識デバイスを決定する。

本ステップＳ４０５は上記ステップＳ３０１－Ｓ３０２にて完了し、詳細について贅言しない。

さらには、マルチエリアネットワークでは、どのエリアネットワークにおける応答予定音声認識デバイスにより音声信号に応答するかを第一中枢デバイスにてさらに決定する。

非中枢デバイスから見れば、そのウェイクアップ応答方法を実現する手順が図５に示され、図５は本願による音声認識デバイスウェイクアップ応答方法の非中枢デバイスでの作動フロー模式図である。当該音声認識デバイスは非中枢デバイスとされており、本実施例のウェイクアップ応答方法は下記手順を含む。

Ｓ５０１：音声信号を収集し分析することで、非中枢デバイスの応答要素を得る。

本ステップＳ５０１は上記ステップＳ２０１と類似し、いずれも応答要素を取得するものであり、詳細について贅言しない。

Ｓ５０２：中枢デバイスへ非中枢デバイスの応答要素を送信し、中枢デバイスにより非中枢デバイスの応答要素と中枢デバイスの応答要素を比較することで、応答予定音声認識デバイスを決定する。

非中枢デバイスは音声信号を収集した場合では直ちに当該音声信号に応答せず、計算と分析を行うことで応答要素を得てから、この応答要素を中枢デバイスに伝送して分析し比較することで、中枢デバイスにより音声信号に応答する音声認識デバイスを決定する。

本実施例において、音声認識デバイスを非中枢デバイスとしてそのウェイクアップ応答方法を実行するための手段を説明したが、ステップ毎の詳細や非中枢デバイスが作動する詳細も上述されたため、贅言しない。本実施例の音声認識デバイスは音声信号を受信した場合では直ちに応答せず、通知を受けた後に応答するかどうかを決定するので、他の音声認識デバイスと同時に応答することに起因して互いに干渉することは回避されている。

上記ウェイクアップ応答方法は音声認識デバイスにより実現されるため、本願は図６に示される音声認識デバイスをさらに提案し、図６は本願による音声認識デバイスの一実施例の構造模式図であり、本実施例の音声認識デバイス１００は互いに接続されている音声収集装置１１とプロセッサ１２とメモリ１３とを含む家電であってもよく、本実施例の音声認識デバイス１００によれば、上記ウェイクアップ応答方法の実施例を実現可能になる。そのうち、音声収集装置１１は音声信号を収集するためのものであり、メモリ１３にコンピュータプログラムが記憶され、プロセッサ１２はコンピュータプログラムを実行することで上記ウェイクアップ応答方法を実現するためのものである。

具体的には、音声収集装置１１は音声信号を収集するためのものであり、プロセッサ１２は収集された音声信号を分析して応答要素を得てから、予め設定されたアルゴリズムに従ってすべての応答要素を比較することで、音声信号に応答する音声認識デバイスを決定し、そして他の音声認識デバイスへ音声信号に応答するかどうかの通知を送信するためのものである。

あるいは、音声収集装置１１は音声信号を収集するためのものであり、プロセッサ１２は収集された音声信号を分析して応答要素を得てから中枢デバイスに送信し、受信された中枢デバイスからの音声信号に応答するかどうかの通知に基づいて応答するかどうかを決定するためのものである。

そのうち、プロセッサ１２は集積回路チップであってもよく、信号処理能力を有する。プロセッサ１２は汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、専用集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理素子、ディスクリートゲート又はトランジスタ論理素子、ディスクリートハードウェア部品であってもよい。汎用プロセッサはマイクロプロセッサであってもよいし、あらゆる一般的なプロセッサ等であってもよい。

上記実施例の方法はコンピュータプログラムとして提供されてもよいので、本願は図７に示されるコンピュータ記憶媒体を提案し、図７は本願によるコンピュータ記憶媒体の一実施例の構造模式図である。本実施例のコンピュータ記憶媒体２００には、実行されることで上記実施例の方法を実現可能なコンピュータプログラム２１が記憶されている。

本実施例のコンピュータ記憶媒体２００はＵディスク、ポータブルハードディスク、読取専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等のプログラム指令を記憶できる媒体であってもよいし、又は当該プログラム指令を記憶したサーバであってもよく、当該サーバは記憶されたプログラム指令を他のデバイスに実行させるように送信してもよいし、又は記憶されたプログラム指令を自分で実行してもよい。

本願によるいくつかの実施例において開示される方法とデバイスは他の態様で実現され得ることは理解されたい。例えば、上記したデバイスの実施形態は模式的なものに過ぎず、例えば、モジュール又はユニットは論理機能に従って分けられており、実際に実現する場合には他の態様で分けてもよく、例えば、複数のユニット又はコンポーネントは別のシステムに組み合わせ又は統合されてもよく、あるいは、一部の特徴を無視したり、実行しなかったりしてもよい。また、表示又は検討される互いの結合や直接結合又は通信接続はあるインタフェース、デバイス又はユニットを介する間接結合又は通信接続であってもよく、電気的や機械的又は他の態様のものであってもよい。

個別部品として説明されるユニットは物理的に独立したものであってもよくではなくてもよく、ユニットとして表示される部品は物理的なユニットであってもよくではなくてもよく、即ち、ある場所にあってもよいし、複数のネットワークユニットに分布されてもよい。実際の需要に応じてその一部又は全部のユニットを選択して本実施形態による解決手段を実現するようにしてもよい。

また、本願の各実施例中の各機能ユニットは一つの処理ユニットに統合されてもよいし、物理的なものとして個別に存在してもよく、また、二つ又はそれ以上のユニットを一つのユニットに統合してもよい。上記統合されているユニットはハードウェアとして実現されてもよいし、ソフトウェア機能ユニットとして実現されてもよい。

統合されているユニットはソフトウェア機能ユニットとして実現されながら独立した製品として販売され使用される場合、コンピュータ読取可能な記憶媒体に記憶されてもよい。このような理解のもとに、本願による技術的解決手段は本質的に、あるいは、従来技術に貢献する部分又はその全部や一部がソフトウェア製品として表現でき、このコンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器（パソコン、サーバ又はネットワークデバイス等であってもよい）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本願の各実施形態による方法の全部や一部の手順を実行させるように若干の指令を含む。前述した記憶媒体はＵディスク、ポータブルハードディスク、読取専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等のプログラムコードを記憶できる様々な媒体を含む。

上記は本願の実施形態に過ぎず、それにより本願の保護範囲を制限するべきではなく、本願の明細書及び図面に基づいてなされた等価構造又は等価流れなどの変形、あるいは、直接又は間接的に他の関連技術分野に適用したものはいずれも本願の保護範囲に含まれる。

１１音声収集装置
１２プロセッサ
１３メモリ
１００音声認識デバイス
２００コンピュータ記憶媒体
Ａ１第一中枢デバイス
Ｂ１第二中枢デバイス
Ｃ１第二中枢デバイス

Claims

一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、
前記中枢デバイスにより音声信号を収集し分析することで、前記中枢デバイスの応答要素を得ることと、
前記非中枢デバイスにより前記音声信号を収集し分析することで得られた前記非中枢デバイスの応答要素を受信することと、
前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を比較することと、
前記エリアネットワークにおける前記音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含むことを特徴とする音声認識デバイスのウェイクアップ応答方法。
前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を比較して応答予定音声認識デバイスを決定することは、
前記中枢デバイスの応答要素のエネルギ値と前記非中枢デバイスの応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することとを含むことを特徴とする、請求項１に記載のウェイクアップ応答方法。
前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を比較して応答予定音声認識デバイスを決定することは、
前記中枢デバイスの応答要素のエネルギ値と前記非中枢デバイスの応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素であるかどうかを判断することと、
前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素であることに応じて、前記中枢デバイスを前記応答予定音声認識デバイスと決定することと、
前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素ではないことに応じて、前記エネルギ値の最も大きい応答要素と前記中枢デバイスの応答要素とのエネルギ差を計算することと、
前記エネルギ差とウェイクアップ閾値を比較することと、
前記エネルギ差が前記ウェイクアップ閾値より大きいことに応じて、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することと、
前記エネルギ差が前記ウェイクアップ閾値より小さいか等しいことに応じて、前記中枢デバイスを前記応答予定音声認識デバイスと決定することとを含むことを特徴とする、請求項１に記載のウェイクアップ応答方法。
前記複数の音声認識デバイスはウェイクアップ優先順位を有し、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することは、
前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスからウェイクアップ優先順位の最も高いものを前記応答予定音声認識デバイスと決定することを含むことを特徴とする、請求項２又は請求項３に記載のウェイクアップ応答方法。
前記中枢デバイスから前記非中枢デバイスへ前記音声信号に応答するかどうかの通知を送信することを含むことを特徴とする、請求項１に記載のウェイクアップ応答方法。
複数の前記エリアネットワークは互いに接続され、すべてのエリアネットワークにおける複数の中枢デバイスは一つの第一中枢デバイスと少なくとも一つの第二中枢デバイスとに分けられ、
前記第二中枢デバイスから前記第一中枢デバイスへ第二応答要素を送信し、前記第一中枢デバイスにより前記第二中枢デバイスが所在するエリアネットワークにおける応答予定音声認識デバイスの応答要素である前記第二応答要素と前記第一中枢デバイスが所在するエリアネットワークの応答予定音声認識デバイスの応答要素である第一応答要素を比較することで、前記音声信号に応答する音声認識デバイスを決定することをさらに含むことを特徴とする、請求項１に記載のウェイクアップ応答方法。
複数の前記エリアネットワークは互いに接続され、すべてのエリアネットワークにおける複数の中枢デバイスは一つの第一中枢デバイスと少なくとも一つの第二中枢デバイスとに分けられ、
前記第二中枢デバイスが所在するエリアネットワークの応答予定音声認識デバイスの応答要素である第二応答要素を前記第一中枢デバイスが受信することと、
前記第二応答要素と前記第一中枢デバイスが所在するエリアネットワークにおける応答予定音声認識デバイスの応答要素である第一応答要素を比較することで、前記音声信号に応答する音声認識デバイスを決定することとをさらに含むことを特徴とする、請求項１に記載のウェイクアップ応答方法。
前記第二応答要素と第一応答要素を比較して前記音声信号に応答する音声認識デバイスを決定することは、
前記第一応答要素のエネルギ値と前記第二応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより前記音声信号に応答するのを決定することとを含むことを特徴とする、請求項６又は請求項７に記載のウェイクアップ応答方法。
前記複数の音声認識デバイスはウェイクアップ優先順位を有し、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することは、
前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにおけるウェイクアップ優先順位の最も高いものにより前記音声信号に応答するのを決定することを含むことを特徴とする、請求項８に記載のウェイクアップ応答方法。
前記第二応答要素と前記第一中枢デバイスの第一応答要素を比較して前記音声信号に応答する音声認識デバイスを決定することは、
前記第一応答要素のエネルギ値と前記第二応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
前記エネルギ値の最も大きい応答要素が前記第一応答要素であるかどうかを判断することと、
前記エネルギ値の最も大きい応答要素が前記第一応答要素であることに応じて、前記第一中枢デバイスにより前記音声信号に応答するのを決定することと、
前記エネルギ値の最も大きい応答要素が前記第一応答要素ではないことに応じて、前記エネルギ値の最も大きい応答要素と前記第一応答要素とのエネルギ差を計算することと、
前記エネルギ差とウェイクアップ閾値を比較することと、
前記エネルギ差が前記ウェイクアップ閾値より大きいことに応じて、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより前記音声信号に応答するのを決定することと、
前記エネルギ差が前記ウェイクアップ閾値より小さいか等しいことに応じて、前記第一中枢デバイスにより前記音声信号に応答するのを決定することとを含むことを特徴とする、請求項６又は請求項７に記載のウェイクアップ応答方法。
前記複数の音声認識デバイスはウェイクアップ優先順位を有し、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにより前記音声信号に応答するのを決定することは、
前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスにおけるウェイクアップ優先順位の最も高いものにより前記音声信号に応答するのを決定することを含むことを特徴とする、請求項１０に記載のウェイクアップ応答方法。
前記第一中枢デバイスから前記複数のエリアネットワークにおける他の音声認識デバイスへ前記音声信号に応答するかどうかの通知を送信することをさらに含むことを特徴とする、請求項６又は請求項７に記載のウェイクアップ応答方法。
前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を応答要素と総称し、収集された音声信号を分析して応答要素を得ることは、
前記音声信号の音声特徴及び前記音声信号と前記音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算することで、前記応答要素のエネルギ値を得ることを含むことを特徴とする、請求項１、請求項６、請求項７のいずれかに記載のウェイクアップ応答方法。
前記音声信号の音声特徴及び前記音声信号と前記音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算して前記応答要素のエネルギ値を得ることは、
前記音声信号の音声特徴に基づいて計算することでウェイクアップエネルギが得られ、前記音声認識デバイスが所在する環境での環境騒音の音声特徴に基づいて計算することで暗騒音エネルギが得られ、前記ウェイクアップエネルギと前記暗騒音エネルギとの差を有効エネルギとすることと、
前記音声信号と前記ウェイクアップテンプレートとのマッチング程度に基づいて信頼度を計算することと、
前記有効エネルギと前記信頼度との加重和を求めることで、前記応答要素のエネルギ値を得ることとを含むことを特徴とする、請求項１３に記載のウェイクアップ応答方法。
一つの中枢デバイスと少なくとも一つの非中枢デバイスとに分けられる複数の音声認識デバイスからエリアネットワークが構成され、
前記非中枢デバイスにより音声信号を収集し分析することで、前記非中枢デバイスの応答要素を得ることと、
前記中枢デバイスへ前記非中枢デバイスの応答要素を送信し、前記中枢デバイスにより前記非中枢デバイスの応答要素と前記中枢デバイスの応答要素を比較することで、前記エリアネットワークにおける前記音声信号に応答する音声認識デバイスである応答予定音声認識デバイスを決定することとを含むことを特徴とする音声認識デバイスのウェイクアップ応答方法。
前記中枢デバイスにより前記非中枢デバイスの応答要素と前記中枢デバイスの応答要素を比較して応答予定音声認識デバイスを決定することは、
前記中枢デバイスにより前記中枢デバイスの応答要素のエネルギ値と前記非中枢デバイスの応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素を得ることと、
前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することとを含むことを特徴とする、請求項１５に記載のウェイクアップ応答方法。
前記中枢デバイスにより前記中枢デバイスの応答要素のエネルギ値と前記非中枢デバイスの応答要素のエネルギ値を比較することで、エネルギ値の最も大きい応答要素が得られ、
前記エネルギ値の最も大きい応答要素が中枢デバイスの応答要素であるかどうかを判断し、
前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素であることに応じて、前記中枢デバイスを前記応答予定音声認識デバイスと決定し、
前記エネルギ値の最も大きい応答要素が前記中枢デバイスの応答要素ではないことに応じて、前記エネルギ値の最も大きい応答要素と前記中枢デバイスの応答要素とのエネルギ差を計算し、
前記エネルギ差とウェイクアップ閾値を比較し、
前記エネルギ差が前記ウェイクアップ閾値より大きいことに応じて、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定し、
前記エネルギ差が前記ウェイクアップ閾値より小さいか等しいことに応じて、前記中枢デバイスを前記応答予定音声認識デバイスと決定することを特徴とする、請求項１５に記載のウェイクアップ応答方法。
前記複数の音声認識デバイスはウェイクアップ優先順位を有し、前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスを前記応答予定音声認識デバイスと決定することは、
前記エネルギ値の最も大きい応答要素に対応する音声認識デバイスからウェイクアップ優先順位の最も高いものを前記応答予定音声認識デバイスと決定することを含むことを特徴とする、請求項１６又は請求項１７に記載のウェイクアップ応答方法。
前記中枢デバイスから送信される前記音声信号に応答するかどうかの通知を受信することをさらに含むことを特徴とする、請求項１５に記載のウェイクアップ応答方法。
前記中枢デバイスの応答要素と前記非中枢デバイスの応答要素を応答要素と総称し、収集された音声信号を分析して応答要素を得ることは、
前記音声信号の音声特徴及び前記音声信号と前記音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算することで、前記応答要素のエネルギ値を得ることを含むことを特徴とする、請求項１５に記載のウェイクアップ応答方法。
前記音声信号の音声特徴及び前記音声信号と前記音声認識デバイスのウェイクアップテンプレートとのマッチング度に基づいて計算して前記応答要素のエネルギ値を得ることは、
前記音声信号の音声特徴に基づいて計算することでウェイクアップエネルギが得られ、前記音声認識デバイスが所在する環境での環境騒音の音声特徴に基づいて計算することで暗騒音エネルギが得られ、前記ウェイクアップエネルギと前記暗騒音エネルギとの差を有効エネルギとすることと、
前記音声信号と前記ウェイクアップテンプレートとのマッチング程度に基づいて信頼度を計算することと、
前記有効エネルギと前記信頼度との加重和を求めることで、前記応答要素のエネルギ値を得ることとを含むことを特徴とする、請求項２０に記載のウェイクアップ応答方法。
コンピュータプログラムが記憶されているメモリと、前記コンピュータプログラムを実行することで請求項１～請求項２１のいずれかに記載の方法の手順を実現するためのプロセッサとを含むことを特徴とする音声認識デバイス。
実行されることで請求項１～請求項２１のいずれかに記載の方法の手順を実現するコンピュータプログラムが記憶されていることを特徴とするコンピュータ記憶媒体。