JP2018524620A

JP2018524620A - 音声の発生位置を特定するための方法及び端末デバイス

Info

Publication number: JP2018524620A
Application number: JP2017557075A
Authority: JP
Inventors: ▲樹▼▲強▼ ▲ゴン▼; 志▲東▼ 陶
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-05-20
Filing date: 2015-05-20
Publication date: 2018-08-30
Anticipated expiration: 2035-05-20
Also published as: WO2016183825A1; CN107430524A; EP3264266B1; EP3264266A4; EP3264266A1; JP6615227B2; US10410650B2; KR20170129249A; KR102098668B1; CN107430524B; US20180108368A1

Abstract

本発明の実施形態は、音声の発生位置を特定するための方法及び端末デバイスを提供する。前記方法は、Ｋ個の第１音声信号を収集するステップであって、Ｋは２以上の整数である、ステップと、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップであって、ＭはＮ以下であり、Ｎは２以上の整数である、ステップと、各第２音声信号に対応する位置を決定するステップとを含む。本発明の実施形態において、Ｍ個の第２音声信号はビーム形成アルゴリズムを用いて、位置パラメータに従って、Ｋ個の第１音声信号から抽出され、各第２音声信号に対応する発生位置が決定される。この方法により、異なる位置から発せられた音声信号が効率的に抽出することができ、音声認識の能力が提供され、これにより、ユーザに対し、よりよいユーザ体験が提供される。

Description

本発明は、移動通信の分野に関連し、特に、音声の発生位置を特定するための方法及び端末デバイスに関する。

音声認識は、現在のインテリジェント情報システムの人間−コンピュータ・インタラクション・インターフェースの中核技術である。音声認識の成功率を向上させるためには、一般的には、集音センサを用いて音声信号を収集するという解決策が用いられ、音声の発生位置に応じて音声信号の収集及び音声認識が実行される。

現在のところ、音声認識の成功率を向上させる解決策において、1つの位置からのみ発生された音声信号を抽出することができる。別の位置から発生された音声信号は、雑音としてしかみなされず、フィルタリングされ除外されます。その結果、前記音声信号を正確に抽出することができず、音声の発生位置を特定できず、音声認識を行うことができない。車に搭載される車載システムが一例として使用される。現在のところ、前記車載システムに搭載された集音センサを用いて周囲環境の音声信号が収集され得、運転席から発せられた音声信号が抽出され、前記運転席から発せられた音声信号に対して音声認識が行われている。前記車載システムは、運転席から発せられた前記音声信号に応答することができる。しかし、車内の助手席から発せられた音声信号又は後部座席から発せられた音声信号は、雑音と判定され、前記車載システムによりフィルタリングされる。その結果、前記音声信号を正確に抽出することができず、音声の発生位置を特定できず、音声認識を行うことができない。例えば、前記車載システムは、前記運転席から発せられた「サンルーフを開ける」という音声コマンドに対して抽出及び音声認識を実行し得る。しかし、車内の助手席又は後部座席などの別の位置から発せられた「サンルーフを開ける」という音声コマンドは抽出することはできず、前記車載システムにおける別の音声信号の発生位置を特定することができない。したがって、車内の車載システムのアプリケーションシナリオにおいて、前記車載システムは、車内の別の音声信号の発生位置を効率的かつ正確に特定することができない。その結果、音声信号の発生位置を特定する効率が低下し、ユーザ体験が貧弱になる。

本発明の実施形態は、単一の位置から発せられた音声信号のみ特定及び抽出でき、別の位置から発せられた音声信号は特定及び抽出できない、という問題を解消する、音声の発生位置を特定するための方法及び端末デバイスを提供する。

本発明の第１の態様によると、音声の発生位置を特定するための方法が提供され、Ｋ個の第１音声信号を収集するステップであって、Ｋは２以上の整数である、ステップと、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップであって、ＭはＮ以下であり、Ｎは２以上の整数である、ステップと、各第２音声信号に対応する位置を決定するステップと、を含む。

第１の可能な実装様式において、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップは、具体的には、ビーム形成アルゴリズムを用いて、前記Ｎ個の位置パラメータに従って、前記Ｋ個の第１音声信号から前記Ｍ個の第２音声信号を抽出するステップを含む。

第１の態様に関連して、第２の可能な実装様式において、各第２音声信号に対応する位置を決定する前記ステップは、具体的には、Ｌ番目の第２音声信号に対応する位置パラメータに従って、前記Ｌ番目の第２音声信号に対応する位置Ｌを決定するステップであって、前記Ｌ番目の第２音声信号は、前記Ｍ個の第２音声信号の内のいずれか一つである、ステップを含む。

第１の態様、及び前述の可能な実装様式の任意の１つに関連して、第３の可能な実装様式において、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップの後に、前記方法は、前記Ｍ個の抽出された第２音声信号に対して音声認識を実施するステップと、前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得するステップと、をさらに含む。

第１の態様、及び第３の可能な実装様式に関連して、第４の可能な実装様式において、前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得する前記ステップの後に、前記方法は、前記Ｍ個の音声コマンドに応答するステップをさらに含む。

第１の態様、及び第４の可能な実装様式に関連して、第５の可能な実装様式において、前記Ｍ個の音声コマンドに応答する前記ステップは、前記Ｍ個の音声コマンドに対応するＭ個の異なる位置の優先順位に従って、優先順位の高い音声コマンドに優先的に応答するステップを含む。

本発明の第２の態様によると、端末デバイスが提供され、前記端末デバイスは、Ｋ個の第１音声信号を収集するように構成されたＫ個の集音センサであって、Ｋは２以上の整数である、Ｋ個の集音センサと、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出し、各第２音声信号に対応する位置を決定するように構成されたプロセッサであって、ＭはＮ以下であり、Ｎは２以上の整数である、プロセッサと、を含む。

第１の可能な実装様式において、前記プロセッサが、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するように構成されることは、具体的には、前記プロセッサが、ビーム形成アルゴリズムを用いて、前記Ｎ個の位置パラメータに従って、前記Ｋ個の第１音声信号から別々に前記Ｍ個の第２音声信号を抽出するように構成されることを含む。

第２の態様、及び第１の可能な実装様式に関連して、第２の可能な実装様式において、前記プロセッサが、各第２音声信号に対応する位置を決定するように構成されることは、具体的には、Ｌ番目の第２音声信号に対応する位置パラメータに従って、前記Ｌ番目の第２音声信号に対応する位置Ｌを決定するステップであって、前記Ｌ番目の第２音声信号は、前記Ｍ個の第２音声信号の内のいずれか一つである、ステップを含む。

第２の態様、及び前述の可能な実装様式の任意の１つに関連して、第３の可能な実装様式において、前記プロセッサは、前記Ｋ個の第１音声信号から前記Ｍ個の第２音声信号を抽出した後、前記Ｍ個の抽出された第２音声信号に対して音声認識を実施し、前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得するようにさらに構成される。

第２の態様、及び前述の可能な実装様式の任意の１つに関連して、第４の可能な実装様式において、前記端末デバイスは、出力装置をさらに含み、前記出力装置は、前記プロセッサが前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得した後に、前記Ｍ個の音声コマンドに応答するように構成されている。

第２の態様、及び第４の可能な実装様式に関連して、第５の可能な実装様式において、前記出力装置が、前記Ｍ個の音声コマンドに応答するように構成されることは、具体的には、
前記出力装置が、前記Ｍ個の音声コマンドに対応するＭ個の異なる位置の優先順位に従って、優先順位の高いコマンドに優先的に応答するように構成されることを含む。

第２の態様、及び前述の可能な実装様式の任意の１つに関連して、三次元空間における前記Ｋ個の集音センサの座標は異なる。

本発明の第３の態様によると、音声の発生位置を特定するための装置が提供され、前記装置は、収集モジュール、抽出モジュール、及び決定モジュールを含む。収集モジュールは、Ｋ個の第１音声信号を収集するように構成され、Ｋは２以上の整数であり、前記抽出モジュールは、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するように構成され、ＭはＮ以下であり、Ｎは２以上の整数であり、前記決定モジュールは、各第２音声信号に対応する位置を決定するように構成される。

第１の可能な実装様式において、抽出モジュールが、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するように構成されることは、具体的には、ビーム形成アルゴリズムを用いて、前記Ｎ個の位置パラメータに従って、前記Ｋ個の第１音声信号から別々に前記Ｍ個の第２音声信号を抽出するステップを含む。

第３の態様、及び第１の可能な実装様式に関連して、第２の可能な実装様式において、前記決定モジュールが各第２音声信号に対応する位置を決定するように構成されることは、具体的には、前記決定モジュールがＬ番目の第２音声信号に対応する位置パラメータに従って、前記Ｌ番目の第２音声信号に対応する位置Ｌを決定するように構成されることを含み、前記Ｌ番目の第２音声信号は、前記Ｍ個の第２音声信号の内のいずれか一つである。

第３の態様、及び前述の可能な実装様式の任意の１つに関連して、第３の可能な実装様式において、前記装置は、音声認識モジュールと取得モジュールをさらに含み、前記音声認識モジュールは、前記Ｍ個の第２音声信号が前記Ｋ個の第１音声信号から抽出された後、前記Ｍ個の抽出された第２音声信号に対して音声認識を実施するように構成され、前記取得モジュールは、前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得するように構成されている。

第３の態様、及び第３の可能な実装様式に関連して、第４の可能な実装様式において、前記装置は、応答モジュールをさらに含み、前記応答モジュールは、前記取得モジュールが前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得した後、前記Ｍ個の音声コマンドに応答するように構成されている。

第３の態様、及び第４の可能な実装様式に関連して、第５の可能な実装様式において、前記応答モジュールが前記Ｍ個の音声コマンドに応答するように構成されていることは、前記Ｍ個の音声コマンドに対応するＭ個の異なる位置の優先順位に従って、優先順位の高い音声コマンドに優先的に応答するステップことを含む。

上記の技術的解決策から、本発明の実施形態は、以下の利点を有することが分かる：
ビーム形成アルゴリズムを用いて、位置パラメータに従って、Ｋ個の第１音声信号からＭ個の第２音声信号が抽出され、各第２音声信号に対応する発生位置が決定され得る。この方法によれば、異なる位置から発せられた音声信号を効率的に抽出することができ、音声認識の能力が提供され、これにより、ユーザに対しよりよいユーザ体験が提供される。競合するコマンドは、優先順位様式により処理され、それにより車載中央制御デバイスが複数のコマンドに同時に応答するときに生じるエラーを低減する。

本発明の実施形態における技術的解決策をより明確に説明するために、以下で実施形態を説明するために必要な添付の図面について簡単に説明する。以下の説明における添付の図面は本発明のいくつかの実施形態を示すものにすぎず、それでもなお、当業者が創造的な努力なしにこれらの添付の図面から他の図面を得ることができることは明らかである。

図１は、本発明の一実施形態による、音声の発生位置を特定する方法のフローチャートである。図２Ａは、本発明の一実施形態による、特定される音声の発生位置である車内の位置の概略図である。図２Ｂは、本発明の別の実施形態による、特定される音声の発生位置である車内の位置の概略図である。図３は、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。図３Ａは、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。図３Ｂは、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。図４は、本発明の一実施形態による、端末デバイス４００の概略構成図である。

以下では、本発明の実施形態における添付の図面を参照しながら、本発明の実施形態における技術的解決策をより明確にかつ完全に説明する。説明される実施形態は、本発明の実施形態のすべてではなく、単にいくつかの実施形態を示すものにすぎないことは明らかである。本発明の実施形態に基づき当業者が創造的な取り組み無しに得られる他のすべての実施形態は、本発明の保護範囲に含まれるものとする。

本発明の実施形態は、音声の発生位置を特定するための方法を提供する。本発明の実施形態に含まれる端末デバイスは、車載中央制御デバイス、スマートフォン、タブレットコンピュータなどであり得る。

従来技術においては、ビーム形成アルゴリズムと、集音センサを用いた音声信号を収集する解決策とが組み合わされるとともに、音声信号の収集及び音声認識に適用され、この様式を使用することにより、音声認識の成功率が大幅に向上される。しかし、この様式を使用すると、単一の音声の発生位置から発せられた音声信号のみを識別することができる。音声信号が複数の音声の発生位置から発せられた場合には、音声認識システムは、複数の音声信号を同時に認識することができない。

本発明の実施形態において、第１音声信号又は第２音声信号は、単に区別するためのものであり、序列又は順番を示すものではない。

図１は、本発明の一実施形態による、音声の発生位置を特定する方法のフローチャートである。本発明のこの実施形態のアプリケーションシナリオは、音声収集及び音声認識の任意のシナリオであり得る。本発明のこの実施形態において、車載システムにおける音声収集及び音声認識が使用され、方法は以下のステップを含む。

Ｓ１０１：Ｋ個の第１音声信号を収集する。Ｋは２以上の整数である。

車載システムにおいて、車載システム内部にＫ個の集音センサがあり、プロセッサは、Ｋ個の第１音声信号を収集でき、Ｋは２以上の整数である。

例えば、車載システムにおいて、Ｋは２に設定することができ、すなわち、第１集音センサと第２集音センサを、運転席と助手席にそれぞれ設置してもよい。

第１集音センサ及び第２集音センサは、第１音声信号を同時に収集する。任意選択で、車載システムにおいて、別の集音センサを、車内の後部座席又は車内の別の位置にさらに設置してもよい。

本発明のこの実施形態において、第１音声信号は、車載システム内の環境音であり、車内において異なる位置から発せられた音声信号と、車外の音声信号を含む。第１音声信号は、運転席の位置(例えば、図２Ａに示すように、位置(1)（図では丸に１、以下同じ）)から発せられた音声信号、助手席の位置(例えば、図２Ａに示すように、位置(2)（図では丸に２、以下同じ）)から発せられた音声信号、車載システムにおける後部座席の位置(例えば、図２Ａに示すように、位置(3)（図では丸に３、以下同じ）及び位置(4)（図では丸に４、以下同じ）)から発せられた音声信号、又は車載システムの外側の雑音の内の少なくとも１つを含み得る。

Ｓ１０２：Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、Ｋ個の第１音声信号からＭ個の第２音声信号を抽出する。ＭはＮ以下であり、Ｎは２以上の整数である。

同様に、車載システムの場合が説明のための一例として使用される。第１集音センサ及び第２集音センサの座標は空間的な位置において重ならず、第１集音センサと第２集音センサの間には特定の距離がある。図２Ａに示すように、第１集音センサ及び第２集音センサは、車載システムの中央バックミラーＡの左側と右側にそれぞれ配置されている。第１集音センサは、車載システムの位置Ｃに配置され、第２集音センサは、車載システムの位置Ｂに配置される。したがって、第１集音センサにより収集された音声信号の時間は、第２集音センサにより収集された音声信号の時間とは異なる。この場合、位相差が、第１集音センサにより収集された音声信号と第２集音センサにより収集された音声信号との間に形成される。

本発明の別の実施形態において、図２Ｂに示すように、車載システムは、４つの集音センサを含む。この場合、Ｋは４である。４つの集音センサは、図２Ｂに示すように、車載システムの中央位置に配置される。

Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップは、具体的には、ビーム形成アルゴリズムを用いて、Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップであっても、又はビーム形成アルゴリズムを用いて、他の音声信号をフィルタリングすることにより、Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップであってもよい。

例えば、音声信号の発生位置は、運転席の位置であり、対応する位置パラメータは、運転席の位置のパラメータである。車載中央制御デバイスは、運転席に対応する運転席の位置パラメータに従って、Ｋ個の第１音声信号から、運転席から発せられた第２音声信号を抽出する。

Ｓ１０３：各第２音声信号に対応する位置を決定する。車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、Ｎ個の位置パラメータに従って、Ｋ個の第１音声信号から別々にＭ個の第２音声信号を抽出する。

例えば、位置パラメータが運転席の位置パラメータである場合、第２音声信号は、ビーム形成アルゴリズムを使用して、運転席の位置パラメータに従って抽出され、第２音声信号に対応する位置パラメータに従って、抽出された第２音声信号に対応する発生位置は、運転席であることが決定される。

本発明は、音声の発生位置を特定するための方法を提供し、Ｍ個の第２音声信号は、ビーム形成アルゴリズムを用いて、位置パラメータに従って、Ｋ個の第１音声信号から抽出され、各第２音声信号に対応する発生位置が決定され得る。この方法によれば、異なる位置から発せられた音声信号が効率的に抽出することができ、音声認識の能力が改善され、これにより、ユーザに対し、よりよいユーザ体験を提供できる。

図３は、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。同様に、本発明のこの実施形態において、車載システムへのアプリケーションが説明のための一例として使用される。図３に示すように、方法は、以下のステップを含む。

Ｓ３０１ａ：Ｎ個の異なる位置からの音声コマンドに応答する優先順位を設定する。

同様に、図２Ａにおける位置の概略図が一例として使用される。図２Ａにおいて、車載システムにおける、位置(1)は、運転席の位置であり、位置(2)は、助手席の位置であり、位置(3)車載システムにおいて、後部左座席の位置であり、位置(4)は、後部右座席の位置である。

本発明のこの実施形態において、車載システムを一例として使用する。Ｋは２であり、Ｎは４であり、Ｍは２であるとする。

車載システムにおける車載中央制御デバイスにおいて、４つの異なる位置に従って、４つの異なる位置からの音声コマンドに応答する優先順位を設定する。

例えば、通常のファミリーセダンにおいて設定された音声コマンドの優先順位が一例として使用される。

表１から、「サンルーフを開く」、「サンルーフを閉じる」、「ラジオをつける」、「音楽再生」などのコマンドが位置(1)から発せられる場合には、位置(1)から発せられるコマンドの優先順位は、同じ意味を持つ、別の位置から発せられたコマンドよりも高い。

本発明の別の実施形態において、Ｎ個の異なる位置からの音声コマンドに応答する優先順位が設定されている場合、子供の音声と、大人の音声に関する決定要素が追加される。子供の音声である音声コマンドの優先順位は低く設定されるか、又は音声コマンドが子供の音声である場合には、子供の音声である音声コマンドは、ブロックするように設定される。大人の音声である音声コマンドの優先順位は、優先順位が高く設定される。

本発明のこの実施形態において、位置(1)から発せられる「エアコンをオン」のコマンドと、位置(4)から発せられる「エアコンをオフ」のコマンドが同時にある場合を一例として使用する。

Ｓ３０１：Ｋ個の第１音声信号を収集する。

本発明のこの実施形態において、説明のためにＫが２である場合を用いる。

車載システムにおいて、第１集音センサ及び第２集音センサは、中央バックミラーＡの左側と右側にそれぞれ設置されている。

第１集音センサ及び第２集音センサは、第１音声信号を同時に収集する。任意選択で、車載システムにおいて、別の集音センサが車内の後部座席又は車内の別の位置にさらに設置されてもよい。

例えば、「エアコンをオン」のコマンドの音声信号が位置(1)から発せられ、同時に、「エアコンをオフ」のコマンドの音声信号が位置(4)から発せられる場合、第１集音センサ及び第２集音センサは、位置(1)から発せられる「エアコンをオン」のコマンドの音声信号を同時に収集する。同様に、第１集音センサ及び第２集音センサは、位置(4)から発せられる「エアコンをオフ」のコマンドの音声信号を同時に収集する。

Ｓ３０２：Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、Ｋ個の第１音声信号からＭ個の第２音声信号を抽出する。ＭはＮ以下であり、Ｎは２以上の整数である。

本発明のこの実施形態において、説明のために、Ｎが４であり、Ｍが２であることが使用される。

第１集音センサ及び第２集音センサの座標は、空間的な位置において重ならず、第１集音センサ及び第２集音センサの間には特定の距離がある。したがって、第１集音センサにより収集された音声信号の時間は、第２集音センサにより収集された音声信号の時間とは異なる。この場合、位相差が、第１集音センサにより収集された音声信号と、第２集音センサにより収集された音声信号との間に形成される。

本発明では、第１集音センサと第２集音センサがそれぞれ中央バックミラーの左側と右側に配置された例を使用する。本発明において、集音センサの量は限定されず、集音センサの位置も限定されない。例えば、別の集音センサを音声が発生され得る一の周辺にさらに配置してもよく、例えば、図２Ａに示されている位置(1)又は位置(2)の座席の後ろ側に配置される。

例えば、車載中央制御デバイスは、位置(1)のプリセットされた位置パラメータに従って、位置(1)から発せられた第２音声信号を抽出する。車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、位置(1)のプリセットされた位置パラメータに従って、収集された第１音声信号から、位置(1)から発せられた第２音声信号を抽出する。

同時に、車載中央制御デバイスは、位置(4)のプリセットされた位置パラメータに従って、位置(4)から発せられた第２音声信号を抽出する。車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、位置(4)のプリセットされた位置パラメータに従って、収集された第１音声信号から、位置(4)から発せられた第２音声信号を抽出する。

例えば、車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、位置(1)の位置パラメータに従って、位置(1)のプリセットされた位置パラメータに合致する音声信号を抽出する。例えば、位置(1)から発せられた「エアコンをオン」の音声信号が収集される。車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、位置(4)の位置パラメータに従って、位置(2)のプリセットされた位置パラメータに合致する音声信号を抽出する。例えば、位置(4)から発せられた「エアコンをオフ」の音声信号が収集される。

Ｓ３０３：各第２音声信号に対応する位置を決定する。

車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、４つの位置パラメータに従って、２つの第１音声信号から別々に２つの第２音声信号を抽出する。

例えば、位置パラメータが、位置(1)の位置パラメータである場合、位置(1)から発せられた第２音声信号は、ビーム形成アルゴリズムを用いて、位置(1)の位置パラメータに従って抽出され、第２音声信号に対応する位置パラメータに従って、抽出された第２音声信号に対応する発生位置が位置(1)であることを決定する。

Ｓ３０４：Ｍ個の抽出された第２音声信号に対して音声認識を実施する。

車載中央制御デバイスは、抽出された音声信号に対して音声認識を実施し、抽出された音声信号を認識する。

例えば、車載中央制御デバイスは、位置(1)から抽出された音声信号に対して、音声認識を実施し、抽出された音声信号が「エアコンをオン」であることを認識する。車載中央制御デバイスは、位置(4)から抽出された音声信号に対して音声認識を実施し、抽出された音声信号が「エアコンをオフ」であることを認識する。

Ｓ３０５：Ｍ個の第２音声信号に対応する音声コマンドを取得する。

車載中央制御デバイスは、Ｍ個の抽出された第２音声信号に対応する音声コマンドを取得する。

例えば、車載中央制御デバイスは、抽出された位置(1)から発せられた音声信号に対応する音声コマンドを取得し、音声コマンド「エアコンをオン」を取得する。車載中央制御デバイスは、抽出された位置(4)から発せられた音声信号に対応する音声コマンドを取得し、音声コマンド「エアコンをオフ」を取得する。

Ｓ３０６：Ｍ個の音声コマンドに応答する。

車載中央制御デバイスは、Ｍ個の抽出された第２音声信号に対応する取得された音声コマンドに従ってＭ個の音声コマンドに応答する。

例えば、位置(1)から発せられた音声コマンド「エアコンをオン」を取得した後、車載中央制御デバイスは、音声コマンドに応答し、エアコンをオンにする。

本発明の別の実施形態において、車載中央制御デバイスは、位置(1)から抽出された音声信号と位置(4)から抽出された音声信号とに対して音声認識を実施し、抽出された音声信号を認識する。車載中央制御デバイスは、抽出された位置(1)から発せられた音声信号と抽出された位置(4)から発せられた音声信号とに対して音声認識を実施し、抽出された音声信号を認識する。抽出された位置(1)から発せられた音声信号に対応する音声コマンドが取得され、抽出された位置(4)から発せられた音声信号に対応する音声コマンドが取得される。例えば、位置(1)から発せられた音声コマンド「エアコンをオン」と、位置(4)から発せられた音声コマンド「エアコンをオフ」が取得される。取得された位置(1)から発せられた音声コマンド「エアコンをオン」と、取得された位置(4)から発せられた音声コマンド「エアコンをオフ」に従って、車載中央制御デバイスは、２つの音声コマンドに応答する。任意選択で、音声認識により２つの位置からの音声コマンドを取得する場合、車載中央制御デバイスは、２つの音声コマンドに対応する２つの異なる位置の優先順位に従って、優先順位の高い音声コマンドに優先的に応答し得る。例えば、位置(1)の優先順位は、位置(4)の優先順位より高い。車載中央制御デバイスは、位置(1)からの音声コマンド「エアコンをオン」に優先的に応答し、エアコンをオンにする。車載中央制御デバイスは次いで位置(4)からの音声コマンド「エアコンをオフ」に応答する。この場合、車載中央制御デバイスが応答する位置(1)からの音声コマンドは、「エアコンをオン」であるが、位置(4)からの音声コマンドは、「エアコンをオフ」である。したがって、位置(1)からの音声コマンドと、位置(4)からの音声コマンドは、コマンドが対立しており、車載中央制御デバイスは、位置(1)からの音声コマンドと、位置(4)からの音声コマンドの双方に応答することができない。したがって、位置(4)からの音声信号に対して音声認識を実施した後、車載中央制御デバイスは、抽出された音声信号に対応する音声コマンドを取得し、位置(4)からの音声コマンドに応答しない。コマンドの対立は、優先順位様式により処理され、車載中央制御デバイスが、複数の対立コマンドに応答する場合、車載中央制御デバイスがコマンドの対立により正しい応答ができなくなることが減り、応答ミスにより生じるエラーが低減される。

対立コマンドは、具体的には以下のように定義される：同じリソースが少なくとも2つのコマンドに対して使用され、少なくとも２つのコマンドが実行される間、同じリソースに対して異なる動作が実施される場合、前述の少なくとも２つのコマンドは、対立コマンドである。

本発明の別の実施形態において、取得された２つの音声コマンドが互いに対立する場合、時間に関する決定要素が追加される。優先順位の高いコマンドが認識された後、車載中央制御デバイスがプリセット時間Ｔ１内に対立コマンドを認識したが、認識された対立コマンドが、比較的低い優先順位を有している場合、比較的低い優先順位を有するそのコマンドは無視される。優先順位の高いコマンドが認識された後、車載中央制御デバイスがプリセット時間Ｔ１内に対立コマンドを認識した場合、車載中央制御デバイスは、音声コマンドが認識された時間順に従って、取得された音声コマンドに応答する。

図３Ａは、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。本発明の別の実施形態において、ステップＳ３０１が実施される前に、以下のステップが実施されてもよい。

Ｓ４０１：車載システム内の少なくとも１つの座席が占有されているかどうかを判定する。

具体的には、車載システムは、重力センシングによって、車載システム内の座席が占有されているかどうかを判定し得る。

例えば、重力センシングにより、図２Ａの車載システム内の座席が占有されているかどうかが判定される。例えば、図２Ａの位置(1)、位置(2)、位置(3)、又は位置(4)が占有されているかどうかが判定される。

車載システムが車載システム内の座席がいずれも占有されていないと判定する場合、ステップＳ３０１は実施されない。

車載システムが、車載システムの少なくとも１つの座席が占有されていると判定する場合、ステップＳ３０１が実施される。

音声信号が収集される前に、車載システムの少なくとも１つの座席が占有されているかどうかがまず判定される。音声の発生位置は、車載システム内の座席が占有されている場合にのみ特定され、これにより、音声収集の効率性が改善されるとともに音声の発生位置の決定の効率性が改善される。

本発明の別の実施形態において、図３Ｂに示すように、ステップＳ３０５が実施された後、ステップＳ３０５ａ：Ｍ個の抽出された第２音声信号の声紋を認識するステップ、が実施されてもよい。

Ｓ３０５ｂ：車載システム内の占有された座席上のユーザの体重を測定する。

Ｓ３０５ｃ：ユーザの測定された体重と第２音声信号の認識された声紋を基準にしてユーザの身元を判定する。

Ｓ３０５ｄ：判定されたユーザの身元に従って、ユーザにより発せられた第２音声信号に対応する音声コマンドの優先順位を決定する。

Ｓ３０５ｅ：ユーザにより発せられた第２音声信号に対応する音声コマンドの優先順位に従って、第２音声信号に対応する音声コマンドに応答する。

重力センシングと声紋認識を組み合わせた様式により、ユーザの身元及びユーザにより発せられた音声信号に対応する音声コマンドの優先順位が決定される。ユーザにより発せられた音声信号に対応する音声コマンドの優先順位を基準にして、複数の音声コマンドに応答する優先順位が決定され、これにより、車載中央制御デバイスが複数の音声コマンドに応答する必要があることから、車載中央制御デバイス内で生じるエラーやミスを減少させる。

本発明は、音声の発生位置を特定するための方法を提供し、Ｍ個の第２音声信号は、ビーム形成アルゴリズムを用いて、位置パラメータに従って、Ｋ個の第１音声信号から抽出され、各第２音声信号に対応する発生位置が判定され得る。さらに、音声コマンドの優先順位が設定され、優先順位の高いコマンドを優先的に処理する方法が対立コマンドを処理するために使用され、これにより、車載中央制御デバイスが複数の対立コマンドに応答することによる競合を低減し、応答ミスによるエラーを低減し、これによりユーザ体験を改善する。

図４は、本発明の一実施形態による、端末デバイス４００である。端末デバイス４００は、本発明の実施形態の前述の方法を実施するように構成されている。図４に示すように、端末デバイス４００は、モバイルフォン、タブレットコンピュータ、ＰＤＡ(Personal Digital Assistant, 個人用デジタル補助装置)、ＰＯＳ(Point of Sale, 販売時点情報管理)、又は車載中央制御端末デバイスなどの端末デバイスであり得る。端末デバイス４００は、ＲＦ(Radio Frequency, 無線周波数)回路４１０、メモリ４２０、入力装置４３０、表示装置４４０、センサ４５０、音声回路４６０、ＷｉＦｉ(Wireless Fidelity, ワイヤレス・フィディリティー)モジュール４７０、プロセッサ４８０、及び電源４９０などの構成要素を含む。当業者であれば、図４に示されている端末デバイスの構成は、単なる実装様式の一例にすぎず、端末デバイスを限定するものではなく、図に示されるよりも多い又は少ない構成要素を含んでもよく、又はいくつかの構成要素の組み合わせ、又は構成要素を異なる配置としてもよいことは、理解し得る。

ＲＦ回路４１０は、情報の受信及び送信処理又は呼び出し処理の間、信号を受信及び送信するように構成され得る。具体的には、ＲＦ回路４１０は、基地局からダウンリンク情報を受信し、次いで、処理のためにダウンリンク情報をプロセッサ４８０に配信し、関連するアップリンクデータを基地局に送信する。一般に、ＲＦ回路４１０は、アンテナ、少なくとも１つの増幅器、トランシーバ、カプラ、ＬＮＡ(Low Noise Amplifier, 低雑音増幅器)、及びデュプレクサを含むが、これに限定されない。さらに、ＲＦ回路４１０は、無線通信によって、ネットワーク及び別の端末デバイスとさらに通信できる。無線通信は、ＧＳＭ（登録商標）(Global System of Mobile communication, 移動通信用グローバルシステム)、ＧＰＲＳ(General Packet Radio Service, 汎用パケット無線システム)、ＣＤＭＡ(Code Division Multiple Access, 符号分割多元接続)、ＷＣＤＭＡ（登録商標）(Wideband Code Division Multiple Access, 広域符号分割多元接続)、ＬＴＥ(Long Term Evolution, ロングタームレボリューション)、ｅ−ｍａｉｌ、及びＳＭＳ(Short Messaging Service, ショートメッセージサービス)を含む任意の通信規格又はプロトコルを使用し得るがこれに限定されるものではない。

メモリ４２０は、ソフトウェアプログラム及びモジュールを格納するように構成され得、プロセッサ４８０は、メモリ４２０に格納されているソフトウェアプログラム及びモジュールを実行し、端末デバイス４００の様々な機能アプリケーション及びデータ処理を実施する。メモリ４２０は、主にプログラム格納領域とデータ格納領域とを含み、プログラム格納領域は、オペレーティングシステム、少なくとも１つの機能（音声再生機能や画像表示機能など）により必要とされるアプリケーションプログラムなどを格納し得、データ格納領域は、端末デバイス４００の使用に応じて生成されたデータ（音声データや電話帳など）などを格納し得る。さらに、メモリ４２０は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つの磁気ディスク記憶装置、フラッシュ記憶装置などの不揮発性メモリ、又は別の揮発性ソリッドステート記憶装置をさらに含んでもよい。

表示装置４４０は、ユーザにより入力された情報又はユーザのために提供される情報、及び端末デバイス４００の種々のメニューを表示するように構成することができる。表示装置４４０は、表示パネル４４１を含んでもよい。任意選択で、表示パネル４４１は、ＬＣＤ(Liquid Crystal Display, 液晶ディスプレイ)、ＯＬＥＤ(Organic Light-Emitting Diode, 有機ＬＥＤ)などの形状を使用して構成される。さらに、タッチパネル４３１は、表示パネル４４１で覆ってもよい。タッチパネル４３１上又はその近傍でのタッチ操作を検出した後、タッチパネル４３１は、タッチ操作をプロセッサ４８０に送信し、タッチイベントの種類を判定する。プロセッサ４８０は、次いでタッチイベントの種類に従って、表示パネル４４１上に対応する視覚的な出力を提供する。図４において、タッチパネル４３１と表示パネル４４１は、端末デバイス４００の入力機能と出力機能を実施するための２つの独立した構成要素として使用されている。しかし、いくつかの実施形態においては、タッチパネル４３１と表示パネル４４１は、端末デバイス４００の入力機能と出力機能を実施するために統合されてもよい。例えば、タッチパネル４３１と表示パネル４４１は、端末デバイス４００の入力機能と出力機能を実施ためのタッチスクリーンとして統合されてよい。

端末デバイス４００は、光センサ、モーションセンサ、及び他のセンサなどの少なくとも１つのセンサ４５０をさらに含んでもよい。具体的には、光センサは、周囲光センサや近接センサを含み得、周囲光センサは、周囲光の輝度に従って、表示パネル４４１の光度を調整し得、近接センサは、端末デバイス４００が耳に近づいた場合に、表示パネル４４１又はバックライトのスイッチを切り得る。モーションセンサの一種である加速度センサは、様々な方向（通常３軸方向）の加速度の値を検出し得、端末デバイス４００が静止しているときの重力の値や方向を検出でき、携帯電話の姿勢を認識するアプリケーション(例えば、横向きと縦向きの切り替え、関連するゲーム、磁力計の姿勢校正)に適用され得、振動認識に関連する機能(歩数計やタッピングなど)に適用することができる。端末デバイス４００上にジャイロ、バロメータ、湿度計、温度計、及び赤外線センサ等の他のセンサをさらに構成し得るが詳細はここでは説明しない。

音声回路４６０、ラウドスピーカ４６１、及びマイクロフォン４６２は、ユーザと端末デバイス４００との間の音声インターフェースを提供し得る。音声回路４６０は、受信された音声データを電子信号に変換し、その電子信号をラウドスピーカ４６１に送信し得る。ラウドスピーカ４６１は、電子信号を出力のために音声信号に変換する。一方で、マイクロフォン４６２は、収集された音声信号を、電子信号に変換する。音声回路４６０は、電子信号を受信し、電子信号を音声データに変換し、処理のために、音声データをプロセッサ４８０に出力する。プロセッサ４８０はその後音声データを例えば、ＲＦ回路４１０を用いて別の携帯電話に送信するか、又は更なる処理のために、音声データをメモリ４２０に出力する。

端末デバイス４００は、ＷｉＦｉモジュール４７０を使用することにより、ユーザが電子メールを送受信し、ウェブページを閲覧し、ストリーミングメディアにアクセスすることを助けることができる。ＷｉＦｉモジュール４７０は、ユーザに無線ブロードバンドインターネットアクセスを提供する。図４は、ＷｉＦｉモジュール４７０を示しているが、ＷｉＦｉモジュール４７０は、端末デバイス４００の必要的な構成要素ではなく、必要に応じて、本発明の特質の範囲を逸脱しない限り、ＷｉＦｉモジュール４７０は省略されてもよいことは理解し得る。

プロセッサ４８０は、端末デバイス４００の制御センタであり、各種インターフェースや回線を用いて、携帯電話全体のすべての部分に接続され、端末デバイス４００の各種機能を実施し、メモリ４２０に格納されているソフトウェアプログラム、又はモジュール、又は両方を実行又は実施し、メモリ４０２に格納されているデータを呼び出すことによりデータを処理し、端末デバイスを全体的な監視を実施する。任意選択で、プロセッサ４８０は、１つ又は複数の処理ユニットを含み得る。好適には、プロセッサ４８０は、アプリケーションプロセッサとモデムプロセッサとを統合し得る。アプリケーションプロセッサは、オペレーティングシステム、ユーザインターフェース、アプリケーションプログラムなどを主に処理する。モデムプロセッサは、主に無線通信を処理する。前述のモデムプロセッサは、プロセッサ４８０に統合されていなくてもよいことが理解し得る。プロセッサ４８０は、具体的には、中央演算処理装置(Central Processing Unit, CPU)であってもよい。

端末デバイス４００は、様々な構成要素に電力を供給する電源４９０(例えば、バッテリー)をさらに含んでもよい。好適には、電源は、電力管理システムを使用して充電、放電、及び消費電力管理などの機能を実施するために、電力管理システムを使用してプロセッサ４８０に論理的に接続され得る。

本発明のこの実施形態において、端末デバイス４００は、Ｋ個の集音センサ４５０とプロセッサ４８０を含み、以下の機能を有する。

集音センサ４５０は、Ｋ個の第１音声信号を収集するように構成され、Ｋは２以上の整数である。

具体的には、三次元空間におけるＫ個の集音センサの座標は、異なる。

プロセッサ４８０は、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、Ｋ個の第１音声信号からＭ個の第２音声信号を抽出し、各第２音声信号に対応する位置を決定するように構成され、ＭはＮ以下であり、Ｎは２以上の整数である。

本発明の別の実施形態において、各第２音声信号に対応する位置を決定するように構成されているプロセッサ４８０は、具体的には、Ｌ番目の第２音声信号に対応する位置パラメータに従って、Ｌ番目の第２音声信号に対応する位置Ｌを決定するステップを含み、Ｌ番目の第２音声信号は、Ｍ個の第２音声信号の内のいずれか一つである。

本発明の別の実施形態において、プロセッサ４８０は、Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップの後に、Ｍ個の抽出された第２音声信号に対して音声認識を実施し、Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得するようにさらに構成されている。

本発明の別の実施形態において、端末デバイス４００は、出力装置５１０をさらに含み、出力装置５１０は、プロセッサがＭ個の第２音声信号に対応するＭ個の音声コマンドを取得した後、Ｍ個の音声コマンドに応答するように構成されている。

Ｍ個の音声コマンドに応答するように構成される出力装置５１０は、具体的には、Ｍ個の音声コマンドに対応するＭ個の異なる位置の優先順位に従って、優先順位の高いコマンドに優先的に応答するように構成される出力装置を含む。

本発明のこの実施形態において、出力装置５１０は、具体的には、音声回路４６０又は表示装置４４０であり得る。

本発明の実施形態において、音声の発生位置を特定するための方法及び端末デバイスが提供される。Ｍ個の第２音声信号が、ビーム形成アルゴリズムを用いて、位置パラメータに従って、Ｋ個の第１音声信号から抽出され、各第２音声信号に対応する発生位置が決定され得る。この方法によれば、異なる位置から発せられた音声信号が効率的に抽出することができ、音声認識の能力が提供され、これにより、ユーザに対し、よりよいユーザ体験を提供できる。

当業者であれば、この明細書に開示された実施形態において説明された実施例と組み合わせて、ユニット、アルゴリズム及び方法のステップをコンピュータソフトウェアと電子ハードウェアの組み合わせにより実施し得ることに気づき得る。機能がハードウェアにより実行されるのかソフトウェアにより実行されるのかは、技術的解決策の具体的なアプリケーション及び設計制約条件に依存する。当業者であれば、特定のアプリケーション毎に説明された機能を実施するために異なる方法を使用し得るが、その実施は本発明の範囲を超えるものであると考えるべきではない。

当業者であれば、前述の移動端末およびアクセス端末は本発明の方法の実施形態における作業処理を別々に実施していることは簡潔かつ簡単な説明のためであることは明確に理解され得、具体的な作業に関しては、前述の方法の実施形態における対応する処理を参照することができ、詳細はここでは再び説明しない。

本出願において提供されるいくつかの実施形態では、開示されたサーバ及び方法は、別の方法においても実施され得る。例えば、説明されたサーバの実施形態は単なる一例に過ぎない。例えば、ユニット分割は単に論理的な機能分割であり実際の実装において他の分割であってもよい。例えば、複数のユニット又は構成要素を組み合わせ、又は別のシステムに統合してもよく、又はいくつかの機能は、無視しても、若しくは実行しなくてもよい。さらに、表示された又は議論された相互結合又は直接結合又は通信接続は、いくつかのインターフェースを用いて実装され得る。装置間又はユニット間の間接結合又は通信接続は、電子的、機械的、又は他の形状で実施されてもよい。

別々の部品として説明されたユニットは、物理的に分離されていてもいなくてもよく、ユニットとして表示される部品は、物理ユニットであってもなくてもよく、一か所に配置されてよいし、又は複数のネットワークユニットに分配されてもよい。本発明の実施形態の解決策の目的を達成するために、ユニットの一部又は全部は、実際の必要に応じて選択することができる。

また、本発明の実施形態における機能ユニットは、１つの処理ユニットに統合されてもよいし、又はユニットのそれぞれが単独で物理的に存在してもよいし、又は２つ以上のユニットが１つのユニットに統合されてもよい。

当業者であれば、方法の実施形態のステップの全部または一部を、関連するハードウェアに指示するプログラムにより実施され得ることを理解し得る。プログラムは、コンピュータ可読記憶媒体に格納されてよい。プログラムが実行されると、方法の実施形態のステップが実施される。上記記憶媒体は、ＲＯＭ、ＲＡＭ、磁気ディスク、又は光ディスクなどのプログラムコードを格納可能な任意の媒体が含まれる。

上記の説明は本発明の特定の実施形態にすぎないが、本発明の保護範囲を限定するものではない。本発明において説明される技術範囲を逸脱することなく当業者によって行われるいかなる変形または置換も、本発明の保護範囲内に入るものとする。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

４０１ＲＦ回路
４９０電源
４２０メモリ
４３０入力装置
４３１タッチパネル
４３２その他の入力デバイス
４７０ＷｉＦｉモジュール
４６０オーディオ回路
４６１ラウドスピーカ
４６２マイクロフォン
４５０センサ
５１０出力装置
４４０表示装置
４４１表示パネル

プロセッサ４８０は、端末デバイス４００の制御センタであり、各種インターフェースや回線を用いて、携帯電話全体のすべての部分に接続され、端末デバイス４００の各種機能を実施し、メモリ４２０に格納されているソフトウェアプログラム、又はモジュール、又は両方を実行又は実施し、メモリ４２０に格納されているデータを呼び出すことによりデータを処理し、端末デバイスを全体的な監視を実施する。任意選択で、プロセッサ４８０は、１つ又は複数の処理ユニットを含み得る。好適には、プロセッサ４８０は、アプリケーションプロセッサとモデムプロセッサとを統合し得る。アプリケーションプロセッサは、オペレーティングシステム、ユーザインターフェース、アプリケーションプログラムなどを主に処理する。モデムプロセッサは、主に無線通信を処理する。前述のモデムプロセッサは、プロセッサ４８０に統合されていなくてもよいことが理解し得る。プロセッサ４８０は、具体的には、中央演算処理装置(Central Processing Unit, CPU)であってもよい。

Claims

音声の発生位置を特定するための方法であって、前記方法は、
Ｋ個の第１音声信号を収集するステップであって、Ｋは２以上の整数である、ステップと、
Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するステップであって、ＭはＮ以下であり、Ｎは２以上の整数である、ステップと、
各第２音声信号に対応する位置を決定するステップと、
を具備することを特徴とする音声の発生位置を特定するための方法。
Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出する前記ステップは、具体的には、
ビーム形成アルゴリズムを用いて、前記Ｎ個の位置パラメータに従って、前記Ｋ個の第１音声信号から前記Ｍ個の第２音声信号を別々に抽出するステップ
を具備することを特徴とする請求項１に記載の方法。
各第２音声信号に対応する位置を決定する前記ステップは、具体的には、
Ｌ番目の第２音声信号に対応する位置パラメータに従って、前記Ｌ番目の第２音声信号に対応する位置Ｌを決定するステップであって、前記Ｌ番目の第２音声信号は、前記Ｍ個の第２音声信号の内のいずれか一つである、ステップ
を具備することを特徴とする請求項１又は２に記載の方法。
前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出する前記ステップの後に、前記方法は、
前記Ｍ個の抽出された第２音声信号に対して音声認識を実施するステップと、
前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得するステップと、
をさらに具備することを特徴とする請求項１から３のいずれか一項に記載の方法。
前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得する前記ステップの後に、前記方法は、
前記Ｍ個の音声コマンドに応答するステップ
をさらに具備することを特徴とする請求項４に記載の方法。
前記Ｍ個の音声コマンドに応答する前記ステップは、前記Ｍ個の音声コマンドに対応するＭ個の異なる位置の優先順位に従って、優先順位の高い音声コマンドに優先的に応答するステップを具備することを特徴とする請求項５に記載の方法。
端末デバイスであって、前記端末デバイスは、
Ｋ個の第１音声信号を収集するように構成されたＫ個の集音センサであって、Ｋは２以上の整数である、Ｋ個の集音センサと、
Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出し、各第２音声信号に対応する位置を決定するように構成されたプロセッサであって、ＭはＮ以下であり、Ｎは２以上の整数である、プロセッサと、
を具備することを特徴とする端末デバイス。
前記プロセッサが、Ｎ個の異なる位置に対応するＮ個の位置パラメータに従って、前記Ｋ個の第１音声信号からＭ個の第２音声信号を抽出するように構成されることは、具体的には、
前記プロセッサが、ビーム形成アルゴリズムを用いて、前記Ｎ個の位置パラメータに従って、前記Ｋ個の第１音声信号から別々に前記Ｍ個の第２音声信号を抽出するように構成される
ことを含むことを特徴とする請求項７に記載の端末デバイス。
前記プロセッサが、各第２音声信号に対応する位置を決定するように構成されることは、具体的には、
Ｌ番目の第２音声信号に対応する位置パラメータに従って、前記Ｌ番目の第２音声信号に対応する位置Ｌを決定するステップであって、前記Ｌ番目の第２音声信号は、前記Ｍ個の第２音声信号の内のいずれか一つである、ステップ
を含むことを特徴とする請求項７又は８に記載の端末デバイス。
前記プロセッサは、前記Ｋ個の第１音声信号から前記Ｍ個の第２音声信号を抽出した後、前記Ｍ個の抽出された第２音声信号に対して音声認識を実施し、前記Ｍ個の第２音声信号に対応するＭ個の音声コマンドを取得するようにさらに構成されていることを特徴とする請求項７から９のいずれか一項に記載の端末デバイス。
前記端末デバイスは、出力装置をさらに具備し、
前記出力装置は、前記プロセッサが前記Ｍ個の第２音声信号に対応する前記Ｍ個の音声コマンドを取得した後に、前記Ｍ個の音声コマンドに応答するように構成されている
ことを特徴とする請求項７から１０のいずれか一項に記載の端末デバイス。
前記出力装置が、前記Ｍ個の音声コマンドに応答するように構成されることは、具体的には、
前記出力装置が、前記Ｍ個の音声コマンドに対応するＭ個の異なる位置の優先順位に従って、優先順位の高いコマンドに優先的に応答するように構成される
ことを含むことを特徴とする請求項１１に記載のデバイス。
三次元空間における前記Ｋ個の集音センサの座標は異なることを特徴とする請求項７から１２のいずれか一項に記載のデバイス。