JP6436400B2

JP6436400B2 - 音声コマンド入力装置および音声コマンド入力方法

Info

Publication number: JP6436400B2
Application number: JP2016510046A
Authority: JP
Inventors: 圭一問山
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2014-03-28
Filing date: 2015-03-26
Publication date: 2018-12-12
Anticipated expiration: 2035-03-26
Also published as: US10074367B2; US10304456B2; US20170069321A1; JPWO2015146179A1; US20180350367A1; WO2015146179A1; JP6624575B2; JP2018173653A

Description

本開示は、複数の利用者が機器を音声操作することができる音声コマンド入力装置および音声コマンド入力方法に関する。

特許文献１は、複数の音声入力部を有する音声コマンド入力装置を開示する。この音声コマンド入力装置は、複数の音声が入力されると、それら複数の音声に優先順位をつけ、最も優先順位が高い１つの音声を音声認識する。

図６は、特許文献１に開示された音声コマンド入力装置の構成を示すブロック図である。

この音声コマンド入力装置は、音声入力部であるマイクロホン６０１を複数備えている。制御部６０２は、音声で指示された制御内容を認識するとともに、認識した制御内容で、接続された機器の動作を制御する。図６には、制御部６０２が、エアコン６１０の電源オン／オフの切り替えや照明設備６１１の電源スイッチ６１２のオン／オフ切り替えを行う例を示す。

マイクロホン６０１は住宅の各部屋に設置され、住宅内に設置された１つの制御部６０２に信号線で接続される。制御部６０２は、たとえば、話者からエアコン６１０の電源オン／オフの切り替えを音声で指示された場合には、音声認識の結果に基づき、インターフェース６０７からエアコン６１０のリモコン６０８に電源オン／オフの切り替えを指示する制御信号を送信する。そして、リモコン６０８を介してエアコン６１０の電源をオンまたはオフにする。

あるいは、話者から照明設備６１１の電源オン／オフの切り替えが音声で指示された場合、制御部６０２は、インターフェース６０７から信号変換回路６０９に電源オン／オフの切り替えを指示する制御信号（デジタル信号）を送信する。信号変換回路６０９は、受信した制御信号をアナログ信号に変換して照明設備６１１に転送し、照明設備６１１の電源スイッチ６１２をオンまたはオフにする。

制御部６０２は以下のように構成されている。制御部６０２は、アナログデジタル変換回路（以下、「Ａ／Ｄ回路」と記す）６０３、調停回路６０５、音声認識用プロセッサ６０６、およびインタフェース６０７、を有する。

Ａ／Ｄ回路６０３は、マイクロホン６０１から入力されるアナログの音声信号をデジタルの音声信号に変換する。制御部６０２には、住宅内に設置されたマイクロホン６０１の数と同じ数のＡ／Ｄ回路６０３が備えられている。

調停回路６０５は、複数のＡ／Ｄ回路６０３から入力される音声信号のうち、最も早く受信した音声信号のみを受付ける。すなわち、調停回路６０５は、最も早く音声が入力されたマイクロホン６０１を検知し、そのマイクロホン６０１の信号ライン６０４を音声認識用プロセッサ６０６に接続する。一例として、調停回路６０５は、音声信号のパルスの立ち上がりを互いに比較することで、最も早く入力された音声信号を検知することができる。

これにより、最も早く発声された話者の音声のみが音声認識用プロセッサ６０６により音声認識される。他の話者により遅れて発声された音声の音声信号は調停回路６０５までしか届かず、音声認識用プロセッサ６０６での音声認識はなされない。

このように、特許文献１に開示された音声コマンド入力装置では、最も早く発声された音声のみが音声認識用プロセッサ６０６で音声認識され、遅れて発声された音声は音声認識されない。

しかし、遅れて発声されたという理由でその音声が音声認識されないことは望ましくない場合もある。例えば、１つの音声コマンド入力装置を複数の利用者が利用するような場合、複数のマイクロホンのそれぞれで集音される複数の利用者の音声は、優先順位を設けず、それぞれが音声認識されて処理されることが望ましい。

特開２０００−３１０９９９号公報

本開示は、複数の利用者が同時に音声を発声したり、複数のマイクロホンが１人の話者の音声を重複して集音したりしたときでも、適切に処理することができる音声コマンド入力装置を提供する。

本開示における音声コマンド入力装置は、第１の音声入力部と、第２の音声入力部と、音声コマンド識別部と、を備える。第１の音声入力部は、第１の識別情報を出力する第１の識別情報発生部と、音声を第１の音声コマンド情報に変換する第１の音声認識部と、を備え、第１の識別情報と第１の音声コマンド情報とを含む第１の音声情報を出力する、ように構成されている。第２の音声入力部は、第２の識別情報を出力する第２の識別情報発生部と、音声を第２の音声コマンド情報に変換する第２の音声認識部と、を備え、第２の識別情報と第２の音声コマンド情報とを含む第２の音声情報を出力する、ように構成されている。音声コマンド識別部は、第１の音声情報と第２の音声情報とにもとづき操作対象機器を制御するコントロール信号を生成して出力するように構成されている。そして、音声コマンド識別部は、第１の識別情報と第２の識別情報とを参照してコントロール信号を生成する。

本開示における音声コマンド入力方法は、第１の識別情報を発生するステップと、音声を第１の音声コマンド情報に変換するステップと、第２の識別情報を発生するステップと、音声を第２の音声コマンド情報に変換するステップと、第１の識別情報と第２の識別情報とを参照するステップと、その参照の結果と、第１の音声コマンド情報および第２の音声コマンド情報と、にもとづき、操作対象機器を制御するコントロール信号を生成するステップと、を備える。

図１は、実施の形態１における音声コマンド入力装置の一構成例を示すブロック図である。図２は、実施の形態１における音声コマンド入力装置の一動作例を示すフローチャートである。図３は、実施の形態２における音声コマンド入力装置の一構成例を示すブロック図である。図４は、実施の形態３における音声コマンド入力装置の一構成例を示すブロック図である。図５は、実施の形態３における音声コマンド入力装置の一動作例を示すフローチャートである。図６は、従来の音声コマンド入力装置の構成を示すブロック図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより請求の範囲に記載の主題を限定することは意図されていない。

なお、以下に示す実施の形態では、音声コマンド入力装置が「第１の音声入力部」と「第２の音声入力部」の２つの音声入力部を備える例を説明する。しかし、音声コマンド入力装置は何らこの構成に限定されるものではない。音声コマンド入力装置は、３つ以上の音声入力部を備えていてもよい。

また、以下の実施の形態では、音声コマンド入力装置を利用する者を、「利用者（Ｕｓｅｒ）」または「話者（Ｓｐｅａｋｅｒ）」と呼ぶ。話者とは、音声コマンド入力装置に対して音声コマンドを発声する者のことである。

また、以下の実施の形態では、利用者が音声コマンド入力装置に機器操作を指示するために発声する音声を「音声コマンド」と記す。

（実施の形態１）
以下、図１および図２を用いて、実施の形態１を説明する。

［１−１．構成］
図１は、実施の形態１における音声コマンド入力装置１００の一構成例を示すブロック図である。

音声コマンド入力装置１００は、第１の音声入力部１１４、第２の音声入力部１１５、音声コマンド識別部１０７、コマンド発行部１０８、を備える。

第１の音声入力部１１４は、第１のマイクロホン１０１、第１の音声認識部１０２、第１のタイムスタンプ付加部１０３、を備える。

第２の音声入力部１１５は、第２のマイクロホン１０４、第２の音声認識部１０５、第２のタイムスタンプ付加部１０６、を備える。

第１のマイクロホン１０１で集音された利用者の音声は、第１の音声認識部１０２に入力されて音声認識処理がなされる。本実施の形態では、第１のマイクロホン１０１で集音される音声を音声コマンド１１１とする。第１の音声認識部１０２は、音声コマンド１１１を音声認識して第１の音声コマンド情報に変換する。

第１のタイムスタンプ付加部１０３は、音声コマンド１１１が第１の音声入力部１１４に入力された時の時刻を示す第１のタイムスタンプ情報を出力する。第１のタイムスタンプ付加部１０３は第１の識別情報発生部の一例であり、第１のタイムスタンプ情報は第１の識別情報の一例である。

そして、第１の音声認識部１０２は、第１の音声コマンド情報と第１のタイムスタンプ情報とを含む第１の音声情報１０９を音声コマンド識別部１０７に出力する。

第２のマイクロホン１０４で集音された利用者の音声は、第２の音声認識部１０５に入力されて音声認識処理がなされる。本実施の形態では、第２のマイクロホン１０４で集音される音声を音声コマンド１１２とする。第２の音声認識部１０５は、音声コマンド１１２を音声認識して第２の音声コマンド情報に変換する。

第２のタイムスタンプ付加部１０６は、音声コマンド１１２が第２の音声入力部１１５に入力された時の時刻を示す第２のタイムスタンプ情報を出力する。第２のタイムスタンプ付加部１０６は第２の識別情報発生部の一例であり、第２のタイムスタンプ情報は第２の識別情報の一例である。

そして、第２の音声認識部１０５は、第２の音声コマンド情報と第２のタイムスタンプ情報とを含む第２の音声情報１１０を音声コマンド識別部１０７に出力する。

なお、第１の音声認識部１０２、第２の音声認識部１０５で行う音声認識処理は、一般に使用されている音声認識技術を用いて実現できるので、詳細な説明は省略する。また、第１のタイムスタンプ付加部１０３、第２のタイムスタンプ付加部１０６は、共に音声コマンド入力装置１００内で管理される１つの時刻を参照して第１のタイムスタンプ情報、第２のタイムスタンプ情報を発生することが望ましい。しかし、音声入力部に音声が入力されるタイミングを示すことができれば、時刻以外の情報が参照されてもよい。例えば、一定の時間経過とともにカウントアップまたはカウントダウンされる時間情報が時刻の代わりに参照されてもよい。

音声コマンド識別部１０７は、第１の音声入力部１１４から出力される第１の音声情報１０９と、第２の音声入力部１１５から出力される第２の音声情報１１０と、にもとづき、音声コマンド入力装置１００が操作対象とする機器（以下、「操作対象機器」と記す）に応じたコントロール信号を生成し、コマンド発行部１０８に出力する。

コマンド発行部１０８は、音声コマンド識別部１０７から出力されるコントロール信号を、音声コマンド入力装置１００の操作対象機器を制御するための機器制御信号１１３に変換して出力する。

なお、コマンド発行部１０８は、音声コマンド入力装置１００の操作対象機器に応じて適切に構成されるものとする。例えば、操作対象機器が赤外線リモートコントロール（以下、「リモコン」と略記する）信号受光部を備えるテレビジョン受像機（以下、「テレビ」と記す）であれば、コマンド発行部１０８を赤外線リモコンコード出力装置とする。このとき、音声コマンド識別部１０７から出力されるコントロール信号はテレビを制御するリモコンコードである。そして、コマンド発行部１０８は、音声コマンド識別部１０７から入力されるコントロール信号を赤外線リモコンコードに変換して出力する。したがって、機器制御信号１１３は、その赤外線リモコンコードである。

このように、本実施の形態において、コマンド発行部１０８は、特定の構成に限定されず、音声コマンド入力装置１００の操作対象機器に応じて適切に構成されるものとする。また、音声コマンド入力装置１００の操作対象機器が複数の場合は、それら複数の操作対象機器に応じた複数の構成を備えるものとする。そして、音声コマンド識別部１０７はコマンド発行部１０８の構成に応じて適切にコントロール信号を出力するように構成されるものとする。

以上のように構成された音声コマンド入力装置１００は、複数の音声入力部のそれぞれが、異なる利用者により発声された音声コマンドを同時に受け付けることができる。したがって、複数の利用者が各マイクロホンに対して同時に音声コマンドを発声しても、音声コマンド入力装置１００は、それら複数の音声コマンドをそれぞれ音声認識し、音声認識の結果にもとづく複数の処理を実行することができる。

ただし、このような構成の音声コマンド入力装置では、例えば比較的狭い領域に複数のマイクロホンが設置される等して、１人の話者が発声する１つの音声コマンドが複数のマイクロホンで重複して集音されたときに、１つの音声コマンドであるにもかかわらず複数の音声コマンドと誤認識され、処理が重複して実行される可能性がある。

しかし、本実施の形態に示す音声コマンド入力装置１００は、複数のマイクロホンのそれぞれで集音された音声コマンドが、１人の話者が発声したものか、複数の話者が発声したものか、を区別し、適切に処理することができる。

次に、図２を用いてその動作を説明する。

［１−２．動作］
図２は、実施の形態１における音声コマンド入力装置１００の一動作例を示すフローチャートである。

なお、本実施の形態では、音声コマンド識別部１０７に、２つの音声情報（例えば、第１の音声情報１０９および第２の音声情報１１０）が、ほぼ同時に入力されたとき、もしくは、一方の音声情報が入力される期間と他方の音声情報が入力される期間とに重複が生じたとき、の動作例を説明する。音声コマンド識別部１０７は、１つの音声情報だけが入力されたときは、その音声情報に含まれる音声コマンド情報に応じたコントロール信号を生成して出力するものとし、その動作の説明は省略する。また、音声コマンド入力装置１００を３つ以上の音声入力部を備えた構成としてもよく、音声コマンド識別部１０７に３つ以上の音声情報が入力されてもよい。

音声コマンド識別部１０７は、２つの音声情報（例えば、第１の音声情報１０９および第２の音声情報１１０）のそれぞれから音声コマンド情報（例えば、第１の音声コマンド情報および第２の音声コマンド情報）とタイムスタンプ情報（例えば、第１のタイムスタンプ情報および第２のタイムスタンプ情報）を抽出する（ステップＳ２００）。

次に、音声コマンド識別部１０７は、ステップＳ２００で抽出された２つの音声コマンド情報を互いに比較し、それらが互いに実質的に同じか否かを確認する（ステップＳ２０１）。

ステップＳ２０１で、各音声コマンド情報は互いに同じではないと判断されたとき（Ｎｏ）は、音声コマンド識別部１０７は、ステップＳ２００で抽出された各音声コマンド情報は、異なる話者から発声された音声による別々のものである、と判定する（ステップＳ２０２）。

したがって、音声コマンド識別部１０７は、ステップＳ２００で抽出された各音声コマンド情報のそれぞれに対応するコントロール信号（例えば、２つのコントロール信号）を発生し、コマンド発行部１０８に出力する（ステップＳ２０３）。

ステップＳ２０１で、各音声コマンド情報は互いに同じであると判断されたとき（Ｙｅｓ）は、音声コマンド識別部１０７は、ステップＳ２００で抽出された２つのタイムスタンプ情報の時間差を算出する。そして、算出された時間差と、あらかじめ定められた認識閾値とを比較する（ステップＳ２０４）。

なお、認識閾値は、例えば１秒に設定されているものとするが、何らこの数値に限定されるものではなく、１秒以外の数値に設定されてもよい。また、音声コマンド識別部１０７は、認識閾値をあらかじめ保持していてもよく、外部から認識閾値を取得または設定されてもよい。

ステップＳ２０４で、２つのタイムスタンプ情報の時間差は認識閾値以下であると判断されたとき（Ｙｅｓ）は、音声コマンド識別部１０７は、ステップＳ２００で抽出された各音声コマンド情報は１人の話者から発声された音声による同一のものである、と判定する（ステップＳ２０５）。

したがって、音声コマンド識別部１０７は、その音声コマンド情報に対応する１つのコントロール信号を生成し、コマンド発行部１０８に出力する（ステップＳ２０６）。

ステップＳ２０４で、２つのタイムスタンプ情報の時間差は認識閾値よりも大きいと判断されたとき（Ｎｏ）は、音声コマンド識別部１０７は、ステップＳ２００で抽出された各音声コマンド情報は異なる話者から発声された音声による別々のものである、と判定する（ステップＳ２０７）。すなわち、音声コマンド識別部１０７は、２つの音声コマンド情報は同一の内容であるが、話者が異なる別々の音声コマンドとして処理すべきである、と判定する。

したがって、音声コマンド識別部１０７は、ステップＳ２００で抽出された各音声コマンド情報のそれぞれに対応するコントロール信号（例えば、２つのコントロール信号）を発生し、コマンド発行部１０８に出力する（ステップＳ２０８）。

［１−３．効果等］
以上のように、本実施の形態において、音声コマンド入力装置は、第１の音声入力部と、第２の音声入力部と、音声コマンド識別部と、を備える。第１の音声入力部は、第１の識別情報を出力する第１の識別情報発生部と、音声を第１の音声コマンド情報に変換する第１の音声認識部と、を備え、第１の識別情報と第１の音声コマンド情報とを含む第１の音声情報を出力する、ように構成されている。第２の音声入力部は、第２の識別情報を出力する第２の識別情報発生部と、音声を第２の音声コマンド情報に変換する第２の音声認識部と、を備え、第２の識別情報と第２の音声コマンド情報とを含む第２の音声情報を出力する、ように構成されている。音声コマンド識別部は、第１の音声情報と第２の音声情報とにもとづき操作対象機器を制御するコントロール信号を生成して出力するように構成されている。そして、音声コマンド識別部は、第１の識別情報と第２の識別情報とを参照してコントロール信号を生成する。

また、本実施の形態において、第１の識別情報発生部は、第１の音声入力部に音声が入力されるタイミングを示す第１のタイムスタンプ情報を第１の識別情報として出力し、第２の識別情報発生部は、第２の音声入力部に音声が入力されるタイミングを示す第２のタイムスタンプ情報を第２の識別情報として出力する。そして、音声コマンド識別部は、第１のタイムスタンプ情報と第２のタイムスタンプ情報との時間差にもとづきコントロール信号を生成する。

なお、第１の音声入力部１１４は第１の音声入力部の一例であり、第１の音声認識部１０２は第１の音声認識部の一例であり、第１のタイムスタンプ付加部１０３は第１の識別情報発生部の一例であり、第２の音声入力部１１５は第２の音声入力部の一例であり、第２の音声認識部１０５は第２の音声認識部の一例であり、第２のタイムスタンプ付加部１０６は第２の識別情報発生部の一例であり、音声コマンド識別部１０７は音声コマンド識別部の一例であり、第１の音声情報１０９は第１の音声情報の一例であり、第２の音声情報１１０は第２の音声情報の一例である。

これにより、音声コマンド入力装置１００は、複数の音声入力部のそれぞれが、異なる利用者から発声された音声コマンドを同時に受け付けることができる。したがって、複数の利用者が各マイクロホンに対して同時に音声コマンドを発声しても、それら複数の音声コマンドをそれぞれ音声認識し、音声認識の結果にもとづく複数の処理を実行することができる。

さらに、音声コマンド入力装置１００は、複数のマイクロホンのそれぞれで集音された音声コマンドが、１人の話者が発声したものか、複数の話者が発声したものか、をタイムスタンプ情報にもとづき判別し、その判別結果にもとづきコントロール信号を生成することができる。したがって、例えば比較的狭い領域に複数のマイクロホンが設置される等して、１人の話者が発声する１つの音声コマンドが複数のマイクロホンで重複して集音されたとしても、処理を重複して実行する、といった誤動作を低減し、音声コマンドにもとづく処理を適切に実行することができる。

なお、本実施の形態では認識閾値を１秒とする例を説明したが、認識閾値は１秒より短くてもよく、１秒より長くてもよい。例えば、認識閾値を相対的に長い時間に設定すると、利用者が音声コマンドを発声する際に同一の言葉を繰り返してしまう癖があるような場合に、発声された音声コマンドの間隔が認識閾値以内となる可能性が高くなるので、繰り返された音声コマンドが一つの音声コマンドと判断される可能性を高め、誤動作を抑制することが可能である。

例えば、利用者が「消して、消して」とテレビの電源を消すコマンドを意図せずに反復して発声したとする。そのようなとき、認識閾値が相対的に短い時間に設定されていると、音声コマンド識別部は２つの音声を別々の音声コマンドと誤認識する可能性がある。そのような誤認識が生じると、音声コマンド識別部からコマンド発行部にテレビの電源オン／オフを切り替えるコントロール信号が２回出力され、それを受けたコマンド発行部からテレビの電源オン／オフを切り替える機器制御信号１１３が２回発行され、その結果、テレビの電源が一旦オフ状態になった後、再度オン状態になる、といった誤動作が生じることになる。しかし、認識閾値を相対的に長い時間に設定することにより、そのような意図しない誤動作を防止することができる。

一方、認識閾値を相対的に短い時間に設定すると、ほぼ同時に複数の利用者が同一の音声コマンドを別々のマイクロホンに向かって発声した場合でも、それらが別々の音声コマンドと認識されて正しく処理される可能性を高めることができる。

なお、第１のタイムスタンプ付加部１０３が参照する時間情報と第２のタイムスタンプ付加部１０６が参照する時間情報とは、同一の時間情報であってもよく、異なる時間情報であってもよい。ただし、異なる時間情報の場合は、互いに同期していることが望ましい。例えば、第１のタイムスタンプ付加部１０３と第２のタイムスタンプ付加部１０６とは、互いの時間情報が同期するように、互いに定期的に通信してもよい。または、同一の時刻情報源（クロックソース、例えば、ＮＴＰサーバ（ＮｅｔｗｏｒｋＴｉｍｅＰｒｏｔｏｃｏｌＳｅｒｖｅｒ）等の時刻配信装置）と定期的に通信して、時間情報をその時刻情報源と同期させるように音声コマンド入力装置が構成されていてもよい。

また、認識閾値を相対的に短い時間に設定すると、前述したように利用者が音声コマンドを発声する際に同一の言葉を繰り返してしまう癖がある場合に誤動作を生じる可能性があるが、その誤動作を低減するために、次のような対策を施してもよい。例えば、音声コマンド識別部１０７に、２つ目の閾値情報として同一入力閾値を設定する。そして、２つのタイムスタンプ情報の時間差が、仮に１つ目の閾値情報である認識閾値を超えていたとしても、２つ目の閾値情報である同一入力閾値以下であれば、２つの音声コマンド情報を１つの音声コマンド情報として扱う。これにより、複数の利用者がほぼ同時に音声コマンドを発声するような場合と、利用者が音声コマンドを発声する際に同一の言葉を繰り返してしまう癖があるような場合と、の双方に適切に対応することが可能である。

なお、音声コマンド入力装置１００が備える第１の音声入力部１１４と第２の音声入力部１１５とは、互いに離れた場所に設置されていてもよい。あるいは、第１のマイクロホン１０１と第２のマイクロホン１０４だけが互いに離れた場所に設置され、それ以外のブロックは１つの装置の中に組み込まれていてもよい。

（実施の形態２）
実施の形態１では、第１の識別情報発生部として第１のタイムスタンプ付加部１０３を設け、第１の識別情報として第１のタイムスタンプ情報を用い、第２の識別情報発生部として第２のタイムスタンプ付加部１０６を設け、第２の識別情報として第２のタイムスタンプ情報を用いる例を説明した。

本実施の形態では、識別情報発生部としての位置情報付加部を設け、識別情報として位置情報を用いる例を説明する。

以下、図３を用いて、実施の形態２を説明する。

［２−１．構成］
図３は、実施の形態２における音声コマンド入力装置３００の一構成例を示すブロック図である。

音声コマンド入力装置３００は、第１の音声入力部３１８、第２の音声入力部３１９、第３の音声入力部３２０、音声コマンド識別部３１０、コマンド発行部３１１、を備える。

第１の音声入力部３１８は、第１のマイクロホン３０１、第１の音声認識部３０２、第１の位置情報付加部３０３、を備える。

第２の音声入力部３１９は、第２のマイクロホン３０４、第２の音声認識部３０５、第２の位置情報付加部３０６、を備える。

第３の音声入力部３２０は、第３のマイクロホン３０７、第３の音声認識部３０８、第３の位置情報付加部３０９、を備える。

第１のマイクロホン３０１で集音された利用者の音声は、第１の音声認識部３０２に入力されて音声認識処理がなされる。本実施の形態では、第１のマイクロホン３０１で集音される音声を音声コマンド３１５とする。第１の音声認識部３０２は、音声コマンド３１５を音声認識して第１の音声コマンド情報に変換する。第１の位置情報付加部３０３は、例えば第１のマイクロホン３０１が設置された場所の位置情報を示す第１の位置情報を出力する。第１の位置情報付加部３０３は第１の識別情報発生部の一例であり、第１の位置情報は第１の識別情報の一例である。そして、第１の音声認識部３０２は、第１の音声コマンド情報と第１の位置情報とを含む第１の音声情報３１２を音声コマンド識別部３１０に出力する。

第２のマイクロホン３０４で集音された利用者の音声は、第２の音声認識部３０５に入力されて音声認識処理がなされる。本実施の形態では、第２のマイクロホン３０４で集音される音声を音声コマンド３１６とする。第２の音声認識部３０５は、音声コマンド３１６を音声認識して第２の音声コマンド情報に変換する。第２の位置情報付加部３０６は、例えば第２のマイクロホン３０４が設置された場所の位置情報を示す第２の位置情報を出力する。第２の位置情報付加部３０６は第２の識別情報発生部の一例であり、第２の位置情報は第２の識別情報の一例である。そして、第２の音声認識部３０５は、第２の音声コマンド情報と第２の位置情報とを含む第２の音声情報３１３を音声コマンド識別部３１０に出力する。

第３のマイクロホン３０７で集音された利用者の音声は、第３の音声認識部３０８に入力されて音声認識処理がなされる。本実施の形態では、第３のマイクロホン３０７で集音される音声を音声コマンド３１７とする。第３の音声認識部３０８は、音声コマンド３１７を音声認識して第３の音声コマンド情報に変換する。第３の位置情報付加部３０９は、例えば第３のマイクロホン３０７が設置された場所の位置情報を示す第３の位置情報を出力する。第３の位置情報付加部３０９は第２の識別情報発生部の一例であり、第３の位置情報は第２の識別情報の一例である。そして、第３の音声認識部３０８は、第３の音声コマンド情報と第３の位置情報とを含む第３の音声情報３１４を音声コマンド識別部３１０に出力する。

なお、各音声認識部で行う音声認識処理は、一般に使用されている音声認識技術を用いて実現できるので、詳細な説明は省略する。また、各位置情報付加部は、一般に使用されている位置情報検出技術を用いて位置情報を検出するように構成されてもよく、あるいは、あらかじめ登録された位置情報を保持するように構成されてもよい。

本実施の形態では、一例として、第１の音声入力部３１８と第２の音声入力部３１９とは近傍（例えば、同一の部屋の中）に設置されているものとし、その場所の名称を「場所１」とする。また、第３の音声入力部３２０は、場所１とは異なる場所（例えば、場所１とは異なる部屋）に設置されているものとし、その場所の名称を「場所２」とする。

また、場所１で発声された音声は、第１のマイクロホン３０１と第２のマイクロホン３０４のいずれか一方または双方で集音されるが、第３のマイクロホン３０７では集音されないものとする。また、場所２で発声された音声は、第３のマイクロホン３０７で集音されるが、第１のマイクロホン３０１および第２のマイクロホン３０４では集音されないものとする。

また、第１の位置情報付加部３０３と第２の位置情報付加部３０６には場所１を示す同一の位置情報が保持され、第３の位置情報付加部３０９には場所２を示す位置情報が保持されているものとする。

音声コマンド識別部３１０は、第１の音声入力部３１８から出力される第１の音声情報３１２、第２の音声入力部３１９から出力される第２の音声情報３１３、および第３の音声入力部３２０から出力される第３の音声情報３１４にもとづき、音声コマンド入力装置３００が操作対象とする機器（操作対象機器）に応じたコントロール信号を生成し、コマンド発行部３１１に出力する。

コマンド発行部３１１は、音声コマンド識別部３１０から出力されるコントロール信号を、音声コマンド入力装置３００の操作対象機器を制御するための機器制御信号３３０に変換して出力する。

なお、コマンド発行部３１１は、音声コマンド入力装置３００の操作対象機器に応じて適切に構成されるものとする。例えば、操作対象機器が赤外線リモコン信号受光部を備えるテレビであれば、コマンド発行部３１１を赤外線リモコンコード出力装置とする。このとき、音声コマンド識別部３１０から出力されるコントロール信号はテレビを制御するリモコンコードであり、コマンド発行部３１１は、音声コマンド識別部３１０から入力されるコントロール信号を赤外線リモコンコードに変換して出力する。したがって、機器制御信号３３０は、その赤外線リモコンコードである。

このように、本実施の形態においても、コマンド発行部３１１は、特定の構成に限定されず、音声コマンド入力装置３００の操作対象機器に応じて適切に構成されるものとする。また、音声コマンド入力装置３００の操作対象機器が複数の場合は、それら複数の操作対象機器に応じた複数の構成を備えるものとする。そして、音声コマンド識別部３１０はコマンド発行部３１１の構成に応じて適切にコントロール信号を出力するように構成されるものとする。

以上のように構成された音声コマンド入力装置３００は、複数の音声入力部のそれぞれが、異なる利用者により発声された音声コマンドを同時に受け付けることができる。したがって、実施の形態１に示した音声コマンド入力装置１００と同様に、音声コマンド入力装置３００は、複数の利用者が各マイクロホンに対して同時に音声コマンドを発声しても、それら複数の音声コマンドをそれぞれ音声認識し、音声認識の結果にもとづく複数の処理を実行することができる。

また、本実施の形態に示す音声コマンド入力装置３００は、実施の形態１に示した音声コマンド入力装置１００とは異なる手法で、複数のマイクロホンのそれぞれで集音された音声コマンドが、１人の話者が発声したものか、複数の話者が発声したものか、を区別し、適切に処理することができる。

次に、その動作を説明する。

［２−２．動作］
なお、本実施の形態では、音声コマンド識別部３１０に、３つの音声情報（ここでは、第１の音声情報３１２、第２の音声情報３１３および第３の音声情報３１４）が、ほぼ同時に入力されたとき、もしくは、所定の時間（互いに重複する入力期間が生じる程度の時間。例えば、５秒）以内に入力されたとき、の動作例を説明する。音声コマンド識別部３１０は、１つの音声情報だけが入力されたときは、その音声情報に含まれる音声コマンド情報に応じたコントロール信号を生成して出力するものとし、その動作の説明は省略する。また、音声コマンド入力装置３００を２つの音声入力部または４つ以上の音声入力部を備えた構成としてもよく、音声コマンド識別部３１０に２つの音声情報または４つ以上の音声情報が入力されてもよい。

音声コマンド識別部３１０は、複数の音声情報が所定の時間内に入力されたときは、まず、各音声情報から位置情報を抽出し、各位置情報を互いに比較する。また、各音声情報から音声コマンド情報を抽出し、各音声コマンド情報を互いに比較する。

比較の結果、位置情報は互いに異なる、と判断されたときは、音声コマンド識別部３１０は、各音声情報に含まれる音声コマンド情報は、異なる話者から発声された音声による別々のものである、と判定し、各音声コマンド情報に応じたコントロール信号を生成して出力する。

比較の結果、位置情報は互いに同じであり、音声コマンド情報も互いに同じである、と判断されたときは、音声コマンド識別部３１０は、各音声情報に含まれる音声コマンド情報は、１人の話者から発声された音声による同一のものである、と判定し、その音声コマンド情報に応じたコントロール信号を生成して出力する。

比較の結果、位置情報は互いに同じであるが、音声コマンド情報は互いに異なる、と判断されたときは、音声コマンド識別部３１０は、各音声情報に含まれる音声コマンド情報は、異なる話者から発声された音声による別々のものである、と判定し、各音声コマンド情報に応じたコントロール信号を生成して出力する。

比較の結果、互いに同じ位置情報と互いに異なる位置情報とが混在する、と判断されたときは、音声コマンド識別部３１０は、互いに異なる位置情報の音声情報に関しては、その音声情報に含まれる音声コマンド情報は異なる話者から発声された音声による別々のものである、と判定する。また、互いに同じ位置情報の音声情報に関しては、その音声情報に含まれる音声コマンド情報が互いに同じであれば、その音声コマンド情報は１人の話者から発声された音声による同一のものである、と判定し、その音声情報に含まれる音声コマンド情報が互いに異なれば、その音声コマンド情報は異なる話者から発声された音声による別々のものである、と判定する。そして、その判定結果にもとづき、音声コマンド情報に応じたコントロール信号を生成して出力する。

例えば、所定の時間内に、第１の音声情報３１２と第３の音声情報３１４とが音声コマンド識別部３１０へ入力されたとする。このとき、第１の位置情報と第３の位置情報とが互いに異なる位置情報であれば、音声コマンド識別部３１０は、第１の音声コマンド情報と第３の音声コマンド情報とは、異なる話者から発声された音声による別々のものである、と判定する。したがって、音声コマンド識別部３１０は、第１の音声コマンド情報に対応するコントロール信号と、第３の音声コマンド情報に対応するコントロール信号と、をそれぞれ生成してコマンド発行部３１１に出力する。

例えば、所定の時間内に、第１の音声情報３１２と第２の音声情報３１３とが音声コマンド識別部３１０へ入力されたとする。そして、第１の音声コマンド情報と第２の音声コマンド情報とは互いに同じ音声コマンド情報であり、第１の位置情報と第２の位置情報とは互いに同じ位置情報であったとする。このとき、音声コマンド識別部３１０は、第１の音声コマンド情報と第２の音声コマンド情報とは、１人の話者から発声された音声による同一のものである、と判定する。そして、第１の音声コマンド情報（または第２の音声コマンド情報）に対応する１つのコントロール信号を生成してコマンド発行部３１１に出力する。

例えば、所定の時間内に、第１の音声情報３１２と第２の音声情報３１３とが音声コマンド識別部３１０へ入力されたとする。そして、第１の位置情報と第２の位置情報とは互いに同じ位置情報であるが、第１の音声コマンド情報と第２の音声コマンド情報とは互いに異なる音声コマンド情報であったとする。このとき、音声コマンド識別部３１０は、第１の音声コマンド情報と第２の音声コマンド情報とは、異なる話者から発声された音声による別々のものである、と判定する。したがって、音声コマンド識別部３１０は、第１の音声コマンド情報に対応するコントロール信号と、第２の音声コマンド情報に対応するコントロール信号と、をそれぞれ生成してコマンド発行部３１１に出力する。

例えば、所定の時間内に、第１の音声情報３１２と第２の音声情報３１３と第３の音声情報３１４とが音声コマンド識別部３１０へ入力されたとする。また、第１の音声コマンド情報と第２の音声コマンド情報と第３の音声コマンド情報とは互いに同じ音声コマンド情報であったとする。このとき、第１の位置情報と第２の位置情報とが互いに同じ位置情報であれば、音声コマンド識別部３１０は、第１の音声コマンド情報と第２の音声コマンド情報とは、１人の話者から発声された音声による同一のものである、と判定する。また、第１の位置情報（および第２の位置情報）と第３の位置情報とが互いに異なる位置情報であれば、音声コマンド識別部３１０は、第１の音声コマンド情報（および第２の音声コマンド情報）と第３の音声コマンド情報とは、異なる話者から発声された音声による別々のものである、と判定する。したがって、音声コマンド識別部３１０は、第１の音声コマンド情報（または第２の音声コマンド情報）に対応するコントロール信号と、第３の音声コマンド情報に対応するコントロール信号と、をそれぞれ生成し、コマンド発行部３１１に出力する。

このように、本実施の形態に示す音声コマンド識別部３１０は、所定の時間内に複数の音声情報が入力されたときは、各音声情報から位置情報を抽出してその位置情報を互いに比較し、その比較の結果および各音声情報に含まれる音声コマンド情報にもとづきコントロール信号を生成して出力する。所定の時間内に１つの音声情報だけが入力されたときは、音声情報に含まれる音声コマンド情報に対応するコントロール信号を生成して出力する。

なお、所定の時間内か否かの判断は、例えば、音声コマンド識別部３１０にタイマーを設けるとともに所定の時間を判断するための閾値をあらかじめ定めておき、タイマーにおける計測時間とその閾値とを比較することで実現できる。タイマーは、例えば、最初の音声情報の入力時に時間計測が開始され、コントロール信号の出力時にリセットされるように構成されてもよい。

［２−３．効果等］
以上のように、本実施の形態において、音声コマンド入力装置は、第１の音声入力部と、第２の音声入力部と、音声コマンド識別部と、を備える。第１の音声入力部は、第１の識別情報を出力する第１の識別情報発生部と、音声を第１の音声コマンド情報に変換する第１の音声認識部と、を備え、第１の識別情報と第１の音声コマンド情報とを含む第１の音声情報を出力する、ように構成されている。第２の音声入力部は、第２の識別情報を出力する第２の識別情報発生部と、音声を第２の音声コマンド情報に変換する第２の音声認識部と、を備え、第２の識別情報と第２の音声コマンド情報とを含む第２の音声情報を出力する、ように構成されている。音声コマンド識別部は、第１の音声情報と第２の音声情報とにもとづき操作対象機器を制御するコントロール信号を生成して出力するように構成されている。そして、音声コマンド識別部は、第１の識別情報と第２の識別情報とを参照してコントロール信号を生成する。

また、本実施の形態において、第１の識別情報発生部は、第１の音声入力部が設置された場所を示す第１の位置情報を第１の識別情報として出力し、第２の識別情報発生部は、第２の音声入力部が設置された場所を示す第２の位置情報を第２の識別情報として出力する。そして、音声コマンド識別部は、第１の位置情報と第２の位置情報との比較にもとづきコントロール信号を生成する。

なお、第１の音声入力部３１８は第１の音声入力部の一例であり、第１の音声認識部３０２は第１の音声認識部の一例であり、第１の位置情報付加部３０３は第１の識別情報発生部の一例であり、第２の音声入力部３１９および第３の音声入力部３２０は第２の音声入力部の一例であり、第２の音声認識部３０５および第３の音声認識部３０８は第２の音声認識部の一例であり、第２の位置情報付加部３０６および第３の位置情報付加部３０９は第２の識別情報発生部の一例であり、音声コマンド識別部３１０は音声コマンド識別部の一例であり、第１の音声情報３１２は第１の音声情報の一例であり、第２の音声情報３１３および第３の音声情報３１４は第２の音声情報の一例である。

これにより、音声コマンド入力装置３００は、複数の音声入力部のそれぞれが、異なる利用者から発声された音声コマンドを同時に受け付けることができる。したがって、複数の利用者が各マイクロホンに対して同時に音声コマンドを発声しても、それら複数の音声コマンドをそれぞれ音声認識し、音声認識の結果にもとづく複数の処理を実行することができる。

さらに、音声コマンド入力装置３００は、複数のマイクロホンのそれぞれで集音された音声コマンドが、１人の話者が発声したものか、複数の話者が発声したものか、を位置情報にもとづき判別し、その判別結果にもとづきコントロール信号を生成することができる。したがって、例えば比較的狭い領域に複数のマイクロホンが設置される等して、１人の話者が発声する１つの音声コマンドが複数のマイクロホンで重複して集音されたとしても、処理を重複して実行する、といった誤動作を低減し、音声コマンドにもとづく処理を適切に実行することができる。

なお、位置情報は、あらかじめ設定されていてもよく、あるいは、一般に使用される位置情報検出手段（例えば、Ｗｉ−Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）のアクセスポイントの情報、ビーコンの情報、またはＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）の情報、等を利用して位置情報を検出する装置）を用いて取得されてもよい。そのような位置情報検出手段を備えた構成は、例えば、利用者にマイクロホンが装着されたり、車等の移動体の中に音声入力部が設置されたりして、音声入力部が時間の経過と共に移動する可能性がある場合に有効である。

（実施の形態３）
本実施の形態では、識別情報発生部としての個人識別部を設け、識別情報として話者情報を用いる例を説明する。

以下、図４、図５を用いて、実施の形態３を説明する。

［３−１．構成］
図４は、実施の形態３における音声コマンド入力装置４００の一構成例を示すブロック図である。

音声コマンド入力装置４００は、第１の音声入力部４１８、第２の音声入力部４１９、音声コマンド識別部４０７、コマンド発行部４０８、を備える。

第１の音声入力部４１８は、第１のマイクロホン４０１、第１の個人識別部４０２、第１の音声認識部４０３、を備える。

第２の音声入力部４１９は、第２のマイクロホン４０４、第２の個人識別部４０５、第２の音声認識部４０６、を備える。

第１のマイクロホン４０１で集音された利用者の音声は、第１の音声認識部４０３に入力されて音声認識処理がなされる。本実施の形態では、第１のマイクロホン４０１で集音される音声を第１の音声コマンド４０９とする。第１の音声コマンド４０９は、第１の個人識別部４０２にも入力される。

第１の個人識別部４０２は、第１の音声コマンド４０９を発声した話者を特定するために音声の解析を行い、その話者を特定する。そして、その話者を示す第１の話者情報４１４を第１の音声認識部４０３に出力する。

第１の音声認識部４０３は、第１の音声コマンド４０９を音声認識して第１の音声コマンド情報に変換する。そして、第１の音声認識部４０３は、第１の音声コマンド情報と第１の話者情報４１４とを含む第１の音声情報４１１を音声コマンド識別部４０７に出力する。

第２のマイクロホン４０４で集音された利用者の音声は、第２の音声認識部４０６に入力されて音声認識処理がなされる。本実施の形態では、第２のマイクロホン４０４で集音される音声を第２の音声コマンド４１０とする。第２の音声コマンド４１０は、第２の個人識別部４０５にも入力される。

第２の個人識別部４０５は、第２の音声コマンド４１０を発声した話者を特定するために音声の解析を行い、その話者を特定する。そして、その話者を示す第２の話者情報４１５を第２の音声認識部４０６に出力する。

第２の音声認識部４０６は、第２の音声コマンド４１０を音声認識して第２の音声コマンド情報に変換する。そして、第２の音声認識部４０６は、第２の音声コマンド情報と第２の話者情報４１５とを含む第２の音声情報４１２を音声コマンド識別部４０７に出力する。

なお、各音声認識部で行う音声認識処理は、一般に使用されている音声認識技術を用いて実現できるので、詳細な説明は省略する。

なお、上述したように、第１の個人識別部４０２は第１の音声コマンド４０９を用いて個人を識別し、第２の個人識別部４０５は第２の音声コマンド４１０を用いて個人を識別する。声による個人の識別は、例えば、一般に使用されている生体認証技術（あらかじめ登録された声紋情報と入力された声紋情報とを比較して個人認証を行い、個人を特定する技術）を用いて実現できるので、詳細な説明は省略する。

なお、第１の話者情報および第２の話者情報は、例えば、個人識別ＩＤ（ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）や個人名等が望ましいが、個人を特定できる情報であれば、どのような情報であってもよい。

音声コマンド識別部４０７は、第１の音声入力部４１８から出力される第１の音声情報４１１、および第２の音声入力部４１９から出力される第２の音声情報４１２にもとづき、音声コマンド入力装置４００が操作対象とする機器（操作対象機器）に応じたコントロール信号を生成し、コマンド発行部４０８に出力する。

コマンド発行部４０８は、音声コマンド識別部４０７から出力されるコントロール信号を、音声コマンド入力装置４００の操作対象機器を制御するための機器制御信号４１３に変換して出力する。

なお、コマンド発行部４０８は、音声コマンド入力装置４００の操作対象機器に応じて適切に構成されるものとする。例えば、操作対象機器が赤外線リモコン信号受光部を備えるテレビであれば、コマンド発行部４０８を赤外線リモコンコード出力装置とする。このとき、音声コマンド識別部４０７から出力されるコントロール信号はテレビを制御するリモコンコードであり、コマンド発行部４０８は、音声コマンド識別部４０７から入力されるコントロール信号を赤外線リモコンコードに変換して出力する。したがって、機器制御信号４１３は、その赤外線リモコンコードである。

このように、本実施の形態においても、コマンド発行部４０８は、特定の構成に限定されず、音声コマンド入力装置４００の操作対象機器に応じて適切に構成されるものとする。また、音声コマンド入力装置４００の操作対象機器が複数の場合は、それら複数の操作対象機器に応じた複数の構成を備えるものとする。そして、音声コマンド識別部４０７はコマンド発行部４０８の構成に応じて適切にコントロール信号を出力するように構成されるものとする。

以上のように構成された音声コマンド入力装置４００は、複数の音声入力部のそれぞれが、異なる利用者により発声された音声コマンドを同時に受け付けることができる。したがって、実施の形態１に示した音声コマンド入力装置１００や実施の形態２に示した音声コマンド入力装置３００と同様に、音声コマンド入力装置４００は、複数の利用者が各マイクロホンに対して同時に音声コマンドを発声しても、それら複数の音声コマンドをそれぞれ音声認識し、音声認識の結果にもとづく複数の処理を実行することができる。

また、本実施の形態に示す音声コマンド入力装置４００は、実施の形態１に示した音声コマンド入力装置１００や実施の形態２に示した音声コマンド入力装置３００とは異なる手法で、複数のマイクロホンのそれぞれで集音された音声コマンドが、１人の話者が発声したものか、複数の話者が発声したものか、を区別し、適切に処理することができる。

次に、図５を用いて、その動作を説明する。

［３−２．動作］
図５は、実施の形態３における音声コマンド入力装置４００の一動作例を示すフローチャートである。

なお、本実施の形態では、音声コマンド識別部４０７に、２つの音声情報（ここでは、第１の音声情報４１１および第２の音声情報４１２）が、ほぼ同時に入力されたとき、もしくは、互いに重複する期間を生じて入力されたとき、の動作例を説明する。音声コマンド識別部４０７は、１つの音声情報だけが入力されたときは、その音声情報に含まれる音声コマンド情報に応じたコントロール信号を生成して出力するものとし、その動作の説明は省略する。また、音声コマンド入力装置４００を３つ以上の音声入力部を備えた構成としてもよく、音声コマンド識別部４０７に３つ以上の音声情報が入力されてもよい。

音声コマンド識別部４０７は、複数の音声情報（例えば、第１の音声情報４１１、および第２の音声情報４１２）のそれぞれから音声コマンド情報（例えば、第１の音声コマンド情報および第２の音声コマンド情報）と話者情報（例えば、第１の話者情報および第２の話者情報）を抽出する（ステップＳ５００）。

次に、音声コマンド識別部４０７は、ステップＳ５００で抽出された話者情報を互いに比較し、それらが同じ話者を示しているか否かを確認する（ステップＳ５０１）。

ステップＳ５０１で、各話者情報は同じ話者を示していると判断されたとき（Ｙｅｓ）は、音声コマンド識別部４０７は、ステップＳ５００で抽出された各音声コマンド情報は１人の話者から発声された音声による同一のものである、と判定する（ステップＳ５０２）。

したがって、音声コマンド識別部４０７は、その音声コマンド情報に対応する１つのコントロール信号を生成し、コマンド発行部４０８に出力する（ステップＳ５０３）。

ステップＳ５０１で、各話者情報は異なる話者を示していると判断されたとき（Ｎｏ）は、音声コマンド識別部４０７は、ステップＳ５００で抽出された各音声コマンド情報は異なる話者から発声された音声による別々のものである、と判定する（ステップＳ５０４）。

したがって、音声コマンド識別部４０７は、ステップＳ５００で抽出された各音声コマンド情報のそれぞれに対応するコントロール信号（例えば、２つのコントロール信号）を発生し、コマンド発行部４０８に出力する（ステップＳ５０５）。

［３−３．効果等］
以上のように、本実施の形態において、音声コマンド入力装置は、第１の音声入力部と、第２の音声入力部と、音声コマンド識別部と、を備える。第１の音声入力部は、第１の識別情報を出力する第１の識別情報発生部と、音声を第１の音声コマンド情報に変換する第１の音声認識部と、を備え、第１の識別情報と第１の音声コマンド情報とを含む第１の音声情報を出力する、ように構成されている。第２の音声入力部は、第２の識別情報を出力する第２の識別情報発生部と、音声を第２の音声コマンド情報に変換する第２の音声認識部と、を備え、第２の識別情報と第２の音声コマンド情報とを含む第２の音声情報を出力する、ように構成されている。音声コマンド識別部は、第１の音声情報と第２の音声情報とにもとづき操作対象機器を制御するコントロール信号を生成して出力するように構成されている。そして、音声コマンド識別部は、第１の識別情報と第２の識別情報とを参照してコントロール信号を生成する。

また、本実施の形態において、第１の識別情報発生部は、第１の音声入力部に入力される音声の発話者を示す第１の話者情報を第１の識別情報として出力し、第２の識別情報発生部は、第２の音声入力部に入力される音声の発話者を示す第２の話者情報を第２の識別情報として出力する。そして、音声コマンド識別部は、第１の話者情報と第２の話者情報との比較にもとづきコントロール信号を生成する。

なお、第１の音声入力部４１８は第１の音声入力部の一例であり、第１の音声認識部４０３は第１の音声認識部の一例であり、第１の個人識別部４０２は第１の識別情報発生部の一例であり、第２の音声入力部４１９は第２の音声入力部の一例であり、第２の音声認識部４０６は第２の音声認識部の一例であり、第２の個人識別部４０５は第２の識別情報発生部の一例であり、音声コマンド識別部４０７は音声コマンド識別部の一例であり、第１の音声情報４１１は第１の音声情報の一例であり、第２の音声情報４１２は第２の音声情報の一例である。

これにより、音声コマンド入力装置４００は、複数の音声入力部のそれぞれが、異なる利用者から発声された音声コマンドを同時に受け付けることができる。したがって、複数の利用者が各マイクロホンに対して同時に音声コマンドを発声しても、それら複数の音声コマンドをそれぞれ音声認識し、音声認識の結果にもとづく複数の処理を実行することができる。

さらに、音声コマンド入力装置４００は、複数のマイクロホンのそれぞれで集音された音声コマンドが、１人の話者が発声したものか、複数の話者が発声したものか、を話者情報にもとづき判別し、その判別結果にもとづきコントロール信号を生成することができる。したがって、例えば比較的狭い領域に複数のマイクロホンが設置される等して、１人の話者が発声する１つの音声コマンドが複数のマイクロホンで重複して集音されたとしても、処理を重複して実行する、といった誤動作を低減し、音声コマンドにもとづく処理を適切に実行することができる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１〜３を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態１〜３で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

そこで、以下、他の実施の形態を例示する。

実施の形態１では、各音声認識部のそれぞれにタイムスタンプ付加部を設ける構成を説明した。しかし、本開示はこの構成に限定されない。例えば、音声コマンド識別部の内部にタイマー等の時間情報源を設ける。そして、音声コマンド識別部は、音声コマンド情報が音声コマンド識別部に入力されるときに、その時間情報源を参照してタイムスタンプ情報を発生する。そして、音声コマンド情報にそのタイムスタンプ情報を紐付けする。このように音声コマンド入力装置を構成してもよい。

実施の形態２では、音声コマンド識別部が、位置情報を互いに比較することで「位置情報は互いに同じか否か」の判断を行う構成を説明した。しかし、本開示はこの構成に限定されない。例えば、２つの位置情報から互いの離間距離を算出し、算出された距離と閾値との比較により、「位置情報は互いに同じか否か」の判断を行うように音声コマンド識別部を構成してもよい。この構成では、２つの位置情報から算出される互いの離間距離が、閾値（例えば、２０ｍ）以下であれば２つの位置情報は互いに同じである、と判断し、閾値よりも大きければ２つの位置情報は互いに異なる、と判断することができる。また、位置情報として、経度情報および緯度情報、さらには高度情報、等が用いられてもよい。

実施の形態３では、第１の話者情報および第２の話者情報を、話者を特定する情報（例えば、個人識別ＩＤや個人名）とする構成を説明した。しかし、本開示はこの構成に限定されない。例えば、話者情報を、音声コマンドから抽出した声紋情報または声紋の特徴点を示す情報とし、音声コマンド識別部を、声紋情報同士を比較、または声紋の特徴点同士を比較、するように構成してもよい。このような構成であっても、音声コマンド入力装置は、複数の音声コマンド情報の発話者が、同一の話者か異なる話者かを判別することができる。このように構成された音声コマンド入力装置は、声紋情報をあらかじめ登録しなくてもよい。さらに、この音声コマンド入力装置は、声紋情報をあらかじめ登録する必要がないので、公共の場など不特定多数の利用者がいる場所等での使用に有効である。

なお、本実施の形態に示す各構成要素は、電子回路として構成されていてもよく、プログラムをプロセッサーで実行させることで各構成要素を実現するように構成されていてもよい。

本開示は、複数の利用者が機器を音声操作することができる音声コマンド入力装置に適用可能である。具体的には、複数のマイクロホンが互いに異なる場所に設置され、各マイクロホンで集音される音声が１つの制御装置に入力され、その音声にもとづき操作対象機器が制御装置から制御されるように構成されたシステムや装置に本開示は適用可能である。

１００，３００，４００音声コマンド入力装置
１０１，３０１，４０１第１のマイクロホン
１０２，３０２，４０３第１の音声認識部
１０３第１のタイムスタンプ付加部
１０４，３０４，４０４第２のマイクロホン
１０５，３０５，４０６第２の音声認識部
１０６第２のタイムスタンプ付加部
１０７，３１０，４０７音声コマンド識別部
１０８，３１１，４０８コマンド発行部
１０９，３１２，４１１第１の音声情報
１１０，３１３，４１２第２の音声情報
１１１，１１２，３１５，３１６，３１７，４０９，４１０音声コマンド
１１３，３３０，４１３機器制御信号
１１４，３１８，４１８第１の音声入力部
１１５，３１９，４１９第２の音声入力部
３０３第１の位置情報付加部
３０６第２の位置情報付加部
３０７第３のマイクロホン
３０８第３の音声認識部
３０９第３の位置情報付加部
３１４第３の音声情報
３２０第３の音声入力部
４０２第１の個人識別部
４０５第２の個人識別部
４１４第１の話者情報
４１５第２の話者情報

Claims

第１の識別情報を出力する第１の識別情報発生部と、音声を第１の音声コマンド情報に変換する第１の音声認識部と、を備え、前記第１の識別情報と前記第１の音声コマンド情報とを含む第１の音声情報を出力する、ように構成された第１の音声入力部と、
第２の識別情報を出力する第２の識別情報発生部と、音声を第２の音声コマンド情報に変換する第２の音声認識部と、を備え、前記第２の識別情報と前記第２の音声コマンド情報とを含む第２の音声情報を出力する、ように構成された第２の音声入力部と、
前記第１の音声情報と前記第２の音声情報とにもとづき、操作対象機器を制御するコントロール信号を生成して出力する、ように構成された音声コマンド識別部と、
を備え、
前記音声コマンド識別部は、前記第１の識別情報と前記第２の識別情報とを参照して前記コントロール信号を生成し、
前記第１の識別情報発生部は、前記第１の音声入力部に音声が入力されるタイミングを示す第１のタイムスタンプ情報を前記第１の識別情報として出力し、
前記第２の識別情報発生部は、前記第２の音声入力部に音声が入力されるタイミングを示す第２のタイムスタンプ情報を前記第２の識別情報として出力し、
前記音声コマンド識別部は、前記第１のタイムスタンプ情報と前記第２のタイムスタンプ情報との時間差にもとづき前記コントロール信号を生成する、
音声コマンド入力装置。
第１の識別情報を発生するステップと、
音声を第１の音声コマンド情報に変換するステップと、
第２の識別情報を発生するステップと、
音声を第２の音声コマンド情報に変換するステップと、
前記第１の識別情報と前記第２の識別情報とを参照するステップと、
前記参照の結果と、前記第１の音声コマンド情報および前記第２の音声コマンド情報と、にもとづき、操作対象機器を制御するコントロール信号を生成するステップと、
を備え、
前記第１の識別情報を発生するステップでは、前記第１の音声コマンド情報に変換するステップで用いられる音声が入力されるタイミングを示す第１のタイムスタンプ情報を前記第１の識別情報として出力し、
前記第２の識別情報を発生するステップでは、前記第２の音声コマンド情報に変換するステップで用いられる音声が入力されるタイミングを示す第２のタイムスタンプ情報を前記第２の識別情報として出力し、
前記コントロール信号を生成するステップでは、前記第１のタイムスタンプ情報と前記第２のタイムスタンプ情報との時間差にもとづき前記コントロール信号を生成する、
音声コマンド入力方法。