JP2003223188A

JP2003223188A - 音声入力システム、音声入力方法及び音声入力プログラム

Info

Publication number: JP2003223188A
Application number: JP2002019457A
Authority: JP
Inventors: Masahide Arisei; 政秀蟻生
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-01-29
Filing date: 2002-01-29
Publication date: 2003-08-08
Anticipated expiration: 2022-01-29
Also published as: JP4086280B2

Abstract

(57)【要約】【課題】ユーザの発声が複数の音声入力装置に入りう
る場合にユーザに負担をかけずに発声に対する処理をき
めることができる音声入力システム、音声入力方法及び
そのプログラムを提供する。【解決手段】複数の音声入力装置がネットワークを通し
て接続されており、これら音声入力装置同士が情報の授
受を行い、音声が入力された場合には決めておいた情報
を他の音声入力装置に送り、各音声入力装置は自装置で
の音声の処理結果と他の音声入力装置の処理結果から、
その音声に対する処理の判断を行うようにすることでユ
ーザに負担をかけずに音声入力への処理を行うことを可
能とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声を扱う装置に
関するものであり、特にユーザの発声が複数の音声入力
に入りうる場合の音声入力システム、音声入力方法及び
音声入力プログラムに関する。

【０００２】

【従来の技術】これまでは音声によって機器を制御する
場合や、音声をある機器に入力する場合にはユーザと音
声入力機器は１対１で対応していることを主に想定して
いた。しかしながら、例えば一つの部屋に複数の音声入
力装置がある場合などユーザの発声が複数の音声入力装
置に入ってしまうことは十分あり得る。その場合に従来
は、ユーザが特に対象機器を指定したり、音声入力しよ
うと思っている機器以外に対しては音声入力を抑制する
ような操作を行ったりする必要があった。

【０００３】

【発明が解決しようとする課題】本発明は、ユーザに負
担をかけずにユーザの発声を入力したい音声入力装置に
入力する音声入力システム、音声入力方法及び音声入力
プログラムを提供することを目的とする。

【０００４】

【課題を解決するための手段】本発明の音声入力システ
ムは複数の音声入力装置がネットワークに接続され、前
記ネットワークに接続された各々の音声入力装置におい
て入力される音声情報をそれぞれ検知し、前記ネットワ
ークに接続された各々の音声入力装置で前記検知した前
記音声情報を必要に応じて処理したものである音声に関
する情報を判断情報として前記ネットワークを介して他
の音声入力装置に授受し、前記ネットワークに接続され
た各々の音声入力装置が自音声入力装置と他の音声入力
装置における前記判断情報をもとに前記音声情報に対す
る処理の決定及び実行の判断を行うことを特徴とするも
のである。

【０００５】また、本発明の音声入力方法はネットワー
クに接続された複数の音声入力装置において入力される
音声情報をそれぞれ検知するステップと、前記ネットワ
ークに接続された各々の音声入力装置で前記検知した前
記音声に関する情報を判断情報として前記ネットワーク
を介して他の音声入力装置に授受するステップと、前記
ネットワークに接続された各々の音声入力装置が自音声
入力装置と他の音声入力装置における前記判断情報をも
とに前記音声情報に対する処理の決定及び実行の判断を
行うステップとを含むことを特徴とするものである。

【０００６】また、本発明の音声入力プログラムはネッ
トワークに接続された複数の音声入力装置において入力
される音声情報をそれぞれ検知し、前記ネットワークに
接続された各々の音声入力装置で前記検知した前記音声
に関する情報を判断情報として前記ネットワークを介し
て他の音声入力装置に授受し、前記ネットワークに接続
された各々の音声入力装置が自音声入力装置と他の音声
入力装置における前記判断情報をもとに前記音声情報に
対する処理の決定及び実行の判断を行う機能を実現する
ことを特徴とするものである。

【０００７】

【発明の実施の形態】以下、図面を参照しながら本発明
による音声入力システムについて説明する。はじめに、
本発明の全体の概要を図１を用いて説明する。

【０００８】本発明の音声入力システムでは、ネットワ
ーク104に複数の単体の音声入力装置101や音声入力装置
102を有した機器103、例えばビデオテープレコーダが接
続され、これらの単体の音声入力装置101や機器103に搭
載された音声入力装置102によりユーザの発声する音声
命令や伝言のメッセージあるいは会話等を計測し、入力
された音声信号を信号処理手段によって適当な信号に変
換する。そしてこの変換された信号から音声入力システ
ムは入力された音声に対する処理を単体の音声入力装置
101や機器103に搭載された音声入力装置102で行うこと
ができる。

【０００９】また単体の音声入力装置101や機器103に搭
載された音声入力装置102はネットワーク104を介して情
報の授受が可能となっており、入力された音声に対する
処理として、ネットワーク上の他の単体の音声入力装置
や機器に搭載された音声入力装置と情報の送受信ができ
る。

【００１０】このとき、ネットワークへの情報の送信に
ついては情報が一つ一つの各音声入力装置に移っていく
ようなリレー方式でも、一つの音声入力装置から同時に
複数の音声入力装置に送るようなブロードキャスト方式
でも構わないが、音声という実時間処理が重要な用途で
あるので以降はブロードキャスト方式を念頭に置いて説
明する。

【００１１】ユーザの発声がネットワーク接続された複
数の音声入力装置に入力された場合に、各音声入力装置
での処理をどうするかという点が本発明によって解決す
る所である。また、ユーザの発声が単一の音声入力装置
にしか入力されなかった場合でも本発明の処理で包含す
ることができる。

【００１２】また本発明の実施例としては、ユーザの発
声という人間の発声を主に例に挙げて説明しているが、
本発明は人間の音声に限定されたものではない。目的に
応じて機械の動作音や動物の声でも、音声であれば構わ
ないものとする。

【００１３】次に本発明の実施の形態の音声入力システ
ムを構成する音声入力装置について図2を用いて説明す
る。音声入力装置（20-1〜20-3）はそれぞれネットワー
ク21に接続されており、音声入力装置20-1はビデオデー
プレコーダ（以下ビデオとする）26に搭載され、音声入
力装置20-3はエアーコンディショナー（以下エアコンと
する）27に搭載され、また、音声入力装置20-2は単体で
接続されている。音声入力装置20-1に入力された音声に
よりビデオ26の操作を行い、音声入力装置20-3に入力さ
れた音声によりエアコン27の操作を行う。なお、後述す
るように自分の音声入力装置への音声でなくとも、各機
器は音声入力への処理を行うことができる。

【００１４】各音声入力装置（20-1〜20-3）はそれぞれ
マイクロホン201、信号処理部202、中央処理部203、記
憶部204、ネットワーク接続部205、情報表出部206から
構成される。

【００１５】ユーザが発声する音声入力はマイクロホン
201に入力され、このマイクロホン201でユーザの発声を
計測する。これは一般にあるマイクロホンで実用可能で
ある。このマイクロホンは、単一のマイクロホンや複数
のマイクロホン（マイクロホンアレイ）、指向性・無指
向性マイクロホンなど、マイクロホンとして使えるもの
から構成できるものとする。

【００１６】マイクロホンから取り込まれた音声信号は
信号処理部202で後段の処理に必要な形式に処理され
る。この処理は例えば音声信号のMPEGによる圧縮や、音
声認識で用いられるケプストラム特徴に変換する処理な
どが考えられる。なお、この信号処理部202はその他に
も音声入力装置の用途に応じて適当な処理を実行できる
ように構成できるものとする。

【００１７】また、この信号処理部202では次に説明す
る中央処理部203からの命令を受けて情報表出部206に伝
える形式に変換する機能も含まれている。さらに、この
情報表出部206では中央処理部203からのユーザに伝える
メッセージ内容から音声合成を行って合成音の信号に変
換している。

【００１８】なお、その他にも、ディスプレイ表示のた
めの表示内容に変換したりする処理や情報表出部206に
おけるデバイスや、音声入力装置の用途に応じて処理を
実行できるように構成することも可能である。

【００１９】ただし、このマイクロホンからの音声信号
の処理と情報表出部206へ送る情報についての処理は同
一処理機構で行うか否かは問わないものとする。すなわ
ち上記の処理を行う機構を総称して信号処理部202とす
る。

【００２０】また、信号処理部202の入力としてマイク
ロホン以外のセンサ・デバイスも考えられる。例えばカ
メラからの動画像や触覚センサ、スイッチ等が挙げられ
る。その他のセンサ・デバイスからの入力も、音声入力
装置の用途に応じて処理できるような信号処理部を構成
できるものとする。これについては後述する。

【００２１】中央処理部203では音声入力装置全体の処
理を制御する。この中央処理部203が音声入力装置の状
態を管理し、必要に応じて各処理機構に命令を送る。信
号処理部202からの情報やネットワーク接続部205からの
情報、そして記憶部204の情報を元に制御内容を決める
ことができる。また、他の音声入力装置に対して制御情
報を送出する。本発明の音声入力システムとして音声を
どう処理するかについては後述する。

【００２２】記憶部204では中央処理部203で行う処理の
プログラムやその作業領域、信号処理部202からの情報
やネットワーク接続部205からの情報を保持しておく機
構である。なお、この記憶部204は信号処理部202におけ
る情報記憶用やネットワーク接続部からの情報記憶用と
いったように回路的には別のものであっても構わないと
する。

【００２３】すなわち、音声入力装置における情報保持
機構を総称して記憶部204と呼ぶことにする。この記憶
部204は半導体メモリや磁気ディスクなどの機構で実現
可能であり、データを保持できる任意の機構で構成可能
なものであるが、この実施の形態では半導体メモリが使
用されている。

【００２４】記憶部204の使われ方や記憶される情報に
ついては中央処理部203の処理の説明と共に後述する。

【００２５】ネットワーク接続部205はネットワーク21
を通して音声入力装置間の情報の授受を行うための機構
であり、LANでのネットワーク接続やブルートゥースと
いった無線技術といった機器間通信技術によって実現で
きるものとし、ここではLANでのネットワーク接続を用
いている。

【００２６】また、以上のような音声入力装置の機構の
それぞれ、もしくは全てが、他の機能を持つシステムの
ものと機構を共有しても構わないとする。例えばビデオ
・システムのようなオーディオ・ヴィジュアル機器に音
声入力装置が含まれている場合に、共通の信号処理回路
を使ってお互いの機能を実現したり、同じ中央処理回路
を用いて音声入力装置やビデオ・システムの機能の制御
を行ったりすることが考えられる。

【００２７】他にも共通の機構で音声入力装置と他のシ
ステムの機能を実現する例が考えられるが詳細は省略す
る。

【００２８】さらに、回路的な機構として音声入力装置
やその他のシステムが別々にあるのでなく、共通の回路
でありながら、プログラム的なプロセスとして別のシス
テムとして制御できる場合も上記に含まれているものと
する。

【００２９】次に中央処理部203が信号処理部202からの
音声信号やネットワーク接続部205からの情報、記憶部2
04で保持されている情報をもとにして音声をどのように
処理するかについて図3を用いて説明する。図3では図2
のビデオ26に搭載された音声入力装置20-1（以下音声入
力装置Ａとする）とエアコン27に搭載された音声入力装
置20-3（以下音声入力装置Ｂとする）に対して音声が入
力される例を示している。さらに、現在ユーザが音声入
力装置Ｂに対して対話処理を行い、音声入力装置Ａは待
機中の状態を示している。

【００３０】まず、ユーザが音声入力装置Ａ及び音声入
力装置Ｂに対して発声すると（step301）、各音声入力
装置の信号処理部202ではマイクロホン201で取り込まれ
たユーザからの発声を検知し、信号処理される（step30
2）。

【００３１】ここで、音声入力装置Ｂは既にユーザと対
話処理を行っているので、音声入力装置Ｂ自身が対話処
理中であって他のシステムの状態が対話状態でないとな
れば、音声入力装置Ｂがユーザの発声した内容に対する
処理を行う選択をする。（step303）次に、音声入力装置Ｂの中央処理部202は音声入力装置
の機能にあわせて取り込まれた音声の処理を行い、音声
の内容にしたがって機器を操作し、対話終了後再び待機
状態になる（step304）。

【００３２】逆に音声入力装置Ａでは、音声入力装置Ｂ
がユーザとの対話状態であるので、信号処理された後
（step302）、それ以上の処理を行わない（step305）と
し、待機状態になる。

【００３３】こうすることで、ユーザの発声が複数の音
声入力装置で検知されてしまうような場合でも、ユーザ
が現在発声対象としている音声入力装置に対してのみ、
楽にアクセスできるようにすることを可能とする。また
上記ではユーザが複数の音声入力装置に対して発声する
とした例を挙げたが、ユーザは意図的に複数の音声入力
装置に検知されるように音声を発声する必要はなく、こ
のことは以降の実施例でも同様である。

【００３４】また、他の音声入力装置が対話状態でなけ
れば処理を行うといった条件付けは、上記以外の条件に
ついてユーザが任意に、もしくは音声入力装置が設定と
して定めることができるものとする。

【００３５】また、ここでの対話は人間とシステムの一
対一による音声のやり取りに限定したものではなく、人
間からシステムへの一方的な音声発声やシステム側から
視覚的な応答を返す場合、あるいはシステムから任意の
人間に応答する場合を含んでも構わないものとし、以降
の説明で用いられる対話についても同様である。

【００３６】また、音声入力装置にはあるルールに基づ
いた順序関係があり、その順序関係に基づいて取り込ま
れた音声情報に対する処理を決めることもできる。ルー
ルの具体例としては、音声入力装置の処理能力・ユーザ
による設定・使用頻度・音声入力装置の機能に基づく設
定値・マイクロホン以外からのセンサの情報や、これら
の組み合わせ等が挙げられる。

【００３７】次に上記の音声入力装置の機能による順位
付けの例を図４を用いて説明する。

【００３８】音声入力装置が搭載している機器としてウ
ェアラブル・コンピューター（以下音声入力装置Ｃとす
る）と音声入力装置が搭載している機器としてビデオ・
システム（以下音声入力装置Ｄとする）があり、前者の
方が特定ユーザ向けなので順位が高く、ビデオ・システ
ムは不特定のユーザが使い得るので順位が低いものとす
る。

【００３９】このときユーザは音声入力装置Ｃ及び音声
入力装置Ｄに対して発声し（step401）、それぞれの音
声入力装置は信号処理部202においてマイクロホン201で
取り込まれたユーザからの発声を検知した場合に、自音
声入力装置の順位を送信しあう（step402）。

【００４０】次に、他の音声入力装置の順位と比較し、
順位の高い音声入力装置Ｃがそのユーザの発声を処理す
る（step403）。

【００４１】順位の低い音声入力装置Ｄは処理は行わず
（step404）、待機中のままになる。

【００４２】上記の例では順位情報を送信しているが、
送信情報に順位以外の情報があっても構わないし、発声
を検知してからでなく前もって情報のやり取りをしてお
く、あるいはプリセットの順位情報をもとに自音声入力
装置で処理するかの判断を行っても構わないとする。

【００４３】上記のような実施例によって、例えば音声
入力装置を搭載する機器として火災報知器や緊急警報器
のような非常用機器は他のどんな機器よりも順位が高
く、例えば「助けて」という発声に対していかに通常機
器で音声命令として登録していてもまずは非常用機器に
対する音声入力が優先されるということも可能となる。

【００４４】また、音声入力装置内に時間を処理する機
構を設けて、それによって処理の判断の参考にすること
もできる。図5で例を挙げて説明する。

【００４５】図5ではビデオに搭載された音声入力装置
（以下音声入力装置Ｅとする）とエアコンに搭載された
音声入力装置（以下音声入力装置Ｆとする）に対して音
声が入力される例を示しており、音声入力装置Ｅは音声
入力装置Ｆよりユーザに近い位置に設置している。

【００４６】このときユーザは音声入力装置Ｅ及び音声
入力装置Ｆに対して発声し（step501）、それぞれの音
声入力装置は信号処理部202においてマイクロホン201で
取り込まれたユーザからの発声を検知した場合に、自音
声入力装置の発声検知時間を送信しあう（step502）。

【００４７】次に、音声を検知した他の音声入力装置か
らの検知時間と自音声入力装置の検知時間を比較し、自
音声入力装置が最も早かった場合は音声を処理し（step
503）、そうでなければ当該音声を処理しないという判
断をする（step504）ことで、ユーザが指定しなくとも
ユーザに最も近い音声入力装置が音声の処理を行えるよ
うになる。

【００４８】また、音声検知時間がもっとも長かった音
声入力装置がユーザの発声を最初から最後まで検知でき
たとみなして、その音声入力装置が当該音声の処理を行
うといったように音声検出の早さ以外の時間情報を判断
基準とすることもできる。

【００４９】また、ユーザの発声の音量をマイクロホン
から取り込まれた音声から計測し、処理の判断の参考に
することもできる。音量情報を利用した本発明の例とし
て図6を用いて説明する。

【００５０】ここでは上述した音声入力装置Ｅと音声入
力装置Ｆがある場合に、ユーザは音声入力装置Ｅ及び音
声入力装置Ｆに対して発声し（step601）、それぞれの
音声入力装置は信号処理部202においてマイクロホン201
で取り込まれたユーザからの発声を検知した場合に、音
量情報を送信しあう（step602）。すなわち、ユーザの
発声の音量をマイクロホンから取り込まれた音声から計
測し、ネットワーク上の他の音声入力装置に伝える。

【００５１】次に、音声を検知した他の音声入力装置か
らの音量情報と自音声入力装置の音量情報を比較し、自
音声入力装置が最も大きかった場合は音声を処理し（st
ep603）、そうでなければ当該音声を処理しないという
判断をする（step604）ことで、ユーザが指定しなくと
もユーザに最も近い音声入力装置が音声の処理を行う、
もしくは元の発声を最もよく収録した音声で処理を行え
るようになる。この音量情報としては音圧レベルや音響
パワーレベル、あるいはphonやsoneなどの単位が挙げら
れる。

【００５２】また、周囲の雑音に対するユーザの発声の
信号対雑音比をマイクロホンから取り込まれた音声から
計算して、処理の判断の参考にすることもできる。信号
対雑音比を利用した本発明の例として図7を用いて説明
する。

【００５３】図7ではビデオに搭載された音声入力装置
（以下音声入力装置Ｇとする）とエアコンに搭載された
音声入力装置（以下音声入力装置Ｈとする）に対して音
声が入力される例を示しており、騒音源があり、音声入
力装置Ｇは音声入力装置Ｈより騒音源が遠い位置にある
ものとする。

【００５４】始めに、各音声入力装置は常時音声を取り
込んで周囲の雑音の情報を計測しておく（step701）。

【００５５】次に、ユーザは音声入力装置G及び音声入
力装置Hに対して発声し（step702）、それぞれの音声入
力装置は信号処理部202においてマイクロホン201で取り
込まれたユーザからの発声を検知し、ユーザの発声をマ
イクロホンから取り込んだときに雑音情報をもとに信号
対雑音比を計算し、ネットワーク上の他の音声入力装置
に伝える（step703）。

【００５６】次に、音声を検知した他の音声入力装置か
らの信号対雑音比情報と自音声入力装置の信号対雑音比
情報を比較し、自音声入力装置が最も大きかった場合は
音声を処理し（step704）、そうでなければ当該音声を
処理しないという判断をする（step705）。

【００５７】これにより、ユーザが指定しなくともユー
ザに最も近い音声入力装置が音声の処理を行う、もしく
は元の発声を最もよく収録した音声で処理を行えるよう
になる。ここでの例では、無発声中でも常時周囲音を取
り込んで雑音を計算する例を挙げたが、他にも例えば発
声を検知してから発声中の無音区間をもとに雑音を推定
してもよい。

【００５８】また、記憶部に使用状況に関する過去の履
歴を保持しておき、それを処理の判断に利用することも
できる。過去の履歴を利用した本発明の例について図8
を用いて説明する。

【００５９】図8ではビデオに搭載された音声入力装置
（以下音声入力装置Ｉとする）とエアコンに搭載された
音声入力装置（以下音声入力装置Ｊとする）に対して音
声が入力される例を示しており、音声入力装置Ｉは音声
入力装置Ｊより使用頻度が高いもとする。

【００６０】始めに、ユーザが両方の音声入力装置に対
して発声（step801）し、この発声に対して最近の使用
時間・使用回数等をネットワーク経由で他の音声入力装
置に伝える（step802）。

【００６１】一方、音声入力装置Ｉでは音声入力装置Ｊ
の使用履歴と比較して、音声入力装置Ｉが最もよく使わ
れているなら音声の処理を行うよう判断する（step80
3）ことでユーザがわざわざ指定しなくてもよく使われ
ている音声入力装置Ｉを利用できるようになる。

【００６２】また、他方、音声入力装置Ｊでは音声入力
装置Ｉの使用履歴と比較して、音声入力装置Ｊがあまり
使われていないなら音声の処理は行わず（step804）、
待機中のままになる。

【００６３】また、音声認識をする手段を備えその認識
結果を利用して取り込まれた音声の処理を判断すること
もできる。信号処理部からの情報は音声認識を行う機構
で処理されその結果が中央処理部に渡される。このとき
行われる音声認識は、演算処理を中央処理部で扱っても
構わない。

【００６４】また音声認識に使われる手法は混合正規分
布をモデルに使ったHMMやDPマッチングのような一般に
現実化されている手法で構わないとし、このとき使われ
るHMMや言語モデルは記憶部にあっても構わないとす
る。音声認識の語彙は音声入力装置毎に異なっていても
共通化されていても構わないとする。さらにその語彙に
制御命令を対応させることで音声コマンドを可能にする
こともできる。この音声認識を利用した本発明の例につ
いて図9で説明する。

【００６５】図9ではビデオに搭載された音声入力装置
（以下音声入力装置Ｋとする）とエアコンに搭載された
音声入力装置（以下音声入力装置Ｌとする）に対して音
声が入力される例を示している。

【００６６】始めに、各音声入力装置に対してユーザか
らの音声入力装置Ｋに関連する「再生」という発声があ
った（step901）場合に、各音声入力装置はその音声の
検知と音声認識を行う（step902）。

【００６７】その音声認識した結果を中央処理部は受け
取り、認識結果から自音声入力装置に対する発声か否か
を判断し（step903）、その判断結果と認識結果をネッ
トワーク経由で他の音声入力装置に伝える（step90
4）。

【００６８】一方、他の音声入力装置の判断結果と認識
結果をみて、音声入力装置Ｋでは自音声入力装置への発
声と判断（step905）できたら当該音声に対する処理を
行うことで、ユーザが特に指定しなくても発声対象の音
声入力装置を使うことができるようになる。

【００６９】他方、音声入力装置Ｌでは自音声入力装置
への発声と判断しない（step906）ので、待機中のまま
である。

【００７０】また、音源の識別を行う手段を備え、その
識別結果を利用して音声の処理を判断することもでき
る。音源の種類としては人間、機械、動物など使用目的
に応じて考えられるが、以降では例として人間の発声を
音声とした場合について説明する。信号処理部からのユ
ーザの音声情報に対して話者識別を行い、その結果を中
央処理部に伝える。この話者識別を行う方法は話者毎に
学習または適応されたHMMに対する尤度から判断するも
のや、性別や年齢層毎のモデルで最も近いカテゴリーを
選ぶものなど、個人あるいは話者の特性（例えば性別や
年齢層など）を識別できる手法ならば構わないものとす
る。

【００７１】この話者識別を使った本発明の例を次の図
10を用いて説明する。

【００７２】図10ではビデオに搭載された音声入力装置
（以下音声入力装置Ｍとする）とエアコンに搭載された
音声入力装置（以下音声入力装置Ｎとする）に対して音
声が入力され、あるユーザは片方の音声入力装置Mでの
み音声の処理が可能である場合の例を示している。

【００７３】始めに、各音声入力装置に対してユーザか
らの発声があった（step1001）場合に、ユーザの発声を
検知した音声入力装置は話者識別を行い（step1002）、
自音声入力装置で処理すべき発声か否か判断（step100
3）をして、その判断結果と話者識別結果をネットワー
ク経由で他の音声入力装置に伝える（step1004）。

【００７４】そして自音声入力装置と他の音声入力装置
における判断結果と話者認識結果をみて、自音声入力装
置への発声と判断（step1005）できたら当該音声に対す
る処理を行い、逆に他方の音声入力装置Nは自音声入力
装置への発声ではないと判断（step1006）できたら処理
を行わないとすることで、ある音声入力装置が特定のユ
ーザに利用可能である場合に、ユーザが特に指定しなく
ても発声対象の音声入力装置を使うことができるように
なる。

【００７５】また、話者識別の信頼性が低い場合や複数
話者が候補となった場合に、システム側からさらに暗証
番号や定型句あるいは自由発声を促してさらにデータを
得ることによって識別精度を上げてから話者識別以降の
処理をおこなってもよい。

【００７６】また、ここでは人物の話者認識について述
べているが、前記のように故障者や動物の音に応じて識
別とその後の処理を行うことも可能である。

【００７７】また、音声入力装置やネットワーク上の他
の機器と共通の命令を持ち、お互いに許された範囲で制
御することもできる。こうすることで、他の音声入力装
置の働きを抑制したり、音声入力装置同士の互換性をよ
くしたりすることができる。

【００７８】この例を図11で説明する。

【００７９】例えばネットワーク1102に接続されている
全ての音声入力装置1101が「電源ON」「電源OFF」「省
電力」といった共通の電源管理命令を持っているとき
に、ネットワーク1102に繋がっているパーナルコンピュ
ータ1103から一度に複数システムも含めた任意の音声入
力装置1101の電源を操作する命令をネットワーク経由で
送信し、各音声入力装置がその命令を実行することが出
来る。

【００８０】また、音声入力装置やネットワーク上の他
の機器と共通の音声による制御命令と、入力された音声
とその命令をマッチングする手段を備えることで、より
平易で確実な音声による制御命令の実行を可能とする。
この例について図12のフロー図を用いて説明する。

【００８１】図12の例では音声入力装置を有しているビ
デオ（音声入力装置Ｏ）と音声入力装置を有しているエ
アコン（音声入力装置Ｐ）があったときに、ユーザが
「ビデオ」「エアコン」と命令対象の名称を発声した後
で、「電源ON」「電源OFF」といったように共通の動作
について共通化された命令を発声する。

【００８２】ここで、ユーザから「ビデオ」「電源ON」
という発声があった場合（step1201）、音声入力装置Ｏ
及び音声入力装置Ｐは前述の音声認識で使われるマッチ
ング手段で機器名称と機器命令を認識（step1202）し、
自身のシステムへの命令か、処理可能かについて判断す
る（step1203）。

【００８３】その結果をネットワーク上の他の音声入力
装置や制御可能機器にその結果を伝達（step1204）し、
その結果と他の音声入力装置からの結果から自音声入力
装置が処理すべき発声か判断（step1205）してその制御
命令に対応した処理を行うことができる。

【００８４】共通化された命令に対して複数の音声入力
装置から得られた結果を使うことが、これまでの音声に
よるリモコンや音声によって命令する機器とは異なる点
である。

【００８５】また、ネットワーク上に音声による制御可
能機器が複数ある場合に、記憶部でその制御命令の全て
または一部に関する情報を記憶できるような仕組みと、
入力された音声とそれらの命令をマッチングさせる手段
を備えることで、より平易で確実な音声による制御命令
の実行が可能となる。

【００８６】この例を次の図13、図14を用いて説明す
る。ネットワーク上に音声入力装置で制御可能なビデオ
（音声入力装置Ｑ）とエアコン（音声入力装置Ｒ）があ
るとして、音声命令について音声入力装置Ｑが「再生」
「停止」、音声入力装置Ｒが「温度あげて」「温度さげ
て」等であった場合に、ネットワーク上のそれぞれの音
声入力装置では認識単語と対象機器を関連付けて記憶で
きるようになっているとする。

【００８７】図13はこの認識単語と対象機器、そして処
理内容を結びつける概念を表している。この図13のよう
な認識単語と処理内容との結びつけは、単純な表引きや
オブジェクト指向や高次の知識処理によって実現できる
ものとし、ここではその詳細は省略する。

【００８８】図14のフロー図に示すようにユーザが「ビ
デオ」「再生」と発声した場合（step1401）、音声入力
装置Ｑと音声入力装置Ｒは発声の検知と認識を行う（st
ep1402）。

【００８９】さらに、図13に示した概念を用いて発声内
容を判断し（step1403）、その結果をネットワーク上の
他の音声入力装置に伝達し（step1404）、その結果と他
の音声入力装置から送られてきた結果をもとに自音声入
力装置が処理すべき発声だったかを判断して（step140
5）、その制御命令に対応した処理を行う。

【００９０】上述の「ビデオ」「再生」の場合、図13の
ような認識単語と対象機器、処理内容の結びつきによっ
てどちらの音声入力装置も発声がビデオに対して再生の
命令であったと判断できる。さらにネットワーク経由で
送信しあった情報により、発声が一意に解釈でき、音声
入力装置は認識結果に対応する処理内容を行うことが出
来る。

【００９１】またこれまでの音声認識を用いた例では基
本的に単語認識による例を挙げてきたが、ワードスポッ
ティングや連続音声認識の技術を使っても、各音声入力
装置での音声認識のスペックに差があっても、図１３の
ような認識結果と処理内容の対応づけの概念がされれば
構わないとする。

【００９２】また、上述の図14で示した例については、
音声入力装置以外のネットワークに接続された制御対象
機器についても処理できるものとする。その例について
図15を用いて説明する。

【００９３】図15に示すように音声入力装置のついたエ
アコン1501と単体の音声入力装置1502及びビデオ1503が
ネットワーク1504に接続されており、ここでユーザがビ
デオ1503を操作する発声をする。

【００９４】この音声入力装置は図14のフロー図に示す
流れで音声の検知及び認識を行い、図13のような概念で
認識結果と処理内容を結びつける。そして認識結果と処
理内容の判断をしてからネットワーク1504上の他のシス
テムに送信する。

【００９５】その結果、ビデオ1503は認識結果に応じた
処理内容を受け、発声を実行することができる。よって
ビデオ1503自体に音声入力装置がなくても自分が制御可
能な情報についてネットワークに情報を流し、各音声入
力装置に図13のような認識結果と処理内容の概念をつく
ることで音声による制御が可能となる。

【００９６】図12から図15までで説明した音声認識を用
いた本発明の例については、これまでブロードキャスト
方式で音声認識と判断の結果をネットワークの全てのシ
ステムに送信する例を挙げてきたが、認識結果によって
直接その対象機器にのみ認識結果と判断の結果を伝えて
もよいものとする。

【００９７】また、音声入力装置において、マイクロホ
ンによる音声入力以外のセンサがある場合に、そのセン
サ情報を利用して検知した音声の処理内容を判断するこ
ともできる。この例について、図16を用いて説明する。

【００９８】図16に示すように音声入力装置を有したエ
アコン1601と単体の音声入力装置1602がネットワーク16
03に接続されている。また、この単体の音声入力装置に
はカメラを有しておりカメラから周辺の画像情報を取り
入れることができる。なお、このカメラの入力は図2の
信号処理部202に入力され画像処理される。

【００９９】この音声入力システムにおいて、ユーザが
エアコン1601の音声入力装置に対して発声する。ここ
で、単体の音声入力装置1602に付いているカメラにより
話者がどの方向を向いているかを推定する。なお、この
話者がどの音声入力装置を向いているかについては、画
像から人間を抽出する技術、顔部分を推定してその向き
を推定する技術、口の動きから検知した発声がどの人間
からのものか推定する技術等の組み合わせで実現できる
ものとするが、ここでは詳細は省略する。

【０１００】推定された話者の顔向きから話者がエアコ
ン1601の方を向いていると判断すると、発声の対象機器
をエアコンと判断して、各音声入力装置は結果をネット
ワーク1603で他の音声入力装置に通知し、これまで述べ
てきた例のように処理を判断する。

【０１０１】ここではカメラを使った画像情報を利用し
た例を挙げたが、スイッチ等の直接的なセンサ・デバイ
スや音源定位のためのマイクロホンアレイなどが考えら
れるが、どのような計測技術を使うかは限定しない。

【０１０２】また、図2の音声入力装置の構成で述べた
ようにマイクロホン201、情報表出部206、信号処理部20
2、中央処理部203、記憶部204、ネットワーク接続部205
は音声入力装置においてそれぞれその働きをするものの
総称であるので、ネットワークを通した形や直接接続さ
れた形でそれぞれが物理的に複数に分かれていても構わ
ないとする。この例を図17で説明する。

【０１０３】図17に示すように音声入力装置は物理的に
は2つの音声入力装置（1701、1702）に分かれていても
ネットワーク1703で接続されており適切な情報のやり取
りが出来るものとする。このときユーザの発声に対し
て、2つの音声入力装置（1701、1702）で一つの音声入
力装置として働くことが出来る。

【０１０４】また、これまで述べたような音声入力装置
に対する判断の基準は、他の音声入力装置の情報やユー
ザの設定によって変えられるものとする。例えば、音声
入力装置は音声を検知したときの検知や認識結果等の情
報以外に、一定時間ごとに他の音声処理システムの処理
状態、処理性能、認識可能語彙やそれに対する処理内容
をやり取りして、自音声入力装置の記憶部に蓄えておけ
るとする。

【０１０５】そのような情報を利用して、現在はある音
声入力装置は処理出来ないから自音声入力装置で処理可
能な場合は代わって処理するとか、自音声入力装置より
性能のいい音声入力装置の認識結果を自分の結果より重
視することで認識誤りを補正するとか、ユーザが自分の
好みに合わせて上述のような判断の制御を可能とするこ
とが出来る。

【０１０６】また、これまで述べたような音声入力装置
に対する入力の判断の手段は、上述のものを組み合わせ
ても構わないとする。例えば、検知時間が早い音声入力
装置が発声を扱うとするが、ある許容時間内では時間差
がないものとし、同じ時間の場合は音量で判断すると
か、音声認識の尤度と音声入力装置の順位を重み付けし
て最もスコアの高い音声入力装置で音声を扱うなどが考
えられる。

【０１０７】また、上述のような判断の手段の組み合わ
せにより得られた情報を利用して高次のエージェントシ
ステムや知識処理システムで判断する場合も考えられ
る。

【０１０８】また、これまで述べたような音声入力装置
における処理の判断の手段は、ネットワーク上の音声入
力装置間で同一であることを必須とはしないものとす
る。例えば音声入力装置が2つあり、一つは音声の検知
時間のみで、他方は音量情報のみで判断する場合には、
音声を検知したあとに相互に授受する情報は必ずしも対
応は取れないが、各々の音声入力装置でその場合におけ
る処理を装置の目的に応じて設定しておけば、音声入力
システムとして処理が破綻せずに各々の音声入力装置で
処理の判断が可能である。また、上述のような音声入力
装置の判断の手段が各々の音声入力装置において異なっ
ている場合に、ネットワークを通して授受した情報をも
とに音声入力装置より高次のエージェントシステムや知
識処理システムで処理を判断する場合も考えられる。

【０１０９】また、これまで述べたような音声入力装置
に対する入力の判断において、音声検知時間や音量とい
った発声に関する情報や、音声認識結果や識別結果とい
った情報から、ユーザがどの機器に対してどのような音
声入力を行ったのかが一意には判断できなかった場合
は、音声入力装置の一つがユーザと対話処理を行って決
定したり、マイクロホン以外のセンサ情報といった他の
条件を使って決定したりすることもできる。

【０１１０】次に、これまで述べたような音声入力装置
において先に説明した図2の情報表出部206とこれまでの
説明の補足となる例を次の図18を用いて説明する。

【０１１１】図18に示すように音声入力装置を有したエ
アコン1801、単体の音声入力装置1802及び音声入力装置
を有したビデオ1803がネットワーク1804に接続されてい
る。また、これらの音声入力装置は図2の情報表出部206
を有している。

【０１１２】この音声入力システムでは前述したよう
に、待機中に各音声入力装置は自音声入力装置の情報、
すなわち認識語彙、処理内容やここでは特に情報表出部
の有無と表現可能なメディアの情報をやり取りして記憶
部に保存してあるものとする。

【０１１３】この例での各音声入力装置の情報表出部は
全てスピーカを備え、中央処理部と信号処理部によって
合成された任意文の音声をユーザに返すことができると
する。そしてその情報表出部への制御命令の一部は音声
入力装置で共通化されているとする。つまりある音声入
力装置が自分の情報表出部からユーザに応答を返す代わ
りに、ネットワーク上の別な音声入力装置の情報表出部
からユーザへの応答を可能とする。

【０１１４】ここでユーザから「ビデオ」「再生」とい
う発声があったときに、エアコンに接続された音声入力
装置と単体の音声入力装置がその音声を検知したとす
る。なお、ユーザの位置は単体の音声入力装置に一番近
いところにあるとする。

【０１１５】これまで述べてきたような手順により両音
声入力装置は音声の検知、認識、自音声入力装置への命
令か判断して、結局「ビデオ」への「再生命令」と判断
し、それぞれネットワーク上の他の音声入力装置へ伝え
る。ビデオに接続された音声入力装置は直接音声を検知
しないが、ネットワーク上の別な音声入力装置からの情
報を受け、自音声入力装置への命令と解釈して、再生命
令がされた場合の処理を実行する。

【０１１６】またこのとき、単体の音声入力装置の方が
ユーザに近いため、ネットワーク上に送られた音量や信
号対雑音比の情報で判断したときに、ビデオに接続され
た音声入力装置よりも単体の音声入力装置の方が音声処
理に適していることを各音声入力装置は判断できる。

【０１１７】よって、単体の音声入力装置とビデオの音
声入力装置はそれぞれ単体の音声入力装置がユーザとの
音声の授受を行う音声入力装置と判断できる。

【０１１８】再生命令を受けたビデオの音声入力装置
は、ビデオに対して再生の制御命令を送る一方、再生を
始めたことをユーザに伝えるために、「再生を開始しま
した」という合成音声を単体の音声入力装置からユーザ
に返すよう命令を生成して、ネットワークを介して単体
の音声入力装置へ伝える。このときビデオの音声入力装
置から送信される制御命令はこれまでのネットワークへ
の情報送信と同様に単体の音声入力装置一つへ直接送信
してもよいし、単体の音声入力装置への命令という情報
を含んだ形で、ブロードキャスト形式で全ての音声入力
装置へ伝えられてもよい。

【０１１９】このようにしてビデオの音声入力装置から
送られたユーザへの応答命令を解釈して、単体の音声入
力装置は合成音声で「再生を開始しました」というメッ
セージをユーザに伝えることができる。

【０１２０】また、この処理を通して単体の音声入力装
置とビデオの音声入力装置は、ユーザと対話処理中であ
るというフラグを一定時間立てることで、ユーザの次の
発声を優先的に処理し、エアコンの音声入力装置で処理
しなくてもよいように出来るという例については既に述
べてある。

【０１２１】次に、これまで述べてきたような音声入力
装置において音声入力装置が何らかの基準でグループ化
されている場合の例について図19を用いて説明する。

【０１２２】この例では音声入力装置の場所を基準とし
グループ「キッチン」1901、グループ「ウェアラブル」
1902、グループ「リビング」1903のグループは全てネッ
トワーク1904で接続されている。また、それぞれのグル
ープ内に音声入力装置があり、これらの各グループ内に
おけるそれぞれの音声入力装置は他グループを同定でき
る情報を持っているものとする。

【０１２３】ただし、自グループの他の音声入力装置に
関して記憶部が持つ情報と、他グループに関してもつ情
報の種類は必ずしも同一でなくてよい。具体的にはここ
では他グループにおける各々の音声入力装置の認識語彙
やそれに対応する対象機器や処理内容の情報までは持た
ないとする。

【０１２４】ここでユーザが「リビング」「ビデオ」「再
生」と発声し、それがグループ「キッチン」とグループ
「ウェアラブル」の音声入力装置で検知されたとする。
これまで述べてきた例と同様に、検知した音声入力装置
で認識と自音声入力装置で処理すべきか判断した結果、
自グループへの発声でなくグループ「リビング」への発
声と判断し、その音声情報や判断結果をグループ「リビ
ング」の音声入力装置へ伝える。

【０１２５】このとき基本的に同定できたグループにの
み情報を送ることで、多くの音声入力装置がネットワー
クに接続されたときに必要な音声入力装置のみが情報の
やり取りをできるようになることがグループ化すること
の利点である。

【０１２６】したがって、グループ「リビング」の音声
入力装置は自グループ宛の音声に関する情報を受け取る
ことで自グループ内の「ビデオ」に対する「再生」の命
令と判断してそれに対応する処理をすることができる。
なお、本発明は音声入力プログラムに適用することも言
うまでもない。

【０１２７】

【発明の効果】以上説明したように、本発明はユーザの
発声に対して他の音声入力装置からの情報を利用するこ
とで、ユーザに負担をかけずに音声に対する処理を決定
することができる。

【図面の簡単な説明】

【図1】本発明の一実施形態に係る音声入力システムの
構成を示す図。

【図2】本発明の一実施形態に係る音声入力システムを
構成する音声入力装置を示す図。

【図3】本発明の一実施形態に係る音声入力システムの
動作を示すフロー図。

【図4】本発明の一実施形態に係る音声入力システムの
他の動作を示すフロー図。

【図５】本発明の一実施形態に係る音声入力システムの
他の動作を示すフロー図。

【図６】本発明の一実施形態に係る音声入力システムの
他の動作を示すフロー図。

【図７】本発明の一実施形態に係る音声入力システムの
他の動作を示すフロー図。

【図８】本発明の一実施形態に係る音声入力システムの
他の動作を示すフロー図。

【図９】本発明の一実施形態に係る音声入力システムの
他の動作を示すフロー図。

【図１０】本発明の一実施形態に係る音声入力システム
の他の動作を示すフロー図。

【図１１】本発明の一実施形態に係る他の音声入力シス
テムの構成を示す図。

【図１２】本発明の一実施形態に係る音声入力システム
の他の動作を示すフロー図。

【図１３】本発明の一実施形態に係る音声入力システム
に係り、認識単語、対象機器、処理内容を結びつける概
念を示す図。

【図１４】本発明の一実施形態に係る音声入力システム
の他の動作を示すフロー図。

【図１５】本発明の一実施形態に係る他の音声入力シス
テムの構成を示す図。

【図１６】本発明の一実施形態に係る他の音声入力シス
テムの構成を示す図。

【図１７】本発明の一実施形態に係る他の音声入力シス
テムの構成を示す図。

【図１８】本発明の一実施形態に係る他の音声入力シス
テムの構成を示す図。

【図１９】本発明の一実施形態に係る他の音声入力シス
テムの構成を示す図。

【符号の説明】

101・・・音声入力装置 102・・・音声入力装置 103・・・機器 104・・・ネットワーク 201・・・マイクロホン 202・・・信号処理部 203・・・中央処理部 204・・・記憶部 205・・・ネットワーク接続部 206・・・情報表出部

Claims

【特許請求の範囲】

【請求項１】複数の音声入力装置がネットワークに接続
され、前記ネットワークに接続された各々の音声入力装
置において入力される音声情報をそれぞれ検知し、前記
ネットワークに接続された各々の音声入力装置で前記検
知した前記音声に関する情報を判断情報として前記ネッ
トワークを介して他の音声入力装置に授受し、前記ネッ
トワークに接続された各々の音声入力装置が自音声入力
装置と他の音声入力装置における前記判断情報をもとに
前記音声情報に対する処理の決定及び実行の判断を行う
ことを特徴とする音声入力システム。
【請求項２】前記ネットワークに接続された複数の音声
入力装置は所定のルールに基づいて順位関係を構成し、
前記ネットワークに接続された各々の音声入力装置は自
音声入力装置と他の音声入力装置における前記順位情報
を前記判断情報として前記音声情報に対する処理の決定
及び実行の判断を行うことを特徴とする請求項１記載の
音声入力システム。
【請求項３】前記ネットワーク上に接続された複数の音
声入力装置は所定のルールに基づいて複数にグループ化
され、前記グループに関する情報を記憶する領域を備
え、前記グループに関する記憶領域は、ネットワークに
接続された音声入力装置に関する記憶領域と関連付けて
作業を行う仕組みを備え、取り込まれた音声情報に対し
て前記グループに関する記憶領域の情報を前記判断情報
として前記音声情報に対する処理の決定及び実行の判断
を行うことを特徴とする請求項１記載の音声入力システ
ム。
【請求項４】前記ネットワークに接続された複数の音声
入力装置は共通の時間情報を持ち、前記ネットワークに
接続された各々の音声入力装置で前記音声情報を検知し
たらその検知時間情報を他の音声入力装置に伝え、前記
ネットワークに接続された各々の音声入力装置は自音声
入力装置と他の音声入力装置における前記検知時間情報
を前記判断情報として前記音声情報に対する処理の決定
及び実行の判断を行うことを特徴とする請求項１記載の
音声入力システム。
【請求項５】前記ネットワークに接続された複数の音声
入力装置は前記入力される音声情報の音量について共通
の尺度を備え、前記ネットワークに接続された各々の音
声入力装置で前記音声情報を検知したら前記音量情報を
他の音声入力装置に伝え、前記ネットワークに接続され
た各々の音声入力装置は自音声入力装置と他の音声入力
装置における前記音量情報を前記判断情報として前記音
声情報に対する処理の決定及び実行の判断を行うことを
特徴とする請求項１記載の音声入力システム。
【請求項６】前記ネットワークに接続された複数の音声
入力装置は入力される音声情報の信号対雑音比を推定す
る手段を備え、前記ネットワークに接続された各々の音
声入力装置で前記音声情報を検知したらその信号対雑音
比情報を他の音声入力システムに伝える手段を備え、前
記ネットワークに接続された各々の音声入力装置は自音
声入力装置と他の音声入力装置における前記信号対雑音
比情報音量情報を前記判断情報として前記音声情報に対
する処理の決定及び実行の判断を行うことを特徴とする
請求項１記載の音声入力システム。
【請求項７】前記ネットワークに接続された複数の音声
入力装置は過去の状態履歴を保存しておく記憶領域を備
え、前記ネットワークに接続された各々の音声入力装置
は前記過去の状態履歴を他の音声入力装置に伝え、前記
ネットワークに接続された各々の音声入力装置は自音声
入力装置と他の音声入力装置における前記過去の状態履
歴を前記判断情報として前記音声情報に対する処理の決
定及び実行の判断を行うことを特徴とする請求項１記載
の音声入力システム。
【請求項８】前記ネットワークに接続された複数の音声
入力装置は音響的な情報や言語的な情報を保存する手段
及び取り込まれた音声情報と前記音響的な情報や言語的
な言語情報を使ってマッチングを行って音声認識をする
手段を備え、前記ネットワークに接続された各々の音声
入力装置は音声情報を検知したら、この音声情報に基づ
く音声認識情報を他の音声入力装置に伝え、前記ネット
ワークに接続された各々の音声入力装置は自音声入力装
置と他の音声入力装置における前記音声認識情報を前記
判断情報として前記音声情報に対する処理の決定及び実
行の判断を行うことを特徴とする請求項１記載の音声入
力システム。
【請求項９】前記ネットワークに接続された複数の音声
入力装置は前記音声情報の音源に関して識別できる手段
とを備え、前記ネットワークに接続された各々の音声入
力装置は音声情報を検知したらその音源に関する情報を
他の音声入力装置に伝え、前記ネットワークに接続され
た各々の音声入力装置は自音声入力装置と他の音声入力
装置における前記音源に関する情報を前記判断情報とし
て前記音声情報に対する処理の決定及び実行の判断を行
うことを特徴とする請求項１記載の音声入力システム。
【請求項１０】前記ネットワークに接続された複数の音
声入力装置は各々の音声入力装置及び他の音声入力装置
を制御できる共通の制御命令体系を備え、取り込まれた
音声に対してネットワーク上の他の音声入力装置へ前記
制御命令を送信及び他の音声入力装置からの前記制御命
令の受信を行って、その命令内容を実行することを特徴
する請求項１記載の音声入力システム。
【請求項１１】前記ネットワークに接続された複数の音
声入力装置は各々の音声入力装置と他の音声入力装置以
外のネットワークで接続された制御可能機器の情報を記
憶する領域を備え、取り込まれた音声情報に対して、前
記他の制御可能機器情報も利用することで、入力音声情
報の処理及び制御可能機器との情報の授受を行うことを
特徴する請求項１記載の音声入力システム。
【請求項１２】前記ネットワークに接続された各々の音
声入力装置には音声入力手段以外のセンサ・デバイス及
びその信号処理手段を備え、取り込まれた音声情報に対
して、前記他のセンサ・デバイス情報を前記判断情報と
して前記音声情報に対する処理の決定及び実行の判断を
行うことを特徴とする請求項１記載の音声入力システ
ム。
【請求項１３】前記ネットワークに接続された前記複数
の音声入力装置は各々の音声入力装置及び他の音声入力
装置の情報をもとに検知した音声情報の処理を判断する
基準を他の音声入力装置の情報を利用して変更する、あ
るいはユーザの設定によって変更することが可能なこと
を特徴とする請求項１記載の音声入力システム。
【請求項１４】前記ネットワークに接続された複数の音
声入力装置は各々のシステムの状態を表示する表出部を
備え、取り込まれた音声情報やシステムがユーザに伝え
たい情報についてどのように表出するかを制御する機能
を備え、処理の決定及び実行と情報の表出を行うことを
特徴する請求項１記載の音声入力システム
【請求項１５】前記ネットワークに接続された複数の音
声入力装置はその一部乃至全ての手段が前記音声入力装
置以外の機能における手段と共有化されていることを特
徴とする請求項１記載の音声入力システム。
【請求項１６】前記ネットワークに接続された複数の音
声入力装置の機能の一部が物理的には分かれていても、
ネットワーク技術による結びつきで一つとして機能する
ことができることを特徴とする請求項１記載の音声入力
システム。
【請求項１７】ネットワークに接続された複数の音声入
力装置において入力される音声情報をそれぞれ検知する
ステップと、前記ネットワークに接続された各々の音声
入力装置で前記検知した前記音声に関する情報を判断情
報として前記ネットワークを介して他の音声入力装置に
授受するステップと、前記ネットワークに接続された各
々の音声入力装置は自音声入力装置と他の音声入力装置
における前記判断情報をもとに前記音声情報に対する処
理の決定及び実行の判断を行うステップとを含むことを
特徴とする音声入力方法。
【請求項１８】ネットワークに接続された複数の音声入
力装置において入力される音声情報をそれぞれ検知し、
前記ネットワークに接続された各々の音声入力装置で前
記検知した前記音声に関する情報を判断情報として前記
ネットワークを介して他の音声入力装置に授受し、前記
ネットワークに接続された各々の音声入力装置は自音声
入力装置と他の音声入力装置における前記判断情報をも
とに前記音声情報に対する処理の決定及び実行の判断を
行う機能を実現することを特徴とする音声入力プログラ
ム。