JP2004212641A

JP2004212641A - 音声入力システム及び音声入力システムを備えた端末装置

Info

Publication number: JP2004212641A
Application number: JP2002382028A
Authority: JP
Inventors: Masahide Arisei; 政秀蟻生
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-12-27
Filing date: 2002-12-27
Publication date: 2004-07-29
Also published as: US20040138877A1

Abstract

【課題】周囲状況に合わせた音声処理を効率よく行えるようにする。
【解決手段】時計機能による時間情報を取得する（３０１）。その時間情報から環境情報を参照し（３０２）、信号処理を行う内容を決定する（３０３）。入力した音声信号（３０４）について、環境情報を用いることで入力音声信号の処理（３０５）を効率よく行い、その処理結果を出力する（３０６）。
【選択図】図４

Description

【０００１】
【発明の属する技術分野】
本発明は、使用状況に合わせて、適切な信号処理を行い、常に好適な音声信号を取得できるようにする音声入力システム及び該システムを備えた端末装置に関する。
【０００２】
【従来の技術】
近年、電子機器回路技術の向上により、ウェアラブル・コンピュータや、個人用携帯情報端末（以下、ＰＤＡ、ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔの略）、ハンドヘルドコンピュータなどの情報処理機器が身近なものとなっている。このような機器では、機器とユーザ間のインタフェースとして音声は重要な役割を果たしている。
【０００３】
以下、音声を電子機器で扱う装置、方式、プログラムの総称を‘音声入力システム’とする。ユーザが電子機器を使用する様々な状況において、適切に音声を処理し、明確な音声信号を取得することが音声入力システムに求められる。
【０００４】
例えば雑踏の中で話された音声を聞き取ることは、現在のコンピュータ技術にとっては難しく（人間同士なら必ずしも難しいことではないが）、様々な状況の中で適切な音声処理（信号処理）を行う必要がある。
【０００５】
例えば、ＰＤＡの操作を音声で行う場合には、静かなオフィス環境で入力される音声と雑踏において入力される音声とでは、入力される音声の特性が異なるため、音声操作を行った場合、静かな環境と雑踏の環境とで同一の音声処理を行ったのでは十分な期待通りの操作性能が得られないことが予想される。
【０００６】
何故なら、周囲が静かな環境とそうでない環境では音声の信号対雑音比（以下、ＳＮ比）が異なることや、ユーザの話し方（囁き声になったり、大声になったり等）が変化するためである。そのため、入力された音声のＳＮ比に合わせて雑音を抑圧したり、音声をフィルタリングして変動を吸収したりするといった、周囲の環境変化に合わせた音声処理が必要になってくる。
【０００７】
このような場合に、従来の解決策としては、一般的には、適応的信号処理によってどんな周囲状況でもある程度対応できるような信号処理を行っているものがある（例えば、非特許文献１参照）。具体的な例としては、音声から随時に周囲雑音を推定して影響を入力音声から除去することで、周囲状況が変化しても雑音を抑圧できるようなものが挙げられる。
【０００８】
しかし、このような適応的な信号処理はどのような周囲状況にもある程度対応できる反面、適応に時間がかかったり、周囲状況の変化が大きい場合には漸次的な適応処理では対応できないという問題点がある。
【０００９】
それに対して、適応的処理に用いるパラメータの初期値を周囲状況に合わせてユーザの操作や音声入力システムの上位システムによって与えてしまえば、適応までの時間も少なくて済むし、処理の誤差も軽減されると考えられる。
【００１０】
また、適応的な信号処理でなくとも、周囲状況に合わせた信号処理用パラメータを用いることが音声入力システムにとって有益であることは勿論である。ただし、この場合、従来では、音声入力システムの操作者が周囲状況を判断して、状況に合わせた信号処理の設定を行っていたため、操作の煩雑さや、余分で複雑な処理が必要となる場合があった。
【００１１】
一方、使用状況に応じて音声を処理するという目的なら、例えば状況を判断するのに時間のみを用い、音声入力時の時刻を含む時間帯に応じて装置の機能を切り替え、その機能状態に応じて音声認識可能な音声（すなわち、受理可能な音声）を決めているものもある（例えば、特許文献１参照）。
【００１２】
また、スケジュールに従って通話の音声以外の音声を付け加えるものもある。すなわち、プライバシー保護の観点から予めスケジュールされた生活環境音を携帯電話における発声音に重畳して送信するというものである（例えば、特許文献２参照）。
【００１３】
【特許文献１】
特開平８−１９０４７０号公報（第１−５頁、図１）
【００１４】
【特許文献２】
特開２００２−２７１３６号公報（第８−１０頁、図１０）
【００１５】
【非特許文献１】
サイード・ブイ・ヴァセッジ（ＳａｅｅｄＶ．Ｖａｓｅｇｈｉ）著，「アドバンスドディジタルシグナルプロセッシングアンドノイズリダクション（ＡｄｖａｎｃｅｄＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇａｎｄＮｏｉｓｅＲｅｄｕｃｔｉｏｎ）」，（英国），第二版，ワイリー（ＷＩＬＥＹ），２０００年９月
【００１６】
【非特許文献２】
古井貞煕著音響・音声工学近代科学社１９９２年刊のｐｐ１７６−２１９
【００１７】
【発明が解決しようとする課題】
前述のように、信号処理においては、ユーザの操作や音声入力システムの上位システムによってパラメータを与えるか、あるいは適応的信号処理によって周囲状況に合わせてある程度の処理を行うことができた。その手法については非特許文献１を始めとして既存の手法がある。ただし、ユーザ操作や上位系統でパラメータを与えるには煩雑であるし、適応的信号処理では適応時間が掛かる等の問題があった。
【００１８】
また、システムの置かれた状況は時間だけでは判断できない場合があるが、先に挙げた特許文献１では時間以外の情報に応じた信号処理を行うことができなかった。
【００１９】
さらに、特許文献２では、携帯電話の使用においてプライバシーを保護するのが主眼であって、例えば１日のスケジュールに合わせて生活環境の音を発声音に重畳することによって、通話時にユーザの音声と共にその時の周囲の音声をリアルな状態で送信してしまうことのないようにしている。
【００２０】
従って、特許文献２では、通話の音声に対してスケジュールに合わせた生活環境音（例えば、雑踏の音、駅構内の音、空港の音など）を重畳しているため、次のような不具合を生じていた。すなわち、スケジュール上での環境がオフィス、実際の環境が雑踏であった場合に、通話している相手側へ出力される音声は（発声＋オフィスの雑音＋雑踏の雑音）、あるいは実際の環境が駅のホームであった場合には（発声＋オフィスの雑音＋駅構内の雑音）となる。また、実際の環境の背景音がスケジュールされた重畳音よりも特異的、もしくは音量が大きい場合には生活環境音を重畳しても実環境の背景音の方が支配的になりやすいという問題がある。
【００２１】
そこで、本発明は以上の問題に鑑みてなされたもので、時間に関連づけられた環境に応じて入力する音声を適切に信号処理し、常に明確な音声信号を得ることが可能な音声入力システム及び音声入力システムを備えた端末装置を提供することを目的とするものである。
【００２２】
【課題を解決するための手段】
本発明に係る音声入力システムは、音声信号を受信する受信手段と、前記音声信号に対して信号処理を施す信号処理手段と、時間に関連づけられた環境情報を記憶する記憶手段と、時間を計測する時間計測手段と、前記計測された時間から関連する環境情報を前記記憶手段から取り出し、当該環境情報に基づいて前記信号処理手段を制御する制御手段と、を具備したものである。
【００２３】
本発明において、受信手段は、マイクのような音声を計測する機器からの音声信号や、直接に接続された機器からの音声信号、あるいはネットワークを介して接続された機器からの音声信号を音声入力システムに取り込むものである。
【００２４】
時間計測手段は、システム内で時間の進行をカウントする手段によって時間情報を得る、または電波時計のように音声入力システム外の時間信号を取り込むことによって時間情報を得るものとする。ここで言う時間とは、計測開始時点からの経過時間のような相対的な形の時間情報でも、年月日及び時刻のような絶対的な形の時間情報でも構わない。
【００２５】
時間に関連づけられた環境情報とは、時間と共に推移する情報、所定の時間帯に対応付けられる情報、時間を変数とする関数的情報などであり、例えばスケジュール情報である。従って、予め時間の経過に対する状況変化が分っている場合は、スケジュール情報と同様に扱うことができる。なお、予め時間と環境情報の対応関係がない状況（不意に起こる状況の変化や予定の範囲外の位置的な変化など）は、後述するセンサ情報を用いてそれに応じて環境情報を更新することによって対処する。スケジュール情報は、その属性として、時間と、これに関連した場所や人間（より具体的には、時間に関連して行く予定の場所や会う予定の人間など）の情報を含んだものである。
【００２６】
信号処理手段は、雑音処理，音声強調，音声認識などの各種の信号処理を行うものである。時間に関連づけられた環境情報に基づいて適切な信号処理を行える。
【００２７】
制御手段は、計測された時間から関連する環境情報を前記記憶手段から取り出し、当該環境情報に基づいて前記信号処理手段を制御することで、使用状況に合わせて信号処理手段で入力音声に対し適切な信号処理を行わせることができる。
【００２８】
以上のように、時間に関連づけられた環境情報をもとに、入力した音声を信号処理する。環境情報が時間に関連づけられた、“場所”であるときは、スケジュール内容である場所に応じて入力音声に対する雑音除去などの信号処理を変えることにより、音声入力システムの使用環境が、時間経過に対応して、駅構内であるときと、オフィス内であるときと、工場内であるときとで、雑音除去処理の仕方を変えることにより、従来と比べてより確実な雑音除去を行うことができるようになる。
【００２９】
また、本発明による音声入力システムは、さらに、前記信号処理に用いるパラメータを時間と関連づけて記憶する手段を具備し、前記制御手段は、前記環境情報だけでなく、前記パラメータに基づいて、入力音声の前記信号処理を制御することを特徴とする。
【００３０】
従来は適応的な信号処理に基づいて、例えば雑音除去であれば、最初は周りの雑音を収集及び学習してそれに応じた雑音除去を行っているが、本発明では、環境情報のほかに信号処理用のパラメータを記憶しておき、環境情報が時間に関連づけられた場所であるときは、駅構内であればこのパラメータ、会議室であれば別のこのパラメータ、といったように、自動的（或いは人為的）に信号処理パラメータを呼び出して（選択して）使用することができる。
【００３１】
また、本発明による音声入力システムは、さらに、前記信号処理の結果を反映して前記環境情報や前記パラメータの内容を変更する手段を具備したことを特徴とする。
【００３２】
本発明では、環境情報や信号処理用パラメータを後から追加したり修正する機能を付加したものである。これによって、例えば、環境情報としての場所を追加したり、雑音処理するパラメータを更新することができる。
【００３３】
また、本発明による音声入力システムは、前記環境情報が場所の情報であることを特徴とする。
【００３４】
本発明では、環境情報として、場所の情報に限定したものである。どこに居るかという場所の情報に対応して、入力音声の信号処理の仕方を変えることができる。すなわち、どういう場所に居るということが分れば、その場所（例えば、オフィスの静かな所、街中の雑踏）に合わせた音声処理を行うことができる。雑音抑圧処理であれば、雑音の種類に対応した雑音抑圧のパラメータを変えることで雑音除去率を上げることができる。
【００３５】
また、本発明による音声入力システムは、前記環境情報が人間の情報であることを特徴とする。
【００３６】
本発明では、環境情報として、人間の情報に限定したものである。誰と会う（或いは喋っている）かという、“人間”の情報に対応して、入力音声の信号処理の仕方を変えることができる。すなわち、誰と会うということが分れば、その人に合わせた音声処理を行うことができる。例えば音声認識処理において、相手が男性か女性か、大人か子供かについて話者を特定できるので認識率を上げることができる。
【００３７】
また、本発明による音声入力システムは、前記信号処理の内容が、入力対象である音声以外の雑音の影響を抑圧する処理であることを特徴とする。
【００３８】
本発明では、信号処理の内容が、雑音を抑圧する処理である。環境情報の内容に従って、例えば、オフィスならオフィスに合った雑音抑圧処理、また街中の雑踏では雑踏に合った雑音抑圧処理を行うことができる。
【００３９】
また、本発明による音声入力システムは、さらに、音声認識を行う手段を具備し、前記環境情報や前記パラメータを基に前記信号処理を行うと共に前記音声認識を行うことを特徴とする。
【００４０】
本発明では、音声認識するときは、環境情報の内容に合った雑音等の処理を行いながら、環境情報の内容に合った認識語彙等を用いて認識処理を行う。これにより、場所や人などの環境情報に合った認識処理が行え、認識率を上げることができる。
【００４１】
また、本発明による音声入力システムは、さらに、他の音声入力システムと情報の授受を行う手段を具備し、他の音声入力システムの前記環境情報や前記パラメータを利用して、自身の音声入力システムの前記環境情報や前記パラメータを更新可能としたことを特徴とする。
【００４２】
本発明では、他の音声入力システムとの情報のやり取りができる。例えば、ある会社の工場を初めて訪問する人は、その会社や工場に合った認識語彙や雑音処理の情報を持っていないが、訪問時にその工場の音声入力システムで使っている環境情報や信号処理用パラメータを利用することができれば、その場に合った適切な音声処理を行うことが可能となる。
【００４３】
また、本発明による音声入力システムは、さらに、音声信号以外のセンサ情報を入力する手段を具備し、前記センサ情報を利用して、自身の音声入力システムの前記環境情報や前記パラメータを更新可能としたことを特徴とする。
【００４４】
本発明では、センサ情報を入力可能としたものであり、これまで述べた環境情報だけでは捕捉しえない予定外の環境変化にも対処し得るようにしている。例えば、ＧＰＳ（全地球測位システム、ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍの略）とかカメラなどの画像センサの情報を利用して、環境情報や信号処理用パラメータを変更し、実際の周囲状況に合った信号処理を行えるようにしている。
【００４５】
また、本発明による音声入力システムは、さらに、構成要素←他にも通信部でもいいのだから、“構成要素の一部を他の音声入力…”でもいいのでは？］の一部を他の音声入力システムと共有化することを特徴とする。
【００４６】
本発明では、例えば記憶領域の実体の一部が、ネットワークを介して別の場所にあり、その別の場所に置かれた記憶領域の一部を他の音声入力システムと共有化して使用する。記憶領域の一部が置かれる場所は、例えばサーバである。このようにすれば、環境情報や信号処理用パラメータを複数の他の音声入力システムと共有化できるので、どこに居ても時間に対応した最適な条件で音声入力処理を行えたり、同じデータを使うことにより簡便に共通サービスを得られたりという利点が得られる。
【００４７】
また、本発明による音声入力システムは、音声信号を受信する受信手段と、時間に関連づけられた環境情報を記憶する記憶手段、時間を計測する時間計測手段と、前記音声信号に対して信号処理を施す信号処理手段と、時間に関連づけられた前記環境情報を記憶する記憶領域がシステム外部にある場合に、その環境情報を読み出すためのアドレス情報を時間と関連づけて記憶する記憶部を有し、前記計測された時間から関連する環境情報を前記外部の記憶領域から読み出し、当該環境情報に基づいて前記信号処理手段を制御する制御手段と、を備えたことを特徴とする。
【００４８】
本発明では、記憶する手段は、自身の音声入力システム内に記憶領域を備えるのではなく、記憶領域自体は自身の音声入力システム外にあってその記憶領域のアドレスは自身の音声入力システムにあり、必要な場合に外部にある記憶領域と情報の授受を行う場合を指している。
【００４９】
本発明に係る音声入力システムを備えた端末装置は、音声信号を受信する受信手段と、前記音声信号に対して信号処理を施す信号処理手段と、時間に関連づけられた環境情報を記憶する記憶手段と、時間を計測する時間計測手段と、前記計測された時間から関連する環境情報を前記記憶手段から取り出し、当該環境情報に基づいて前記信号処理手段を制御する制御手段と、を具備したものである。
【００５０】
本発明の端末装置では、時間に関連づけられた環境情報をもとに、入力した音声を信号処理する。環境情報が時間に関連づけられた場所であるときは、スケジュール内容である場所に応じて入力音声に対する雑音除去などの信号処理を変えることにより、音声入力システムの使用環境が、時間経過に対応して、駅構内であるときと、オフィス内であるときと、工場内であるときとで、雑音除去処理の仕方を変えることにより、従来と比べてより確実な雑音除去を行うことができるようになる。
【００５１】
本発明による音声入力システムを備えた端末装置は、さらに、前記信号処理に用いるパラメータを時間に関連づけて記憶する手段を具備し、前記制御手段は、前記環境情報だけでなく、前記パラメータに基づいて、入力音声の前記信号処理を制御することを特徴とする。
【００５２】
従来は適応的な信号処理に基づいて、例えば雑音除去であれば、最初は周りの雑音を収集及び学習してそれに応じた雑音除去を行っているが、本発明では、環境情報のほかに信号処理用のパラメータを記憶しておき、環境情報が時間に関連づけられた場所であるときは、駅構内であればこのパラメータ、会議室であれば別のこのパラメータ、といったように、自動的（或いは人為的）に信号処理パラメータを呼び出して（選択して）使用することができる。
【００５３】
本発明による音声入力システムを備えた端末装置は、さらに、前記信号処理の結果を反映して前記環境情報や前記パラメータの内容を変更する手段を具備したことを特徴とする。
【００５４】
本発明の端末装置では、環境情報や信号処理用パラメータを後から追加したり修正する機能を付加したものである。これによって、例えば、環境情報としての場所を追加したり、雑音処理するパラメータを更新することができる。
【００５５】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図１は本発明に係る音声入力システムを示すブロック図である。
【００５６】
図１において、音声入力システム１０１は、音声入力を受信する受信手段としての通信部１０２と、複数の環境情報を時間に対応付けて記憶する記憶手段である記憶領域部１０３と、雑音処理，音声認識処理などの各種の信号処理を行う信号処理部１０４と、中央演算装置（以下、ＣＰＵ）などで構成され、前記記憶領域部１０３に記憶してある環境情報に基づいて前記信号処理部１０４における入力音声の信号処理を制御する制御部１０５と、を有している。制御部１０５には、時間を計測する時間計測部１０５−１（実時間を計測する時計手段や、経過時間をカウントするタイムカウンタなど）が含まれている。但し、時間計測部は外部にある計測部で計測してもよい。
【００５７】
通信部１０２は、マイク１０６，情報機器や記録再生機器や他音声システムなどの他の機器１０７，及びネットワーク１０８と有線或いは無線で接続していて、外部からシステム内に音声入力を受け取るだけでなくシステムの外部へ音声出力を送出したりすることが可能となっている。
【００５８】
通信部１０２は、信号処理部１０４での信号処理に適した形式に適宜、データを変換する機能も含んでいてもよい。
なお、図１における各部の構成要素は、必ずしも物理的な構成によって区分されたものではない。各部の構成要素は電子部品によって構成することもできるし、処理内容の働きや処理を実行するプログラムによっても機能的に区分できるものとして説明する。つまり、図１における各構成要素については、他の働きをする機器とその構成の一部を共有化したり、構成の要素は電子部品でなくとも同種の働きをするプログラムやプロセスによって同様の機能を実現することもできる。
【００５９】
そして、音声入力システム１０１で信号処理した結果を音声入力システム１０１の外部回路等で使用する場合には、信号処理部１０４は制御部１０５の制御によってその使用目的に応じた信号処理結果を外部回路等へ出力することが可能である。
【００６０】
マイク１０６は音声を信号に変換して伝達する。このマイク１０６は一般にある任意のマイクで実現可能である。このマイクが複数個あってもよく、通信部１０２からの信号を受けてマイク１０６の制御を行うことも可能である。例えば、通信部１０２からの信号によってマイク入力のスイッチや、マイクの向きを変えることが可能であってもよい。
【００６１】
他の機器１０７とは、音声入力システム１０１が処理できる形式の情報を持っている機器であり、音声入力システム１０１以外の機器を表す。例えば、他の機器１０７がＰＤＡであって、他の機器１０７にはユーザの詳細なスケジュール情報が記憶されているとする。音声入力システム１０１の制御部１０５は、通信部１０２を介してそのスケジュール情報のうち、音声入力システム１０１が任意のタイミングで自身が処理出来る形式のデータだけ他の機器１０７から取り込んだり、或いは他の機器１０７側から任意のタイミングで音声入力システム１０１に送信してもらうよう要求したりすることが可能となっている。これによって、音声入力システム１０１ではユーザが直接的に入力しなくても、時間に関連づけられた環境情報、例えば上記のスケジュール情報の例では場所の情報やそのときに会う予定の人の情報を得ることができる。この他の機器１０７は、複数あっても構わないし、他の音声入力システムであってもよい。
【００６２】
ネットワーク１０８は、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ）や無線ローカル・エリア・ネットワーク（無線ＬＡＮ）に代表される無線による通信ネットワーク、もしくはインターネットに代表される大規模通信網ネットワークであってもよい。そのような通信ネットワークを介して先のマイク１０６や他の機器１０７とも情報の授受を行うこともできる。この通信技術の詳細については省略する。
【００６３】
記憶領域部１０３は、各種の環境情報を時間に対応させて記憶している。環境情報と音声システムが使われる周囲の環境状況や音声システム内部機器の動作環境状況などを含む。記憶領域部１０３は、それぞれの環境下での処理の手順や必要となる処理パラメータ、処理に必要となる一時記憶領域、音声信号や出力結果等を記憶する領域等、の各種記憶領域を有している。記憶領域部１０３は、半導体メモリや磁気ディスク等の電子部品や、同様の機能を有する電子部品によって構成することができる。
【００６４】
信号処理部１０４は、音声入力システム１０１の目的に応じて、制御部１０５の制御によって通信部１０２からの音声入力信号を処理することができる。時間に関連づけられた環境情報に基づいて信号処理を行う。例えば、雑音処理，音声強調，音声認識などの信号処理を行う。たまた、その信号処理に必要となるパラメータを記憶領域部１０３から取り出して処理を行うこともできる。ここでの具体的な処理手順や内容については後述する。信号処理部１０４は、ソフトウェアでも、また信号処理チップ等の電子部品でも構成することができる。
【００６５】
制御部１０５は、ＣＰＵなどで構成され、記憶領域部１０３に記憶してある環境情報や信号処理用パラメータに基づいて信号処理部１０４における入力音声の信号処理を制御する。また音声入力システムの動作を制御する。
【００６６】
次に、図１の動作を図２を参照して説明する。
図２は図１の音声入力システムの処理動作を示している。まず、制御部１０５は時間情報として現在の時刻を時間計測部１０５−１から取得する（ステップ３０１）。この時間情報は他の機器１０７やネットワーク１０８上の他の機器（図示せず）から取得してもよい。次に、制御部１０５は取得した時間情報に関連する環境情報を記憶領域部１０３の所定領域から取得し（ステップ３０２）、当該環境情報に基づいて入力音声の信号処理の内容を決定する（ステップ３０３）。そして、その決定された処理内容に従って、入力される音声信号に対して信号処理を行い、その処理結果を記憶領域部１０３の所定領域へ出力する（ステップ３０４〜３０６）。
【００６７】
尚、記憶する手段は、自身の音声入力システム１０１内に記憶領域を備えるのではなく、記憶領域自体は自身の音声入力システム外にあってその記憶領域のアドレスは自身の音声入力システム１０１にあり、必要な場合に外部にある記憶領域と情報の授受を行うように構成してもよい。
【００６８】
図３は本発明に係る音声入力システムの他の構成例を示すブロック図である。図１と同一部分には同一符号を付してある。
【００６９】
図３において、音声入力システム１０１Ａは、入力音声信号を受信する受信手段としての通信部１０２と、複数の環境情報を時間に対応付けて記憶する記憶手段である記憶領域部１０３と、雑音処理，音声強調，音声認識処理などの各種の信号処理を行う信号処理部１０４と、ＣＰＵなどで構成され、システム外部の記憶領域部（図示せず）に記憶してある環境情報に基づいて前記信号処理部１０４における入力音声信号の信号処理を制御する制御部１０５Ａと、を有している。制御部１０５には、時間を計測する時間計測部１０５−１（実時間を計測する時計手段や、経過時間をカウントするタイムカウンタなど）と、システム外部の記憶領域に記憶してある環境情報を読み出すためのアドレス情報を時間と関連づけて記憶する記憶部１０５−２とが含まれている。
【００７０】
図３の構成では、制御部１０５Ａは、時間に関連づけられた前記環境情報を記憶する記憶領域がシステム外部にある場合に、その環境情報を読み出すためのアドレス情報を時間と関連づけて記憶部１０５−２に記憶してあり、時間計測部１０５−１で計測された時間から関連する環境情報を前記システム外部の記憶領域から読み出し、当該環境情報に基づいて信号処理部１０４を制御する。音声入力システムの処理動作は図２と同様であるので、説明を省略する。
【００７１】
上記のような音声入力システム１０１（又は１０１Ａ）は端末装置例えばＰＤＡに適用することができる。
図４は本発明に係る、音声入力システムを備えたＰＤＡを示すブロック図である。
【００７２】
図４に示すＰＤＡ１１１は、マイクなどから音声を入力し、環境情報の内容に基づいて信号処理を行う、図１のように構成された音声入力システム１０１と、ユーザ指示入力部，表示部、データ記録部及び制御部（ＣＰＵ）（いずれも図示せず）を備え、スケジュール表やメールを作成したり、インターネット情報を送受信したり、前記音声入力システム１０１で信号処理された音声データを記録再生することが可能なＰＤＡ本体部１１２と、を具備して構成される。なお、ＰＤＡ本体部１１２内のデータ記録部は音声入力システム１０１の記憶領域部１０３に比べて大きな容量を有しており、ＰＤＡ本体部１１２で扱う画像データ，音声データ，文字データなどの多量のデータを保存することが可能となっている。
【００７３】
図５は図４のＰＤＡ１１１の使用例を説明するものである。
【００７４】
図５において、時計２０１は単に時間情報としての時刻を示すためのものであり、必ずしも物理的に存在しているものではない。図５（ａ）は１６時の状態を、図５（ｂ）は１８時の状態を示している。なお、以下の説明では、時刻を２４時制で表現している。
【００７５】
１６時のとき、図５（ａ）のようにユーザ２０２は外出中であり、雑踏の中にいて、音声入力システム１０１を備えたＰＤＡ１１１を所持している。そして、ユーザ２０２は自分の発声する命令語の音声でＰＤＡ１１１を音声操作しているものとする。また、この時間に外出中であることは、ＰＤＡ本体部１１２のデータ記録部にスケジュール表として記録してあるものとする。
【００７６】
この場合、音声入力システム１０１の制御部１０５に対して予め環境情報としてＰＤＡ本体部１１２のデータ記録部内のスケジュール表を使用する旨の設定（操作）をユーザが行うことで、記憶領域部１０３には前記スケジュール表に基づく時間に関連つげられた環境情報が記憶されている。
【００７７】
ＰＤＡ１１１内における音声入力システム１０１の制御部１０５は、システム１０１内の時間計測部１０５−１による時間に基づいて記憶領域部１０３から環境情報を取得することで、この時間にはユーザ２０２が外出中であるという情報を得る。
【００７８】
そこで、音声入力システム１０１の制御部１０５は、そのときＰＤＡ１１１に対してユーザ２０２が入力する音声について、ユーザが外出中であることから雑踏の中での音響処理パラメータ、処理手順を記憶領域部１０３から呼び出して信号処理部１０４で音声認識の信号処理を行う。それによって、雑踏の中で発声された音声に対して適切な音声処理を行って正確な音声認識を行うことができる。そして、制御部１０５はその信号処理結果に基づいてＰＤＡ本体部１１２の制御部に対して命令内容に応じた動作をさせる。例えば、インターネット受信動作を開始させて、所望の情報を得ることが可能となる。或いは、音声メモとして本体部１１２に記録することもできる。
【００７９】
また、時間が経過して１８時になったとき、図５（ｂ）のようにユーザ２０２はオフィス内に居て、自分の発声する命令語の音声でＰＤＡ１１１を音声操作しているものとする。音声入力システム１０１の制御部１０５は、先ほどと同様に現在時刻と記憶領域部１０３内の環境情報から、この時間にはユーザ２０２がオフィスにいるという情報を得る。
【００８０】
そこで、音声入力システム１０１の制御部１０５は、その情報からオフィスで得られる音声について音響処理で必要となるパラメータと処理手順を記憶領域部１０３から呼び出して、オフィスデスク２０３にいるユーザ２０２の音声を、信号処理部１０４において適切に信号処理して音声認識することができる。
【００８１】
以上のようにして、雑音抑圧，音声強調，音声認識といった信号処理において、環境情報を利用して使用環境に応じた適切な音声処理ができる。
【００８２】
さらに、適応的な信号処理を用いたときに、適応後のパラメータを記憶しておくこともできる。これよって、翌日になったとしたときに例えば時間に対応する環境情報から、１８時から同じオフィスにいるという情報が得られた場合には、前日の前記の適応後パラメータを呼び出して音声処理に用いることにより、より簡単にかつ精度よく音声処理することが可能となる。
【００８３】
尚、本発明の音声入力システムはＰＤＡのみに対して適用されるものではなく例えば携帯電話，録音機器，パーソナルコンピュータなどの他の端末装置に対しても応用できる。また、環境情報はスケジュール情報のみに限定されるものではない。
【００８４】
〔第１の実施の形態〕
次に、本発明の第１の実施の形態の音声入力システムについて説明する。ここでの音声入力システム１０１は、ＰＤＡ本体部１１２での音声入力に使われるものとする。また、ＰＤＡ本体部１１２では、音声入力システム１０１の処理結果である音声信号を本体部１１２内のデータ記録部に音声メモとして記録しておくことが可能である。処理動作の流れは図２と同様である。
【００８５】
すなわち、処理動作の流れは、まず時間情報として現在の時刻を時間計測部１０５−１で取得し、次に取得した時間情報に関連する環境情報を記憶領域部１０３から取得して、当該環境情報に基づいて入力音声の信号処理の処理内容を決定する。そして、その決定された処理内容に従って、入力される音声信号に対して信号処理を行う。
【００８６】
次に、上記処理フローにおける信号処理内容の決定について図６を参照して説明する。図６は、第１の実施の形態における環境情報と音声処理内容の対応関係を示している。
【００８７】
図６では、音声入力システム１０１を含めたＰＤＡ１１１に節電のために通常モードと省電力モードを設けて、これらの処理モードを環境情報とし、該情報に合わせて音声処理内容も変える例を示している。
【００８８】
図６では、時間とそれに関連付けられた環境情報として「処理モード」が規定されており、この環境情報にはさらに音声の「処理内容」が対応付けられている。
【００８９】
すなわち、時刻が１０時で通常モードに設定されていた場合は、時間帯としてユーザが活動時の音声入力である可能性が高いし、節電する必要もないので、音声入力に対して高性能な音声検出を行い、かつ高品質な音声取り込みの結果を音声入力システム１０１の処理結果としてＰＤＡ本体部１１２に送る。これによってユーザが一般的に使う状況で、それに見合った適切な音声処理を行うことができる。なお、ここでの音声検出方法は非特許文献２の１７７ページに見られるような形で実現可能であり、ここでは処理を節約しない高性能な手法を用いたものとして詳細は省略する。音声の取り込みについても、コンパクト・ディスク（ＣＤ）なみの高音質な音声で信号を取り込む技術は一般的に存在し、それらの技術で実現可能である。ここではその詳細は省略する。
【００９０】
次に２４時で通常モードに設定されていたり、１０時で省電力モードに設定されていたりした場合は、夜間で滅多に音声入力はない、或いは省電力モードであるという理由で、先ほどよりは簡易化した音声検出や音質を落とした処理（例えばサンプリング周波数を銅線電話品質（８ｋＨｚ）とする）を行って、状況に見合った音声処理を行う。
【００９１】
そして２４時で省電力モードに設定されていた場合は、処理に必要となる電力がない、或いはユーザからの音声が入ってくることは殆んどないという理由で音声処理を行わないとする。これによって音声の処理をすべきでない場合や必要が余りない場合に見合った処理ができる。また、取得した時刻に対して環境情報に対応するものがない場合には、そういう場合用の信号処理内容を前もって定めておいてそれを用いたり、最も近い関係の条件の内容を参照するといったやり方で対処することができる。
【００９２】
〔第２の実施の形態〕
次に、本発明の第２の実施の形態の音声入力システムについて説明する。処理動作の流れは図２と同様である。
【００９３】
図７は、第２の実施の形態における環境情報と音声処理内容の対応関係を示している。時間と関連付けた環境情報である処理モードとして、通常モードと通勤モードが設けられている。通勤モードとは、電車内や雑踏のように喧しいところでも、聴き取り易い音声入力を行うためのモードである。
【００９４】
時間が１時〜６時，１０時〜１５時のようなラッシュのない状況では、通常モードとし、低い精度の音声検出及び取り込みょを行い、且つ周りが喧しくないから音声取り込みのボリュームは普通にする。一方、６時〜１０時，１５時〜１時のようなラッシュの状況では、通勤モードとし、高精度な音声検出及び音声取り込みを行い、且つ周りが喧しく、本人の声も大きくなるので音声取り込みのボリュームを若干抑える（即ち音声信号レベルを若干低下させる）音声処理を行う。
【００９５】
〔第３の実施の形態〕
次に、本発明の第３の実施の形態の音声入力システムについて説明する。処理動作の流れは図２と同様である。
【００９６】
図８は、第３の実施の形態における環境情報と信号処理パラメータとの対応関係を示している。時間に関連づけられた環境情報である処理モードとしては、通常モードと省電力モードが設けられている。音声に対する信号処理の内容は、入力音声信号に対するサンプリング周波数の変更のみとなっている。
【００９７】
本実施形態では、「信号処理内容の決定」の内容が、信号処理に用いるパラメータの設定となる。そして、サンプリング周波数が信号処理に用いるパラメータとなっている。また本実施形態ではサンプリング周波数というパラメータの性質上離散値のパラメータだが、本発明においては環境情報とパラメータとの関係が連続関数になっていても構わない。
【００９８】
例えば、１０時で通常モードに設定されていた場合は、高音質で音声を取り込むためにサンプリング周波数は４４．１ｋＨｚ（ＣＤ品質）とし、２４時での通常モードや１０時での省電力モードの場合はサンプリング周波数は２２．０５ｋＨｚ、２４時の省電力モードならサンプリング周波数は８ｋＨｚ（電話品質）とする。このようにして決まったサンプリング周波数で音声をサンプリングしてデジタル信号にする手法は、既存の手法で十分実現可能であり、ここではその詳細は省略する。
【００９９】
以上の第１，第３の実施の形態では、時間と関連付けられた環境情報を用いることで、日常の一般的な状況では高音質で音声を取り込み、音声処理する電力が余りない場合や、夜間などのそれほど高音質で取り込む必要がない場合には、音声入力システムに負担が掛からない低い精度の処理を行うというように、使用状況に合わせた音声処理を行うことが可能である。
【０１００】
また、第２の実施の形態では、周囲が喧しい状況では高音質で音声を取り込み、比較的静かな状況では低い精度ので処理を行う。
【０１０１】
〔第４の実施の形態〕
次に、本発明の第４の実施の形態を、図９と図１０を用いて説明する。本実施形態は、会社などで用いられるノート型コンピュータ（以下、ＮＰＣ）と共に用いられる音声入力システムの例である。この場合は、音声入力システムは、音声処理用のアプリケーションプログラムとして実現することが可能である。
【０１０２】
環境情報は、使用時の時刻と関連してＮＰＣが使用される場所、例えば会議室Ａ，Ｂ，Ｃの情報である。この環境情報が音声入力システム１０１の記憶領域部１０３に記憶される。音声入力システム１０１の音声処理の内容としては、ユーザの発声に対して雑音抑圧処理を行うもので、雑音抑圧処理した音声信号を前記ＮＰＣに出力し、該ＮＰＣがその音声を議事録用に記録する。環境情報である会議室に対して、雑音抑圧処理に用いられる信号処理用パラメータが対応付けられる。
【０１０３】
雑音抑圧の信号処理はスペクトル・サブトラクション法（以下、ＳＳ）を用いるとする。ＳＳの実現については、前述の非特許文献１を始めとして、多くの公知例文献に示されているので、ここでは省略する。本実施形態では、例えばＳＳで用いる推定雑音特徴ベクトルを信号処理で用いるパラメータとする。また、この推定雑音特徴ベクトルは使用会議室における非音声区間から随時更新されるものとする。
【０１０４】
図１０はこれらの環境情報とパラメータとの対応関係を示している。この対応関係は、予め記憶領域部１０３に記憶されている。そして、音声入力信号を雑音抑圧処理するに際して、音声入力システム用のアプリケーションプログラムを起動した状態で、表示される設定用画面上の所定箇所に使用する時刻と会議室名を入力することにより、雑音抑圧処理動作が実行可能となる。
【０１０５】
図９に第４の実施の形態の音声入力システムに係る処理フローを示す。処理の手順は図２とほぼ同様である。まず、制御部１０５は、時間情報として現在の時刻を時間計測部１０５−１から取得する（ステップ４０１）。次に、制御部１０５は取得した時間情報に関連する環境情報を取得し（ステップ４０２）、当該環境情報に基づいて入力音声の信号処理のパラメータすなわち推定雑音特徴ベクトルを記憶領域部１０３から取り出して信号処理部１０４に設定する（ステップ４０３）。
【０１０６】
このとき図１０のような対応関係を参照し、対応する環境情報があればそれに対応した推定雑音特徴ベクトルを用いて信号処理が行われる。
【０１０７】
一方、対応する環境情報がなかった場合には、記憶領域部１０３に記憶可能な領域があるか確認後、新しく環境情報を作成する。つまりこの例では、ある時間にある会議室で使われるのが初めてだったなら、記憶領域部１０３に新たな環境情報とパラメータを記憶する領域が割り当てられる。このときのパラメータの初期値は、全推定雑音の平均から求めたり、予め設定した初期値用の値にするなどして決定される。また、対応する環境情報がなかった場合に、新しく作成せずに、所定に決まった処理を割当ててもよい。
【０１０８】
こうして信号処理に用いるパラメータを信号処理部１０４に設定した後、入力音声（ステップ４０４）に対して雑音抑圧処理及び非音声区間においては雑音の推定を行う（ステップ４０５）。そして信号処理後の信号を結果としてＮＰＣへ出力する一方（ステップ４０６）、（更新された推定雑音のパラメータを使ってさらに信号処理を行ったり、）処理終了後に環境情報に対応付けられたパラメータの記憶領域を更新された推定雑音に基づいて書き換えたりする（符号４０７）。
【０１０９】
本実施の形態では、環境情報やパラメータを書き換える際に、上述のように新しい条件ができる度に新たな記憶領域を割り当てたり、処理のたびに情報を更新したりする例を挙げた。
【０１１０】
新しい条件を判断するのに、環境情報としては時間（或いは時間帯）の別にのみ着目したり、会議室の情報にのみ着目したり、また、逆にパラメータ側に着目することで判断することもできる。具体的には、新しい時間、新しい会議室で処理した後、推定雑音に注目して、これまでに記憶されたパラメータの中で許容範囲内の近さのものについてはパラメータを共用化してしまうことが考えられる。すなわち図１０で時刻は異なるが同じ会議室Ａでの推定雑音特徴ベクトルＡ１とＡ２が十分近ければまとめてＡ１で代表させることもできる。
【０１１１】
〔第５の実施の形態〕
次に、本発明の第５の実施の形態について説明する。本実施の形態の説明に用いる例は、第４の実施の形態の説明に用いた例と同様とする。すなわち、ＮＰＣと共に用いられる音声入力システムの例である。
【０１１２】
本実施形態で、第４の実施の形態と異なる点は、ＮＰＣ内にはスケジュール表が記録されており、環境情報はスケジュール表から取り出されるものである。スケジュール表には使用される時刻と会議室がその他の情報（例えばパラメータ）と共に記載されている。
【０１１３】
スケジュール情報を用いるので、使用される時刻に対応して使用される会議室が決まり、それに対応付けられて記憶領域部１０３に記憶されているパラメータを用いて雑音抑圧の信号処理を適切にすることが可能となる。
【０１１４】
このようにすることで、今日はＡ会議室を使用して、明日の別の時刻にＡ会議室を使用するスケジュールになっていた場合、明日の当該時刻になると自動的にＡ会議室の雑音処理パラメータを用いて信号処理を行うことができることとなる。
【０１１５】
〔第６の実施の形態〕
次に、本発明の第６の実施の形態について説明する。本実施の形態に用いる例は、第５の実施の形態に用いた例と同様とする。
【０１１６】
本実施形態で、第５の実施の形態と異なる点は、スケジュール情報には、時刻とそれに対応して誰と会うかという人間の情報が入っている場合である。すなわち、時刻と共に人間の情報を含んでいる。
【０１１７】
このようにすることにより、人と会う時刻になると自動的に相手にあった音声入力ができるようになる。音声認識処理であれば、誰と会うという情報によって話者を特定できるので認識率を上げることができる。スケジュール情報に対応するイベント（人の出会い）がなかった場合には代表ユーザの情報で代用することで、信号処理してもよい。ここで用いられる信号処理については、話者に合わせた雑音抑圧や、音声強調などが挙げられる。その実現方法については、一般的に用いられている周知の手法で実現可能であるので、その詳細は省略する。
【０１１８】
〔第７の実施の形態〕
次に、本発明の第７の実施の形態について、図１１を参照して説明する。本実施の形態の説明に用いる例は、第５の実施の形態の説明に用いた例と同様とする。
【０１１９】
本実施形態で、第５の実施の形態と異なる点は、信号処理において音声認識も含める点である。音声認識の方法については、前述の非特許文献２に代表される多くの公知例文献があり、ここではその詳細は省略する。ここでは前記公知例文献でも述べられているＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いた音声認識を用いるものとする。音声認識の対象となる語彙は、予め設定された一般用語を対象とし、さらに場所によって追加語彙があるものとしてこれを信号処理のパラメータとする。この追加語彙の登録については、ここでは前もって場所に応じて登録してあったものとするが、ユーザや音声入力システムより上位のシステムが適宜語彙を登録してもよい。図１１は環境情報の場所とパラメータとしての追加語彙との対応関係を示している。
【０１２０】
本実施形態における処理の手順は図２と同様である。すなわち、得られた時刻から環境情報を取得し、図１１の対応関係のようにして音声処理の内容となる音声認識で用いる追加語彙を設定する。それを受けて、一般の認識語彙と処理パラメータの追加語彙とで音声認識を行い、認識結果を音声入力システムの出力とする。
【０１２１】
〔第８の実施の形態〕
次に、本発明の第８の実施の形態について説明する。本実施の形態の説明に用いる例は、第７の実施の形態の説明に用いた例（音声認識を含める）と同様とする。
【０１２２】
本実施の形態で、第７の実施の形態と異なる点は、通信部１０２を介して音声入力システムが情報の授受をできるものとし、通信可能な範囲内に別の音声入力システムがあるものとした場合である。
【０１２３】
音声入力システム間の通信路はローカル・エリア・ネットワーク（ＬＡＮ）やブルートゥース（Ｂｌｕｅｔｏｏｔｈ）に代表される、実現可能な既存の機器間通信技術で実現するものとする。ここではその詳細は省略する。その場合の機器間通信路において他の通信可能な機器の検出、及び通信路の確保、実際の通信の手順に関しても、先に例として挙げた実現可能な技術で用いられる代表的な手順に従うものとする。
【０１２４】
図１２は本発明の第８の実施の形態に係る、通信部１０２を介した音声入力システム間の情報授受の概念図を示している。前述のように通信路を介して情報の授受が可能な音声入力システムが２つあるとする。片方がユーザ１の音声入力システム、他方がユーザ２の音声入力システムとする。各音声入力システムには前述のような環境情報と、それと対応付けられたパラメータである追加語彙の情報がある。すなわち、ユーザ１の音声入力システムの環境情報と追加語彙間の対応関係５０１と、ユーザ２の音声入力システムの環境情報と追加語彙間の対応関係５０２がある。
【０１２５】
なお、音声認識の信号処理を行う信号処理部１０４で行われるパラメータとしての追加語彙は、各音声入力システムの記憶領域部１０３に記憶されている。
【０１２６】
ユーザ１の音声入力システムは時刻を取得して、環境情報を参照するときに、通信路上でアクセスできる他の音声入力システムの環境情報についても問い合わせるメッセージを送る（符号５０３にて示す）。ユーザ２の音声入力システムは、その問い合わせが受理できる場合に自身のシステムの環境情報と追加語彙間の関係をユーザ１の音声入力システムに送信する（符号５０４にて示す）。こうすることでユーザ１の音声入力システムは、ユーザ１のシステムの対応関係５０１に対してユーザ２のシステムの対応関係５０２を加えた対応関係５０５を得ることで、ユーザ１の音声入力システムはこれまで自身のシステムで持っていなかった環境情報とパラメータの追加語彙との対応を利用することができるようになる。
【０１２７】
これによって、通常とは異なる新しい状況に入ったユーザでも、これまでにその場面を経験したり、設定したりしたことのあるユーザの音声入力システムの情報を利用することで、新しい状況にすぐ対応した音声処理を行うことができる。ここではユーザ１の音声入力システムの立場から記述したが、通信部を介した情報の問い合わせ（符号５０３）とその返答（符号５０４）を交互に行うことで、２つの音声入力システムがそれぞれ和集合の環境情報と追加語彙間の対応関係の情報を得るようにしてもよい。これによって２つの音声入力システムが、環境情報とパラメータの追加語彙間の対応関係の情報を共有化することができる。
【０１２８】
また、上記では処理が始まって時刻を取得した後に情報を授受した例を挙げたが、処理全体が始まる前で、時刻を取得する前に前もって情報の授受を音声入力システム間で済ましていても構わない。また、上記では環境情報とパラメータの追加語彙間の対応の情報全体を授受するように説明したが、取得された時間に係る対応関係のみを授受しても構わない。
【０１２９】
また、ユーザや音声入力システムの上位のシステムからの設定によって、他の音声入力システムに与えない情報があったり、他の音声入力システムと自身の音声入力システムの情報に差分があった場合の変更方法（上書き、あるいは変更しないなど）を制御したりしても構わない。
【０１３０】
〔第９の実施の形態〕
次に、本発明の第９の実施の形態について図１３及び図１４を参照して説明する。
【０１３１】
図１３は本実施形態の音声入力システムを示している。通信部１０２にセンサ１０９からの情報を入力できるようにした点以外は、図１の構成と同様である。
【０１３２】
本実施形態では、図１３に示すように音声入力システムは音声信号以外のセンサ情報をセンサ１０９より入力できるようにするものである。そのセンサは音声入力システム内にあってもよいし、音声入力システム外にあって、その出力が通信路を介して得られるものでもよい。
【０１３３】
音声信号以外のセンサ１０９の情報は、例えばグローバル・ポジショニング・システム（ＧＰＳ）と地図情報とから得られた現在地情報とする。なお、ＧＰＳからは、その原理上、正確な時間情報も同時に得ることが可能である。つまりＧＰＳで得られた現在地と地図情報から、制御部１０５はユーザがどのようなカテゴリーの場所に現在いるかを判断した結果を音声信号以外のセンサの情報とする。その判断の仕方は、例えば現在地と最寄りのランドマークや地図情報から得られる建造物の情報から判断することで現実化できる。その判断手法は本発明の主旨とは外れるので詳細は省略する。またここでの信号処理は雑音抑圧とし、パラメータは使用状況における推定雑音特徴ベクトルとする。
【０１３４】
図１４は、記憶領域部１０３に記憶される時間に関連づけられた環境情報、例えば場所と、信号処理用パラメータとしての推定雑音特徴ベクトルとの対応関係を示している。この対応関係は予めユーザ操作もしくは上位システムにより記憶領域部１０３に記憶してある。しかしながら、時間に関連する環境情報に必要な対応がなければ、後述するように、センサ１０９の情報を利用して、自身の音声入力システムの環境情報や信号処理用パラメータを更新可能とされる。
【０１３５】
処理の手順はこれまでに図２で説明したものと同様である。ただし、ここでは、時刻情報と共に、音声信号以外のセンサ情報、例えば現在地情報が得られるとする。時間情報とＧＰＳなどのセンサ１０９から得られる現在地情報との対応関係が図１３の対応関係に該当すれば、記憶領域部１０３内の推定雑音ベクトルを読み出して適切な雑音抑圧処理を信号処理部１０４で行うことが可能となる。
【０１３６】
例えば、ユーザが１１時に駅構内にいれば、図１４の参照結果から繁華街用の推定雑音特徴ベクトルが得られる。これをパラメータとしてスペクトル・サブトラクション法（ＳＳ）等の雑音抑圧法を用いれば、速やかに状況に合わせた信号処理を行うことができる。
【０１３７】
環境情報に対応するものがなかった場合、前述のように新しく条件を新設してもよいし、どこか満たしている条件があればそれで代用してもよい。例えば９時に駅構内にいた場合に図１４には対応する条件がないが、駅構内ということで駅周辺のある条件で代用しても構わない。このような代用の仕組みは上記の例だけでなく、応用用途に合った形で選ぶことができる。また、この代用に関しては本実施の形態だけでなく、これまでの実施の形態に関しても適用することができる。
【０１３８】
〔第１０の実施の形態〕
次に、本発明の第１０の実施の形態について説明する。
【０１３９】
本実施形態では、自身の音声入力システムの記憶機能の一部を他の音声入力システムと共有化するものである。
【０１４０】
図１５は本実施形態の音声入力システムの概略構成のブロック図を示している。インターネット等のネットワークにデータを共有化するためのサーバ１１０が接続された構成となっている。その他の構成は図１と同様である。
【０１４１】
例えば、ある会社の社内で複数の音声入力システムを備えた機器（例えばＰＤＡ）を使う場合には、時間に関連付けられた環境情報を、サーバ１１０内に記憶することでその会社の社員用情報として共有化できる。
【０１４２】
このように環境情報を共有化すると、いちいち他の社員から環境情報を貰わなくても、社員なら会社施設内のどこでも時間に対応した最適な使用環境で音声入力を行うことが可能となる。
【０１４３】
〔第１１の実施の形態〕
第１１の実施形態では、自身の音声入力システムの信号処理機能の一部を他の音声入力システムと共有化するものである。
【０１４４】
前述の環境情報の共有化のほかに、音声の信号処理を適切なサーバで共有の信号処理パラメータを用いて一括処理する形での共有化も可能である。信号処理のパラメータを共有化することで、複数人が使う状況、すなわち同じ場所（部屋など）に同じ時間にいる人は使用環境が同じとなり使用パラメータ値も複数の音声入力システムで同じものとなることによって、同じ信号処理がなされる結果、音声を入力し処理する際に、簡便に共通サービスを受けられるというメリットが得られる。
【０１４５】
図１６は本発明の第１１の実施形態の音声入力システムの概略構成のブロック図を示している。インターネット等のネットワークに信号処理動作を行う部分を共有化するためのサーバ１１０Ａが接続され、音声入力システム１０１Ｂには信号処理部が無い構成となっている。
【０１４６】
このような構成では、マイク１０６などから音声が音声入力システム１０１Ｂに入力されると、通信部１０２を介して記憶領域部１０３に音声データとして一旦取り込まれ、制御部１０５の制御によって、ネットワーク１０８を経由してサーバ１１０Ａに転送される。そして、サーバ１１０Ａに格納されている時間に関連づけされた信号処理パラメータを用いて信号処理した後、その処理結果のデータをネットワーク経由で音声入力システム１０１Ｂに返送し、記憶領域部１０３の所定の領域に処理後のデータとして格納するか、音声入力システム１０１Ｂを備えた端末装置の本体部（図示せず）のデータ記録部に格納する。
【０１４７】
尚、本発明における音声入力システムを備えた端末装置は、音声認識を用いた個人認証装置に応用できることは勿論である。より具体的には、本発明の音声入力システムを携帯端末における個人認証に用いても有用である。
【０１４８】
【発明の効果】
以上述べたように本発明によれば、時間の情報から、環境情報を参照し、その環境情報に基づいて入力音声の信号処理を制御することができる。これによって、ユーザや音声入力システムの上位システムの制御を必要とすることなく、周囲の状況に合わせた信号処理を行うことができるという効果を有する。
【図面の簡単な説明】
【図１】本発明に係る音声入力システムの概略構成を示すブロック図。
【図２】本発明の第１の実施の形態の処理フローを示す図。
【図３】本発明に係る音声入力システムの他の構成例を示すブロック図。
【図４】本発明に係る音声入力システムを備えた端末の概略構成を示すブロック図。
【図５】音声入力システムの使用例を説明する図。
【図６】本発明の第１の実施の形態での環境情報と音声処理内容の対応関係を示す図。
【図７】本発明の第２の実施の形態での環境情報と音声処理内容の対応関係を示す図。
【図８】本発明の第３の実施の形態での環境情報とパラメータの対応関係を示す図。
【図９】本発明の第４の実施の形態の処理フローを示す図。
【図１０】本発明の第４の実施の形態での環境情報とパラメータの対応関係を示す図。
【図１１】本発明の第７の実施の形態での環境情報とパラメータの対応の概念図
【図１２】本発明の第８の実施の形態に係る、通信部を介した音声入力システム間の情報授受を示す図。
【図１３】本発明の第９の実施の形態に係る音声入力システムの概略構成を示すブロック図。
【図１４】本発明の第９の実施の形態での環境情報とパラメータの対応関係を示す図。
【図１５】本発明の第１０の実施の形態に係る音声入力システムの概略構成を示すブロック図。
【図１６】本発明の第１１の実施の形態に係る音声入力システムの概略構成を示すブロック図。
【符号の説明】
１０１…音声入力システム、１０２…通信部、１０３…記憶領域部、１０４…信号処理部、１０５…制御部、１０６…マイク、１０７…他の機器（ＰＤＡなど）、１０８…ネットワーク、１１１…ＰＤＡ（端末）、１１２…ＰＤＡ本体部（本体部）。

Claims

音声信号を受信する受信手段と、
前記音声信号に対して信号処理を施す信号処理手段と、
時間に関連づけられた環境情報を記憶する記憶手段と、
時間を計測する時間計測手段と、
前記計測された時間から関連する環境情報を前記記憶手段から取り出し、当該環境情報に基づいて前記信号処理手段を制御する制御手段と、
を備えたことを特徴とする音声入力システム。
さらに、前記信号処理に用いるパラメータを時間に関連づけて記憶する手段を具備し、
前記制御手段は、前記環境情報だけでなく、前記パラメータに基づいて、入力音声の前記信号処理を制御することを特徴とする請求項１に記載の音声入力システム。
さらに、前記信号処理の結果を反映して前記環境情報や前記パラメータの内容を変更する手段を具備したことを特徴とする請求項２に記載の音声入力システム。
前記環境情報が場所の情報であることを特徴とする請求項１乃至３のいずれか１つに記載の音声入力システム。
前記環境情報が人間の情報であることを特徴とする請求項１乃至３のいずれか１つに記載の音声入力システム。
前記信号処理の内容が、入力対象である音声以外の雑音の影響を抑圧する処理であることを特徴とする請求項１乃至３のいずれか１つに記載の音声入力システム。
さらに、音声認識を行う手段を具備し、
前記環境情報や前記パラメータを基に前記信号処理を行うと共に前記音声認識を行うことを特徴とする請求項１乃至３のいずれか１つに記載の音声入力システム。
さらに、他の音声入力システムと情報の授受を行う手段を具備し、
他の音声入力システムの前記環境情報や前記パラメータを利用して、自身の音声入力システムの前記環境情報や前記パラメータを更新可能としたことを特徴とする請求項１乃至３のいずれか１つに記載の音声入力システム。
さらに、音声信号以外のセンサ情報を入力する手段を具備し、
前記センサ情報を利用して、自身の音声入力システムの前記環境情報や前記パラメータを更新可能としたことを特徴とする請求項１乃至３のいずれか１つに記載の音声入力システム。
さらに、記憶手段若しくは信号処理手段の一部を他の音声入力システムと共有化することを特徴とする請求項１乃至３のいずれか１つに記載の音声入力システム。
音声信号を受信する受信手段と、
時間に関連づけられた環境情報を記憶する記憶手段と、
時間を計測する時間計測手段と、
前記音声信号に対して信号処理を施す信号処理手段と、
時間に関連づけられた前記環境情報を記憶する記憶領域がシステム外部にある場合に、その環境情報を読み出すためのアドレス情報を時間と関連づけて記憶する記憶部を有し、前記計測された時間から関連する環境情報を前記外部の記憶領域から読み出し、当該環境情報に基づいて前記信号処理手段を制御する制御手段と、
を備えたことを特徴とする音声入力システム。
音声信号を受信する受信手段と、
前記音声信号に対して信号処理を施す信号処理手段と、
時間に関連づけられた環境情報を記憶する記憶手段と、
時間を計測する時間計測手段と、
前記計測された時間から関連する環境情報を前記記憶手段から取り出し、当該環境情報に基づいて前記信号処理手段を制御する制御手段と、
を具備したことを特徴とする、音声入力システムを備えた端末装置。
さらに、前記信号処理に用いるパラメータを記憶する手段を具備し、
前記制御手段は、前記環境情報だけでなく、前記パラメータに基づいて、入力音声の前記信号処理を制御することを特徴とする請求項１２に記載の音声入力システムを備えた端末装置。
さらに、前記信号処理の結果を反映して前記環境情報や前記パラメータの内容を変更する手段を具備したことを特徴とする請求項１３に記載の音声入力システムを備えた端末装置。