JP2016180915A

JP2016180915A - 音声認識システム、クライアント装置、音声認識方法、プログラム

Info

Publication number: JP2016180915A
Application number: JP2015061832A
Authority: JP
Inventors: 智子川瀬; Tomoko Kawase; 和則小林; Kazunori Kobayashi; 仲大室; Hitoshi Omuro
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2016-10-13
Anticipated expiration: 2035-03-25
Also published as: JP6320963B2

Abstract

【課題】クライアント装置に高度な処理を要求せず、単純な構成の音声認識サーバ装置を用いて低い導入コストで高い性能を実現することができる音声認識システムを提供する。【解決手段】クライアント装置と、複数の音声認識サーバ装置を含む音声認識システムであって、音声認識サーバ装置のそれぞれは、クライアント装置に入力される音響信号の収音条件に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとし、クライアント装置は、入力された音響信号の収音条件を抽出する収音条件抽出部と、抽出された収音条件に対応する音声認識サーバ装置に音響信号または音響信号に由来する信号を送信する送信部を含む。【選択図】図１

Description

本発明は、クライアント装置と複数の音声認識サーバ装置を含む音声認識システム、クライアント装置、音声認識方法、プログラムに関する。

従来のサーバ・クライアント型の音声認識方法について開示した文献として例えば特許文献１がある。特許文献１のサーバ・クライアント型音声認識方法は、クライアント装置で観測した無音声区間の信号によって雑音モデルを生成し、クライアント装置と音声認識サーバ装置のそれぞれにおいて雑音モデルと音声モデルとにより共通の雑音重畳音声モデルを生成し、クライアント装置では認識対象とする入力音声の特徴量を雑音重畳音声モデルに基づいてコード化して音声認識サーバ装置に送信し、音声認識サーバ装置ではクライアント装置から受信したコードを雑音重畳音声モデルに基づいて特徴量に変換する。この方法は、雑音モデルに基づく雑音重畳音声モデルをその都度生成するので、様々な雑音下における音声の認識処理に対応できるという利点があった。

また特許文献２の音声認識方法では、音声入力時の雑音区間（音声区間でない区間）の信号と、雑音重畳音声モデルを作成する際に重畳した雑音信号との類似度（雑音類似度という）を計算し、類似度が所定値以上を示す雑音重畳音声モデルを音声認識用の確率モデルとして利用したり、類似度が所定値以上となる雑音重畳音声モデルが存在しなければ予め格納してある音声モデルと雑音区間の信号とを利用して雑音信号に適応した雑音重畳音声モデルを作成して音声認識用の確率モデルとする。この方法は、クライアント装置に高度な処理を要求しなくて良いという利点があった。

特許第４７６９１２１号公報特許第４２４２３２０号公報

特許文献１の方法では、雑音モデルを観測してから雑音重畳音声モデルを生成して認識に利用するために時間がかかるとすれば、雑音モデル観測時の雑音の特性と認識利用時の雑音の特性とが異なってしまい音声認識性能に影響を及ぼす可能性がある。音声認識利用のために雑音重畳音声モデルを高速に生成するためには、クライアント装置に高度な処理能力を求めることになってしまう。また音声認識サーバ装置側においても同様に、雑音重畳音声モデルを作成するためにその稼働量が一時的に増大するという問題が生じる。

特許文献２の方法を、大多数の利用者が同時に利用するサーバ・クライアント型音声認識システムに適用しようとすると、あらゆる利用者の雑音区間の信号に対応するためには、１つの音声認識サーバ装置の中に様々な雑音に対応した雑音重畳音声モデルを格納する必要があり、モデルの管理が複雑になってしまう。もしくは、クライアント装置から雑音区間の信号を受信する都度、雑音重畳音声モデルを作成するために音声認識サーバ装置の稼働量が一時的に増大するという問題が生じる。

そこで本発明では、クライアント装置に高度な処理を要求せず、単純な構成の音声認識サーバ装置を用いて低い導入コストで高い性能を実現することができる音声認識システムを提供することを目的とする。

本発明の音声認識システムは、クライアント装置と、複数の音声認識サーバ装置を含む。音声認識サーバ装置のそれぞれは、クライアント装置に入力される音響信号の収音条件に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとする。クライアント装置は、収音条件抽出部と、送信部を含む。

収音条件抽出部は、入力された音響信号の収音条件を抽出する。送信部は、抽出された収音条件に対応する音声認識サーバ装置に、音響信号または音響信号に由来する信号を送信する。

本発明の音声認識システムによれば、クライアント装置に高度な処理を要求せず、単純な構成の音声認識サーバ装置を用いて低い導入コストで高い性能を実現することができる。

実施例１の音声認識システムの構成を示すブロック図。実施例１の音声認識システムの動作を示すシーケンス図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下の説明では、音声認識対象とする発声された信号を音声信号、音声信号と音声信号以外の背景雑音信号などが混在した状態で収音した信号を音響信号と呼ぶこととする。

以下、実施例１の音声認識システムの概要について説明する。本実施例の音声認識システムは、クライアント装置側の収音条件に基づいて、クライアント装置に入力された音響信号（あるいはその特徴量）の送信先となる音声認識サーバ装置を選択し、選択された音声認識サーバ装置では、クライアント装置側の収音条件に特化した特性を持つ音響モデルのみを格納しておくという着想に基づいている。このシステムによれば、収音条件に応じて最適な音声認識サーバ装置で音声認識処理を行うことができ、低い導入コストで高い性能を実現することができる。

また本実施例の音声認識システムでは、入力された音響信号（あるいはその特徴量）を音声認識サーバ装置に送信する前に、クライアント装置側で例えば雑音抑圧のような信号処理を行う。この場合クライアント装置側で、前述の収音条件に基づいて信号処理を実施するか否かを決定し、信号処理を実施したか否かに応じて、音響信号（あるいはその特徴量）の送信先となる音声認識サーバ装置を異ならせる。これにより、音声認識サーバ装置に送信される信号と、音声認識サーバ装置の音響モデルの特性を適合させることができ、、さらに音声認識処理の性能を高くすることができる。

以下、図１、図２を参照して本実施例の音声認識システムの構成、および動作について説明する。図１は、本実施例の音声認識システム１の構成を示すブロック図である。図２は、本実施例の音声認識システム１の動作を示すシーケンス図である。図１に示すように、本実施例の音声認識システム１は、クライアント装置１０と、複数の音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎ（ＮはＮ≧２を充たす整数、ｎは１≦ｎ≦Ｎを充たす整数）を含む。図１においてクライアント装置１０は１台のみ図示したが、これに限らずクライアント装置１０は複数台あってもよい。音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎをまとめて呼称する際には、音声認識サーバ装置群２０と呼ぶ。クライアント装置１０と音声認識サーバ装置群２０は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。

音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎは、クライアント装置１０に入力される音響信号の収音条件（詳細は後述）に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとする。音響モデルの特性として例えば雑音特性などが考えられる。クライアント装置１０は、収音条件抽出部１１と、しきい値記憶部１１１と、選択部１２と、送信先記憶部１２１と、信号処理部１３と、送信部１４と、受信部１５と、呈示部１６を含む。

収音条件抽出部１１は、入力された音響信号の収音条件を抽出する（Ｓ１１）。選択部１２は、抽出された収音条件に基づいて、対応する音声信号の送信先となる音声認識サーバ装置（例えば音声認識サーバ装置２１−１）を選択する（Ｓ１２）。収音条件と送信先となる音声認識サーバ装置との関係は、送信先記憶部１２１に予め記憶されているものとする。

＜収音条件＞
収音条件は、例えば音声信号の大きさと背景雑音信号の大きさの比率であるＳ／Ｎ比に関する特徴量、音響信号のひずみに関する特徴量、背景雑音信号のスペクトル形状に関する特徴量、背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件とすることができる。しきい値は、しきい値記憶部１１１に予め記憶されているものとする。

背景雑音信号とは発声音声や目的音が入力される直前の一定時間にマイクで観測された信号である。背景雑音信号の大きさとは、背景雑音信号のパワースペクトルの一定時間の平均値である。背景雑音信号のスペクトル形状とは、背景雑音信号のスペクトルにおける各帯域の成分やその時間変化である。音声信号と背景雑音信号のＳ／Ｎ比とは、発声音声（目的音）入力中の音響信号中の音声信号の大きさと背景雑音信号の大きさの比である。音声信号として、発声音声（目的音）入力中の一定時間の音響信号のパワースペクトルから背景雑音信号のパワースペクトルの一定時間の平均値を差し引いたパワースペクトルを用いることができる。音声信号の大きさとは、発声音声（目的音）入力中の一定時間の音声信号のパワースペクトルの平均値である。

音響信号のひずみとは、音響信号の入力が大きすぎたためにマイクロホン素子、マイクロホンアンプ回路、Ａ／Ｄ変換がクリッピングしているものを指す。入力信号レベルが、あらかじめ決めた閾値以上の振幅を持つ区間を検出し、その時間的な割合を計算する。この割合が高ければひずみが大きく、割合が小さければひずみが小さい。閾値以上の振幅となっていなければ、ひずみなしとすることができる。閾値は、マイク素子、回路、AD変換のクリッピングレベルに合わせて設定する。

＜収音条件抽出部１１（Ｓ１１）、選択部１２（Ｓ１２）＞
以下に、収音条件抽出部１１、選択部１２の動作（Ｓ１１、Ｓ１２）の例について述べる。収音条件抽出部１１は、例えば入力された音響信号から収音条件を表す特徴量を抽出し、特徴量の値に応じて入力された音響信号をグループ（例えば収音条件を表す符号）に分ける。

次に、選択部１２は、表１に記載のように、グループ（収音条件を表す符号）とインデックス（送信先音声認識サーバ装置を表す符号）の関係に基づいて、対応する音響信号の送信先となる音声認識サーバ装置（例えば音声認識サーバ装置２１−１）を選択する（Ｓ１２）。

特徴量xは例えば、音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるＳ／Ｎ比、音響信号のひずみの有無やひずみの頻度、背景雑音信号のスペクトル形状、背景雑音信号の大きさ、などとすることができる。

特徴量xをＳ／Ｎ比とする場合、例えばしきい値をθ₁=0dB、θ₂=10dB、θ₃=20dB等と設定し、x=5dBならば収音条件抽出部１１はグループ2を収音条件として抽出し、選択部１２はインデックス2を選択する。

特徴量xを音響信号のひずみとする場合、たとえばビットデプス16bitで量子化した信号で、0.5秒間で振幅の絶対値が30000以上となる時間の割合を特徴量xとする。しきい値をθ₁=0.8等と設定し、x=0ならば収音条件抽出部１１はグループ1を収音条件として抽出し、選択部１２はインデックス1を選択し、x=0.9ならば収音条件抽出部１１はグループ2を収音条件として抽出し、選択部１２はインデックス2を選択する。

特徴量xを背景雑音信号のスペクトル形状とする場合、例えば背景雑音信号の大きさを周波数帯域や継続時間によりx₁、x₂、…、x_m等（mはm≧2を充たす整数）と分けて評価する。収音条件抽出部１１は、評価結果の組み合わせからグループを抽出し、選択部１２はそのインデックスを選択する。また、背景雑音信号のスペクトル形状を特徴量として用いる別の方法として、複数種類の背景雑音信号のモデルを記憶しておき、入力された信号の背景雑音信号をモデルのいずれかに分類することもできる。複数種類の背景雑音信号とは、例えばホワイトノイズ、ピンクノイズ、バーストノイズなどである。この方法では、モデル一つ一つに対応するグループを割振っておき、入力された信号の背景雑音信号が分類されたモデルに応じてグループが決定される。

特徴量xを背景雑音信号の大きさとする場合、たとえばθ₁=40dBA、θ₂=55dBA、θ₃=70dBA等と設定し、特徴量x=50dBAならば収音条件抽出部１１はグループ2を収音条件として抽出し、選択部１２はインデックス2を選択する。ここでdBAとは人間の聴覚を考慮した周波数重み付け特性（A特性）のもとで測定した騒音レベルのdB値の単位である。

＜信号処理部１３（Ｓ１３）＞
信号処理部１３は、抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する（Ｓ１３）。具体的には信号処理部１３は、Ｓ／Ｎ比や背景雑音信号の大きさが、収音条件抽出部１１で抽出された収音条件に基づいて決定される音声認識サーバ装置において音声認識対象として想定していた特徴量の範囲に適合するように、対応する音響信号を信号処理する。例えばＳ／Ｎ比＝１近傍、すなわち０ｄＢ近傍の収音条件は、音声信号の大きさと背景雑音信号の大きさが同等であり、そのような音響信号をそのまま音声認識に用いれば性能の低下を招きやすい。従って、Ｓ／Ｎ比＝０ｄＢ近傍の収音条件を収音条件抽出部１１で抽出した場合は、当該収音条件の音響信号に対して背景雑音信号を抑圧する信号処理を信号処理部１３で適用する。あるいは例えばＳ／Ｎ比＝１００近傍、すなわち２０ｄＢ近傍の収音条件を収音条件抽出部１１で抽出した場合は、前述の０ｄＢ近傍の収音条件と同様に、Ｓ／Ｎ比の値に応じて適応的に背景雑音信号を抑圧する処理を行うとしても良いし、抑圧する処理を全く行わないとしても良い。その他の収音条件においても、信号処理部１３において、収音条件抽出部１１で抽出した結果に基づき、音響信号への信号処理を適応的に行う。

以下に、信号処理部１３の動作（Ｓ１３）の例について述べる。音声認識では、多くの場合、前処理として信号処理により入力音声を補正する。音声認識において前処理して対処すべき音響特性として、例えば、加法性雑音と乗法性雑音がある。加法性雑音は、音声入力環境に遍在する雑音のように音声信号に対して加法的に観測される信号である。一方、乗法性雑音とはマイクの特性や空間伝達特性などの音響特性に起因する雑音（ひずみ）であり、時間波形では原音声波形に対する畳み込み演算として観測されるもので、スペクトル波形では乗算性のひずみとなるものである。加法性雑音に対処した音声認識処理の例としては、参考特許文献１の段落［０００５］に開示されたスペクトルサブトラクション法に基づく雑音抑圧法、または同文献の段落［０００７］に開示されたウィナー・フィルタ法（以下、ＷＦ法という）に基づく雑音抑圧法などのように、雑音の重畳した音声から雑音を抑圧して音声認識に適用する方法がある。
（参考特許文献１：特許第４４６４７９７号公報）

加法性雑音に加えて乗法性雑音に対処した音声認識処理の例としては、参考特許文献１のように乗法性雑音の影響を除去した音声モデルに雑音モデルを重畳させた雑音重畳音声モデルを生成してから乗法性特徴量に基づいてモデルを更新する方法がある。あるいは参考特許文献２の発明のように、雑音モデルに対しても乗法性雑音特徴量に基づいて正規化した上で正規化雑音重畳音声モデルを生成する方法がある。
（参考特許文献２：特許第５２０００８０号公報）

信号処理部１３が行う信号処理として典型的には雑音抑圧が考えられる。雑音抑圧以外の信号処理としては、例えばAGC(Automatic Gain Control)、CMN(Cepstrum Mean Normalization)、イコライザなどでもよい。

＜AGC＞
Automatic Gain Control(AGC)は、入力音声信号の短時間平均パワーまたは短時間平均振幅をもとに入力信号レベルを検出し、入力信号レベルと最適レベル（目標値）との差分が少なくなるように音声入力段の利得（ゲイン）を調整する処理である。AGCはA/D変換後の音声波形が過少または過大になって音声特徴量が不明瞭になることを防ぐ効果がある。AGCについては、例えば参考特許文献３の段落［０００１］に開示されている。
（参考特許文献３：特許第３５８８５５５号公報）

＜CMN＞
Cepstrum Mean Normalization(CMN)とは、音声認識の特徴量であるケプストラムにおいて、入力音声信号の長時間ケプストラム平均を求め、各フレームの入力音声のケプストラムから長時間ケプストラム平均をさし引く処理である。CMNは、マイクロホンの特性、マイクロホンの位置、部屋の形状に代表される乗算性ひずみの影響を軽減するために用いられる。CMNについては、例えば参考特許文献１の段落［００１０］に開示されている。

なお、クライアント装置１０の信号処理部１３でCMNを実施する場合、クライアント装置１０から音声認識サーバ装置へは、音声認識のための音響信号に由来する信号として、CMN適用後のMFCC(メル周波数ケプストラム)が送信されることとしておけば、音声認識サーバ装置で再度ケプストラム分析する処理を省くことができる。

＜イコライザ＞
イコライザとは、入力音声信号のゲインを周波数帯域ごとに調整する処理である。例えば音声入力用のマイクロホンの音響特性が平坦でないことが予めわかっていれば、イコライザを経由することで、音響特性を改善したうえで収音することができる。イコライザについては、例えば参考特許文献４の段落［００１０］、［００１６］に開示されている。
（参考特許文献４：特許第２８６５２６８号公報）

次に、送信部１４は、抽出された収音条件に対応する音声認識サーバ装置（ステップＳ１２で選択された音声認識サーバ装置）に、音響信号または音響信号に由来する信号を送信する（Ｓ１４）。このとき、送信部１４は、ステップＳ１３の信号処理がされていない場合と信号処理がされた場合とで送信先を異ならせて、信号処理がされていない音響信号、または信号処理がされた音響信号を送信するものとする。また、ステップＳ１２で選択された音声認識サーバ装置とは関係なくステップＳ１３の信号処理が実施されたか否かだけで、異なる音声認識サーバ装置のうちのいずれかの送信先を決定しても良い。なお、音響信号に由来する信号とは、音響信号の特徴量を表す信号、ステップＳ１３における信号処理を施した音響信号などを指す。また送信部１４は、音響信号または音響信号に由来する信号を送信する際に、収音条件（グループ）やそのしきい値、信号処理部１３における信号処理の有無に関する情報を音声認識サーバ装置に送信しても良い。音声認識サーバ装置は収音条件（グループ）やそのしきい値、や信号処理の有無から、どのような収音条件または信号処理条件において当該音声認識サーバ装置が選択されたかを記録することが可能になる。

音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎは、クライアント装置１０から音響信号または音響信号に由来する信号を受信する（Ｓ２１Ａ）。音響信号または音響信号に由来する信号を受信した音声認識サーバ装置（例えば音声認識サーバ装置２１−１）は、音声認識処理を実行する（Ｓ２１Ｂ）。

＜音声認識処理（Ｓ２１Ｂ）＞
ステップＳ２１Ｂの音声認識処理は、例えば以下のように実行される。音声認識サーバ装置は、一文章や一単語の発話を文字列に変換する。音声認識サーバ装置は、音声特徴量として音声のパワーやその変化量、MFCC(メル周波数ケプストラム、Mel-Frequency Cepstrum Coefficient)やその動的変化量を用いる。音声認識サーバ装置は、統計的な音響モデルや言語モデルを用いて単語列を探索する。

ステップＳ２１Ｂの音声認識処理を実行した音声認識サーバ装置は、音声認識結果をクライアント装置１０に送信する（Ｓ２１Ｃ）。クライアント装置１０の受信部１５は、音声認識結果を受信する（Ｓ１５）。クライアント装置１０の呈示部１６は、受信した音声認識結果を呈示する（Ｓ１６）。

このように、本実施例の音声認識システム１、クライアント装置１０によれば、クライアント装置側の収音条件に基づいて、送信先となる音声認識サーバ装置を選択し、選択された音声認識サーバ装置では、音響モデルとしてクライアント装置側の収音条件に特化した特性を持つ音響モデルのみを格納しておくため、収音条件に応じて最適な音声認識サーバ装置で音声認識処理を行うことができ、低い導入コストで高い性能を実現することができる。

また本実施例の音声認識システム１、クライアント装置１０によれば、クライアント装置側で例えば雑音抑圧のような信号処理を行い、信号処理を実施したか否かに応じて、音響信号（あるいはその特徴量）の送信先となる音声認識サーバ装置を異ならせることとしたため、音声認識サーバ装置の選択範囲が広がり、さらに音声認識処理の性能を高くすることができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

クライアント装置と、複数の音声認識サーバ装置を含む音声認識システムであって、
前記音声認識サーバ装置のそれぞれは、
前記クライアント装置に入力される音響信号の収音条件に基づいて前記音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとし、
前記クライアント装置は、
入力された音響信号の収音条件を抽出する収音条件抽出部と、
前記抽出された収音条件に対応する音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信する送信部を含む
音声認識システム。
請求項１に記載の音声認識システムであって、
前記特性は、雑音特性である
音声認識システム。
請求項１または２に記載の音声認識システムであって、
前記クライアント装置は、
前記抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する信号処理部を含み、
前記送信部は、
前記信号処理がされていない場合と前記信号処理がされた場合とで送信先を異ならせて、前記信号処理がされていない音声信号、または前記信号処理がされた音響信号を送信する
音声認識システム。
請求項１から３の何れかに記載の音声認識システムであって、
前記クライアント装置は、
前記抽出された収音条件に基づいて、対応する音響信号の送信先となる音声認識サーバ装置を選択する選択部を含む
音声認識システム。
請求項１から４の何れかに記載の音声認識システムであって、
前記収音条件は、
前記音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるＳ／Ｎ比に関する特徴量、前記音響信号のひずみに関する特徴量、前記背景雑音信号のスペクトル形状に関する特徴量、前記背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件である
音声認識システム。
複数の音声認識サーバ装置と通信するクライアント装置であって、
入力された音響信号の収音条件を抽出する収音条件抽出部と、
前記抽出された収音条件が所定の条件に該当する場合に前記音響信号を信号処理する信号処理部と、
前記信号処理がされていない場合と前記信号処理がされた場合とで送信先を異ならせて、前記信号処理がされていない音響信号、または前記信号処理がされた音響信号を前記音声認識サーバ装置の何れかに送信する送信部を含む
クライアント装置。
複数の音声認識サーバ装置と通信するクライアント装置であって、
入力された音響信号の収音条件を抽出する収音条件抽出部と、
前記抽出された収音条件に基づいて、対応する音響信号の送信先となる音声認識サーバ装置を選択する選択部と、
前記選択された音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信する送信部を含む
クライアント装置。
複数の音声認識サーバ装置と通信するクライアント装置が実行する音声認識方法であって、
前記音声認識サーバ装置のそれぞれは、
前記クライアント装置に入力される音響信号の収音条件に基づいて前記音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとし、
前記クライアント装置は、
入力された音響信号の収音条件を抽出するステップと、
前記抽出された収音条件に対応する音声認識サーバ装置に、前記音響信号または前記音響信号に由来する信号を送信するステップを実行する
音声認識方法。
コンピュータを、請求項６または７に記載のクライアント装置として機能させるためのプログラム。