JP2006079079A

JP2006079079A - 分散音声認識システム及びその方法

Info

Publication number: JP2006079079A
Application number: JP2005248640A
Authority: JP
Inventors: Myeong-Gi Jeong; 明基鄭; Myeon-Kee Youn; 勉基尹; Hyun-Sik Shim; 賢植沈
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-09-06
Filing date: 2005-08-30
Publication date: 2006-03-23
Also published as: US20060053009A1; CN1746973A; KR100636317B1; KR20060022156A

Abstract

【課題】音声認識環境によるチャネル変化に強い認識システムの構成と、音声データ区間と音声データ区間内の休止区間の有無に基づく無制限単語認識及び自然語音声認識を行うことができる分散音声認識システム及びその方法を提供する。
【解決手段】本発明による分散音声認識システム及びその方法は、入力される入力信号から音声区間内の休止区間を検出することによって、単語認識及び自然言語認識を可能にし、且つ、多様な端末が要求する音声認識対象が多様なので、端末の識別子を用いて該当端末が要求する認識語彙群を選別して同じ音声認識システムで多様な認識語彙群（例えば、家庭用音声認識語彙群、車両用テレマティックス語彙群、コールセンター用語彙群など）を処理できるようにした。
【選択図】図１

Description

本発明は、ネットワークサーバと移動端末との無線通信を用いた分散音声認識システム及びその方法に関し、特に、演算量とメモリ使用が制約される移動端末において効果的な音声認識性能を提供するために、無線通信網に連結したネットワークサーバから支援をし、言語情報が要求される自然言語認識をネットワークサーバで処理することによって、移動端末において無制限の語彙の単語認識と共に、自然言語認識を可能にする分散音声認識システム及びその方法に関する。

一般的に、音声信号認識技術は、大きく、音声認識と話者認識とに分けられる。また、音声認識は、特定の話者だけに対して認識する話者従属システムと、話者に関係なく認識する話者独立システムとに分けられる。話者従属システムの音声認識は、使用前にユーザの音声を記憶し、登録し、実際に認識を行う場合には、入力された音声のパターンと記憶された音声のパターンとを比較して認識するようになる。

一方、話者独立システムの音声認識は、不特定の多数の話者の音声を認識するためのものであって、話者従属システムの音声認識のように、ユーザがシステムの動作前に音声を登録しなければならないという面倒さがない。すなわち、多数の話者の音声を収集して、統計的なモデルを学習させ、学習されたモデルを用いて認識を行うようになる。したがって、各話者の特徴的な特性は除去され、各話者間に共通に現れる特性が強調される。

話者従属システムの音声認識は、話者独立システムの音声認識に比べて相対的に認識率が高く、技術の実現が容易なので、実用化に有利である。

一般的に、音声認識システムは、スタンドアロン（Standalone）タイプの大型認識システム、又は端末機での小型認識システムが主流となっている。

近年、分散音声認識システムが開発されるに伴って、多様な形態のシステム構造が登場し、開発中にある。多くの分散音声認識システムの構造は、ネットワークを介してのサーバ／クライアントの構造よりなり、クライアントは、音声認識に必要な音声信号の特徴抽出または雑音除去を行う前処理段階を実行し、サーバは、実際の認識エンジンを備えて、認識を行う構造よりなり、又は、クライアントとサーバで同時に認識を行う構造が主流となっている。

このような既存の分散音声認識システムは、クライアントの有する資源（Resource）の限界を克服しようとする部分に多くの焦点が当てられている。例えば、携帯電話やテレマティックス端末、または移動無線ＬＡＮ端末などモバイル端末が持っているハードウェアの制約が、音声認識性能の限界を引き起こすので、これを克服するためには、有無線通信網に連結したサーバの資源を活用しなければならない。

したがって、クライアントが要求する高性能の音声認識システムを、ネットワークサーバに装備し、これを活用する。すなわち、移動端末が要求する範囲内の単語認識システムを構成する。このとき、構成されるネットワークサーバの音声認識システムは、端末で音声認識を使用する主な用途により音声認識対象の語彙が決定され、ユーザは、用途によって分散音声認識が可能な、携帯電話、知能型移動端末、テレマティックス端末などに個別的に動作する音声認識システムを使用するようになる。

移動端末の特性に関連付けられた単語認識と対話体の自然言語認識とを共に行うことができる分散音声認識システムが未だ構成されておらず、これを行うことができる基準も提示されていないのが現状である。

従って、本発明は、前述のような問題点を解決するためになされたもので、本発明の目的は、音声認識環境によるチャネル変化に強い認識システムの構成と、音声区間と音声区間内の休止区間の存在の有無に基づいて、無制限の単語認識及び自然言語音声認識を行うことができる分散音声認識システム及びその方法を提供することにある。

また、本発明の他の目的は、各端末が必要とする認識対象のデータベースを選択的に選定して、認識システムの効率を高め、且つ、認識しようとする環境が認識に及ぼす影響を低減するために、チャネル詳細情報を抽出し、認識対象モデルをチャネルの特性に適応させて、認識性能を改善することができる分散音声認識システム及びその方法を提供することにある。

上記目的を達成するために、本発明の一態様に係る分散音声認識システムは、入力される音声信号における音声区間の休止区間をチェックし、入力された音声の種類を判別し、音声認識処理が可能な音声である場合には、判別された音声の種類に基づいて、格納された音声の認識対象モデルを選定し、選定された認識対象モデルに基づいて、入力音声データを認識処理し、音声認識処理が可能ではない音声である場合には、音声認識処理要求データをネットワークを介して転送する第１の音声認識ユニットと、第１の音声認識ユニットによりネットワークを介して転送される音声認識処理要求データを分析し、認識処理すべき音声に相当する認識対象モデルを選定し、選定された音声認識対象モデルを適用して音声認識による言語処理を行い、言語処理結果データをネットワークを介して第１の音声認識ユニットに転送する第２の音声認識ユニットとを備えることを特徴とする。

第１の音声認識ユニットは、端末に装着され、第２の音声認識ユニットは、ネットワークサーバに装着されることによって、各々互いに異なる音声の認識処理を行う。

端末は、テレマティックス端末、移動端末、無線ＬＡＮ端末、ＩＰ端末のうち少なくとも１つの端末を含む。

ネットワークは、有線又は無線ネットワークを含む。

第１の音声認識ユニットは、入力された音声信号から音声区間を検出する音声検出部と、音声検出部で検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する休止検出部と、音声検出部で検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定するチャネル推定部と、休止検出部で休止区間が検出されていない場合には、音声データの認識特徴を抽出する特徴抽出部と、休止検出部で休止区間が検出された場合には、音声認識処理要求データを生成し、該音声認識処理要求データをネットワークを介して第２の音声認識ユニットに転送するデータ処理部と、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去し、音声認識を行う音声認識処理部とを備える。

音声検出部は、入力音声信号に対する音声波形のゼロ交差率とエネルギーと設定された閾値との比較結果によって音声区間を検出する。

音声認識処理部は、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去するモデル適応部と、モデル適応部で処理された音声データをデコードし、入力された音声信号の音声認識を行う音声認識部とを備える。

休止検出部は、前記音声検出部で検出された音声区間内に休止区間が存在していない場合には、入力された音声データが単語に関する音声データであると判断し、休止区間が存在する場合には、入力された音声データを自然言語に関する音声データであると判断する。

チャネル推定部で非音声区間のデータを用いたチャネル推定は、連続する短区間の周波数分析、エネルギー分布、ケプストラム、時間領域でのウェーブ波形平均を計算する方法のうち少なくとも１つの方法を利用する。

データ処理部は、休止検出部で休止区間が検出された場合には、第２の音声認識ユニットに休止区間を転送するために用いられる音声認識処理要求データを構成する転送データ構成部と、構成された音声認識処理要求データをネットワークを介して第２の音声認識ユニットに転送するデータ転送部とを備える。

音声認識処理要求データは、音声認識フラグ、端末識別子、チャネル推定フラグ、認識ＩＤ、全体データサイズ、音声データサイズ、チャネルデータサイズ、音声データ、チャネルデータのうち少なくとも１つの情報を含む。

第２の音声認識ユニットは、第１の音声認識ユニットによりネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類することにより、認識対象モデルをデータベースから選定するデータ受信部と、データ受信部で分類された音声データから音声認識対象特徴成分を抽出する特徴抽出部と、データ受信部から受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定するチャネル推定部と、チャネル推定部で推定されたチャネル詳細情報または第１の音声認識ユニットから受信したチャネル推定情報を用いてデータベースに格納された認識対象音響モデルに雑音成分を適応させることにより、雑音成分を除去し、音声認識を行う音声認識処理部とを備える。

音声認識処理部は、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去するモデル適応部と、モデル適応部で処理された音声データをデコードすることにより、入力された音声信号の音声認識を行う音声認識部と、認識処理された音声認識処理結果データをネットワークを介して第１の音声認識ユニットに転送するデータ転送部とを備える。

また、本発明の一態様に係る分散音声認識のための端末の音声認識装置は、入力された音声信号から音声区間を検出する音声検出部と、音声検出部で検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する休止検出部と、音声検出部で検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定するチャネル推定部と、休止検出部で休止区間が検出されていない場合には、音声データの認識特徴を抽出する特徴抽出部と、休止検出部で休止区間が検出された場合には、音声認識処理要求データを生成し、該音声認識処理要求データをネットワークを介して第２の音声認識ユニットに転送するデータ処理部と、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去するモデル適応部と、モデル適応部で処理された音声データをデコードし、入力された音声信号の音声認識を行う音声認識部とを備える。

また、本発明の一態様に係る分散音声認識のためのサーバの音声認識装置は、端末からネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類することにより、認識対象モデルをデータベースから選定するデータ受信部と、データ受信部で分類された音声データから音声認識対象特徴成分を抽出する特徴抽出部と、データ受信部から受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定するチャネル推定部と、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去するモデル適応部と、モデル適応部で処理された音声データをデコードし、入力された音声信号の音声認識を行う音声認識部と、認識処理された音声認識処理結果データをネットワークを介して端末の音声認識処理ユニットに転送するデータ転送部とを備える。

一方、本発明の一態様に係る端末及びサーバにおける分散音声認識方法は、端末に入力される音声信号に対する音声区間の休止区間をチェックすることにより、入力された音声の種類を判別し、判別された音声の種類によって音声認識処理可能な音声である場合には、格納された音声の認識対象モデルを選定し、選定された認識対象モデルによって入力音声データを認識処理し、端末でセルフ音声認識処理が可能ではない音声である場合には、音声認識処理要求データをネットワークを介してサーバに転送する段階と、サーバでは、端末からネットワークを介して転送される音声認識処理要求データを分析することにより、認識処理すべき音声データに相当する認識対象モデルを選定し、選定された認識対象モデルを適用することにより音声認識による言語処理を行い、言語処理結果データをネットワークを介して前記端末に転送する段階とを有する。

端末から音声認識処理要求データをネットワークを介してサーバに転送する段階は、入力された音声信号から音声区間を検出する段階と、検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する段階と、検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定する段階と、休止区間が検出されていない場合には、音声データの認識特徴を抽出し、休止区間が検出された場合には、音声認識処理要求データを生成し、ネットワークを介して前記サーバに転送する段階と、推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去して、音声認識を行う段階とを有する。

音声認識を行う段階は、推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、処理された音声データをデコードし、入力された音声信号の音声認識を行う段階と、を有する。

音声認識処理要求データを生成し、ネットワークを介してサーバに転送する段階は、休止区間が検出された場合には、音声データを前記サーバに転送するために用いられる音声認識処理要求データを構成する段階と、構成された音声認識処理要求データをネットワークを介して前記サーバに転送する段階とを有する。

端末に転送する段階は、前記端末からネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類し、認識対象モデルをデータベースから選定する段階と、分類された音声データから音声認識対象特徴成分を抽出する段階と、受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定する段階と、推定されたチャネル詳細情報または端末から受信したチャネル推定情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去し、音声認識を行う段階とを有する。

音声認識を行う段階は、前記推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、雑音成分が除去された音声データをデコードし、入力された音声信号の音声認識を行う段階と、認識処理された音声認識処理結果データをネットワークを介して端末に転送する段階とを有する。

また、本発明の一態様に係る分散音声認識のための端末における音声認識方法は、入力された音声信号から音声区間を検出する段階と、検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する段階と、検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定する段階と、前記休止区間が検出されていない場合には、音声データの認識特徴を抽出し、休止区間が検出された場合には、音声認識処理要求データを生成し、ネットワークを介してサーバに転送する段階と、推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、処理された音声データをデコードし、入力された音声信号の音声認識を行う段階とを有する。

また、本発明の一態様に係る分散音声認識のためのサーバにおける音声認識方法は、端末からネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類し、認識対象モデルをデータベースから選定する段階と、分類された音声データから音声認識対象特徴成分を抽出する段階と、受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定する段階と、推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、雑音成分が除去された音声データをデコードし、入力された音声信号の音声認識を行う段階と、認識処理された音声認識処理結果データをネットワークを介して端末に転送する段階とを有する。

本発明による分散音声認識システム及びその方法は、入力される入力信号から音声区間内の休止区間を検出することによって、単語認識及び自然言語認識を可能にし、且つ、多様な端末は、多様な音声認識対象を要求するため、端末の識別子を用いて該当端末が要求する認識語彙群を選別することにより、同じ音声認識システムで多様な認識語彙群（例えば、家庭用音声認識語彙群、車両用テレマティックス語彙群、コールセンター用語彙群など）を処理できるようにした。

また、端末機の種類と認識環境による多様なチャネル歪みの影響を、チャネル推定方法を用いて音声データベースモデルに適応させることにより最小化し、音声認識性能を向上させることができるようにした。

以下、添付の図面を参照して、本発明の実施形態による分散音声認識システム及びその方法を詳細に説明する。

図１は、本発明の実施形態による無線端末における音声認識システムのブロック構成を示す図である。

図１に示されるように、無線端末（クライアント）の音声認識システムは、マイク１０、音声検出部１１、チャネル推定部１２、休止検出部１３、特徴抽出部１４、モデル適応部１５、音声認識部１６、音声ＤＢ１７、転送データ構成部１８及びデータ転送部１９を備える。

音声検出部１１は、マイク１０を介して入力されるデジタル音声信号から音声信号の区間を検出し、チャネル推定部１２及び休止検出部１３に提供するものであって、音声波形のゼロ交差率（Zero-Crossing rate：以下、ＺＣＲともいう。）、信号のエネルギーなどを用いて該当入力音声信号から音声区間を検出することができる。

休止検出部１３は、音声検出部１１で検出された音声信号に、休止区間が存在するか否かを検出するものであって、音声検出部１１で検出された音声区間内に、休止区間と判別できる区間を、時間領域で検出するものである。休止区間の検出方法は、音声区間の検出方法と同様の方法で行うことができる。すなわち、検出された音声信号区間内で、ゼロ交差率と信号のエネルギーを用いて、予め設定された閾値（Threshold Value）を超過すれば、音声区間内に休止区間が存在すると判断し、検出された音声信号が、単語でなく語句又は文章であると決定し、認識処理をサーバで行うことができるようにする。

チャネル推定部１２は、音声検出部１１で検出した音声信号と音声ＤＢ１７に格納された音声信号との不一致な録音環境を補償するために、音声信号に関するチャネル環境、チャネル成分、チャネル特性等の情報（以下、チャネル詳細情報とする）を推定するものである。このような音声信号の不一致な環境、すなわちチャネル詳細情報は、音声認識率を低下させる大きな要因であり、検出した音声区間で、前後の区間に音声がない区間のデータを用いてチャネルの特性を推定する。

チャネル推定部１２でチャネルの特性を推定する方法には、周波数分析、エネルギー分布、非音声区間特徴抽出方法（例えば、ケプストラム）、時間領域でのウェーブ波形平均などを用いて推定することができる。

特徴抽出部１４は、休止検出部１３で休止区間が検出されていない場合には、音声データの認識特徴を抽出し、モデル適応部１５に提供する。

モデル適応部１５は、休止（Short Pause）モデルを、チャネル推定部１２で推定した現チャネルの状況に適応させるユニットであり、推定されたチャネルのパラメータを、適応（Adaptation）アルゴリズムによって、抽出された特徴パラメータに適用する。チャネル適応は、抽出された特徴ベクトルを構成するパラメータに反映されたチャネル詳細情報を除去する方法や、音声ＤＢ１７に格納された音声モデルに、チャネル詳細情報を付加する方法を使用する。

音声認識部１６は、端末機内に存在する音声認識エンジンを用いて、抽出された特徴ベクトルをデコードすることによって、単語認識を行う。

転送データ構成部１８は、音声データに休止区間が存在することが休止検出部１３で検出された場合や、入力された音声が予め定めた特定の長さより長い場合には、音声データとチャネル詳細情報とを組み合わせたデータを構成したり、抽出された特徴ベクトルとチャネル詳細情報とを組み合わせたりして、データ転送部１９を介してサーバに転送する。

以下、このような構成を有する本発明の実施形態による無線端末の音声認識システムの具体的な動作を説明する。

まず、マイク１０を介してユーザの音声信号が入力されると、音声検出部１１は、入力された音声信号から、実質的な音声区間を検出する。

音声検出部１１での音声区間の検出は、図２Ａ及び図２Ｂに示すように、音声のエネルギーとゼロ交差率（ＺＣＲ）を用いて検出する。ここで、ゼロ交差率とは、隣接した音声信号の符号が互いに異なる回数を意味するものであり、ゼロ交差率は、音声信号の周波数情報を含む値である。

図２Ａ及び図２Ｂに示されるように、十分に高い信号対雑音比を有する音声信号は、背景雑音と音声信号との区分を明確にすることが分かる。

また、エネルギーは、音声信号のサンプル値の演算により得ることができるが、デジタル音声信号は、入力された音声信号を短区間（Short-Period）に分けて分析し、１区間に音声サンプルがＮ個含まれている場合には、次の数式１（数１）、数式２（数２）、及び数式３（数３）のうち１つの数式を用いてエネルギーを計算することができる。

:ログエネルギー

：平均エネルギー

：ＲＭＳエネルギー

一方、ゼロ交差率は、音声信号が零点（Zero）基準を交差する回数であって、周波数と見なされ、大部分の場合、有声音で低い値を有し、無声音で高い値を有する。すなわち、ゼロ交差率は、次の数式４（数４）で表すことができる。

すなわち、隣接した２つの音声信号の積が負なら、零点を１回通過したものであり、ゼロ交差率値を増加させるものである。

前述のようなエネルギーとゼロ交差率を用いて音声検出部１１で音声区間を検出するために、音声のない区間でエネルギーとゼロ交差率を計算し、エネルギーとゼロ交差率の各閾値Ｔｈｒを計算する。

そして、入力された音声信号と短区間の分析により、各エネルギーとゼロ交差率と上記計算された閾値とを比較して、音声の有無を検出する。ここで、音声信号の開始部分を検出するためには、次の条件を満足しなければならない。

（条件１）数〜数十の短区間でのエネルギー＞エネルギーの閾値
（条件２）数〜数十の短区間でのゼロ交差率＜ゼロ交差率の閾値

すなわち、上記２つの条件を満足する場合に、条件を満足させる最初の短区間から音声信号が存在すると判断する。

そして、次の条件を満足する場合に、入力された音声信号の終り部分であると判断する。

（条件３）数〜数十の短区間でのエネルギー＜エネルギーの閾値
（条件４）数〜数十の短区間でのゼロ交差率＞ゼロ交差率の閾値

図１に示された音声検出部１１での音声検出は、エネルギー値が、閾値Ｔｈｒ.Ｕ以上になれば、音声が始まったと判断し、該当時点から所定区間の前から音声区間の開始と設定し、さらにエネルギー値が閾値Ｔｈｒ．Ｌ以下に下降する区間が一定時間継続すると、音声区間が終わったと判断する。すなわち、エネルギー値と同時に、ゼロ交差率を基準にして音声区間を判別する。

ゼロ交差率は、音声信号のレベルが零点を交差した回数を示すものである。現在の音声信号サンプル値とすぐ前の音声信号のサンプル値との積が負の場合には、零点を交差したと判断する。これを基準にすることができる理由は、音声信号が、その該当区間で周期的な区間を必ず含んでおり、その周期的な区間のゼロ交差率は、音声のない区間のゼロ交差率に比べてかなり小さいからである。すなわち、図２Ａ及び図２Ｂに示されているように、音声のない区間のゼロ交差率は、特定の閾値Ｔｈｒ.ＺＣＲより大きく現れる。反対に、音声区間では、ゼロ交差率が現れない。

そして、図１に示されたチャネル推定部１２は、音声検出部１１で検出された音声区間の前後に存在する非音声区間の信号を用いて音声信号のチャネルを推定する。

例えば、非音声区間の信号を用いて現在のチャネルの特性を周波数分析により推定し、時間的に連続する短区間特性の平均として推定することができる。ここで、非音声区間の入力信号ｘ（ｎ）は、チャネル歪みによる信号ｃ（ｎ）と環境雑音信号ｎ（ｎ）との和として表現することができる。すなわち、非音声区間の入力信号は、次の数式５（数５）で表すことができる。

前述のような方法によりチャネルを推定するに際して、連続する複数個のフレームの和により環境雑音の成分を低下させることができる。余分な環境雑音は、その和を平均することにより、その成分を除去することができる。すなわち、次の数式６（数６）を用いて雑音を除去することができる。

上記では、チャネル推定のための例示的なアルゴリズムを提示したが、これ以外にもチャネル推定のためのいかなるアルゴリズムを適用できることが分かるだろう。

上記のようなアルゴリズムを介して推定されたチャネル詳細情報は、クライアントである無線端末の音声ＤＢ１７に格納された音響モデルをチャネルに適応させるために使われる。

そして、図１に示された休止検出部１３での休止区間検出は、音声検出部１１での音声区間検出方法と同様の、ゼロ交差率とエネルギーを用いて検出を行うことができる。但し、このときに使われる閾値は、音声区間検出に使われる閾値と異なる値とすることができる。これは、無声音区間（すなわち任意雑音（Random Noise）で表現される雑音区間）を、休止区間として検出するエラーを低減するためである。

音声区間の終りを判断する前の音声区間が始まったと判断された時点以後に、一定の短い区間の非音声区間が現れれば、入力された音声信号は、端末の音声認識システムで処理することなく、サーバで処理する自然言語データと判断し、音声データを転送データ構成部１８に提供する。転送データ構成部１８については、後述することとする。

休止区間の検出は、音声区間の検出と同様に、ゼロ交差率とエネルギーを用いて判別するが、これは図６に示されている。すなわち、図６Ａは、音声波形を示し、図６Ｂは、エネルギーを用いて計算された音声信号波形を示し、図６Ｃは、ゼロ交差率を用いて計算された音声信号波形を示す。

図６Ａ〜６Ｃに示されるように、音声区間の開始と終りとの間（図中の水平軸に直交する２つの線分の間）にエネルギーが小さく、ゼロ交差率が一定の値を越える区間を、休止区間として検出することができる。

休止区間が検出された音声データは、これ以上クライアント（すなわち無線端末）にて音声認識を行わずに、サーバにて音声認識を行うことができるように、転送データ構成部１８で転送データに構成され、データ転送部１９を介して、サーバに転送される。このとき、サーバに転送されるデータは、端末の種類（すなわち端末が認識しようとする語彙）を区分できる区分子と、音声データ、及び推定されたチャネル詳細情報を含むことができる。

一方、無線端末の演算量と速い認識速度のために、音声検出及び休止区間検出を一緒に行うことができる。音声検出の実行時、非音声区間と判断される区間が一定区間存在してから、さらに音声区間が現れた場合には、この音声信号は、自然言語認識の対象と判断し、音声データをバッファ（不図示）に格納した後、端末データ転送部１９を介してサーバに転送する。このとき、転送されるデータにおいては、端末に特有の認識対象の種類及び音声データだけを転送し、チャネル推定を、サーバで行うようにすることができる。データ転送部１９からサーバに転送されるデータ、すなわち転送データ構成部１８で構成されるデータフォーマットは、図７に示されている。

図７に示されるように、転送データ構成部１８で構成されるデータフォーマットは、サーバに転送されるデータが音声認識のためのデータであるか否かを区分するための音声認識フラグ情報、転送する端末の識別子を示す端末識別子、チャネル推定情報が含まれているか否かを示すチャネル推定フラグ情報、認識結果を示す認識ＩＤ情報、転送される全体データのサイズを示す全体データサイズ情報、音声データサイズ情報及びチャネルデータサイズ情報のうち少なくとも１つの情報を含むことができる。

一方、休止検出部１３で休止区間が検出されない音声信号に対して、音声認識のために特徴抽出を行う。ここで、特徴抽出は、チャネル推定時に使用した周波数分析を用いた方法で行う。以下、特徴抽出についてより具体的に説明する。

一般的に、特徴抽出は、音声認識に有用な成分を音声信号から抽出する方法である。特徴抽出は、情報の圧縮、次元減少過程と関連する。特徴抽出では、理想的な正答はないため、音声認識のための特徴の良否の判断には、音声認識率が用いられる。特徴抽出の主要研究分野は、ヒトの聴覚特徴を反映する特徴の表現、多様な雑音環境／話者／チャネル変移に強い特徴の抽出、時間的な変化をよく表現する特徴の抽出である。

よく使われる特徴抽出方法において、聴覚特性を反映するものには、かたつむり管周波数応答を応用したフィルタバンク分析、メル（ｍｅｌ）またはバルク（ｂａｒｋ）尺度単位の中心周波数配置、周波数による帯域幅の増加、プレエンファシス（pre-emphasis）フィルタなどが使われる。ロバスト性（Robustness）を向上させるための方法として最も広く使われるものは、コンボラティブ（Convolutive）チャネルの影響を低減するために用いられるＣＭＳ（Cepstral Mean Subtraction）である。音声信号の動的特性を反映するために、ケプストラム（Cepstrum)の１次、２次の微分値を使用する。ＣＭＳ及び微分は、時間軸方向のフィルタリングであるとみなすことができ、時間軸方向への時間的非相関（temporally uncorrelated）特徴ベクトルを得る過程を含むものである。フィルタバンク係数からケプストラムを得る方法は、フィルタバンク係数を非相関（uncorrelated）なものに変えるための直交変換（orthogonal transform）とみなすことができる。ＬＰＣ（Linear Predictive Coding）を用いたケプストラムを使用した初期の音声認識では、ＬＰＣケプストラム係数に対して加重値を適用するリフタリング（Liftering）を使用することもあった。

音声認識のために主に使われる特徴抽出方法には、ＬＰＣケプストラム、ＰＬＰケプストラム、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）、フィルタバンクエネルギーなどが挙げられる。

ここで、ＭＦＣＣを求める方法について簡単に説明する。

音声信号は、アンチアライシングフィルタ（Anti-Aliasing Filter）を経た後、Ａ／Ｄ変換によりデジタル信号ｘ（ｎ）に変換される。デジタル音声信号は、高帯域通過特性を有するデジタルプレエンファシスフィルタを通過する。このデジタルエンファシスフィルタを使用する理由は、第一に、ヒトの外耳／中耳の周波数特性をモデリングするために、高帯域フィルタリングするためである。これにより、唇での放射のために生ずる２０ｄｂ／ｄｅｃａｄｅの減衰を補償し、音声から声道特性だけを得る。第二に、聴覚システムが１ＫＨｚ以上のスペクトル領域に対して敏感であるという事実をある程度補償するためである。ヒト聴覚器官の周波数特性である等ラウドネス曲線（equal-loudness curve）を、ＰＬＰ特徴抽出のためのモデリングに直接使用する。プレエンファシスフィルタの特性Ｈ（ｚ）は、次の数式７（数７）で表される。

ここで、ａは、０．９５〜０．９８の範囲の値である。

プレエンファシスされた信号は、ハミングウィンドウをかぶせてブロック単位のフレームに分けられる。以後の処理は、全てフレーム単位で行われる。フレームのサイズは、通常２０−３０ｍｓであり、フレーム移動は、１０ｍｓがよく使われる。１フレームの音声信号は、ＦＦＴを用いて周波数領域に変換される。周波数帯域をいろいろなフィルタバンクに分けて各バンクでのエネルギーを求める。

このように求められたバンドエネルギーの対数（logarithm）を取った後、離散コサイン変換（Discrete Cosine Transform）を実行することにより、最終的なＭＦＣＣが得られる。

上記では、ＭＦＣＣを用いて特徴抽出をする方法についてのみ説明したが、ＰＬＰケプストラム及びフィルタバンクエネルギーなどを用いて特徴抽出をすることができることが分かるだろう。

このように、図１に示された特徴抽出部１４で抽出された特徴ベクトルと音声ＤＢ１７に格納された音響モデルを用いて、モデル適応部１５でモデル適応を行う。

モデル適応は、端末が保有している音声ＤＢ１７に、現在入力された音声のチャネルのために生じる歪みを反映するために行う。音声区間の入力信号をｙ（ｎ）とすれば、入力信号は、音声信号ｓ（ｎ）とチャネル詳細情報ｃ（ｎ）及び雑音成分ｎ（ｎ）の和であり、次の数式８（数８）のように表現することができる。

現在実用化されている雑音除去ロジックにより、雑音成分は最小限に減少すると仮定し、入力信号を、音声信号とチャネル詳細情報との和だけであると考える。すなわち、抽出された特徴ベクトルは、音声信号とチャネル詳細情報が全て含まれたものと考え、無線端末の音声ＤＢ１７に格納されたモデルとの環境の不一致を反映する。すなわち、雑音が除去された入力信号は、次の数式９（数９）で表現される。

：雑音が除去された入力信号

ここで、無線端末の音声ＤＢ１７に格納されたモデルに、推定された成分を付加することにより、全チャネルの不一致成分を最小化する。また、特徴ベクトル空間において、入力信号は、次の数式１０（数１０）で表現することができる。

ここで、上記数式における、ＳとＣ（ｖ）の直和は、音声信号とチャネル詳細情報との和に由来する成分である。このとき、静止（Stationary）特性を有するチャネル詳細情報と音声信号とは、互いに関係がないため、特徴ベクトルは、特徴ベクトル空間において、非常に小さい要素として現れるようになる。

このような関係を用いて音声ＤＢ１７に格納された特徴ベクトルをＲ（ｖ）とすれば、モデル適応は、チャネル推定部で推定されたチャネル詳細情報Ｃ′（ｖ）を足し、新しいモデル特徴ベクトルＲ″（ｖ）を生成する。すなわち、次の数式１１（数１１）により新しいモデル特徴ベクトルを計算する。

従って、図１に示された音声認識部１６は、モデル適応部１５で前述のような方法により適応されたモデルを用いて音声認識を行い、音声認識結果を得る。

上記の説明のように端末で音声認識処理を行わない自然言語処理のためのサーバの構成及び動作、すなわち端末から転送される音声認識のための音声データを処理するサーバの構成及び動作について図３を参照して説明する。

図３は、ネットワークサーバの音声認識システムのブロック構成を示す図である。

図３に示されるように、ネットワークサーバの音声認識システムは、データ受信部２０、チャネル推定部２１、モデル適応部２２、特徴抽出部２３、音声認識部２４、言語処理部２５及び音声ＤＢ２６を備える。

データ受信部２０は、端末から図７に示すデータフォーマットで転送されるデータを受信し、受信されたデータフォーマットの各フィールドを分析する。

また、データ受信部２０は、図７に示すデータフォーマットで、端末の識別子フィールドに格納された端末の識別子値を用いて、認識しようとするモデルを音声ＤＢ２６から抽出する。

また、データ受信部２０は、受信されたデータからチャネルデータフラグを確認し、チャネル詳細情報がデータと共に端末から転送されたか否かを判断する。

この判断の結果、チャネル詳細情報がデータと共に端末から転送された場合には、データ受信部２０は、チャネル詳細情報をモデル適応部２２に提供し、音声ＤＢ２６から抽出したモデルに適応させる。ここで、モデル適応部２２でのモデル適応方法は、図１に示された端末のモデル適応部１５でのモデル適応方法と同様の方法によりモデル適応を行う。

一方、端末からチャネル詳細情報が受信データと共に転送されていない場合には、データ受信部２０は、受信された音声データをチャネル推定部２１に提供する。

したがって、チャネル推定部２１は、データ受信部２０から提供される音声データを用いて直接チャネル推定を行う。ここで、チャネル推定部２１でのチャネル推定動作は、図１に示されたチャネル推定部１２でのチャネル推定動作と同様の方法によりチャネル推定を行う。

したがって、モデル適応部２２は、チャネル推定部２１で推定されたチャネル詳細情報を音声ＤＢ２６から抽出された音声モデルに適応させる。

特徴抽出部２３は、データ受信部２０から受信された音声データから音声信号の特徴を抽出し、抽出された特徴情報を音声認識部２４に提供する。ここで、特徴抽出動作もやはり図１に示された端末の特徴抽出部１４の動作と同様の方法により特徴抽出を行う。

音声認識部２４は、モデル適応部２２で適応させたモデルを用いて、特徴抽出部２３で抽出した特徴の認識を行い、認識結果を言語処理部２５に提供し、言語処理部２５で自然言語認識を行う。ここで、言語処理部２５は、処理すべき言語が、単語でなく、文章、すなわち少なくとも語句水準のデータであるから、これを正確に判別するために自然言語管理モデルが適用される。

ここで、言語処理部２５は、データ転送部（不図示）を含み、言語処理部２５で処理された自然言語音声認識処理結果データを、音声認識ＩＤと一緒に、データ転送部を介して、クライアントである端末に転送することによって、音声認識過程を終了する。

ネットワークサーバでの音声認識動作を要約すれば、まず、サーバ側の音声認識システムの使用可能な資源は、クライアントである端末の使用可能な資源と比較できない程に膨大である。すなわち、端末では、単語水準の音声認識を行い、サーバ側では、自然言語、すなわち文章、少なくとも語句水準の音声データを認識しなければならないからである。

したがって、図３に示された特徴抽出部２３、モデル適応部２２、音声認識部２４は、クライアントである端末の特徴抽出部１４、モデル適応部１５及び音声認識部１６と比較して、一層精密で且つ複雑なアルゴリズムを利用したものを使用する。

図３に示されたデータ受信部２０では、クライアントである端末から転送されたデータを、端末の認識対象の種類、音声データ及びチャネルデータに区分する。

端末からチャネル推定データを受信していない場合には、受信された音声データを用いて、サーバ側の音声認識システム内のチャネル推定部２１でチャネルを推定する。

また、モデル適応部２２には、多様なパターンマッチングアルゴリズムが付加されるので、モデル適応部２２は、推定されたチャネル詳細情報に一層正確なモデル適応が必要となる。また、特徴抽出部２３も、クライアントである端末の資源を用いて行うことができなかった役目を行う。例えば、微細なピッチ検出により、ピッチ同期化特徴ベクトルを構成することもでき（このとき、音声ＤＢも同じ特徴ベクトルで構成される）、認識性能を高めるための多様な試みが適用可能であることが分かるだろう。

前述したような本発明の実施形態による端末（クライアント）及びネットワークサーバにおける分散音声認識システムの動作に相当する本発明の実施形態による端末及びサーバにおける分散音声認識方法について添付の図面を参照して段階的に説明する。

まず、図４を参照してクライアントである端末での音声（単語）認識方法について説明する。

図４に示されるように、マイクを介してユーザ音声信号が入力されれば（ステップ１００。なお、図中ではステップをＳと略す。以下同じ。）、入力された音声信号から音声区間を検出する（ステップ１０１）。ここで、図２Ａ及び図２Ｂに示されるように、ゼロ交差率及び信号のエネルギーなどを計算することにより、音声区間を検出することができる。すなわち、図２Ａに示されるように、エネルギー値が設定された閾値以上となれば、音声が始まったと判断し、該当時点から一定区間前で音声区間が開始したと決定し、エネルギー値が設定された閾値以下に下降する区間が一定時間継続すると、音声区間が終了したと判別するようになる。

一方、ゼロ交差率は、音声信号のサンプル値とすぐ前の音声信号のサンプル値との積が負の数の場合には、零点を交差したと判断する。ゼロ交差率を、音声区間の判断の基準にすることができる理由は、入力された音声信号は、その該当区間において周期的な区間を必ず含んでおり、その周期的な区間のゼロ交差率は、音声のない区間のゼロ交差率に比べて、かなり小さいからである。したがって、図２Ｂに示されるように、音声のない区間のゼロ交差率は、設定されたゼロ交差率閾値より大きく現れ、反対に、音声区間では、ゼロ交差率が現れない。

このような方法により、入力音声信号の音声区間が検出された場合には、検出された音声区間の前後に存在する非音声区間の信号を用いて、音声信号のチャネルを推定する（ステップ１０２）。すなわち、非音声区間の信号データを用いて、現在のチャネルの特性を周波数分析により推定するにあたって、時間領域で連続する短区間特性の平均として推定することができる。ここで、非音声区間の入力信号は、数式５の通りである。上記のように推定されたチャネル詳細情報は、端末内の音声ＤＢに格納された音響モデルをチャネルに適応させるために使われる。

チャネル推定が行われた後、ゼロ交差率とエネルギーを用いて、入力された音声信号から休止区間を検出し、入力された音声信号内に休止区間が存在するか否かを判断する（ステップ１０３）。

休止区間の検出は、ステップ１０１と同様に、ゼロ交差率とエネルギーを用いて検出することができる。但し、このときに使われる閾値は、音声区間の検出に使われる値と異なるようにすることができる。これは、無音声区間（すなわち任意雑音として表現され得る雑音区間）を、休止区間として検出するエラーを低減するためである。

音声区間が始まったと判断された時点以後、音声区間の終りを判断する前に、所定の休止区間の非音声区間が現れた場合には、入力された音声信号は、端末の音声認識システムで処理しない自然言語データであると判断し、音声データをサーバに転送する。つまり、休止区間の検出は、音声区間の開始と終りとの間で、エネルギーが小さく、ゼロ交差率が所定の値を越える区間を、休止区間として検出することができる。

すなわち、ステップ１０３で、休止区間の検出の結果、音声区間内に休止区間が検出された場合には、ユーザから入力された音声信号は、クライアントである端末の音声認識システムで音声認識を行わない自然言語と判断し、サーバに転送するためのデータを構成する（ステップ１０４）。それから、構成されたデータを、ネットワークを介してサーバの音声認識システムに転送する（ステップ１０５）。ここで、サーバに転送するためのデータは、図７に示されたデータフォーマットを有する。すなわち、サーバに転送されるデータには、転送されるデータが音声認識のためのデータであるか否かを区分するための音声認識フラグ、転送する端末の識別子を示す端末識別子、チャネル推定情報が含まれているか否かを示すチャネル推定フラグ、認識結果を示す認識ＩＤ、転送される全体データのサイズを示す全体データサイズ情報、音声データサイズ情報及びチャネルデータサイズ情報のうちの少なくとも１つの情報を含むことができる。

一方、ステップ１０３で、休止区間の検出の結果、音声区間内に休止区間が存在していないと判断される場合には、休止区間が検出されない音声信号に対して単語音声認識のための特徴抽出を行う（ステップ１０６）。ここで、ＢＲＬ区間が検出されない音声信号に対する特徴抽出は、上記チャネル推定時に使用した周波数分析を利用した方法を用いて行うことができ、代表的な方法としては、ＭＦＣＣを利用する方法を適用することができる。ＭＦＣＣを利用する方法については、上記で詳細に説明したので、その説明は省略する。

音声信号に対する特徴成分を抽出した後、抽出された特徴成分ベクトルを用いて、端末内の音声ＤＢに格納された音響モデルを適応させる。すなわち、モデル適応は、端末内の音声ＤＢに格納された音響モデルに、現在入力された音声信号のチャネルにより生じた歪みを反映するために行われる（ステップ１０７）。すなわち、モデル適応は、休止モデルを、推定された現在のチャネルの状況に適応させるために行われ、推定されたチャネルのパラメータを、適応アルゴリズムを介して抽出された特徴パラメータに適用する。チャネル適応は、抽出された特徴ベクトルを構成するパラメータに反映されたチャネル詳細情報を除去する方法を使用するか、または、音声ＤＢに格納された音声モデルに、チャネル詳細情報を付加する方法を使用する。

ステップ１０７のモデル適応により得られた特徴ベクトルをデコードすることにより入力された音声信号に対する単語をデコードすることによって、音声認識を行う（ステップ１０８）。

以下、クライアントである端末で処理せずに転送される音声データ（自然言語：文章、語句など）をサーバで受信し、音声認識を行う方法について図５を参照して段階的に説明する。

図５は、ネットワークサーバ内の音声認識システムにおける音声認識方法に関するフローチャートである。

図５に示されるように、まず、クライアントである端末から図７のようなデータフォーマットで転送されるデータを受信し、受信されたデータフォーマットの各フィールドを分析する（ステップ２００）。

また、データ受信部２０は、図７のようなデータフォーマットで端末の識別子フィールドに格納された端末の識別子値を用いて、認識しようとするモデルを音声ＤＢ２６から選定する（ステップ２０１）。

そして、受信されたデータからチャネルデータフラグを確認し、チャネルデータが共に端末から転送されたか否かを判断する（ステップ２０２）。

この判断の結果、端末からチャネル詳細情報が共に転送されていない場合には、データ受信部２０は、受信された音声データのチャネルを推定する。すなわち、クライアントである端末から転送されたデータを、端末の認識対象種類、音声データ及びチャネルデータに区分し、端末からチャネル推定データが受信されていない場合には、受信された音声データを用いてチャネルを推定する（ステップ２０３）。

一方、ステップ２０２での判断結果、チャネルデータが端末から受信された場合には、チャネルデータを音声ＤＢから選ばれたモデルに適応させるか、または、ステップ２０３で推定されたチャネル詳細情報を用いて、音声ＤＢから選定された音声モデルに適応させる（ステップ２０４）。

モデル適応後、適応されたモデルによる音声データから、音声認識のための特徴ベクトル成分を抽出する（ステップ２０５）。

そして、上記抽出した特徴ベクトル成分の認識を行い、上記適応させたモデルを用いて認識結果を言語処理する（ステップ２０６、ステップ２０７）。ここで、処理すべき言語は、単語でなく、文章、少なくとも語句水準のデータであるから、言語を正確に判別するための自然言語管理モデルが、言語処理に適用される。

このように言語処理された自然言語の音声認識処理結果データを、音声認識ＩＤと一緒にネットワークを介してクライアントである端末に転送することによって、音声認識処理を終了する。

本発明による無線端末内の音声認識システムのブロック構成を示す図である。図１に示された音声検出部でゼロ交差率とエネルギーを用いて音声区間を検出する方法を示すグラフである。図１に示された音声検出部でゼロ交差率とエネルギーを用いて音声区間を検出する方法を示すグラフである。本発明によるサーバ内の音声認識システムのブロック構成を示す図である。本発明による無線端末での音声認識方法に関するフローチャートである。本発明によるサーバでの音声認識方法に関するフローチャートである。図１に示された休止検出部で音声休止区間を検出した信号波形を示す図である。図１に示された休止検出部で音声休止区間を検出した信号波形を示す図である。図１に示された休止検出部で音声休止区間を検出した信号波形を示す図である。端末からサーバに転送されるデータフォーマット構成を示す図である。

符号の説明

１０マイク
１１音声検出部
１２、２１チャネル推定部
１３休止検出部
１４、２３特徴抽出部
１５、２２モデル適応部
１６、２４音声認識部
１７、２６音声ＤＢ
１８転送データ構成部
１９データ転送部
２０データ受信部
２５言語処理部

Claims

入力される音声信号における音声区間の休止区間をチェックし、入力された音声の種類を判別し、
音声認識処理が可能な音声である場合には、判別された音声の種類に基づいて、格納された音声の認識対象モデルを選定し、選定された認識対象モデルに基づいて、入力音声データを認識処理し、
音声認識処理が可能ではない音声である場合には、音声認識処理要求データをネットワークを介して転送する、第１の音声認識ユニットと、
前記第１の音声認識ユニットによりネットワークを介して転送された前記音声認識処理要求データを分析し、認識処理すべき音声に相当する認識対象モデルを選定し、
選定された認識対象モデルを適用して音声認識による言語処理を行い、
言語処理結果データを、ネットワークを介して前記第１の音声認識ユニットに転送する、第２の音声認識ユニットと、
を備えることを特徴とする分散音声認識システム。
前記第１の音声認識ユニットは、端末に装着され、前記第２の音声認識ユニットは、ネットワークサーバに装着されることによって、分散的に音声認識処理を行うことを特徴とする請求項１に記載の分散音声認識システム。
前記端末は、テレマティックス端末、移動端末、無線ＬＡＮ端末、ＩＰ端末のうち少なくとも１つの端末を含むことを特徴とする請求項２に記載の分散音声認識システム。
前記第１の音声認識ユニットは、
入力された音声信号から音声区間を検出する音声検出部と、
前記音声検出部で検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する休止検出部と、
前記音声検出部で検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定するチャネル推定部と、
前記休止検出部で休止区間が検出されない場合には、音声データの認識特徴を抽出する特徴抽出部と、
前記休止検出部で休止区間が検出された場合には、音声認識処理要求データを生成し、該音声認識処理要求データを、ネットワークを介して前記第２の音声認識ユニットに転送するデータ処理部と、
前記チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去し、音声認識を行う音声認識処理部と、
を備えることを特徴とする請求項１に記載の分散音声認識システム。
前記音声検出部は、入力音声信号に対する音声波形のゼロ交差率とエネルギーと、設定された閾値と、の比較結果によって、音声区間を検出することを特徴とする請求項４に記載の分散音声認識システム。
前記音声認識処理部は、
前記チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去するモデル適応部と、
前記モデル適応部で処理された音声データをデコードし、入力された音声信号の音声認識を行う音声認識部と、
を備えることを特徴とする請求項４に記載の分散音声認識システム。
前記休止検出部は、
前記音声検出部で検出された音声区間内に休止区間が存在していない場合には、入力された音声データが単語に関する音声データであると判断し、
前記音声区間内に休止区間が存在する場合には、入力された音声データが自然言語に関する音声データであると判断することを特徴とする請求項４に記載の分散音声認識システム。
前記チャネル推定部での非音声区間のデータを用いたチャネル推定は、連続する短区間の周波数分析、エネルギー分布、ケプストラム、時間領域でのウェーブ波形平均を計算する方法のうち、少なくとも１つの方法を利用することを特徴とする請求項４に記載の分散音声認識システム。
前記データ処理部は、
前記休止検出部で休止区間が検出された場合に、前記第２の音声認識ユニットに前記休止区間を転送するために用いられる音声認識処理要求データを構成する転送データ構成部と、
前記構成された音声認識処理要求データを、ネットワークを介して、前記第２の音声認識ユニットに転送するデータ転送部と、
を備えることを特徴とする請求項４に記載の分散音声認識システム。
前記音声認識処理要求データは、音声認識フラグ、端末識別子、チャネル推定フラグ、認識ＩＤ、全体データサイズ、音声データサイズ、チャネルデータサイズ、音声データ、チャネルデータのうち少なくとも１つの情報を含むことを特徴とする請求項９に記載の分散音声認識システム。
前記第２の音声認識ユニットは、
前記第１の音声認識ユニットによりネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類することにより、認識対象モデルをデータベースから選定するデータ受信部と、
前記データ受信部で分類された音声データから音声認識対象特徴成分を抽出する特徴抽出部と、
前記データ受信部から受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定するチャネル推定部と、
前記チャネル推定部で推定されたチャネル詳細情報、または、前記第１の音声認識ユニットから受信したチャネル推定情報を用いて、データベースに格納された認識対象音響モデルに雑音成分を適応させることにより、雑音成分を除去し、音声認識を行う音声認識処理部と、
を備えることを特徴とする請求項１に記載の分散音声認識システム。
前記音声認識処理部は、
前記チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去するモデル適応部と、
前記モデル適応部で処理された音声データをデコードすることにより、入力された音声信号の音声認識を行う音声認識部と、
前記認識処理された音声認識処理結果データを、ネットワークを介して、前記第１の音声認識ユニットに転送するデータ転送部と、を備えることを特徴とする請求項１１に記載の分散音声認識システム。
前記チャネル推定部でのチャネル推定は、連続する短区間の周波数分析、エネルギー分布、ケプストラム、時間領域でのウェーブ波形平均を計算する方法のうち少なくとも１つの方法を利用することを特徴とする請求項１１に記載の分散音声認識システム。
端末に入力される音声信号に対する音声区間の休止区間をチェックすることにより、入力された音声の種類を判別し、判別された音声の種類によって音声認識処理が可能な音声である場合には、格納された音声の認識対象モデルを選定し、選定された認識対象モデルによって入力音声データを認識処理し、端末で音声認識処理が可能ではない音声である場合には、音声認識処理要求データを、ネットワークを介してサーバに転送する段階と、
前記サーバでは、前記端末からネットワークを介して転送される前記音声認識処理要求データを分析することにより、認識処理すべき音声データに対応する認識対象モデルを選定し、選定された認識対象モデルを適用することにより音声認識による言語処理を行い、言語処理結果データを、ネットワークを介して前記端末に転送する段階と、
を有することを特徴とする分散音声認識方法。
前記端末から音声認識処理要求データをネットワークを介してサーバに転送する段階は、
入力された音声信号から音声区間を検出する段階と、
前記検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する段階と、
前記検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定する段階と、
前記休止区間が検出されない場合には、音声データの認識特徴を抽出し、前記休止区間が検出された場合には、音声認識処理要求データを生成し、前記認識特徴または前記音声認識処理要求データを、ネットワークを介して前記サーバに転送する段階と、
前記推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させることにより雑音成分を除去して、音声認識を行う段階と、を有することを特徴とする請求項１４に記載の分散音声認識方法。
前記音声区間を検出する段階において、入力音声信号に対する音声波形のゼロ交差率とエネルギーと、設定された閾値と、の比較結果によって音声区間を検出することを特徴とする請求項１５に記載の分散音声認識方法。
前記音声認識を行う段階は、
前記推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、
前記処理された音声データをデコードし、入力された音声信号の音声認識を行う段階と、を有することを特徴とする請求項１５に記載の分散音声認識方法。
前記休止区間を検出する段階において、前記検出された音声区間内に休止区間が存在しない場合には、入力された音声データが単語に関する音声データであると判断し、休止区間が存在する場合には、入力された音声データを自然言語に関する音声データであると判断することを特徴とする請求項１５に記載の分散音声認識方法。
前記チャネル詳細情報を推定する段階でのチャネル詳細情報の推定は、連続する短区間の周波数分析、エネルギー分布、ケプストラム、時間領域でのウェーブ波形平均を計算する方法のうち少なくとも１つの方法を利用することを特徴とする請求項１５に記載の分散音声認識方法。
前記音声認識処理要求データを生成し、前記音声データの認識特徴または前記音声認識処理要求データを、ネットワークを介して前記サーバに転送する段階は、
前記休止区間が検出された場合には、音声データを前記サーバに転送するために用いられる音声認識処理要求データを構成する段階と、
前記構成された音声認識処理要求データを、ネットワークを介して前記サーバに転送する段階と、を有することを特徴とする請求項１５に記載の分散音声認識方法。
前記音声認識処理要求データは、音声認識フラグ、端末識別子、チャネル推定フラグ、認識ＩＤ、全体データサイズ、音声データサイズ、チャネルデータサイズ、音声データ、チャネルデータのうち少なくとも１つの情報を含むことを特徴とする請求項２０に記載の分散音声認識方法。
前記端末に転送する段階は、
前記端末からネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類し、認識対象モデルをデータベースから選定する段階と、
前記分類された音声データから音声認識対象特徴成分を抽出する段階と、
前記受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定する段階と、
前記推定されたチャネル詳細情報または端末から受信したチャネル推定情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去し、音声認識を行う段階と、を有することを特徴とする請求項１４に記載の分散音声認識方法。