JP2006079079A - 分散音声認識システム及びその方法 - Google Patents

分散音声認識システム及びその方法 Download PDF

Info

Publication number
JP2006079079A
JP2006079079A JP2005248640A JP2005248640A JP2006079079A JP 2006079079 A JP2006079079 A JP 2006079079A JP 2005248640 A JP2005248640 A JP 2005248640A JP 2005248640 A JP2005248640 A JP 2005248640A JP 2006079079 A JP2006079079 A JP 2006079079A
Authority
JP
Japan
Prior art keywords
voice
speech
data
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005248640A
Other languages
English (en)
Inventor
Myeong-Gi Jeong
明 基 鄭
Myeon-Kee Youn
勉 基 尹
Hyun-Sik Shim
賢 植 沈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2006079079A publication Critical patent/JP2006079079A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 音声認識環境によるチャネル変化に強い認識システムの構成と、音声データ区間と音声データ区間内の休止区間の有無に基づく無制限単語認識及び自然語音声認識を行うことができる分散音声認識システム及びその方法を提供する。
【解決手段】 本発明による分散音声認識システム及びその方法は、入力される入力信号から音声区間内の休止区間を検出することによって、単語認識及び自然言語認識を可能にし、且つ、多様な端末が要求する音声認識対象が多様なので、端末の識別子を用いて該当端末が要求する認識語彙群を選別して同じ音声認識システムで多様な認識語彙群(例えば、家庭用音声認識語彙群、車両用テレマティックス語彙群、コールセンター用語彙群など)を処理できるようにした。
【選択図】 図1

Description

本発明は、ネットワークサーバと移動端末との無線通信を用いた分散音声認識システム及びその方法に関し、特に、演算量とメモリ使用が制約される移動端末において効果的な音声認識性能を提供するために、無線通信網に連結したネットワークサーバから支援をし、言語情報が要求される自然言語認識をネットワークサーバで処理することによって、移動端末において無制限の語彙の単語認識と共に、自然言語認識を可能にする分散音声認識システム及びその方法に関する。
一般的に、音声信号認識技術は、大きく、音声認識と話者認識とに分けられる。また、音声認識は、特定の話者だけに対して認識する話者従属システムと、話者に関係なく認識する話者独立システムとに分けられる。話者従属システムの音声認識は、使用前にユーザの音声を記憶し、登録し、実際に認識を行う場合には、入力された音声のパターンと記憶された音声のパターンとを比較して認識するようになる。
一方、話者独立システムの音声認識は、不特定の多数の話者の音声を認識するためのものであって、話者従属システムの音声認識のように、ユーザがシステムの動作前に音声を登録しなければならないという面倒さがない。すなわち、多数の話者の音声を収集して、統計的なモデルを学習させ、学習されたモデルを用いて認識を行うようになる。したがって、各話者の特徴的な特性は除去され、各話者間に共通に現れる特性が強調される。
話者従属システムの音声認識は、話者独立システムの音声認識に比べて相対的に認識率が高く、技術の実現が容易なので、実用化に有利である。
一般的に、音声認識システムは、スタンドアロン(Standalone)タイプの大型認識システム、又は端末機での小型認識システムが主流となっている。
近年、分散音声認識システムが開発されるに伴って、多様な形態のシステム構造が登場し、開発中にある。多くの分散音声認識システムの構造は、ネットワークを介してのサーバ/クライアントの構造よりなり、クライアントは、音声認識に必要な音声信号の特徴抽出または雑音除去を行う前処理段階を実行し、サーバは、実際の認識エンジンを備えて、認識を行う構造よりなり、又は、クライアントとサーバで同時に認識を行う構造が主流となっている。
このような既存の分散音声認識システムは、クライアントの有する資源(Resource)の限界を克服しようとする部分に多くの焦点が当てられている。例えば、携帯電話やテレマティックス端末、または移動無線LAN端末などモバイル端末が持っているハードウェアの制約が、音声認識性能の限界を引き起こすので、これを克服するためには、有無線通信網に連結したサーバの資源を活用しなければならない。
したがって、クライアントが要求する高性能の音声認識システムを、ネットワークサーバに装備し、これを活用する。すなわち、移動端末が要求する範囲内の単語認識システムを構成する。このとき、構成されるネットワークサーバの音声認識システムは、端末で音声認識を使用する主な用途により音声認識対象の語彙が決定され、ユーザは、用途によって分散音声認識が可能な、携帯電話、知能型移動端末、テレマティックス端末などに個別的に動作する音声認識システムを使用するようになる。
移動端末の特性に関連付けられた単語認識と対話体の自然言語認識とを共に行うことができる分散音声認識システムが未だ構成されておらず、これを行うことができる基準も提示されていないのが現状である。
従って、本発明は、前述のような問題点を解決するためになされたもので、本発明の目的は、音声認識環境によるチャネル変化に強い認識システムの構成と、音声区間と音声区間内の休止区間の存在の有無に基づいて、無制限の単語認識及び自然言語音声認識を行うことができる分散音声認識システム及びその方法を提供することにある。
また、本発明の他の目的は、各端末が必要とする認識対象のデータベースを選択的に選定して、認識システムの効率を高め、且つ、認識しようとする環境が認識に及ぼす影響を低減するために、チャネル詳細情報を抽出し、認識対象モデルをチャネルの特性に適応させて、認識性能を改善することができる分散音声認識システム及びその方法を提供することにある。
上記目的を達成するために、本発明の一態様に係る分散音声認識システムは、入力される音声信号における音声区間の休止区間をチェックし、入力された音声の種類を判別し、音声認識処理が可能な音声である場合には、判別された音声の種類に基づいて、格納された音声の認識対象モデルを選定し、選定された認識対象モデルに基づいて、入力音声データを認識処理し、音声認識処理が可能ではない音声である場合には、音声認識処理要求データをネットワークを介して転送する第1の音声認識ユニットと、第1の音声認識ユニットによりネットワークを介して転送される音声認識処理要求データを分析し、認識処理すべき音声に相当する認識対象モデルを選定し、選定された音声認識対象モデルを適用して音声認識による言語処理を行い、言語処理結果データをネットワークを介して第1の音声認識ユニットに転送する第2の音声認識ユニットとを備えることを特徴とする。
第1の音声認識ユニットは、端末に装着され、第2の音声認識ユニットは、ネットワークサーバに装着されることによって、各々互いに異なる音声の認識処理を行う。
端末は、 テレマティックス端末、移動端末、無線LAN端末、IP端末のうち少なくとも1つの端末を含む。
ネットワークは、有線又は無線ネットワークを含む。
第1の音声認識ユニットは、入力された音声信号から音声区間を検出する音声検出部と、音声検出部で検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する休止検出部と、音声検出部で検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定するチャネル推定部と、休止検出部で休止区間が検出されていない場合には、音声データの認識特徴を抽出する特徴抽出部と、休止検出部で休止区間が検出された場合には、音声認識処理要求データを生成し、該音声認識処理要求データをネットワークを介して第2の音声認識ユニットに転送するデータ処理部と、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去し、音声認識を行う音声認識処理部とを備える。
音声検出部は、入力音声信号に対する音声波形のゼロ交差率とエネルギーと設定された閾値との比較結果によって音声区間を検出する。
音声認識処理部は、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去するモデル適応部と、モデル適応部で処理された音声データをデコードし、入力された音声信号の音声認識を行う音声認識部とを備える。
休止検出部は、前記音声検出部で検出された音声区間内に休止区間が存在していない場合には、入力された音声データが単語に関する音声データであると判断し、休止区間が存在する場合には、入力された音声データを自然言語に関する音声データであると判断する。
チャネル推定部で非音声区間のデータを用いたチャネル推定は、連続する短区間の周波数分析、エネルギー分布、ケプストラム、時間領域でのウェーブ波形平均を計算する方法のうち少なくとも1つの方法を利用する。
データ処理部は、休止検出部で休止区間が検出された場合には、第2の音声認識ユニットに休止区間を転送するために用いられる音声認識処理要求データを構成する転送データ構成部と、構成された音声認識処理要求データをネットワークを介して第2の音声認識ユニットに転送するデータ転送部とを備える。
音声認識処理要求データは、音声認識フラグ、端末識別子、チャネル推定フラグ、認識ID、全体データサイズ、音声データサイズ、チャネルデータサイズ、音声データ、チャネルデータのうち少なくとも1つの情報を含む。
第2の音声認識ユニットは、第1の音声認識ユニットによりネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類することにより、認識対象モデルをデータベースから選定するデータ受信部と、データ受信部で分類された音声データから音声認識対象特徴成分を抽出する特徴抽出部と、データ受信部から受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定するチャネル推定部と、チャネル推定部で推定されたチャネル詳細情報または第1の音声認識ユニットから受信したチャネル推定情報を用いてデータベースに格納された認識対象音響モデルに雑音成分を適応させることにより、雑音成分を除去し、音声認識を行う音声認識処理部とを備える。
音声認識処理部は、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去するモデル適応部と、モデル適応部で処理された音声データをデコードすることにより、入力された音声信号の音声認識を行う音声認識部と、認識処理された音声認識処理結果データをネットワークを介して第1の音声認識ユニットに転送するデータ転送部とを備える。
また、本発明の一態様に係る分散音声認識のための端末の音声認識装置は、入力された音声信号から音声区間を検出する音声検出部と、音声検出部で検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する休止検出部と、音声検出部で検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定するチャネル推定部と、休止検出部で休止区間が検出されていない場合には、音声データの認識特徴を抽出する特徴抽出部と、休止検出部で休止区間が検出された場合には、音声認識処理要求データを生成し、該音声認識処理要求データをネットワークを介して第2の音声認識ユニットに転送するデータ処理部と、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去するモデル適応部と、モデル適応部で処理された音声データをデコードし、入力された音声信号の音声認識を行う音声認識部とを備える。
また、本発明の一態様に係る分散音声認識のためのサーバの音声認識装置は、端末からネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類することにより、認識対象モデルをデータベースから選定するデータ受信部と、データ受信部で分類された音声データから音声認識対象特徴成分を抽出する特徴抽出部と、データ受信部から受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定するチャネル推定部と、チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去するモデル適応部と、モデル適応部で処理された音声データをデコードし、入力された音声信号の音声認識を行う音声認識部と、認識処理された音声認識処理結果データをネットワークを介して端末の音声認識処理ユニットに転送するデータ転送部とを備える。
一方、本発明の一態様に係る端末及びサーバにおける分散音声認識方法は、端末に入力される音声信号に対する音声区間の休止区間をチェックすることにより、入力された音声の種類を判別し、判別された音声の種類によって音声認識処理可能な音声である場合には、格納された音声の認識対象モデルを選定し、選定された認識対象モデルによって入力音声データを認識処理し、端末でセルフ音声認識処理が可能ではない音声である場合には、音声認識処理要求データをネットワークを介してサーバに転送する段階と、サーバでは、端末からネットワークを介して転送される音声認識処理要求データを分析することにより、認識処理すべき音声データに相当する認識対象モデルを選定し、選定された認識対象モデルを適用することにより音声認識による言語処理を行い、言語処理結果データをネットワークを介して前記端末に転送する段階とを有する。
端末から音声認識処理要求データをネットワークを介してサーバに転送する段階は、入力された音声信号から音声区間を検出する段階と、検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する段階と、検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定する段階と、休止区間が検出されていない場合には、音声データの認識特徴を抽出し、休止区間が検出された場合には、音声認識処理要求データを生成し、ネットワークを介して前記サーバに転送する段階と、推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去して、音声認識を行う段階とを有する。
音声認識を行う段階は、推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、処理された音声データをデコードし、入力された音声信号の音声認識を行う段階と、を有する。
音声認識処理要求データを生成し、ネットワークを介してサーバに転送する段階は、休止区間が検出された場合には、音声データを前記サーバに転送するために用いられる音声認識処理要求データを構成する段階と、構成された音声認識処理要求データをネットワークを介して前記サーバに転送する段階とを有する。
端末に転送する段階は、前記端末からネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類し、認識対象モデルをデータベースから選定する段階と、分類された音声データから音声認識対象特徴成分を抽出する段階と、受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定する段階と、推定されたチャネル詳細情報または端末から受信したチャネル推定情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去し、音声認識を行う段階とを有する。
音声認識を行う段階は、前記推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、雑音成分が除去された音声データをデコードし、入力された音声信号の音声認識を行う段階と、認識処理された音声認識処理結果データをネットワークを介して端末に転送する段階とを有する。
また、本発明の一態様に係る分散音声認識のための端末における音声認識方法は、入力された音声信号から音声区間を検出する段階と、検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する段階と、検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定する段階と、前記休止区間が検出されていない場合には、音声データの認識特徴を抽出し、休止区間が検出された場合には、音声認識処理要求データを生成し、ネットワークを介してサーバに転送する段階と、推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、処理された音声データをデコードし、入力された音声信号の音声認識を行う段階とを有する。
また、本発明の一態様に係る分散音声認識のためのサーバにおける音声認識方法は、端末からネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類し、認識対象モデルをデータベースから選定する段階と、分類された音声データから音声認識対象特徴成分を抽出する段階と、受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定する段階と、推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、雑音成分が除去された音声データをデコードし、入力された音声信号の音声認識を行う段階と、認識処理された音声認識処理結果データをネットワークを介して端末に転送する段階とを有する。
本発明による分散音声認識システム及びその方法は、入力される入力信号から音声区間内の休止区間を検出することによって、単語認識及び自然言語認識を可能にし、且つ、多様な端末は、多様な音声認識対象を要求するため、端末の識別子を用いて該当端末が要求する認識語彙群を選別することにより、同じ音声認識システムで多様な認識語彙群(例えば、家庭用音声認識語彙群、車両用テレマティックス語彙群、コールセンター用語彙群など)を処理できるようにした。
また、端末機の種類と認識環境による多様なチャネル歪みの影響を、チャネル推定方法を用いて音声データベースモデルに適応させることにより最小化し、音声認識性能を向上させることができるようにした。
以下、添付の図面を参照して、本発明の実施形態による分散音声認識システム及びその方法を詳細に説明する。
図1は、本発明の実施形態による無線端末における音声認識システムのブロック構成を示す図である。
図1に示されるように、無線端末(クライアント)の音声認識システムは、マイク10、音声検出部11、チャネル推定部12、休止検出部13、特徴抽出部14、モデル適応部15、音声認識部16、音声DB17、転送データ構成部18及びデータ転送部19を備える。
音声検出部11は、マイク10を介して入力されるデジタル音声信号から音声信号の区間を検出し、チャネル推定部12及び休止検出部13に提供するものであって、音声波形のゼロ交差率(Zero-Crossing rate:以下、ZCRともいう。)、信号のエネルギーなどを用いて該当入力音声信号から音声区間を検出することができる。
休止検出部13は、音声検出部11で検出された音声信号に、休止区間が存在するか否かを検出するものであって、音声検出部11で検出された音声区間内に、休止区間と判別できる区間を、時間領域で検出するものである。休止区間の検出方法は、音声区間の検出方法と同様の方法で行うことができる。すなわち、検出された音声信号区間内で、ゼロ交差率と信号のエネルギーを用いて、予め設定された閾値(Threshold Value)を超過すれば、音声区間内に休止区間が存在すると判断し、検出された音声信号が、単語でなく語句又は文章であると決定し、認識処理をサーバで行うことができるようにする。
チャネル推定部12は、音声検出部11で検出した音声信号と音声DB17に格納された音声信号との不一致な録音環境を補償するために、音声信号に関するチャネル環境、チャネル成分、チャネル特性等の情報(以下、チャネル詳細情報とする)を推定するものである。このような音声信号の不一致な環境、すなわちチャネル詳細情報は、音声認識率を低下させる大きな要因であり、検出した音声区間で、前後の区間に音声がない区間のデータを用いてチャネルの特性を推定する。
チャネル推定部12でチャネルの特性を推定する方法には、周波数分析、エネルギー分布、非音声区間特徴抽出方法(例えば、ケプストラム)、時間領域でのウェーブ波形平均などを用いて推定することができる。
特徴抽出部14は、休止検出部13で休止区間が検出されていない場合には、音声データの認識特徴を抽出し、モデル適応部15に提供する。
モデル適応部15は、休止(Short Pause)モデルを、チャネル推定部12で推定した現チャネルの状況に適応させるユニットであり、推定されたチャネルのパラメータを、適応(Adaptation)アルゴリズムによって、抽出された特徴パラメータに適用する。チャネル適応は、抽出された特徴ベクトルを構成するパラメータに反映されたチャネル詳細情報を除去する方法や、音声DB17に格納された音声モデルに、チャネル詳細情報を付加する方法を使用する。
音声認識部16は、端末機内に存在する音声認識エンジンを用いて、抽出された特徴ベクトルをデコードすることによって、単語認識を行う。
転送データ構成部18は、音声データに休止区間が存在することが休止検出部13で検出された場合や、入力された音声が予め定めた特定の長さより長い場合には、音声データとチャネル詳細情報とを組み合わせたデータを構成したり、抽出された特徴ベクトルとチャネル詳細情報とを組み合わせたりして、データ転送部19を介してサーバに転送する。
以下、このような構成を有する本発明の実施形態による無線端末の音声認識システムの具体的な動作を説明する。
まず、マイク10を介してユーザの音声信号が入力されると、音声検出部11は、入力された音声信号から、実質的な音声区間を検出する。
音声検出部11での音声区間の検出は、図2A及び図2Bに示すように、音声のエネルギーとゼロ交差率(ZCR)を用いて検出する。ここで、ゼロ交差率とは、隣接した音声信号の符号が互いに異なる回数を意味するものであり、ゼロ交差率は、音声信号の周波数情報を含む値である。
図2A及び図2Bに示されるように、十分に高い信号対雑音比を有する音声信号は、背景雑音と音声信号との区分を明確にすることが分かる。
また、エネルギーは、音声信号のサンプル値の演算により得ることができるが、デジタル音声信号は、入力された音声信号を短区間(Short-Period)に分けて分析し、1区間に音声サンプルがN個含まれている場合には、次の数式1(数1)、数式2(数2)、及び数式3(数3)のうち1つの数式を用いてエネルギーを計算することができる。
:ログエネルギー
:平均エネルギー
:RMSエネルギー
一方、ゼロ交差率は、音声信号が零点(Zero)基準を交差する回数であって、周波数と見なされ、大部分の場合、有声音で低い値を有し、無声音で高い値を有する。すなわち、ゼロ交差率は、次の数式4(数4)で表すことができる。
すなわち、隣接した2つの音声信号の積が負なら、零点を1回通過したものであり、ゼロ交差率値を増加させるものである。
前述のようなエネルギーとゼロ交差率を用いて音声検出部11で音声区間を検出するために、音声のない区間でエネルギーとゼロ交差率を計算し、エネルギーとゼロ交差率の各閾値Thrを計算する。
そして、入力された音声信号と短区間の分析により、各エネルギーとゼロ交差率と上記計算された閾値とを比較して、音声の有無を検出する。ここで、音声信号の開始部分を検出するためには、次の条件を満足しなければならない。
(条件1)数〜数十の短区間でのエネルギー>エネルギーの閾値
(条件2)数〜数十の短区間でのゼロ交差率<ゼロ交差率の閾値
すなわち、上記2つの条件を満足する場合に、条件を満足させる最初の短区間から音声信号が存在すると判断する。
そして、次の条件を満足する場合に、入力された音声信号の終り部分であると判断する。
(条件3)数〜数十の短区間でのエネルギー<エネルギーの閾値
(条件4)数〜数十の短区間でのゼロ交差率>ゼロ交差率の閾値
図1に示された音声検出部11での音声検出は、エネルギー値が、閾値Thr.U以上になれば、音声が始まったと判断し、該当時点から所定区間の前から音声区間の開始と設定し、さらにエネルギー値が閾値Thr.L以下に下降する区間が一定時間継続すると、音声区間が終わったと判断する。すなわち、エネルギー値と同時に、ゼロ交差率を基準にして音声区間を判別する。
ゼロ交差率は、音声信号のレベルが零点を交差した回数を示すものである。現在の音声信号サンプル値とすぐ前の音声信号のサンプル値との積が負の場合には、零点を交差したと判断する。これを基準にすることができる理由は、音声信号が、その該当区間で周期的な区間を必ず含んでおり、その周期的な区間のゼロ交差率は、音声のない区間のゼロ交差率に比べてかなり小さいからである。すなわち、図2A及び図2Bに示されているように、音声のない区間のゼロ交差率は、特定の閾値Thr.ZCRより大きく現れる。反対に、音声区間では、ゼロ交差率が現れない。
そして、図1に示されたチャネル推定部12は、音声検出部11で検出された音声区間の前後に存在する非音声区間の信号を用いて音声信号のチャネルを推定する。
例えば、非音声区間の信号を用いて現在のチャネルの特性を周波数分析により推定し、時間的に連続する短区間特性の平均として推定することができる。ここで、非音声区間の入力信号x(n)は、チャネル歪みによる信号c(n)と環境雑音信号n(n)との和として表現することができる。すなわち、非音声区間の入力信号は、次の数式5(数5)で表すことができる。
前述のような方法によりチャネルを推定するに際して、連続する複数個のフレームの和により環境雑音の成分を低下させることができる。余分な環境雑音は、その和を平均することにより、その成分を除去することができる。すなわち、次の数式6(数6)を用いて雑音を除去することができる。
上記では、チャネル推定のための例示的なアルゴリズムを提示したが、これ以外にもチャネル推定のためのいかなるアルゴリズムを適用できることが分かるだろう。
上記のようなアルゴリズムを介して推定されたチャネル詳細情報は、クライアントである無線端末の音声DB17に格納された音響モデルをチャネルに適応させるために使われる。
そして、図1に示された休止検出部13での休止区間検出は、音声検出部11での音声区間検出方法と同様の、ゼロ交差率とエネルギーを用いて検出を行うことができる。但し、このときに使われる閾値は、音声区間検出に使われる閾値と異なる値とすることができる。これは、無声音区間(すなわち任意雑音(Random Noise)で表現される雑音区間)を、休止区間として検出するエラーを低減するためである。
音声区間の終りを判断する前の音声区間が始まったと判断された時点以後に、一定の短い区間の非音声区間が現れれば、入力された音声信号は、端末の音声認識システムで処理することなく、サーバで処理する自然言語データと判断し、音声データを転送データ構成部18に提供する。転送データ構成部18については、後述することとする。
休止区間の検出は、音声区間の検出と同様に、ゼロ交差率とエネルギーを用いて判別するが、これは図6に示されている。すなわち、図6Aは、音声波形を示し、図6Bは、エネルギーを用いて計算された音声信号波形を示し、図6Cは、ゼロ交差率を用いて計算された音声信号波形を示す。
図6A〜6Cに示されるように、音声区間の開始と終りとの間(図中の水平軸に直交する2つの線分の間)にエネルギーが小さく、ゼロ交差率が一定の値を越える区間を、休止区間として検出することができる。
休止区間が検出された音声データは、これ以上クライアント(すなわち無線端末)にて音声認識を行わずに、サーバにて音声認識を行うことができるように、転送データ構成部18で転送データに構成され、データ転送部19を介して、サーバに転送される。このとき、サーバに転送されるデータは、端末の種類(すなわち端末が認識しようとする語彙)を区分できる区分子と、音声データ、及び推定されたチャネル詳細情報を含むことができる。
一方、無線端末の演算量と速い認識速度のために、音声検出及び休止区間検出を一緒に行うことができる。音声検出の実行時、非音声区間と判断される区間が一定区間存在してから、さらに音声区間が現れた場合には、この音声信号は、自然言語認識の対象と判断し、音声データをバッファ(不図示)に格納した後、端末データ転送部19を介してサーバに転送する。このとき、転送されるデータにおいては、端末に特有の認識対象の種類及び音声データだけを転送し、チャネル推定を、サーバで行うようにすることができる。データ転送部19からサーバに転送されるデータ、すなわち転送データ構成部18で構成されるデータフォーマットは、図7に示されている。
図7に示されるように、転送データ構成部18で構成されるデータフォーマットは、サーバに転送されるデータが音声認識のためのデータであるか否かを区分するための音声認識フラグ情報、転送する端末の識別子を示す端末識別子、チャネル推定情報が含まれているか否かを示すチャネル推定フラグ情報、認識結果を示す認識ID情報、転送される全体データのサイズを示す全体データサイズ情報、音声データサイズ情報及びチャネルデータサイズ情報のうち少なくとも1つの情報を含むことができる。
一方、休止検出部13で休止区間が検出されない音声信号に対して、音声認識のために特徴抽出を行う。ここで、特徴抽出は、チャネル推定時に使用した周波数分析を用いた方法で行う。以下、特徴抽出についてより具体的に説明する。
一般的に、特徴抽出は、音声認識に有用な成分を音声信号から抽出する方法である。特徴抽出は、情報の圧縮、次元減少過程と関連する。特徴抽出では、理想的な正答はないため、音声認識のための特徴の良否の判断には、音声認識率が用いられる。特徴抽出の主要研究分野は、ヒトの聴覚特徴を反映する特徴の表現、多様な雑音環境/話者/チャネル変移に強い特徴の抽出、時間的な変化をよく表現する特徴の抽出である。
よく使われる特徴抽出方法において、聴覚特性を反映するものには、かたつむり管周波数応答を応用したフィルタバンク分析、メル(mel)またはバルク(bark)尺度単位の中心周波数配置、周波数による帯域幅の増加、プレエンファシス(pre-emphasis)フィルタなどが使われる。ロバスト性(Robustness)を向上させるための方法として最も広く使われるものは、コンボラティブ(Convolutive)チャネルの影響を低減するために用いられるCMS(Cepstral Mean Subtraction)である。音声信号の動的特性を反映するために、ケプストラム(Cepstrum)の1次、2次の微分値を使用する。CMS及び微分は、時間軸方向のフィルタリングであるとみなすことができ、時間軸方向への時間的非相関(temporally uncorrelated)特徴ベクトルを得る過程を含むものである。フィルタバンク係数からケプストラムを得る方法は、フィルタバンク係数を非相関(uncorrelated)なものに変えるための直交変換(orthogonal transform)とみなすことができる。LPC(Linear Predictive Coding)を用いたケプストラムを使用した初期の音声認識では、LPCケプストラム係数に対して加重値を適用するリフタリング(Liftering)を使用することもあった。
音声認識のために主に使われる特徴抽出方法には、LPCケプストラム、PLPケプストラム、MFCC(Mel Frequency Cepstral Coefficient)、フィルタバンクエネルギーなどが挙げられる。
ここで、MFCCを求める方法について簡単に説明する。
音声信号は、アンチアライシングフィルタ(Anti-Aliasing Filter)を経た後、A/D変換によりデジタル信号x(n)に変換される。デジタル音声信号は、高帯域通過特性を有するデジタルプレエンファシスフィルタを通過する。このデジタルエンファシスフィルタを使用する理由は、第一に、ヒトの外耳/中耳の周波数特性をモデリングするために、高帯域フィルタリングするためである。これにより、唇での放射のために生ずる20db/decadeの減衰を補償し、音声から声道特性だけを得る。第二に、聴覚システムが1KHz以上のスペクトル領域に対して敏感であるという事実をある程度補償するためである。ヒト聴覚器官の周波数特性である等ラウドネス曲線(equal-loudness curve)を、PLP特徴抽出のためのモデリングに直接使用する。プレエンファシスフィルタの特性H(z)は、次の数式7(数7)で表される。
ここで、aは、0.95〜0.98の範囲の値である。
プレエンファシスされた信号は、ハミングウィンドウをかぶせてブロック単位のフレームに分けられる。以後の処理は、全てフレーム単位で行われる。フレームのサイズは、通常20−30msであり、フレーム移動は、10msがよく使われる。1フレームの音声信号は、FFTを用いて周波数領域に変換される。周波数帯域をいろいろなフィルタバンクに分けて各バンクでのエネルギーを求める。
このように求められたバンドエネルギーの対数(logarithm)を取った後、離散コサイン変換(Discrete Cosine Transform)を実行することにより、最終的なMFCCが得られる。
上記では、MFCCを用いて特徴抽出をする方法についてのみ説明したが、PLPケプストラム及びフィルタバンクエネルギーなどを用いて特徴抽出をすることができることが分かるだろう。
このように、図1に示された特徴抽出部14で抽出された特徴ベクトルと音声DB17に格納された音響モデルを用いて、モデル適応部15でモデル適応を行う。
モデル適応は、端末が保有している音声DB17に、現在入力された音声のチャネルのために生じる歪みを反映するために行う。音声区間の入力信号をy(n)とすれば、入力信号は、音声信号s(n)とチャネル詳細情報c(n)及び雑音成分n(n)の和であり、次の数式8(数8)のように表現することができる。
現在実用化されている雑音除去ロジックにより、雑音成分は最小限に減少すると仮定し、入力信号を、音声信号とチャネル詳細情報との和だけであると考える。すなわち、抽出された特徴ベクトルは、音声信号とチャネル詳細情報が全て含まれたものと考え、無線端末の音声DB17に格納されたモデルとの環境の不一致を反映する。すなわち、雑音が除去された入力信号は、次の数式9(数9)で表現される。

:雑音が除去された入力信号
ここで、無線端末の音声DB17に格納されたモデルに、推定された成分を付加することにより、全チャネルの不一致成分を最小化する。また、特徴ベクトル空間において、入力信号は、次の数式10(数10)で表現することができる。
ここで、上記数式における、SとC(v)の直和は、音声信号とチャネル詳細情報との和に由来する成分である。 このとき、静止(Stationary)特性を有するチャネル詳細情報と音声信号とは、互いに関係がないため、特徴ベクトルは、特徴ベクトル空間において、非常に小さい要素として現れるようになる。
このような関係を用いて音声DB17に格納された特徴ベクトルをR(v)とすれば、モデル適応は、チャネル推定部で推定されたチャネル詳細情報C′(v)を足し、新しいモデル特徴ベクトルR″(v)を生成する。すなわち、次の数式11(数11)により新しいモデル特徴ベクトルを計算する。
従って、図1に示された音声認識部16は、モデル適応部15で前述のような方法により適応されたモデルを用いて音声認識を行い、音声認識結果を得る。
上記の説明のように端末で音声認識処理を行わない自然言語処理のためのサーバの構成及び動作、すなわち端末から転送される音声認識のための音声データを処理するサーバの構成及び動作について図3を参照して説明する。
図3は、ネットワークサーバの音声認識システムのブロック構成を示す図である。
図3に示されるように、ネットワークサーバの音声認識システムは、データ受信部20、チャネル推定部21、モデル適応部22、特徴抽出部23、音声認識部24、言語処理部25及び音声DB26を備える。
データ受信部20は、端末から図7に示すデータフォーマットで転送されるデータを受信し、受信されたデータフォーマットの各フィールドを分析する。
また、データ受信部20は、図7に示すデータフォーマットで、端末の識別子フィールドに格納された端末の識別子値を用いて、認識しようとするモデルを音声DB26から抽出する。
また、データ受信部20は、受信されたデータからチャネルデータフラグを確認し、チャネル詳細情報がデータと共に端末から転送されたか否かを判断する。
この判断の結果、チャネル詳細情報がデータと共に端末から転送された場合には、データ受信部20は、チャネル詳細情報をモデル適応部22に提供し、音声DB26から抽出したモデルに適応させる。ここで、モデル適応部22でのモデル適応方法は、図1に示された端末のモデル適応部15でのモデル適応方法と同様の方法によりモデル適応を行う。
一方、端末からチャネル詳細情報が受信データと共に転送されていない場合には、データ受信部20は、受信された音声データをチャネル推定部21に提供する。
したがって、チャネル推定部21は、データ受信部20から提供される音声データを用いて直接チャネル推定を行う。ここで、チャネル推定部21でのチャネル推定動作は、図1に示されたチャネル推定部12でのチャネル推定動作と同様の方法によりチャネル推定を行う。
したがって、モデル適応部22は、チャネル推定部21で推定されたチャネル詳細情報を音声DB26から抽出された音声モデルに適応させる。
特徴抽出部23は、データ受信部20から受信された音声データから音声信号の特徴を抽出し、抽出された特徴情報を音声認識部24に提供する。ここで、特徴抽出動作もやはり図1に示された端末の特徴抽出部14の動作と同様の方法により特徴抽出を行う。
音声認識部24は、モデル適応部22で適応させたモデルを用いて、特徴抽出部23で抽出した特徴の認識を行い、認識結果を言語処理部25に提供し、言語処理部25で自然言語認識を行う。ここで、言語処理部25は、処理すべき言語が、単語でなく、文章、すなわち少なくとも語句水準のデータであるから、これを正確に判別するために自然言語管理モデルが適用される。
ここで、言語処理部25は、データ転送部(不図示)を含み、言語処理部25で処理された自然言語音声認識処理結果データを、音声認識IDと一緒に、データ転送部を介して、クライアントである端末に転送することによって、音声認識過程を終了する。
ネットワークサーバでの音声認識動作を要約すれば、まず、サーバ側の音声認識システムの使用可能な資源は、クライアントである端末の使用可能な資源と比較できない程に膨大である。すなわち、端末では、単語水準の音声認識を行い、サーバ側では、自然言語、すなわち文章、少なくとも語句水準の音声データを認識しなければならないからである。
したがって、図3に示された特徴抽出部23、モデル適応部22、音声認識部24は、クライアントである端末の特徴抽出部14、モデル適応部15及び音声認識部16と比較して、一層精密で且つ複雑なアルゴリズムを利用したものを使用する。
図3に示されたデータ受信部20では、クライアントである端末から転送されたデータを、端末の認識対象の種類、音声データ及びチャネルデータに区分する。
端末からチャネル推定データを受信していない場合には、受信された音声データを用いて、サーバ側の音声認識システム内のチャネル推定部21でチャネルを推定する。
また、モデル適応部22には、多様なパターンマッチングアルゴリズムが付加されるので、モデル適応部22は、推定されたチャネル詳細情報に一層正確なモデル適応が必要となる。また、特徴抽出部23も、クライアントである端末の資源を用いて行うことができなかった役目を行う。例えば、微細なピッチ検出により、ピッチ同期化特徴ベクトルを構成することもでき(このとき、音声DBも同じ特徴ベクトルで構成される)、認識性能を高めるための多様な試みが適用可能であることが分かるだろう。
前述したような本発明の実施形態による端末(クライアント)及びネットワークサーバにおける分散音声認識システムの動作に相当する本発明の実施形態による端末及びサーバにおける分散音声認識方法について添付の図面を参照して段階的に説明する。
まず、図4を参照してクライアントである端末での音声(単語)認識方法について説明する。
図4に示されるように、マイクを介してユーザ音声信号が入力されれば(ステップ100。なお、図中ではステップをSと略す。以下同じ。)、入力された音声信号から音声区間を検出する(ステップ101)。ここで、図2A及び図2Bに示されるように、ゼロ交差率及び信号のエネルギーなどを計算することにより、音声区間を検出することができる。すなわち、図2Aに示されるように、エネルギー値が設定された閾値以上となれば、音声が始まったと判断し、該当時点から一定区間前で音声区間が開始したと決定し、エネルギー値が設定された閾値以下に下降する区間が一定時間継続すると、音声区間が終了したと判別するようになる。
一方、ゼロ交差率は、音声信号のサンプル値とすぐ前の音声信号のサンプル値との積が負の数の場合には、零点を交差したと判断する。ゼロ交差率を、音声区間の判断の基準にすることができる理由は、入力された音声信号は、その該当区間において周期的な区間を必ず含んでおり、その周期的な区間のゼロ交差率は、音声のない区間のゼロ交差率に比べて、かなり小さいからである。したがって、図2Bに示されるように、音声のない区間のゼロ交差率は、設定されたゼロ交差率閾値より大きく現れ、反対に、音声区間では、ゼロ交差率が現れない。
このような方法により、入力音声信号の音声区間が検出された場合には、検出された音声区間の前後に存在する非音声区間の信号を用いて、音声信号のチャネルを推定する(ステップ102)。すなわち、非音声区間の信号データを用いて、現在のチャネルの特性を周波数分析により推定するにあたって、時間領域で連続する短区間特性の平均として推定することができる。ここで、非音声区間の入力信号は、数式5の通りである。上記のように推定されたチャネル詳細情報は、端末内の音声DBに格納された音響モデルをチャネルに適応させるために使われる。
チャネル推定が行われた後、ゼロ交差率とエネルギーを用いて、入力された音声信号から休止区間を検出し、入力された音声信号内に休止区間が存在するか否かを判断する(ステップ103)。
休止区間の検出は、ステップ101と同様に、ゼロ交差率とエネルギーを用いて検出することができる。但し、このときに使われる閾値は、音声区間の検出に使われる値と異なるようにすることができる。これは、無音声区間(すなわち任意雑音として表現され得る雑音区間)を、休止区間として検出するエラーを低減するためである。
音声区間が始まったと判断された時点以後、音声区間の終りを判断する前に、所定の休止区間の非音声区間が現れた場合には、入力された音声信号は、端末の音声認識システムで処理しない自然言語データであると判断し、音声データをサーバに転送する。つまり、休止区間の検出は、音声区間の開始と終りとの間で、エネルギーが小さく、ゼロ交差率が所定の値を越える区間を、休止区間として検出することができる。
すなわち、ステップ103で、休止区間の検出の結果、音声区間内に休止区間が検出された場合には、ユーザから入力された音声信号は、クライアントである端末の音声認識システムで音声認識を行わない自然言語と判断し、サーバに転送するためのデータを構成する(ステップ104)。それから、構成されたデータを、ネットワークを介してサーバの音声認識システムに転送する(ステップ105)。ここで、サーバに転送するためのデータは、図7に示されたデータフォーマットを有する。すなわち、サーバに転送されるデータには、転送されるデータが音声認識のためのデータであるか否かを区分するための音声認識フラグ、転送する端末の識別子を示す端末識別子、チャネル推定情報が含まれているか否かを示すチャネル推定フラグ、認識結果を示す認識ID、転送される全体データのサイズを示す全体データサイズ情報、音声データサイズ情報及びチャネルデータサイズ情報のうちの少なくとも1つの情報を含むことができる。
一方、ステップ103で、休止区間の検出の結果、音声区間内に休止区間が存在していないと判断される場合には、休止区間が検出されない音声信号に対して単語音声認識のための特徴抽出を行う(ステップ106)。ここで、BRL区間が検出されない音声信号に対する特徴抽出は、上記チャネル推定時に使用した周波数分析を利用した方法を用いて行うことができ、代表的な方法としては、MFCCを利用する方法を適用することができる。MFCCを利用する方法については、上記で詳細に説明したので、その説明は省略する。
音声信号に対する特徴成分を抽出した後、抽出された特徴成分ベクトルを用いて、端末内の音声DBに格納された音響モデルを適応させる。すなわち、モデル適応は、端末内の音声DBに格納された音響モデルに、現在入力された音声信号のチャネルにより生じた歪みを反映するために行われる(ステップ107)。すなわち、モデル適応は、休止モデルを、推定された現在のチャネルの状況に適応させるために行われ、推定されたチャネルのパラメータを、適応アルゴリズムを介して抽出された特徴パラメータに適用する。チャネル適応は、抽出された特徴ベクトルを構成するパラメータに反映されたチャネル詳細情報を除去する方法を使用するか、または、音声DBに格納された音声モデルに、チャネル詳細情報を付加する方法を使用する。
ステップ107のモデル適応により得られた特徴ベクトルをデコードすることにより入力された音声信号に対する単語をデコードすることによって、音声認識を行う(ステップ108)。
以下、クライアントである端末で処理せずに転送される音声データ(自然言語:文章、語句など)をサーバで受信し、音声認識を行う方法について図5を参照して段階的に説明する。
図5は、ネットワークサーバ内の音声認識システムにおける音声認識方法に関するフローチャートである。
図5に示されるように、まず、クライアントである端末から図7のようなデータフォーマットで転送されるデータを受信し、受信されたデータフォーマットの各フィールドを分析する(ステップ200)。
また、データ受信部20は、図7のようなデータフォーマットで端末の識別子フィールドに格納された端末の識別子値を用いて、認識しようとするモデルを音声DB26から選定する(ステップ201)。
そして、受信されたデータからチャネルデータフラグを確認し、チャネルデータが共に端末から転送されたか否かを判断する(ステップ202)。
この判断の結果、端末からチャネル詳細情報が共に転送されていない場合には、データ受信部20は、受信された音声データのチャネルを推定する。すなわち、クライアントである端末から転送されたデータを、端末の認識対象種類、音声データ及びチャネルデータに区分し、端末からチャネル推定データが受信されていない場合には、受信された音声データを用いてチャネルを推定する(ステップ203)。
一方、ステップ202での判断結果、チャネルデータが端末から受信された場合には、チャネルデータを音声DBから選ばれたモデルに適応させるか、または、ステップ203で推定されたチャネル詳細情報を用いて、音声DBから選定された音声モデルに適応させる(ステップ204)。
モデル適応後、適応されたモデルによる音声データから、音声認識のための特徴ベクトル成分を抽出する(ステップ205)。
そして、上記抽出した特徴ベクトル成分の認識を行い、上記適応させたモデルを用いて認識結果を言語処理する(ステップ206、ステップ207)。ここで、処理すべき言語は、単語でなく、文章、少なくとも語句水準のデータであるから、言語を正確に判別するための自然言語管理モデルが、言語処理に適用される。
このように言語処理された自然言語の音声認識処理結果データを、音声認識IDと一緒にネットワークを介してクライアントである端末に転送することによって、音声認識処理を終了する。
本発明による無線端末内の音声認識システムのブロック構成を示す図である。 図1に示された音声検出部でゼロ交差率とエネルギーを用いて音声区間を検出する方法を示すグラフである。 図1に示された音声検出部でゼロ交差率とエネルギーを用いて音声区間を検出する方法を示すグラフである。 本発明によるサーバ内の音声認識システムのブロック構成を示す図である。 本発明による無線端末での音声認識方法に関するフローチャートである。 本発明によるサーバでの音声認識方法に関するフローチャートである。 図1に示された休止検出部で音声休止区間を検出した信号波形を示す図である。 図1に示された休止検出部で音声休止区間を検出した信号波形を示す図である。 図1に示された休止検出部で音声休止区間を検出した信号波形を示す図である。 端末からサーバに転送されるデータフォーマット構成を示す図である。
符号の説明
10 マイク
11 音声検出部
12、21 チャネル推定部
13 休止検出部
14、23 特徴抽出部
15、22 モデル適応部
16、24 音声認識部
17、26 音声DB
18 転送データ構成部
19 データ転送部
20 データ受信部
25 言語処理部

Claims (22)

  1. 入力される音声信号における音声区間の休止区間をチェックし、入力された音声の種類を判別し、
    音声認識処理が可能な音声である場合には、判別された音声の種類に基づいて、格納された音声の認識対象モデルを選定し、選定された認識対象モデルに基づいて、入力音声データを認識処理し、
    音声認識処理が可能ではない音声である場合には、音声認識処理要求データをネットワークを介して転送する、第1の音声認識ユニットと、
    前記第1の音声認識ユニットによりネットワークを介して転送された前記音声認識処理要求データを分析し、認識処理すべき音声に相当する認識対象モデルを選定し、
    選定された認識対象モデルを適用して音声認識による言語処理を行い、
    言語処理結果データを、ネットワークを介して前記第1の音声認識ユニットに転送する、第2の音声認識ユニットと、
    を備えることを特徴とする分散音声認識システム。
  2. 前記第1の音声認識ユニットは、端末に装着され、前記第2の音声認識ユニットは、ネットワークサーバに装着されることによって、分散的に音声認識処理を行うことを特徴とする請求項1に記載の分散音声認識システム。
  3. 前記端末は、テレマティックス端末、移動端末、無線LAN端末、IP端末のうち少なくとも1つの端末を含むことを特徴とする請求項2に記載の分散音声認識システム。
  4. 前記第1の音声認識ユニットは、
    入力された音声信号から音声区間を検出する音声検出部と、
    前記音声検出部で検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する休止検出部と、
    前記音声検出部で検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定するチャネル推定部と、
    前記休止検出部で休止区間が検出されない場合には、音声データの認識特徴を抽出する特徴抽出部と、
    前記休止検出部で休止区間が検出された場合には、音声認識処理要求データを生成し、該音声認識処理要求データを、ネットワークを介して前記第2の音声認識ユニットに転送するデータ処理部と、
    前記チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去し、音声認識を行う音声認識処理部と、
    を備えることを特徴とする請求項1に記載の分散音声認識システム。
  5. 前記音声検出部は、入力音声信号に対する音声波形のゼロ交差率とエネルギーと、設定された閾値と、の比較結果によって、音声区間を検出することを特徴とする請求項4に記載の分散音声認識システム。
  6. 前記音声認識処理部は、
    前記チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去するモデル適応部と、
    前記モデル適応部で処理された音声データをデコードし、入力された音声信号の音声認識を行う音声認識部と、
    を備えることを特徴とする請求項4に記載の分散音声認識システム。
  7. 前記休止検出部は、
    前記音声検出部で検出された音声区間内に休止区間が存在していない場合には、入力された音声データが単語に関する音声データであると判断し、
    前記音声区間内に休止区間が存在する場合には、入力された音声データが自然言語に関する音声データであると判断することを特徴とする請求項4に記載の分散音声認識システム。
  8. 前記チャネル推定部での非音声区間のデータを用いたチャネル推定は、連続する短区間の周波数分析、エネルギー分布、ケプストラム、時間領域でのウェーブ波形平均を計算する方法のうち、少なくとも1つの方法を利用することを特徴とする請求項4に記載の分散音声認識システム。
  9. 前記データ処理部は、
    前記休止検出部で休止区間が検出された場合に、前記第2の音声認識ユニットに前記休止区間を転送するために用いられる音声認識処理要求データを構成する転送データ構成部と、
    前記構成された音声認識処理要求データを、ネットワークを介して、前記第2の音声認識ユニットに転送するデータ転送部と、
    を備えることを特徴とする請求項4に記載の分散音声認識システム。
  10. 前記音声認識処理要求データは、音声認識フラグ、端末識別子、チャネル推定フラグ、認識ID、全体データサイズ、音声データサイズ、チャネルデータサイズ、音声データ、チャネルデータのうち少なくとも1つの情報を含むことを特徴とする請求項9に記載の分散音声認識システム。
  11. 前記第2の音声認識ユニットは、
    前記第1の音声認識ユニットによりネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類することにより、認識対象モデルをデータベースから選定するデータ受信部と、
    前記データ受信部で分類された音声データから音声認識対象特徴成分を抽出する特徴抽出部と、
    前記データ受信部から受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定するチャネル推定部と、
    前記チャネル推定部で推定されたチャネル詳細情報、または、前記第1の音声認識ユニットから受信したチャネル推定情報を用いて、データベースに格納された認識対象音響モデルに雑音成分を適応させることにより、雑音成分を除去し、音声認識を行う音声認識処理部と、
    を備えることを特徴とする請求項1に記載の分散音声認識システム。
  12. 前記音声認識処理部は、
    前記チャネル推定部で推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させることにより、雑音成分を除去するモデル適応部と、
    前記モデル適応部で処理された音声データをデコードすることにより、入力された音声信号の音声認識を行う音声認識部と、
    前記認識処理された音声認識処理結果データを、ネットワークを介して、前記第1の音声認識ユニットに転送するデータ転送部と、を備えることを特徴とする請求項11に記載の分散音声認識システム。
  13. 前記チャネル推定部でのチャネル推定は、連続する短区間の周波数分析、エネルギー分布、ケプストラム、時間領域でのウェーブ波形平均を計算する方法のうち少なくとも1つの方法を利用することを特徴とする請求項11に記載の分散音声認識システム。
  14. 端末に入力される音声信号に対する音声区間の休止区間をチェックすることにより、入力された音声の種類を判別し、判別された音声の種類によって音声認識処理が可能な音声である場合には、格納された音声の認識対象モデルを選定し、選定された認識対象モデルによって入力音声データを認識処理し、端末で音声認識処理が可能ではない音声である場合には、音声認識処理要求データを、ネットワークを介してサーバに転送する段階と、
    前記サーバでは、前記端末からネットワークを介して転送される前記音声認識処理要求データを分析することにより、認識処理すべき音声データに対応する認識対象モデルを選定し、選定された認識対象モデルを適用することにより音声認識による言語処理を行い、言語処理結果データを、ネットワークを介して前記端末に転送する段階と、
    を有することを特徴とする分散音声認識方法。
  15. 前記端末から音声認識処理要求データをネットワークを介してサーバに転送する段階は、
    入力された音声信号から音声区間を検出する段階と、
    前記検出された音声区間内で休止区間を検出し、入力された音声信号の種類を判別する段階と、
    前記検出された音声区間以外の非音声区間のデータを用いてチャネル詳細情報を推定する段階と、
    前記休止区間が検出されない場合には、音声データの認識特徴を抽出し、前記休止区間が検出された場合には、音声認識処理要求データを生成し、前記認識特徴または前記音声認識処理要求データを、ネットワークを介して前記サーバに転送する段階と、
    前記推定されたチャネル詳細情報をデータベースに格納された認識対象音響モデルに適応させることにより雑音成分を除去して、音声認識を行う段階と、を有することを特徴とする請求項14に記載の分散音声認識方法。
  16. 前記音声区間を検出する段階において、入力音声信号に対する音声波形のゼロ交差率とエネルギーと、設定された閾値と、の比較結果によって音声区間を検出することを特徴とする請求項15に記載の分散音声認識方法。
  17. 前記音声認識を行う段階は、
    前記推定されたチャネル詳細情報を、データベースに格納された認識対象音響モデルに適応させて、雑音成分を除去する段階と、
    前記処理された音声データをデコードし、入力された音声信号の音声認識を行う段階と、を有することを特徴とする請求項15に記載の分散音声認識方法。
  18. 前記休止区間を検出する段階において、前記検出された音声区間内に休止区間が存在しない場合には、入力された音声データが単語に関する音声データであると判断し、休止区間が存在する場合には、入力された音声データを自然言語に関する音声データであると判断することを特徴とする請求項15に記載の分散音声認識方法。
  19. 前記チャネル詳細情報を推定する段階でのチャネル詳細情報の推定は、連続する短区間の周波数分析、エネルギー分布、ケプストラム、時間領域でのウェーブ波形平均を計算する方法のうち少なくとも1つの方法を利用することを特徴とする請求項15に記載の分散音声認識方法。
  20. 前記音声認識処理要求データを生成し、前記音声データの認識特徴または前記音声認識処理要求データを、ネットワークを介して前記サーバに転送する段階は、
    前記休止区間が検出された場合には、音声データを前記サーバに転送するために用いられる音声認識処理要求データを構成する段階と、
    前記構成された音声認識処理要求データを、ネットワークを介して前記サーバに転送する段階と、を有することを特徴とする請求項15に記載の分散音声認識方法。
  21. 前記音声認識処理要求データは、音声認識フラグ、端末識別子、チャネル推定フラグ、認識ID、全体データサイズ、音声データサイズ、チャネルデータサイズ、音声データ、チャネルデータのうち少なくとも1つの情報を含むことを特徴とする請求項20に記載の分散音声認識方法。
  22. 前記端末に転送する段階は、
    前記端末からネットワークを介して転送される音声認識処理要求データを受信し、チャネルデータと音声データ及び端末機の認識対象を各々分類し、認識対象モデルをデータベースから選定する段階と、
    前記分類された音声データから音声認識対象特徴成分を抽出する段階と、
    前記受信されたデータ内にチャネルデータが含まれていない場合には、受信された音声データから認識環境のチャネル詳細情報を推定する段階と、
    前記推定されたチャネル詳細情報または端末から受信したチャネル推定情報をデータベースに格納された認識対象音響モデルに適応させて、雑音成分を除去し、音声認識を行う段階と、を有することを特徴とする請求項14に記載の分散音声認識方法。
JP2005248640A 2004-09-06 2005-08-30 分散音声認識システム及びその方法 Pending JP2006079079A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040070956A KR100636317B1 (ko) 2004-09-06 2004-09-06 분산 음성 인식 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
JP2006079079A true JP2006079079A (ja) 2006-03-23

Family

ID=36158544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005248640A Pending JP2006079079A (ja) 2004-09-06 2005-08-30 分散音声認識システム及びその方法

Country Status (4)

Country Link
US (1) US20060053009A1 (ja)
JP (1) JP2006079079A (ja)
KR (1) KR100636317B1 (ja)
CN (1) CN1746973A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023182015A1 (ja) * 2022-03-22 2023-09-28 パナソニックIpマネジメント株式会社 音声認証装置および音声認証方法

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100622019B1 (ko) * 2004-12-08 2006-09-11 한국전자통신연구원 음성 인터페이스 시스템 및 방법
TWI319152B (en) * 2005-10-04 2010-01-01 Ind Tech Res Inst Pre-stage detecting system and method for speech recognition
US7778632B2 (en) * 2005-10-28 2010-08-17 Microsoft Corporation Multi-modal device capable of automated actions
KR100791349B1 (ko) * 2005-12-08 2008-01-07 한국전자통신연구원 분산 음성 인식 시스템에서 음성 신호의 코딩 방법 및 그장치
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
KR100794140B1 (ko) * 2006-06-30 2008-01-10 주식회사 케이티 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법
FI20060666A0 (fi) * 2006-07-07 2006-07-07 Nokia Corp Menetelmä ja järjestelmä epäjatkuvan lähetyksen toiminnallisuuden parantamiseksi
KR100832556B1 (ko) * 2006-09-22 2008-05-26 (주)한국파워보이스 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
DE102008022125A1 (de) * 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
KR101006257B1 (ko) * 2008-06-13 2011-01-06 주식회사 케이티 발화 환경과 발화자에 따른 음성 인식 방법 및 장치
US20100097178A1 (en) * 2008-10-17 2010-04-22 Pisz James T Vehicle biometric systems and methods
SG189182A1 (en) * 2010-10-29 2013-05-31 Anhui Ustc Iflytek Co Ltd Method and system for endpoint automatic detection of audio record
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US8532985B2 (en) 2010-12-03 2013-09-10 Microsoft Coporation Warped spectral and fine estimate audio encoding
CN103000172A (zh) * 2011-09-09 2013-03-27 中兴通讯股份有限公司 信号分类方法和装置
US8793136B2 (en) * 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
CN102646415B (zh) * 2012-04-10 2014-07-23 苏州大学 一种语音识别中的特征参数提取方法
US8917853B2 (en) 2012-06-19 2014-12-23 International Business Machines Corporation Enhanced customer experience through speech detection and analysis
EP2713582B1 (en) * 2012-09-28 2018-08-01 Harman Becker Automotive Systems GmbH Method and apparatus for personalized access to automotive telematic services
CN103903619B (zh) * 2012-12-28 2016-12-28 科大讯飞股份有限公司 一种提高语音识别准确率的方法及系统
US10452660B2 (en) * 2013-05-31 2019-10-22 International Business Machines Corporation Generation and maintenance of synthetic context events from synthetic context objects
CN104517606A (zh) * 2013-09-30 2015-04-15 腾讯科技(深圳)有限公司 语音识别测试方法及装置
KR101808810B1 (ko) 2013-11-27 2017-12-14 한국전자통신연구원 음성/무음성 구간 검출 방법 및 장치
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
KR102304052B1 (ko) * 2014-09-05 2021-09-23 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
KR101579537B1 (ko) * 2014-10-16 2015-12-22 현대자동차주식회사 자동차 및 자동차의 음성 인식 제어 방법
KR101657655B1 (ko) * 2015-02-16 2016-09-19 현대자동차주식회사 차량 및 그 제어 방법
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
US20170068922A1 (en) * 2015-09-03 2017-03-09 Xerox Corporation Methods and systems for managing skills of employees in an organization
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
US10079020B2 (en) * 2015-11-19 2018-09-18 Panasonic Corporation Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9899038B2 (en) 2016-06-30 2018-02-20 Karen Elaine Khaleghi Electronic notebook system
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552722A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US10540451B2 (en) * 2016-09-28 2020-01-21 International Business Machines Corporation Assisted language learning
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
US10258295B2 (en) * 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
US20190115028A1 (en) * 2017-08-02 2019-04-18 Veritone, Inc. Methods and systems for optimizing engine selection
KR102158739B1 (ko) * 2017-08-03 2020-09-22 한국전자통신연구원 자동통역 시스템, 디바이스 및 방법
KR101952284B1 (ko) * 2017-08-28 2019-02-26 경희대학교 산학협력단 미디어 가치를 향상시키는 보조정보와 이를 원격에서 추출하고, 표현하고, 전송하는 방법 및 기기
CN109994101A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种语音识别方法、终端、服务器及计算机可读存储介质
US10235998B1 (en) 2018-02-28 2019-03-19 Karen Elaine Khaleghi Health monitoring system and appliance
US10559307B1 (en) * 2019-02-13 2020-02-11 Karen Elaine Khaleghi Impaired operator detection and interlock apparatus
US11138979B1 (en) * 2020-03-18 2021-10-05 Sas Institute Inc. Speech audio pre-processing segmentation
US11335350B2 (en) * 2020-03-18 2022-05-17 Sas Institute Inc. Dual use of audio noise level in speech-to-text framework
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
CN111986655B (zh) * 2020-08-18 2022-04-01 北京字节跳动网络技术有限公司 音频内容识别方法、装置、设备和计算机可读介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US5915235A (en) * 1995-04-28 1999-06-22 Dejaco; Andrew P. Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6480825B1 (en) * 1997-01-31 2002-11-12 T-Netix, Inc. System and method for detecting a recorded voice
DE69836454T2 (de) * 1997-02-10 2007-10-04 Koninklijke Philips Electronics N.V. Kommunikationsnetzwerk zur übertragung von sprachsignalen
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
WO1999026233A2 (en) 1997-11-14 1999-05-27 Koninklijke Philips Electronics N.V. Hardware sharing in a speech-based intercommunication system
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US20020091527A1 (en) * 2001-01-08 2002-07-11 Shyue-Chin Shiau Distributed speech recognition server system for mobile internet/intranet communication
US7050969B2 (en) * 2001-11-27 2006-05-23 Mitsubishi Electric Research Laboratories, Inc. Distributed speech recognition with codec parameters
US7027986B2 (en) * 2002-01-22 2006-04-11 At&T Corp. Method and device for providing speech-to-text encoding and telephony service
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023182015A1 (ja) * 2022-03-22 2023-09-28 パナソニックIpマネジメント株式会社 音声認証装置および音声認証方法

Also Published As

Publication number Publication date
US20060053009A1 (en) 2006-03-09
CN1746973A (zh) 2006-03-15
KR100636317B1 (ko) 2006-10-18
KR20060022156A (ko) 2006-03-09

Similar Documents

Publication Publication Date Title
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
US9536547B2 (en) Speaker change detection device and speaker change detection method
Kingsbury et al. Robust speech recognition using the modulation spectrogram
EP0625774B1 (en) A method and an apparatus for speech detection
Hu et al. Pitch‐based gender identification with two‐stage classification
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
EP1199708A2 (en) Noise robust pattern recognition
CN108564956B (zh) 一种声纹识别方法和装置、服务器、存储介质
CN113192535B (zh) 一种语音关键词检索方法、系统和电子装置
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
CN112116909A (zh) 语音识别方法、装置及系统
Maganti et al. Auditory processing-based features for improving speech recognition in adverse acoustic conditions
JP4696418B2 (ja) 情報検出装置及び方法
KR20090065181A (ko) 잡음 검출 방법 및 장치
Faycal et al. Comparative performance study of several features for voiced/non-voiced classification
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
CN113241059A (zh) 语音唤醒方法、装置、设备及存储介质
CN108573712B (zh) 语音活性检测模型生成方法、系统及语音活性检测方法、系统

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051213

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090407