JP2008242067A

JP2008242067A - 音声認識装置、音声認識システムおよび音声認識方法

Info

Publication number: JP2008242067A
Application number: JP2007082411A
Authority: JP
Inventors: Takatoshi Sanehiro; 貴敏實廣; Tadashi Omura; 廉大村; Kiyoshi Kogure; 潔小暮; Haruo Noma; 春生野間; Futoshi Naya; 太納谷; Tomoji Toriyama; 朋二鳥山; Masaya Okada; 昌也岡田; Masakazu Miyamae; 雅一宮前
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2007-03-27
Filing date: 2007-03-27
Publication date: 2008-10-09

Abstract

【課題】背景雑音の異なる複数の場所に移動しても認識率を下げない。
【解決手段】音声認識システム１０は、複数のデータベースが接続されたサーバ１２を含む。データベースには、複数の場所に対応して作成された雑音モデルが当該場所に対応付けて記憶される。また、サーバ１２には、ネットワーク１４を介して複数の中継器１６および通信可能な携帯端末１８が接続される。携帯端末１８は、被験者の音声を含む入力音声を取得し、音声データを中継器１６に送信する。中継器１６は、音声データに自身のＩＤを付し、サーバ１２に送信する。サーバ１２は、ＩＤに基づいて中継器１６の設置場所を特定し、被験者の現在位置として推定する。そして、現在位置に応じた雑音モデルを用いて、被験者の音声を認識する。
【効果】予め複数の場所に対応した雑音モデルを用意することで、入力音声に含まれる雑音を適切に抑圧でき、正確に音声認識することができる。
【選択図】図１

Description

この発明は音声認識装置、音声認識システムおよび音声認識方法に関し、特にたとえば、雑音を含む入力音声から被験者の音声を認識する、音声認識装置、音声認識システムおよび音声認識方法に関する。

従来のこの種の音声認識装置の一例が特許文献１に示されている。特許文献１の技術では、入力音声信号中の音声区間の信号と雑音区間の信号とを判別し、観測した雑音区間の信号から雑音モデルを学習する。そして、予め用意した雑音のない音声モデルと雑音モデルとを合成し、雑音重畳音声モデルを生成する。また、雑音区間の信号を予め用意した基準信号に重畳し、特徴パラメータの長時間平均を求めておく。これらの動作は、音声区間の信号が入力される前に実行される。音声区間の信号が入力されると、この信号の特徴パラメータの長時間平均を求め、雑音区間の信号を重畳した基準信号の特徴パラメータの長時間平均との差分を求める。この差分を雑音重畳音声モデルに加算して、ＣＭＮ済雑音重畳音声モデルとする。そして、ＣＭＮ済雑音重畳音声モデルと音声区間の信号の特徴パラメータとのモデル照合尤度を計算し、認識結果を出力する。
特開２００６−１４５６９４号

特許文献１の技術では、入力音声信号中の雑音区間から雑音モデルを学習しているが、音声区間と雑音区間との正確な判別は困難であるため、雑音モデルが適切に作成されない恐れがある。また、雑音区間が短い場合には、雑音モデルの推定に用いるデータが少なくなり、雑音モデルの信頼度は低くなる。したがって、特許文献１の技術では、音声認識を適切に実行できない恐れがある。

それゆえに、この発明の主たる目的は、新規な、音声認識装置、音声認識システムおよび音声認識方法を提供することである。

この発明の他の目的は、雑音を含んだ入力音声であっても正確に音声認識できる、音声認識装置、音声認識システムおよび音声認識方法を提供することである。

本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。

請求項１の発明は、複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段、被験者の音声を含む入力音声を検出する入力音声検出手段、被験者の存在する場所を特定する場所特定手段、場所特定手段によって特定された場所に応じた雑音モデルを雑音モデル記憶手段から読み出す雑音モデル読出手段、および雑音モデル読出手段によって読み出された雑音モデルを用いて、入力音声検出手段によって検出された入力音声に含まれる被験者の音声を認識する音声認識手段を備える、音声認識装置である。

請求項１の発明では、音声認識装置（１２，１８）は、雑音モデル記憶手段（４４）、入力音声検出手段（３８，Ｓ１）、場所特定手段（Ｓ５）、雑音モデル読出手段（Ｓ１１）、および音声認識手段（Ｓ１５）を備える。雑音モデル記憶手段は、複数の場所の各々で収集された雑音データを用いて作成された複数の雑音モデルを、当該複数の場所の各々に対応付けて記憶する。入力音声検出手段は、被験者の音声を含む入力音声を検出し、場所特定手段は、被験者の存在する場所すなわち現在位置を特定する。雑音モデル読出手段は、被験者の現在位置に応じた雑音モデルを雑音モデル記憶手段から読み出す。音声認識手段は、被験者の現在位置に応じた雑音モデルを用いて雑音抑圧処理を行い、入力音声に含まれる被験者の音声を認識する。雑音モデルを用いた雑音抑圧処理としては、たとえば、ＰＭＣ（Parallel Model Combination）法やＧＭＭ（Gaussian Mixture Model）による雑音抑圧処理を用いることができる。

請求項１の発明によれば、予め複数の場所に対応した雑音モデルを用意し、被験者の存在する場所に応じた雑音モデルを選択して音声認識を実行するので、入力音声に含まれる雑音を適切に抑圧でき、正確に音声認識することができる。

請求項２の発明は、請求項１の発明に従属し、複数の場所の各々について推定された空間伝達関数の逆フィルタを該当する場所に対応付けて記憶する逆フィルタ記憶手段、および場所特定手段によって特定された場所に応じた逆フィルタを逆フィルタ記憶手段から読み出す逆フィルタ読出手段をさらに備え、音声認識手段は雑音モデル読出手段によって読み出された雑音モデルおよび逆フィルタ決定手段によって読み出された逆フィルタを用いて入力音声検出手段によって検出された入力音声に含まれる被験者の音声を認識する。

請求項２の発明では、逆フィルタ記憶手段（４２）および逆フィルタ読出手段（Ｓ９）をさらに備える。逆フィルタ記憶手段は、複数の場所の各々に対応して推定された空間伝達関数の逆フィルタを当該複数の場所の各々に対応付けて記憶する。逆フィルタ読出手段は、被験者の現在位置に応じた逆フィルタを逆フィルタ記憶手段から読み出す。音声認識手段（Ｓ１５）は、被験者の現在位置に応じた雑音モデルおよび逆フィルタを用いて雑音抑圧処理および残響抑圧処理を行い、入力音声に含まれる被験者の音声を認識する。

請求項２の発明によれば、被験者の存在する場所に応じた逆フィルタを用いて残響抑圧処理も行うので、より正確に音声認識することができる。

請求項３の発明は、請求項１または２の発明に従属し、入力音声検出手段によって検出された入力音声に対応する音声信号の信号対雑音比を推定する推定手段、および推定手段によって推定された信号対雑音比に応じて雑音モデルの合成比率を調整する調整手段をさらに備える。

請求項３の発明では、推定手段（Ｓ３）および調整手段（Ｓ１３）をさらに備える。推定手段は、入力音声の信号対雑音比（ＳＮＲ）、すなわち音声および雑音の相対的な大きさの比を推定する。調整手段は、信号対雑音比に応じて雑音モデルの合成比率を調整する。たとえば、音声モデルと雑音モデルとを合成して雑音重畳モデルを作成するときには、推定したＳＮＲに応じて合成比率を調整する。

請求項３の発明によれば、入力音声のＳＮＲを考慮してモデル合成を行うので、より正確に音声認識することができる。

請求項４の発明は、複数の場所の各々に対応して推定された空間伝達関数の逆フィルタを当該複数の場所の各々に対応付けて記憶する逆フィルタ記憶手段、被験者の音声を含む入力音声を検出する入力音声検出手段、被験者の存在する場所を特定する場所特定手段、場所特定手段によって特定された場所に応じた逆フィルタを逆フィルタ記憶手段から読み出す逆フィルタ読出手段、逆フィルタ読出手段によって読み出された逆フィルタを用いて、入力音声検出手段によって検出された入力音声に対して逆フィルタ処理を施す逆フィルタ処理手段、および逆フィルタ処理手段によって逆フィルタ処理を施された入力音声に含まれる被験者の音声を認識する音声認識手段を備える、音声認識装置である。

請求項４の発明では、音声認識装置（１２，１８）は、逆フィルタ記憶手段（４２）、入力音声検出手段（３８，Ｓ１）、場所特定手段（Ｓ５）、逆フィルタ読出手段（Ｓ９）、逆フィルタ処理手段（Ｓ９）、および音声認識手段（Ｓ１５）を備える。逆フィルタ記憶手段は、複数の場所の各々に対応して推定された空間伝達関数の逆フィルタを当該複数の場所の各々に対応付けて記憶する。入力音声検出手段は、被験者の音声を含む入力音声を検出し、場所特定手段は、被験者の存在する場所すなわち現在位置を特定する。逆フィルタ読出手段は、被験者の現在位置に応じた逆フィルタを逆フィルタ記憶手段から読み出す。逆フィルタ処理手段は、入力音声検出手段によって検出された入力音声に対して逆フィルタ処理、つまり残響抑圧処理を施す。音声認識手段は、逆フィルタを用いて残響抑圧処理された入力音声に含まれる被験者の音声を認識する。

請求項４の発明によれば、複数の場所に対応した逆フィルタを予め用意し、被験者の存在する場所に応じた逆フィルタ処理を入力音声に施して音声認識を実行するので、入力音声に含まれる残響を適切に抑圧でき、正確に音声認識することができる。

請求項５の発明は、請求項１ないし４の発明のいずれかに従属し、場所特定手段は環境に設置された中継器が発する識別情報を検出し、当該識別情報を発した中継器の設置場所を被験者の存在する場所として特定する。

請求項５の発明では、複数の場所に中継器（１６）が設置されており、場所特定手段（Ｓ５）は、通信可能範囲に存在する中継器が発する識別情報（中継器ＩＤ）を検出する。そして、中継器ＩＤに基づいてその中継器が設置されている場所を特定し、その特定した場所を被験者の存在する場所（現在位置）として推定（特定）する。したがって、被験者の現在位置を簡単に特定することができ、特定した場所に応じた雑音モデルや逆フィルタを用いて正確に音声認識することができる。

請求項６の発明は、ネットワークで接続された携帯端末およびサーバを備える音声認識システムであって、携帯端末は、被験者の音声を含む入力音声を検出する入力音声検出手段、および入力音声検出手段によって検出された入力音声についての音声信号をサーバに送信する送信手段を備え、サーバは、送信手段によって送信された音声信号を受信する受信手段、複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段、被験者の存在する場所を特定する場所特定手段、場所特定手段によって特定された場所に応じた雑音モデルを雑音モデル記憶手段から読み出す雑音モデル読出手段、および雑音モデル読出手段によって読み出された雑音モデルを用いて、受信手段によって受信された音声信号に含まれる被験者の音声を認識する音声認識手段を備える、音声認識システムである。

請求項６の発明では、音声認識システム（１０）は、携帯端末（１８）およびサーバ（１２）を含み、たとえば、看護師などの被験者が作業中に発話する発話内容（実施例では業務内容）を音声認識して記録する。携帯端末は、被験者によって所持され、入力音声検出手段（３８）によって検出された被験者の音声を含む入力音声についての音声信号を、送信手段（２８）によってサーバに送信する。サーバは、受信手段（Ｓ１）、雑音モデル記憶手段（４４）、場所特定手段（Ｓ５）、雑音モデル読出手段（Ｓ１１）、および音声認識手段（Ｓ１５）を備える。受信手段は、携帯端末から送信される音声信号を受信する。雑音モデル記憶手段は、病室の入り口やナースステーションなどの複数の場所に対応した雑音モデルを記憶する。場所特定手段は、被験者の被験者の存在する場所、すなわち現在位置を特定し、雑音モデル読出手段は、被験者の現在位置に応じた雑音モデルを雑音モデル記憶手段から読み出す。音声認識手段は、被験者の現在位置に応じた雑音モデルを用いて雑音抑圧処理を行い、受信手段によって受信された音声信号（入力音声の音声信号）に含まれる被験者の音声を認識する。

請求項６の発明によれば、請求項１の発明と同様に、複数の場所に対応した雑音モデルを予め用意し、被験者の存在する場所に応じた雑音モデルを選択して音声認識を実行するので、雑音を適切に抑圧でき、正確に音声認識することができる。

請求項７の発明は、請求項６の発明に従属し、サーバは、複数の場所の各々について推定された空間伝達関数の逆フィルタを該当する場所に対応付けて記憶する逆フィルタ記憶手段、および場所特定手段によって特定された場所に応じた逆フィルタを逆フィルタ記憶手段から読み出す逆フィルタ読出手段をさらに備え、音声認識手段は雑音モデル読出手段によって読み出された雑音モデルおよび逆フィルタ読出手段によって読み出された逆フィルタを用いて、入力音声検出手段によって検出された入力音声に含まれる被験者の音声を認識する。

請求項７の発明では、サーバ（１２）は、逆フィルタ記憶手段（４２）および逆フィルタ読出手段（Ｓ９）をさらに備える。逆フィルタ記憶手段は、病室の入り口やナースステーションなどの複数の場所に対応して推定された空間伝達関数の逆フィルタを記憶する。逆フィルタ決定手段は、被験者の現在位置に応じた逆フィルタを逆フィルタ記憶手段から逆フィルタを読み出す。音声認識手段（Ｓ１５）は、被験者の現在位置に応じた雑音モデルおよび逆フィルタを用いて雑音抑圧処理および残響抑圧処理を行い、音声認識を行う。

請求項７の発明によれば、複数の場所に対応した雑音モデルおよび逆フィルタを予め記憶し、被験者の存在する場所に応じた雑音モデルおよび逆フィルタを選択して音声認識を実行するので、入力音声に含まれる雑音および残響を適切に抑圧でき、正確に音声認識することができる。

請求項８の発明は、請求項６または７の発明に従属し、複数の場所の各々に対応して配置され、携帯端末とサーバとの通信を中継する複数の中継器をさらに備え、中継器は、携帯端末から送信された音声信号を受信して、受信した音声信号に自己の識別情報を付加してサーバに送信し、場所特定手段は、受信手段によって受信された音声信号に付加された識別情報に基づいて、当該音声信号を送信した中継器の設置場所を被験者の存在する場所として特定する。

請求項８の発明では、複数の場所の各々に対応して配置される複数の中継器（１６）をさらに備える。中継器は、通信可能な範囲に存在する携帯端末（１８）から送信される被験者の音声を含む入力音声についての音声信号を受信し、受信した音声信号に自身の識別情報（中継器ＩＤ）を付加してサーバ（１２）に送信する。場所特定手段（Ｓ５）は、中継器ＩＤに基づいて当該中継器の設置場所を特定し、その設置場所を携帯端末の存在する場所、すなわち被験者の現在位置として特定する。したがって、被験者の現在位置を容易に特定でき、被験者の現在位置に応じた雑音モデルや逆フィルタを選択して、正確に音声認識することができる。

請求項９の発明は、複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段を備えるコンピュータの音声認識方法であって、(a)被験者の音声を含む入力音声を検出し、(b)被験者の存在する場所を特定し、(c)ステップ(b)によって特定された場所に応じて雑音モデルを決定し、そして(d)ステップ(c)によって決定された雑音モデルを用いて、ステップ(a)によって検出された入力音声に含まれる被験者の音声を認識する、音声認識方法である。

請求項９の発明の発明においても、請求項１の音声認識装置の発明と同様に、正確に音声認識することができる。

この発明によれば、予め複数の場所に対応した雑音モデルを用意し、被験者の存在する場所に応じた雑音モデルを用いて音声認識を実行するので、入力音声に含まれる雑音を適切に抑圧でき、雑音を含んだ入力音声であっても正確に音声認識することができる。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１を参照して、この発明の一実施例である音声認識システム１０は、音声認識装置としても機能するサーバ１２を含み、たとえば、病院のような組織に適用され、看護師などの被験者が作業中に発話する内容（たとえば業務内容）を音声認識して記録する。

サーバ１２は、有線或いは無線による通信回線（ネットワーク）１４を介して複数の中継器１６に接続される。複数の中継器１６のそれぞれは、看護師が作業ないし業務を行う場所、たとえば、病室の入り口、病室内のベッド或いはその近傍、廊下およびナースステーションなどの所定位置に配置される。また、複数の中継器１６のそれぞれには、無線通信可能に携帯端末１８が接続される。携帯端末１８は、看護師によって所持され（装着され）、携帯端末１８から送信されるデータは、無線通信可能な範囲（たとえば、半径１〜３メートル）に存在する中継器１６を介して、サーバ１２に送信される。

なお、図１には１つの携帯端末１８を示してあるが、音声認識システム１０は、複数の携帯端末１８を備えてよく、複数の携帯端末１８のそれぞれは、複数の看護師のそれぞれに割り当てられる。また、携帯端末１８は、無線ＬＡＮ等によってネットワーク１４に直接接続される場合もある。

図２は携帯端末１８の具体的な構成を示すブロック図であり、携帯端末１８はＣＰＵ２０を含む。ＣＰＵ２０には、メモリ２２，エンコーダ２４，非接触センサ２６，インターフェイス２８，タイマ３０、ＤＩＰスイッチ３２，無線送信機３４および無線受信機３６などが接続される。

メモリ２２は、ワークメモリないしバッファメモリとして働き、ＣＰＵ２０によって使用される。エンコーダ２４にはヘッドセットマイク３８が接続され、エンコーダ２４は、ヘッドセットマイク３８から入力される入力音声についての音声信号をＭＰ３のような圧縮音声データに変調する。圧縮音声データは、ＣＰＵ２０の指示に従ってメモリ２２に記憶される。メモリ２２に記憶された圧縮音声データは、ＣＰＵ２０の指示に従って、一定時間（たとえば、１０秒〜３０秒）毎に、中継器１６およびネットワーク１４を介してサーバ１２に送信される。

なお、音声信号を圧縮変調するのは、メモリ２２の容量を比較的少なくするためであり、また、サーバ１２に送信するデータのデータ量を低減するためである。

また、この実施例で用いるヘッドセットマイク３８は指向性を有するものである。これは、予め周囲の雑音をできるだけ除いた入力音声を検出し、音声認識の精度を高めるためである。また、ヘッドセットマイク３８を用いるのは、看護師が作業を行うときには看護師の両手が塞がっていることが多いためであり、さらには、作業に用いる道具以外のものを看護師が手に持つことをできるだけ少なくするためである。

非接触センサ２６としては、焦電センサを用いることができ、ＣＰＵ２０は非接触センサ２６からの入力に応じてヘッドセットマイク３８をオン／オフする。この実施例では、非接触センサ２６すなわち焦電センサの前で、看護師が手を２回上下させると、その検出信号がＣＰＵ２０に入力され、これに応じて、ＣＰＵ２０はヘッドセットマイク３８をオンし、その後、看護師が焦電センサの前で、手を２回上下させると、ヘッドセットマイク３８をオフする。このように、ヘッドセットマイク３８をオン／オフ可能にしてあるのは、看護師のプライバシを守るためである。つまり、業務内容を音声認識して記録する必要が生じたときに、ヘッドセットマイク３８はオンされ、休憩時間など業務内容を記録する必要がないときには、ヘッドセットマイク３８はオフされる。

インターフェイス２８は、ＬＡＮ（無線ＬＡＮ）アダプタのようなインターフェイスであり、これにより、携帯端末１８はネットワーク１４に接続される。したがって、携帯端末１８は、ネットワーク１４を介して、サーバ１２との間で通信可能になる。

タイマ３０は、日付および時刻を計時する回路であり、ＣＰＵ２０は、タイマ３０から時間データを取得する。ＤＩＰスイッチ３２は、たとえば８ビットで構成され、各ビットのオン／オフを切り替えることにより、０〜２５５の間で数値を設定することができる。この数値が看護師の識別情報（看護師ＩＤ）であり、各携帯端末１８で異なる値が設定される。ＣＰＵ２０は、送信する音声データに、時間データや看護師ＩＤをラベルとして付して、中継器１６に送信する。つまり、音声データ、時間データ、および看護師ＩＤについてのデータ（数値データ）が携帯端末１８から中継器１６に対して送信される。

なお、この実施例では、ＤＩＰスイッチ３２を用いて看護師ＩＤを設定するようにしてあるが、これに限定されるべきではない。たとえば、ＤＩＰスイッチ３２に代えて、看護師ＩＤを記憶したＲＯＭなどを設けておくようにすることもできる。

無線送信機３４は、ＣＰＵ２０の指示に従って、上述の音声データ、時間データおよび看護師ＩＤについてのデータ（以下、これらを送信データと呼ぶことがある。）を中継器１６に送信する。無線受信機３６は、無線通信可能な範囲に存在する中継器１６が発する微弱電波を受信し、中継器ＩＤを復調し、復調した中継器ＩＤについてのデータをＣＰＵ２０で処理する。

上述したような構成の携帯端末１８は、看護師などの被験者によって装着される。たとえば、図３に示すように、非接触センサ２６およびヘッドセットマイク３８以外の回路コンポーネントはボックス（筐体）４０に収容され、ボックス４０は看護師の白衣の前ポケット等に収納される。また、非接触センサ２６は、ペン型のケースに収容され、看護師の白衣の胸ポケットに挿すように収納される。なお、図面では、分かり易く示すために、ボックス４０および非接触センサ２６を各ポケットの外部に記載してある。また、ヘッドセットマイク３８は看護師の頭部に装着される。

なお、図３においては省略するが、非接触センサ２６は接続線を用いてボックス４０内のＣＰＵ２０に接続され、ヘッドセットマイク３８は接続線を用いてボックス４０内のエンコーダ２４に電気的に接続される。ただし、接続線を用いずに、ブルートゥース（登録商標）のような近距離無線によって接続するようにしてもよい。つまり、電気的に接続されればよいのである。

上述したように、この音声認識システム１０では、看護師などが作業中に発話する内容を音声認識して記録する。また、音声認識を行う際には、雑音抑圧処理および残響抑圧処理を適宜行う。

雑音抑圧処理としては、たとえば、ＰＭＣ（Parallel Model Combination）法を用いることができる。ＰＭＣ法では、音声モデルと雑音モデルとを合成することにより、雑音重畳音声モデルが推定され、この雑音重畳音声モデルと入力音声とが照合される。これによって、雑音を含む入力音声であっても精度良く認識することができる。このＰＭＣ法では、実際の雑音重畳雑音モデルを必要とすることなく、雑音を含む入力音声に対応することができる。よく用いられるＬｏｇ−Ａｄｄ近似と呼ばれる推定法では、数１に示すように、雑音重畳音声モデルの平均ベクトルを推定することができる。

ここで、μ_sおよびμ_nのそれぞれは、音声モデルおよび雑音モデルの対数スペクトルエネルギーの平均ベクトルを示す。

なお、ＰＭＣ法については、「M.J.F.Gales,“Model-Based Techniques for Noise Robust Speech Recognition,”Ph.D Thesis,Cambridge University,1995.」および「M.J.F.Gales,S J Young,“A fast and flexible implementation of parallel model combination,”Proc. of ICASSP,pp.133-136,1995.」において詳細に開示されているので参照されたい。

また、ＧＭＭ（Gaussian Mixture Model）による雑音抑圧処理を用いることもできる。音声と雑音とに相関が無いと仮定し、フレームｉにおける雑音重畳音声（入力音声）、クリーン音声および雑音のメルフィルタバンク出力の対数値ベクトルのそれぞれを、Ｘ(i)、Ｓ(i)およびＮ(i)とすると、数２のように表すことができる。

ここで、ｇ(Ｓ(i),Ｎ(i))は、ミスマッチ関数である。また、フィルタバンクの第ｂバンクに対する補助関数ｆ_ｂは数３で定義される。

ここで、ｓ_ｂおよびｓ_ｎは、クリーン音声および雑音のメルフィルタバンク出力である。数２に対し、１次テイラー展開を適用することで、平均および分散を推定することができる。クリーン音声を数４のようなＫ混合ガウス分布モデルで表し、雑音信号を単一ガウス分布Ｎ(μ_n,Σ_n)で表すと、平均および分散のそれぞれは、数５および数６のように近似的に推定することができる。

実際には、雑音の分散を推定するときにはデータが少ない場合が多い。また、分散推定による音声認識の精度の向上は、平均推定による音声認識の精度の向上と比較して小さいため、音声モデルの分散を、Σ_x,k(b,b)≒Σ_s,k(b,b)とする。すると、クリーン音声は、数７のように表すことができる。

このように、ＧＭＭによる雑音抑圧処理では、雑音モデルと音声モデルとを用いて、分析フレームごとに入力音声から音声のみを推定する。そして、推定された音声と音声モデルとを照合する。これによって、雑音を含む入力音声であっても精度良く認識することができる。

なお、ＧＭＭによる雑音抑圧処理については、「J.C.Segura,A.de la Torre, M.C.Benitez, A.M.Peinado,“Model-based compensation of the additive noise for continuous speech recognition. Experiments using AURORA II database and tasks,”Proc. of Eurospeech’01,vol.I,pp.221-224,2001」において詳細に開示されているので参照されたい。

上述のような雑音抑圧処理では、使用する雑音モデルによってその音声認識の精度に大きな違いが出るため、どのような雑音モデルを用いるかが問題となる。ここで、病院内の複数の場所で収録された環境雑音の平均スペクトルの具体例を図４に示す。環境雑音は、「洗濯室横」、「病室横の廊下」、「エレベータホール」、「ナースステーション内」、および「階段」において、それぞれ１０分程度収録したものである。使用したマイクロホンはＤＰＡ製小型コンデンサマイクロホン４０６０であり、収録機器にはＭ−ＡＵＤＩＯ製のＭＩＣＲＯＴＲＡＣＫ２４／９６を用いた。各場所における環境雑音の平均パワースペクトルは、環境雑音を４８ｋＨｚのサンプリング周波数、１６ビットで収録後、１６ｋＨｚにダウンサンプリングし、分析窓長２０ｍｓで短時間フーリエ変換を行い、収録されたデータの全フレームで平均することによって求めた。

図４に示すように、「洗濯機横」の環境雑音には、洗濯機の動作音が主に含まれていた。また、「病室横の廊下」、「エレベータホール」および「階段」では、会話音声が時折発生する以外は基本的に静かであり、環境雑音は小さかった。また、「ナースステーション内」の環境雑音には、時折発生する会話音声以外に、機器が発する動作音が含まれ、５００Ｈｚ付近にピークが見られた。

このように、場所によって周囲の環境雑音は異なるので、音声認識用に雑音抑圧処理などを行う場合には、その場所に特化した雑音モデルを用いれば、より精度良く雑音抑圧処理を行うことが可能となる。そこで、この実施例では、予め複数の場所ごとに観測される周囲雑音および空間伝達関数のモデル化を行って記憶しておき、それらを用いて雑音抑圧処理や残響抑圧処理を行う。

具体的には、図５のブロック図に示すように、サーバ１２には、複数のデータベース（ＤＢ）、すなわち逆フィルタＤＢ４２、雑音モデルＤＢ４４、音声モデルＤＢ４６、看護師ＤＢ４８および中継器ＤＢ５０が接続される。これらのＤＢ４２−５０は、看護師の発話（音声）が含まれる入力音声に対して、雑音抑圧処理および残響抑圧処理を実行して音声認識するために使用される。

逆フィルタＤＢ４２には、看護師が作業を行う複数の場所、たとえば病室の入り口、廊下およびナースステーションなどの場所ごとに推定した逆フィルタが、各場所に対応付けて記憶される。逆フィルタを推定する際には、各場所におけるインパルス応答を測定し、その残響信号から空間伝達関数を推定する。そして、推定した空間伝達関数から逆フィルタを求める。ただし、残響時間が十分に短い場合には、音声認識精度に大きな影響は無いので、この実施例では、残響時間が十分に短い場所における逆フィルタは記憶しない、或いは使用しないようにしている。

雑音モデルＤＢ４４には、逆フィルタＤＢ４２に記憶される逆フィルタと同様に、複数の場所ごとに収録した雑音データに基づいて作成（推定）された雑音モデルが、各場所に対応付けて記憶される。雑音モデルを作成する際には、残響時間が考慮される。つまり、残響時間が十分に短い場所においては、収録した雑音データそのものから雑音モデルを作成する。一方、音声認識に影響を与えるほど残響時間が長い場所においては、収録した雑音データに対して、その雑音データが収録された場所の逆フィルタによる処理を行う。そして、逆フィルタ処理を施した雑音データ（逆フィルタ処理済雑音データ）に基づいて雑音モデル（逆フィルタ処理済雑音モデル）を作成する。

なお、この実施例では、後述するように、中継器１６の設置位置に基づいて看護師の現在位置を推定するので、中継器１６が設置される複数の場所ごとに、逆フィルタおよび雑音モデルを各ＤＢ４２，４４に記憶しているものとする。ただし、上述したように、残響時間が十分に短い場所における逆フィルタは除く。

音声モデルＤＢ４６には、雑音を含まない音声のみに基づいて作成された音声モデル（音声データ）が記憶される。たとえば、この音声認識システム１０を利用する看護師が、雑音の無い場所で入力した音声データが記憶（収録）される。また、複数の看護師がこの音声認識システム１０を利用する場合には、看護師ごとに音声モデルを記憶し、音声認識を行うときに、各看護師に対応する音声モデルを利用するようにすれば、より適切に音声認識を実行できる。

看護師ＤＢ４８には、看護師の識別情報（看護師ＩＤ）に対応付けて、看護師名などの看護師を特定するための情報が記憶される。中継器ＤＢ５０には、中継器１６の識別情報（中継器ＩＤ）に対応付けて、中継器１６の設置されている場所が記憶される。したがって、サーバ１２は、看護師ＩＤから看護師または看護師名を特定することができ、中継器ＩＤから中継器１６の設置されている場所を特定することができる。

また、中継器１６は、上述したように、無線通信可能な範囲に存在する携帯端末１８から送信される送信データを受信する。そして、受信した送信データに自身の中継器ＩＤを付して、ネットワーク１４を介してサーバ１２に送信する。つまり、サーバ１２で受信される音声データには、看護師ＩＤおよび中継器ＩＤが付加されている。したがって、サーバ１２は、受信した音声データに対応する音声を入力した看護師および入力した場所（現在位置）を推定（特定）することができる。

なお、中継器１６と携帯端末１８とは互いに通信可能であるため、携帯端末１８は、無線通信可能な範囲に存在する中継器１６の識別情報（中継器ＩＤ）を検出することもできる。したがって、中継器１６からサーバ１２に対して中継器ＩＤが付加された送信データを送信するのではなく、携帯端末１８からサーバ１２に対して中継器ＩＤが付加された送信データを送信することもできる。つまり、携帯端末１８が通信可能な範囲にある中継器１６から中継器ＩＤを取得し、送信データに中継器ＩＤについてのデータを付して、携帯端末１８から、インターフェイス２８およびネットワーク１４を介して、サーバ１２に送信することもできる。

このような音声認識システム１０を利用して、看護師が作業中に発話した業務内容を記録する一例を示す。たとえば、ナースステーションにいる看護師が、患者Ａの点滴に向かう場合には、看護師はヘッドセットマイク３８をオンにし、「患者Ａさんの点滴に行ってきます」と発話する。すると、看護師の発話（音声）を含む入力音声についての音声信号には、携帯端末１８において、デジタル変換および圧縮（変調）処理が施され、この圧縮音声データに時間データおよび看護師ＩＤが付加された送信データが、通信可能な範囲にある中継器１６に送信される。この場合には、ナースステーションに配置された中継器１６に送信される。そして、中継器１６においてその中継器１６の中継器ＩＤが付加された送信データは、ネットワーク１４を介してサーバ１２に送信される。

サーバ１２では、中継器ＩＤが付加された送信データが受信されると、時間データに基づいて音声データに対応する音声が入力された時間が特定され、看護師ＤＢ４８が参照されて、看護師ＩＤから音声データに対応する音声を入力した看護師が特定される。また、サーバ１２では、中継器ＤＢ５０が参照されて、中継器ＩＤから送信データを送信（中継）した中継器１６が特定され、その中継器１６の設置された場所（ここではナースステーション）が看護師の現在位置として特定される。さらに、サーバ１２では、音声データの信号対雑音比（ＳＮＲ）が推定される。

看護師の現在位置が特定されると、サーバ１２では、看護師の現在位置に対応する逆フィルタおよび雑音モデルが、逆フィルタＤＢ４２および雑音モデルＤＢ４４のそれぞれから読み出される。そして、サーバ１２では、読み出された逆フィルタおよび雑音モデルを用いて、音声データに対応する音声信号（入力音声の音声信号）に対して残響抑圧処理および雑音抑圧処理が施され、入力音声に含まれる看護師の音声が認識される。

音声認識を行う際には、先ず、逆フィルタ処理によって、入力音声の残響抑圧処理が行われる。ただし、上述したように、残響時間が十分に短い場所においては、音声認識精度にあまり影響は無いので、この逆フィルタ処理は行われない。

入力音声の残響抑圧処理が終了すると、次に、上述のＰＭＣ法やＧＭＭなどの雑音モデルを用いた雑音抑圧処理が行われ、音声認識が実行される。このとき、入力音声のＳＮＲを考慮してモデル合成を行えば、より精度良く音声認識を実行することが可能となる。なお、上述したように、残響時間が長い場所における雑音モデルには、逆フィルタ処理を施した逆フィルタ処理済雑音モデルが記憶されており、残響時間が長い場所では、逆フィルタ処理済雑音モデルが用いられる。

このようにして、看護師の音声、すなわち「患者Ａさんの点滴に行ってきます」という音声は、その音声が発せられた場所に特化した逆フィルタや雑音モデルを用いて音声認識される。そして、その認識結果はテキスト文として出力され、たとえばサーバ１２内のメモリに記憶される。また、サーバ１２は、その音声が発せられた時刻およびその音声を発した看護師（看護師名）を特定できるので、音声の認識結果は、その音声が発せられた時刻およびその音声を発した看護師名と共に記憶される。なお、サーバ１２に記憶した看護師の発話内容（すなわち看護師の業務内容）などのテキストデータは、たとえば、看護師に割り当てられるパーソナルコンピュータのようなコンピュータからサーバ１２にアクセスすることによって、適宜確認および取得が可能である。

詳細な説明は省略するが、たとえば、看護師が病室内に移動し、病室内で発話する内容を音声認識して記録する場合には、上述の例と同様に、その移動した場所（この場合は病室内）に対応した逆フィルタおよび雑音モデルが選択され、それらを用いて正確に音声認識が行われる。

以下に、音声認識システム１０が雑音を含む入力音声から看護師の音声を認識する処理について、フロー図を用いて説明する。具体的には、サーバ１２が図６に示すフロー図に従って全体処理を実行する。なお、ここでは、ＰＭＣ法を用いて雑音抑圧処理を実行する場合について説明するが、ＧＭＭによって雑音抑圧処理を実行することもできる。

図６に示すように、サーバ１２は全体処理を開始すると、ステップＳ１で、入力音声を取得する。すなわち、看護師が装着する操作端末１８から中継器１６を介して送信される入力音声についての音声データを取得する。具体的には、サーバ１２は、中継器ＩＤが付された送信データを受信する。この送信データには、音声データ、看護師ＩＤ、および時間データが含まれている。続くステップＳ３では、取得した入力音声のＳＮＲを推定する。つまり、音声および雑音の相対的な大きさの比を推定する。

続くステップＳ５では、看護師の現在位置の特定を行う。具体的には、サーバ１２は、中継器ＤＢ５０を参照して、ステップＳ１で取得した中継器ＩＤに対応して記述される中継器１６が配置されている場所を看護師の現在位置として特定する。

続くステップＳ７では、逆フィルタＤＢ４２を参照して、現在位置の逆フィルタを記憶しているか否かを判断する。上述したように、この実施例では、残響時間が十分に短い場所については、音声認識の精度に影響が無いとして、その場所の逆フィルタは記憶しないこととしているため、ここで逆フィルタの有無を判断するのである。ステップＳ７で“ＮＯ”の場合、すなわち現在位置の逆フィルタを記憶していない場合には、そのままステップＳ１１に進む。一方、ステップＳ７で“ＹＥＳ”の場合、すなわち現在位置の逆フィルタを記憶している場合には、ステップＳ９で、入力音声に対して逆フィルタ処理を施して、ステップＳ１１に進む。すなわち、ステップＳ９では、看護師の現在位置に対応する逆フィルタを決定して当該逆フィルタを逆フィルタＤＢ４２から読み出し、入力音声に対して逆フィルタ処理を施す。

ステップＳ１１では、雑音モデルを決定する。すなわち、サーバ１２は、雑音モデルＤＢ４４から看護師の現在位置に対応する雑音モデルを読み出す。続くステップＳ１３では、雑音重畳音声モデルを作成する。すなわち、サーバ１２は、ステップＳ１１で決定した雑音モデルと音声モデルＤＢ４６に記憶された音声モデルとを合成し、雑音重畳音声モデルを作成する。雑音重畳音声モデルを作成する際には、ステップＳ３で推定した入力音声のＳＮＲに基づいて、その合成比率を調整する。

続くステップＳ１５では、音声認識を実行する。すなわち、雑音重畳モデルと入力音声とを照合し、入力音声から看護師の音声を認識する。そして、ステップＳ１７では、認識結果を出力する。たとえば、サーバ１２は、認識結果を内部メモリに出力し、テキストデータとして記録して、当該全体処理を終了する。

この実施例によれば、複数の場所のそれぞれに対応する複数の雑音モデルおよび複数の逆フィルタを予め記憶しておき、被験者の存在する場所に応じた雑音モデルおよび逆フィルタを用いて音声認識を実行するので、入力音声に含まれる雑音および残響を適切に抑圧でき、雑音や残響を含んだ入力音声であっても正確に音声認識することができる。

また、上述の実施例によれば、音声以外の情報、つまり場所情報から雑音モデルおよび逆フィルタを選択することによって、より適切な雑音モデルおよび逆フィルタの選択が可能になり、より正確に音声認識することができる。また、音声以外の情報から雑音モデルおよび逆フィルタを選択することにより、音声認識の処理量を減らすことができる。

さらに、上述の実施例によれば、携帯端末１８からの送信データを中継した中継器１６の設置位置を被験者の存在する場所として特定するので、容易に被験者の現在位置を特定することができる。

ただし、看護師（被験者）の現在位置の特定方法はこれに限定されず、適宜な方法を用いて被験者の現在位置を特定してよい。たとえば、音声認識システム１０を屋外に存在する被験者に対して適用する場合には、公知のＧＰＳを利用して被験者の現在位置を検出することができる。

また、上述の実施例で説明したように、屋内に被験者が存在する場合には、通過センサ等によって被験者の現在位置を特定することもできる。たとえば、被験者に自身の識別情報を送信するタグ（無線タグや赤外線ＬＥＤタグ等）を取り付け、病室の出入口や廊下の天井などの適宜な場所にタグからの識別情報を受信するタグ読取装置を設けるようにする。かかる場合には、サーバ１２は、被験者の病室の出入りなどを管理することによって各被験者の現在位置を検出し、被験者の識別情報に対応付けて現在位置の情報を管理しておく。そして、被験者によって音声が入力されたときに、その被験者の現在位置を取得するとよい。

さらに、被験者の動作に基づいて被験者の現在位置を推定することもできる。たとえば、看護師が行う作業毎に場所（部屋）を固定的に決定しておけば、看護師の動作からその業務を推定し、推定した業務から場所すなわち看護師の現在位置を特定することができる。この場合には、たとえば、各業務に対応付けてその業務を行う場所を記憶したＤＢ（場所ＤＢ）を設ける必要がある。また、図７に示すように、被験者の腕、足および胸などに加速度センサ５２を取り付け、その信号（加速度データ）から被験者の行っている業務を推定し、場所ＤＢを参照して、推定した業務内容から被験者の現在位置を特定するとよい。

また、上述の実施例では、サーバ１２が音声認識処理を実行するようにしたが、これに限定されず、携帯端末１８のＣＰＵ２０が音声認識処理を実行することもできる。つまり、携帯端末１８が音声認識装置として機能することもできる。この場合には、逆フィルタＤＢ４２および雑音モデルＤＢ４４などのデータベースを携帯端末１８が持つようにしてもよい。また、携帯端末１８が音声認識処理を実行するときに、外部コンピュータ（たとえばサーバ１２）のデータベースから逆フィルタや雑音モデルなどを適宜読み出すようにしてもよい。

図１はこの発明の音声認識システムの一例を示す図解図である。図２は図１の携帯端末の電気的な構成を示す図解図である。図３は図１の携帯端末を被験者（看護師）が装着した様子を示す図解図である。図４は複数の場所の各々において観測された環境雑音の平均パワースペクトルを示すグラフである。図５は図１のサーバの電気的な構成を示す図解図である。図６は図１のサーバの全体処理を示すフロー図である。図７は被験者の動作を検出するための加速度センサを被験者が装着した様子を示す図解図である。

符号の説明

１０ …音声認識装置
１２ …サーバ
１４ …ネットワーク
１６ …中継器
１８ …携帯端末

Claims

複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段、
被験者の音声を含む入力音声を検出する入力音声検出手段、
前記被験者の存在する場所を特定する場所特定手段、
前記場所特定手段によって特定された場所に応じた前記雑音モデルを前記雑音モデル記憶手段から読み出す雑音モデル読出手段、および
前記雑音モデル読出手段によって読み出された雑音モデルを用いて、前記入力音声検出手段によって検出された入力音声に含まれる前記被験者の音声を認識する音声認識手段を備える、音声認識装置。
前記複数の場所の各々について推定された空間伝達関数の逆フィルタを該当する場所に対応付けて記憶する逆フィルタ記憶手段、および
前記場所特定手段によって特定された場所に応じた前記逆フィルタを前記逆フィルタ記憶手段から読み出す逆フィルタ読出手段をさらに備え、
前記音声認識手段は、前記雑音モデル読出手段によって読み出された雑音モデルおよび前記逆フィルタ決定手段によって読み出された逆フィルタを用いて、前記入力音声検出手段によって検出された入力音声に含まれる前記被験者の音声を認識する、請求項１記載の音声認識装置。
前記入力音声検出手段によって検出された入力音声に対応する音声信号の信号対雑音比を推定する推定手段、および
前記推定手段によって推定された信号対雑音比に応じて前記雑音モデルの合成比率を調整する調整手段をさらに備える、請求項１または２記載の音声認識装置。
複数の場所の各々に対応して推定された空間伝達関数の逆フィルタを当該複数の場所の各々に対応付けて記憶する逆フィルタ記憶手段、
被験者の音声を含む入力音声を検出する入力音声検出手段、
前記被験者の存在する場所を特定する場所特定手段、
前記場所特定手段によって特定された場所に応じた前記逆フィルタを前記逆フィルタ記憶手段から読み出す逆フィルタ読出手段、
前記逆フィルタ読出手段によって読み出された逆フィルタを用いて、前記入力音声検出手段によって検出された入力音声に対して逆フィルタ処理を施す逆フィルタ処理手段、および
前記逆フィルタ処理手段によって逆フィルタ処理を施された入力音声に含まれる前記被験者の音声を認識する音声認識手段を備える、音声認識装置。
前記場所特定手段は、環境に設置された中継器が発する識別情報を検出し、当該識別情報を発した中継器の設置場所を前記被験者の存在する場所として特定する、請求項１ないし４のいずれかに記載の音声認識装置。
ネットワークで接続された携帯端末およびサーバを備える音声認識システムであって、
前記携帯端末は、
被験者の音声を含む入力音声を検出する入力音声検出手段、および
前記入力音声検出手段によって検出された入力音声についての音声信号を前記サーバに送信する送信手段を備え、
前記サーバは、
前記送信手段によって送信された音声信号を受信する受信手段、
複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段、
前記被験者の存在する場所を特定する場所特定手段、
前記場所特定手段によって特定された場所に応じた前記雑音モデルを前記雑音モデル記憶手段から読み出す雑音モデル読出手段、および
前記雑音モデル読出手段によって読み出された雑音モデルを用いて、前記受信手段によって受信された音声信号に含まれる前記被験者の音声を認識する音声認識手段を備える、音声認識システム。
前記サーバは、
前記複数の場所の各々について推定された空間伝達関数の逆フィルタを該当する場所に対応付けて記憶する逆フィルタ記憶手段、および
前記場所特定手段によって特定された場所に応じた前記逆フィルタを前記逆フィルタ記憶手段から読み出す逆フィルタ読出手段をさらに備え、
前記音声認識手段は、前記雑音モデル読出手段によって読み出された雑音モデルおよび前記逆フィルタ読出手段によって読み出された逆フィルタを用いて、前記入力音声検出手段によって検出された入力音声に含まれる前記被験者の音声を認識する、請求項６記載の音声認識システム。
前記複数の場所の各々に対応して配置され、前記携帯端末と前記サーバとの通信を中継する複数の中継器をさらに備え、
前記中継器は、前記携帯端末から送信された音声信号を受信して、受信した音声信号に自己の識別情報を付加して前記サーバに送信し、
前記場所特定手段は、前記受信手段によって受信された音声信号に付加された識別情報に基づいて、当該音声信号を送信した中継器の設置場所を前記被験者の存在する場所として特定する、請求項６または７記載の音声認識システム。
複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段を備えるコンピュータの音声認識方法であって、
(a)被験者の音声を含む入力音声を検出し、
(b)前記被験者の存在する場所を特定し、
(c)前記ステップ(b)によって特定された場所に応じて前記雑音モデルを決定し、そして
(d)前記ステップ(c)によって決定された雑音モデルを用いて、前記ステップ(a)によって検出された入力音声に含まれる前記被験者の音声を認識する、音声認識方法。