JP2008242067A - 音声認識装置、音声認識システムおよび音声認識方法 - Google Patents

音声認識装置、音声認識システムおよび音声認識方法 Download PDF

Info

Publication number
JP2008242067A
JP2008242067A JP2007082411A JP2007082411A JP2008242067A JP 2008242067 A JP2008242067 A JP 2008242067A JP 2007082411 A JP2007082411 A JP 2007082411A JP 2007082411 A JP2007082411 A JP 2007082411A JP 2008242067 A JP2008242067 A JP 2008242067A
Authority
JP
Japan
Prior art keywords
voice
inverse filter
noise
speech
noise model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007082411A
Other languages
English (en)
Inventor
Takatoshi Sanehiro
貴敏 實廣
Tadashi Omura
廉 大村
Kiyoshi Kogure
潔 小暮
Haruo Noma
春生 野間
Futoshi Naya
太 納谷
Tomoji Toriyama
朋二 鳥山
Masaya Okada
昌也 岡田
Masakazu Miyamae
雅一 宮前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2007082411A priority Critical patent/JP2008242067A/ja
Publication of JP2008242067A publication Critical patent/JP2008242067A/ja
Withdrawn legal-status Critical Current

Links

Abstract

【課題】背景雑音の異なる複数の場所に移動しても認識率を下げない。
【解決手段】音声認識システム10は、複数のデータベースが接続されたサーバ12を含む。データベースには、複数の場所に対応して作成された雑音モデルが当該場所に対応付けて記憶される。また、サーバ12には、ネットワーク14を介して複数の中継器16および通信可能な携帯端末18が接続される。携帯端末18は、被験者の音声を含む入力音声を取得し、音声データを中継器16に送信する。中継器16は、音声データに自身のIDを付し、サーバ12に送信する。サーバ12は、IDに基づいて中継器16の設置場所を特定し、被験者の現在位置として推定する。そして、現在位置に応じた雑音モデルを用いて、被験者の音声を認識する。
【効果】予め複数の場所に対応した雑音モデルを用意することで、入力音声に含まれる雑音を適切に抑圧でき、正確に音声認識することができる。
【選択図】図1

Description

この発明は音声認識装置、音声認識システムおよび音声認識方法に関し、特にたとえば、雑音を含む入力音声から被験者の音声を認識する、音声認識装置、音声認識システムおよび音声認識方法に関する。
従来のこの種の音声認識装置の一例が特許文献1に示されている。特許文献1の技術では、入力音声信号中の音声区間の信号と雑音区間の信号とを判別し、観測した雑音区間の信号から雑音モデルを学習する。そして、予め用意した雑音のない音声モデルと雑音モデルとを合成し、雑音重畳音声モデルを生成する。また、雑音区間の信号を予め用意した基準信号に重畳し、特徴パラメータの長時間平均を求めておく。これらの動作は、音声区間の信号が入力される前に実行される。音声区間の信号が入力されると、この信号の特徴パラメータの長時間平均を求め、雑音区間の信号を重畳した基準信号の特徴パラメータの長時間平均との差分を求める。この差分を雑音重畳音声モデルに加算して、CMN済雑音重畳音声モデルとする。そして、CMN済雑音重畳音声モデルと音声区間の信号の特徴パラメータとのモデル照合尤度を計算し、認識結果を出力する。
特開2006−145694号
特許文献1の技術では、入力音声信号中の雑音区間から雑音モデルを学習しているが、音声区間と雑音区間との正確な判別は困難であるため、雑音モデルが適切に作成されない恐れがある。また、雑音区間が短い場合には、雑音モデルの推定に用いるデータが少なくなり、雑音モデルの信頼度は低くなる。したがって、特許文献1の技術では、音声認識を適切に実行できない恐れがある。
それゆえに、この発明の主たる目的は、新規な、音声認識装置、音声認識システムおよび音声認識方法を提供することである。
この発明の他の目的は、雑音を含んだ入力音声であっても正確に音声認識できる、音声認識装置、音声認識システムおよび音声認識方法を提供することである。
本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。
請求項1の発明は、複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段、被験者の音声を含む入力音声を検出する入力音声検出手段、被験者の存在する場所を特定する場所特定手段、場所特定手段によって特定された場所に応じた雑音モデルを雑音モデル記憶手段から読み出す雑音モデル読出手段、および雑音モデル読出手段によって読み出された雑音モデルを用いて、入力音声検出手段によって検出された入力音声に含まれる被験者の音声を認識する音声認識手段を備える、音声認識装置である。
請求項1の発明では、音声認識装置(12,18)は、雑音モデル記憶手段(44)、入力音声検出手段(38,S1)、場所特定手段(S5)、雑音モデル読出手段(S11)、および音声認識手段(S15)を備える。雑音モデル記憶手段は、複数の場所の各々で収集された雑音データを用いて作成された複数の雑音モデルを、当該複数の場所の各々に対応付けて記憶する。入力音声検出手段は、被験者の音声を含む入力音声を検出し、場所特定手段は、被験者の存在する場所すなわち現在位置を特定する。雑音モデル読出手段は、被験者の現在位置に応じた雑音モデルを雑音モデル記憶手段から読み出す。音声認識手段は、被験者の現在位置に応じた雑音モデルを用いて雑音抑圧処理を行い、入力音声に含まれる被験者の音声を認識する。雑音モデルを用いた雑音抑圧処理としては、たとえば、PMC(Parallel Model Combination)法やGMM(Gaussian Mixture Model)による雑音抑圧処理を用いることができる。
請求項1の発明によれば、予め複数の場所に対応した雑音モデルを用意し、被験者の存在する場所に応じた雑音モデルを選択して音声認識を実行するので、入力音声に含まれる雑音を適切に抑圧でき、正確に音声認識することができる。
請求項2の発明は、請求項1の発明に従属し、複数の場所の各々について推定された空間伝達関数の逆フィルタを該当する場所に対応付けて記憶する逆フィルタ記憶手段、および場所特定手段によって特定された場所に応じた逆フィルタを逆フィルタ記憶手段から読み出す逆フィルタ読出手段をさらに備え、音声認識手段は雑音モデル読出手段によって読み出された雑音モデルおよび逆フィルタ決定手段によって読み出された逆フィルタを用いて入力音声検出手段によって検出された入力音声に含まれる被験者の音声を認識する。
請求項2の発明では、逆フィルタ記憶手段(42)および逆フィルタ読出手段(S9)をさらに備える。逆フィルタ記憶手段は、複数の場所の各々に対応して推定された空間伝達関数の逆フィルタを当該複数の場所の各々に対応付けて記憶する。逆フィルタ読出手段は、被験者の現在位置に応じた逆フィルタを逆フィルタ記憶手段から読み出す。音声認識手段(S15)は、被験者の現在位置に応じた雑音モデルおよび逆フィルタを用いて雑音抑圧処理および残響抑圧処理を行い、入力音声に含まれる被験者の音声を認識する。
請求項2の発明によれば、被験者の存在する場所に応じた逆フィルタを用いて残響抑圧処理も行うので、より正確に音声認識することができる。
請求項3の発明は、請求項1または2の発明に従属し、入力音声検出手段によって検出された入力音声に対応する音声信号の信号対雑音比を推定する推定手段、および推定手段によって推定された信号対雑音比に応じて雑音モデルの合成比率を調整する調整手段をさらに備える。
請求項3の発明では、推定手段(S3)および調整手段(S13)をさらに備える。推定手段は、入力音声の信号対雑音比(SNR)、すなわち音声および雑音の相対的な大きさの比を推定する。調整手段は、信号対雑音比に応じて雑音モデルの合成比率を調整する。たとえば、音声モデルと雑音モデルとを合成して雑音重畳モデルを作成するときには、推定したSNRに応じて合成比率を調整する。
請求項3の発明によれば、入力音声のSNRを考慮してモデル合成を行うので、より正確に音声認識することができる。
請求項4の発明は、複数の場所の各々に対応して推定された空間伝達関数の逆フィルタを当該複数の場所の各々に対応付けて記憶する逆フィルタ記憶手段、被験者の音声を含む入力音声を検出する入力音声検出手段、被験者の存在する場所を特定する場所特定手段、場所特定手段によって特定された場所に応じた逆フィルタを逆フィルタ記憶手段から読み出す逆フィルタ読出手段、逆フィルタ読出手段によって読み出された逆フィルタを用いて、入力音声検出手段によって検出された入力音声に対して逆フィルタ処理を施す逆フィルタ処理手段、および逆フィルタ処理手段によって逆フィルタ処理を施された入力音声に含まれる被験者の音声を認識する音声認識手段を備える、音声認識装置である。
請求項4の発明では、音声認識装置(12,18)は、逆フィルタ記憶手段(42)、入力音声検出手段(38,S1)、場所特定手段(S5)、逆フィルタ読出手段(S9)、逆フィルタ処理手段(S9)、および音声認識手段(S15)を備える。逆フィルタ記憶手段は、複数の場所の各々に対応して推定された空間伝達関数の逆フィルタを当該複数の場所の各々に対応付けて記憶する。入力音声検出手段は、被験者の音声を含む入力音声を検出し、場所特定手段は、被験者の存在する場所すなわち現在位置を特定する。逆フィルタ読出手段は、被験者の現在位置に応じた逆フィルタを逆フィルタ記憶手段から読み出す。逆フィルタ処理手段は、入力音声検出手段によって検出された入力音声に対して逆フィルタ処理、つまり残響抑圧処理を施す。音声認識手段は、逆フィルタを用いて残響抑圧処理された入力音声に含まれる被験者の音声を認識する。
請求項4の発明によれば、複数の場所に対応した逆フィルタを予め用意し、被験者の存在する場所に応じた逆フィルタ処理を入力音声に施して音声認識を実行するので、入力音声に含まれる残響を適切に抑圧でき、正確に音声認識することができる。
請求項5の発明は、請求項1ないし4の発明のいずれかに従属し、場所特定手段は環境に設置された中継器が発する識別情報を検出し、当該識別情報を発した中継器の設置場所を被験者の存在する場所として特定する。
請求項5の発明では、複数の場所に中継器(16)が設置されており、場所特定手段(S5)は、通信可能範囲に存在する中継器が発する識別情報(中継器ID)を検出する。そして、中継器IDに基づいてその中継器が設置されている場所を特定し、その特定した場所を被験者の存在する場所(現在位置)として推定(特定)する。したがって、被験者の現在位置を簡単に特定することができ、特定した場所に応じた雑音モデルや逆フィルタを用いて正確に音声認識することができる。
請求項6の発明は、ネットワークで接続された携帯端末およびサーバを備える音声認識システムであって、携帯端末は、被験者の音声を含む入力音声を検出する入力音声検出手段、および入力音声検出手段によって検出された入力音声についての音声信号をサーバに送信する送信手段を備え、サーバは、送信手段によって送信された音声信号を受信する受信手段、複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段、被験者の存在する場所を特定する場所特定手段、場所特定手段によって特定された場所に応じた雑音モデルを雑音モデル記憶手段から読み出す雑音モデル読出手段、および雑音モデル読出手段によって読み出された雑音モデルを用いて、受信手段によって受信された音声信号に含まれる被験者の音声を認識する音声認識手段を備える、音声認識システムである。
請求項6の発明では、音声認識システム(10)は、携帯端末(18)およびサーバ(12)を含み、たとえば、看護師などの被験者が作業中に発話する発話内容(実施例では業務内容)を音声認識して記録する。携帯端末は、被験者によって所持され、入力音声検出手段(38)によって検出された被験者の音声を含む入力音声についての音声信号を、送信手段(28)によってサーバに送信する。サーバは、受信手段(S1)、雑音モデル記憶手段(44)、場所特定手段(S5)、雑音モデル読出手段(S11)、および音声認識手段(S15)を備える。受信手段は、携帯端末から送信される音声信号を受信する。雑音モデル記憶手段は、病室の入り口やナースステーションなどの複数の場所に対応した雑音モデルを記憶する。場所特定手段は、被験者の被験者の存在する場所、すなわち現在位置を特定し、雑音モデル読出手段は、被験者の現在位置に応じた雑音モデルを雑音モデル記憶手段から読み出す。音声認識手段は、被験者の現在位置に応じた雑音モデルを用いて雑音抑圧処理を行い、受信手段によって受信された音声信号(入力音声の音声信号)に含まれる被験者の音声を認識する。
請求項6の発明によれば、請求項1の発明と同様に、複数の場所に対応した雑音モデルを予め用意し、被験者の存在する場所に応じた雑音モデルを選択して音声認識を実行するので、雑音を適切に抑圧でき、正確に音声認識することができる。
請求項7の発明は、請求項6の発明に従属し、サーバは、複数の場所の各々について推定された空間伝達関数の逆フィルタを該当する場所に対応付けて記憶する逆フィルタ記憶手段、および場所特定手段によって特定された場所に応じた逆フィルタを逆フィルタ記憶手段から読み出す逆フィルタ読出手段をさらに備え、音声認識手段は雑音モデル読出手段によって読み出された雑音モデルおよび逆フィルタ読出手段によって読み出された逆フィルタを用いて、入力音声検出手段によって検出された入力音声に含まれる被験者の音声を認識する。
請求項7の発明では、サーバ(12)は、逆フィルタ記憶手段(42)および逆フィルタ読出手段(S9)をさらに備える。逆フィルタ記憶手段は、病室の入り口やナースステーションなどの複数の場所に対応して推定された空間伝達関数の逆フィルタを記憶する。逆フィルタ決定手段は、被験者の現在位置に応じた逆フィルタを逆フィルタ記憶手段から逆フィルタを読み出す。音声認識手段(S15)は、被験者の現在位置に応じた雑音モデルおよび逆フィルタを用いて雑音抑圧処理および残響抑圧処理を行い、音声認識を行う。
請求項7の発明によれば、複数の場所に対応した雑音モデルおよび逆フィルタを予め記憶し、被験者の存在する場所に応じた雑音モデルおよび逆フィルタを選択して音声認識を実行するので、入力音声に含まれる雑音および残響を適切に抑圧でき、正確に音声認識することができる。
請求項8の発明は、請求項6または7の発明に従属し、複数の場所の各々に対応して配置され、携帯端末とサーバとの通信を中継する複数の中継器をさらに備え、中継器は、携帯端末から送信された音声信号を受信して、受信した音声信号に自己の識別情報を付加してサーバに送信し、場所特定手段は、受信手段によって受信された音声信号に付加された識別情報に基づいて、当該音声信号を送信した中継器の設置場所を被験者の存在する場所として特定する。
請求項8の発明では、複数の場所の各々に対応して配置される複数の中継器(16)をさらに備える。中継器は、通信可能な範囲に存在する携帯端末(18)から送信される被験者の音声を含む入力音声についての音声信号を受信し、受信した音声信号に自身の識別情報(中継器ID)を付加してサーバ(12)に送信する。場所特定手段(S5)は、中継器IDに基づいて当該中継器の設置場所を特定し、その設置場所を携帯端末の存在する場所、すなわち被験者の現在位置として特定する。したがって、被験者の現在位置を容易に特定でき、被験者の現在位置に応じた雑音モデルや逆フィルタを選択して、正確に音声認識することができる。
請求項9の発明は、複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段を備えるコンピュータの音声認識方法であって、(a)被験者の音声を含む入力音声を検出し、(b)被験者の存在する場所を特定し、(c)ステップ(b)によって特定された場所に応じて雑音モデルを決定し、そして(d)ステップ(c)によって決定された雑音モデルを用いて、ステップ(a)によって検出された入力音声に含まれる被験者の音声を認識する、音声認識方法である。
請求項9の発明の発明においても、請求項1の音声認識装置の発明と同様に、正確に音声認識することができる。
この発明によれば、予め複数の場所に対応した雑音モデルを用意し、被験者の存在する場所に応じた雑音モデルを用いて音声認識を実行するので、入力音声に含まれる雑音を適切に抑圧でき、雑音を含んだ入力音声であっても正確に音声認識することができる。
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1を参照して、この発明の一実施例である音声認識システム10は、音声認識装置としても機能するサーバ12を含み、たとえば、病院のような組織に適用され、看護師などの被験者が作業中に発話する内容(たとえば業務内容)を音声認識して記録する。
サーバ12は、有線或いは無線による通信回線(ネットワーク)14を介して複数の中継器16に接続される。複数の中継器16のそれぞれは、看護師が作業ないし業務を行う場所、たとえば、病室の入り口、病室内のベッド或いはその近傍、廊下およびナースステーションなどの所定位置に配置される。また、複数の中継器16のそれぞれには、無線通信可能に携帯端末18が接続される。携帯端末18は、看護師によって所持され(装着され)、携帯端末18から送信されるデータは、無線通信可能な範囲(たとえば、半径1〜3メートル)に存在する中継器16を介して、サーバ12に送信される。
なお、図1には1つの携帯端末18を示してあるが、音声認識システム10は、複数の携帯端末18を備えてよく、複数の携帯端末18のそれぞれは、複数の看護師のそれぞれに割り当てられる。また、携帯端末18は、無線LAN等によってネットワーク14に直接接続される場合もある。
図2は携帯端末18の具体的な構成を示すブロック図であり、携帯端末18はCPU20を含む。CPU20には、メモリ22,エンコーダ24,非接触センサ26,インターフェイス28,タイマ30、DIPスイッチ32,無線送信機34および無線受信機36などが接続される。
メモリ22は、ワークメモリないしバッファメモリとして働き、CPU20によって使用される。エンコーダ24にはヘッドセットマイク38が接続され、エンコーダ24は、ヘッドセットマイク38から入力される入力音声についての音声信号をMP3のような圧縮音声データに変調する。圧縮音声データは、CPU20の指示に従ってメモリ22に記憶される。メモリ22に記憶された圧縮音声データは、CPU20の指示に従って、一定時間(たとえば、10秒〜30秒)毎に、中継器16およびネットワーク14を介してサーバ12に送信される。
なお、音声信号を圧縮変調するのは、メモリ22の容量を比較的少なくするためであり、また、サーバ12に送信するデータのデータ量を低減するためである。
また、この実施例で用いるヘッドセットマイク38は指向性を有するものである。これは、予め周囲の雑音をできるだけ除いた入力音声を検出し、音声認識の精度を高めるためである。また、ヘッドセットマイク38を用いるのは、看護師が作業を行うときには看護師の両手が塞がっていることが多いためであり、さらには、作業に用いる道具以外のものを看護師が手に持つことをできるだけ少なくするためである。
非接触センサ26としては、焦電センサを用いることができ、CPU20は非接触センサ26からの入力に応じてヘッドセットマイク38をオン/オフする。この実施例では、非接触センサ26すなわち焦電センサの前で、看護師が手を2回上下させると、その検出信号がCPU20に入力され、これに応じて、CPU20はヘッドセットマイク38をオンし、その後、看護師が焦電センサの前で、手を2回上下させると、ヘッドセットマイク38をオフする。このように、ヘッドセットマイク38をオン/オフ可能にしてあるのは、看護師のプライバシを守るためである。つまり、業務内容を音声認識して記録する必要が生じたときに、ヘッドセットマイク38はオンされ、休憩時間など業務内容を記録する必要がないときには、ヘッドセットマイク38はオフされる。
インターフェイス28は、LAN(無線LAN)アダプタのようなインターフェイスであり、これにより、携帯端末18はネットワーク14に接続される。したがって、携帯端末18は、ネットワーク14を介して、サーバ12との間で通信可能になる。
タイマ30は、日付および時刻を計時する回路であり、CPU20は、タイマ30から時間データを取得する。DIPスイッチ32は、たとえば8ビットで構成され、各ビットのオン/オフを切り替えることにより、0〜255の間で数値を設定することができる。この数値が看護師の識別情報(看護師ID)であり、各携帯端末18で異なる値が設定される。CPU20は、送信する音声データに、時間データや看護師IDをラベルとして付して、中継器16に送信する。つまり、音声データ、時間データ、および看護師IDについてのデータ(数値データ)が携帯端末18から中継器16に対して送信される。
なお、この実施例では、DIPスイッチ32を用いて看護師IDを設定するようにしてあるが、これに限定されるべきではない。たとえば、DIPスイッチ32に代えて、看護師IDを記憶したROMなどを設けておくようにすることもできる。
無線送信機34は、CPU20の指示に従って、上述の音声データ、時間データおよび看護師IDについてのデータ(以下、これらを送信データと呼ぶことがある。)を中継器16に送信する。無線受信機36は、無線通信可能な範囲に存在する中継器16が発する微弱電波を受信し、中継器IDを復調し、復調した中継器IDについてのデータをCPU20で処理する。
上述したような構成の携帯端末18は、看護師などの被験者によって装着される。たとえば、図3に示すように、非接触センサ26およびヘッドセットマイク38以外の回路コンポーネントはボックス(筐体)40に収容され、ボックス40は看護師の白衣の前ポケット等に収納される。また、非接触センサ26は、ペン型のケースに収容され、看護師の白衣の胸ポケットに挿すように収納される。なお、図面では、分かり易く示すために、ボックス40および非接触センサ26を各ポケットの外部に記載してある。また、ヘッドセットマイク38は看護師の頭部に装着される。
なお、図3においては省略するが、非接触センサ26は接続線を用いてボックス40内のCPU20に接続され、ヘッドセットマイク38は接続線を用いてボックス40内のエンコーダ24に電気的に接続される。ただし、接続線を用いずに、ブルートゥース(登録商標)のような近距離無線によって接続するようにしてもよい。つまり、電気的に接続されればよいのである。
上述したように、この音声認識システム10では、看護師などが作業中に発話する内容を音声認識して記録する。また、音声認識を行う際には、雑音抑圧処理および残響抑圧処理を適宜行う。
雑音抑圧処理としては、たとえば、PMC(Parallel Model Combination)法を用いることができる。PMC法では、音声モデルと雑音モデルとを合成することにより、雑音重畳音声モデルが推定され、この雑音重畳音声モデルと入力音声とが照合される。これによって、雑音を含む入力音声であっても精度良く認識することができる。このPMC法では、実際の雑音重畳雑音モデルを必要とすることなく、雑音を含む入力音声に対応することができる。よく用いられるLog−Add近似と呼ばれる推定法では、数1に示すように、雑音重畳音声モデルの平均ベクトルを推定することができる。
ここで、μsおよびμnのそれぞれは、音声モデルおよび雑音モデルの対数スペクトルエネルギーの平均ベクトルを示す。
なお、PMC法については、「M.J.F.Gales,“Model-Based Techniques for Noise Robust Speech Recognition,”Ph.D Thesis,Cambridge University,1995.」および「M.J.F.Gales,S J Young,“A fast and flexible implementation of parallel model combination,”Proc. of ICASSP,pp.133-136,1995.」において詳細に開示されているので参照されたい。
また、GMM(Gaussian Mixture Model)による雑音抑圧処理を用いることもできる。音声と雑音とに相関が無いと仮定し、フレームiにおける雑音重畳音声(入力音声)、クリーン音声および雑音のメルフィルタバンク出力の対数値ベクトルのそれぞれを、X(i)、S(i)およびN(i)とすると、数2のように表すことができる。
ここで、g(S(i),N(i))は、ミスマッチ関数である。また、フィルタバンクの第bバンクに対する補助関数fは数3で定義される。
ここで、sおよびsは、クリーン音声および雑音のメルフィルタバンク出力である。数2に対し、1次テイラー展開を適用することで、平均および分散を推定することができる。クリーン音声を数4のようなK混合ガウス分布モデルで表し、雑音信号を単一ガウス分布N(μnn)で表すと、平均および分散のそれぞれは、数5および数6のように近似的に推定することができる。
実際には、雑音の分散を推定するときにはデータが少ない場合が多い。また、分散推定による音声認識の精度の向上は、平均推定による音声認識の精度の向上と比較して小さいため、音声モデルの分散を、Σx,k(b,b)≒Σs,k(b,b)とする。すると、クリーン音声は、数7のように表すことができる。
このように、GMMによる雑音抑圧処理では、雑音モデルと音声モデルとを用いて、分析フレームごとに入力音声から音声のみを推定する。そして、推定された音声と音声モデルとを照合する。これによって、雑音を含む入力音声であっても精度良く認識することができる。
なお、GMMによる雑音抑圧処理については、「J.C.Segura,A.de la Torre, M.C.Benitez, A.M.Peinado,“Model-based compensation of the additive noise for continuous speech recognition. Experiments using AURORA II database and tasks,”Proc. of Eurospeech’01,vol.I,pp.221-224,2001」において詳細に開示されているので参照されたい。
上述のような雑音抑圧処理では、使用する雑音モデルによってその音声認識の精度に大きな違いが出るため、どのような雑音モデルを用いるかが問題となる。ここで、病院内の複数の場所で収録された環境雑音の平均スペクトルの具体例を図4に示す。環境雑音は、「洗濯室横」、「病室横の廊下」、「エレベータホール」、「ナースステーション内」、および「階段」において、それぞれ10分程度収録したものである。使用したマイクロホンはDPA製小型コンデンサマイクロホン4060であり、収録機器にはM−AUDIO製のMICROTRACK24/96を用いた。各場所における環境雑音の平均パワースペクトルは、環境雑音を48kHzのサンプリング周波数、16ビットで収録後、16kHzにダウンサンプリングし、分析窓長20msで短時間フーリエ変換を行い、収録されたデータの全フレームで平均することによって求めた。
図4に示すように、「洗濯機横」の環境雑音には、洗濯機の動作音が主に含まれていた。また、「病室横の廊下」、「エレベータホール」および「階段」では、会話音声が時折発生する以外は基本的に静かであり、環境雑音は小さかった。また、「ナースステーション内」の環境雑音には、時折発生する会話音声以外に、機器が発する動作音が含まれ、500Hz付近にピークが見られた。
このように、場所によって周囲の環境雑音は異なるので、音声認識用に雑音抑圧処理などを行う場合には、その場所に特化した雑音モデルを用いれば、より精度良く雑音抑圧処理を行うことが可能となる。そこで、この実施例では、予め複数の場所ごとに観測される周囲雑音および空間伝達関数のモデル化を行って記憶しておき、それらを用いて雑音抑圧処理や残響抑圧処理を行う。
具体的には、図5のブロック図に示すように、サーバ12には、複数のデータベース(DB)、すなわち逆フィルタDB42、雑音モデルDB44、音声モデルDB46、看護師DB48および中継器DB50が接続される。これらのDB42−50は、看護師の発話(音声)が含まれる入力音声に対して、雑音抑圧処理および残響抑圧処理を実行して音声認識するために使用される。
逆フィルタDB42には、看護師が作業を行う複数の場所、たとえば病室の入り口、廊下およびナースステーションなどの場所ごとに推定した逆フィルタが、各場所に対応付けて記憶される。逆フィルタを推定する際には、各場所におけるインパルス応答を測定し、その残響信号から空間伝達関数を推定する。そして、推定した空間伝達関数から逆フィルタを求める。ただし、残響時間が十分に短い場合には、音声認識精度に大きな影響は無いので、この実施例では、残響時間が十分に短い場所における逆フィルタは記憶しない、或いは使用しないようにしている。
雑音モデルDB44には、逆フィルタDB42に記憶される逆フィルタと同様に、複数の場所ごとに収録した雑音データに基づいて作成(推定)された雑音モデルが、各場所に対応付けて記憶される。雑音モデルを作成する際には、残響時間が考慮される。つまり、残響時間が十分に短い場所においては、収録した雑音データそのものから雑音モデルを作成する。一方、音声認識に影響を与えるほど残響時間が長い場所においては、収録した雑音データに対して、その雑音データが収録された場所の逆フィルタによる処理を行う。そして、逆フィルタ処理を施した雑音データ(逆フィルタ処理済雑音データ)に基づいて雑音モデル(逆フィルタ処理済雑音モデル)を作成する。
なお、この実施例では、後述するように、中継器16の設置位置に基づいて看護師の現在位置を推定するので、中継器16が設置される複数の場所ごとに、逆フィルタおよび雑音モデルを各DB42,44に記憶しているものとする。ただし、上述したように、残響時間が十分に短い場所における逆フィルタは除く。
音声モデルDB46には、雑音を含まない音声のみに基づいて作成された音声モデル(音声データ)が記憶される。たとえば、この音声認識システム10を利用する看護師が、雑音の無い場所で入力した音声データが記憶(収録)される。また、複数の看護師がこの音声認識システム10を利用する場合には、看護師ごとに音声モデルを記憶し、音声認識を行うときに、各看護師に対応する音声モデルを利用するようにすれば、より適切に音声認識を実行できる。
看護師DB48には、看護師の識別情報(看護師ID)に対応付けて、看護師名などの看護師を特定するための情報が記憶される。中継器DB50には、中継器16の識別情報(中継器ID)に対応付けて、中継器16の設置されている場所が記憶される。したがって、サーバ12は、看護師IDから看護師または看護師名を特定することができ、中継器IDから中継器16の設置されている場所を特定することができる。
また、中継器16は、上述したように、無線通信可能な範囲に存在する携帯端末18から送信される送信データを受信する。そして、受信した送信データに自身の中継器IDを付して、ネットワーク14を介してサーバ12に送信する。つまり、サーバ12で受信される音声データには、看護師IDおよび中継器IDが付加されている。したがって、サーバ12は、受信した音声データに対応する音声を入力した看護師および入力した場所(現在位置)を推定(特定)することができる。
なお、中継器16と携帯端末18とは互いに通信可能であるため、携帯端末18は、無線通信可能な範囲に存在する中継器16の識別情報(中継器ID)を検出することもできる。したがって、中継器16からサーバ12に対して中継器IDが付加された送信データを送信するのではなく、携帯端末18からサーバ12に対して中継器IDが付加された送信データを送信することもできる。つまり、携帯端末18が通信可能な範囲にある中継器16から中継器IDを取得し、送信データに中継器IDについてのデータを付して、携帯端末18から、インターフェイス28およびネットワーク14を介して、サーバ12に送信することもできる。
このような音声認識システム10を利用して、看護師が作業中に発話した業務内容を記録する一例を示す。たとえば、ナースステーションにいる看護師が、患者Aの点滴に向かう場合には、看護師はヘッドセットマイク38をオンにし、「患者Aさんの点滴に行ってきます」と発話する。すると、看護師の発話(音声)を含む入力音声についての音声信号には、携帯端末18において、デジタル変換および圧縮(変調)処理が施され、この圧縮音声データに時間データおよび看護師IDが付加された送信データが、通信可能な範囲にある中継器16に送信される。この場合には、ナースステーションに配置された中継器16に送信される。そして、中継器16においてその中継器16の中継器IDが付加された送信データは、ネットワーク14を介してサーバ12に送信される。
サーバ12では、中継器IDが付加された送信データが受信されると、時間データに基づいて音声データに対応する音声が入力された時間が特定され、看護師DB48が参照されて、看護師IDから音声データに対応する音声を入力した看護師が特定される。また、サーバ12では、中継器DB50が参照されて、中継器IDから送信データを送信(中継)した中継器16が特定され、その中継器16の設置された場所(ここではナースステーション)が看護師の現在位置として特定される。さらに、サーバ12では、音声データの信号対雑音比(SNR)が推定される。
看護師の現在位置が特定されると、サーバ12では、看護師の現在位置に対応する逆フィルタおよび雑音モデルが、逆フィルタDB42および雑音モデルDB44のそれぞれから読み出される。そして、サーバ12では、読み出された逆フィルタおよび雑音モデルを用いて、音声データに対応する音声信号(入力音声の音声信号)に対して残響抑圧処理および雑音抑圧処理が施され、入力音声に含まれる看護師の音声が認識される。
音声認識を行う際には、先ず、逆フィルタ処理によって、入力音声の残響抑圧処理が行われる。ただし、上述したように、残響時間が十分に短い場所においては、音声認識精度にあまり影響は無いので、この逆フィルタ処理は行われない。
入力音声の残響抑圧処理が終了すると、次に、上述のPMC法やGMMなどの雑音モデルを用いた雑音抑圧処理が行われ、音声認識が実行される。このとき、入力音声のSNRを考慮してモデル合成を行えば、より精度良く音声認識を実行することが可能となる。なお、上述したように、残響時間が長い場所における雑音モデルには、逆フィルタ処理を施した逆フィルタ処理済雑音モデルが記憶されており、残響時間が長い場所では、逆フィルタ処理済雑音モデルが用いられる。
このようにして、看護師の音声、すなわち「患者Aさんの点滴に行ってきます」という音声は、その音声が発せられた場所に特化した逆フィルタや雑音モデルを用いて音声認識される。そして、その認識結果はテキスト文として出力され、たとえばサーバ12内のメモリに記憶される。また、サーバ12は、その音声が発せられた時刻およびその音声を発した看護師(看護師名)を特定できるので、音声の認識結果は、その音声が発せられた時刻およびその音声を発した看護師名と共に記憶される。なお、サーバ12に記憶した看護師の発話内容(すなわち看護師の業務内容)などのテキストデータは、たとえば、看護師に割り当てられるパーソナルコンピュータのようなコンピュータからサーバ12にアクセスすることによって、適宜確認および取得が可能である。
詳細な説明は省略するが、たとえば、看護師が病室内に移動し、病室内で発話する内容を音声認識して記録する場合には、上述の例と同様に、その移動した場所(この場合は病室内)に対応した逆フィルタおよび雑音モデルが選択され、それらを用いて正確に音声認識が行われる。
以下に、音声認識システム10が雑音を含む入力音声から看護師の音声を認識する処理について、フロー図を用いて説明する。具体的には、サーバ12が図6に示すフロー図に従って全体処理を実行する。なお、ここでは、PMC法を用いて雑音抑圧処理を実行する場合について説明するが、GMMによって雑音抑圧処理を実行することもできる。
図6に示すように、サーバ12は全体処理を開始すると、ステップS1で、入力音声を取得する。すなわち、看護師が装着する操作端末18から中継器16を介して送信される入力音声についての音声データを取得する。具体的には、サーバ12は、中継器IDが付された送信データを受信する。この送信データには、音声データ、看護師ID、および時間データが含まれている。続くステップS3では、取得した入力音声のSNRを推定する。つまり、音声および雑音の相対的な大きさの比を推定する。
続くステップS5では、看護師の現在位置の特定を行う。具体的には、サーバ12は、中継器DB50を参照して、ステップS1で取得した中継器IDに対応して記述される中継器16が配置されている場所を看護師の現在位置として特定する。
続くステップS7では、逆フィルタDB42を参照して、現在位置の逆フィルタを記憶しているか否かを判断する。上述したように、この実施例では、残響時間が十分に短い場所については、音声認識の精度に影響が無いとして、その場所の逆フィルタは記憶しないこととしているため、ここで逆フィルタの有無を判断するのである。ステップS7で“NO”の場合、すなわち現在位置の逆フィルタを記憶していない場合には、そのままステップS11に進む。一方、ステップS7で“YES”の場合、すなわち現在位置の逆フィルタを記憶している場合には、ステップS9で、入力音声に対して逆フィルタ処理を施して、ステップS11に進む。すなわち、ステップS9では、看護師の現在位置に対応する逆フィルタを決定して当該逆フィルタを逆フィルタDB42から読み出し、入力音声に対して逆フィルタ処理を施す。
ステップS11では、雑音モデルを決定する。すなわち、サーバ12は、雑音モデルDB44から看護師の現在位置に対応する雑音モデルを読み出す。続くステップS13では、雑音重畳音声モデルを作成する。すなわち、サーバ12は、ステップS11で決定した雑音モデルと音声モデルDB46に記憶された音声モデルとを合成し、雑音重畳音声モデルを作成する。雑音重畳音声モデルを作成する際には、ステップS3で推定した入力音声のSNRに基づいて、その合成比率を調整する。
続くステップS15では、音声認識を実行する。すなわち、雑音重畳モデルと入力音声とを照合し、入力音声から看護師の音声を認識する。そして、ステップS17では、認識結果を出力する。たとえば、サーバ12は、認識結果を内部メモリに出力し、テキストデータとして記録して、当該全体処理を終了する。
この実施例によれば、複数の場所のそれぞれに対応する複数の雑音モデルおよび複数の逆フィルタを予め記憶しておき、被験者の存在する場所に応じた雑音モデルおよび逆フィルタを用いて音声認識を実行するので、入力音声に含まれる雑音および残響を適切に抑圧でき、雑音や残響を含んだ入力音声であっても正確に音声認識することができる。
また、上述の実施例によれば、音声以外の情報、つまり場所情報から雑音モデルおよび逆フィルタを選択することによって、より適切な雑音モデルおよび逆フィルタの選択が可能になり、より正確に音声認識することができる。また、音声以外の情報から雑音モデルおよび逆フィルタを選択することにより、音声認識の処理量を減らすことができる。
さらに、上述の実施例によれば、携帯端末18からの送信データを中継した中継器16の設置位置を被験者の存在する場所として特定するので、容易に被験者の現在位置を特定することができる。
ただし、看護師(被験者)の現在位置の特定方法はこれに限定されず、適宜な方法を用いて被験者の現在位置を特定してよい。たとえば、音声認識システム10を屋外に存在する被験者に対して適用する場合には、公知のGPSを利用して被験者の現在位置を検出することができる。
また、上述の実施例で説明したように、屋内に被験者が存在する場合には、通過センサ等によって被験者の現在位置を特定することもできる。たとえば、被験者に自身の識別情報を送信するタグ(無線タグや赤外線LEDタグ等)を取り付け、病室の出入口や廊下の天井などの適宜な場所にタグからの識別情報を受信するタグ読取装置を設けるようにする。かかる場合には、サーバ12は、被験者の病室の出入りなどを管理することによって各被験者の現在位置を検出し、被験者の識別情報に対応付けて現在位置の情報を管理しておく。そして、被験者によって音声が入力されたときに、その被験者の現在位置を取得するとよい。
さらに、被験者の動作に基づいて被験者の現在位置を推定することもできる。たとえば、看護師が行う作業毎に場所(部屋)を固定的に決定しておけば、看護師の動作からその業務を推定し、推定した業務から場所すなわち看護師の現在位置を特定することができる。この場合には、たとえば、各業務に対応付けてその業務を行う場所を記憶したDB(場所DB)を設ける必要がある。また、図7に示すように、被験者の腕、足および胸などに加速度センサ52を取り付け、その信号(加速度データ)から被験者の行っている業務を推定し、場所DBを参照して、推定した業務内容から被験者の現在位置を特定するとよい。
また、上述の実施例では、サーバ12が音声認識処理を実行するようにしたが、これに限定されず、携帯端末18のCPU20が音声認識処理を実行することもできる。つまり、携帯端末18が音声認識装置として機能することもできる。この場合には、逆フィルタDB42および雑音モデルDB44などのデータベースを携帯端末18が持つようにしてもよい。また、携帯端末18が音声認識処理を実行するときに、外部コンピュータ(たとえばサーバ12)のデータベースから逆フィルタや雑音モデルなどを適宜読み出すようにしてもよい。
図1はこの発明の音声認識システムの一例を示す図解図である。 図2は図1の携帯端末の電気的な構成を示す図解図である。 図3は図1の携帯端末を被験者(看護師)が装着した様子を示す図解図である。 図4は複数の場所の各々において観測された環境雑音の平均パワースペクトルを示すグラフである。 図5は図1のサーバの電気的な構成を示す図解図である。 図6は図1のサーバの全体処理を示すフロー図である。 図7は被験者の動作を検出するための加速度センサを被験者が装着した様子を示す図解図である。
符号の説明
10 …音声認識装置
12 …サーバ
14 …ネットワーク
16 …中継器
18 …携帯端末

Claims (9)

  1. 複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段、
    被験者の音声を含む入力音声を検出する入力音声検出手段、
    前記被験者の存在する場所を特定する場所特定手段、
    前記場所特定手段によって特定された場所に応じた前記雑音モデルを前記雑音モデル記憶手段から読み出す雑音モデル読出手段、および
    前記雑音モデル読出手段によって読み出された雑音モデルを用いて、前記入力音声検出手段によって検出された入力音声に含まれる前記被験者の音声を認識する音声認識手段を備える、音声認識装置。
  2. 前記複数の場所の各々について推定された空間伝達関数の逆フィルタを該当する場所に対応付けて記憶する逆フィルタ記憶手段、および
    前記場所特定手段によって特定された場所に応じた前記逆フィルタを前記逆フィルタ記憶手段から読み出す逆フィルタ読出手段をさらに備え、
    前記音声認識手段は、前記雑音モデル読出手段によって読み出された雑音モデルおよび前記逆フィルタ決定手段によって読み出された逆フィルタを用いて、前記入力音声検出手段によって検出された入力音声に含まれる前記被験者の音声を認識する、請求項1記載の音声認識装置。
  3. 前記入力音声検出手段によって検出された入力音声に対応する音声信号の信号対雑音比を推定する推定手段、および
    前記推定手段によって推定された信号対雑音比に応じて前記雑音モデルの合成比率を調整する調整手段をさらに備える、請求項1または2記載の音声認識装置。
  4. 複数の場所の各々に対応して推定された空間伝達関数の逆フィルタを当該複数の場所の各々に対応付けて記憶する逆フィルタ記憶手段、
    被験者の音声を含む入力音声を検出する入力音声検出手段、
    前記被験者の存在する場所を特定する場所特定手段、
    前記場所特定手段によって特定された場所に応じた前記逆フィルタを前記逆フィルタ記憶手段から読み出す逆フィルタ読出手段、
    前記逆フィルタ読出手段によって読み出された逆フィルタを用いて、前記入力音声検出手段によって検出された入力音声に対して逆フィルタ処理を施す逆フィルタ処理手段、および
    前記逆フィルタ処理手段によって逆フィルタ処理を施された入力音声に含まれる前記被験者の音声を認識する音声認識手段を備える、音声認識装置。
  5. 前記場所特定手段は、環境に設置された中継器が発する識別情報を検出し、当該識別情報を発した中継器の設置場所を前記被験者の存在する場所として特定する、請求項1ないし4のいずれかに記載の音声認識装置。
  6. ネットワークで接続された携帯端末およびサーバを備える音声認識システムであって、
    前記携帯端末は、
    被験者の音声を含む入力音声を検出する入力音声検出手段、および
    前記入力音声検出手段によって検出された入力音声についての音声信号を前記サーバに送信する送信手段を備え、
    前記サーバは、
    前記送信手段によって送信された音声信号を受信する受信手段、
    複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段、
    前記被験者の存在する場所を特定する場所特定手段、
    前記場所特定手段によって特定された場所に応じた前記雑音モデルを前記雑音モデル記憶手段から読み出す雑音モデル読出手段、および
    前記雑音モデル読出手段によって読み出された雑音モデルを用いて、前記受信手段によって受信された音声信号に含まれる前記被験者の音声を認識する音声認識手段を備える、音声認識システム。
  7. 前記サーバは、
    前記複数の場所の各々について推定された空間伝達関数の逆フィルタを該当する場所に対応付けて記憶する逆フィルタ記憶手段、および
    前記場所特定手段によって特定された場所に応じた前記逆フィルタを前記逆フィルタ記憶手段から読み出す逆フィルタ読出手段をさらに備え、
    前記音声認識手段は、前記雑音モデル読出手段によって読み出された雑音モデルおよび前記逆フィルタ読出手段によって読み出された逆フィルタを用いて、前記入力音声検出手段によって検出された入力音声に含まれる前記被験者の音声を認識する、請求項6記載の音声認識システム。
  8. 前記複数の場所の各々に対応して配置され、前記携帯端末と前記サーバとの通信を中継する複数の中継器をさらに備え、
    前記中継器は、前記携帯端末から送信された音声信号を受信して、受信した音声信号に自己の識別情報を付加して前記サーバに送信し、
    前記場所特定手段は、前記受信手段によって受信された音声信号に付加された識別情報に基づいて、当該音声信号を送信した中継器の設置場所を前記被験者の存在する場所として特定する、請求項6または7記載の音声認識システム。
  9. 複数の場所の各々に対応して作成された複数の雑音モデルを当該複数の場所の各々に対応付けて記憶する雑音モデル記憶手段を備えるコンピュータの音声認識方法であって、
    (a)被験者の音声を含む入力音声を検出し、
    (b)前記被験者の存在する場所を特定し、
    (c)前記ステップ(b)によって特定された場所に応じて前記雑音モデルを決定し、そして
    (d)前記ステップ(c)によって決定された雑音モデルを用いて、前記ステップ(a)によって検出された入力音声に含まれる前記被験者の音声を認識する、音声認識方法。
JP2007082411A 2007-03-27 2007-03-27 音声認識装置、音声認識システムおよび音声認識方法 Withdrawn JP2008242067A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007082411A JP2008242067A (ja) 2007-03-27 2007-03-27 音声認識装置、音声認識システムおよび音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007082411A JP2008242067A (ja) 2007-03-27 2007-03-27 音声認識装置、音声認識システムおよび音声認識方法

Publications (1)

Publication Number Publication Date
JP2008242067A true JP2008242067A (ja) 2008-10-09

Family

ID=39913512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007082411A Withdrawn JP2008242067A (ja) 2007-03-27 2007-03-27 音声認識装置、音声認識システムおよび音声認識方法

Country Status (1)

Country Link
JP (1) JP2008242067A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065128A (ja) * 2009-08-20 2011-03-31 Mitsubishi Electric Corp 残響除去装置
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP2012103428A (ja) * 2010-11-09 2012-05-31 Murata Mach Ltd 受音装置、音声認識システム、及び作業指示システム
WO2013154010A1 (ja) 2012-04-09 2013-10-17 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
KR20150126214A (ko) * 2014-05-02 2015-11-11 삼성전자주식회사 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
KR101749100B1 (ko) * 2010-12-23 2017-07-03 한국전자통신연구원 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
KR101863098B1 (ko) * 2016-11-18 2018-05-31 주식회사 인텔로이드 음성 인식 장치 및 방법
JP2020181171A (ja) * 2019-04-26 2020-11-05 メタウォーター株式会社 プラント管理システム、情報処理装置、及びプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065128A (ja) * 2009-08-20 2011-03-31 Mitsubishi Electric Corp 残響除去装置
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP2012103428A (ja) * 2010-11-09 2012-05-31 Murata Mach Ltd 受音装置、音声認識システム、及び作業指示システム
KR101749100B1 (ko) * 2010-12-23 2017-07-03 한국전자통신연구원 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
WO2013154010A1 (ja) 2012-04-09 2013-10-17 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
US9524718B2 (en) 2012-04-09 2016-12-20 Clarion Co., Ltd. Speech recognition server integration device that is an intermediate module to relay between a terminal module and speech recognition server and speech recognition server integration method
KR20150126214A (ko) * 2014-05-02 2015-11-11 삼성전자주식회사 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
KR102257910B1 (ko) * 2014-05-02 2021-05-27 삼성전자주식회사 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
KR101863098B1 (ko) * 2016-11-18 2018-05-31 주식회사 인텔로이드 음성 인식 장치 및 방법
JP2020181171A (ja) * 2019-04-26 2020-11-05 メタウォーター株式会社 プラント管理システム、情報処理装置、及びプログラム

Similar Documents

Publication Publication Date Title
JP2008242067A (ja) 音声認識装置、音声認識システムおよび音声認識方法
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
CN108028047B (zh) 用于生成数据库的方法和设备
EP2962300B1 (en) Method and apparatus for generating a speech signal
CN1761265B (zh) 移动设备上的多传感语音增强方法和装置
US20050071158A1 (en) Apparatus and method for detecting user speech
JP2008250059A (ja) 音声認識装置、音声認識システムおよび音声認識方法
RU2588596C2 (ru) Определение расстояния и/или качества акустики между мобильным устройством и базовым блоком
US20140379332A1 (en) Identification of a local speaker
US9026437B2 (en) Location determination system and mobile terminal
US11875571B2 (en) Smart hearing assistance in monitored property
KR100639968B1 (ko) 음성 인식 장치 및 그 방법
CA2996500C (en) System and method for determining a location of a vehicle relative to a stopping point
JP6160042B2 (ja) 位置特定システム
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
Diaconita et al. Do you hear what i hear? using acoustic probing to detect smartphone locations
JP2003241788A (ja) 音声認識装置及び音声認識システム
JP2007172423A (ja) 発話状態検出装置および方法
US11924717B2 (en) System and method for data analytics for communications in walkie-talkie network
KR20080023033A (ko) 지능형 로봇 서비스 시스템에서 무선 마이크로폰을 이용한화자 인식 방법 및 장치
JP6941593B2 (ja) 制御端末、制御方法及び制御システム
KR20110078091A (ko) 이퀄라이저 조정 장치 및 방법
JP2000311077A (ja) 音声情報入力装置
CN113724692B (zh) 一种基于声纹特征的电话场景音频获取与抗干扰处理方法
JP2007336465A (ja) 活動履歴記録装置および方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100601