JP2010237269A - 音声認識装置、その方法及びそのプログラム - Google Patents

音声認識装置、その方法及びそのプログラム Download PDF

Info

Publication number
JP2010237269A
JP2010237269A JP2009082380A JP2009082380A JP2010237269A JP 2010237269 A JP2010237269 A JP 2010237269A JP 2009082380 A JP2009082380 A JP 2009082380A JP 2009082380 A JP2009082380 A JP 2009082380A JP 2010237269 A JP2010237269 A JP 2010237269A
Authority
JP
Japan
Prior art keywords
notification sound
noise
spectrum
unit
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009082380A
Other languages
English (en)
Inventor
Koichi Yamamoto
幸一 山本
Masahide Arisei
政秀 蟻生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009082380A priority Critical patent/JP2010237269A/ja
Publication of JP2010237269A publication Critical patent/JP2010237269A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】雑音を推定しつつ、発声開始イベントを通知してから発声可能になるまでの遅延を短くし、かつ、報知音の再生直後に発声ができる音声認識装置を提供する。
【解決手段】音声認識装置は、報知音の周波数帯域において報知音を含む背景雑音の雑音スペクトルを背景雑音のみの雑音スペクトルに補正し、報知音の再生終了後にユーザーによって発声された音響信号のスペクトルから補正後の雑音スペクトルを除去して、雑音スペクトルを除去した音響信号のスペクトルについて音声認識を行う。
【選択図】 図1

Description

本発明は、入力信号から雑音成分を除去することにより認識率の向上を図る音声認識装置、その方法及びそのプログラムに関するものである。
音声認識のための信号入力手段としては、PTT(push-to-talk)が広く使用されている。このPTTは、ユーザーによるトークスイッチの押下後、音声認識装置から発声許可を通知するための報知音が再生される。この報知音が再生された後にユーザーが、所定のコマンドを発声する。そして、音声認識装置は、この報知音の再生後にマイクロホンからの入力信号の取り込みを開始し、音声認識処理を行う。
ところで、音声認識では入力信号から雑音成分を除去することにより認識率の向上を図っている。例えば、(1)式で表されるSS(Spectral Subtraction)による雑音除去が音声認識の前処理として広く使用されている。
Figure 2010237269
従来技術の音声認識装置では、ユーザーがトークスイッチをON状態にして報知音を再生し、この報知音再生後に入力信号の取り込みを開始する。その後一定区間を雑音区間であると仮定して雑音成分の推定を行っている。すなわち、(2)式で表されるように、報知音再生後の雑音推定区間Nにおける入力スペクトルの平均値を推定雑音スペクトルとして使用している。
Figure 2010237269
上記従来の音声認識装置においては、報知音再生後、雑音推定区間経過前にユーザーが発声をした場合、雑音推定精度が低下するという問題点があった。すなわち、(2)式における雑音推定区間に音声が含まれることになり、雑音成分を正確に抽出することができず、これにより音声認識の精度が低下していた。
そこでこの問題点を解決するために、特許文献1では、ユーザーがトークスイッチをON状態にした後、入力信号の取り込みを開始し雑音推定が終了した後に、報知音を再生している。これにより、報知音再生直後にユーザーが発声しても正確に雑音スペクトルを推定できる。
特許第3654045公報
しかし、特許文献1では、雑音スペクトル推定のために必要な雑音推定区間を確保した後に報知音を再生するため、ユーザーがトークスイッチをON状態にしてから発声可能状態になるまでに、雑音推定区間長に報知音区間長を加えた分の遅延が生じる。例えば、この雑音推定区間は200ms程度、報知音区間は150ms程度であり、トークスイッチをON状態にした後から少なくとも350ms程度の間、ユーザーは発声をすることができないという問題点があった。そして、この遅延はユーザーに与えるストレスの原因となっていた。
そこで本発明は、上記問題点に鑑みてなされたものであって、雑音を推定しつつ、発声開始イベントを通知してから発声可能になるまでの遅延を短くし、かつ、報知音の再生直後に発声ができる音声認識装置、その方法及びそのプログラムを提供する。
本発明の一態様は、ユーザーによる発声開始イベントを通知する通知部と、前記発声開始イベントが通知された後、前記ユーザーに発声許可を知らせる報知音を再生する報知音再生部と、前記報知音の周波数が含まれる周波数帯域を取得する報知音取得部と、前記報知音を含む音響信号を取得する信号取得部と、前記音響信号を周波数解析してスペクトルを求める周波数解析部と、前記スペクトルから前記報知音を含む前記背景雑音の雑音スペクトルを推定する雑音推定部と、前記報知音の周波数帯域において前記報知音を含む前記背景雑音の雑音スペクトルを前記背景雑音のみの雑音スペクトルに補正する雑音補正部と、前記報知音の再生終了後に前記ユーザーによって発声された音響信号のスペクトルから前記補正後の雑音スペクトルを除去し、前記雑音スペクトルを除去した音響信号のスペクトルについて音声認識を行う音声認識部と、を備えたことを特徴とする音声認識装置である。
本発明によれば、雑音を推定しつつ、発声開始イベントを通知してから発声可能になるまでの遅延が短く、かつ、報知音の再生直後に発声できる。
以下、本発明の一実施形態の音声認識装置10を図1〜図3に基づいて説明する。
図1は、本実施形態に係る音声認識装置10の構成を示すブロック図である。図2は、本実施形態に係るトークスイッチのON/OFF状態と入力した音響信号のタイムチャートを示す図である。
音声認識装置10の構成について図1に基づいて説明する。
図1に示すように、音声認識装置10は、通知部12、報知音再生部14、報知音取得部16、信号取得部18、周波数解析部20、雑音推定部22、雑音補正部24、音声認識部26を有する。
なお、この音声認識装置10は、例えば、汎用のコンピュータを基本ハードウェアとして用いることでも実現することが可能である。すなわち、通知部12、報知音再生部14、報知音取得部16、信号取得部18、周波数解析部20、雑音推定部22、雑音補正部24、音声認識部26は、上記のコンピュータに搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声認識装置10は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。
信号取得部18は、マイク17から入力したアナログの音響信号である入力信号を、16000Hzのサンプリング周波数でデジタルの入力信号にA/D変換する。
周波数解析部20は、信号取得部18で取得したデジタルの入力信号を予め定めた単位のフレームの時間信号に分割する。本実施形態では、フレーム長を25msec(400点)、シフト幅を10msec(160点)で分割する。このとき、フレーム化処理を行う窓関数としてハミング窓を用いる。そして、分割された各フレームの時間信号から離散フーリエ変換によりパワースペクトルを計算する。具体的には、400点の各フレームデータに112点の0詰めを行った後、512点のFFTを行う。
なお、パワースペクトルではなく振幅スペクトルを用いて後段の処理をすることも可能である。
通知部12は、ユーザーがトークスイッチ13をON状態にすると、音声認識を行うことを示す発声開始イベントを雑音推定部22及び報知音再生部14に通知する。
雑音推定部22は、周波数解析部20で得られたパワースペクトルから背景雑音のパワースペクトルを表す雑音スペクトルを推定する。本実施形態では、発声開始イベント後200msecの区間(20フレーム)を雑音と仮定し、雑音スペクトルを推定する。この場合、雑音スペクトルは以下の(3)式で推定する。
Figure 2010237269
ここで、i=1は発声開始イベント後に最初の取り込まれたフレーム番号を表している。すなわち、本実施形態では発声開始イベント通知後にマイクに入力された信号を利用して雑音スペクトルを推定している。
上記以外の推定方法としては、発声開始イベント通知前における入力信号も用いて雑音スペクトルを推定することもできる。
また、本実施形態では、発声開始イベント後200msecの区間を利用して雑音を推定しているが、200msec以後の信号も利用して推定された雑音スペクトルを更新することもできる。
報知音再生部14は、通知部12からの発声開始イベントを取得した後、報知音を再生する。ユーザーはこの報知音再生終了後に発声を行う。報知音には、例えば、500Hzの単一周波数の音響信号を使用する。なお、単一周波数は多少の帯域幅を持ってもよい。報知音の再生タイミングは、報知音区間の始端が、雑音推定区間の終端より前であり、かつ、報知音区間の終端が雑音推定区間の終端と同時刻、又は、それより時間的に遅れて再生されるように制御しておく。なお、雑音推定区間とは、上記方法で雑音を推定している時間をいい、報知音区間とは報知音が再生されている時間をいう。例えば、報知音区間を150msとすると、発声開始イベントから50ms後に報知音を再生する。これにより、報知音の再生が終了した時点で雑音推定区間(200ms)を経過しているため、報知音再生終了直後にユーザーが発声しても雑音スペクトルの推定に影響を与えることはない。なお、単一周波数の音響信号とは、FFTによって解析できる周波数帯域幅より狭い周波数帯域幅を有していてもよい。
報知音取得部16は、入力信号の相関値を利用して報知音の周波数が含まれる周波数帯域を取得する。報知音は単一の周波数の音響信号から構成されているため、相関値の高い周波数を報知音の周波数と推定する。
本実施形態では、報知音の周波数帯域が200Hzから1000Hzの間に含まれていると仮定して、自己相関の探索範囲を決定する。すなわち、(4)式、(5)式のように16(=16000/1000)から80(=16000/200)までの幅について相関値を探索する。
Figure 2010237269
報知音の周波数を正確に推定するため、自己相関関数は報知音区間に対応する時間信号について計算することが望ましい。すなわち、150msの報知音が、発声開始イベントから50ms後に再生される場合は、発声開始イベント後50msから200msまでの時間信号を用いて報知音の周波数帯域の推定を行う(図2の自己相関関数の計算区間参照)。本実施形態では、j=32すなわち500Hzにおいて相関値が最大になったものとする。
雑音補正部24は、報知音取得部16で取得した報知音の周波数帯域に基づいて推定された雑音スペクトルを補正する。
すなわち、(3)式で計算された雑音スペクトルは、報知音を含む背景雑音の入力信号について計算されているため、報知音の周波数帯域(500Hz)における補正前の推定雑音スペクトルは、図3に示すように実際の正解雑音スペクトルとは異なるパワーを有している。具体的には、窓関数のメインローブの影響により500Hzの報知音の影響が、隣接する周波数帯域まで及んでいる。
そこで、雑音補正部24は、隣接する周波数帯域の雑音スペクトルを補正する。補正対象となる隣接幅は、報知音の周波数帯域で100Hz程度の幅に設定することが望ましい。本実施形態では、内挿フィルタの一つである線形補間を用いて隣接する468.75H及び531.25Hzにおける雑音スペクトルを補正する。468.75H、500Hz、531.25Hzは16000Hzの512点FFTにおいて、15、16、17次元目(0オリジン)のFFT−BINに対応する。
Figure 2010237269
図3には補正後の報知音の周波数帯域も記載している。この記載からもわかるように、雑音補正部24により、報知音の影響により不当な値となった500Hzにおける雑音スペクトルを背景雑音のみの雑音ベクトルに補正できる。
本実施形態では、窓関数のメインローブの影響を考慮して隣接周波数帯域の補正を行ったが、この他にも、サイドローブの影響を考慮して補正できる。
また、sinc関数、ランツォシュ補間等を用いて雑音スペクトルの補正をすることもできる。
報知音区間が150ms、雑音推定区間が200msであった場合、特許文献1では発声可能状態になるまでに350msの遅延が生じていた。しかし、本実施形態では、報知音区間においても雑音スペクトルの推定を行うことができるため、図2に示すように遅延を200msに削減できる。
音声認識部26では、上記補正後の雑音スペクトルを用いて、報知音再生終了後にユーザーが発声した入力信号から背景雑音を除去する。本実施形態では、SSを用いて入力信号から雑音成分を除去する。
Figure 2010237269
音声認識部26は、雑音成分除去後のパワースペクトルから以下の式(10)〜(13)により28次元のメルフィルタバンクに分割する。
Figure 2010237269
そして、当該メルフィルタバンクに離散コサイン変換を適用することで13次元のMFCC(Mel Frequency Cepstrum Coefficient)を以下の(14)式によって抽出する。
Figure 2010237269
その後、以下の(15)〜(17)式によりMFCC特徴量の9フレーム幅におけるΔ及びΔ特徴量を計算し、最終的に39次元の特徴ベクトルX(t)を求める。
Figure 2010237269
そして、予め学習しておいた認識対象語彙の音響モデル(HMM)と入力信号から抽出される39次元の特徴ベクトル系列を照合する。その結果、最尤のスコアを出す語彙を認識結果として出力する。
音声認識装置10の処理状態について、図4のフローチャートに基づいて説明する。
ステップ1では、通知部12は、ユーザーがトークスイッチ13をON状態にすると、音声認識を行うことを示す発声開始イベントを雑音推定部22及び報知音再生部14に通知する。
ステップ2では、雑音推定部22は、発声開始イベント後200msecの区間を雑音と仮定し、信号取得部18で取得したデジタルの入力信号から雑音スペクトルを推定する。
ステップ3では、通知部12からの発声開始イベントを取得した後、報知音を再生する。
ステップ4では、報知音取得部16は、報知音の周波数が含まれる周波数帯域を取得する。
ステップ5では、雑音補正部24は、報知音取得部16で取得した報知音の周波数帯域に基づいて、雑音推定部22で推定された雑音スペクトルを補正する。
ステップ6では、ユーザーが報知音再生終了後に発声を行い、音声認識部26は、上記補正後の雑音スペクトルを用いて、前記ユーザーの発声に基づく入力信号から雑音成分を除去し、この雑音成分を除去した入力信号から音声認識を行う。
本実施形態によれば、図3に示すように、雑音推定区間においても報知音を再生することができ、トークスイッチ13をON状態にしてから発声可能になるまでの遅延を雑音推定区間長及び報知音区間長の最大値に削減できる。
また、本実施形態によれば、報知音に、単一周波数の音響信号を用いているため、最大の相関値を示す周波数を報知音の周波数帯域として推定できる。
また、本実施形態によれば、報知音の周波数帯域以外における雑音スペクトルの推定値は報知音の影響が少ないため、内挿フィルタを利用して報知音帯域における雑音スペクトル値を補間することができる。
また、本実施形態によれば、報知音の再生が終了した時点で雑音スペクトルの推定が終了していることが保証されるため、報知音直後にユーザーが発声した場合でも雑音スペクトルの推定は影響を受けない。
(変更例)
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
なお、上記実施形態では、報知音取得部16において、自己相関関数を利用して自動的に報知音の周波数帯域を推定していた。しかし、これに代えて、報知音再生部14が使用する報知音の周波数帯域が予め分っている場合は、その値を記憶して用いることもできる。
これにより、雑音スペクトルを正確に補正することができる。
本実施形態に係る音声認識装置の構成を示すブロック図である。 本実施形態に係るトークスイッチのON/OFF状態と入力信号のタイムチャートを示す図である。 報知音の帯域を示すグラフである。 本実施形態に係る音声認識装置のフローチャートである。
10 音声認識装置
12 通知部
14 報知音再生部
16 報知音取得部
18 信号取得部
20 周波数解析部
22 雑音推定部
24 雑音補正部
26 音声認識部

Claims (7)

  1. ユーザーによる発声開始イベントを通知する通知部と、
    前記発声開始イベントが通知された後、前記ユーザーに発声許可を知らせる報知音を再生する報知音再生部と、
    前記報知音の周波数が含まれる周波数帯域を取得する報知音取得部と、
    前記報知音を含む音響信号を取得する信号取得部と、
    前記音響信号を周波数解析してスペクトルを求める周波数解析部と、
    前記スペクトルから前記報知音を含む前記背景雑音の雑音スペクトルを推定する雑音推定部と、
    前記報知音の周波数帯域において前記報知音を含む前記背景雑音の雑音スペクトルを前記背景雑音のみの雑音スペクトルに補正する雑音補正部と、
    前記報知音の再生終了後に前記ユーザーによって発声された音響信号のスペクトルから前記補正後の雑音スペクトルを除去し、前記雑音スペクトルを除去した音響信号のスペクトルについて音声認識を行う音声認識部と、
    を備えたことを特徴とする音声認識装置。
  2. 前記報知音取得部は、前記報知音を再生している時間における前記音響信号の相関値を用いて、前記報知音の周波数帯域を取得する、
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記雑音補正部は、内挿フィルタを用いて前記報知音の周波数帯域における前記雑音スペクトルを補正する、
    ことを特徴とする請求項1に記載の音声認識装置。
  4. 前記雑音補正部は、前記報知音の周波数帯域及びその隣接周波数帯域における前記雑音スペクトルを補正する、
    ことを特徴とする請求項1に記載の音声認識装置。
  5. 前記報知音再生部は、前記報知音を再生する時間の始端が、前記雑音スペクトを推定する時間の終端より前であり、かつ、前記報知音を再生する時間の終端が、前記雑音スペクトを推定する時間の終端と同時刻、又は、それより遅くなるように前記報知音を再生する、
    ことを特徴とする請求項1に記載の音声認識装置。
  6. 通知部が、ユーザーによる発声開始イベントを通知する通知ステップと、
    報知音再生部が、前記発声開始イベントが通知された後、前記ユーザーに発声許可を知らせる報知音を再生する報知音再生ステップと、
    報知音取得部が、前記報知音の周波数が含まれる周波数帯域を取得する報知音取得ステップと、
    信号取得部が、前記報知音を含む音響信号を取得する信号取得ステップと、
    周波数解析部が、前記音響信号を周波数解析してスペクトルを求める周波数解析ステップと、
    雑音推定部が、前記スペクトルから前記報知音を含む前記背景雑音の雑音スペクトルを推定する雑音推定ステップと、
    雑音補正部が、前記報知音の周波数帯域において前記報知音を含む前記背景雑音の雑音スペクトル
    を前記背景雑音のみの雑音スペクトルに補正する雑音補正ステップと、
    音声認識部が、前記報知音の再生終了後に前記ユーザーによって発声された音響信号のスペクトルから前記補正後の雑音スペクトルを除去し、前記雑音スペクトルを除去した前記音響信号のスペクトルについて音声認識を行う音声認識ステップと、
    を備えたことを特徴とする音声認識方法。
  7. コンピュータを、
    ユーザーによる発声開始イベントを通知する通知部、
    前記発声開始イベントが通知された後、前記ユーザーに発声許可を知らせる報知音を再生する報知音再生部、
    前記報知音の周波数が含まれる周波数帯域を取得する報知音取得部、
    前記報知音を含む音響信号を取得する信号取得部、
    前記音響信号を周波数解析してスペクトルを求める周波数解析部、
    前記スペクトルから前記報知音を含む前記背景雑音の雑音スペクトルを推定する雑音推定部、
    前記報知音の周波数帯域において前記報知音を含む前記背景雑音の雑音スペクトルを前記背景雑音のみの雑音スペクトルに補正する雑音補正部、
    前記報知音の再生終了後に前記ユーザーによって発声された音響信号のスペクトルから前記補正後の雑音スペクトルを除去し、前記雑音スペクトルを除去した音響信号のスペクトルについて音声認識を行う音声認識部、
    として機能させるための音声認識プログラム。
JP2009082380A 2009-03-30 2009-03-30 音声認識装置、その方法及びそのプログラム Pending JP2010237269A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009082380A JP2010237269A (ja) 2009-03-30 2009-03-30 音声認識装置、その方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009082380A JP2010237269A (ja) 2009-03-30 2009-03-30 音声認識装置、その方法及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2010237269A true JP2010237269A (ja) 2010-10-21

Family

ID=43091669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009082380A Pending JP2010237269A (ja) 2009-03-30 2009-03-30 音声認識装置、その方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2010237269A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027752A (zh) * 2016-04-28 2016-10-12 努比亚技术有限公司 移动终端通话背景音自适应方法及装置
JP2017067879A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法
CN107645604A (zh) * 2017-09-29 2018-01-30 维沃移动通信有限公司 一种通话处理方法及移动终端
CN111145604A (zh) * 2019-12-30 2020-05-12 西安Tcl软件开发有限公司 绘本识别方法、装置及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130397A (ja) * 1982-01-29 1983-08-03 富士通株式会社 音声認識制御方式
JPH0635497A (ja) * 1992-07-16 1994-02-10 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JPH1065494A (ja) * 1996-08-21 1998-03-06 Yamaha Corp フィルタ係数設定方法およびフィルタ係数設定装置並びにサンプリング周波数変換方法およびサンプリング周波数変換装置
JP2000029500A (ja) * 1998-07-08 2000-01-28 Denso Corp 雑音抑圧装置及び当該装置を用いた音声認識システム
JP2004037506A (ja) * 2002-06-28 2004-02-05 Sanyo Electric Co Ltd 音声信号のピッチ周期抽出方法
JP3654045B2 (ja) * 1999-05-13 2005-06-02 株式会社デンソー 音声認識装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130397A (ja) * 1982-01-29 1983-08-03 富士通株式会社 音声認識制御方式
JPH0635497A (ja) * 1992-07-16 1994-02-10 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JPH1065494A (ja) * 1996-08-21 1998-03-06 Yamaha Corp フィルタ係数設定方法およびフィルタ係数設定装置並びにサンプリング周波数変換方法およびサンプリング周波数変換装置
JP2000029500A (ja) * 1998-07-08 2000-01-28 Denso Corp 雑音抑圧装置及び当該装置を用いた音声認識システム
JP3654045B2 (ja) * 1999-05-13 2005-06-02 株式会社デンソー 音声認識装置
JP2004037506A (ja) * 2002-06-28 2004-02-05 Sanyo Electric Co Ltd 音声信号のピッチ周期抽出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017067879A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法
CN106027752A (zh) * 2016-04-28 2016-10-12 努比亚技术有限公司 移动终端通话背景音自适应方法及装置
CN107645604A (zh) * 2017-09-29 2018-01-30 维沃移动通信有限公司 一种通话处理方法及移动终端
CN111145604A (zh) * 2019-12-30 2020-05-12 西安Tcl软件开发有限公司 绘本识别方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20090177468A1 (en) Speech recognition with non-linear noise reduction on mel-frequency ceptra
US10755731B2 (en) Apparatus, method, and non-transitory computer-readable storage medium for storing program for utterance section detection
US20110238417A1 (en) Speech detection apparatus
KR20080027709A (ko) 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
JP5645419B2 (ja) 残響除去装置
US10937418B1 (en) Echo cancellation by acoustic playback estimation
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2010237269A (ja) 音声認識装置、その方法及びそのプログラム
JP2004347956A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6996185B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP2006234888A (ja) 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
JP7156084B2 (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
CN112489692A (zh) 语音端点检测方法和装置
JP2011191682A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP5166470B2 (ja) 音声認識装置、及びコンテンツ再生装置
JP2007093635A (ja) 既知雑音除去装置
JPH06274196A (ja) 雑音除去方法および雑音除去装置
JP4632831B2 (ja) 音声認識方法および音声認識装置
US20200175960A1 (en) Non-transitory computer-readable storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus
JP4325044B2 (ja) 音声認識システム
KR20100056859A (ko) 음성 인식 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130205