JP2014186295A - 音声区間検出装置、音声認識装置、その方法、及びプログラム - Google Patents
音声区間検出装置、音声認識装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP2014186295A JP2014186295A JP2013175584A JP2013175584A JP2014186295A JP 2014186295 A JP2014186295 A JP 2014186295A JP 2013175584 A JP2013175584 A JP 2013175584A JP 2013175584 A JP2013175584 A JP 2013175584A JP 2014186295 A JP2014186295 A JP 2014186295A
- Authority
- JP
- Japan
- Prior art keywords
- section
- voice
- signal
- main speaker
- reverberation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】音声区間検出装置は、音声ディジタル信号に含まれる残響成分を推定し、残響信号を取得する残響推定部と、残響信号に基づいて主話者音声区間または主話者外音区間の少なくとも一方を検出する話者別区間検出部とを含む。
【選択図】図1
Description
本実施形態では、音声ディジタル信号に含まれる残響成分を推定し、残響成分から主話者外音を強調する。言い換えると、マイクへの入力信号(音声アナログ信号)に含まれる主話者外音区間を、入力信号に含まれる残響成分から抽出する。なお、「主話者外音」とは、主話者の音声以外がメインの音を意味する。音声ディジタル信号に含まれる残響成分の推定方法としては、例えば参考文献1の残響成分の推定方法を用いることができる。
[参考文献1]国際公開第2007/100137号パンフレット
図1は第一実施形態に係る音声区間検出装置100の機能ブロック図を、図2はその処理フローを示す。音声区間検出装置100は、音声信号取得部110、残響推定部120、ゲイン調整部130、主話者外音強調部140、主話者外音区間検出部160及び主話者音声抽出部170を含む。
音声区間検出装置100は、音声アナログ信号を受け取り、主話者の音声に対応する音声ディジタル信号を出力する。
入力:音声アナログ信号
出力:音声ディジタル信号
音声信号取得部110は、アナログの音声信号(音声信号)を受け取り、ディジタルの音声信号(音声ディジタル信号)に変換し(s110)、出力する。図3は、マイク90で収音された音声信号をベクトルで表わしたイメージを表す。図3A及び図3Bは、それぞれ主話者の音声及び主話者外音に対応する音声アナログ信号を表す。図3Aに示すように、主話者の音声に対応する音声信号は、直接音Dが大きく、反射音R(残響成分)が小さい。一方、図3Bに示すように、他話者の音声に対応する音声信号は、直接音Dが小さく、反射音R(残響成分)が大きい。このような性質を利用して、後述する主話者外音区間検出部160では、主話者音声区間または主話者外音区間の少なくとも一方を検出する。
入力: 音声ディジタル信号
出力:残響信号
残響推定部120は、音声ディジタル信号に含まれる残響成分を推定し(s120)、残響信号を取得する。図4A及び図4Bは、それぞれ主話者の音声及び主話者外音に対応する残響信号をベクトルで表わしたイメージを表す。
本手法は、例えば参考文献1に詳しい。
入力:残響信号
出力:ゲイン調整された残響信号
ゲイン調整部130は、残響信号を受け取り、残響信号にゲインGを乗算し(s130)、ゲイン調整された残響信号を得、出力する。ゲインGは、1よりも小さく0より大きな値を用いる。例えば、0.8〜1.0の値を用いる。これにより、後述する主話者外音強調部140において、音声ディジタル信号と残響信号との差分を求める際に生じる歪を低減させることができる。
入力:音声ディジタル信号、ゲイン調整された残響信号
出力:主話者外音が強調された音声ディジタル信号
主話者外音強調部140は、音声ディジタル信号とゲイン調整された残響信号とを受け取り、これらの信号の差分を算出し(s140)、主話者外音が強調された音声ディジタル信号として出力する。図5A及び図5Bは、それぞれ主話者の音声及び主話者外音に対応する差分をベクトルで表わしたイメージを表す。なお、図中の小さい矢印は除去しきれなかった残響成分R’を表す。このような処理を行うことで、主話者の音声及び主話者外音のパワーの差を出すことができ、音声ディジタル信号中の主話者外音区間を高精度に抽出することができるようになる。なお、ゲイン調整部130及び主話者外音強調部140の処理を合わせて、スペクトルサブトラクション法という既知の手法で実現することができる(参考文献2参照)。
[参考文献2] BOLL, S. F., "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. Acoust., Speech, Signal Processing, 1979, vol. ASSP-27, pp. 113-120
入力:主話者外音が強調された音声ディジタル信号
出力:区間情報
主話者外音区間検出部160は、主話者外音が強調された音声ディジタル信号を受け取り、主話者外音が強調された音声ディジタル信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し(s160)、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、主話者外音が強調された音声ディジタル信号のパワーを閾値と大小比較する。(1)閾値より大きい場合、主話者の音声区間、(2)閾値より小さい場合、主話者外音区間であると判断する。閾値は主話者音声区間と主話者外音区間の正解ラベルのついた学習データ等を用いて予め定めておく。処理は例えば、音声ディジタル信号を前後Nサンプル(0.1〜0.3msに対応するサンプル数)を1区間とし、区間毎に行う。区間情報としては、例えば、主話者音声区間または主話者外音区間の少なくとも一方の開始時間と終了時間等を用いることができる。また、音声ディジタル信号を入力とし、音声ディジタル信号に主話者音声区間または主話者外音区間の少なくとも一方のフラグを付与した信号(以下「フラグ付音声ディジタル信号」ともいう)等を区間情報として用いてもよい。ただし、区間情報は例示したものに限定されず、主話者音声区間または主話者外音区間の少なくとも一方を示す情報であればどのようなものであってもよい。
入力:音声ディジタル信号、区間情報
出力:主話者の音声に対応する音声ディジタル信号
主話者音声抽出部170は、音声ディジタル信号と区間情報とを受け取り、区間情報を用いて、音声ディジタル信号から主話者の音声に対応する部分を抽出し(s170)、音声区間検出装置100の出力値として出力する。
このような構成により、残響を含む実環境下における、単一のマイクへの主話者及び他話者を含む複数の話者の音声が混入した音声ディジタル信号に対しても、高い精度で主話者の音声を検出することができる。また、その結果、利用するマイクの個数を少なくすることができ、ハードウェアの構成を軽量化することができる。
音声区間検出装置100は、入力信号として音声ディジタル信号を受け取る場合には、必ずしも音声信号取得部110を備えなくともよい。
音声区間検出装置100は、必ずしもゲイン調整部130を備えなくともよい。この場合、主話者外音強調部140では、ゲイン調整されていない残響信号をそのまま用いる。
音声区間検出装置100は、必ずしも主話者音声抽出部170を備えなくともよい。主話者外音区間検出部160の出力値(区間情報)を、音声区間検出装置100の出力値として出力する。
第一実施形態と異なる部分を中心に説明する。
マイク90により収音された音には音声以外の雑音が含まれる場合もある。そこで、本実施形態では、第一実施形態の処理の前段で、音声ディジタル信号に含まれる雑音を抑圧する。このような構成により、主話者外音強調部と主話者外音区間検出部の雑音による精度劣化を防ぎ、雑音環境下においても高精度に主話者音声を抽出できる。
入力:音声ディジタル信号
出力:雑音を抑圧された音声ディジタル信号
雑音抑圧部210は、音声ディジタル信号を受け取り、音声ディジタル信号に含まれる音声以外の雑音を抑圧し(s210)、雑音を抑圧された音声ディジタル信号を出力する。雑音抑圧の方法として、既知の技術を用いることができ、例えば、MMSE-STSA法(参考文献3参照)等が考えられる。
[参考文献3] Y.Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator”, IEEE Trans. Acoust. Speech Signal Process., April 1985, vol.ASSP-33, no.2, pp.443-445
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、雑音による主話者音声区間の抽出精度劣化を防ぐことができる。
第一実施形態と異なる部分を中心に説明する。
本実施形態では、主話者の音声と主話者外音を含む音声ディジタル信号全体のパワーの値も用いて主話者外音区間を検出する。
入力:音声ディジタル信号
出力:音声ディジタル信号のパワー
音声信号パワー計算部350は、音声ディジタル信号を受け取り、そのパワーを計算し(s350)、出力する。なお、音声信号パワー計算部350は、その内部に信号スムージング部351(図中、破線で示す)を備えてもよい。信号スムージング部351は、音声ディジタル信号を前後Nサンプル(0.1〜0.3msに対応するサンプル数)を用いた平均可算を行いスムージングする(s351、図中破線で示す)。音声信号パワー計算部350は、スムージングした音声ディジタル信号のパワーを計算してもよい。スムージングを行うことで主話者音声区間または主話者外音を検出しやすいよう強調することができる。
入力:音声ディジタル信号のパワー、主話者外音が強調された音声ディジタル信号
出力:主話者音声区間または主話者外音区間
主話者外音区間検出部360は、音声ディジタル信号のパワー及び主話者外音が強調された音声ディジタル信号を受け取り、音声ディジタル信号のパワーにより正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し(s360)、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、音声ディジタル信号のパワーによる正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーを閾値と大小比較する。主話者外音が強調された音声ディジタル信号に代えて、音声ディジタル信号のパワーによる正規化を行った「主話者外音が強調された音声ディジタル信号」のパワーを用いる点を除けば、主話者外音区間検出部160における処理と同様の処理を行う。
このような構成とすることで、残響推定部によって誤りによって直接音成分であると推定された残響成分を音声ディジタル信号のパワーにより減衰させることができ、第一実施形態と同様の効果を得ることができる。なお、第一実施形態の変形例や第二実施形態と本実施形態とを組合せてもよい。
第三実施形態と異なる部分を中心に説明する。
本実施形態では、音声ディジタル信号全体のパワーを用いて主話者の音声や主話者外音が存在しない無音区間を推定し、無音区間外において、主話者音声区間または主話者外音区間を検出することで、検出精度を高める。
入力:音声ディジタル信号のパワー、主話者外音が強調された音声ディジタル信号
出力:区間情報
主話者外音区間検出部460は、音声ディジタル信号のパワー及び主話者外音が強調された音声ディジタル信号を受け取る。主話者外音区間検出部460は、その内部に無音区間抽出部461を含む(図中、破線で示す)。無音区間抽出部461は、音声ディジタル信号のパワーを受け取り、そのパワーから無音区間を抽出する(s461、図中破線で示す)。例えば音声ディジタル信号のパワーを閾値と大小比較する。パワーをP=10log10(音声ディジタル信号の二乗値)[dB]とした場合、閾値は-10〜10[dB]の値で設定し、この閾値と大小比較する。閾値よりパワーが小さい区間を無音区間とし、大きい区間を無音区間外とする。無音区間の判定は、例えば0.1〜0.3msを1区間として、区間毎に行う。
このような構成により、第三実施形態と同様の効果を得ることができる。さらに、無音区間外において、主話者音声区間または主話者外音区間を検出することで、検出精度を高めることができる。なお、無音区間抽出部461を含まず、信号スムージング部462のみを含む構成としてもよい。
第一実施形態と異なる部分を中心に説明する。
図10は第五実施形態に係る音声区間検出装置500の機能ブロック図を、図11はその処理フローを示す。音声区間検出装置500は、音声信号取得部110、残響推定部120、ゲイン調整部130、残響信号パワー計算部540、主話者外音区間検出部560及び主話者音声抽出部170を含む。
入力:ゲイン調整された残響信号
出力:残響信号のパワー
残響信号パワー計算部540は、ゲイン調整された残響信号を受け取り、そのパワーを計算し(s540)、出力する。なお、残響信号パワー計算部540における処理は、音声ディジタル信号に代えてゲイン調整された残響信号を用いる点を除けば、音声信号パワー計算部350の処理と同様である。例えば、その内部に信号スムージング部351を含んでもよい。図12A及び図12Bは、それぞれ主話者の音声及び主話者外音の残響信号のパワーをベクトルで表わしたイメージを表す。図12A及び図12Bや図4A及び図4Bからも分かるように、主話者の音声では残響信号のパワーが小さく、主話者外音では残響信号のパワーが大きくなる。このような性質を利用して、後述する主話者外音区間検出部560では、区間情報を求める。
入力:残響信号のパワー
出力:区間情報
主話者外音区間検出部560は、残響信号のパワーを受け取り、その残響信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し(s560)、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、残響信号のパワーを閾値と大小比較する。(1)閾値より大きい場合、主話者外音区間、(2)閾値より小さい場合、主話者音声区間であると判断する。閾値は主話者音声区間と主話者外音区間の正解ラベルのついた学習データ等を用いて予め定めておく。処理は例えば、音声ディジタル信号を前後Nサンプル(0.1〜0.3msに対応するサンプル数)を1区間とし、区間毎に行う。
このような構成により、第一実施形態と同様の効果を得ることができる。なお、第一実施形態の変形例と本実施形態を組合せてもよいし、第二実施形態の雑音抑圧部210や第四実施形態の音声信号パワー計算部350、無音区間抽出部461や信号スムージング部462と本実施形態を組合せてもよい。ただし、無音区間抽出部461や信号スムージング部462では、主話者外音が強調された音声ディジタル信号のパワーに代えて、残響信号のパワーを用いる。
第五実施形態と異なる部分を中心に説明する。
図13は第六実施形態に係る音声区間検出装置600の機能ブロック図を、図14はその処理フローを示す。音声区間検出装置600は、さらに、音声信号パワー計算部350を含み(第三実施形態参照)、主話者外音区間検出部560に代えて主話者外音区間検出部660を含む。
入力:音声ディジタル信号のパワー、残響信号のパワー
出力:区間情報
主話者外音区間検出部660は、音声ディジタル信号のパワー及び残響信号のパワーを受け取り、音声ディジタル信号のパワーにより正規化を行った残響信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し(s660)、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、音声ディジタル信号のパワーによる正規化を行った残響信号のパワーを閾値と大小比較する。単なる「残響信号のパワー」に代えて、音声ディジタル信号のパワーによる正規化を行った「残響信号のパワー」を用いる点を除けば、主話者外音区間検出部560における処理と同様の処理を行う。
このような構成により、残響推定部により誤って残響成分であると推定された直接音成分を音声ディジタル信号のパワーにより減衰させることができ、第五実施形態と同様の効果を得ることができる。なお、第一実施形態の変形例と本実施形態を組合せてもよいし、第二実施形態の雑音抑圧部210や第四実施形態の音声信号パワー計算部350、無音区間抽出部461や信号スムージング部462と本実施形態を組合せてもよい。ただし、無音区間抽出部461や信号スムージング部462では、主話者外音が強調された音声ディジタル信号のパワーに代えて、残響信号のパワーを用いる。
第一実施形態と異なる部分を中心に説明する。
<第七実施形態のポイント>
本実施形態では、音声ディジタル信号に含まれる残響成分を推定し、残響成分から主話者音を強調する。言い換えると、マイクへの入力信号(音声アナログ信号)に含まれる主話者音区間を、入力信号に含まれる残響成分から抽出する。
図16は第七実施形態に係る音声区間検出装置700の機能ブロック図を、図17はその処理フローを示す。音声区間検出装置700は、音声信号取得部110、残響推定部120、主話者音区間検出部760及び主話者音声抽出部170を含む。音声区間検出装置700は、ゲイン調整部130及び主話者外音強調部140を含まなくともよく、主話者外音区間検出部160に代えて、主話者音区間検出部760を含む。
入力:残響信号
出力:区間情報
主話者音区間検出部760は、残響信号を受け取り、残響信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し(s760)、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、残響信号のパワーを閾値と大小比較する。(1)閾値より大きい場合、主話者の音声区間、(2)閾値より小さい場合、主話者外音区間であると判断する。閾値は主話者音声区間と主話者外音区間の正解ラベルのついた学習データ等を用いて予め定めておく。
このような構成により、残響を含む実環境下における、特に音声ディジタル信号に含まれる他話者の音声が小さく、その残響成分が小さい場合に、単一のマイクへの主話者及び他話者を含む複数の話者の音声が混入した音声ディジタル信号に対しても、高い精度で主話者の音声を検出することができる。また、その結果、利用するマイクの個数を少なくすることができ、ハードウェアの構成を軽量化することができる。
本実施形態を、他の実施形態と組み合わせてもよい。
例えば、第二〜第四実施形態と本実施形態を組合せる場合には、各音声区間検出装置200〜400は、ゲイン調整部130及び主話者外音強調部140を含まなくともよく、それぞれ主話者外音区間検出部160、360、460に代えて、主話者音区間検出部を含む。主話者音区間検出部では、主話者外音が強調された音声ディジタル信号に代えて残響信号を用いて、主話者外音区間検出部160、360、460と同様の処理を行う。
入力:残響信号のパワー
出力:区間情報
主話者外音区間検出部は、残響信号のパワーを受け取り、その残響信号のパワーから主話者音声区間または主話者外音区間の少なくとも一方を検出し、主話者音声区間または主話者外音区間の少なくとも一方を示す区間情報を出力する。例えば、残響信号のパワーを閾値と大小比較する。(1)閾値より大きい場合、「主話者音声区間」、(2)閾値より小さい場合、「主話者外音区間」であると判断する。閾値は主話者音声区間と主話者外音区間の正解ラベルのついた学習データ等を用いて予め定めておく。
図18は、音声区間検出装置100〜700の何れかと、音声認識装置800との配置を説明するための図である。音声認識装置800の前段に音声区間検出装置100〜700の何れかを配置する。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
110 音声信号取得部
120 残響推定部
130 ゲイン調整部
140 主話者外音強調部
160,360,460,560,660 主話者外音区間検出部
760 主話者音区間検出部
170 主話者音声抽出部
210 雑音抑圧部
350 音声信号パワー計算部
351 信号スムージング部
461 無音区間抽出部
462 信号スムージング部
540 残響信号パワー計算部
700 音声認識装置
Claims (15)
- 音声ディジタル信号に含まれる残響成分を推定し、残響信号を取得する残響推定部と、
前記残響信号に基づいて主話者音声区間または主話者外音区間の少なくとも一方を検出する話者別区間検出部とを含む、
音声区間検出装置。 - 請求項1記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号と前記残響信号との差分を求める主話者外音強調部を含み、
前記話者別区間検出部は、前記音声ディジタル信号と前記残響信号との差分の値と所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項1記載の音声区間検出装置であって、
前記話者別区間検出部は、取得した残響信号と所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項1または3に記載の音声区間検出装置であって、
さらに、
前記残響信号のパワーを計算する残響信号パワー計算部を含み、
前記話者別区間検出部は、前記残響信号のパワーと所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項2記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号のパワーを計算する音声信号パワー計算部を含み、
前記話者別区間検出部は、前記音声ディジタル信号と前記残響信号との差分の値を前記音声ディジタル信号のパワーにより正規化した値と所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項3記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号のパワーを計算する音声信号パワー計算部を含み、
前記話者別区間検出部は、残響信号を前記音声ディジタル信号のパワーにより正規化した値と所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項4記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号のパワーを計算する音声信号パワー計算部を含み、
前記話者別区間検出部は、前記音声ディジタル信号のパワーにより正規化を行った前記残響信号のパワーと所定の値とを比較して主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項1、3及び6の何れかに記載の音声区間検出装置であって、
さらに、
前記話者別区間検出部は、
前記音声ディジタル信号、または、前記残響信号のパワー、または、前記残響信号のパワーを前記音声ディジタル信号のパワーにより正規化した信号をスムージングする信号スムージング部を含み、
スムージングされた信号から主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項2、4、5及び7の何れかに記載の音声区間検出装置であって、
さらに、
前記話者別区間検出部は、
前記音声ディジタル信号、または、前記音声ディジタル信号と前記残響信号との差分の信号のパワー、または、前記音声ディジタル信号と前記残響信号との差分の信号のパワーを前記音声ディジタル信号のパワーにより正規化した信号をスムージングする信号スムージング部を含み、
スムージングされた信号から主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項2、4、5、7及び9の何れかに記載の音声区間検出装置であって、
さらに、
残響信号にゲインを乗算するゲイン調整部を含む、
音声区間検出装置。 - 請求項1から10の何れかに記載の音声区間検出装置であって、
さらに、
前記話者別区間検出部は、
前記音声ディジタル信号から無音区間を抽出する無音区間抽出部を含み、
無音区間ではない前記音声ディジタル信号から主話者音声区間または主話者外音区間の少なくとも一方を検出する、
音声区間検出装置。 - 請求項1から11の何れかに記載の音声区間検出装置であって、
さらに、
前記音声ディジタル信号に含まれる音声以外の雑音を抑圧する雑音抑圧部を含み、
前記残響推定部及び前記話者別区間検出部において用いる音声ディジタル信号は、前記雑音抑圧部において雑音を抑圧された音声ディジタル信号とする、
音声区間検出装置。 - 音声信号を入力として請求項1から12の何れかに記載の音声区間検出装置から出力される信号を用いて、前記音声信号に対して音声認識を行う音声認識装置。
- 音声ディジタル信号に含まれる残響成分を推定し、残響信号を取得する残響推定ステップと、
前記残響信号に基づいて主話者音声区間または主話者外音区間の少なくとも一方を検出する話者別区間検出ステップとを含む、
音声区間検出方法。 - 請求項1から12の何れかに記載の音声区間検出装置、または、請求項13記載の音声認識装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013175584A JP6125953B2 (ja) | 2013-02-21 | 2013-08-27 | 音声区間検出装置、その方法、及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013032133 | 2013-02-21 | ||
JP2013032133 | 2013-02-21 | ||
JP2013175584A JP6125953B2 (ja) | 2013-02-21 | 2013-08-27 | 音声区間検出装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014186295A true JP2014186295A (ja) | 2014-10-02 |
JP6125953B2 JP6125953B2 (ja) | 2017-05-10 |
Family
ID=51833893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013175584A Active JP6125953B2 (ja) | 2013-02-21 | 2013-08-27 | 音声区間検出装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6125953B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019016938A1 (ja) * | 2017-07-21 | 2019-01-24 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011048813A1 (ja) * | 2009-10-21 | 2011-04-28 | パナソニック株式会社 | 音響処理装置、音響処理方法及び補聴器 |
-
2013
- 2013-08-27 JP JP2013175584A patent/JP6125953B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011048813A1 (ja) * | 2009-10-21 | 2011-04-28 | パナソニック株式会社 | 音響処理装置、音響処理方法及び補聴器 |
Non-Patent Citations (1)
Title |
---|
木下慶介,外2名: "マルチステップ線形予測を用いた1ch残響除去法の検討", 日本音響学会2006年春季研究発表会講演論文集, JPN6016037007, 7 March 2006 (2006-03-07), JP, pages 511 - 512, ISSN: 0003405672 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019016938A1 (ja) * | 2017-07-21 | 2019-01-24 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6125953B2 (ja) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
JP4532576B2 (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム | |
JPH09212196A (ja) | 雑音抑圧装置 | |
Cohen et al. | Spectral enhancement methods | |
US9378755B2 (en) | Detecting a user's voice activity using dynamic probabilistic models of speech features | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
Tu et al. | Fast distributed multichannel speech enhancement using novel frequency domain estimators of magnitude-squared spectrum | |
JP6125953B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
JP6439174B2 (ja) | 音声強調装置、および音声強調方法 | |
JP4612468B2 (ja) | 信号抽出装置 | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
CN111226278B (zh) | 低复杂度的浊音语音检测和基音估计 | |
JP6618885B2 (ja) | 音声区間検出装置、音声区間検出方法、プログラム | |
JP2016080767A (ja) | 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム | |
WO2023228785A1 (ja) | 音響信号処理装置、音響信号処理方法及びプログラム | |
KR20140050951A (ko) | 음성 인식 시스템 | |
CN116504264B (zh) | 音频处理方法、装置、设备及存储介质 | |
US20220084505A1 (en) | Communication between devices in close proximity to improve voice control of the devices | |
US11600273B2 (en) | Speech processing apparatus, method, and program | |
JP5134477B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6125953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |