JP2008158035A - 多音源有音区間判定装置、方法、プログラム及びその記録媒体 - Google Patents
多音源有音区間判定装置、方法、プログラム及びその記録媒体 Download PDFInfo
- Publication number
- JP2008158035A JP2008158035A JP2006344045A JP2006344045A JP2008158035A JP 2008158035 A JP2008158035 A JP 2008158035A JP 2006344045 A JP2006344045 A JP 2006344045A JP 2006344045 A JP2006344045 A JP 2006344045A JP 2008158035 A JP2008158035 A JP 2008158035A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- signal
- observation signal
- noise power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】ノイズパワー推定部2が、複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定する。観測信号分類部3が、上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する。信号分離部4が、上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する。有音区間判定部5が、上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する。
【選択図】図1
Description
x(t)をマイクロホンでの時間領域の観測信号とする。tは時間である。この時間領域の観測信号に対して、短時間フーリエ変換を施し、時間周波数表現で表した周波数領域の観測信号x(f,t)を得る。fは周波数である。本背景技術では、例えば最初の何秒間は誰も喋っていない等の仮定をして、周波数ごとにノイズパワーの推定値λ(f)を得る。そして、周波数領域の観測信号x(f,t)と、ノイズパワーの推定値λ(f)とを用いて、時間周波数ごとに事後S/N比
Jangseo Sohn,Nam Soo Kim,and Wonyong Sung,"A Statical Model-Based Voice Activity Detection",IEEE Singal Processing Letters,Jan.1999.,Vol.6,No.1,pp.1-3
図6を見ると、似たようなスペクトル形状が複数のピンマイクで観測されていることがわかる。これは、話者P1〜P4同士がある程度近くに居るため、ある話者の声が、別の話者が装着しているピンマイクにも入り込んでしまうためである。
このように、多人数・多マイクロホンの状況で、一話者・単一マイクロホンを仮定した発話区間検出を適用しても、あまりうまく動作しないという問題がある。
本発明は、音源が複数あり、それぞれの音源の近くにマイクロホンが設置されており、各マイクロホンに複数の音源から発生した音が入り込む可能性がある状況において、各音源の有音区間を正しく判定する技術を提供することを課題とする。
周波数領域変換部1は、N人の話者の発話がM個のマイクロホンによって収音された時間領域の観測信号xm(t)(m=1,…,M)を、周波数領域の観測信号xm(f,t)(m=1,…,M)に変換する(ステップS1)。
ノイズパワー推定部2は、誰も発話していない時間区間での観測信号のパワー、すなわち、ノイズパワーλm(f)(m=1,…,M)を推定する(ステップS2)。
観測信号分類部3は、周波数領域の観測信号ベクトルX(f,t)={x1(f,t),…,xM(f,t)}を、ノイズか各話者に分類する(ステップS3)。分類結果は、0からNまでの値を取り得るクラスタ情報C(f,t)で表現される。ある時間周波数スロット(f,t)において分類結果C(f,t)=0であれば、その時間周波数スロット(f,t)においては誰も話者がおらず、ノイズに分類されたことを意味する。分類結果C(f,t)が1からNまでの値nを取れば、その時間周波数スロット(f,t)における周波数領域の観測信号X(f,t)はn番目の話者による発話と判定されたことを意味する。
有音区間判定部5は、分離信号yn(f,t)と、ノイズパワーλm(f)から、各話者が発話をしているかどうかを時間t毎に判定し、フラグvadn(t)として出力する(ステップS5)。
以下、各部の処理について詳細に説明する。
N個の話者(音源)からそれぞれ発生した発話(音)は、図示していないM個のマイクロホンによってそれぞれ収音される。話者の数Nと、マイクロホンの数Mは、同じでも異なっていてもよい。マイクロホンは、話者の近くに設置されているものとする。各マイクロホンによってそれぞれ収音された時間領域の各観測信号x1(t),…,xm(t),…,xM(t)は、周波数領域変換部1に入力される。周波数領域変換部1は、短時間フーリエ変換により、上記各観測信号xm(t)(m=1,…,M)を、時間周波数ごとの周波数領域の観測信号x1(f,t),…,xm(f,t),…,xM(f,t)に変換する。変換された周波数領域の観測信号xm(f,t)(m=1,…,M)は、ノイズパワー推定部2、観測信号分類部3、信号分離部4にそれぞれ出力される。
以下では、時間領域の観測信号ベクトルX(t)を、X(t)=[x1(t),…,xM(t)]Tと定義し、周波数領域の観測信号ベクトルX(f,t)を、X(f,t)=[x1(f,t),…,xM(f,t)]Tと定義する。
[*]Tは、ベクトル*の転置を意味する。
ノイズパワー推定部2は、マイクロホンと周波数の組み合せごとに、無音区間、すなわち、誰も発話していない時間区間におけるノイズパワーλm(f)を推定する。ノイズパワーλm(f)は、m番目のマイクロホンにおける周波数fでのノイズパワーを意味する。推定されたノイズパワーλm(f)は、観測信号分類部3、有音区間判定部5に出力される。ここで、無音区間とは、発話がない時間区間のことであり、音やノイズがまったく存在しない区間のことではない点に留意する。
観測信号分類部3は、ノイズパワーλm(f)と周波数領域の各観測信号xm(f,t)とを用いて、上記各観測信号xm(f,t)(m=1,…,M)を成分とする時間周波数ごとの観測信号ベクトルX(f,t)を、話者ごとに分類し、その分類結果C(f,t)を求める。分類結果C(f,t)は、信号分離部4と、ノイズパワー推定部2にそれぞれ出力される。
分類結果C(f,t)は、0からNまでの値を取るクラスタ情報である。C(f,t)=0であれば、その時間周波数には誰も話者がおらず、ノイズと分類されたことを意味する。C(f,t)が、1からNまでの値nを取れば、その時間周波数スロットにおける観測信号ベクトルX(f,t)は、n番目の話者による発話と判定されたことを意味する。
図2に、観測信号分類部3の機能構成を例示する。観測信号分類部3は、無音判定部39、分類部310を有する。無音判定部39は、S/N比計算部31、非線形変換部32、判定部33を有する。分類部310は、正規化部34、尤度計算部35、最大値決定部36、平均ベクトル更新部37、分散更新部38を有する。図4に、観測信号分類部3の処理の流れを例示する。
まず、無音判定部39が、観測信号のパワーのみに着目して、ノイズであるか、あるいは誰かが発話しているかを判別する。例えば、背景技術と同様の方法を用いることができる。すなわち、無音判定部39のS/N比計算部31が、ノイズパワーλm(f)と周波数領域の観測信号xm(f,t)とから、次式に基づいて、事後S/N比γm(f,t)を求める(ステップS31)。
非線形変換部32は、事後S/N比γm(f,t)に対して、例えば、次式の非線形変換を施し、非線形変換後の事後S/N比Gm(f,t)(m=1,…,M)をそれぞれ求め、判定部33に出力する(ステップS32)。
判定部33は、各Gm(f,t)(m=1,…,M)と、予め定めた閾値η’との大小関係を比較し、すべてのm(m=1,…,M)において、Gm(f,t)がη’未満であれば、周波数領域の観測信号ベクトルX(f,t)はノイズであり、その時間周波数スロットにおける分類結果C(f,t)を、C(f,t)=0とする(ステップS33)。
このように、無音判定部39は、周波数領域の観測信号のパワー|xm(f,t)|2を推定されたノイズパワーλm(f)で割った値γm(f,t)に非線形変換を施した値Gm(f,t)と、予め定めた閾値η’との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記平均値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果C(f,t)=0を出力する。
なお、無音判定部39は、上記背景技術に記載した音声区間、非音声区間の判定方法以外の音声区間、非音声区間の判定方法を用いてもよい。
次に、分類部310は、ある話者の発話がそれぞれのマイクロホンにどの程度の音量比で観測されたかという情報に基づいて、周波数領域の観測信号xm(f,t)を分類する(ステップS34)。そのために、まず、分類部310の正規化部34は、例えば、次式に従って、周波数領域の観測信号xm(f,t)を正規化して、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報を求める。
なお、上記式(1)は、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報の一例に過ぎない。上記以外にも、xm’(f,t)として、以下に定めるxm’(f,t)のように比をもって表すことができる任意の統計量を用いても良い。
このようにして算出されたベクトルX’(f,t)は、話者ごとにクラスタを形成することが期待できる。なぜなら、話者はn人おり、また、各話者nの近くに各マイクロホンmが配置されている状況を考慮しているからである。
ここで、話者nの発話に対するクラスタを、例えば、以下のように、予め定めた平均ベクトルmen、予め定めた共分散行列σn 2Iの多次元ガウス分布でモデル化すると、その尤度pn(X’(f,t))(n=1,…,N)は次式のようにして、計算することができる。
各時間周波数スロット(f,t)での正規化された周波数領域の観測信号ベクトルX’(f,t)に対して、以下の式を計算することで、最尤推定値としての分類結果C(f,t)を得ることができる。
このように分類部310は、各話者に対応するクラスタを多次元ガウス分布で表した各モデルに、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報(例えば、X’(f,t))を入力することにより各モデルごとの尤度pn(f,t)を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力する。
同様に、分散δn 2が更新された場合には、尤度計算部35は、その分散更新部38によって更新された分散δn 2を用いて、尤度の計算を行う。
平均ベクトル更新部37と分散更新部38が、パラメータ(平均ベクトルmen、分散δn 2)を更新する時間間隔・更新する頻度は、毎フレームごとでもよいし、数フレームごとでもよい。毎フレームごとに更新すると、最も精度がよくなる。一方、数フレームごとに更新すると、計算コストを削減することができる。どの位の時間間隔・頻度でパラメータを更新するかは、求める精度や、本発明が実装されるハードウェアの規模や性能に応じて適宜定める。ただし、パラメータの変動に対処するために、最長でも数秒に一回は更新するとよい。平均ベクトル更新部37の更新時間間隔・更新頻度と、分散更新部38の更新時間間隔・更新頻度は、同じでも、異なっていても良い。
また、マイクロホンの数Mの方が、話者の数Nよりも多い場合には、話者nから最も近いマイクロホンの番号をk(n)とすると、例えば、平均ベクトルmenを以下のように定める。分散σn 2については上記と同様である。
信号分離部4は、観測信号分類部3が出力した分類結果C(f,t)に基づいて、周波数領域に変換された観測信号xm(f,t)を、話者ごとの信号yn(f,t)に分離する。具体的には、次式に基づいて、話者nの分離信号yn(f,t)を時間周波数ごとに求めて、有音区間判定部5に出力する。
有音区間判定部5は、分離信号yn(f,t)に基づいて、各話者の発話区間(有音区間)を判定する。具体的には、例えば、背景技術に記載した方法と同様に、まず、事後S/N比γn(f,t)を、次式により求める。
閾値ηは、1から数十の範囲であり、経験的に最適と思われる値を設定する。すなわち、予め異なる複数の閾値ηで、上記の判定を行い最も精度が高いものを閾値ηとする。本明細書、特許請求の範囲においては、原則として、「より大」とは、「以上」の概念を包括するものとする。すなわち、AはB以上(A>B)であると言った場合には、AがBより大(A>B)であっても、AがB以上(A≧B)であってもよいものとする。同様に「未満」とは、「以下」の概念を包括するものとする。
なお、背景技術に記載した有音区間判定技術以外の任意の有音区間判定技術を用いることができる。
本発明は、マイクロホンでの観測信号に限らず、何らかの前処理により、信号対雑音比を高めた信号や、特定の話者(音源)の発話(音)を強調した信号に対しても有効に適用することができる。
以下、具体例を挙げつつ説明する。図10は、4人の話者q1,q2,q3,q4が参加した会議の状況を3個のマイクロホンq1’,q2’,q3’で録音した状況を示すものである。話者は、各マイクロホンq1’,q2’,q3’は、一辺の長さが4cmの正三角形の頂点に位置するように机の上に配置されている。各マイクロホンは、その正三角形の中心方向とは反対側の方向の音を収音するように向きが定められている。各マイクロホンq1’,q2’,q3’と机の間にはタオルが敷かれている。話者q1,q2,q3,q4は、話者q1とマイクロホンq1’は85cm、話者q2とマイクロホンq1’は80cm、話者q3とマイクロホンq2’は85cm、話者q4とマイクロホンq3’は90cmそれぞれ離れるように位置しており、また、上記机の上にある各マイクロホンを取り囲むように位置している。
ここで、図1に破線で示す音処理部6が、例えば、音源分離技術などの前処理を、図11(a)から(c)に示した各観測信号について行うことで、特定の話者の声が強調され他の話者の声や雑音が抑圧された信号を生成することができる。図12に、図11(a)から(c)に示した各観測信号に対して、音源分離技術を適用して作り出した話者ごと分離信号を示す。
図13は、図12に示す各分離信号に対して従来の音源有音区間判定技術を適用した結果を示す図である。その他の人の声や雑音がある程度の音量で混入しているため、発話区間が過剰に検出されていることがわかる。
また、上記説明では、多音源有音区間判定装置10は、周波数領域変換部1を有する場合を例に挙げているが、周波数領域変換部1は必ずしも必要ではない。すなわち、周波数領域変換部1を設けずに、各マイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号が、ノイズパワー推定部2、観測信号分類部3、信号分離部4に入力されるようにしてもよい。
上記説明では、音源が人間である場合、すなわち、音源として話者を取り上げた場合を例に挙げているが、音源として他の音源を用いても本発明を適用することができる。
また、分類部310は、すべての時間周波数スロット(f,t)について分類結果C(f,t)を求め、図2に一点鎖線で示す合成部311に出力し、合成部311が、判定部33から入力されたC(f,t)=0となる時間周波数スロットで、上記分類部310が出力した分類結果C(f,t)を上書きしてもよい。かかる場合には、無音判定部39の処理と、分類部310の処理を並行して行うことができる。
分散更新部38と平均ベクトル更新部37は、必ずしも設ける必要はなく、また、何れか一方のみを設けてもよい。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、多音源音声区間判定装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
2 ノイズパワー推定部
3 観測信号分類部
4 信号分離部
5 有音区間判定部
6 音処理部
10 多音源有音区間判定装置
31 比計算部
32 非線形変換部
33 判定部
34 正規化部
35 尤度計算部
36 最大値決定部
37 平均ベクトル更新部
38 分散更新部
39 無音判定部
310 分類部
311 合成部
Claims (13)
- 複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定するノイズパワー推定手段と、
上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する観測信号分類手段と、
上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する信号分離手段と、
上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する有音区間判定手段と、
を有する多音源有音区間判定装置。 - 請求項1に記載の多音源有音区間判定装置において、
上記観測信号分類手段は、上記観測信号のパワーを上記推定されたノイズパワーで割った値に非線形変換を施した値と、予め定めた閾値との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記非線形変換を施した値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果を出力する無音判定手段を含む、
ことを特徴とする多音源有音区間判定装置。 - 請求項1又は請求項2に記載の多音源有音区間判定装置において、
上記観測信号分類手段は、各音源から発生した音がそれぞれのマイクロホンにどの程度の音量比で収音されたという情報を求め、その情報に基づいて、上記観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する手段を含む、
ことを特徴とする多音源有音区間判定装置。 - 請求項1から請求項3の何れかに記載の多音源有音区間判定装置において、
上記観測信号分類手段は、上記各音源に対応するクラスタを、平均ベクトルと分散とを用いて多次元ガウス分布で表した各モデルに、上記情報を入力することにより各モデルごとの尤度を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力する手段を含む、
ことを特徴とする多音源有音区間判定装置。 - 請求項4に記載の多音源有音区間判定装置において、
上記観測信号分類手段は、予め定めた時間間隔T1ごとに上記平均ベクトルを更新する平均ベクトル更新手段と、予め定めた時間間隔T2ごとに上記分散を更新する分散更新手段との少なくとも一方を含む、
ことを特徴とする多音源有音区間判定装置。 - 請求項1から請求項5の何れかに記載の多音源有音区間判定装置において、
上記ノイズパワー推定手段は、予め定めた時間間隔T3ごとに上記ノイズパワーを更新するノイズパワー更新手段を有し、
上記観測信号分類手段は、上記推定されたノイズパワーの代わりに、上記更新されたノイズパワーを用いる、
ことを特徴とする多音源有音区間判定装置。 - 請求項1から請求項6の何れかに記載の多音源有音区間判定装置において、
複数のマイクロホンによってそれぞれ入力された信号に対して信号対雑音比を高める処理を行った信号を周波数領域に変換した時間周波数ごとの信号が、上記観測信号として入力されることを特徴とする多音源有音区間判定装置。 - 複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定するノイズパワー推定ステップと、
上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する観測信号分類ステップと、
上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する信号分離ステップと、
上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する有音区間判定ステップと、
を有する多音源有音区間判定方法。 - 請求項8に記載の多音源有音区間判定方法において、
上記観測信号分類ステップは、上記観測信号のパワーを上記推定されたノイズパワーで割った値に非線形変換を施した値と、予め定めた閾値との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記非線形変換を施した値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果を出力する無音判定ステップを含む、
ことを特徴とする多音源有音区間判定方法。 - 請求項8又は請求項9に記載の多音源有音区間判定方法において、
上記観測信号分類ステップは、各音源から発生した音がそれぞれのマイクロホンにどの程度の音量比で収音されたという情報を求め、その情報に基づいて、上記観測信号ベクトルを、音源ごとに分類し、その分類結果を出力するステップを含む、
ことを特徴とする多音源有音区間判定方法。 - 請求項8から請求項10の何れかに記載の多音源有音区間判定方法において、
上記観測信号分類ステップは、上記各音源に対応するクラスタを多次元ガウス分布で表した各モデルに、上記情報を入力することにより各モデルごとの尤度を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力するステップを含む、
ことを特徴とする多音源有音区間判定方法。 - 請求項1から請求項7の何れかに記載の多音源有音区間判定装置としてコンピュータを機能させるための多音源有音区間判定プログラム。
- 請求項12に記載の多音源有音区間判定プログラムを記録した多音源有音区間判定プログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006344045A JP4746533B2 (ja) | 2006-12-21 | 2006-12-21 | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006344045A JP4746533B2 (ja) | 2006-12-21 | 2006-12-21 | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008158035A true JP2008158035A (ja) | 2008-07-10 |
JP4746533B2 JP4746533B2 (ja) | 2011-08-10 |
Family
ID=39659040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006344045A Expired - Fee Related JP4746533B2 (ja) | 2006-12-21 | 2006-12-21 | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4746533B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010181467A (ja) * | 2009-02-03 | 2010-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号強調装置とその方法と、プログラム |
JP2010187066A (ja) * | 2009-02-10 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム |
JP2010539538A (ja) * | 2007-09-12 | 2010-12-16 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 雑音レベル推定値の調節を備えたスピーチ強調 |
WO2012105386A1 (ja) * | 2011-02-01 | 2012-08-09 | 日本電気株式会社 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
WO2012105385A1 (ja) * | 2011-02-01 | 2012-08-09 | 日本電気株式会社 | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム |
JP2012181280A (ja) * | 2011-02-28 | 2012-09-20 | Sogo Keibi Hosho Co Ltd | 音処理装置および音処理方法 |
JP2014092705A (ja) * | 2012-11-05 | 2014-05-19 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号強調装置、音響信号強調方法、およびプログラム |
JP2014112190A (ja) * | 2012-11-05 | 2014-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 信号区間分類装置、信号区間分類方法、およびプログラム |
JP2014157261A (ja) * | 2013-02-15 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
US8856001B2 (en) | 2008-11-27 | 2014-10-07 | Nec Corporation | Speech sound detection apparatus |
JP2015045737A (ja) * | 2013-08-28 | 2015-03-12 | 日本電信電話株式会社 | 信号区間分類装置、信号区間分類方法、およびプログラム |
CN111788629A (zh) * | 2018-02-20 | 2020-10-16 | 三菱电机株式会社 | 学习装置、声音区间检测装置及声音区间检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6481997A (en) * | 1987-09-24 | 1989-03-28 | Nec Corp | Voice detection system |
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2004170552A (ja) * | 2002-11-18 | 2004-06-17 | Fujitsu Ltd | 音声抽出装置 |
WO2005024788A1 (ja) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
JP2006208482A (ja) * | 2005-01-25 | 2006-08-10 | Sony Corp | 会議の活性化を支援する装置,方法,プログラム及び記録媒体 |
-
2006
- 2006-12-21 JP JP2006344045A patent/JP4746533B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6481997A (en) * | 1987-09-24 | 1989-03-28 | Nec Corp | Voice detection system |
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2004170552A (ja) * | 2002-11-18 | 2004-06-17 | Fujitsu Ltd | 音声抽出装置 |
WO2005024788A1 (ja) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
JP2006208482A (ja) * | 2005-01-25 | 2006-08-10 | Sony Corp | 会議の活性化を支援する装置,方法,プログラム及び記録媒体 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010539538A (ja) * | 2007-09-12 | 2010-12-16 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 雑音レベル推定値の調節を備えたスピーチ強調 |
US8856001B2 (en) | 2008-11-27 | 2014-10-07 | Nec Corporation | Speech sound detection apparatus |
JP2010181467A (ja) * | 2009-02-03 | 2010-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号強調装置とその方法と、プログラム |
JP2010187066A (ja) * | 2009-02-10 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム |
US9245539B2 (en) | 2011-02-01 | 2016-01-26 | Nec Corporation | Voiced sound interval detection device, voiced sound interval detection method and voiced sound interval detection program |
WO2012105386A1 (ja) * | 2011-02-01 | 2012-08-09 | 日本電気株式会社 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
US20130332163A1 (en) * | 2011-02-01 | 2013-12-12 | Nec Corporation | Voiced sound interval classification device, voiced sound interval classification method and voiced sound interval classification program |
US9530435B2 (en) | 2011-02-01 | 2016-12-27 | Nec Corporation | Voiced sound interval classification device, voiced sound interval classification method and voiced sound interval classification program |
JP5994639B2 (ja) * | 2011-02-01 | 2016-09-21 | 日本電気株式会社 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
WO2012105385A1 (ja) * | 2011-02-01 | 2012-08-09 | 日本電気株式会社 | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム |
JP5974901B2 (ja) * | 2011-02-01 | 2016-08-23 | 日本電気株式会社 | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム |
JP2012181280A (ja) * | 2011-02-28 | 2012-09-20 | Sogo Keibi Hosho Co Ltd | 音処理装置および音処理方法 |
JP2014112190A (ja) * | 2012-11-05 | 2014-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 信号区間分類装置、信号区間分類方法、およびプログラム |
JP2014092705A (ja) * | 2012-11-05 | 2014-05-19 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号強調装置、音響信号強調方法、およびプログラム |
JP2014157261A (ja) * | 2013-02-15 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
JP2015045737A (ja) * | 2013-08-28 | 2015-03-12 | 日本電信電話株式会社 | 信号区間分類装置、信号区間分類方法、およびプログラム |
CN111788629A (zh) * | 2018-02-20 | 2020-10-16 | 三菱电机株式会社 | 学习装置、声音区间检测装置及声音区间检测方法 |
CN111788629B (zh) * | 2018-02-20 | 2023-08-15 | 三菱电机株式会社 | 学习装置、声音区间检测装置及声音区间检测方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4746533B2 (ja) | 2011-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4746533B2 (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
JP6234060B2 (ja) | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム | |
US20200066260A1 (en) | Signal generation device, signal generation system, signal generation method, and computer program product | |
JP4728868B2 (ja) | 応対評価装置、その方法、プログラムおよびその記録媒体 | |
Yu et al. | Robust speech recognition using a cepstral minimum-mean-square-error-motivated noise suppressor | |
JP4964204B2 (ja) | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
JP2010032792A (ja) | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 | |
JP4891801B2 (ja) | 多信号強調装置、方法、プログラム及びその記録媒体 | |
JP2015069063A (ja) | 音声認識システム、音声認識方法、及び音声認識プログラム | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
WO2017146073A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
Parmar et al. | Effectiveness of cross-domain architectures for whisper-to-normal speech conversion | |
JP2004279466A (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
KR20190129805A (ko) | 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법 | |
Eklund | Data augmentation techniques for robust audio analysis | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP2012042664A (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Seong et al. | WADA-W: A modified WADA SNR estimator for audio-visual speech recognition | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
Oh et al. | Vocabulary optimization process using similar phoneme recognition and feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110509 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110513 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140520 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |