JP6501259B2 - 音声処理装置及び音声処理方法 - Google Patents
音声処理装置及び音声処理方法 Download PDFInfo
- Publication number
- JP6501259B2 JP6501259B2 JP2015154215A JP2015154215A JP6501259B2 JP 6501259 B2 JP6501259 B2 JP 6501259B2 JP 2015154215 A JP2015154215 A JP 2015154215A JP 2015154215 A JP2015154215 A JP 2015154215A JP 6501259 B2 JP6501259 B2 JP 6501259B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sound source
- section
- likelihood
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Description
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、音声処理装置10、入力部11、及び出力部12を含んで構成される。
次に、音源定位の一手法であるMUSIC法について説明する。
MUSIC法は、以下に説明する空間スペクトルのパワーPext(ψ)が極大であって、所定のレベルよりも高い音源方向ψを定める手法である。記憶部106には、予め所定の間隔(例えば、5°)で分布した音源方向ψ毎の伝達関数を記憶させておく。音源定位部101は、音源から各チャネルp(pは、1以上P以下の整数)に対応するマイクロホンまでの伝達関数D[p](ω)を要素とする伝達関数ベクトル[D(ψ)]を音源方向ψ毎に生成する。
音源定位部101は、入力相関行列[Rxx]の固有値δi及び固有ベクトル[ei]を算出する。入力相関行列[Rxx]、固有値δi、及び固有ベクトル[ei]は、式(2)に示す関係を有する。
音源定位部101は、伝達関数ベクトル[D(ψ)]と算出した固有ベクトル[ei]に基づいて、式(3)に示す周波数別空間スペクトルのパワーPsp(ψ)を算出する。
音源定位部101は、S/N比が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(ψ)の総和を全帯域の空間スペクトルのパワーPext(ψ)として算出する。
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ減少するように分離行列[V(ω)]を適応的に算出する方法である。分離行列[V(ω)]は、音源定位部101から入力されたPチャネルの音声信号[x(ω)]に乗じることによって、Kチャネルの音源毎の音声信号(推定値ベクトル)[u’(ω)]を算出するために用いられる行列である。ここで、[…]Tは、行列又はベクトルの転置を示す。
次に、尤度算出の一手法としてGMMを用いる処理について説明する。
GMMは、入力された音声特徴量に対する出力確率を複数の正規分布を基底として重みづけ加算することにより求めるための音響モデルの一種である。GMMのモデル変数として、混合重み係数(mixture weight)Cim、平均値(mean)[μim]、及び共分散行列(covariance matrix)[Σim]を含む。ここで、mは個々の基底、iはその時点における発話状態を示す。モデル変数は、クラス毎に与えられる。尤度は、フレーム毎の出力確率を累算することにより算出される。累算とは、線形領域で順次乗算すること、対数領域で順次加算することの両者を含む。尤度の算出において、尤度算出部105は、累算した出力確率を、出力確率の累算に係るフレーム数で正規化してもよい。
次に、音声区間であるか、非音声区間であるかを判定する手法について説明する。
第2区間検出部108は、例えば、式(7)を用いて音源k毎にフレームf毎の音源別音声信号Sk(f)から発話状態情報が示す発話区間内における平均パワーPk’を算出する。
その後、第2区間検出部108は、パワーが平均パワーPk’以下のフレームを非音声区間であると判定する。第2区間検出部108は、パワーが平均パワーPk’よりも大きいフレームを、第1尤度p(Xk(f)|λ1)と第2尤度p(Xk(f)|λ2)を用いて音声区間であるか、非音声区間であるかを判定するための第2区間に属するフレームであると判定する。音声区間であるか非音声区間であるかの判定手法には、例えば、累積尤度法と、多数決法がある。
具体的には、第2区間検出部108は、フレームf毎に識別値π(Xk(f))を式(10)に従って定める。
次に、本実施形態に係る音声処理について説明する。
図5は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS101)音源定位部101は、入力部11からのPチャネルの音声信号に基づいて方向毎のパワーを示す空間スペクトルを算出する。音源定位部101は、算出した空間スペクトルに基づいて音源毎の音源方向を定める。その後、ステップS102に進む。
(ステップS102)第1区間検出部102は、フレーム毎の空間スペクトルのパワーが、所定のパワーの閾値よりも高い区間を第1区間に属するフレームとして検出する。その後、ステップS103に進む。但し、第1区間として検出されないフレームについては、次のフレームについてステップS103の処理を行う。
(ステップS104)特徴量抽出部104は、音源毎の音源別音声信号についてフレーム毎に所定の種類の音声特徴量を算出する。その後、ステップS105に進む。
(ステップS105)尤度算出部105は、音源k及びフレームf毎の音声特徴量Xk(f)について、音源の種別が音声である第1尤度p(Xk(f)|λ1)、音源の種別が非音声である第2尤度p(Xk(f)|λ2)を算出する。その後、ステップS106に進む。
(ステップS108)音声認識部109は、音声区間と判定された一連のフレームの音声特徴量について音声認識処理を行い、音源毎の発話内容として認識結果を示すテキストデータを出力部12に出力する。その後、図5に示す処理を終了する。
(i)p’(Xk|λ1)がα・p’(Xk|λ2)よりも高い場合、第2区間が音声区間であると判定する。
(ii)p’(Xk|λ1)がα−1・p’(Xk|λ2)よりも低い場合、第2区間が非音声区間であると判定する。
(iii)p’(Xk|λ1)がα−1・p’(Xk|λ2)以上であって、α・p’ (Xk|λ2)以下である場合、音声区間と非音声区間のどちらにも属しないその他の区間であると判定する。ここで、αは、1よりも大きい所定の実数、例えば、1.5である。その他の区間内の音声信号は、音声と非音声との中間の特性を有するため音声とも非音声とも判定されないことがある。
(i)比率πk’が0.5+βよりも高い場合、第2区間が音声区間であると判定する。
(ii)比率πk’が0.5−βよりも低い場合、第2区間が非音声区間であると判定する。
(iii)比率πk’が0.5−β以上であって、0.5+β以下である場合、その他の区間であると判定する。ここで、αは、0よりも大きく0.5よりも小さい所定の実数、例えば、0.1である。
次に、本実施形態に係る音声処理装置10について行った評価実験について説明する。
評価実験は、次の条件で行われた。音声信号の標本化周波数:16000[Hz]、チャネル数P:8、1フレーム内のサンプル数(FFT点数):512、シフト長:160、室内の残響時間RT20:1.0[s]
収音部11は、人型ロボットの頭部に設置されたマイクロホンアレイである。収音部11が備える8個のマイクロホンは、当該ロボットの頭頂部を中心とする円上に等間隔で配置される。音源として、判定対象となる目的音源と雑音源の両者が用いられた。目的音源は、当該ロボットの正面から1.5m離れた位置に設置されたのに対し、複数個の雑音源はロボットの正面以外の方向に設置された。各試行において目的音源と雑音源の両者に音を発生させた。各試行では、複数個の雑音源から雑音を発生させる雑音源がランダムに選択された。目的音源のコンテンツとして、824個の音声、990個の非音声(楽音、効果音など)、及び1161個のその他の音源が用いられた。各試行では、計2975個のコンテンツのいずれかがランダムに選択された。各試行において、音声処理装置10に目的音源の種類が音声、非音声又はその他のいずれであるかを判定させた。検証結果の集計において、音声、非音声、その他と判定された回数を音源の種類別に計数した。なお、検証結果の比較のため、第2区間検出部108において第1区間に属するフレームのうち、音源別音声信号のパワーが平均パワー以下であるフレームを棄却する処理を省略して、音声処理装置10に目的音源の種類を判定させた(二階層区間検出なし)。
図6、7は、それぞれ検証結果の例を示す表である。図6に示す検証結果は、二階層区間検出なしについて、目的音源の種類毎に判定された回数を示す。図7は、本実施形態に係る音声処理について、目的音源の種類毎に判定された回数を示す。図6、7ともに各行は、既知の目的音源の種類を示し、各列は判定された音源の種類を示す。例えば、図6の第2行は、目的音源の種類が音声である場合、全827回のうち音源の種類が音声、非音声、その他と判定された回数が、それぞれ799、20、8回であることを示す。図6に示す二階層区間検出なしの結果より、音声、非音声、その他の区間が正しく判定された正解率は81.68%となった。これに対して、図7に示す本実施形態の検証結果より、正解率は91.39%となった。図6、7に示す結果は、本実施形態のように第1区間の検出と、第1区間からパワーが平均パワーよりも高い区間を第2区間として判定対象区間を絞り込む二階層区間検出により、音声区間、非音声区間、その他の区間のいずれであるかを、より正確に判定できることを示す。正確に音声区間と判定された区間内の音声特徴量を用いて音声認識処理を行うことで、認識精度を向上させることができる。
この構成によれば、音源が存在する可能性が高い空間スペクトルが高い空間であって、パワーが高い区間内の音声信号から、音源の種類が音声である第1尤度と非音声である第2尤度から当該区間が音声区間であるか否かを正確に判定することができる。そのため、音声区間であると判定された区間内の音声信号を音声認識処理の対象とすることで、音声認識精度が向上する。
この構成により、第1区間の検出に用いられる空間スペクトルが音源定位に用いられ、音源定位により定めた音源方向に関する情報が音源分離に用いられる。そのため、複数チャネルの音声信号から音声区間の判定対象の音源別音声信号を取得するまでの過程で得られる空間スペクトルなどの情報が音声区間の判定に活用されるので、システム規模が過大になることが避けられる。
この構成により、第1区間検出部102は、多重信号分類法またはビームフォーミング法により算出されたスペクトルのパワーを第1区間の検出に用いることができるので、システム規模が過大になることが避けられる。
次に、本発明の第2の実施形態について説明する。以下の説明では、第1の実施形態と同一の構成について同一の符号を付して、その説明を援用する。
図8は、本実施形態に係る音声処理システム1Aの構成を示すブロック図である。
音声処理システム1Aは、音声処理システム1(図1)において音声処理装置10(図1)に代えて音声処理装置10Aを備える。音声処理装置10Aは、音声処理装置10において第2区間検出部108に代えて第2区間検出部108Aを備える。
音声処理装置10Aは、領域データ生成部(図示せず)をさらに備えてもよい。領域データ生成部は、事前学習により音声区間であるフレームの尤度ベクトルの分布と、非音声区間であるフレームの尤度ベクトルの分布に基づいて音声領域とその他領域の間の識別境界を予め定める。領域データ生成部は、定めた識別境界を示す領域データを記憶部106に記憶する。
以下の説明では、音声区間に属するフレームの尤度ベクトル、非音声区間に属するフレームの尤度ベクトルをそれぞれ音声クラスの尤度ベクトル、非音声クラスの尤度ベクトルと呼ぶ。図9に示す例では、音声クラスの尤度ベクトル、非音声クラスの尤度ベクトルが、それぞれ○印、△印で表され、識別境界は、直線で表されている。識別境界が直線である場合には、その特性は直線の傾きαと切片βで表される。
そして、領域データ生成部は、音声領域と非音声領域の識別境界を与える領域として、パラメータ[w]を示す領域データを生成する。なお、領域データ生成部は、領域データとしてバイアス値w0、傾きα及び切片βを示すデータを生成してもよい。
なお、領域データ生成部は、必ずしも音声処理装置10Aに備えられていなくてもよく、音声処理装置10Aの外部に設置されてもよい。
次に、本実施形態に係る音声処理装置10Aについて行った評価実験について説明する。実験の条件は、第1の実施形態で述べた評価実験と同様である。但し、本実施形態では、目的音源のコンテンツとして、824個の音声、990個の非音声が用いられた。また、各試行において音声処理装置10Aに目的音源の種類が音声又は非音声のいずれであるかを判定させた。また、比較のために、音源の判定においてLRを用いて生成した領域データを用いた場合(LR)、LDAを用いて生成した領域データを用いた場合(LDA)、第1の実施形態に示す多数決法を用いた場合(多数決)のそれぞれについて実験結果を集計した。
図11、12、13は、検証結果の例を示す表である。図11、12、13は、LR、LDA、多数決のそれぞれについて判定された目的音源の種類毎の回数を示す。図11、12、13ともに各行は、既知の目的音源の種類を示し、各列は判定された音源の種類を示す。図11の第2行は、目的音源の種類が音声である場合、全824回のうち音源の種類が音声、非音声と判定された回数が、それぞれ789、35回であることを示す。図11の第3行は、目的音源の種類が非音声である場合、全1161回のうち音源の種類が音声、非音声と判定された回数が、それぞれ23、1138回であることを示す。図13に示す多数決の結果と比較すると、LRでは、正しく音声、非音声と判定された回数がそれぞれ2、1回多い。
次に、本実施形態の変形例について説明する。領域データ生成部は、音声領域とその他領域、その他領域と非音声領域、それぞれの識別境界を示す領域データを生成してもよい。領域データ生成部は、音声領域とその他領域の識別境界として、LRを用いた手法において、σ(y)が0.5より大きく1よりも小さい所定の実数(例えば、0.6)を与えるパラメータ[w]を定めてもよい。領域データ生成部は、当該識別境界として、LDAを用いた手法において、仮に定めた識別境界により区分された音声領域に含まれる音声に係る尤度ベクトルと、その他領域に含まれるその他の音源に係る尤度ベクトルとの群間平方和を算出する。領域データ生成部は、当該音声領域に含まれる音声に係る尤度ベクトル、その他領域に含まれるその他の音源に係る尤度ベクトルそれぞれの群内平方和を算出する。そして、領域データ生成部は、与えられた尤度ベクトルについて群間平方和をより大きくし、かつ、群内平方和をより小さくするパラメータ[w]を探索する処理を行う。
なお、本実施形態もしくは上述の変形例において、LDAを用いた手法を用いて識別境界を求める際に算出される、複数の尤度ベクトル間の乖離の度合いの指標は、上述したものに限らない。領域データ算出部は、例えば、平方和に代えて絶対差分和(SAD:Sum of Absolute Differences)を用いてもよいし、距離に代えてマハラノビス汎距離を用いてもよい。
この構成により、単純な第1尤度と第2尤度の比較よりも精度よく音声区間と非音声区間を識別することができる。
この構成により、第2区間検出部108Aは、尤度ベクトルが音声領域に属すか否かを簡素な処理で判定することができるので、計算量やハードウェア規模が過大になることが回避される。
このことにより、第2区間検出部108Aは、その所定の確率よりも音源の種類が音源であると推定される確率が高い領域を音声領域として、尤度ベクトルに基づく音声区間の検出に用いることができる。
このことにより、識別境界は、第1の群内の尤度ベクトルと第2の群内の尤度ベクトルとが極力混在しないようにベクトル区間を音声領域と非音声領域とを区分することができる。そのため、第2区間検出部108Aによる尤度ベクトルに基づく音声区間の検出精度が向上する。
例えば、音声処理装置10、10Aは、さらに出力制御部(図示せず)を備えてもよい。出力制御部は、第2区間検出部108、108Aが、発話区間からその他の区間を検出するとき、再度の発話を促すための情報を示す出力データを出力部12に出力する。出力データは、当該情報を視認可能に表す画像データでもよいし、当該情報を示す音声データであってもよい。当該情報は、例えば、「もう少しはっきりと話して下さい」などのメッセージを含む。そのため、ユーザによる発話が音声であるか否か明確に判定できないときに、再度の発話が促される。そのため、音声認識処理の対象となる音声データを確実に取得することができる。
Claims (8)
- 複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第1区間を検出する第1区間検出部と、
前記第1区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定部と、
前記第1区間内の音声信号に係る音源の種類が音声である第1尤度と前記音源の種類が非音声である第2尤度とを算出する尤度算出部と、
前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第2区間内の前記第1尤度と前記第2尤度に基づいて前記第2区間が音声区間であるか否かをフレーム毎に判定する第2区間検出部と、
を備える音声処理装置。 - 前記第1尤度と前記第2尤度からなる尤度ベクトルのベクトル空間は、前記音源の種類が音声である音声領域と、前記音源の種類が非音声である非音声領域とを含み、
前記第2区間検出部は、
前記第2区間から、フレーム毎の前記第1尤度と前記第2尤度からなる尤度ベクトルが前記音声領域に属する区間を音声区間として検出する
請求項1に記載の音声処理装置。 - 前記第2区間検出部は、
前記ベクトル空間における前記音声領域の識別境界に基づいて、前記音声区間を検出し、
前記識別境界は、少なくとも音声区間内の音声信号に基づく尤度ベクトルの分布を用いて定められた請求項2に記載の音声処理装置。 - 前記識別境界は、前記ベクトル空間において音源の種類が音声である音声区間内の音声信号に基づく尤度ベクトルの分布に基づいて音源の種類が音声であると推定される確率が所定の確率である部分である請求項3に記載の音声処理装置。
- 前記識別境界は、前記音声区間内の音声信号に基づく前記尤度ベクトルからなる第1の群と、音源の種類が非音声である非音声区間内の音声信号に基づく前記尤度ベクトルからなる第2の群との間の乖離をより大きくし、前記第1の群内の前記尤度ベクトル間の乖離と、前記第2の群内の前記尤度ベクトル間の乖離を、それぞれ小さくするように定められた請求項3に記載の音声処理装置。
- 前記複数チャネルの音声信号に基づいて前記空間スペクトルを算出し、前記空間スペクトルに基づいて音源方向を定める音源定位部と、
前記第1区間内の複数のチャネルの音声信号から、前記音源方向からの伝達特性に基づいて音源毎の音声信号を分離する音源分離部と
を備える請求項1から請求項5のいずれか一項に記載の音声処理装置。 - 前記音源定位部は、多重信号分類法またはビームフォーミング法を用いて前記空間スペクトルを算出する請求項6に記載の音声処理装置。
- 音声処理装置における音声処理方法であって、
複数チャネルの音声信号に基づいて音源方向への空間スペクトルのパワーが所定のパワーよりも高い区間である第1区間を検出する第1区間検出ステップと、
前記第1区間内の音声信号に基づいて発話状態が発話中であるか否かをフレーム毎に判定する発話状態判定ステップと、
前記第1区間内の音声信号に係る音源の種類が音声である第1尤度と前記音源の種類が非音声である第2尤度とを算出する尤度算出ステップと、
前記発話状態が発話中であるフレームが属する発話区間の平均パワーよりもパワーが大きい第2区間内の前記第1尤度と前記第2尤度に基づいて前記第2区間が音声区間であるか否かをフレーム毎に判定する第2区間検出ステップと、
を有する音声処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015154215A JP6501259B2 (ja) | 2015-08-04 | 2015-08-04 | 音声処理装置及び音声処理方法 |
US15/193,481 US10622008B2 (en) | 2015-08-04 | 2016-06-27 | Audio processing apparatus and audio processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015154215A JP6501259B2 (ja) | 2015-08-04 | 2015-08-04 | 音声処理装置及び音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017032857A JP2017032857A (ja) | 2017-02-09 |
JP6501259B2 true JP6501259B2 (ja) | 2019-04-17 |
Family
ID=57987899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015154215A Active JP6501259B2 (ja) | 2015-08-04 | 2015-08-04 | 音声処理装置及び音声処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10622008B2 (ja) |
JP (1) | JP6501259B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
CN107527616A (zh) * | 2017-09-29 | 2017-12-29 | 上海与德通讯技术有限公司 | 智能识别方法及机器人 |
JP7075064B2 (ja) * | 2018-03-09 | 2022-05-25 | 日本電気株式会社 | 信号源識別装置、信号源識別方法、プログラム |
JP7079189B2 (ja) * | 2018-03-29 | 2022-06-01 | パナソニックホールディングス株式会社 | 音源方向推定装置、音源方向推定方法及びそのプログラム |
JP7248478B2 (ja) | 2019-03-28 | 2023-03-29 | 本田技研工業株式会社 | 車両制御装置、端末装置、サーバ装置、車両、車両制御システム及び車両制御方法 |
CN112562649B (zh) * | 2020-12-07 | 2024-01-30 | 北京大米科技有限公司 | 一种音频处理的方法、装置、可读存储介质和电子设备 |
CN113270108B (zh) * | 2021-04-27 | 2024-04-02 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
CN115240698A (zh) * | 2021-06-30 | 2022-10-25 | 达闼机器人股份有限公司 | 模型训练方法、语音检测定位方法、电子设备及存储介质 |
Family Cites Families (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5572624A (en) * | 1994-01-24 | 1996-11-05 | Kurzweil Applied Intelligence, Inc. | Speech recognition system accommodating different sources |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
US6567771B2 (en) * | 2000-08-29 | 2003-05-20 | International Business Machines Corporation | Weighted pair-wise scatter to improve linear discriminant analysis |
US20020147585A1 (en) * | 2001-04-06 | 2002-10-10 | Poulsen Steven P. | Voice activity detection |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
SG119199A1 (en) * | 2003-09-30 | 2006-02-28 | Stmicroelectronics Asia Pacfic | Voice activity detector |
US7305132B2 (en) * | 2003-11-19 | 2007-12-04 | Mitsubishi Electric Research Laboratories, Inc. | Classification in likelihood spaces |
JP2005227512A (ja) * | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | 音信号処理方法及びその装置、音声認識装置並びにプログラム |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
US8521529B2 (en) * | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
CN101107505A (zh) * | 2005-01-26 | 2008-01-16 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
JP4670483B2 (ja) * | 2005-05-31 | 2011-04-13 | 日本電気株式会社 | 雑音抑圧の方法及び装置 |
EP2063418A4 (en) * | 2006-09-15 | 2010-12-15 | Panasonic Corp | AUDIO CODING DEVICE AND AUDIO CODING METHOD |
US20080228470A1 (en) * | 2007-02-21 | 2008-09-18 | Atsuo Hiroe | Signal separating device, signal separating method, and computer program |
US8160273B2 (en) * | 2007-02-26 | 2012-04-17 | Erik Visser | Systems, methods, and apparatus for signal separation using data driven techniques |
BRPI0807703B1 (pt) * | 2007-02-26 | 2020-09-24 | Dolby Laboratories Licensing Corporation | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
US8208643B2 (en) * | 2007-06-29 | 2012-06-26 | Tong Zhang | Generating music thumbnails and identifying related song structure |
JP5134876B2 (ja) * | 2007-07-11 | 2013-01-30 | 株式会社日立製作所 | 音声通信装置及び音声通信方法並びにプログラム |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
US20090154726A1 (en) * | 2007-08-22 | 2009-06-18 | Step Labs Inc. | System and Method for Noise Activity Detection |
JP5046211B2 (ja) * | 2008-02-05 | 2012-10-10 | 独立行政法人産業技術総合研究所 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
WO2010001393A1 (en) * | 2008-06-30 | 2010-01-07 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
US8577677B2 (en) * | 2008-07-21 | 2013-11-05 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
US20100057452A1 (en) * | 2008-08-28 | 2010-03-04 | Microsoft Corporation | Speech interfaces |
US8249870B2 (en) * | 2008-11-12 | 2012-08-21 | Massachusetts Institute Of Technology | Semi-automatic speech transcription |
JP5326533B2 (ja) * | 2008-12-09 | 2013-10-30 | 富士通株式会社 | 音声加工装置及び音声加工方法 |
US9767806B2 (en) * | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
EP2394270A1 (en) * | 2009-02-03 | 2011-12-14 | University Of Ottawa | Method and system for a multi-microphone noise reduction |
JP5411936B2 (ja) * | 2009-07-21 | 2014-02-12 | 日本電信電話株式会社 | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 |
FR2948484B1 (fr) * | 2009-07-23 | 2011-07-29 | Parrot | Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile |
US20110125494A1 (en) * | 2009-11-23 | 2011-05-26 | Cambridge Silicon Radio Limited | Speech Intelligibility |
CN102792373B (zh) * | 2010-03-09 | 2014-05-07 | 三菱电机株式会社 | 噪音抑制装置 |
JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
US20110307079A1 (en) * | 2010-04-29 | 2011-12-15 | Board Of Trustees Of Michigan State University, The | Multiscale intra-cortical neural interface system |
DE102010026381A1 (de) * | 2010-07-07 | 2012-01-12 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum Lokalisieren einer Audioquelle und mehrkanaliges Hörsystem |
US20130185068A1 (en) * | 2010-09-17 | 2013-07-18 | Nec Corporation | Speech recognition device, speech recognition method and program |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
US8942975B2 (en) * | 2010-11-10 | 2015-01-27 | Broadcom Corporation | Noise suppression in a Mel-filtered spectral domain |
US8924204B2 (en) * | 2010-11-12 | 2014-12-30 | Broadcom Corporation | Method and apparatus for wind noise detection and suppression using multiple microphones |
US9047878B2 (en) * | 2010-11-24 | 2015-06-02 | JVC Kenwood Corporation | Speech determination apparatus and speech determination method |
US9792925B2 (en) * | 2010-11-25 | 2017-10-17 | Nec Corporation | Signal processing device, signal processing method and signal processing program |
JP5974901B2 (ja) * | 2011-02-01 | 2016-08-23 | 日本電気株式会社 | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム |
WO2012107561A1 (en) * | 2011-02-10 | 2012-08-16 | Dolby International Ab | Spatial adaptation in multi-microphone sound capture |
JP5643686B2 (ja) * | 2011-03-11 | 2014-12-17 | 株式会社東芝 | 音声判別装置、音声判別方法および音声判別プログラム |
JP5732976B2 (ja) * | 2011-03-31 | 2015-06-10 | 沖電気工業株式会社 | 音声区間判定装置、音声区間判定方法、及びプログラム |
US8918197B2 (en) * | 2012-06-13 | 2014-12-23 | Avraham Suhami | Audio communication networks |
FR2976111B1 (fr) * | 2011-06-01 | 2013-07-05 | Parrot | Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres" |
JP5289517B2 (ja) * | 2011-07-28 | 2013-09-11 | 株式会社半導体理工学研究センター | センサネットワークシステムとその通信方法 |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
KR101247652B1 (ko) * | 2011-08-30 | 2013-04-01 | 광주과학기술원 | 잡음 제거 장치 및 방법 |
US9031259B2 (en) * | 2011-09-15 | 2015-05-12 | JVC Kenwood Corporation | Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method |
JP5810946B2 (ja) * | 2012-01-31 | 2015-11-11 | 富士通株式会社 | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム |
JP5862349B2 (ja) * | 2012-02-16 | 2016-02-16 | 株式会社Jvcケンウッド | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 |
US9070374B2 (en) * | 2012-02-20 | 2015-06-30 | JVC Kenwood Corporation | Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus |
US9754608B2 (en) * | 2012-03-06 | 2017-09-05 | Nippon Telegraph And Telephone Corporation | Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium |
WO2013138633A1 (en) * | 2012-03-15 | 2013-09-19 | Regents Of The University Of Minnesota | Automated verbal fluency assessment |
JP6024180B2 (ja) * | 2012-04-27 | 2016-11-09 | 富士通株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US20140025374A1 (en) * | 2012-07-22 | 2014-01-23 | Xia Lou | Speech enhancement to improve speech intelligibility and automatic speech recognition |
US20160240210A1 (en) * | 2012-07-22 | 2016-08-18 | Xia Lou | Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition |
US9443532B2 (en) * | 2012-07-23 | 2016-09-13 | Qsound Labs, Inc. | Noise reduction using direction-of-arrival information |
CN104885149B (zh) * | 2012-09-24 | 2017-11-17 | 三星电子株式会社 | 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备 |
JP6054142B2 (ja) * | 2012-10-31 | 2016-12-27 | 株式会社東芝 | 信号処理装置、方法およびプログラム |
US9837078B2 (en) * | 2012-11-09 | 2017-12-05 | Mattersight Corporation | Methods and apparatus for identifying fraudulent callers |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
DK3537437T3 (da) * | 2013-03-04 | 2021-05-31 | Voiceage Evs Llc | Anordning og fremgangsmåde til reduktion af kvantiseringsstøj i en tidsdomæneafkoder |
US11393461B2 (en) * | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
CN104080024B (zh) * | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
US9854377B2 (en) * | 2013-05-29 | 2017-12-26 | Qualcomm Incorporated | Interpolation for decomposed representations of a sound field |
US9460722B2 (en) * | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
CN106409313B (zh) * | 2013-08-06 | 2021-04-20 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
WO2015037969A1 (ko) * | 2013-09-16 | 2015-03-19 | 삼성전자 주식회사 | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 |
US9633671B2 (en) * | 2013-10-18 | 2017-04-25 | Apple Inc. | Voice quality enhancement techniques, speech recognition techniques, and related systems |
JP6176055B2 (ja) * | 2013-10-21 | 2017-08-09 | 富士通株式会社 | 音声検索装置及び音声検索方法 |
US20160267924A1 (en) * | 2013-10-22 | 2016-09-15 | Nec Corporation | Speech detection device, speech detection method, and medium |
US9916844B2 (en) * | 2014-01-28 | 2018-03-13 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
US9524735B2 (en) * | 2014-01-31 | 2016-12-20 | Apple Inc. | Threshold adaptation in two-channel noise estimation and voice activity detection |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
JP2015222847A (ja) * | 2014-05-22 | 2015-12-10 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
CN106409304B (zh) * | 2014-06-12 | 2020-08-25 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
CN104143335B (zh) * | 2014-07-28 | 2017-02-01 | 华为技术有限公司 | 音频编码方法及相关装置 |
JP6524674B2 (ja) * | 2015-01-22 | 2019-06-05 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
TWI566242B (zh) * | 2015-01-26 | 2017-01-11 | 宏碁股份有限公司 | 語音辨識裝置及語音辨識方法 |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
US9672841B2 (en) * | 2015-06-30 | 2017-06-06 | Zte Corporation | Voice activity detection method and method used for voice activity detection and apparatus thereof |
US20170140750A1 (en) * | 2015-11-17 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Method and device for speech recognition |
US10275690B2 (en) * | 2016-04-21 | 2019-04-30 | Sas Institute Inc. | Machine learning predictive labeling system |
-
2015
- 2015-08-04 JP JP2015154215A patent/JP6501259B2/ja active Active
-
2016
- 2016-06-27 US US15/193,481 patent/US10622008B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170040030A1 (en) | 2017-02-09 |
JP2017032857A (ja) | 2017-02-09 |
US10622008B2 (en) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
JP6501260B2 (ja) | 音響処理装置及び音響処理方法 | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Nayana et al. | Comparison of text independent speaker identification systems using GMM and i-vector methods | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
Papadopoulos et al. | Long-term SNR estimation of speech signals in known and unknown channel conditions | |
JP6532021B2 (ja) | 音声処理装置及び音声処理方法 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
Van Segbroeck et al. | Rapid language identification | |
Agrawal et al. | Prosodic feature based text dependent speaker recognition using machine learning algorithms | |
Park et al. | Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP2009020460A (ja) | 音声処理装置およびプログラム | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
Karthikeyan et al. | Hybrid machine learning classification scheme for speaker identification | |
Grewal et al. | Isolated word recognition system for English language | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
JP5083951B2 (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171129 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181023 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6501259 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |