JP2018036442A - 音声処理プログラム、音声処理方法及び音声処理装置 - Google Patents

音声処理プログラム、音声処理方法及び音声処理装置 Download PDF

Info

Publication number
JP2018036442A
JP2018036442A JP2016168628A JP2016168628A JP2018036442A JP 2018036442 A JP2018036442 A JP 2018036442A JP 2016168628 A JP2016168628 A JP 2016168628A JP 2016168628 A JP2016168628 A JP 2016168628A JP 2018036442 A JP2018036442 A JP 2018036442A
Authority
JP
Japan
Prior art keywords
frequency
spectrum
amplitude
frequency component
spectra
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016168628A
Other languages
English (en)
Other versions
JP6729187B2 (ja
Inventor
紗友梨 香村
Sayuri Komura
紗友梨 香村
太郎 外川
Taro Togawa
太郎 外川
猛 大谷
Takeshi Otani
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016168628A priority Critical patent/JP6729187B2/ja
Priority to EP17188203.8A priority patent/EP3291228B1/en
Priority to US15/687,748 priority patent/US10607628B2/en
Publication of JP2018036442A publication Critical patent/JP2018036442A/ja
Application granted granted Critical
Publication of JP6729187B2 publication Critical patent/JP6729187B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声の分析の精度を向上する方法を提供する。【解決手段】複数の入力装置それぞれに入力される音声信号を変換して複数の周波数スペクトルを生成し、複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、複数の周波数スペクトルに含まれる特定の周波数スペクトルとは異なる1または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、特定の周波数スペクトルの振幅が1または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、抽出した周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、複数の入力装置それぞれに入力される音声に対応する出力を制御する。【選択図】図2

Description

本発明は、音声処理プログラム、音声処理方法及び音声処理装置に関する。
音声認識や音声分析のニーズが高まり、話者が発した音声を正確に分析する技術が求められている。音声分析の技術の一つにバイナリマスキングという方法がある。バイナリマスキングでは、複数の入力装置で得られる音声それぞれについて周波数解析を行い、周波数成分毎に信号レベルの大きさを比較して、信号レベルが大きい目的音の入力と小さい非目的音(目的音以外の雑音等)の入力の特定を行い、非目的音を除去することにより、目的音の分析を行う。
特開2009−20471号公報
しかしながら、周辺環境が変化することによって、音声の周波数スペクトルに変化が生じて、目的音と非目的音の大小が逆転することがあり、目的音と非目的音の分離精度が低下する場合があり、結果として音声分析を誤ることがある。
一つの側面では、本発明は、音声分析の精度を向上することを目的とする。
一つの実施態様では、複数の入力装置それぞれに入力される音声信号を変換して複数の周波数スペクトルを生成し、複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、複数の周波数スペクトルに含まれる特定の周波数スペクトルとは異なる1または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、特定の周波数スペクトルの振幅が1または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、抽出した周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、複数の入力装置それぞれに入力される音声に対応する出力を制御する。
一つの側面では、音声の分析の精度を向上することができる。
第1の実施形態に係る音声処理装置の構成例を示す図である。 第1の実施形態に係る音声処理装置の処理フローを示す図である。 抑圧量算出関数のグラフを示す図である。 第2の実施形態に係る音声処理装置の構成例を示す図である。 第2の実施形態に係る音声処理装置の処理フローを示す図である 第3の実施形態に係る音声処理装置の構成例を示す図である。 第3の実施形態に係る音声処理装置の処理フローを示す図である。 第4の実施形態に係る音声処理装置の構成例を示す図である。 第4の実施形態に係る音声処理装置の処理フローを示す図である。 音声処理装置のハードウェア構成例を示す図である。
以下、図面を参照しながら、第1の実施形態に係る音声処理装置100について説明する。
音声処理装置100は、複数の入力装置から受信した音声信号を周波数解析し、複数の周波数スペクトルを生成する。音声処理装置100は、各周波数スペクトルについて、他の周波数スペクトルとの間で同じ周波数同士の信号レベルの比較を行う。なお、比較する対象の周波数は予め定められた特定の周波数としても良いし、推定した雑音スペクトルとの関係で求めても良い。音声処理装置100は、各周波数における信号レベルの比較結果に基づいて、各周波数スペクトルに対する抑圧量を算出する。そして音声処理装置100は、算出した抑圧量を用いて抑圧処理を行い、その結果を反映した音声信号を出力する。第1の実施形態に係る音声処理装置100は、例えば、ボイスレコーダー等に備えられる。
図1は第1の実施形態に係る音声処理装置100の構成例を示す図である。
図1に示すように、第1の実施形態に係る音声処理装置100は、入力部101、周波数解析部102、雑音推定部103、算出部104、制御部105、変換部106、出力部107、記憶部108を有する。算出部104は、対象周波数算出部104a、占有周波数算出部104b、占有率算出部104c、抑圧量算出部104dを有する。
入力部101は、マイクなどの複数の入力装置から音声を受信する。入力部101は、受信した音声をアナログ/デジタル変換器により音声信号へ変換する。ただし、すでにデジタル化した信号を受信しても良い。その際はアナログ/デジタル変換は省略して良い。
周波数解析部102は、入力部101から取得する音声信号を周波数解析する。周波数解析の方法について以下に説明する。周波数解析部102は、入力部101でデジタル化した音声信号を、所定長T(例えば10msec)の長さのフレーム単位に分割する。そして周波数解析部102は、フレーム毎に音声信号を周波数解析する。周波数解析部102は、例えば、短時間離散フーリエ変換(STFT:Short Time Fourier Transform)を行い、音声信号を周波数解析する。ただし、音声信号を周波数解析する方法は上述の方法に限定されない。
雑音推定部103は、周波数解析部102で算出した周波数スペクトルに含まれる雑音スペクトルの推定を行う。雑音スペクトルとは、音声信号が入力装置に入力されていない場合に、入力装置が検出する信号に対応したスペクトルである。雑音スペクトルを算出する方法として、例えば、スペクトルサブトラクション法がある。ただし、雑音推定部103による雑音スペクトルの算出方法は、上述のスペクトルサブトラクション法に限定されない。
算出部104の対象周波数算出部104aは、音声分析の対象とする周波数(以降、対象周波数と称する)を特定する。対象周波数とは、音声処理装置100に入力された音声に対する抑圧量を算出するために用いる周波数である。具体的には、対象周波数算出部104aは、所定の間隔でサンプリングした周波数毎に、入力された周波数スペクトルと推定した雑音スペクトルとについて、振幅の比較を行う。そして対象周波数算出部104aは、サンプリングした周波数の内、振幅の差が所定の値以上である周波数を対象周波数とする。そして対象周波数算出部104aは、前述の方法により特定した対象周波数の数を計数して、その総数を対象周波数の総数とする。なお、上述した処理を省略し、予め定めた周波数を対象周波数とし、対象周波数を計数し、その総数を対象周波数の総数としても良い。
占有周波数算出部104bは、対象周波数算出部104aで算出した各対象周波数について、入力された複数の周波数スペクトルのうち最も大きい信号レベルを有する周波数スペクトルを特定する。そして占有周波数算出部104bは、複数の周波数スペクトルそれぞれが、最も大きい信号レベルを示す周波数スペクトルとして特定された回数を計数してその総数を各周波数スペクトルにおける占有周波数の総数とする。ここで、占有周波数の総数を算出する際、最も大きい信号レベルを示す対象周波数のみを計数して占有周波数の総数とする必要はなく、周波数スペクトル毎に信号レベルが所定値以上の対象周波数の数を計数して占有周波数の総数としても良い。
占有率算出部104cは、各周波数スペクトルについて対象周波数算出部104aで算出した対象周波数の総数と、占有周波数算出部104bで算出した占有周波数の総数とに基づき、対象周波数の総数に占める占有周波数の総数の割合である占有率を算出する。そのため、占有率が大きい周波数スペクトルである程、その周波数スペクトルに対応する音声が目的音である可能性が高い。
抑圧量算出部104dは、占有率算出部104cで求めた所定の占有率を抑圧量算出関数に代入し、複数の周波数スペクトルそれぞれに対する抑圧量を算出する。抑圧量算出部104dは、周波数スペクトルの占有率が大きくなるほど、抑圧量をより小さくし、占有率が小さくなるほど、抑圧量をより大きくする。
制御部105は、周波数解析部102で生成した周波数スペクトルに抑圧量算出部104dで算出した抑圧量を乗じ、複数の周波数スペクトルに対し抑圧制御を行う。(以降、抑圧制御を行った周波数スペクトルを推定スペクトルと称する。)
変換部106は、制御部105で抑圧制御を行った周波数スペクトル(推定スペクトル)を短時間離散フーリエ逆変換し、逆変換して得られた音声信号を出力する。(以降、推定スペクトルを短時間離散フーリエ逆変換した音声信号を推定音声信号と称する。)
出力部107は、変換部106で変換された音声信号の出力を行う。
記憶部108は、各機能部で算出した情報や処理に関する情報を記憶する。記憶部108は、具体的には、入力装置から入力された音声、入力部101で変換した音声信号、周波数解析部102で解析した周波数スペクトル、雑音推定部103で推定した雑音スペクトル、算出部104で算出したスペクトル、対象周波数、対象周波数の総数、占有周波数の総数、占有率、抑圧量、制御部105で抑圧制御して生成した推定スペクトル、変換部106で変換した推定音声信号等、各機能部で処理を行う際に必要な情報を記憶する。
なお、音声処理装置100は、入力された音声信号に対応する全てのフレームに対して抑圧制御を行って音声信号を出力したかどうかの判定を行っても良い。具体的には、音声処理装置100は、全てのフレームに対して抑圧制御が終了していないと判定した場合には、残りのフレームに対し上述した一連の処理を行う。また、音声処置装置100は、入力部101の入力を監視し、音声の入力が所定時間以上行われない場合に抑圧制御が終了したと判定し、入力部101を除いて各部の動作を停止しても良い。
続いて、第1の実施形態に係る音声処理装置100の処理フローについて説明する。
図2は第1の実施形態に係る音声処理装置100の処理フローを示す図である。例えば、N個の入力装置(2≦N)から音声信号を受信した場合に、第nの入力装置から受信した音声信号xn(t)(1≦n≦N)に対する抑圧制御を行う際の処理について説明する。
第1の実施形態に係る音声処理装置100は、入力部101で入力装置から音声信号xn(t)を受信した後(ステップS201)、周波数解析部102で、音声信号xn(t)を周波数解析して、周波数スペクトルXn(l,f)を算出する(ステップS202)。lはフレーム番号、fは周波数を示す。周波数解析の方法は、例えば、周波数解析部102で説明した方法を用いる。
音声処理装置100の雑音推定部103は、音声信号を周波数解析部102で算出した周波数スペクトルから雑音スペクトルNn(l,f)の推定を行う(ステップS203)。雑音推定スペクトルの算出方法は、例えば、雑音推定部103で挙げたスペクトルサブトラクション法である。算出部104の対象周波数算出部104aは、周波数解析部102で周波数解析した周波数スペクトルXn(l,f)と雑音推定部103で推定した雑音スペクトルNn(l,f)に基づき対象周波数の算出を行う。対象周波数の算出方法として、例えば、有音判定閾値(SNTH:Signal−Noise Threshold))を設定し、周波数スペクトルXn(l,f)の各周波数fにおいて、(数1)に該当する周波数である場合には、対象周波数であると判定する。
(数1)
Xn(l,f)−Nn(l,f)>SNTH
音声処置端末100の対象周波数算出部104aは、(数1)に示すように、周波数スペクトルと雑音スペクトルの振幅の差がSNTHよりも大きい場合に、対象周波数であると判定する。有音判定閾値は、予めユーザからの設定を受け付けておいても良く、周波数スペクトルと雑音スペクトルの差に基づき算出しても良い。算出の方法としては、例えば、フレームにおける周波数スペクトルと雑音スペクトルの差分の平均値をSNTHと設定する。
音声処理装置100の対象周波数算出部104aは、対象周波数flmの総数を対象周波数の総数Mとして算出する(ステップS204)。flmは、音声分析の対象であると判定したlフレームにおけるm番目(1≦m≦M)の周波数fを示す。そして、音声処理装置100の占有周波数算出部104bは、対象周波数算出部104aで算出した対象周波数のそれぞれに対し、複数の周波数スペクトルXm(l,f)毎のlフレームにおける占有周波数の総数bn(l)を算出する(ステップS205)。音声処理装置100の占有周波数算出部104bが、周波数スペクトルXn(l,f)の占有周波数の総数bn(l)を算出する際の式を(数2)に示す。
(数2)
Figure 2018036442
音声処理装置100の占有率算出部104cは、対象周波数算出部104aで算出した対象周波数の総数Mと、占有周波数算出部104bで算出した占有周波数の総数bn(l)に基づき、周波数スペクトルXn(l,f)毎のlフレームにおける占有率shn(l)を算出する(ステップS206)。占有率shn(l)を算出する際の式を(数3)に示す。
(数3)
shn(l)=bn(l)/M
音声処理装置100の抑圧量算出部104dは、占有率算出部104cで占有率shn(l)の算出を行った後、抑圧量Gn(l,f)を算出する(ステップS207)。抑圧量Gn(l,f)を算出する際の式を(数4)に、抑圧量算出関数のグラフを図3に示す。
(数4)
Figure 2018036442
音声処理装置100の制御部105は、抑圧量算出部104dで算出した抑圧量Gn(l,f)に基づき、周波数スペクトルXn(l,f)の抑圧を行い、推定スペクトルSn(l,f)を算出する(ステップS208)。推定スペクトルSn(l,f)を算出する際の式を(数5)に示す。
(数5)
Sn(l,f)=Gn(l,f)×Xn(l,f)
音声処理装置100の変換部106は、抑圧を行った推定スペクトルSn(l,f)に対し、短時間離散フーリエ逆変換を行い、推定音声信号sn(t)を算出し(ステップS209)、出力部107から出力する(ステップS210)。

以上のように、各周波数スペクトルの占有率に応じて抑圧を行うことで、非目的音が一時的に大きくなった場合にも、精度良く音声を分析することができる。
次に、第2の実施形態に係る音声処理装置100について説明する。
第2の実施形態に係る音声処理装置100は、周波数スペクトルをフレーム間で平滑化した平滑化スペクトルを利用して占有率の算出を行う。音声処理装置100は、平滑化処理を行うことにより、フレーム間で周波数スペクトルに急な変化(例えば、急な雑音の発生等)が生じた場合でも、変化の影響を緩和して音声処理を行うことができる。第2の実施形態に係る音声処理装置100は、例えば、パソコン等に備えられ、パソコンに接続した複数のN個のマイクを入力装置として備える。
図4は第2の実施形態に係る音声処理装置100の構成例を示す図である。
第2の実施形態に係る音声処理装置100は、入力部401、周波数解析部402、雑音推定部403、平滑化部404、算出部405、制御部406、変換部407、出力部408、記憶部409を有する。算出部405は、対象周波数算出部405a、占有周波数算出部405b、占有率算出部405c、抑圧量算出部405dを有する。平滑化部404、算出部405、制御部406以外は第1の実施形態に係る音声処理装置100の構成における各機能部と同様の処理を行う。
平滑化部404は、周波数解析部402で生成した周波数スペクトルと、その周波数スペクトルと異なるフレームにおける周波数スペクトルとを用いて平滑化を行い、平滑化スペクトルを生成する。
対象周波数算出部405aは、対象周波数を算出する。対象周波数算出部405aは、0Hz〜入力された音声の周波数スペクトルのサンプリング周波数の1/2を対象周波数であるとする。そして対象周波数算出部405aは、前述の方法により特定した対象周波数の数を計数して、その総数を対象周波数の総数とする。
占有周波数算出部405bは、対象周波数算出部405aで算出した各対象周波数において、複数の平滑化スペクトルのうち最も大きい信号レベルを有する平滑化スペクトルを特定する。そして占有周波数算出部405bは、複数の平滑化スペクトルそれぞれにおいて、最も大きい信号レベルを示す平滑化スペクトルとして特定された回数を計数してその総数を各平滑化スペクトルにおける占有周波数の総数とする。
占有率算出部405cは、対象周波数算出部405aで算出した対象周波数の総数と、占有周波数算出部405bで算出した占有周波数の総数とに基づき、複数の平滑化スペクトルそれぞれの占有率を算出する。
抑圧量算出部405dは、雑音推定部403で推定した雑音スペクトルと、平滑化部404で算出した平滑化スペクトルと、占有率算出部405cで算出した占有率とに基づき、抑圧量を算出する。抑圧量算出部405dは、平滑化スペクトルの占有率が大きくなるほど、抑圧量をより小さくし、占有率が小さくなるほど、抑圧量をより大きくする。
制御部406は、周波数解析部402で生成した周波数スペクトルに抑圧量算出部405dで算出した抑圧量を乗じ、複数の周波数スペクトルに対し抑圧制御を行う。
次に、第2の実施形態に係る音声処理装置100の処理フローについて説明する。
図5は第2の実施形態に係る音声処理装置100の処理フローを示す図である。第2の実施形態においても、第1の実施形態同様、N個の入力装置(2≦N)から音声信号を受け付けた場合の第nの入力装置から入力を受け付けた音声信号xn(t)(1≦n≦N)に対する抑圧制御を行う際の処理について説明する。
第2の実施形態に係る音声処理装置100は、入力部401で音声信号xn(t)の入力を受け付けた後(ステップS501)、周波数解析部402で、入力を受け付けた音声信号xn(t)を周波数解析し、周波数スペクトルXn(l,f)を算出する(ステップS502)。lはフレーム番号、fは周波数を示す。
音声処理装置100の雑音推定部403は、周波数解析部402で算出した周波数スペクトルXn(l,f)から雑音スペクトルNn(l,f)の推定を行う(ステップS503)。雑音スペクトルを算出する際の処理は第1の実施形態における雑音推定部103の処理と同様である。
音声処理装置100の平滑化部404は、周波数解析部402で算出した周波数スペクトルXn(l,f)に対し平滑化を行い、平滑化スペクトルX’n(l,f)の算出を行う(ステップS504)。平滑化スペクトルX’n(l,f)を算出する際の式を(数6)に示す。
(数6)
X’n(l,f)=(1−a)×X’n(l−1,f)+a×Xn(l,f)
ただし、第1のフレームにおいては、一つ前のフレームが存在しないため、周波数スペクトルX1(l,f)を平滑化スペクトルX’1(l,f)とする。
音声処理装置100の対象周波数算出部405aは、第1の実施形態同様、音声分析の対象周波数flmと対象周波数の総数Mを算出した後(ステップS505)、占有周波数算出部405bで各入力音声信号の平滑化スペクトルにおける占有周波数b’n(l)を算出する(ステップS506)。音声分析の対象周波数flmと対象周波数の総数Mの算出方法は、対象周波数算出部405aの説明で示した方法である。占有周波数b’n(l)を算出する際の式を(数7)に示す。
(数7)
Figure 2018036442
音声処理装置100の占有率算出部405cは、対象周波数算出部405aで算出した音声分析の対象とする対象周波数の総数Mと、占有周波数算出部405bで算出した各入力音声信号の平滑化スペクトルにおける占有周波数b’n(l)に基づき、占有率sh’n(l)を算出する(ステップS507)。占有率sh’n(l)を算出する際の式を(数8)に示す。
(数8)
sh’n(l)=b’n(l)/M
音声処理装置100の抑圧量算出部405dは、雑音推定部403で算出した雑音スペクトルNn(l,f)と、平滑化部404で算出した平滑化スペクトルX’n(l,f)と、占有率算出部405cで算出した占有率sh’n(l)と、第1の状態判定閾値TH1と、第2の状態判定閾値TH2(TH2<TH1)とに基づき、周波数スペクトルに対する抑圧量G’n(l,f)の算出を行う(ステップS508)。抑圧量G’n(l,f)を算出する際の式を(数9)に示す。
(数9)
Figure 2018036442
(数9)における第1の状態判定閾値及び/又は第2の状態判定閾値はユーザからの設定を受け付けておいても良く、音声処理装置100が周波数スペクトルに基づいて設定しても良い。例えば、ユーザからTH1=0.7、TH2=0.3と設定を受け付けた場合について説明する。音声処理装置100の抑圧量算出部405dは、周波数スペクトルの占有率が第1の状態判定閾値0.7以上であれば、音声信号の抑圧量G’m(l,f)=1とする。また、音声処置装置100の抑圧量算出部405dは、周波数スペクトルの占有率が第1の状態判定閾値0.7と第2の状態判定閾値0.3の間に存在し、他の入力装置から受信した入力音声信号に対応する平滑化スペクトルより大きい場合には、抑圧量G’n(l,f)=1とする。
一方、周波数スペクトルの占有率が第1の状態判定閾値0.7と第2の状態判定閾値0.3の間に存在し、他の入力装置から受信した入力音声信号に対応する平滑化スペクトルより小さい場合には、抑圧量G’n(l,f)=Nn(l,f)/X’n(l,f)とする。音声処理装置100の抑圧量算出部405dが、抑圧量をNn(l,f)/X’n(l,f)とするのは、非目的音を雑音スペクトルのレベルまで抑圧し、より自然な周波数スペクトルとして算出するためである。また、音声処理装置100の抑圧量算出部405dは、周波数スペクトルの占有率が第2の状態判定閾値0.3より小さい場合に、抑圧量G’n(l,f)=Nn(l,f)/X’n(l,f)とする。
音声処理装置100の制御部406は、抑圧量算出部405dで算出した抑圧量G’n(l,f)に基づき、周波数スペクトルXn(l,f)に対する音声信号の抑圧を行い、推定スペクトルS’n(l,f)を算出する(ステップS509)。推定スペクトルS’n(l,f)を算出する際の式を(数10)に示す。
(数10)
S’n(l,f)=G’n(l,f)×Xn(l,f)
音声処理装置100は、制御部406で音声信号の抑圧を行い、推定スペクトルS’n(l,f)を算出し、変換部407で推定スペクトルS’n(l,f)を音声信号s’n(t)に逆変換し(ステップS510)、逆変換後の信号を出力部408から出力する(ステップS511)。
以上のように、各周波数スペクトルを平滑化して抑圧を行うことで、急な雑音が入った場合にも、その影響を抑制し、精度良く音声を分析することができる。
次に、第3の実施形態に係る音声処理装置100について説明する。
第3の実施形態に係る音声処理装置100は、過去のフレームにおける占有率を用いて算出する長期占有率に基づき抑圧制御を行う。長期占有率に基づき抑圧量を算出することにより、フレーム間における占有率に急激な変化があった場合でも、変化の影響を緩和し、音声処理を行うことができる。第3の実施形態に係る音声処理装置100は、例えば、クラウド等に備えられ、クラウドと通信可能な収録機器で収録した入力音声を、インターネット網を介して受信し処理する。
図6は第3の実施形態に係る音声処理装置100の構成例を示す図である。
第3の実施形態に係る音声処理装置100は、入力部601、周波数解析部602、算出部603、制御部604、変換部605、出力部606、記憶部607を有する。算出部603は、対象周波数算出部603a、占有周波数算出部603b、占有率算出部603c、長期占有率算出部603d、抑圧量算出部603e、状態判定閾値算出部603fを有する。入力部601、周波数解析部602、制御部604、変換部605、出力部606、記憶部607は第1の実施形態に係る音声処理装置100の各機能部と同様の処理を行う。算出部603の対象周波数算出部603aは、第2の実施形態に係る音声処理装置100の対象周波数算出部405aと同様の処理を行う。占有周波数算出部603b、占有率算出部603cは、第1の実施形態に係る音声処理装置100における占有周波数算出部104b、占有率算出部104cと同様の処理を行う。
長期占有率算出部603dは、占有率算出部603cで算出した占有率と、異なるフレームにおけるそれぞれの周波数スペクトルの占有率と、重み係数とに基づき、各周波数スペクトルの長期占有率を算出する。重み係数とは、長期占有率を算出する際に、長期占有率における各フレームの占有率の影響の大きさを調整するものである。
抑圧量算出部603eは、周波数解析部602で生成した周波数スペクトル、長期占有率算出部603dで算出した各周波数スペクトルにおける長期占有率、予め設定を受け付けた第3の状態判定閾値、第4の状態判定閾値から抑圧量を算出する。
状態判定閾値算出部603fは、抑圧制御を行う周波数スペクトルのフレームが、装置稼働時の所定以内のフレームである場合に、抑圧量算出部603eで利用する第3の状態判定閾値、第4の状態判定閾値の調整を行う。
続いて第3の実施形態に係る音声処理装置100の処理フローについて説明する。
図7は第3の実施形態に係る音声処理装置100の処理フローを示す図である。第3の実施形態においても、第1の実施形態同様、N個の入力装置(2≦N)から音声信号を受け付けた場合の第nの入力装置から入力を受け付けた音声信号xn(t)(1≦n≦N)に対する抑圧制御を行う際の処理について説明する。
第3の実施形態に係る音声処理装置100は、入力部601で入力装置から音声信号xn(t)を受信した後(ステップS701)、周波数解析部602で、受信した音声信号xn(t)を周波数解析し、周波数スペクトルXn(l,f)を算出する(ステップS702)。
音声処理装置100は、対象周波数算出部603aで対象周波数の総数Mの算出を行った後(ステップS704)、占有周波数算出部603bで占有周波数の総数bn(l)の算出を行う(ステップS705)。対象周波数の総数M及び占有周波数の総数bn(l)を算出する際の処理は、第2の実施形態におけるステップS505、S506と同様である。音声処理装置100は、占有率算出部603cで、第1の実施形態と同様に占有率を算出し(ステップS706)、算出した占有率に基づき、長期占有率算出部603dで、長期占有率lshn(l)を算出する(ステップS707)。長期占有率lshn(l)を算出する際の式を(数11)に示す。
(数11)
lshn(l)=(1−β)×lshn(l−1)+β×shn(l)
ただし、第1のフレームにおいては、一つ前のフレームが存在しないため、占有率lshn(1)を長期占有率lshn(l)とする。βは重み係数を表す。βの値は例えばユーザが予め設定しておき(例えばβ=0.6)、下記に示す条件に該当する場合に値の調整を行うようにしても良い。
音声処理装置100の長期占有率算出部603dは、算出を行う対象としている現在のフレームと過去の所定の期間のフレームにおける占有率shn(l)の最大値Aと最小値Bの値の差が、第1の変化の閾値VTH1より大きく、かつ、一つ前のフレームの占有率shn(l−1,f)と推定スペクトルの算出を行う対象としているフレームの占有率shn(l,f)の差が第2の変化の閾値VTH2より大きい場合、βを大きくする(例えば0.1を追加する)処理を行う。この処理を行うことで、各フレームや一つ前のフレームの占有率に大きな差がある場合には、算出を行う対象としている現在のフレームの影響を大きくすることで、より現在のフレームの占有率を反映した長期占有率lshn(l)を算出することができる。
音声処理装置100の抑圧量算出部603eは、第3の状態判定閾値TH3、第4の状態判定閾値TH4(TH3>TH4)、周波数解析部602で算出した周波数スペクトルXn(l,f)、長期占有率算出部603dで算出した長期占有率lshn(l)に基づき、抑圧量算出部603eで抑圧量G’ ’n(l,f)の算出を行う(ステップS708)。第3の状態判定閾値TH3、第4の状態判定閾値TH4はユーザが予め設定する。抑圧量G’ ’n(l,f)を算出する際の式を(数12)に示す。抑圧量G’ ’n(l,f)を算出する際の式を(数12)に示す。
(数12)
Figure 2018036442
音声処理装置100の状態判定閾値算出部603fは、算出の対象としているフレームが所定のフレーム以内(例えば、装置を稼働してから2lフレーム以内)であるかどうかを判定する(ステップS709)。音声処理装置100は、算出の対象としているフレームが装置を稼働して所定のフレーム以内(ステップS709:Yes)である場合には、状態判定閾値算出部603fで長期占有率lshn(l)と第1の補正用閾値CTH1、第2の補正用閾値CTH2(CTH1<CTH2)の関係に基づき、状態判定閾値TH3、TH4の調整を行う(ステップS710)。例えば、長期占有率lshn(l)が第1の補正用閾値CTH1より小さく、第2の補正用閾値CTH2より大きい場合には、複数の入力装置に入力される非目的音の大きさに差があり、占有率に影響する可能性があるため、調整を行う必要がある。装置の稼働時における期間(目的音の入力が行われていない期間)における状態判定閾値を調整することで、周波数スペクトルの分析における非目的音の占有率の影響を抑制できる。状態判定閾値を調整する際の式を(数13)に示す。
(数13)
TH3=TH3−(0.5−C)
TH4=TH4−(0.5−C)
Cは所定フレームにおける長期占有率lshn(l)の平均値を示す。音声処理装置100の状態判定閾値算出部603fは、長期占有率の値が小さい(他の入力装置に入力される雑音の影響で占有率が小さくなる)場合には、入力装置に入力される音声信号の占有率が少なくても音声が目的音であるかどうかを正確に判定する必要があるため、状態判定閾値を小さくする。一方、長期占有率の値が大きい(該当する入力装置に他の入力装置に比べ大きい雑音が入力される影響で占有率が大きくなる)場合には、入力装置に入力される音声信号の占有率が非目的音のみの場合の占有率より大きい場合に目的音であると判定する必要があるため、入力された音声が目的音かどうかを判定する閾値を大きくする。音声処理装置100は、算出の対象としているフレームが装置を稼働して所定のフレーム以内でない場合には(ステップS709:No)、抑圧量算出部603eで算出した抑圧量G’ ’n(l,f)と周波数スペクトルXn(l,f)に基づき制御部604で音声信号の抑圧を行い推定スペクトルS’ ’n(l,f)を算出する(ステップS711)。推定スペクトルS’ ’n(l,f)を算出する際の式を(数14)に示す。
(数14)
S’ ’n(l,f)=G’ ’n(l,f)×Xn(l,f)
音声処理装置100の変換部605は、制御部604で音声信号の抑圧を行った後、推定スペクトルS’ ’n(l,f)を逆変換し(ステップS712)、推定音声信号s’ ’n(t)を算出し、出力部606から出力する(ステップS713)。以上のように、占有率を調整することにより、話者が変わった際にも精度良く音声の分析を行うことができる。
次に第4の実施形態に係る音声処理装置100について説明する。
第4の実施形態に係る音声処理装置100は、各入力端末から入力された音声信号の大小関係を比較して算出した占有時間に基づいて占有率を算出する。上述の処理を行うことにより、抑圧を行う際の時間(フレームの大きさ)を調整することができ、各時間における音声信号の抑圧制御を行うことができる。
図8は、第4の実施形態に係る音声処理装置100の構成例を示す図である。
図8に示すように、第4の実施形態に係る音声処理装置100は入力部801、周波数解析部802、算出部803、制御部804、変換部805、出力部806、記憶部807を有する。算出部803は占有時間算出部803a、占有率算出部803b、長期占有率算出部803c、抑圧量算出部803dを有する。入力部801、周波数解析部802、制御部804、変換部805、出力部806、記憶部807は第1の実施形態に係る音声処理装置100の各機能部と同様の処理を行う。
占有時間算出部803aは、予め設定を受け付けた所定時間に含まれる単位時間(例えば5msec)毎の音声信号の大きさを比較し、音声信号が他の入力装置から入力された音声信号よりも大きい領域を示す占有時間を算出する。占有時間が長い程、目的音である可能性が高いことを示す。
占有率算出部803bは、占有時間算出部803aで算出した占有時間と、所定時間とに基づいて各音声信号に対する占有率を算出する。
長期占有率算出部803cは、占有率算出部803bで算出した占有率と過去の複数の所定時間における占有率とに含まれる最頻値を長期占有率として算出する。ただし、長期占有率は、最頻値に限定されず、例えば、複数の所定時間における占有率の平均値や中央値を長期占有率としても良い。
抑圧量算出部803dは、長期占有率算出部803cで算出した長期占有率の値に基づいて各周波数スペクトルに対する抑圧量を算出する。
図9は、第4の実施形態に係る音声処理装置100の処理フローを示す図である。第4の実施形態においても、第1の実施形態同様、N個の入力装置(2≦N)から音声信号を受け付けた場合の第nの入力装置から入力を受け付けた音声信号xn(t)(1≦n≦N)に対する処理について説明する。
第4の実施形態に係る音声処理装置100は、入力部801で音声信号xn(t)の入力を受け付けた後(ステップS901)、周波数解析部802で、入力を受け付けた音声信号xn(t)を周波数解析し、周波数スペクトルXn(l,f)を算出する。(ステップS902)。
音声処理装置100は、占有時間算出部803aで入力を受け付けた各音声信号xn(t)のlフレームにおける占有時間b’ ’ ’n(l)を算出する(ステップS903)。lフレームにおける占有時間を算出する際の式を(数15)に示す。lフレームの時間の長さをTl(例えば1024ms)とし、所定時間毎(例えば1ms毎)に音声信号の大きさの比較を行う。Tlにおいてi番目に比較する音声信号をxn(i)とする。
(数15)
Figure 2018036442
音声処理装置100は、過去の所定時間Tと占有時間算出部803aで算出した占有時間b’ ’ ’n(l)に基づき第n音声の占有率sh’ ’ ’n(l)を算出する(ステップS904)。占有率sh’ ’ ’n(l)を算出する際の式を(数16)に示す。
(数16)
sh’ ’ ’n(l)=b’ ’ ’n(l)/Tl
長期占有率算出部803cは過去の所定時間T2(T2≧T1)内の占有率sh’ ’ ’n(l)の最頻値を長期占有率lsh’ ’ ’n(l)として算出する(ステップS905)。但し、長期占有率lsh’ ’ ’n(l)の算出方法は最頻値に限定されず、例えば、中央値や平均値を長期占有率として算出しても良い。
音声処理装置100は、長期占有率lsh’ ’ ’n(l)を算出した後、抑圧量算出部803dで抑圧量を算出する。抑圧量算出部803dは、第5の状態判定閾値TH5、第6の状態判定閾値TH6(TH5>TH6)、占有率sh’ ’ ’n(l)、周波数スペクトルX’n(l,f)から抑圧量G’ ’ ’n(l,f)を算出する(ステップS906)。抑圧量G’ ’ ’n(l,f)を算出する際の式を(数17)に示す。
(数17)
Figure 2018036442
音声処理装置100の制御部804は、抑圧量算出部803dで算出した抑圧量G’ ’ ’n(l,f)に基づき、周波数スペクトルの抑圧を行い推定スペクトルS’ ’ ’n(l,f)を算出する(ステップS907)。推定スペクトルS’ ’ ’n(l,f)を算出する際の式を(数18)に示す。
(数18)
S’ ’ ’n(l,f)=G’ ’ ’n(l,f)×Xn(l,f)
音声処理装置100の変換部805は、制御部804で算出した推定スペクトルS’ ’ ’n(l,f)を逆変換し入力スペクトルに対応する推定音声信号s’ ’ ’n(l,f)を算出し(ステップS908)、出力部806から出力する(ステップS909)。
以上のように、長期占有率に基づいて抑圧を行うことで、周辺環境が変化し、占有率が変わった際にも精度良く音声の分析を行うことができる。
次に第1から第4の実施の形態に係る音声処理装置100のハードウェア構成例について説明する。図10は音声処理装置100のハードウェア構成例を示す図である。
図10に示すように、音声処理装置100は、CPU(Central Processing Unit)1001、メモリ(主記憶装置)1002、補助記憶装置1003、I/O装置1004、ネットワークインタフェース1005がバス1006を介して接続されている。
CPU1001は、音声処理装置100の全体の動作を制御する演算処理装置であり、第1の実施形態から第4の実施形態における周波数解析部や雑音推定部、算出部等の各機能の処理を制御する。
メモリ1002は、音声処理装置100の動作を制御するOS(Operating System)等のプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部であり、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等である。
補助記憶装置1003は、例えば、ハードディスク、フラッシュメモリなどの記憶装置であり、CPU1001により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。
I/O装置1004は、入力装置からの音声信号の入力、マウス、キーボードなどの入力デバイスを用いた音声処理装置100に対する指示やユーザが設定する値の入力等を受け付ける。また、抑圧を行った周波数スペクトル等の出力を外部の音声出力部に出力したり、記憶部に記憶したデータに基づいて生成した表示画像をディスプレイなどに出力する。
ネットワークインタフェース1005は、有線または無線により外部との間で行われる各種データのやりとりの管理を行うインタフェース装置である。
バス1006は、上記各装置を互いに接続し、データのやり取りを行う通信経路である。
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、上記第1から第4の実施形態は上記に限定されず、論理的に可能な限りの組合せが可能である。
101、401、601、801 入力部
102、402、602、802 周波数解析部
103、403 雑音推定部
104、405、603、803 算出部
104a、405a、603a 対象周波数算出部
104b、405b、603b 占有周波数算出部
104c、405c、603c、803b 占有率算出部
104d、405d、603e、803d 抑圧量算出部
105、406、604、804 制御部
106、407、605、805 変換部
107、408、606、806 出力部
108、409、607、807 記憶部
404 平滑化部
603d、803c 長期占有率算出部
603f 状態判定閾値算出部
803a 占有時間算出部
1001 CPU
1002 メモリ(主記憶装置)
1003 補助記憶装置
1004 I/O装置
1005 ネットワークインタフェース
1006 バス

Claims (9)

  1. 複数の入力装置それぞれに入力される音声信号を変換して複数の周波数スペクトルを生成し、
    前記複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる1または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、
    前記特定の周波数スペクトルの振幅が前記1または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、
    抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置それぞれに入力される音声に対応する出力を制御する
    処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  2. 前記複数の周波数スペクトルに含まれるそれぞれの雑音スペクトルを特定し、
    前記複数の周波数スペクトルと前記それぞれの雑音スペクトルにおける周波数成分毎の振幅に基づき、前記複数の周波数スペクトルの振幅の大きさの比較を行う周波数成分を決定する
    処理をコンピュータに実行させることを特徴とする請求項1に記載の音声処理プログラム。
  3. 所定の期間における前記特定の周波数スペクトルと、前記所定の期間における特定の周波数スペクトルと連続した所定の期間における前記特定の周波数スペクトルとを、時間方向に平滑化した周波数スペクトルを特定し、
    平滑化した前記周波数スペクトルの周波数成分毎の振幅の大きさの比較に基づき前記割合を特定することを特徴とする請求項1または2のいずれか1項に記載の音声処理プログラム。
  4. 所定の期間における前記割合と、前記所定の期間における割合と連続した所定の期間における割合とを時間方向に平滑化した割合を特定し、
    前記平滑化した割合に基づき出力を制御することを特徴とする請求項1乃至3のいずれか1項に記載の音声処理プログラム。
  5. 平滑化を行う対象となった前記所定の期間と前記所定の期間と連続した期間における周波数スペクトルの振幅の大きさ及び/又は割合に、所定の値以上の差がある場合に、前記時間方向の平滑化における前記所定の期間の重みづけを大きくして前記時間方向の平滑化を行う
    処理をコンピュータに実行させることを特徴とする請求項3または4に記載の音声処理プログラム。
  6. 前記割合と、第1の閾値及び/又は第2の閾値との大小関係に基づき、前記音声の出力の制御を行う
    処理をコンピュータに実行させることを特徴とする請求項1乃至5のいずれか1項に記載の音声処理プログラム。
  7. 前記周波数スペクトルと前記雑音スペクトルにおける周波数成分毎の振幅の差が所定の値以下の周波数成分において、
    前記割合が第3の閾値より小さい場合は、前記第1の閾値及び前記第2の閾値の値を小さくし、
    前記割合が第4の閾値より大きい場合は、前記第1の閾値を前記第2の閾値の値を大きくする
    処理をコンピュータに実行させることを特徴とする請求項6に記載の音声処理プログラム。
  8. 複数の入力装置それぞれに入力される音声信号を変換して複数の周波数スペクトルを生成し、
    前記複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる1または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、
    前記特定の周波数スペクトルの振幅が前記1または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出し、
    抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置それぞれに入力される音声に対応する出力を制御する
    処理をコンピュータが実行することを特徴とする音声処理方法。
  9. 複数の入力装置それぞれに入力される音声信号を変換して複数の周波数スペクトルを生成する周波数変換部と、
    前記複数の周波数スペクトルのうち、特定の周波数スペクトルの各周波数成分の振幅と、前記複数の周波数スペクトルに含まれる前記特定の周波数スペクトルとは異なる1または複数の他の周波数スペクトルの各周波数成分の振幅とを、周波数成分毎に比較し、 前記特定の周波数スペクトルの振幅が前記1または複数の他の周波数スペクトルの振幅より大きい周波数成分を抽出する算出部と、
    抽出した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて、前記複数の入力装置それぞれに入力される音声に対応する出力を制御する制御部と、
    を有することを特徴とする音声処理装置。
JP2016168628A 2016-08-30 2016-08-30 音声処理プログラム、音声処理方法及び音声処理装置 Active JP6729187B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016168628A JP6729187B2 (ja) 2016-08-30 2016-08-30 音声処理プログラム、音声処理方法及び音声処理装置
EP17188203.8A EP3291228B1 (en) 2016-08-30 2017-08-28 Audio processing method, audio processing device, and audio processing program
US15/687,748 US10607628B2 (en) 2016-08-30 2017-08-28 Audio processing method, audio processing device, and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016168628A JP6729187B2 (ja) 2016-08-30 2016-08-30 音声処理プログラム、音声処理方法及び音声処理装置

Publications (2)

Publication Number Publication Date
JP2018036442A true JP2018036442A (ja) 2018-03-08
JP6729187B2 JP6729187B2 (ja) 2020-07-22

Family

ID=59713947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016168628A Active JP6729187B2 (ja) 2016-08-30 2016-08-30 音声処理プログラム、音声処理方法及び音声処理装置

Country Status (3)

Country Link
US (1) US10607628B2 (ja)
EP (1) EP3291228B1 (ja)
JP (1) JP6729187B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747128B (zh) * 2020-05-27 2023-11-14 明基智能科技(上海)有限公司 噪音判断方法及噪音判断装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0369996U (ja) * 1989-11-07 1991-07-12
JP2008135933A (ja) * 2006-11-28 2008-06-12 Tohoku Univ 音声強調処理システム
JP2009020471A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音処理装置およびプログラム
JP2009522942A (ja) * 2006-01-05 2009-06-11 オーディエンス,インコーポレイテッド 発話改善のためにマイク間レベル差を用いるシステム及び方法
JP2015082808A (ja) * 2013-10-24 2015-04-27 トヨタ自動車株式会社 風検出装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301357B1 (en) * 1996-12-31 2001-10-09 Ericsson Inc. AC-center clipper for noise and echo suppression in a communications system
JP4873913B2 (ja) * 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
US7957964B2 (en) * 2004-12-28 2011-06-07 Pioneer Corporation Apparatus and methods for noise suppression in sound signals
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP4519901B2 (ja) 2007-04-26 2010-08-04 株式会社神戸製鋼所 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4957810B2 (ja) * 2008-02-20 2012-06-20 富士通株式会社 音処理装置、音処理方法及び音処理プログラム
JP6337519B2 (ja) 2014-03-03 2018-06-06 富士通株式会社 音声処理装置、雑音抑圧方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0369996U (ja) * 1989-11-07 1991-07-12
JP2009522942A (ja) * 2006-01-05 2009-06-11 オーディエンス,インコーポレイテッド 発話改善のためにマイク間レベル差を用いるシステム及び方法
JP2008135933A (ja) * 2006-11-28 2008-06-12 Tohoku Univ 音声強調処理システム
JP2009020471A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音処理装置およびプログラム
JP2015082808A (ja) * 2013-10-24 2015-04-27 トヨタ自動車株式会社 風検出装置

Also Published As

Publication number Publication date
US20180061436A1 (en) 2018-03-01
EP3291228A1 (en) 2018-03-07
US10607628B2 (en) 2020-03-31
EP3291228B1 (en) 2020-04-01
JP6729187B2 (ja) 2020-07-22

Similar Documents

Publication Publication Date Title
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
JP6169849B2 (ja) 音響処理装置
US9384760B2 (en) Sound processing device and sound processing method
CN105118522B (zh) 噪声检测方法及装置
JP2005521106A (ja) パターン認識
KR20080013734A (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
US20140177853A1 (en) Sound processing device, sound processing method, and program
JP2009075536A (ja) 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
JP5277887B2 (ja) 信号処理装置およびプログラム
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JPWO2020039571A1 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
JP6729187B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
CN116959495A (zh) 一种语音信号信噪比估计方法、系统
JP2018031897A (ja) 利得調整装置、利得調整方法および利得調整プログラム
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
CN111508512A (zh) 语音信号中的摩擦音检测
JP6729186B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
JP6747236B2 (ja) 音響解析方法および音響解析装置
WO2016173675A1 (en) Suitability score based on attribute scores
WO2022060891A1 (en) Method and device for processing a binaural recording
JPH10133688A (ja) 音声認識装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R150 Certificate of patent or registration of utility model

Ref document number: 6729187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150