JP2019215514A - 音声処理方法、装置、デバイスおよび記憶媒体 - Google Patents

音声処理方法、装置、デバイスおよび記憶媒体 Download PDF

Info

Publication number
JP2019215514A
JP2019215514A JP2018244655A JP2018244655A JP2019215514A JP 2019215514 A JP2019215514 A JP 2019215514A JP 2018244655 A JP2018244655 A JP 2018244655A JP 2018244655 A JP2018244655 A JP 2018244655A JP 2019215514 A JP2019215514 A JP 2019215514A
Authority
JP
Japan
Prior art keywords
voice
vad
frames
audio
masking threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018244655A
Other languages
English (en)
Other versions
JP6764923B2 (ja
Inventor
チャオ リ、
Chao Li
チャオ リ、
ウェイシン ジュー、
Weixin Zhu
ウェイシン ジュー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019215514A publication Critical patent/JP2019215514A/ja
Application granted granted Critical
Publication of JP6764923B2 publication Critical patent/JP6764923B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】大量の離散的なマスキング閾値を除去し、補正した後のマスキング閾値により音響特徴量を処理することにより、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる音声処理方法、装置、デバイスおよび記憶媒体を提供する。【解決手段】N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得することと、ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得ることと、N個の音声フレームの音声区間検出(VAD)情報に基づき第1のマスキング閾値を補正して第2のマスキング閾値を得ることと、第2のマスキング閾値に基づきN個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得ることとを含む。【選択図】図1

Description

本発明は、音声処理技術の分野に関し、より詳しくは、音声処理方法、装置、デバイスおよび記憶媒体に関する。
雑音が小さい環境では、人間の聴覚器が関心のある音声を選択的に聞き取ることができる。これは、いわゆる「カクテルパーティー効果」である。関連技術分野では、「カクテルパーティー効果」をブラインド信号源分離の問題、すなわち参照信号源がない状態で、興味のある「前景音」を混雑している「背景音」から抽出する問題として取り扱うことが多い。
ブラインド信号源分離を行うための主な技術的手段は、マスキング閾値(mask)を推定し、マスキング閾値により音響特徴量を処理することである。マスキング閾値の推定を行う時に、ニューラルネットワークアルゴリズムを利用している。例えば、高速フーリエ変換(Fast Fourier Transform、FFT)による音声の振幅スペクトルという特徴量に対して、式
Figure 2019215514
によりマスキング閾値を推定する。ここで、tはt番目の音声フレーム、fはf番目の周波数を表し、
Figure 2019215514
は(t,f)番目の時点−周波数におけるクリーンな(clean)音声の出力、
Figure 2019215514
は(t,f)番目の時点−周波数における雑音(noisy)を含む音声の出力を表す。しかしながら、実際の場合には、クリーンな音声にも雑音が含まれるため、これに基づき推定したマスキング閾値は正確ではなく、音声処理を行っても所望の効果を得られないという問題点があった。
本発明は、上記問題点を解決するためになされるものであり、音声処理方法、装置、デバイスおよび記憶媒体を提供する。VAD(voice activity detection)情報に基づきマージン閾値を補正することにより、大量の離散的なマスキング閾値を除去し、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる。
本発明の第1の態様として、音声処理方法を提供する。音声処理方法は、N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得するステップと、ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得るステップと、N個の音声フレームの音声区間検出(VAD)情報に基づき第1のマスキング閾値を補正して第2のマスキング閾値を得るステップと、第2のマスキング閾値に基づきN個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得るステップとを含む。
本発明は以下の有益な効果を有する。VAD情報によりマスキング閾値を補正することで、大量の離散的なマスキング閾値を除去し、補正した後のマスキング閾値により音響特徴量を処理することにより、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる。
任意選択的に、N個の音声フレームのVAD情報に基づき第1のマスキング閾値を補正する前記ステップは、VAD情報と第1のマスキング閾値との積を算出して第2のマスキング閾値を得ることを含む。これにより、第1のマスキング閾値を効果的に補正することができる。
任意選択的に、VAD情報はそれぞれの音声フレームに対応するVAD値を含む。N個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するVAD値を0に設定する。これにより、VAD情報を決定して第1のマスキング閾値を補正することができる。
任意選択的に、VAD情報は、それぞれの音声フレームに対応するVAD値をさらに含む。これに対応して、N個の音声フレームのVAD情報に基づき第1のマスキング閾値を補正する前に、N個の音声フレームにおけるVAD値が1のM1(ただしM1は1より大きい正の整数である)個の音声フレームおよびM1個の音声フレームに隣接するVAD値が0のP1(ただしP1は1より大きい正の整数である)個の音声フレームを決定するステップと、M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値およびP1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、M2個の音声フレームおよびP2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させるステップとを含み、ただし1≦M2≦M1であり、1≦P2≦P1である。これにより、VAD情報を決定して第1のマスキング閾値を補正することができる。
任意選択的に、N個の音声フレームにおけるVAD値が1のM1個の音声フレームおよびVAD値が0のP1個の音声フレームを決定する前記ステップは、N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定することと、音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定し、音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定することとを含む。
任意選択的に、ハミング窓関数(hamming窓)、三角窓関数またはハニング窓関数(hanning窓)によりM2およびP2を決定する。
本発明は、音声処理装置、デバイス、記憶媒体およびコンピュータプログラム製品をさらに提供する。その効果については、上記方法に関する発明を参照されたい。
本発明の第2の態様として、音声処理装置を提供する。音声処理装置は、
N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得する取得モジュールと、
ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得るトレーニングモジュールと、
N個の音声フレームの音声区間検出(VAD)情報に基づき第1のマスキング閾値を補正して第2のマスキング閾値を得る補正モジュールと、
第2のマスキング閾値に基づきN個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得る第1の処理モジュールとを含む。
任意選択的に、補正モジュールは、VAD情報と第1のマスキング閾値との積を算出して第2のマスキング閾値を得る。
任意選択的に、VAD情報はそれぞれの音声フレームに対応するVAD値を含む。これに対応して、当該装置は、N個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するVAD値を0に設定する設定モジュールをさらに含む。
任意選択的に、VAD情報はそれぞれの音声フレームに対応するVAD値を含む。これに対応して、当該装置は、N個の音声フレームにおけるVAD値が1のM1(ただしM1は1より大きい正の整数である)個の音声フレームおよびM1個の音声フレームに隣接するVAD値が0のP1(ただしP1は1より大きい正の整数である)個の音声フレームを決定する決定モジュールと、
M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値およびP1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、M2個の音声フレームおよびP2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させる第2の処理モジュールとをさらに含み、ただし1≦M2≦M1であり、1≦P2≦P1である。
任意選択的に、決定モジュールは、N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定し、音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定する。
任意選択的に、ハミング窓関数、三角窓関数またはハニング窓関数によりM2およびP2を決定する。
本発明の第3の態様として、メモリと、プロセッサとを含む音声処理デバイスを提供する。
前記メモリは、プロセッサに本発明の第1の態様または第1の態様の任意選択的な実施態様による音声処理方法を実行させるためのプロセッサ用実行命令を記憶する。
本発明の第4の態様として、本発明の第1の態様または第1態様の任意選択的な実施態様による音声処理方法を実施するためのコンピュータ実行可能命令を含む記憶媒体を提供する。
本発明の第5の態様として、本発明の第1の態様または第1態様の任意選択的な実施態様による音声処理方法を実施するためのコンピュータ実行可能命令を含むコンピュータプログラム製品を提供する。
本発明は、音声処理方法、装置、デバイスおよび記憶媒体を提供する。N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得することと、ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得ることと、N個の音声フレームのVAD情報に基づき第1のマスキング閾値を補正して第2のマスキング閾値を得ることと、第2のマスキング閾値に基づきN個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得ることとを含むものであり、VAD情報によりマスキング閾値を補正することで、大量の離散的なマスキング閾値を除去し、補正した後のマスキング閾値により音響特徴量を処理することにより、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる。
本発明の一実施例による音声処理方法のフローチャートである。 本発明のもう一つの実施例による音声処理方法のフローチャートである。 本発明の一実施例におけるVAD値に対する平滑化処理を概略的に示す図である。 本発明の一実施例による音声処理装置400を概略的に示す図である。 本発明の一実施例による音声処理デバイス500を概略的に示す図である。
前述したように、いわゆる「カクテルパーティー効果」は、関連技術分野で、ブラインド信号源分離の問題、すなわち参照信号源がない状態で、興味のある「前景音」を混雑している「背景音」から抽出する問題として取り扱うことが多い。
ブラインド信号源分離は、以下の場面に用いることができる。
場面1:目的話し手の音声を複数の話し手による音声から抽出する。例えば、リビングルームに座ってニュース番組を見ているユーザは、テーブルに置かれたスマートスピーカーに対して音声指令を出したら、スピーカーが、ユーザの音声指令およびニュース番組のアナウンサの音声を同時に受信する。すなわち同一の時点に、2人が同時に話す。
場面2:音声を背景雑音から抽出する。例えば、運転手が運転する間に、車と携帯電話のマイクロフォンは、風の音、道路での騒音、クラクションを鳴らした音など様々な雑音を受けるが、ブラインド信号源分離によりこれらの環境雑音を抑圧して、混雑している音の中から運転者の音声を抽出することができる。
ブラインド信号源分離は、本質的に言えば回帰モデルの応用問題である。モデルの性能が理想的でないと、次のいくつかの不具合が生じる。
1.背景音が除去されていない。すなわちブラインド信号源分離を行ったが、雑音を全て除去できず、所望の雑音除去効果を得られない。
2.目的音声も除去されている。すなわちブラインド信号源分離を行った結果、雑音だけではなく、目的音声も同時に抑圧される。
3.雑音が十分に除去されず、目的音声も劣化する。これは最もよく発生する問題であり、すなわち一部の時点−周波数に雑音が残っていたり、また一部の時点−周波数には目的音声が除去されたりする。
したがって、ブラインド信号源分離においては、雑音の抑圧および目的音声の劣化防止が最も重要な技術となる。ブラインド信号源分離により理想的な効果を得るためには、目的音声の劣化を可能な限り抑えつつ、背景雑音を最大限に抑圧する必要がある。
ブラインド信号源分離におけるコア技術は、マスキング閾値(mask)の計算である。従来技術によれば、ニューラルネットワークを利用して、各音声フレームの音響特徴量に対して0〜1にある出力ベクトルを推定し、当該出力ベクトルはすなわちmaskである。
上記音響特徴量は、FFTによる振幅スペクトル、メル周波数ケプストラム係数(Mel−frequency Cepstrum Coefficients、MFCC)、メルフィルタバンク(Mel−scale Filter Bank、FBank)、または知覚線形予測(Perceptual Linear Predictive、PLP)等であってもよい。
例えば、FFTによる音声の振幅スペクトルに対して、式
Figure 2019215514
によりmaskを推定する。ここで、tはt番目の音声フレーム、fはf番目の周波数を表し、
Figure 2019215514
は(t,f)番目の時点−周波数におけるクリーンな(clean)音声の出力、
Figure 2019215514
は(t,f)番目の時点−周波数における雑音(noisy)を含む音声の出力を表す。しかしながら、実際の場合には、クリーンな音声にも雑音が含まれるため、これに基づき推定したマスキング閾値は正確ではなく、音声処理を行っても所望の効果を得られないという問題点があった。
上記技術的問題を解決するための本発明は、音声処理方法、装置、デバイスおよび記憶媒体を提供する。本願に係る発明は、ブラインド信号源分離が適用される上記場面に用いることができ、これらの場面に限定されるものではない。図1は、本発明の一実施例による音声処理方法のフローチャートを示す。当該方法は、コンピュータ、携帯電話、ノートパソコンなどのスマート端末の一部または全体により実行される。次に、当該方法がコンピュータにより実行される場合を例として説明する。図1に示すように、当該音声処理方法は、ステップS101〜ステップS104を含み、
ステップS101において、N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得する。
ステップS102において、ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得る。
ステップS103において、N個の音声フレームのVAD情報に基づき第1のマスキング閾値を補正して第2のマスキング閾値を得る。
ステップS104において、第2のマスキング閾値に基づき前記N個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得る。
ステップS101についてさらに説明すると、当該第1の音響特徴量は、FFTによる振幅スペクトル、MFCC、FBankまたはPLPのいずれか1種であってもよく、本発明はこれについて限定しない。実際には、N個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量が第1の音響特徴量ベクトルを構成し、当該ベクトルは、N個の音声フレームにそれぞれ対応する第1の音響特徴量であるN個の要素を含む。
ステップS102についてさらに説明すると、本発明においてニューラルネットワークアルゴリズムは、従来技術としてマスキング閾値(mask)を算出するために用いられるニューラルネットワークアルゴリズムであり、本発明はこれについて限定しない。
さらに、ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得る。当該第1のマスキング閾値は、N個の第1の音響特徴量に一対一で対応し、それぞれの値域が[0,1]であるN個の成分を含むベクトルである。
ステップS103についてさらに説明すると、VADは音声終点検出、音声境界検出とも称され、雑音が存在する環境の中で音声の有無を検出することを指す。一般的には、音声符号化や音声強調などの音声処理システムにおいて、音声符号化の速度を下げ、通信に使う帯域幅を削減し、モバイル機器の電力消費を削減し、認識率を高めるために用いられる。
本発明においてVADは、予め設定するか、または音声フレームの音声状態に基づき無音(silence)、または有音(phone)に決定してもよい。
ここにおいて、音声フレームの音声状態に基づきVADを決定する方法は、以下のとおりである。
任意選択的な実施形態1として、VAD情報はN個の音声フレームにおけるそれぞれの音声フレームに対応するVAD値を含む。なお、N個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するVAD値を0に設定し、逆の場合に、N個の音声フレームに有音フレームが含まれる場合に、当該無音フレームに対応するVAD値を0より大きく1以下とする。「無音フレーム」というのは音声状態が無音の音声フレームのことを指し、「有音フレーム」というのは音声状態が有音の音声フレームのことを指す。
任意選択的に、N個の音声フレームの音声区間検出(VAD)情報に基づき第1のマスキング閾値を補正するステップは、VAD情報と第1のマスキング閾値との積を算出して第2のマスキング閾値を得ること、またはVAD情報と、第1のマスキング閾値と、予め設定された係数との積を算出して第2のマスキング閾値を得ることを含む。本発明は、第2のマスキング閾値を得る方法について限定しない。当該第2のマスキング閾値も、N個の第1の音響特徴量に一対一で対応し、それぞれの値域が[0,1]であるN個の成分を含むベクトルであり、当該予め設定された係数は、0より大きく1以下としてもよい。
したがって、あるVAD値が0である場合に、対応する第2のマスキング閾値における成分も0となる。本発明において、このような補正方法をハード(hard)補正方法と称する。
任意選択的な実施形態2として、VAD情報はN個の音声フレームにおけるそれぞれの音声フレームに対応するVAD値を含む。これに対応して、図2に示す本発明のもう一つの実施例による音声処理方法のフローチャートにおいて、ステップS103の前に、当該音声処理方法は、ステップS1031およびステップS1032をさらに含む。
ステップS1031において、N個の音声フレームにおけるVAD値が1のM1個の音声フレームおよびM1個の音声フレームに隣接するVAD値が0のP1個の音声フレームを決定する。
ステップS1032において、M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値およびP1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、M2個の音声フレームおよびP2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させる。
ステップS1031についてさらに説明すると、M1およびP1はともに1より大きい正の整数であり、M1+P1=Nである。より詳しくは、まずN個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、前記音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定し、前記音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定する。
なお、本発明において、N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を決定するには「強制設定」という方法を用いることができる。「強制設定」というのは、各音声状態についてその開始時間および終了時間を決定し、例えば、特定の音声状態に対応する特定の音声フレームまたは複数の音声フレームを決定するという方法である。例えば、N個の音声フレームにおける始めからM1個の音声フレームを強制的に無音に設定し、M1個の音声フレーム以後のP1個の音声フレームを強制的に有音に設定する。ただし、N個の音声フレームにおける始めからM1個の音声フレームを強制的に無音に設定し、M1個の音声フレーム以後のP1個の音声フレームを強制的に有音に設定するのは一例に過ぎない。実際には、N個の音声フレームは、N1個の無音の音声フレーム、N2個の有音の音声フレーム、N3個の無音の音声フレーム……Nn個の有音の音声フレームで構成される(ただしN1+N2+……Nn=Nであり、N1、N2、……Nnはいずれも0以上の整数である)。本発明はこれについて限定しない。
ステップS1032についてさらに説明すると、1≦M2≦M1であり、1≦P2≦P1である。任意選択的に、ハミング窓関数、三角窓関数またはハニング窓関数によりM2およびP2を決定する。M2+P2=10であることが好ましい。図3は、本発明の一実施例におけるVAD値に対する平滑化処理を概略的に示す図である。図3に示すように、0番目の音声フレーム〜30番目の音声フレームは無音フレームであり、すなわちそれらに対応するVAD値は0であり、31番目の音声フレーム〜280番目の音声フレームは有音フレームであり、すなわちそれらに対応するVAD値は1であり、281番目の音声フレーム〜300番目の音声フレームはまた無音フレームであり、すなわちそれらに対応するVAD値は0である。20番目の音声フレーム〜40番目の音声フレームに対して平滑化処理を行う場合に、より詳しくは、20番目の音声フレームに対応する点の座標(20,0)および40番目の音声フレームに対応する点の座標(40,1)を決定して、この2点で直線を決定し、当該直線はすなわち20番目の音声フレーム〜40番目の音声フレームに対して平滑化処理を行った結果である。したがって、20番目の音声フレーム〜40番目の音声フレームはVAD値が0から少しずつ1に変化する。同様のように、260番目の音声フレーム〜290番目の音声フレームに対して平滑化処理を行う。より詳しくは、260番目の音声フレームに対応する点の座標(260,1)および290番目の音声フレームに対応する点の座標(290,1)を決定し、この2点で直線を決定し、当該直線はすなわち260番目の音声フレーム〜290番目の音声フレームに対して平滑化処理を行った結果である。したがって、260番目の音声フレーム〜290番目の音声フレームはVAD値が1から少しずつ0に変化する。
本発明において、このような任意選択的な実施形態2をソフト(soft)補正方法と称する。
ステップS104についてさらに説明すると、一つの任意選択的な実施形態として、第2のマスキング閾値に基づき前記N個の第1の音響特徴量に対して処理を行って、N個の第2の音響特徴量を得る。任意の第2の音響特徴量をestimate、当該第2の音響特徴量に対応する第1の音響特徴量をnoise、第2のマスキング閾値における当該第1の音響特徴量に対応する成分をhと表記すれば、estimate=noise*hとなる。ここで、「*」は積を表す。
もう一つの任意選択的な実施形態として、第2のマスキング閾値に基づき前記N個の第1の音響特徴量に対して処理を行って、1つの第2の音響特徴量を得る。当該第2の音響特徴量をestimate、N個の第1の音響特徴量をnoise(N)と表記し、noise(N)はN個の第1の音響特徴量で構成されるベクトルであり、第2のマスキング閾値における当該第1の音響特徴量に対応する成分をh(N)と表記すれば、estimate=noise(N)*(h(N))となる。ここで、「*」はベクトルの積を表し、(h(N))はh(N)の転置を表す。
以上を要約すると、本発明は音声処理方法を提供し、当該方法のカギとなる技術は、VAD情報に基づきマスキング閾値を補正することであり、これにより大量の離散的なマスキング閾値を除去し、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる。
図4は、本発明の一実施例による音声処理装置400を概略的に示す図である。図4に示すように、当該音声処理装置は、コンピュータ、タブレットパソコンまたは携帯電話の一つの部分または全体であってもよく、例えば当該装置は、コンピュータまたはプロセッサなどである。当該装置は、取得モジュール401と、トレーニングモジュール402と、補正モジュール403と、第1の処理モジュール404とを含む。
取得モジュール401は、N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得する。
トレーニングモジュール402は、ニューラルネットワークアルゴリズムを利用して、取得モジュール401の取得したN個の第1の音響特徴量から第1のマスキング閾値を得る。
補正モジュール403は、N個の音声フレームの音声区間検出(VAD)情報に基づきトレーニングモジュール402で得られた第1のマスキング閾値を補正して第2のマスキング閾値を得る。
第1の処理モジュール404は、補正モジュール403で得られた第2のマスキング閾値に基づきN個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得る。
任意選択的に、補正モジュール403は、VAD情報と第1のマスキング閾値との積を算出して第2のマスキング閾値を得る。
任意選択的に、VAD情報はそれぞれの音声フレームに対応するVAD値を含む。これに対応して、当該装置は、N個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するVAD値を0に設定する設定モジュール405をさらに含む。
任意選択的に、VAD情報はそれぞれの音声フレームに対応するVAD値を含む。
これに対応して、当該装置は、決定モジュール406および第2の処理モジュール407をさらに含む。
決定モジュール406は、N個の音声フレームにおけるVAD値が1のM1個の音声フレームおよびM1個の音声フレームに隣接するVAD値が0のP1個の音声フレームを決定し、ただしM1およびP1はともに1より大きい正の整数である。
第2の処理モジュール407は、M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値およびP1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、M2個の音声フレームおよびP2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させ、ただし1≦M2≦M1であり、1≦P2≦P1である。
任意選択的に、決定モジュール406は、N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定し、音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定する。
任意選択的に、ハミング窓関数、三角窓関数またはハニング窓関数によりM2およびP2を決定する。
以上を要約すると、本発明は、上記音声処理方法に用いることができる音声処理装置を提供し、その技術内容および効果については、方法に関する実施例の部分を参照されたい。
図5は、本発明の一実施例による音声処理デバイス500を概略的に示す図である。当該音声処理デバイスは、コンピュータ、タブレットパソコン、携帯電話などのスマート機器であってもよい。図5に示すように、当該デバイスはメモリ501と、プロセッサ502を含む。メモリ501は、プロセッサ502に上記音声処理方法を実行させるためのプロセッサ502用実行命令を記憶する。
メモリ501は、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)、電気的に消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read−Only Memory、EEPROM)、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read−Only Memory、EPROM)、プログラマブル読み取り専用メモリ(Programmable read−only memory、PROM)、読み出し専用メモリ(Read−Only Memory、ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたはコンパクトディスクなど任意の種類の揮発性もしくは不揮発性記憶機器、またはそれらの組み合わせであってもよい。
プロセッサ502は、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、デジタル信号プロセッサ(Digital Signal Processor、DSP)、デジタル信号処理デバイス(Digital Signal Processing Device、DSPD)、プログラマブルロジックデバイス(Programmable Logic Device、PLD)、フィールドプログラマブルゲートアレイ(Field−Programmable Gate Array、FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサを用いる1つ以上の電子部品や、その他の電子部品により実施することができる。
より詳しくは、プロセッサ502が、N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得するステップと、ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得るステップと、N個の音声フレームの音声区間検出(VAD)情報に基づき第1のマスキング閾値を補正して第2のマスキング閾値を得るステップと、第2のマスキング閾値に基づきN個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得るステップとを含む方法を実施するために用いられる。
任意選択的に、プロセッサ502はさらに、VAD情報と第1のマスキング閾値との積を算出して第2のマスキング閾値を得る。
任意選択的に、VAD情報はそれぞれの音声フレームに対応するVAD値を含む。これに対応して、プロセッサ502はさらに、N個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するVAD値を0に設定する。
任意選択的に、VAD情報はそれぞれの音声フレームに対応するVAD値を含む。プロセッサ502はさらに、N個の音声フレームにおけるVAD値が1のM1(ただしM1は1より大きい正の整数である)個の音声フレームおよびM1個の音声フレームに隣接するVAD値が0のP1(ただしP1は1より大きい正の整数である)個の音声フレームを決定し、M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値およびP1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、M2個の音声フレームおよびP2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させる。ただし1≦M2≦M1であり、1≦P2≦P1である。
任意選択的に、プロセッサ502は、N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音または有音に決定し、音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定し、音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定する。
任意選択的に、ハミング窓関数、三角窓関数またはハニング窓関数によりM2およびP2を決定する。
以上を要約すると、本発明は上記音声処理方法に用いることができる音声処理デバイスを提供し、その技術内容および効果については、方法に関する実施例の部分を参照されたい。
本発明は、上記音声処理方法を実施するためのコンピュータ実行可能命令を含む記憶媒体をさらに提供し、その技術内容および効果については、方法に関する実施例の部分を参照されたい。
本発明は、上記音声処理方法を実施するためのコンピュータ実行可能命令を含むコンピュータプログラム製品をさらに提供し、その技術内容および効果については、方法に関する実施例の部分を参照されたい。
当業者にとって自明なように、上記各方法の実施例を実施するステップの全部または一部は、コンピュータ読み取り可能な媒体に記憶されるプログラムによって、関連するハードウェアを指示することで実行することができる。当該プログラムを実行する時、上記各方法に関する実施例のステップを実行する。前記媒体はROM、RAM、磁気ディスク、コンパクトディスクなどプログラムコードを記憶可能な様々な媒体を含む。
なお、上記各実施例は、限定を加えるものではなく、本願に係る発明を説明するために用いるものに過ぎない。上記各実施例を踏まえて本発明を詳細に説明しているが、当業者は、上記各実施例に記載される発明に修正を加えたり、その一部または全ての技術的特徴に対して等価な入れ替えを行ったりすることもできる。これらの修正や入れ替えにより、本発明は本願の各実施例に係る発明から逸脱するものではない。

Claims (14)

  1. 音声処理方法であって、
    N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得するステップと、
    ニューラルネットワークアルゴリズムを利用してN個の前記第1の音響特徴量から第1のマスキング閾値を得るステップと、
    前記N個の音声フレームの音声区間検出(VAD)情報に基づき、前記第1のマスキング閾値を補正して第2のマスキング閾値を得るステップと、
    前記第2のマスキング閾値に基づき、N個の前記第1の音響特徴量に対して処理を行って第2の音響特徴量を得るステップと、
    を含むことを特徴とする音声処理方法。
  2. 前記N個の音声フレームのVAD情報に基づき、前記第1のマスキング閾値を補正する前記ステップは、
    前記VAD情報と前記第1のマスキング閾値との積を算出して前記第2のマスキング閾値を得ることを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記VAD情報は、それぞれの前記音声フレームに対応するVAD値を含み、
    前記N個の音声フレームに無音フレームが含まれる場合に、前記無音フレームに対応するVAD値を0に設定する、
    ことを特徴とする請求項1または2に記載の方法。
  4. 前記VAD情報は、それぞれの前記音声フレームに対応するVAD値を含み、
    これに応じて、前記N個の音声フレームのVAD情報に基づき前記第1のマスキング閾値を補正する前に、
    前記N個の音声フレームにおけるVAD値が1のM1(ただしM1は1より大きい正の整数である)個の音声フレームおよび前記M1個の音声フレームに隣接するVAD値が0のP1(ただしP1は1より大きい正の整数である)個の音声フレームを決定するステップと、
    前記M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値および前記P1個の音声フレームにおける前記M2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、前記M2個の音声フレームおよび前記P2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させるステップと、
    を含み、
    ただし1≦M2≦M1であり、1≦P2≦P1である、
    ことを特徴とする請求項1または2に記載の方法。
  5. 前記N個の音声フレームにおけるVAD値が1のM1個の音声フレームおよびVAD値が0のP1個の音声フレームを決定する前記ステップは、
    前記N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定することと、
    前記音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定することと、
    前記音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定することと
    を含むことを特徴とする請求項4に記載の方法。
  6. M2およびP2は、ハミング窓関数(hamming窓)、三角窓関数またはハニング窓関数(hanning窓)により決定される、
    ことを特徴とする請求項5に記載の方法。
  7. 音声処理装置であって、
    N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得するための取得モジュールと、
    ニューラルネットワークアルゴリズムを利用してN個の前記第1の音響特徴量から第1のマスキング閾値を得るためのトレーニングモジュールと、
    前記N個の音声フレームの音声区間検出(VAD)情報に基づき、前記第1のマスキング閾値を補正して第2のマスキング閾値を得るための補正モジュールと、
    前記第2のマスキング閾値に基づき、N個の前記第1の音響特徴量に対して処理を行って第2の音響特徴量を得るための第1の処理モジュールと、
    を含むことを特徴とする音声処理装置。
  8. 前記補正モジュールは、
    前記VAD情報と前記第1のマスキング閾値との積を算出して前記第2のマスキング閾値を得るのに用いられる、
    ことを特徴とする請求項7に記載の装置。
  9. 前記VAD情報は、それぞれの前記音声フレームに対応するVAD値を含み、
    これに応じて、前記装置はさらに、
    前記N個の音声フレームに無音フレームが含まれる場合に、前記無音フレームに対応するVAD値を0に設定するための設定モジュールを含む、
    ことを特徴とする請求項7または8に記載の装置。
  10. 前記VAD情報は、それぞれの前記音声フレームに対応するVAD値を含み、
    これに応じて、前記装置はさらに、
    前記N個の音声フレームにおけるVAD値が1のM1(ただしM1は1より大きい正の整数である)個の音声フレームおよび前記M1個の音声フレームに隣接するVAD値が0のP1(ただしP1は1より大きい正の整数である)個の音声フレームを決定するための決定モジュールと、
    前記M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値および前記P1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、前記M2個の音声フレームおよび前記P2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させるための第2の処理モジュールと、
    を含み、
    ただし1≦M2≦M1であり、1≦P2≦P1である、
    ことを特徴とする請求項7または8に記載の装置。
  11. 前記決定モジュールは、
    前記N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、
    前記音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定し、
    前記音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定するのに用いられる、
    ことを特徴とする請求項10に記載の装置。
  12. M2およびP2は、ハミング窓関数、三角窓関数またはハニング窓関数により決定される、ことを特徴とする請求項11に記載の装置。
  13. プロセッサと、前記プロセッサに請求項1〜6のいずれか一項に記載の方法を実行させるための前記プロセッサ用実行命令を記憶するメモリとを含むことを特徴とする音声処理デバイス。
  14. 請求項1〜6のいずれか一項に記載の方法を実施するためのコンピュータ実行可能命令を含むことを特徴とする記憶媒体。
JP2018244655A 2018-06-11 2018-12-27 音声処理方法、装置、デバイスおよび記憶媒体 Active JP6764923B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810595783.0 2018-06-11
CN201810595783.0A CN108806707B (zh) 2018-06-11 2018-06-11 语音处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2019215514A true JP2019215514A (ja) 2019-12-19
JP6764923B2 JP6764923B2 (ja) 2020-10-07

Family

ID=64088192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018244655A Active JP6764923B2 (ja) 2018-06-11 2018-12-27 音声処理方法、装置、デバイスおよび記憶媒体

Country Status (3)

Country Link
US (1) US10839820B2 (ja)
JP (1) JP6764923B2 (ja)
CN (1) CN108806707B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970046B (zh) * 2019-11-29 2022-03-11 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN111028858B (zh) * 2019-12-31 2022-02-18 云知声智能科技股份有限公司 一种人声起止时间检测方法及装置
US20210256993A1 (en) * 2020-02-18 2021-08-19 Facebook, Inc. Voice Separation with An Unknown Number of Multiple Speakers
CN116403564B (zh) * 2023-05-15 2023-09-26 清华大学 一种音频编辑方法及装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126859A (ja) * 2000-08-31 2006-05-18 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP2008129077A (ja) * 2006-11-16 2008-06-05 Matsushita Electric Ind Co Ltd ノイズ除去装置
WO2010089976A1 (ja) * 2009-02-09 2010-08-12 パナソニック株式会社 補聴器
JP2010204392A (ja) * 2009-03-03 2010-09-16 Nec Corp 雑音抑圧の方法、装置、及びプログラム
JP2017191332A (ja) * 2017-06-22 2017-10-19 株式会社Jvcケンウッド 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。
JP2018031967A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 音源強調装置、その方法、及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
RU2469419C2 (ru) * 2007-03-05 2012-12-10 Телефонактиеболагет Лм Эрикссон (Пабл) Способ и устройство для управления сглаживанием стационарного фонового шума
CN101621024B (zh) 2008-07-02 2013-06-19 楼氏电子(苏州)有限公司 崩片机及崩片方法
CN102456351A (zh) * 2010-10-14 2012-05-16 清华大学 一种语音增强的系统
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
CN102157156B (zh) * 2011-03-21 2012-10-10 清华大学 一种单通道语音增强的方法和系统
CN103325388B (zh) * 2013-05-24 2016-05-25 广州海格通信集团股份有限公司 基于最小能量小波框架的静音检测方法
CN103280225B (zh) * 2013-05-24 2015-07-01 广州海格通信集团股份有限公司 一种低复杂度的静音检测方法
US9997172B2 (en) * 2013-12-02 2018-06-12 Nuance Communications, Inc. Voice activity detection (VAD) for a coded speech bitstream without decoding
CN103778920B (zh) * 2014-02-12 2016-03-09 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
US20180277134A1 (en) * 2014-06-30 2018-09-27 Knowles Electronics, Llc Key Click Suppression
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
US10128890B2 (en) * 2014-09-09 2018-11-13 Ppip Llc Privacy and security systems and methods of use
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN107845389B (zh) * 2017-12-21 2020-07-17 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
US10553236B1 (en) * 2018-02-27 2020-02-04 Amazon Technologies, Inc. Multichannel noise cancellation using frequency domain spectrum masking

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126859A (ja) * 2000-08-31 2006-05-18 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP2008129077A (ja) * 2006-11-16 2008-06-05 Matsushita Electric Ind Co Ltd ノイズ除去装置
WO2010089976A1 (ja) * 2009-02-09 2010-08-12 パナソニック株式会社 補聴器
JP2010204392A (ja) * 2009-03-03 2010-09-16 Nec Corp 雑音抑圧の方法、装置、及びプログラム
JP2018031967A (ja) * 2016-08-26 2018-03-01 日本電信電話株式会社 音源強調装置、その方法、及びプログラム
JP2017191332A (ja) * 2017-06-22 2017-10-19 株式会社Jvcケンウッド 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
溝口聡,外3名: "カートシスマッチングに基づく低ミュージカルノイズDNN音声強調の評価", 電子情報通信学会技術研究報告, vol. 第118巻,第312号, JPN6020006282, 14 November 2018 (2018-11-14), JP, pages 19 - 24, ISSN: 0004217532 *

Also Published As

Publication number Publication date
CN108806707A (zh) 2018-11-13
CN108806707B (zh) 2020-05-12
JP6764923B2 (ja) 2020-10-07
US20190378529A1 (en) 2019-12-12
US10839820B2 (en) 2020-11-17

Similar Documents

Publication Publication Date Title
JP6764923B2 (ja) 音声処理方法、装置、デバイスおよび記憶媒体
EP2979358B1 (en) Volume leveler controller and controlling method
EP3598448B1 (en) Apparatuses and methods for audio classifying and processing
EP3232567B1 (en) Equalizer controller and controlling method
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US9530427B2 (en) Speech processing
JP6169849B2 (ja) 音響処理装置
WO2020224217A1 (zh) 语音处理方法、装置、计算机设备及存储介质
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
Sadjadi et al. Blind spectral weighting for robust speaker identification under reverberation mismatch
WO2016135741A1 (en) A method and system for suppressing noise in speech signals in hearing aids and speech communication devices
EP3685378A1 (en) Signal processor and method for providing a processed audio signal reducing noise and reverberation
CN113571047A (zh) 一种音频数据的处理方法、装置及设备
WO2015132798A2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
Waddi et al. Speech enhancement using spectral subtraction and cascaded-median based noise estimation for hearing impaired listeners
JP2000330597A (ja) 雑音抑圧装置
JP2023536104A (ja) 機械学習を用いたノイズ削減
JPH11296192A (ja) 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体
US11308970B2 (en) Voice correction apparatus and voice correction method
CN112489692A (zh) 语音端点检测方法和装置
CN116057626A (zh) 使用机器学习的降噪
CN116312606A (zh) 高频噪声的抑制方法、装置、终端设备及存储介质
Hydari et al. Speech Signals Enhancement Using LPC Analysis based on Inverse Fourier Methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200914

R150 Certificate of patent or registration of utility model

Ref document number: 6764923

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250