JP2017506767A5 - - Google Patents

Download PDF

Info

Publication number
JP2017506767A5
JP2017506767A5 JP2016554210A JP2016554210A JP2017506767A5 JP 2017506767 A5 JP2017506767 A5 JP 2017506767A5 JP 2016554210 A JP2016554210 A JP 2016554210A JP 2016554210 A JP2016554210 A JP 2016554210A JP 2017506767 A5 JP2017506767 A5 JP 2017506767A5
Authority
JP
Japan
Prior art keywords
utterance
dictionary
noise
signal
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016554210A
Other languages
English (en)
Other versions
JP2017506767A (ja
Filing date
Publication date
Priority claimed from US14/629,109 external-priority patent/US10013975B2/en
Application filed filed Critical
Publication of JP2017506767A publication Critical patent/JP2017506767A/ja
Publication of JP2017506767A5 publication Critical patent/JP2017506767A5/ja
Pending legal-status Critical Current

Links

Claims (13)

  1. 電子デバイスによる発話モデル化のための方法であって、
    雑音のある発話スペクトルXを取得するステップと、
    前記雑音のある発話スペクトルの中の雑音を表す、リアルタイムの雑音基準を取得するステップと、
    前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書Wnを取得するステップと、
    第1の発話辞書Ws1および第2の発話辞書Ws2を取得するステップと、
    前記第1の発話辞書Ws1に発話有効化重みHsを乗じたものと、前記リアルタイム雑音辞書Wnに雑音有効化重みHnを乗じたものとに基づいて、非負値行列因子分解(NMF)ベースのウィーナーフィルタを生成するステップと、
    第1のモデル化段階において、前記NMFベースのウィーナーフィルタに基づいて残余雑音を低減して、前記第1の発話辞書Ws1および前記発話有効化重みHsへのウィーナーフィルタを用いて、残余雑音抑制発話信号Xwfを生成するステップと、
    第2のモデル化段階において、NMFベースの信号を復元を実施して、前記残余雑音抑制発話信号Xwfおよび前記第2の発話辞書Ws2に基づいて、再構築された発話信号Xrcを生成するステップと、
    前記再構築された発話信号Xrcを、再構築誤差が閾値を下回ることに基づいて出力発話信号として選択し、前記残余雑音抑制発話信号Xwfを、前記再構築誤差が閾値を上回ることに基づいて前記出力発話信号として選択するステップと、
    とを備える、方法。
  2. 残余雑音を低減するステップが、
    前記第1の発話辞書Ws1および前記リアルタイム雑音辞書Wnを備える、発話および雑音辞書を確定するステップと、
    前記発話辞書および前記雑音辞書に第1の有効化の重み乗ずるステップと、
    収束するまで前記有効化の重みを更新するステップとを備える、請求項1に記載の方法。
  3. 前記残余雑音を低減するステップが、
    前記NMFベースのフィルタおよび事前増強された入力に基づいて、前記残余雑音抑制発話信号Xwfを推定するステップとを備える、請求項1に記載の方法。
  4. 前記再構築された発話信号を生成するステップが、
    サブバンド音高固有辞書を確定するステップであって、前記サブバンド音高固有辞書は1組のサブバンド音高固有辞書のうち1つである、ステップと、
    音高固有辞書を定義するステップと、
    収束するまで有効化の重みを更新するステップと、
    前記音高固有辞書前記有効化の重みを乗じたものに基づいて、前記再構築された発話信号を生成するステップとを備える、請求項1に記載の方法。
  5. 話者の音高に基づいて、話者固有辞書から前記音高固有辞書を決定するステップと、
    前記サブバンド音高固有辞書のビンごとの信号対雑音比(SNR)が閾値より大きいことに基づいて、前記音高固有辞書から前記サブバンド音高固有辞書を決定するステップとをさらに備える、請求項4に記載の方法。
  6. 前記第1の発話辞書Ws1および前記第2の発話辞書Ws2が、話者固有の発話辞書に基づく、請求項1に記載の方法。
  7. 前記第1の発話辞書Ws1を取得するステップが、
    複数の有効化係数および発話基底関数を初期化するステップと、
    収束するまでパラメータを更新するステップとを備える、請求項1に記載の方法。
  8. 前記第2の発話辞書Ws2を取得するステップが、
    複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
    前記話者固有の発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
    前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項1に記載の方法。
  9. 発話モデル化のためのコンピュータプログラムであって、請求項1乃至8の何れか1項に記載の方法を実施するためのコードを含む命令を含む、コンピュータプログラム
  10. 発話モデル化のための装置であって、
    雑音のある発話スペクトルXを取得するための手段と、
    前記雑音のある発話スペクトルの中の雑音を表す、リアルタイムの雑音基準を取得するための手段と、
    前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書Wnを取得するための手段と、
    第1の発話辞書Ws1および第2の発話辞書Ws2を取得するための手段と、
    前記第1の発話辞書Ws1に発話有効化重みHsを乗じたものと、前記リアルタイム雑音辞書Wnに雑音有効化重みHnを乗じたものとに基づいて、非負値行列因子分解(NMF)ベースのウィーナーフィルタを生成するための手段と、
    第1のモデル化段階において、前記NMFベースのウィーナーフィルタに基づいて残余雑音を低減して、前記第1の発話辞書Ws1および前記発話有効化重みHsへのウィーナーフィルタを用いて、残余雑音抑制発話信号Xwfを生成するための手段と、
    第2のモデル化段階において、NMFベースの信号を復元を実施して、前記残余雑音抑制発話信号Xwfおよび前記第2の発話辞書Ws2に基づいて、再構築された発話信号Xrcを生成するための手段と、
    前記再構築された発話信号Xrcを、再構築誤差が閾値を下回ることに基づいて出力発話信号として選択し、前記残余雑音抑制発話信号Xwfを、前記再構築誤差が閾値を上回ることに基づいて前記出力発話信号として選択するための手段と、
    とを備える、装置。
  11. 前記再構築された発話信号を生成するための前記手段が、
    サブバンド音高固有辞書を確定するための手段と、
    収束するまで有効化係数を更新するための手段と、
    音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するための手段とを備える、請求項10に記載の装置。
  12. 前記第1の発話辞書Ws1を取得するための前記手段が、
    複数の有効化係数および発話基底関数を初期化するための手段と、
    収束するまでパラメータを更新するための手段とを備える、請求項10に記載の装置。
  13. 前記第2の発話辞書Ws2を取得するための前記手段が、
    複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するための手段と、
    前記話者固有の発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するための手段と、
    前記選択された発話スペクトルの各々を対応する音高によって標識するための手段とを備える、請求項10に記載の装置。
JP2016554210A 2014-02-27 2015-02-24 話者辞書に基づく発話モデル化のためのシステムおよび方法 Pending JP2017506767A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461945691P 2014-02-27 2014-02-27
US61/945,691 2014-02-27
US14/629,109 US10013975B2 (en) 2014-02-27 2015-02-23 Systems and methods for speaker dictionary based speech modeling
US14/629,109 2015-02-23
PCT/US2015/017336 WO2015130685A1 (en) 2014-02-27 2015-02-24 Systems and methods for speaker dictionary based speech modeling

Publications (2)

Publication Number Publication Date
JP2017506767A JP2017506767A (ja) 2017-03-09
JP2017506767A5 true JP2017506767A5 (ja) 2018-03-29

Family

ID=53882822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016554210A Pending JP2017506767A (ja) 2014-02-27 2015-02-24 話者辞書に基づく発話モデル化のためのシステムおよび方法

Country Status (6)

Country Link
US (1) US10013975B2 (ja)
EP (1) EP3111445B1 (ja)
JP (1) JP2017506767A (ja)
KR (1) KR20160125984A (ja)
CN (1) CN106030705A (ja)
WO (1) WO2015130685A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536537B2 (en) * 2015-02-27 2017-01-03 Qualcomm Incorporated Systems and methods for speech restoration
EP3387648B1 (en) * 2015-12-22 2020-02-12 Huawei Technologies Duesseldorf GmbH Localization algorithm for sound sources with known statistics
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
US10667069B2 (en) 2016-08-31 2020-05-26 Dolby Laboratories Licensing Corporation Source separation for reverberant environment
US10528147B2 (en) 2017-03-06 2020-01-07 Microsoft Technology Licensing, Llc Ultrasonic based gesture recognition
US10276179B2 (en) * 2017-03-06 2019-04-30 Microsoft Technology Licensing, Llc Speech enhancement with low-order non-negative matrix factorization
US10984315B2 (en) 2017-04-28 2021-04-20 Microsoft Technology Licensing, Llc Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
US10811030B2 (en) * 2017-09-12 2020-10-20 Board Of Trustees Of Michigan State University System and apparatus for real-time speech enhancement in noisy environments
CN108145974B (zh) * 2017-12-29 2020-04-07 深圳职业技术学院 一种基于语音识别的3d打印成型的方法及系统
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN108986834B (zh) * 2018-08-22 2023-04-07 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
US11227621B2 (en) 2018-09-17 2022-01-18 Dolby International Ab Separating desired audio content from undesired content
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
KR20210008788A (ko) 2019-07-15 2021-01-25 삼성전자주식회사 전자 장치 및 그 제어 방법
US11710492B2 (en) * 2019-10-02 2023-07-25 Qualcomm Incorporated Speech encoding using a pre-encoded database
CN111383652B (zh) * 2019-10-25 2023-09-12 南京邮电大学 一种基于双层字典学习的单通道语音增强方法
WO2021092236A1 (en) * 2019-11-05 2021-05-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for deconvoluting tumor ecosystems for personalized cancer therapy
CN112141837A (zh) * 2020-09-08 2020-12-29 金陵科技学院 一种基于多层字典学习的智能语音电梯系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571821B2 (ja) 1995-09-13 2004-09-29 株式会社東芝 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
KR20060090995A (ko) * 2003-10-23 2006-08-17 마쓰시다 일렉트릭 인더스트리얼 컴패니 리미티드 스펙트럼 부호화 장치, 스펙트럼 복호화 장치, 음향 신호송신 장치, 음향 신호 수신장치 및 이들의 방법
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US7734462B2 (en) * 2005-09-02 2010-06-08 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
DK1760696T3 (en) 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
US7873064B1 (en) * 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
US8494842B2 (en) * 2007-11-02 2013-07-23 Soundhound, Inc. Vibrato detection modules in a system for automatic transcription of sung or hummed melodies
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device
US8554553B2 (en) 2011-02-21 2013-10-08 Adobe Systems Incorporated Non-negative hidden Markov modeling of signals
JP5543023B2 (ja) * 2011-05-24 2014-07-09 三菱電機株式会社 目的音強調装置およびカーナビゲーションシステム
US8812322B2 (en) * 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
US8775167B2 (en) * 2011-09-26 2014-07-08 Adobe Systems Incorporated Noise-robust template matching
RU2611973C2 (ru) * 2011-10-19 2017-03-01 Конинклейке Филипс Н.В. Ослабление шума в сигнале
RU2616534C2 (ru) * 2011-10-24 2017-04-17 Конинклейке Филипс Н.В. Ослабление шума при передаче аудиосигналов
WO2013138747A1 (en) * 2012-03-16 2013-09-19 Yale University System and method for anomaly detection and extraction
CN102915742B (zh) 2012-10-30 2014-07-30 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
US9324338B2 (en) * 2013-10-22 2016-04-26 Mitsubishi Electric Research Laboratories, Inc. Denoising noisy speech signals using probabilistic model
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
US9553681B2 (en) * 2015-02-17 2017-01-24 Adobe Systems Incorporated Source separation using nonnegative matrix factorization with an automatically determined number of bases

Similar Documents

Publication Publication Date Title
JP2017506767A5 (ja)
Kumar et al. Delta-spectral cepstral coefficients for robust speech recognition
US10741192B2 (en) Split-domain speech signal enhancement
EP3111445B1 (en) Systems and methods for speaker dictionary based speech modeling
US20150081287A1 (en) Adaptive noise reduction for high noise environments
JP2013527493A5 (ja)
Juvela et al. Speaker-independent raw waveform model for glottal excitation
US20230162758A1 (en) Systems and methods for speech enhancement using attention masking and end to end neural networks
WO2014079484A1 (en) Method for determining a dictionary of base components from an audio signal
Lyubimov et al. Non-negative matrix factorization with linear constraints for single-channel speech enhancement
Mowlaee et al. On phase importance in parameter estimation in single-channel speech enhancement
Moritz et al. Noise robust distant automatic speech recognition utilizing NMF based source separation and auditory feature extraction
US20130253920A1 (en) Method and apparatus for robust speaker and speech recognition
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
JP2023536104A (ja) 機械学習を用いたノイズ削減
Sharma et al. Automatic speech recognition systems: challenges and recent implementation trends
Loweimi et al. Statistical normalisation of phase-based feature representation for robust speech recognition
US9224402B2 (en) Wideband speech parameterization for high quality synthesis, transformation and quantization
US20170323656A1 (en) Signal processor
Wang et al. Task-aware warping factors in mask-based speech enhancement
Borgstrom et al. A unified framework for designing optimal STSA estimators assuming maximum likelihood phase equivalence of speech and noise
Rahman et al. Performance evaluation of MLPC and MFCC for HMM based noisy speech recognition
Baniardalan et al. A weighted denoising auto-encoder applied to Mel sub-bands for robust speech recognition
Samui et al. FPGA implementation of a phase-aware single-channel speech enhancement system
Lyubimov et al. Exploiting non-negative matrix factorization with linear constraints in noise-robust speaker identification