JP2017506767A - 話者辞書に基づく発話モデル化のためのシステムおよび方法 - Google Patents
話者辞書に基づく発話モデル化のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2017506767A JP2017506767A JP2016554210A JP2016554210A JP2017506767A JP 2017506767 A JP2017506767 A JP 2017506767A JP 2016554210 A JP2016554210 A JP 2016554210A JP 2016554210 A JP2016554210 A JP 2016554210A JP 2017506767 A JP2017506767 A JP 2017506767A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- utterance
- noise
- speech signal
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 122
- 230000001629 suppression Effects 0.000 claims abstract description 121
- 239000011295 pitch Substances 0.000 claims description 122
- 230000004913 activation Effects 0.000 claims description 53
- 238000001228 spectrum Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 43
- 238000004891 communication Methods 0.000 claims description 19
- 238000010200 validation analysis Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 29
- 238000012545 processing Methods 0.000 description 25
- 238000007781 pre-processing Methods 0.000 description 23
- 238000000926 separation method Methods 0.000 description 23
- 238000001914 filtration Methods 0.000 description 21
- 102000016550 Complement Factor H Human genes 0.000 description 14
- 108010053085 Complement Factor H Proteins 0.000 description 14
- 238000012549 training Methods 0.000 description 14
- 230000009467 reduction Effects 0.000 description 13
- 230000001771 impaired effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Abstract
Description
本出願は、2014年2月27日に出願された米国仮特許出願第61/945,691号、「SYSTEMS AND METHODS FOR SPEAKER DICTIONARY BASED SPEECH MODELING」に関し、その優先権を主張する。
104 雑音のある発話信号
106 リアルタイム雑音基準決定モジュール
108 リアルタイム雑音基準
110 リアルタイム雑音辞書決定モジュール
112 リアルタイム雑音辞書
114 第1の発話辞書
116 残余雑音低減モジュール
118 残余雑音抑制発話信号
120 第2の発話辞書
122 再構築モジュール
124 再構築された発話信号
126 第1のモデル化段階
128 第2のモデル化段階
200 方法
304 入力
312 リアルタイム雑音辞書
314 第1の発話辞書Ws1
318 残余雑音抑制発話信号
320 第2の発話辞書Ws2
324 再構築された発話信号
326 第1のモデル化段階
328 第2のモデル化段階
330 前処理モジュール
332 事前増強された入力
334 話者認識モジュール
336 発話辞書選択モジュール
338 話者固有発話辞書
340 Nに基づく発話/雑音モデル化モジュール
342 再構築誤差
344 信号選択モジュール
346 出力
348 オフライン辞書学習モジュール
350 話者辞書データベース
352 雑音抑制モジュール
402 電子デバイス
404 雑音のある発話信号
406 リアルタイム雑音基準決定モジュール
408 リアルタイムの雑音基準
410 リアルタイム雑音辞書決定モジュール
412 リアルタイム雑音辞書
414 第1の発話辞書
416 残余雑音低減モジュール
418 残余雑音抑制発話信号
420 第2の発話辞書
424 再構築された発話信号
452 第1の発話辞書生成モジュール
454 第2の発話辞書生成モジュール
456 音高決定モジュール
458 音高固有辞書決定モジュール
460 サブバンド音高固有辞書決定モジュール
462 サブバンド決定モジュール
464 発話モデル化および再構築モジュール
500 方法
666 周波数
668 時間
766 周波数
768 時間
770 残余雑音
772 欠けている高調波倍音および損なわれた発話エンベロープ
866 周波数
868 時間
966 周波数
968 時間
1004 雑音のある発話
1008 リアルタイムの適合された雑音基準
1010 雑音辞書モジュール
1024 増強された発話
1032 NS発話大きさのスペクトル
1034 声紋モジュール
1036 発話辞書モジュール
1040 NMFに基づく発話/雑音モデル化モジュール
1048 清澄な話者固有辞書訓練モジュール
1050 話者固有辞書データベース
1052 雑音抑制モジュール
1166a 周波数
1166b 周波数
1166c 周波数
1166d 周波数
1168b 時間
1168c 時間
1168d 時間
1168e 時間
1174a グラフA
1174b グラフB
1174c グラフC
1174d グラフD
1174e グラフE
1176 辞書番号
1178 辞書番号
1204 入力
1212 リアルタイム雑音辞書
1214 低ランク発話辞書Ws1
1220 音高エンベロープ固有発話辞書Ws2
1224 再構築された発話信号
1226 第1のモデル化段階
1228 第2のモデル化段階
1230 前処理モジュール
1232 事前増強された入力
1234 話者認識モジュール
1236 発話辞書選択モジュール
1238 話者固有発話辞書
1240 NMFに基づく発話/雑音モデル化モジュール
1242 再構築誤差
1244 信号選択モジュール
1246 出力
1248 オフライン辞書学習モジュール
1250 話者辞書データベース
1252 雑音抑制モジュール
1314 第1の発話辞書
1380 話者固有の清澄な発話の大きさのスペクトル
1382 NMFに基づく発話辞書学習モジュール
1484 周波数
1486 辞書の番号
1520 第2の発話辞書
1580 話者固有の清澄な発話の大きさのスペクトル
1588 音高/調波性推定モジュール
1701 辞書
1703 ソース分離モジュール
1704 入力
1705 管理されたNMF発話分離
1707 再構築モジュール
1709 Wienerフィルタリング発話再構築モジュール
1711 有効化係数H
1712 雑音辞書
1713 初期化されたH
1714 第1の発話辞書
1715 適合されたH
1718 出力発話の大きさ
1728 第2のモデル化段階
1730 前処理モジュール
1732 事前増強された入力
1750 話者固有辞書データベース
1752 雑音抑制モジュール
1804 入力
1808 雑音基準
1812 雑音辞書
1817 FFT
1819 NS出力の位相
1821 NS出力の大きさ
1823 主要チャネル入力X
1830 前処理
1832 事前増強された入力
1852 雑音抑制
1901 辞書
1903 分離モジュール
1905 管理されたNMF発話分離
1911 有効化係数
1912 雑音辞書
1913 初期化されたH
1914 発話辞書
1915 適合されたH
1932 事前に増強された入力
2001 辞書
2007 再構築モジュール
2009 Wienerフィルタリング発話再構築モジュール
2011 適合された有効化係数
2012 雑音辞書
2014 発話辞書
2018 出力発話の大きさ
2025 発話有効化係数
2027 雑音有効化係数
2032 事前に増強された入力
2104 主要入力
2118 損なわれた発話の大きさ
2126 第1の段階の処理
2129 NS出力
2131 音高固有辞書
2133 サブバンド発話の大きさ
2135 サブバンド音高固有辞書
2137 管理されたサブバンドNMF発話モデル化モジュール
2138 話者固有辞書
2139 適合されたH
2141 発話再構築モジュール
2142 再構築誤差
2144 最終的な増強された発話
2148 オフライン辞書学習
2150 話者辞書データベース
2156 音高推定モジュール
2162 ビンごとのSNR
2202 ワイヤレス通信デバイス
2243 スピーカー
2245 イヤピース
2247 出力ジャック
2249 マイクロフォン
2251 オーディオコーデック
2253 アプリケーションプロセッサ
2255 ベースバンドプロセッサ
2257 高周波送受信機
2259 電力増幅器
2261 アンテナ
2263 電力管理回路
2265 電池
2267 入力デバイス
2269 出力デバイス
2271 アプリケーションメモリ
2273 ディスプレイコントローラ
2275 ディスプレイ
2277 ベースバンドメモリ
2302 電子デバイス
2379 メモリ
2381 データ
2381a データ
2383 命令
2385 バスシステム
2387 アンテナ
2389 送受信機
2391 送信機
2393 受信機
2395 プロセッサ
2395a 命令
Claims (30)
- 電子デバイスによる発話モデル化のための方法であって、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するステップと、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するステップと、
第1の発話辞書および第2の発話辞書を取得するステップと、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減するステップと、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成するステップとを備える、方法。 - 前記第1のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項1に記載の方法。
- 前記第2のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項1に記載の方法。
- 残余雑音を低減するステップが、
前記第1の発話辞書および前記リアルタイム雑音辞書を備える、発話および雑音辞書を確定するステップと、
有効化係数を初期化するステップと、
収束するまで前記有効化係数を更新するステップとを備える、請求項1に記載の方法。 - 前記残余雑音を低減するステップが、
前記第1の発話辞書、前記リアルタイム雑音辞書、適応された発話有効化係数、および適応された雑音有効化係数に基づいて、フィルタを作成するステップと、
前記フィルタおよび事前増強された入力に基づいて、前記残余雑音抑制発話信号を推定するステップとを備える、請求項1に記載の方法。 - 前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項1に記載の方法。 - 音高に基づいて、話者固有辞書から前記音高固有辞書を決定するステップと、
ビンごとの信号対雑音比(SNR)に基づいて、前記音高固有辞書から前記サブバンド音高固有辞書を決定するステップとをさらに備える、請求項6に記載の方法。 - 再構築誤差に基づいて、前記再構築された発話信号および前記残余雑音抑制発話信号から出力発話信号を選択するステップをさらに備える、請求項1に記載の方法。
- 前記第1の発話辞書および前記第2の発話辞書が、話者固有発話辞書に基づく、請求項1に記載の方法。
- 前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項1に記載の方法。 - 前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項1に記載の方法。 - 発話モデル化のための電子デバイスであって、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
前記メモリに記憶された命令とを備え、前記命令が、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得し、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得し、
第1の発話辞書および第2の発話辞書を取得し、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減し、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成する
ように実行可能である、電子デバイス。 - 前記第1のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項12に記載の電子デバイス。
- 前記第2のモデル化段階が非負値行列因子分解(NMF)に基づく、請求項12に記載の電子デバイス。
- 残余雑音を低減するステップが、
前記第1の発話辞書および前記リアルタイム雑音辞書を備える、発話および雑音辞書を確定するステップと、
有効化係数を初期化するステップと、
収束するまで前記有効化係数を更新するステップとを備える、請求項12に記載の電子デバイス。 - 前記残余雑音を低減するステップが、
前記第1の発話辞書、前記リアルタイム雑音辞書、適応された発話有効化係数、および適応された雑音有効化係数に基づいて、フィルタを作成するステップと、
前記フィルタおよび事前増強された入力に基づいて、前記残余雑音抑制発話信号を推定するステップとを備える、請求項12に記載の電子デバイス。 - 前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項12に記載の電子デバイス。 - 前記命令がさらに、
音高に基づいて、話者固有辞書から前記音高固有辞書を決定し、
ビンごとの信号対雑音比(SNR)に基づいて、前記音高固有辞書から前記サブバンド音高固有辞書を決定するように実行可能である、請求項17に記載の電子デバイス。 - 前記命令がさらに、再構築誤差に基づいて、前記再構築された発話信号および前記残余雑音抑制発話信号から出力発話信号を選択するように実行可能である、請求項12に記載の電子デバイス。
- 前記第1の発話辞書および前記第2の発話辞書が、話者固有発話辞書に基づく、請求項12に記載の電子デバイス。
- 前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項12に記載の電子デバイス。 - 前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項12に記載の電子デバイス。 - 発話モデル化のためのコンピュータプログラム製品であって、命令を有する非一時的有形コンピュータ可読媒体を備え、前記命令が、
電子デバイスに、雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得させるためのコードと、
前記電子デバイスに、前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得させるためのコードと、
前記電子デバイスに、第1の発話辞書および第2の発話辞書を取得させるためのコードと、
前記電子デバイスに、第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減させるためのコードと、
前記電子デバイスに、第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて、再構築された発話信号を生成させるためのコードとを備える、コンピュータプログラム製品。 - 前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップと、
収束するまで有効化係数を更新するステップと、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するステップとを備える、請求項23に記載のコンピュータプログラム製品。 - 前記第1の発話辞書を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項23に記載のコンピュータプログラム製品。 - 前記第2の発話辞書を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項23に記載のコンピュータプログラム製品。 - 発話モデル化のための装置であって、
雑音のある発話信号に基づいて、リアルタイムの雑音基準を取得するための手段と、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書を取得するための手段と、
第1の発話辞書および第2の発話辞書を取得するための手段と、
第1のモデル化段階において、残余雑音抑制発話信号を生成するために、前記リアルタイム雑音辞書および前記第1の発話辞書に基づいて残余雑音を低減するための手段と、
第2のモデル化段階において、前記残余雑音抑制発話信号および前記第2の発話辞書に基づいて再構築された発話信号を生成するための手段とを備える、装置。 - 前記再構築された発話信号を生成するための前記手段が、
サブバンド音高固有辞書を確定するための手段と、
収束するまで有効化係数を更新するための手段と、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するための手段とを備える、請求項27に記載の装置。 - 前記第1の発話辞書を取得するための前記手段が、
複数の有効化係数および発話基底関数を初期化するための手段と、
収束するまでパラメータを更新するための手段とを備える、請求項27に記載の装置。 - 前記第2の発話辞書を取得するための前記手段が、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するための手段と、
前記話者固有発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するための手段と、
前記選択された発話スペクトルの各々を対応する音高によって標識するための手段とを備える、請求項27に記載の装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461945691P | 2014-02-27 | 2014-02-27 | |
US61/945,691 | 2014-02-27 | ||
US14/629,109 US10013975B2 (en) | 2014-02-27 | 2015-02-23 | Systems and methods for speaker dictionary based speech modeling |
US14/629,109 | 2015-02-23 | ||
PCT/US2015/017336 WO2015130685A1 (en) | 2014-02-27 | 2015-02-24 | Systems and methods for speaker dictionary based speech modeling |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017506767A true JP2017506767A (ja) | 2017-03-09 |
JP2017506767A5 JP2017506767A5 (ja) | 2018-03-29 |
Family
ID=53882822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016554210A Pending JP2017506767A (ja) | 2014-02-27 | 2015-02-24 | 話者辞書に基づく発話モデル化のためのシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10013975B2 (ja) |
EP (1) | EP3111445B1 (ja) |
JP (1) | JP2017506767A (ja) |
KR (1) | KR20160125984A (ja) |
CN (1) | CN106030705A (ja) |
WO (1) | WO2015130685A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536537B2 (en) * | 2015-02-27 | 2017-01-03 | Qualcomm Incorporated | Systems and methods for speech restoration |
WO2017108097A1 (en) * | 2015-12-22 | 2017-06-29 | Huawei Technologies Duesseldorf Gmbh | Localization algorithm for sound sources with known statistics |
CN106971741B (zh) * | 2016-01-14 | 2020-12-01 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
EP3507993B1 (en) | 2016-08-31 | 2020-11-25 | Dolby Laboratories Licensing Corporation | Source separation for reverberant environment |
US10528147B2 (en) | 2017-03-06 | 2020-01-07 | Microsoft Technology Licensing, Llc | Ultrasonic based gesture recognition |
US10276179B2 (en) * | 2017-03-06 | 2019-04-30 | Microsoft Technology Licensing, Llc | Speech enhancement with low-order non-negative matrix factorization |
US10984315B2 (en) | 2017-04-28 | 2021-04-20 | Microsoft Technology Licensing, Llc | Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person |
CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
US10811030B2 (en) * | 2017-09-12 | 2020-10-20 | Board Of Trustees Of Michigan State University | System and apparatus for real-time speech enhancement in noisy environments |
CN108145974B (zh) * | 2017-12-29 | 2020-04-07 | 深圳职业技术学院 | 一种基于语音识别的3d打印成型的方法及系统 |
CN109273021B (zh) * | 2018-08-09 | 2021-11-30 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
CN108986834B (zh) * | 2018-08-22 | 2023-04-07 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
US11227621B2 (en) | 2018-09-17 | 2022-01-18 | Dolby International Ab | Separating desired audio content from undesired content |
KR20210008788A (ko) | 2019-07-15 | 2021-01-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11710492B2 (en) * | 2019-10-02 | 2023-07-25 | Qualcomm Incorporated | Speech encoding using a pre-encoded database |
CN111383652B (zh) * | 2019-10-25 | 2023-09-12 | 南京邮电大学 | 一种基于双层字典学习的单通道语音增强方法 |
US20230027353A1 (en) * | 2019-11-05 | 2023-01-26 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Deconvoluting Tumor Ecosystems for Personalized Cancer Therapy |
CN112141837A (zh) * | 2020-09-08 | 2020-12-29 | 金陵科技学院 | 一种基于多层字典学习的智能语音电梯系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132245A1 (en) * | 2007-11-19 | 2009-05-21 | Wilson Kevin W | Denoising Acoustic Signals using Constrained Non-Negative Matrix Factorization |
US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
JPWO2012160602A1 (ja) * | 2011-05-24 | 2014-07-31 | 三菱電機株式会社 | 目的音強調装置およびカーナビゲーションシステム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3571821B2 (ja) | 1995-09-13 | 2004-09-29 | 株式会社東芝 | 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 |
US7171357B2 (en) * | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
BRPI0415464B1 (pt) * | 2003-10-23 | 2019-04-24 | Panasonic Intellectual Property Management Co., Ltd. | Aparelho e método de codificação de espectro. |
US7725314B2 (en) * | 2004-02-16 | 2010-05-25 | Microsoft Corporation | Method and apparatus for constructing a speech filter using estimates of clean speech and noise |
US7734462B2 (en) * | 2005-09-02 | 2010-06-08 | Nortel Networks Limited | Method and apparatus for extending the bandwidth of a speech signal |
EP1760696B1 (en) | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
US7873064B1 (en) * | 2007-02-12 | 2011-01-18 | Marvell International Ltd. | Adaptive jitter buffer-packet loss concealment |
US8468014B2 (en) * | 2007-11-02 | 2013-06-18 | Soundhound, Inc. | Voicing detection modules in a system for automatic transcription of sung or hummed melodies |
US8874441B2 (en) * | 2011-01-19 | 2014-10-28 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
US8554553B2 (en) | 2011-02-21 | 2013-10-08 | Adobe Systems Incorporated | Non-negative hidden Markov modeling of signals |
US8812322B2 (en) * | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
US9966088B2 (en) * | 2011-09-23 | 2018-05-08 | Adobe Systems Incorporated | Online source separation |
US8775167B2 (en) * | 2011-09-26 | 2014-07-08 | Adobe Systems Incorporated | Noise-robust template matching |
WO2013057659A2 (en) * | 2011-10-19 | 2013-04-25 | Koninklijke Philips Electronics N.V. | Signal noise attenuation |
CN103999155B (zh) * | 2011-10-24 | 2016-12-21 | 皇家飞利浦有限公司 | 音频信号噪声衰减 |
WO2013138747A1 (en) * | 2012-03-16 | 2013-09-19 | Yale University | System and method for anomaly detection and extraction |
CN102915742B (zh) | 2012-10-30 | 2014-07-30 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
US9324338B2 (en) * | 2013-10-22 | 2016-04-26 | Mitsubishi Electric Research Laboratories, Inc. | Denoising noisy speech signals using probabilistic model |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US9553681B2 (en) * | 2015-02-17 | 2017-01-24 | Adobe Systems Incorporated | Source separation using nonnegative matrix factorization with an automatically determined number of bases |
-
2015
- 2015-02-23 US US14/629,109 patent/US10013975B2/en active Active
- 2015-02-24 CN CN201580010366.XA patent/CN106030705A/zh active Pending
- 2015-02-24 EP EP15710339.1A patent/EP3111445B1/en active Active
- 2015-02-24 JP JP2016554210A patent/JP2017506767A/ja active Pending
- 2015-02-24 WO PCT/US2015/017336 patent/WO2015130685A1/en active Application Filing
- 2015-02-24 KR KR1020167024059A patent/KR20160125984A/ko unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132245A1 (en) * | 2007-11-19 | 2009-05-21 | Wilson Kevin W | Denoising Acoustic Signals using Constrained Non-Negative Matrix Factorization |
JP2009128906A (ja) * | 2007-11-19 | 2009-06-11 | Mitsubishi Electric Research Laboratories Inc | 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム |
US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
JP2013541023A (ja) * | 2010-12-07 | 2013-11-07 | ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド | 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法 |
JPWO2012160602A1 (ja) * | 2011-05-24 | 2014-07-31 | 三菱電機株式会社 | 目的音強調装置およびカーナビゲーションシステム |
Also Published As
Publication number | Publication date |
---|---|
CN106030705A (zh) | 2016-10-12 |
KR20160125984A (ko) | 2016-11-01 |
US20150243284A1 (en) | 2015-08-27 |
US10013975B2 (en) | 2018-07-03 |
WO2015130685A1 (en) | 2015-09-03 |
EP3111445B1 (en) | 2018-12-19 |
EP3111445A1 (en) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3111445B1 (en) | Systems and methods for speaker dictionary based speech modeling | |
US8706483B2 (en) | Partial speech reconstruction | |
US9704478B1 (en) | Audio output masking for improved automatic speech recognition | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
Kumar et al. | Delta-spectral cepstral coefficients for robust speech recognition | |
EP2491558B1 (en) | Determining an upperband signal from a narrowband signal | |
US20080140396A1 (en) | Model-based signal enhancement system | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
Liu et al. | Bone-conducted speech enhancement using deep denoising autoencoder | |
Yadav et al. | Addressing noise and pitch sensitivity of speech recognition system through variational mode decomposition based spectral smoothing | |
US20110218803A1 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
AU2013378793A1 (en) | Systems and methods for mitigating potential frame instability | |
US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
JP6374120B2 (ja) | 発話の復元のためのシステムおよび方法 | |
Shahnawazuddin et al. | Enhancing noise and pitch robustness of children's ASR | |
Saleem et al. | Spectral phase estimation based on deep neural networks for single channel speech enhancement | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
Liu et al. | Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments | |
Boril et al. | Data-driven design of front-end filter bank for Lombard speech recognition | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Vicente-Peña et al. | Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition | |
CN111326166B (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
CN111226278A (zh) | 低复杂度的浊音语音检测和基音估计 | |
Pacheco et al. | Spectral subtraction for reverberation reduction applied to automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190121 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190924 |