JP2017506767A5

JP2017506767A5 -

Info

Publication number: JP2017506767A5
Application number: JP2016554210A
Authority: JP
Filing date: 2015-02-24
Publication date: 2018-03-29

Claims

電子デバイスによる発話モデル化のための方法であって、
雑音のある発話スペクトルXを取得するステップと、
前記雑音のある発話スペクトルの中の雑音を表す、リアルタイムの雑音基準を取得するステップと、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書Wnを取得するステップと、
第1の発話辞書Ws1および第2の発話辞書Ws2を取得するステップと、
前記第1の発話辞書Ws1に発話有効化重みHsを乗じたものと、前記リアルタイム雑音辞書Wnに雑音有効化重みHnを乗じたものとに基づいて、非負値行列因子分解(NMF)ベースのウィーナーフィルタを生成するステップと、
第1のモデル化段階において、前記NMFベースのウィーナーフィルタに基づいて残余雑音を低減して、前記第1の発話辞書Ws1および前記発話有効化重みHsへのウィーナーフィルタを用いて、残余雑音抑制発話信号Xwfを生成するステップと、
第2のモデル化段階において、NMFベースの信号を復元を実施して、前記残余雑音抑制発話信号Xwfおよび前記第2の発話辞書Ws2に基づいて、再構築された発話信号Xrcを生成するステップと、
前記再構築された発話信号Xrcを、再構築誤差が閾値を下回ることに基づいて出力発話信号として選択し、前記残余雑音抑制発話信号Xwfを、前記再構築誤差が閾値を上回ることに基づいて前記出力発話信号として選択するステップと、
とを備える、方法。
残余雑音を低減するステップが、
前記第1の発話辞書Ws1および前記リアルタイム雑音辞書Wnを備える、発話および雑音辞書を確定するステップと、
前記発話辞書および前記雑音辞書に第1の有効化の重みを乗ずるステップと、
収束するまで前記有効化の重みを更新するステップとを備える、請求項1に記載の方法。
前記残余雑音を低減するステップが、
前記NMFベースのフィルタおよび事前増強された入力に基づいて、前記残余雑音抑制発話信号Xwfを推定するステップとを備える、請求項1に記載の方法。
前記再構築された発話信号を生成するステップが、
サブバンド音高固有辞書を確定するステップであって、前記サブバンド音高固有辞書は1組のサブバンド音高固有辞書のうち1つである、ステップと、
音高固有辞書を定義するステップと、
収束するまで有効化の重みを更新するステップと、
前記音高固有辞書に前記有効化の重みを乗じたものに基づいて、前記再構築された発話信号を生成するステップとを備える、請求項1に記載の方法。
話者の音高に基づいて、話者固有辞書から前記音高固有辞書を決定するステップと、
前記サブバンド音高固有辞書のビンごとの信号対雑音比(SNR)が閾値より大きいことに基づいて、前記音高固有辞書から前記サブバンド音高固有辞書を決定するステップとをさらに備える、請求項4に記載の方法。
前記第1の発話辞書Ws1および前記第2の発話辞書Ws2が、話者固有の発話辞書に基づく、請求項1に記載の方法。
前記第1の発話辞書Ws1を取得するステップが、
複数の有効化係数および発話基底関数を初期化するステップと、
収束するまでパラメータを更新するステップとを備える、請求項1に記載の方法。
前記第2の発話辞書Ws2を取得するステップが、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するステップと、
前記話者固有の発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するステップと、
前記選択された発話スペクトルの各々を対応する音高によって標識するステップとを備える、請求項1に記載の方法。
発話モデル化のためのコンピュータプログラムであって、請求項1乃至8の何れか1項に記載の方法を実施するためのコードを含む命令を含む、コンピュータプログラム。
発話モデル化のための装置であって、
雑音のある発話スペクトルXを取得するための手段と、
前記雑音のある発話スペクトルの中の雑音を表す、リアルタイムの雑音基準を取得するための手段と、
前記リアルタイムの雑音基準に基づいて、リアルタイム雑音辞書Wnを取得するための手段と、
第1の発話辞書Ws1および第2の発話辞書Ws2を取得するための手段と、
前記第1の発話辞書Ws1に発話有効化重みHsを乗じたものと、前記リアルタイム雑音辞書Wnに雑音有効化重みHnを乗じたものとに基づいて、非負値行列因子分解(NMF)ベースのウィーナーフィルタを生成するための手段と、
第1のモデル化段階において、前記NMFベースのウィーナーフィルタに基づいて残余雑音を低減して、前記第1の発話辞書Ws1および前記発話有効化重みHsへのウィーナーフィルタを用いて、残余雑音抑制発話信号Xwfを生成するための手段と、
第2のモデル化段階において、NMFベースの信号を復元を実施して、前記残余雑音抑制発話信号Xwfおよび前記第2の発話辞書Ws2に基づいて、再構築された発話信号Xrcを生成するための手段と、
前記再構築された発話信号Xrcを、再構築誤差が閾値を下回ることに基づいて出力発話信号として選択し、前記残余雑音抑制発話信号Xwfを、前記再構築誤差が閾値を上回ることに基づいて前記出力発話信号として選択するための手段と、
とを備える、装置。
前記再構築された発話信号を生成するための前記手段が、
サブバンド音高固有辞書を確定するための手段と、
収束するまで有効化係数を更新するための手段と、
音高固有辞書および前記有効化係数に基づいて、前記再構築された発話信号を生成するための手段とを備える、請求項10に記載の装置。
前記第1の発話辞書Ws1を取得するための前記手段が、
複数の有効化係数および発話基底関数を初期化するための手段と、
収束するまでパラメータを更新するための手段とを備える、請求項10に記載の装置。
前記第2の発話辞書Ws2を取得するための前記手段が、
複数の話者固有の発話の大きさのスペクトルに対して、調波性および音高を推定するための手段と、
前記話者固有の発話の大きさのスペクトルから、調波性閾値を上回る対応する調波性を有する発話スペクトルを選択するための手段と、
前記選択された発話スペクトルの各々を対応する音高によって標識するための手段とを備える、請求項10に記載の装置。