JP2019215514A

JP2019215514A - 音声処理方法、装置、デバイスおよび記憶媒体

Info

Publication number: JP2019215514A
Application number: JP2018244655A
Authority: JP
Inventors: チャオリ、; Chao Li; ウェイシンジュー、; Weixin Zhu
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-06-11
Filing date: 2018-12-27
Publication date: 2019-12-19
Anticipated expiration: 2038-12-27
Also published as: CN108806707A; CN108806707B; JP6764923B2; US20190378529A1; US10839820B2

Abstract

【課題】大量の離散的なマスキング閾値を除去し、補正した後のマスキング閾値により音響特徴量を処理することにより、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる音声処理方法、装置、デバイスおよび記憶媒体を提供する。【解決手段】Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得することと、ニューラルネットワークアルゴリズムを利用してＮ個の第１の音響特徴量から第１のマスキング閾値を得ることと、Ｎ個の音声フレームの音声区間検出（ＶＡＤ）情報に基づき第１のマスキング閾値を補正して第２のマスキング閾値を得ることと、第２のマスキング閾値に基づきＮ個の第１の音響特徴量に対して処理を行って第２の音響特徴量を得ることとを含む。【選択図】図１

Description

本発明は、音声処理技術の分野に関し、より詳しくは、音声処理方法、装置、デバイスおよび記憶媒体に関する。

雑音が小さい環境では、人間の聴覚器が関心のある音声を選択的に聞き取ることができる。これは、いわゆる「カクテルパーティー効果」である。関連技術分野では、「カクテルパーティー効果」をブラインド信号源分離の問題、すなわち参照信号源がない状態で、興味のある「前景音」を混雑している「背景音」から抽出する問題として取り扱うことが多い。

ブラインド信号源分離を行うための主な技術的手段は、マスキング閾値（ｍａｓｋ）を推定し、マスキング閾値により音響特徴量を処理することである。マスキング閾値の推定を行う時に、ニューラルネットワークアルゴリズムを利用している。例えば、高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＦＦＴ）による音声の振幅スペクトルという特徴量に対して、式

によりマスキング閾値を推定する。ここで、ｔはｔ番目の音声フレーム、ｆはｆ番目の周波数を表し、

は（ｔ，ｆ）番目の時点−周波数におけるクリーンな（ｃｌｅａｎ）音声の出力、

は（ｔ，ｆ）番目の時点−周波数における雑音（ｎｏｉｓｙ）を含む音声の出力を表す。しかしながら、実際の場合には、クリーンな音声にも雑音が含まれるため、これに基づき推定したマスキング閾値は正確ではなく、音声処理を行っても所望の効果を得られないという問題点があった。

本発明は、上記問題点を解決するためになされるものであり、音声処理方法、装置、デバイスおよび記憶媒体を提供する。ＶＡＤ（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ）情報に基づきマージン閾値を補正することにより、大量の離散的なマスキング閾値を除去し、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる。

本発明の第１の態様として、音声処理方法を提供する。音声処理方法は、Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得するステップと、ニューラルネットワークアルゴリズムを利用してＮ個の第１の音響特徴量から第１のマスキング閾値を得るステップと、Ｎ個の音声フレームの音声区間検出（ＶＡＤ）情報に基づき第１のマスキング閾値を補正して第２のマスキング閾値を得るステップと、第２のマスキング閾値に基づきＮ個の第１の音響特徴量に対して処理を行って第２の音響特徴量を得るステップとを含む。

本発明は以下の有益な効果を有する。ＶＡＤ情報によりマスキング閾値を補正することで、大量の離散的なマスキング閾値を除去し、補正した後のマスキング閾値により音響特徴量を処理することにより、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる。

任意選択的に、Ｎ個の音声フレームのＶＡＤ情報に基づき第１のマスキング閾値を補正する前記ステップは、ＶＡＤ情報と第１のマスキング閾値との積を算出して第２のマスキング閾値を得ることを含む。これにより、第１のマスキング閾値を効果的に補正することができる。

任意選択的に、ＶＡＤ情報はそれぞれの音声フレームに対応するＶＡＤ値を含む。Ｎ個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するＶＡＤ値を０に設定する。これにより、ＶＡＤ情報を決定して第１のマスキング閾値を補正することができる。

任意選択的に、ＶＡＤ情報は、それぞれの音声フレームに対応するＶＡＤ値をさらに含む。これに対応して、Ｎ個の音声フレームのＶＡＤ情報に基づき第１のマスキング閾値を補正する前に、Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１（ただしＭ１は１より大きい正の整数である）個の音声フレームおよびＭ１個の音声フレームに隣接するＶＡＤ値が０のＰ１（ただしＰ１は１より大きい正の整数である）個の音声フレームを決定するステップと、Ｍ１個の音声フレームにおけるＭ２個の音声フレームに対応するＶＡＤ値およびＰ１個の音声フレームにおけるＭ２個の音声フレームに隣接するＰ２個の音声フレームに対応するＶＡＤ値に対して平滑化処理を行うことで、Ｍ２個の音声フレームおよびＰ２個の音声フレームに対応するＶＡＤ値を０から１に、または１から０に少しずつ変化させるステップとを含み、ただし１≦Ｍ２≦Ｍ１であり、１≦Ｐ２≦Ｐ１である。これにより、ＶＡＤ情報を決定して第１のマスキング閾値を補正することができる。

任意選択的に、Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１個の音声フレームおよびＶＡＤ値が０のＰ１個の音声フレームを決定する前記ステップは、Ｎ個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定することと、音声状態が無音の音声フレームをＶＡＤ値が０の音声フレームとして決定し、音声状態が有音の音声フレームをＶＡＤ値が１の音声フレームとして決定することとを含む。

任意選択的に、ハミング窓関数（ｈａｍｍｉｎｇ窓）、三角窓関数またはハニング窓関数（ｈａｎｎｉｎｇ窓）によりＭ２およびＰ２を決定する。

本発明は、音声処理装置、デバイス、記憶媒体およびコンピュータプログラム製品をさらに提供する。その効果については、上記方法に関する発明を参照されたい。

本発明の第２の態様として、音声処理装置を提供する。音声処理装置は、
Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得する取得モジュールと、
ニューラルネットワークアルゴリズムを利用してＮ個の第１の音響特徴量から第１のマスキング閾値を得るトレーニングモジュールと、
Ｎ個の音声フレームの音声区間検出（ＶＡＤ）情報に基づき第１のマスキング閾値を補正して第２のマスキング閾値を得る補正モジュールと、
第２のマスキング閾値に基づきＮ個の第１の音響特徴量に対して処理を行って第２の音響特徴量を得る第１の処理モジュールとを含む。

任意選択的に、補正モジュールは、ＶＡＤ情報と第１のマスキング閾値との積を算出して第２のマスキング閾値を得る。

任意選択的に、ＶＡＤ情報はそれぞれの音声フレームに対応するＶＡＤ値を含む。これに対応して、当該装置は、Ｎ個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するＶＡＤ値を０に設定する設定モジュールをさらに含む。

任意選択的に、ＶＡＤ情報はそれぞれの音声フレームに対応するＶＡＤ値を含む。これに対応して、当該装置は、Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１（ただしＭ１は１より大きい正の整数である）個の音声フレームおよびＭ１個の音声フレームに隣接するＶＡＤ値が０のＰ１（ただしＰ１は１より大きい正の整数である）個の音声フレームを決定する決定モジュールと、
Ｍ１個の音声フレームにおけるＭ２個の音声フレームに対応するＶＡＤ値およびＰ１個の音声フレームにおけるＭ２個の音声フレームに隣接するＰ２個の音声フレームに対応するＶＡＤ値に対して平滑化処理を行うことで、Ｍ２個の音声フレームおよびＰ２個の音声フレームに対応するＶＡＤ値を０から１に、または１から０に少しずつ変化させる第２の処理モジュールとをさらに含み、ただし１≦Ｍ２≦Ｍ１であり、１≦Ｐ２≦Ｐ１である。

任意選択的に、決定モジュールは、Ｎ個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、音声状態が無音の音声フレームをＶＡＤ値が０の音声フレームとして決定し、音声状態が有音の音声フレームをＶＡＤ値が１の音声フレームとして決定する。

任意選択的に、ハミング窓関数、三角窓関数またはハニング窓関数によりＭ２およびＰ２を決定する。

本発明の第３の態様として、メモリと、プロセッサとを含む音声処理デバイスを提供する。

前記メモリは、プロセッサに本発明の第１の態様または第１の態様の任意選択的な実施態様による音声処理方法を実行させるためのプロセッサ用実行命令を記憶する。

本発明の第４の態様として、本発明の第１の態様または第１態様の任意選択的な実施態様による音声処理方法を実施するためのコンピュータ実行可能命令を含む記憶媒体を提供する。

本発明の第５の態様として、本発明の第１の態様または第１態様の任意選択的な実施態様による音声処理方法を実施するためのコンピュータ実行可能命令を含むコンピュータプログラム製品を提供する。

本発明は、音声処理方法、装置、デバイスおよび記憶媒体を提供する。Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得することと、ニューラルネットワークアルゴリズムを利用してＮ個の第１の音響特徴量から第１のマスキング閾値を得ることと、Ｎ個の音声フレームのＶＡＤ情報に基づき第１のマスキング閾値を補正して第２のマスキング閾値を得ることと、第２のマスキング閾値に基づきＮ個の第１の音響特徴量に対して処理を行って第２の音響特徴量を得ることとを含むものであり、ＶＡＤ情報によりマスキング閾値を補正することで、大量の離散的なマスキング閾値を除去し、補正した後のマスキング閾値により音響特徴量を処理することにより、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる。

本発明の一実施例による音声処理方法のフローチャートである。本発明のもう一つの実施例による音声処理方法のフローチャートである。本発明の一実施例におけるＶＡＤ値に対する平滑化処理を概略的に示す図である。本発明の一実施例による音声処理装置４００を概略的に示す図である。本発明の一実施例による音声処理デバイス５００を概略的に示す図である。

前述したように、いわゆる「カクテルパーティー効果」は、関連技術分野で、ブラインド信号源分離の問題、すなわち参照信号源がない状態で、興味のある「前景音」を混雑している「背景音」から抽出する問題として取り扱うことが多い。

ブラインド信号源分離は、以下の場面に用いることができる。
場面１：目的話し手の音声を複数の話し手による音声から抽出する。例えば、リビングルームに座ってニュース番組を見ているユーザは、テーブルに置かれたスマートスピーカーに対して音声指令を出したら、スピーカーが、ユーザの音声指令およびニュース番組のアナウンサの音声を同時に受信する。すなわち同一の時点に、２人が同時に話す。
場面２：音声を背景雑音から抽出する。例えば、運転手が運転する間に、車と携帯電話のマイクロフォンは、風の音、道路での騒音、クラクションを鳴らした音など様々な雑音を受けるが、ブラインド信号源分離によりこれらの環境雑音を抑圧して、混雑している音の中から運転者の音声を抽出することができる。

ブラインド信号源分離は、本質的に言えば回帰モデルの応用問題である。モデルの性能が理想的でないと、次のいくつかの不具合が生じる。
１．背景音が除去されていない。すなわちブラインド信号源分離を行ったが、雑音を全て除去できず、所望の雑音除去効果を得られない。
２．目的音声も除去されている。すなわちブラインド信号源分離を行った結果、雑音だけではなく、目的音声も同時に抑圧される。
３．雑音が十分に除去されず、目的音声も劣化する。これは最もよく発生する問題であり、すなわち一部の時点−周波数に雑音が残っていたり、また一部の時点−周波数には目的音声が除去されたりする。

したがって、ブラインド信号源分離においては、雑音の抑圧および目的音声の劣化防止が最も重要な技術となる。ブラインド信号源分離により理想的な効果を得るためには、目的音声の劣化を可能な限り抑えつつ、背景雑音を最大限に抑圧する必要がある。

ブラインド信号源分離におけるコア技術は、マスキング閾値（ｍａｓｋ）の計算である。従来技術によれば、ニューラルネットワークを利用して、各音声フレームの音響特徴量に対して０〜１にある出力ベクトルを推定し、当該出力ベクトルはすなわちｍａｓｋである。

上記音響特徴量は、ＦＦＴによる振幅スペクトル、メル周波数ケプストラム係数（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ、ＭＦＣＣ）、メルフィルタバンク（Ｍｅｌ−ｓｃａｌｅＦｉｌｔｅｒＢａｎｋ、ＦＢａｎｋ）、または知覚線形予測（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ、ＰＬＰ）等であってもよい。

例えば、ＦＦＴによる音声の振幅スペクトルに対して、式

によりｍａｓｋを推定する。ここで、ｔはｔ番目の音声フレーム、ｆはｆ番目の周波数を表し、

上記技術的問題を解決するための本発明は、音声処理方法、装置、デバイスおよび記憶媒体を提供する。本願に係る発明は、ブラインド信号源分離が適用される上記場面に用いることができ、これらの場面に限定されるものではない。図１は、本発明の一実施例による音声処理方法のフローチャートを示す。当該方法は、コンピュータ、携帯電話、ノートパソコンなどのスマート端末の一部または全体により実行される。次に、当該方法がコンピュータにより実行される場合を例として説明する。図１に示すように、当該音声処理方法は、ステップＳ１０１〜ステップＳ１０４を含み、
ステップＳ１０１において、Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得する。
ステップＳ１０２において、ニューラルネットワークアルゴリズムを利用してＮ個の第１の音響特徴量から第１のマスキング閾値を得る。
ステップＳ１０３において、Ｎ個の音声フレームのＶＡＤ情報に基づき第１のマスキング閾値を補正して第２のマスキング閾値を得る。
ステップＳ１０４において、第２のマスキング閾値に基づき前記Ｎ個の第１の音響特徴量に対して処理を行って第２の音響特徴量を得る。

ステップＳ１０１についてさらに説明すると、当該第１の音響特徴量は、ＦＦＴによる振幅スペクトル、ＭＦＣＣ、ＦＢａｎｋまたはＰＬＰのいずれか１種であってもよく、本発明はこれについて限定しない。実際には、Ｎ個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量が第１の音響特徴量ベクトルを構成し、当該ベクトルは、Ｎ個の音声フレームにそれぞれ対応する第１の音響特徴量であるＮ個の要素を含む。

ステップＳ１０２についてさらに説明すると、本発明においてニューラルネットワークアルゴリズムは、従来技術としてマスキング閾値（ｍａｓｋ）を算出するために用いられるニューラルネットワークアルゴリズムであり、本発明はこれについて限定しない。

さらに、ニューラルネットワークアルゴリズムを利用してＮ個の第１の音響特徴量から第１のマスキング閾値を得る。当該第１のマスキング閾値は、Ｎ個の第１の音響特徴量に一対一で対応し、それぞれの値域が［０，１］であるＮ個の成分を含むベクトルである。

ステップＳ１０３についてさらに説明すると、ＶＡＤは音声終点検出、音声境界検出とも称され、雑音が存在する環境の中で音声の有無を検出することを指す。一般的には、音声符号化や音声強調などの音声処理システムにおいて、音声符号化の速度を下げ、通信に使う帯域幅を削減し、モバイル機器の電力消費を削減し、認識率を高めるために用いられる。

本発明においてＶＡＤは、予め設定するか、または音声フレームの音声状態に基づき無音（ｓｉｌｅｎｃｅ）、または有音（ｐｈｏｎｅ）に決定してもよい。

ここにおいて、音声フレームの音声状態に基づきＶＡＤを決定する方法は、以下のとおりである。
任意選択的な実施形態１として、ＶＡＤ情報はＮ個の音声フレームにおけるそれぞれの音声フレームに対応するＶＡＤ値を含む。なお、Ｎ個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するＶＡＤ値を０に設定し、逆の場合に、Ｎ個の音声フレームに有音フレームが含まれる場合に、当該無音フレームに対応するＶＡＤ値を０より大きく１以下とする。「無音フレーム」というのは音声状態が無音の音声フレームのことを指し、「有音フレーム」というのは音声状態が有音の音声フレームのことを指す。

任意選択的に、Ｎ個の音声フレームの音声区間検出（ＶＡＤ）情報に基づき第１のマスキング閾値を補正するステップは、ＶＡＤ情報と第１のマスキング閾値との積を算出して第２のマスキング閾値を得ること、またはＶＡＤ情報と、第１のマスキング閾値と、予め設定された係数との積を算出して第２のマスキング閾値を得ることを含む。本発明は、第２のマスキング閾値を得る方法について限定しない。当該第２のマスキング閾値も、Ｎ個の第１の音響特徴量に一対一で対応し、それぞれの値域が［０，１］であるＮ個の成分を含むベクトルであり、当該予め設定された係数は、０より大きく１以下としてもよい。

したがって、あるＶＡＤ値が０である場合に、対応する第２のマスキング閾値における成分も０となる。本発明において、このような補正方法をハード（ｈａｒｄ）補正方法と称する。

任意選択的な実施形態２として、ＶＡＤ情報はＮ個の音声フレームにおけるそれぞれの音声フレームに対応するＶＡＤ値を含む。これに対応して、図２に示す本発明のもう一つの実施例による音声処理方法のフローチャートにおいて、ステップＳ１０３の前に、当該音声処理方法は、ステップＳ１０３１およびステップＳ１０３２をさらに含む。
ステップＳ１０３１において、Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１個の音声フレームおよびＭ１個の音声フレームに隣接するＶＡＤ値が０のＰ１個の音声フレームを決定する。
ステップＳ１０３２において、Ｍ１個の音声フレームにおけるＭ２個の音声フレームに対応するＶＡＤ値およびＰ１個の音声フレームにおけるＭ２個の音声フレームに隣接するＰ２個の音声フレームに対応するＶＡＤ値に対して平滑化処理を行うことで、Ｍ２個の音声フレームおよびＰ２個の音声フレームに対応するＶＡＤ値を０から１に、または１から０に少しずつ変化させる。

ステップＳ１０３１についてさらに説明すると、Ｍ１およびＰ１はともに１より大きい正の整数であり、Ｍ１＋Ｐ１＝Ｎである。より詳しくは、まずＮ個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、前記音声状態が無音の音声フレームをＶＡＤ値が０の音声フレームとして決定し、前記音声状態が有音の音声フレームをＶＡＤ値が１の音声フレームとして決定する。

なお、本発明において、Ｎ個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を決定するには「強制設定」という方法を用いることができる。「強制設定」というのは、各音声状態についてその開始時間および終了時間を決定し、例えば、特定の音声状態に対応する特定の音声フレームまたは複数の音声フレームを決定するという方法である。例えば、Ｎ個の音声フレームにおける始めからＭ１個の音声フレームを強制的に無音に設定し、Ｍ１個の音声フレーム以後のＰ１個の音声フレームを強制的に有音に設定する。ただし、Ｎ個の音声フレームにおける始めからＭ１個の音声フレームを強制的に無音に設定し、Ｍ１個の音声フレーム以後のＰ１個の音声フレームを強制的に有音に設定するのは一例に過ぎない。実際には、Ｎ個の音声フレームは、Ｎ１個の無音の音声フレーム、Ｎ２個の有音の音声フレーム、Ｎ３個の無音の音声フレーム……Ｎｎ個の有音の音声フレームで構成される（ただしＮ１＋Ｎ２＋……Ｎｎ＝Ｎであり、Ｎ１、Ｎ２、……Ｎｎはいずれも０以上の整数である）。本発明はこれについて限定しない。

ステップＳ１０３２についてさらに説明すると、１≦Ｍ２≦Ｍ１であり、１≦Ｐ２≦Ｐ１である。任意選択的に、ハミング窓関数、三角窓関数またはハニング窓関数によりＭ２およびＰ２を決定する。Ｍ２＋Ｐ２＝１０であることが好ましい。図３は、本発明の一実施例におけるＶＡＤ値に対する平滑化処理を概略的に示す図である。図３に示すように、０番目の音声フレーム〜３０番目の音声フレームは無音フレームであり、すなわちそれらに対応するＶＡＤ値は０であり、３１番目の音声フレーム〜２８０番目の音声フレームは有音フレームであり、すなわちそれらに対応するＶＡＤ値は１であり、２８１番目の音声フレーム〜３００番目の音声フレームはまた無音フレームであり、すなわちそれらに対応するＶＡＤ値は０である。２０番目の音声フレーム〜４０番目の音声フレームに対して平滑化処理を行う場合に、より詳しくは、２０番目の音声フレームに対応する点の座標（２０，０）および４０番目の音声フレームに対応する点の座標（４０，１）を決定して、この２点で直線を決定し、当該直線はすなわち２０番目の音声フレーム〜４０番目の音声フレームに対して平滑化処理を行った結果である。したがって、２０番目の音声フレーム〜４０番目の音声フレームはＶＡＤ値が０から少しずつ１に変化する。同様のように、２６０番目の音声フレーム〜２９０番目の音声フレームに対して平滑化処理を行う。より詳しくは、２６０番目の音声フレームに対応する点の座標（２６０，１）および２９０番目の音声フレームに対応する点の座標（２９０，１）を決定し、この２点で直線を決定し、当該直線はすなわち２６０番目の音声フレーム〜２９０番目の音声フレームに対して平滑化処理を行った結果である。したがって、２６０番目の音声フレーム〜２９０番目の音声フレームはＶＡＤ値が１から少しずつ０に変化する。

本発明において、このような任意選択的な実施形態２をソフト（ｓｏｆｔ）補正方法と称する。

ステップＳ１０４についてさらに説明すると、一つの任意選択的な実施形態として、第２のマスキング閾値に基づき前記Ｎ個の第１の音響特徴量に対して処理を行って、Ｎ個の第２の音響特徴量を得る。任意の第２の音響特徴量をｅｓｔｉｍａｔｅ、当該第２の音響特徴量に対応する第１の音響特徴量をｎｏｉｓｅ、第２のマスキング閾値における当該第１の音響特徴量に対応する成分をｈと表記すれば、ｅｓｔｉｍａｔｅ＝ｎｏｉｓｅ＊ｈとなる。ここで、「＊」は積を表す。

もう一つの任意選択的な実施形態として、第２のマスキング閾値に基づき前記Ｎ個の第１の音響特徴量に対して処理を行って、１つの第２の音響特徴量を得る。当該第２の音響特徴量をｅｓｔｉｍａｔｅ、Ｎ個の第１の音響特徴量をｎｏｉｓｅ（Ｎ）と表記し、ｎｏｉｓｅ（Ｎ）はＮ個の第１の音響特徴量で構成されるベクトルであり、第２のマスキング閾値における当該第１の音響特徴量に対応する成分をｈ（Ｎ）と表記すれば、ｅｓｔｉｍａｔｅ＝ｎｏｉｓｅ（Ｎ）＊（ｈ（Ｎ））^Ｔとなる。ここで、「＊」はベクトルの積を表し、（ｈ（Ｎ））^Ｔはｈ（Ｎ）の転置を表す。

以上を要約すると、本発明は音声処理方法を提供し、当該方法のカギとなる技術は、ＶＡＤ情報に基づきマスキング閾値を補正することであり、これにより大量の離散的なマスキング閾値を除去し、雑音抑圧の効果を向上させ、音声の劣化を軽減することができる。

図４は、本発明の一実施例による音声処理装置４００を概略的に示す図である。図４に示すように、当該音声処理装置は、コンピュータ、タブレットパソコンまたは携帯電話の一つの部分または全体であってもよく、例えば当該装置は、コンピュータまたはプロセッサなどである。当該装置は、取得モジュール４０１と、トレーニングモジュール４０２と、補正モジュール４０３と、第１の処理モジュール４０４とを含む。
取得モジュール４０１は、Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得する。
トレーニングモジュール４０２は、ニューラルネットワークアルゴリズムを利用して、取得モジュール４０１の取得したＮ個の第１の音響特徴量から第１のマスキング閾値を得る。
補正モジュール４０３は、Ｎ個の音声フレームの音声区間検出（ＶＡＤ）情報に基づきトレーニングモジュール４０２で得られた第１のマスキング閾値を補正して第２のマスキング閾値を得る。
第１の処理モジュール４０４は、補正モジュール４０３で得られた第２のマスキング閾値に基づきＮ個の第１の音響特徴量に対して処理を行って第２の音響特徴量を得る。

任意選択的に、補正モジュール４０３は、ＶＡＤ情報と第１のマスキング閾値との積を算出して第２のマスキング閾値を得る。

任意選択的に、ＶＡＤ情報はそれぞれの音声フレームに対応するＶＡＤ値を含む。これに対応して、当該装置は、Ｎ個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するＶＡＤ値を０に設定する設定モジュール４０５をさらに含む。

任意選択的に、ＶＡＤ情報はそれぞれの音声フレームに対応するＶＡＤ値を含む。

これに対応して、当該装置は、決定モジュール４０６および第２の処理モジュール４０７をさらに含む。
決定モジュール４０６は、Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１個の音声フレームおよびＭ１個の音声フレームに隣接するＶＡＤ値が０のＰ１個の音声フレームを決定し、ただしＭ１およびＰ１はともに１より大きい正の整数である。
第２の処理モジュール４０７は、Ｍ１個の音声フレームにおけるＭ２個の音声フレームに対応するＶＡＤ値およびＰ１個の音声フレームにおけるＭ２個の音声フレームに隣接するＰ２個の音声フレームに対応するＶＡＤ値に対して平滑化処理を行うことで、Ｍ２個の音声フレームおよびＰ２個の音声フレームに対応するＶＡＤ値を０から１に、または１から０に少しずつ変化させ、ただし１≦Ｍ２≦Ｍ１であり、１≦Ｐ２≦Ｐ１である。

任意選択的に、決定モジュール４０６は、Ｎ個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、音声状態が無音の音声フレームをＶＡＤ値が０の音声フレームとして決定し、音声状態が有音の音声フレームをＶＡＤ値が１の音声フレームとして決定する。

以上を要約すると、本発明は、上記音声処理方法に用いることができる音声処理装置を提供し、その技術内容および効果については、方法に関する実施例の部分を参照されたい。

図５は、本発明の一実施例による音声処理デバイス５００を概略的に示す図である。当該音声処理デバイスは、コンピュータ、タブレットパソコン、携帯電話などのスマート機器であってもよい。図５に示すように、当該デバイスはメモリ５０１と、プロセッサ５０２を含む。メモリ５０１は、プロセッサ５０２に上記音声処理方法を実行させるためのプロセッサ５０２用実行命令を記憶する。

メモリ５０１は、スタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＳＲＡＭ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＥＥＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（Ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ、ＰＲＯＭ）、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたはコンパクトディスクなど任意の種類の揮発性もしくは不揮発性記憶機器、またはそれらの組み合わせであってもよい。

プロセッサ５０２は、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）、デジタル信号処理デバイス（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅ、ＤＳＰＤ）、プログラマブルロジックデバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、ＰＬＤ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサを用いる１つ以上の電子部品や、その他の電子部品により実施することができる。

より詳しくは、プロセッサ５０２が、Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得するステップと、ニューラルネットワークアルゴリズムを利用してＮ個の第１の音響特徴量から第１のマスキング閾値を得るステップと、Ｎ個の音声フレームの音声区間検出（ＶＡＤ）情報に基づき第１のマスキング閾値を補正して第２のマスキング閾値を得るステップと、第２のマスキング閾値に基づきＮ個の第１の音響特徴量に対して処理を行って第２の音響特徴量を得るステップとを含む方法を実施するために用いられる。

任意選択的に、プロセッサ５０２はさらに、ＶＡＤ情報と第１のマスキング閾値との積を算出して第２のマスキング閾値を得る。

任意選択的に、ＶＡＤ情報はそれぞれの音声フレームに対応するＶＡＤ値を含む。これに対応して、プロセッサ５０２はさらに、Ｎ個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するＶＡＤ値を０に設定する。

任意選択的に、ＶＡＤ情報はそれぞれの音声フレームに対応するＶＡＤ値を含む。プロセッサ５０２はさらに、Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１（ただしＭ１は１より大きい正の整数である）個の音声フレームおよびＭ１個の音声フレームに隣接するＶＡＤ値が０のＰ１（ただしＰ１は１より大きい正の整数である）個の音声フレームを決定し、Ｍ１個の音声フレームにおけるＭ２個の音声フレームに対応するＶＡＤ値およびＰ１個の音声フレームにおけるＭ２個の音声フレームに隣接するＰ２個の音声フレームに対応するＶＡＤ値に対して平滑化処理を行うことで、Ｍ２個の音声フレームおよびＰ２個の音声フレームに対応するＶＡＤ値を０から１に、または１から０に少しずつ変化させる。ただし１≦Ｍ２≦Ｍ１であり、１≦Ｐ２≦Ｐ１である。

任意選択的に、プロセッサ５０２は、Ｎ個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音または有音に決定し、音声状態が無音の音声フレームをＶＡＤ値が０の音声フレームとして決定し、音声状態が有音の音声フレームをＶＡＤ値が１の音声フレームとして決定する。

以上を要約すると、本発明は上記音声処理方法に用いることができる音声処理デバイスを提供し、その技術内容および効果については、方法に関する実施例の部分を参照されたい。

本発明は、上記音声処理方法を実施するためのコンピュータ実行可能命令を含む記憶媒体をさらに提供し、その技術内容および効果については、方法に関する実施例の部分を参照されたい。

本発明は、上記音声処理方法を実施するためのコンピュータ実行可能命令を含むコンピュータプログラム製品をさらに提供し、その技術内容および効果については、方法に関する実施例の部分を参照されたい。

当業者にとって自明なように、上記各方法の実施例を実施するステップの全部または一部は、コンピュータ読み取り可能な媒体に記憶されるプログラムによって、関連するハードウェアを指示することで実行することができる。当該プログラムを実行する時、上記各方法に関する実施例のステップを実行する。前記媒体はＲＯＭ、ＲＡＭ、磁気ディスク、コンパクトディスクなどプログラムコードを記憶可能な様々な媒体を含む。

なお、上記各実施例は、限定を加えるものではなく、本願に係る発明を説明するために用いるものに過ぎない。上記各実施例を踏まえて本発明を詳細に説明しているが、当業者は、上記各実施例に記載される発明に修正を加えたり、その一部または全ての技術的特徴に対して等価な入れ替えを行ったりすることもできる。これらの修正や入れ替えにより、本発明は本願の各実施例に係る発明から逸脱するものではない。

Claims

音声処理方法であって、
Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得するステップと、
ニューラルネットワークアルゴリズムを利用してＮ個の前記第１の音響特徴量から第１のマスキング閾値を得るステップと、
前記Ｎ個の音声フレームの音声区間検出（ＶＡＤ）情報に基づき、前記第１のマスキング閾値を補正して第２のマスキング閾値を得るステップと、
前記第２のマスキング閾値に基づき、Ｎ個の前記第１の音響特徴量に対して処理を行って第２の音響特徴量を得るステップと、
を含むことを特徴とする音声処理方法。
前記Ｎ個の音声フレームのＶＡＤ情報に基づき、前記第１のマスキング閾値を補正する前記ステップは、
前記ＶＡＤ情報と前記第１のマスキング閾値との積を算出して前記第２のマスキング閾値を得ることを含む、
ことを特徴とする請求項１に記載の方法。
前記ＶＡＤ情報は、それぞれの前記音声フレームに対応するＶＡＤ値を含み、
前記Ｎ個の音声フレームに無音フレームが含まれる場合に、前記無音フレームに対応するＶＡＤ値を０に設定する、
ことを特徴とする請求項１または２に記載の方法。
前記ＶＡＤ情報は、それぞれの前記音声フレームに対応するＶＡＤ値を含み、
これに応じて、前記Ｎ個の音声フレームのＶＡＤ情報に基づき前記第１のマスキング閾値を補正する前に、
前記Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１（ただしＭ１は１より大きい正の整数である）個の音声フレームおよび前記Ｍ１個の音声フレームに隣接するＶＡＤ値が０のＰ１（ただしＰ１は１より大きい正の整数である）個の音声フレームを決定するステップと、
前記Ｍ１個の音声フレームにおけるＭ２個の音声フレームに対応するＶＡＤ値および前記Ｐ１個の音声フレームにおける前記Ｍ２個の音声フレームに隣接するＰ２個の音声フレームに対応するＶＡＤ値に対して平滑化処理を行うことで、前記Ｍ２個の音声フレームおよび前記Ｐ２個の音声フレームに対応するＶＡＤ値を０から１に、または１から０に少しずつ変化させるステップと、
を含み、
ただし１≦Ｍ２≦Ｍ１であり、１≦Ｐ２≦Ｐ１である、
ことを特徴とする請求項１または２に記載の方法。
前記Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１個の音声フレームおよびＶＡＤ値が０のＰ１個の音声フレームを決定する前記ステップは、
前記Ｎ個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定することと、
前記音声状態が無音の音声フレームをＶＡＤ値が０の音声フレームとして決定することと、
前記音声状態が有音の音声フレームをＶＡＤ値が１の音声フレームとして決定することと
を含むことを特徴とする請求項４に記載の方法。
Ｍ２およびＰ２は、ハミング窓関数（ｈａｍｍｉｎｇ窓）、三角窓関数またはハニング窓関数（ｈａｎｎｉｎｇ窓）により決定される、
ことを特徴とする請求項５に記載の方法。
音声処理装置であって、
Ｎ（ただしＮは１より大きい正の整数である）個の音声フレームにおけるそれぞれの音声フレームの第１の音響特徴量を取得するための取得モジュールと、
ニューラルネットワークアルゴリズムを利用してＮ個の前記第１の音響特徴量から第１のマスキング閾値を得るためのトレーニングモジュールと、
前記Ｎ個の音声フレームの音声区間検出（ＶＡＤ）情報に基づき、前記第１のマスキング閾値を補正して第２のマスキング閾値を得るための補正モジュールと、
前記第２のマスキング閾値に基づき、Ｎ個の前記第１の音響特徴量に対して処理を行って第２の音響特徴量を得るための第１の処理モジュールと、
を含むことを特徴とする音声処理装置。
前記補正モジュールは、
前記ＶＡＤ情報と前記第１のマスキング閾値との積を算出して前記第２のマスキング閾値を得るのに用いられる、
ことを特徴とする請求項７に記載の装置。
前記ＶＡＤ情報は、それぞれの前記音声フレームに対応するＶＡＤ値を含み、
これに応じて、前記装置はさらに、
前記Ｎ個の音声フレームに無音フレームが含まれる場合に、前記無音フレームに対応するＶＡＤ値を０に設定するための設定モジュールを含む、
ことを特徴とする請求項７または８に記載の装置。
前記ＶＡＤ情報は、それぞれの前記音声フレームに対応するＶＡＤ値を含み、
これに応じて、前記装置はさらに、
前記Ｎ個の音声フレームにおけるＶＡＤ値が１のＭ１（ただしＭ１は１より大きい正の整数である）個の音声フレームおよび前記Ｍ１個の音声フレームに隣接するＶＡＤ値が０のＰ１（ただしＰ１は１より大きい正の整数である）個の音声フレームを決定するための決定モジュールと、
前記Ｍ１個の音声フレームにおけるＭ２個の音声フレームに対応するＶＡＤ値および前記Ｐ１個の音声フレームにおけるＭ２個の音声フレームに隣接するＰ２個の音声フレームに対応するＶＡＤ値に対して平滑化処理を行うことで、前記Ｍ２個の音声フレームおよび前記Ｐ２個の音声フレームに対応するＶＡＤ値を０から１に、または１から０に少しずつ変化させるための第２の処理モジュールと、
を含み、
ただし１≦Ｍ２≦Ｍ１であり、１≦Ｐ２≦Ｐ１である、
ことを特徴とする請求項７または８に記載の装置。
前記決定モジュールは、
前記Ｎ個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、
前記音声状態が無音の音声フレームをＶＡＤ値が０の音声フレームとして決定し、
前記音声状態が有音の音声フレームをＶＡＤ値が１の音声フレームとして決定するのに用いられる、
ことを特徴とする請求項１０に記載の装置。
Ｍ２およびＰ２は、ハミング窓関数、三角窓関数またはハニング窓関数により決定される、ことを特徴とする請求項１１に記載の装置。
プロセッサと、前記プロセッサに請求項１〜６のいずれか一項に記載の方法を実行させるための前記プロセッサ用実行命令を記憶するメモリとを含むことを特徴とする音声処理デバイス。
請求項１〜６のいずれか一項に記載の方法を実施するためのコンピュータ実行可能命令を含むことを特徴とする記憶媒体。