JP7615510B2

JP7615510B2 - 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム

Info

Publication number: JP7615510B2
Application number: JP2023538919A
Authority: JP
Inventors: シャオ，ウェイ; シー，ユーペン; ワン，メン; シャン，シンドン; ウー，ズロン
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-08
Filing date: 2022-01-27
Publication date: 2025-01-17
Anticipated expiration: 2042-01-27
Also published as: EP4283618A4; CN113571079B; CN113571079A; WO2022166738A1; US20230050519A1; US12361959B2; JP2024502287A; EP4283618A1

Description

本願は、２０２１年２月８日に中国特許庁に提出された、出願番号が第２０２１１０１７１２４４．６であり、発明の名称が「音声強調方法、装置、機器、及び記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容は参照することにより本願に組み込まれている。

本願は、音声処理の技術分野に関し、具体的には、音声強調方法、装置、機器、及び記憶媒体に関する。

音声通信の利便性及び適時性により、音声通信の応用はますます幅広くなっており、例えば、クラウド会議の会議参加者の間で音声信号が伝送される。ただし、音声通信では、音声信号にノイズが混入している可能性がある。音声信号に混入しているノイズは、通信品質の劣化を招き、ユーザの聴覚体験に極めて大きな影響を与える。このため、如何に音声を強調処理してノイズを除去するかは、従来技術において緊急に解決されるべき技術的問題である。

本願の実施例は、音声強調を実現して音声信号の品質を向上させる音声強調方法、装置、機器、及び記憶媒体を提供する。

本願のその他の特徴及び利点は、以下の詳細な説明により明らかになり、又は、部分的に本願の実践により把握される。

本願の実施例の一態様によれば、音声強調方法が提供されている。この方法は、
ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップと、
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得するステップと、
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得するステップと、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップと、を含む。

本願の実施例の他の態様によれば、音声強調装置が提供されている。この装置は、
ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得する声門パラメータ予測モジュールと、
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得する利得予測モジュールと、
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得する励起信号予測モジュールと、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得する合成モジュールと、を含む。

本願の実施例の他の態様によれば、電子機器が提供されている。この電子機器は、プロセッサと、前記プロセッサによって実行されると、上記のような音声強調方法を実現させるコンピュータ可読命令が記憶されているメモリと、を備える。

本願の実施例の他の態様によれば、コンピュータ可読記憶媒体が提供されている。このコンピュータ可読記憶媒体には、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令は、プロセッサによって実行されると、上記のような音声強調方法を実現させる。

理解すべきものとして、上記の一般的な説明及び以下の詳細な説明は、例示的で解釈的なものに過ぎず、本願を制限するものではない。

ここでの図面は、明細書に組み込まれて、本明細書の一部を構成し、本願に適合する実施例を示し、明細書とともに本願の原理を説明するために使用される。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者にとって、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。図面では、
１つの具体的な実施例によって示されたＶｏＩＰシステムにおける音声通信リンクの模式図である。音声信号生成のデジタルモデルの模式図を示す。オリジナルの音声信号から分解された励起信号及び声門フィルタの周波数応答の模式図を示す。本願の一実施例によって示された音声強調方法のフローチャートである。図４に対応する実施例のステップ４４０の一実施例におけるフローチャートである。本願の一実施例によって示された窓掛け・オーバーラップによって音声フレームに対して短時間フーリエ変換を行うことの模式図である。本願の１つの具体的な実施例によって示された音声強調のフローチャートである。本願の一実施例によって示された第１ニューラルネットワークの模式図である。本願の他の実施例によって示された第１ニューラルネットワークの入力及び出力の模式図である。本願の一実施例によって示された第２ニューラルネットワークの模式図である。本願の一実施例によって示された第３ニューラルネットワークの模式図である。本願の一実施例によって示された音声強調装置のブロック図である。本願の実施例を実現することに好適な電子機器のコンピュータシステムの構成の模式図を示す。

図面を参照して、例示的な実施形態をより完全に説明する。しかしながら、例示的な実施形態は、様々な形式で実施されることができ、ここで述べられる模範例に限定されるものとして理解されるべきではない。逆に、これらの実施形態を提供することにより、本願がより全面的かつ完全になり、例示的な実施形態の構想が全面的に当業者に伝えられる。

なお、説明される特徴、構成、又は特性は、任意の適切な方式で１つ又は複数の実施例に組み合わせることができる。以下の説明において、多くの具体的な細部を提供することにより、本願の実施例に対する十分な理解を提供する。しかしながら、当業者が認識すべきものとして、本願の構成を実施するには、特定の細部のうち１つ又は複数がなくてもよいし、又は、他の方法、構成要素、装置、ステップなどを採用してもよい。他の場合には、本願の各態様をあいまいにしないように、公知の方法、装置、実現、又は動作を詳しく示したり説明したりしない。

図面に示されているブロック図は、単なる機能エンティティであり、必ずしも物理的に独立したエンティティに対応する必要はない。即ち、これらの機能エンティティは、ソフトウェアで実現されてもよく、あるいは、１つ又は複数のハードウェアモジュール又は集積回路で実現されてもよく、あるいは、異なるネットワーク及び／又はプロセッサ装置及び／又はマイクロコントローラ装置で実現されてもよい。

図面に示されているフローチャートは、例示的な説明に過ぎず、必ずしも全ての内容及び操作／ステップを含むわけではなく、説明された順序で実行する必要もない。例えば、ある操作／ステップは、分解することができ、ある操作／ステップは、マージ又は部分的にマージすることができるので、実際に実行される順序は、実際の状況に応じて変更される可能性がある。

説明すべきものとして、本明細書で言及される「複数」は、２つ以上を指す。「及び／又は」は、関連オブジェクトの関連関係を記述するものであり、３種類の関係があり得ることを表す。例えば、Ａ及び／又はＢは、Ａが単独で存在する場合、Ａ及びＢが同時に存在する場合、Ｂが単独で存在する場合という３つの場合を表すことができる。文字「／」は、一般的に、前後の関連オブジェクトが「又は」の関係にあることを表す。

音声信号におけるノイズは、音声品質を大幅に低下させて、ユーザの聴覚体験に影響を与える。そこで、音声信号の品質を向上させるために、音声信号の強調処理を行う必要がある。これにより、できるだけノイズを除去して、信号におけるオリジナルの音声信号（即ち、ノイズが含まれない純粋な信号）を保持する。音声の強調処理を実現するために、本願発明が提案されている。

本願発明は、音声通話の応用シナリオ、例えば、インスタントメッセージングアプリケーションによる音声通信、ゲームアプリケーションにおける音声通話に適用可能である。具体的には、音声の送信側、音声の受信側、又は音声通信サービスを提供するサービス側で本願発明に従って音声強調を行うことができる。

クラウド会議は、オンライン勤務における重要な一環である。クラウド会議において、クラウド会議の参加者の音声収集装置は、発言者の音声信号を収集した後に、収集された音声信号をその他の会議参加者に送信する必要がある。このプロセスは、複数の参加者の間での音声信号の伝送及び再生に関し、音声信号に混入されたノイズ信号を処理しなければ、会議参加者の聴覚体験に極めて大きな影響を与える。このようなシナリオでは、本願発明を応用してクラウド会議の音声信号を強調することができる。これにより、会議参加者が聞き取った音声信号は、強調された音声信号であり、音声信号の品質が向上する。

クラウド会議は、クラウドコンピューティング技術に基づく高効率で、便利な、低コストの会議形式である。利用者は、インターネットインタフェースを介して、簡単で使いやすい操作を行うだけで、迅速かつ高効率に世界中のチーム及び顧客と、音声、データファイル、及びビデオを同期的に共有することができる。一方、会議中のデータの伝送、処理などの複雑な技術は、クラウド会議のサービス提供者が利用者を補助することにより操作される。

現在、中国国内のクラウド会議は、主にサービスとしてのソフトウェア（ＳａａＳ：ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）モードを主体とするサービス内容に焦点を当てて、電話、ネットワーク、ビデオなどのサービス形式を含む。クラウドコンピューティングに基づくビデオ会議がクラウド会議と呼ばれる。クラウド会議の時代において、データの伝送、処理、記憶は、全てビデオ会議提供者のコンピュータリソースによって処理され、ユーザは、さらに高価なハードウェアを購入したり煩雑なソフトウェアをインストールしたりする必要が全くなく、クライアントを開いて該当するインタフェースに入るだけで、高効率な遠隔会議を行うことができる。

クラウド会議システムは、マルチサーバの動的クラスタ配置をサポートし、複数台の高性能サーバを提供し、会議の安定性、安全性、可用性を大幅に向上させる。近年、ビデオ会議は、コミュニケーション効率を大幅に向上させ、コミュニケーションコストを持続的に低減させ、内部管理レベルのアップグレードをもたらすことができるため、多くのユーザに人気があり、政府、軍隊、交通、輸送、金融、事業者、教育、企業などの各分野に幅広く応用されている。

図１は、１つの具体的な実施例によって示されたネットワーク電話（ＶｏＩＰ：ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）システムにおける音声通信リンクの模式図である。図１に示すように、送信側１１０と受信側１２０のネットワーク接続に基づき、送信側１１０と受信側１２０は、音声伝送を行うことができる。

図１に示すように、送信側１１０は、収集モジュール１１１と、前強調処理モジュール１１２と、符号化モジュール１１３と、を含む。そのうち、収集モジュール１１１は、音声信号を収集し、収集した音響信号をデジタル信号に変換することができ、前強調処理モジュール１１２は、収集された音声信号を強調することにより、収集された音声信号におけるノイズを除去し、音声信号の品質を向上させる。符号化モジュール１１３は、強調された音声信号を符号化することにより、音声信号の伝送中の耐干渉性を向上させる。前強調処理モジュール１１２は、本願の方法に従って音声強調を行い、音声を強調してから、符号化圧縮及び伝送を行うことができ、このように、受信側で受信された信号がノイズの影響を受けなくなることを保証できる。

受信側１２０は、復号化モジュール１２１と、後強調モジュール１２２と、再生モジュール１２３と、を含む。復号化モジュール１２１は、受信された符号化音声信号を復号化することにより、復号化された音声信号を取得し、後強調モジュール１２２は、復号化された音声信号の強調処理を行い、再生モジュール１２３は、強調処理後の音声信号を再生する。後強調モジュール１２２も本願の方法に従って音声強調を行うことができる。いくつかの実施例において、受信側１２０は、音響効果調節モジュールをさらに含んでもよく、該音響効果調節モジュールは、強調された音声信号の音響効果調節を行う。

具体的な実施例において、受信側１２０のみで、又は送信側１１０のみで本願の方法に従って音声強調を行ってもよく、もちろん、送信側１１０と受信側１２０の両方で本願の方法に従って音声強調を行ってもよい。

いくつかの応用シナリオにおいて、ＶｏＩＰシステムにおける端末機器は、ＶｏＩＰ通信をサポートすることができる以外に、その他のサードパーティのプロトコル、例えば、従来の公共交換電話網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）回線電話をサポートすることもできる。一方、従来のＰＳＴＮサービスは音声強調を行うことができず、このようなシナリオにおいては、受信側としての端末で本願の方法に従って音声強調を行ってもよい。

本願発明を具体的に説明する前に、音声信号の生成について紹介する必要がある。音声信号は、脳の制御下の人体の発音器官の生理的運動によって生成されるものである。即ち、気管では、一定のエネルギーのノイズのような衝撃信号（励起信号に相当）が発生し、衝撃信号が人間の声帯（声帯が声門フィルタに相当）に衝撃を与え、略周期的な開閉が発生し、口腔によって増幅された後、声が発する（音声信号が出力される）。

図２は、音声信号生成のデジタルモデルの模式図を示す。このデジタルモデルによって、音声信号の生成プロセスを記述することができる。図２に示すように、励起信号が声門フィルタに衝撃を与えた後、さらに利得制御を行って、音声信号を出力する。ここで、声門フィルタは、声門パラメータによって限定される。このプロセスは、下記の数式で表すことができる。

ここで、ｘ（ｎ）は入力された音声信号を表し、Ｇは利得を表し、線形予測利得とも呼ばれ、ｒ（ｎ）は励起信号を表し、ａｒ（ｎ）は声門フィルタを表す。

図３は、１つのオリジナルの音声信号から分解された励起信号及び声門フィルタの周波数応答の模式図を示し、図３ａは、該オリジナルの音声信号の周波数応答の模式図を示し、図３ｂは、該オリジナルの音声信号から分解された声門フィルタの周波数応答の模式図を示し、図３ｃは、該オリジナルの音声信号から分解された励起信号の周波数応答の模式図を示す。図３に示すように、該オリジナルの音声信号の周波数応答の模式図における起伏部分は、声門フィルタの周波数応答の模式図におけるピーク位置に対応し、励起信号は、該オリジナルの音声信号に対して線形予測（ＬＰ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）分析を行った残差信号に相当するため、それに対応する周波数応答が緩やかである。

上記から分かるように、１つのオリジナルの音声信号（即ち、ノイズが含まれない音声信号）から励起信号、声門フィルタ、及び利得を分解することができ、分解された励起信号、声門フィルタ、及び利得は、該オリジナルの音声信号を表現することに使用可能であり、ここで、声門フィルタは、声門パラメータによって表現できる。逆に、１つのオリジナルの音声信号に対応する励起信号、声門フィルタを決定するための声門パラメータ、及び利得が知られている場合、対応する励起信号、声門フィルタ、及び利得に基づいて該オリジナルの音声信号を再構成することができる。

本願発明は、該原理に基づき、１つの処理対象の音声信号に基づいて、該音声信号におけるオリジナルの音声信号に対応する声門パラメータ、励起信号、及び利得を予測し、その後、得られた声門パラメータ、励起信号、及び利得に基づいて音声合成を行うのである。合成された音声信号は、該処理対象の音声信号におけるオリジナルの音声信号に相当する。このため、合成された信号は、ノイズが除去された信号に相当する。該プロセスでは、該処理対象の音声信号の強調が実現されるため、合成された信号は、該処理対象の音声信号に対応する強調音声信号とも呼ばれる。

図４は、本願の一実施例によって示された音声強調方法のフローチャートである。該方法は、処理能力を具備するコンピュータ機器、例えば、サーバや端末などによって実行されてもよい。ここでは、具体的な限定を行わない。図４に示すように、該方法は、少なくとも、ステップ４１０から４４０を含む。以下、詳しく紹介する。

ステップ４１０では、ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得する。

音声信号は、定常ランダムに変化するのではなく、時間とともに変化するが、短時間内で強い相関があり、即ち、音声信号には短期間の相関性がある。このため、本願発明では、音声フレームを単位として音声強調を行う。ターゲット音声フレームとは、現在の強調処理対象の音声フレームを指す。

ターゲット音声フレームの周波数領域での表現（「周波数領域表現」とも呼ばれる）は、該ターゲット音声フレームの時間領域信号に対して時間周波数変換を行うことにより取得することができ、時間周波数変換は、例えば、短時間フーリエ変換（ＳＴＦＴ：Ｓｈｏｒｔ－ｔｅｒｍＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）であってもよい。周波数領域での表現は、振幅スペクトルや複素スペクトルなどであってもよく、ここでは具体的な限定を行わない。

声門パラメータとは、声門フィルタを構築するためのパラメータを指し、声門パラメータが決定されると、それに応じて声門フィルタが決定され、声門フィルタはデジタルフィルタである。声門パラメータは、線形予測符号化（ＬＰＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）係数であってもよく、線スペクトル周波数（ＬＳＦ：ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｙ）パラメータであってもよい。ターゲット音声フレームに対応する声門パラメータの数は、声門フィルタの次数と相関する。前記声門フィルタがＫ次のフィルタである場合、前記声門パラメータは、Ｋ次のＬＳＦパラメータ又はＫ次のＬＰＣ係数を含み、ここで、ＬＳＦパラメータとＬＰＣ係数は相互に変換することができる。

１つのｐ次の声門フィルタは、数式２で表すことができる。

ここで、
（外１）
はＬＰＣ係数であり、ｐは声門フィルタの次数であり、ｚは声門フィルタの入力信号である。

数式２を基にして、

のようにする場合、

を得ることができる。

物理的には、Ｐ（ｚ）とＱ（ｚ）は、それぞれ声門開放と声門閉鎖の周期的な変化法則を表す。多項式Ｐ（ｚ）とＱ（ｚ）の根は、複素平面上で交互に出現し、複素平面の単位円上に分布する一連の角周波数であり、ＬＳＦパラメータは、即ち、複素平面の単位円上の、Ｐ（ｚ）とＱ（ｚ）の根に対応する角周波数であり、ｎ番目の音声フレームに対応するＬＳＦパラメータＬＳＦ（ｎ）は、ω_ｎで表すことができ、もちろん、ｎ番目の音声フレームに対応するＬＳＦパラメータＬＳＦ（ｎ）は、該ｎ番目の音声フレームに対応するＰ（ｚ）の根及び対応するＱ（ｚ）の根で直接に表すこともできる。ｎ番目の音声フレームに対応するＰ（ｚ）とＱ（ｚ）の複素平面での根をθ_ｎとして定義すると、ｎ番目の音声フレームに対応するＬＳＦパラメータは、数式６で表す。

ここで、Ｒｅｌ｛θ_ｎ｝は複素数θ_ｎの実部を表し、Ｉｍａｇ｛θ_ｎ｝は複素数θ_ｎの虚部を表す。

ステップ４１０で行われる声門パラメータ予測とは、ターゲット音声フレームにおけるオリジナルの音声信号を再構成するための声門パレメータの予測を指す。一実施例では、訓練されたニューラルネットワークモデルによって、該ターゲット音声フレームに対応する声門パレメータを予測してもよい。

本願のいくつかの実施例において、ステップ４１０は、前記ターゲット音声フレームの周波数領域での表現を第１ニューラルネットワークに入力するステップであって、前記第１ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータとに基づいて訓練されたものである、ステップと、前記第１ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する声門パラメータを出力するステップと、を含む。

第１ニューラルネットワークとは、声門パラメータ予測を行うためのニューラルネットワークモデルを指す。ここで、第１ニューラルネットワークは、長・短期記憶ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、全結合ニューラルネットワークなどによって構築されたモデルであってもよく、ここでは具体的な限定を行わない。

サンプル音声フレームの周波数領域での表現は、サンプル音声フレームの時間領域信号に対して時間周波数変換を行うことにより得られたものであり、該周波数領域での表現は、振幅スペクトルや複素スペクトルなどであってもよく、ここでは具体的な限定を行わない。

本願のいくつかの実施例において、サンプル音声フレームで示される信号は、既知のオリジナルの音声信号と既知のノイズ信号とを組み合わせることにより取得することができる。オリジナルの音声信号が知られている場合、オリジナルの音声信号に対して線形予測分析を行うことにより、各サンプル音声フレームに対応する声門パラメータを取得することができる。

訓練プロセスでは、サンプル音声フレームの周波数領域での表現を第１ニューラルネットワークに入力した後、第１ニューラルネットワークによって、サンプル音声フレームの周波数領域での表現に基づいて声門パラメータ予測を行い、予測声門パラメータを出力し、次に、予測声門パラメータと、該サンプル音声フレームにおけるオリジナルの音声信号に対応する声門パラメータとを比較し、両者が一致しない場合、第１ニューラルネットワークがサンプル音声フレームの周波数領域での表現に基づいて出力した予測声門パラメータが、該サンプル音声フレームにおけるオリジナルの音声信号に対応する声門パラメータと一致するまで、第１ニューラルネットワークのパラメータを調整する。訓練終了後、該第１ニューラルネットワークは、入力された音声フレームの周波数領域での表現に基づいて、該音声フレームにおけるオリジナルの音声信号に対応する声門パラメータを正確に予測する能力を学習した。

本願のいくつかの実施例では、音声フレーム間に相関性があり、隣接する２つの音声フレーム間の周波数領域特徴の類似性が高いため、ターゲット音声フレームの前の過去音声フレームに対応する声門パラメータを参照して、ターゲット音声フレームに対応する声門パラメータを予測してもよい。本実施例において、ステップ４１０は、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータを参考として、前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップを含む。

過去音声フレームとターゲット音声フレームとの間に相関性があり、ターゲット音声フレームの過去音声フレームに対応する声門パラメータと、ターゲット音声フレームに対応する声門パラメータとの間に類似性があるため、ターゲット音声フレームの過去音声フレームにおけるオリジナルの音声信号に対応する声門パラメータを参考として、ターゲット音声フレームの声門パラメータの予測プロセスを監督することにより、声門パラメータ予測の確度を向上させることができる。

本願の一実施例では、音声フレームが近いほど声門パラメータの類似性が高くなるため、ターゲット音声フレームに近い過去音声フレームに対応する声門パラメータを参考とすると、予測の確度をさらに保証することができる。例えば、ターゲット音声フレームの１つ前の音声フレームに対応する声門パラメータを参考としてもよい。具体的な実施例において、参考とする過去音声フレームの数は、１つのフレームであってもよいし、複数のフレームであってもよく、実際の必要に応じて選択して使用してもよい。

ターゲット音声フレームの過去音声フレームに対応する声門パラメータは、該過去音声フレームに対して声門パラメータ予測を行うことにより得られた声門パラメータであってもよい。言い換えれば、声門パラメータ予測プロセスでは、過去音声フレームに対して予測された声門パラメータを再利用して、現在の音声フレームの声門パラメータ予測プロセスを監督する。

本願のいくつかの実施例では、第１ニューラルネットワークを利用して声門パラメータを予測するシナリオにおいて、ターゲット音声フレームの周波数領域での表示を入力とするに加えて、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータも該第１ニューラルネットワークの入力とすることにより、声門パラメータ予測を行う。本実施例において、ステップ４１０は、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとを第１ニューラルネットワークに入力するステップであって、前記第１ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータと、前記サンプル音声フレームの過去音声フレームに対応する声門パラメータとに基づいて訓練されたものである、ステップと、前記第１ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとに基づいて予測を行い、前記ターゲット音声フレームに対応する声門パラメータを出力するステップと、を含む。

本実施例の第１ニューラルネットワークの訓練プロセスでは、サンプル音声フレームの周波数領域での表現と、サンプル音声フレームの過去音声フレームに対応する声門パラメータとを第１ニューラルネットワークに入力し、該第１ニューラルネットワークによって予測声門パラメータを出力し、出力した予測声門パラメータが、該サンプル音声フレームにおけるオリジナルの音声信号に対応する声門パラメータと一致しない場合、出力した予測声門パラメータが、該サンプル音声フレームにおけるオリジナルの音声信号に対応する声門パラメータと一致するまで、第１ニューラルネットワークのパラメータを調整する。訓練終了後、該第１ニューラルネットワークは、音声フレームの周波数領域での表現と、該音声フレームの過去音声フレームに対応する声門パラメータとに基づいて、該音声フレームにおけるオリジナルの音声信号を再構成するための声門パラメータを予測する能力を学習した。

引き続いて図４を参照すると、ステップ４２０では、前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得する。

過去音声フレームに対応する利得とは、過去音声フレームおけるオリジナルの音声信号を再構成するための利得を指す。同様に、ステップ４２０で予測されたターゲット音声フレームに対応する利得は、ターゲット音声フレームおけるオリジナルの音声信号を再構成するためのものである。

本願のいくつかの実施例では、深層学習によって、ターゲット音声フレームに対して利得予測を行ってもよい。即ち、構築されたニューラルネットワークモデルによって利得予測を行う。説明の便宜上、利得予測を行うためのニューラルネットワークモデルを第２ニューラルネットワークと呼ぶ。該第２ニューラルネットワークは、長・短期記憶ニューラルネットワーク、畳み込みニューラルネットワーク、全結合ニューラルネットワークなどによって構築されたモデルであってもよい。

本願の一実施例において、ステップ４２０は、前記ターゲット音声フレームの過去音声フレームに対応する利得を第２ニューラルネットワークに入力するステップであって、前記第２ニューラルネットワークは、サンプル音声フレームに対応する利得と、前記サンプル音声フレームの過去音声フレームに対応する利得とに基づいて訓練されたものである、ステップと、前記第２ニューラルネットワークによって、前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対応する利得を出力するステップと、を含んでもよい。

サンプル音声フレームで示される信号は、既知のオリジナルの音声信号と既知のノイズ信号とを組み合わせることにより取得することができる。このため、オリジナルの音声信号が知られている場合、該オリジナルの音声信号に対して線形予測分析を行うことに応じて、各サンプル音声フレームに対応する利得、即ち、該サンプル音声フレームにおけるオリジナルの音声信号を再構成するための利得を決定することができる。

ターゲット音声フレームの過去音声フレームに対応する利得は、該第２ニューラルネットワークによって該過去音声フレームに対して利得予測を行うことにより得られたものであってもよい。言い換えれば、過去音声フレームに対して予測された利得を再利用して、ターゲット音声フレームに対して利得予測を行うプロセスにおける第２ニューラルネットワークの入力とする。

第２ニューラルネットワークを訓練するプロセスでは、サンプル音声フレームの過去音声フレームに対応する利得を第２ニューラルネットワークに入力し、次に、第２ニューラルネットワークによって、入力されたサンプル音声フレームの過去音声フレームに対応する利得に基づいて利得予測を行い、予測利得を出力し、さらに、予測利得と、該サンプル音声フレームに対応する利得とに基づいて、第２ニューラルネットワークのパラメータを調整し、即ち、予測利得が、該サンプル音声フレームに対応する利得と一致しない場合、第２ニューラルネットワークがサンプル音声フレームに対して出力した予測利得が、該サンプル音声フレームに対応する利得と一致するまで、第２ニューラルネットワークのパラメータを調整する。上記のような訓練プロセスを経ると、第２ニューラルネットワークは、ある音声フレームの過去音声フレームに対応する利得に基づいて、該音声フレームに対応する利得を予測する能力を学習し、利得予測を正確に行うことができる。

ステップ４３０では、前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得する。

ステップ４３０で行われる励起信号予測とは、ターゲット音声フレームにおけるオリジナルの音声信号を再構成するための励起信号の予測を指す。このため、取得されたターゲット音声フレームに対応する励起信号は、ターゲット音声フレームおけるオリジナルの音声信号の再構成に使用可能である。

本願のいくつかの実施例では、深層学習によって励起信号の予測を行い、即ち、構築されたニューラルネットワークモデルによって励起信号予測を行ってもよい。説明の便宜上、励起信号予測を行うためのニューラルネットワークモデルを第３ニューラルネットワークと呼ぶ。該第３ニューラルネットワークは、長・短期記憶ニューラルネットワーク、畳み込みニューラルネットワーク、全結合ニューラルネットワークなどによって構築されたモデルであってもよい。

本願のいくつかの実施例において、ステップ４３０は、前記ターゲット音声フレームの周波数領域での表現を第３ニューラルネットワークに入力するステップであって、前記第３ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する励起信号の周波数領域での表現とに基づいて訓練されたものである、ステップと、前記第３ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する励起信号の周波数領域での表現を出力するステップと、を含む。

サンプル音声フレームに対応する励起信号とは、サンプル音声フレームにおけるオリジナルの音声信号の再構成に使用可能な励起信号を指す。サンプル音声フレームに対応する励起信号は、サンプル音声フレームにおけるオリジナルの音声信号に対して線形予測分析を行うことにより決定することができる。励起信号の周波数領域での表現は、励起信号の振幅スペクトルや複素スペクトルであってもよく、ここでは具体的な限定を行わない。

第３ニューラルネットワークを訓練するプロセスでは、サンプル音声フレームの周波数領域での表現を第３ニューラルネットワークに入力し、次に、第３ニューラルネットワークによって、入力されたサンプル音声フレームの周波数領域での表現に基づいて励起信号予測を行い、予測励起信号の周波数領域での表現を出力し、さらに、予測励起信号の周波数領域での表現と、該サンプル音声フレームに対応する励起信号の周波数領域での表現とに基づいて、第３ニューラルネットワークのパラメータを調整し、即ち、予測励起信号の周波数領域での表現が、該サンプル音声フレームに対応する励起信号の周波数領域での表現と一致しない場合、第３ニューラルネットワークがサンプル音声フレームに対して出力した予測励起信号の周波数領域での表現が、該サンプル音声フレームに対応する励起信号の周波数領域での表現と一致するまで、第３ニューラルネットワークのパラメータを調整する。上記のような訓練プロセスを経ると、第３ニューラルネットワークは、ある音声フレームの周波数領域での表現に基づいて、該音声フレームに対応する励起信号を予測する能力を学習し、励起信号予測を正確に行うことができる。

ステップ４４０では、前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得する。

前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号を取得した後、この３つのパラメータに基づいて線形予測分析を行って合成処理を実現することにより、該ターゲット音声フレームに対応する強調音声信号を取得してもよい。具体的には、まず、ターゲット音声フレームに対応する声門パラメータに基づいて声門フィルタを構築し、次に、該ターゲット音声フレームに対応する利得と、対応する励起信号とを参照して、上記の数式１によって音声合成を行うことにより、ターゲット音声フレームに対応する強調音声信号を取得してもよい。

本願のいくつかの実施例において、図５に示すように、ステップ４４０は、ステップ５１０から５３０を含む。

ステップ５１０では、前記ターゲット音声フレームに対応する声門パラメータに基づいて、声門フィルタを構築する。

声門パラメータがＬＰＣ係数である場合、直接に上記の数式２によって声門フィルタの構築を行ってもよい。声門フィルタがＫ次のフィルタである場合、ターゲット音声フレームに対応する声門パラメータは、Ｋ次のＬＰＣ係数、即ち、上記の数式２における
（外２）
を含む。他の実施例において、上記の数式２における定数１もＬＰＣ係数とされてもよい。

声門パラメータがＬＳＦパラメータである場合、ＬＳＦパラメータをＬＰＣ係数に変換してから、上記の数式２によって声門フィルタを構築してもよい。

ステップ５２０では、前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第１音声信号を取得する。

フィルタリング処理は、即ち、時間領域における畳み込みである。このため、上記のように声門フィルタによって励起信号をフィルタリングするプロセスは、時間領域に変換して行うことができる。ターゲット音声フレームに対応する励起信号の周波数領域での表示を予測したうえで、励起信号の周波数領域での表示を時間領域に変換することにより、ターゲット音声フレームに対応する励起信号の時間領域での信号を取得する。

本願発明において、ターゲット音声フレームは、デジタル信号であり、複数のサンプルポイントを含む。声門フィルタによって励起信号をフィルタリングすることは、即ち、あるサンプルポイントの前の過去サンプルポイントと該声門フィルタとを畳み込むことにより、該サンプルポイントに対応するターゲット信号値を取得することである。本願のいくつかの実施例において、前記ターゲット音声フレームには、複数のサンプルポイントが含まれ、前記声門フィルタは、Ｋ次（Ｋは正の整数）のフィルタであり、前記励起信号には、前記ターゲット音声フレームにおける複数のサンプルポイントのそれぞれに対応する励起信号値が含まれる。上記のようなフィルタリングプロセスによれば、ステップ５２０は、前記ターゲット音声フレームにおける各サンプルポイントの前のＫ個のサンプルポイントに対応する励起信号値と前記Ｋ次のフィルタとを畳み込むことにより、前記ターゲット音声フレームにおける各サンプルポイントのターゲット信号値を取得するステップと、前記ターゲット音声フレームにおける全てのサンプルポイントに対応するターゲット信号値を時間順に組み合わせることにより、前記第１音声信号を取得するステップと、を含む。ここで、Ｋ次のフィルタの表現式は、上記の数式１を参照すればよい。つまり、ターゲット音声フレームにおけるサンプルポイント毎に、その前のＫ個のサンプルポイントに対応する励起信号値を利用してＫ次のフィルタと畳み込むことにより、各サンプルポイントに対応するターゲット信号値を取得する。

理解できるように、ターゲット音声フレームにおける最初のサンプルポイントの場合、該最初のサンプルポイントに対応するターゲット信号値を計算するには、該ターゲット音声フレームの１つ前の音声フレームにおける最後のＫ個のサンプルポイントの励起信号値を用いる必要がある。同様に、該ターゲット音声フレームにおける２番目のサンプルポイントの場合、ターゲット音声フレームにおける２番目のサンプルポイントに対応するターゲット信号値を取得するために、ターゲット音声フレームの１つ前の音声フレームにおける最後の（Ｋ－１）個のサンプルポイントの励起信号値、及び、ターゲット音声フレームにおける最初のサンプルポイントの励起信号値を用いてＫ次のフィルタと畳み込む必要がある。

総括すると、ステップ５０２には、ターゲット音声フレームの過去音声フレームに対応する励起信号値も必要となる。所要する過去音声フレームにおけるサンプルポイントの数は、声門フィルタの次数と相関している。即ち、声門フィルタがＫ次である場合、ターゲット音声フレームの１つ前の音声フレームにおける最後のＫ個のサンプルポイントに対応する励起信号値が必要となる。

ステップ５３０では、前記ターゲット音声フレームに対応する利得で、前記第１音声信号を増幅処理することにより、前記ターゲット音声フレームに対応する増強音声信号を取得する。

上記のようなステップ５１０～５３０によって、ターゲット音声フレームに対して予測された声門パラメータ、励起信号、及び利得に対する音声合成が実現され、ターゲット音声フレームの強調音声信号が取得される。

本願発明では、ターゲット音声フレームの周波数領域での表現に基づいて、ターゲット音声フレームにおけるオリジナルの音声信号を再構成するための声門パラメータ及び励起信号を予測し、ターゲット音声フレームの過去音声フレームの利得に基づいて、ターゲット音声フレームにおけるオリジナルの音声信号を再構成するための利得を予測する。次に、予測されたターゲット音声フレームに対応する声門パラメータ、対応する励起信号、及び対応する利得に対して音声合成を行う。これは、ターゲット音声フレームにおけるオリジナルの音声信号の再構成に相当する。合成処理によって得られた信号は、即ち、ターゲット音声フレームに対応する強調音声信号であり、音声フレームの強調が実現され、音声信号の品質が向上する。

関連技術において、スペクトル推定及びスペクトル回帰予測の方式で音声強調を行うことが存在する。スペクトル推定の音声強調方式では、一段の混合音声に音声部分とノイズ部分とが含まれると考えられるため、統計モデルなどによってノイズを推定することができる。混合音声に対応するスペクトルから、ノイズに対応するスペクトルを減算し、残るのは音声スペクトルである。これにより、混合音声に対応するスペクトルから、ノイズに対応するスペクトルを減算したスペクトルに基づいて、クリーンな音声信号を復元する。スペクトル回帰予測の音声強調方式では、ニューラルネットワークによって、音声フレームに対応するマスキング閾値を予測し、次に、該マスキング閾値に基づいて、混合信号スペクトルに対して利得制御を行うことにより、強調されたスペクトルを取得する。該マスキング閾値は、該音声フレームにおける各々の周波数点における音声成分及びノイズ成分の割合を反映している。

上記のスペクトル推定及びスペクトル回帰予測による音声強調方式は、ノイズスペクトルの事後確率に基づく推定であり、推定されたノイズが不正確である場合があり得る。例えば、キーボードを叩くなどの過渡ノイズが瞬時に発生するため、推定されたノイズスペクトルが非常に不正確である。これにより、ノイズ抑制効果が良くない。ノイズスペクトルの予測が不正確である場合に、推定されたノイズスペクトルに応じてオリジナルの混合音声信号を処理すると、混合音声信号における音声の歪みを引き起こすか、又はノイズ抑制効果の劣化を引き起こす可能性がある。従って、この場合、音声忠実度とノイズ抑制との間の折衷が必要となる。

本願発明では、声門パラメータが音声生成の物理的プロセスにおける声門特徴と強い相関を有するため、予測された声門パラメータに基づいて音声を合成することにより、ターゲット音声フレームにおけるオリジナルの音声信号の音声構造が効果的に保証される。従って、予測された声門パラメータ、励起信号、及び利得に対して合成を行うことによりターゲット音声フレームの強調音声信号を取得することは、ターゲット音声フレームにおけるオリジナルの音声信号が削減されることを効果的に回避することができ、音声構造が効果的に保護される。そして、ターゲット音声フレームに対応する声門パラメータ、励起信号、及び利得を予測した後、オリジナルのノイズ付きの音声を処理することがなくなるため、音声忠実度とノイズ抑制との両者の間の折衷も不要になる。

本願のいくつかの実施例において、ステップ４１０の前に、該方法は、前記ターゲット音声フレームの時間領域信号を取得するステップと、前記ターゲット音声フレームの時間領域信号を時間周波数変換することにより、前記ターゲット音声フレームの周波数領域での表現を取得するステップと、をさらに含む。

時間周波数変換は、短時間フーリエ変換（ＳＴＦＴ：Ｓｈｏｒｔ－ｔｅｒｍＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）であってもよい。周波数領域での表現は、振幅スペクトルや複素スペクトルなどであってもよく、ここでは具体的な限定を行わない。

短時間フーリエ変換では、窓掛け・オーバーラップの操作を採用してフレーム間の不平滑化を解消する。図６は、１つの具体的な実施例によって示された短時間フーリエ変換における窓掛け・オーバーラップの模式図である。図６において、５０％の窓掛け・オーバーラップの操作が採用され、短時間フーリエ変換が６４０個のサンプルポイントに対するものである場合、該窓関数の重畳サンプル数（ｈｏｐ－ｓｉｚｅ）は３２０である。窓掛けに使用される窓関数は、ハニング（Ｈａｎｎｉｎｇ）窓であってもよく、もちろん、その他の窓関数を採用してもよく、ここでは具体的な限定を行わない。

その他の実施例において、５０％以外の窓掛け・オーバーラップの操作を採用してもよい。例えば、短時間フーリエ変換が５１２個のサンプルポイントに対するものである場合、１つの音声フレームに３２０個のサンプルポイントが含まれれば、１つ前の音声フレームの１９２個のサンプルポイントをオーバーラップするだけでよい。

本願のいくつかの実施例において、前記ターゲット音声フレームの時間領域信号を取得するステップは、第２音声信号を取得するステップであって、前記第２音声信号は、収集された音声信号、又は、符号化音声信号を復号化した音声信号である、ステップと、前記第２音声信号をフレーム化することにより、前記ターゲット音声フレームの時間領域信号を取得するステップと、を含む。

いくつかの実例では、設定されたフレーム長で第２音声信号をフレーム化してもよい。該フレーム長は、実際の必要に応じて設定されてもよい。例えば、フレーム長は、２０ｍｓに設定されてもよい。

上記のように、本願発明は、音声強調のために送信側に適用されてもよいし、音声強調のために受信側に適用されてもよい。

本願発明が送信側に適用される場合、該第２音声信号は、送信側で収集された音声信号である。第２音声信号をフレーム化することにより、複数の音声フレームを取得する。フレーム化によって音声フレームが取得された後、各々の音声フレームをターゲット音声フレームとして、上記のステップ４１０～４４０のプロセスでターゲット音声フレームを強調してもよい。さらに、ターゲット音声フレームに対応する強調音声信号を取得した後、該増強音声信号を符号化することにより、得られた符号化音声信号に基づいて伝送を行ってもよい。

一実施例において、直接収集された音声信号がアナログ信号であるので、信号処理を便利に行うために、フレーム化の前に、さらに音声信号をデジタル化する必要がある。設定されたサンプリングレートで、収集された音声信号をサンプリングしてもよい。設定されたサンプリングレートは、１６０００Ｈｚ、８０００Ｈｚ、３２０００Ｈｚ、４８０００Ｈｚなどであってもよく、具体的には、実際の必要に応じて設定されてもよい。

本願発明が受信側に適用される場合、該第２音声信号は、受信された符号化音声信号を復号化した音声信号である。第２音声信号をフレーム化することにより、複数の音声フレームを取得した後、該複数の音声フレームをターゲット音声フレームとして、上記のステップ４１０～４４０のプロセスでターゲット音声フレームを強調することにより、ターゲット音声フレームの強調音声信号を取得する。さらに、ターゲット音声フレームに対応する強調音声信号を再生してもよい。取得された強調音声信号は、ターゲット音声フレームの強調前の信号に比べて、ノイズが既に除去されており、音声信号の品質がより高いため、ユーザにとって、聴覚体験がより良い。

以下、具体的な実施例を参照しながら、本願発明をさらに説明する。

図７は、１つの具体的な実施例によって示された音声強調方法のフローチャートである。ｎ番目の音声フレームをターゲット音声フレームとすると仮定すると、該ｎ番目の音声フレームの時間領域信号はｓ（ｎ）となる。図７に示すように、ステップ７１０では、該ｎ番目の音声フレームを時間周波数変換することにより、該ｎ番目の音声フレームの周波数領域での表現Ｓ（ｎ）を取得する。Ｓ（ｎ）は、振幅スペクトルであってもよいし、複素スペクトルであってもよく、ここでは具体的な限定を行わない。

ｎ番目の音声フレームの周波数領域での表現Ｓ（ｎ）を取得した後、ステップ７２０によって、該ｎ番目の音声フレームに対応する声門パラメータを予測し、ステップ７３０及び７４０によって、該ターゲット音声フレームに対応する励起信号を取得することができる。

ステップ７２０では、ｎ番目の音声フレームの周波数領域での表現Ｓ（ｎ）のみを第１ニューラルネットワークの入力としてもよいし、該ターゲット音声フレームの過去音声フレームに対応する声門パラメータＰ＿ｐｒｅ（ｎ）と、ｎ番目の音声フレームの周波数領域での表現Ｓ（ｎ）とを第１ニューラルネットワークの入力としてもよい。第１ニューラルネットワークは、入力された情報に基づいて声門パラメータ予測を行うことにより、該ｎ番目の音声フレームに対応する声門パラメータａｒ（ｎ）を取得することができる。

ステップ７３０では、ｎ番目の音声フレームの周波数領域での表現Ｓ（ｎ）を第３ニューラルネットワークの入力とする。該第３ニューラルネットワークは、入力情報に基づいて励起信号予測を行い、ｎ番目の音声フレームに対応する励起信号の周波数領域での表現Ｒ（ｎ）を出力する。これを基にして、ステップ７４０では、周波数時間変換を行うことにより、ｎ番目の音声フレームに対応する励起信号の周波数領域での表現Ｒ（ｎ）を時間領域信号ｒ（ｎ）に変換することができる。

ｎ番目の音声フレームに対応する利得は、ステップ７５０によって取得される。ステップ７５０では、ｎ番目の音声フレームの過去音声フレームの利得Ｇ＿ｐｒｅ（ｎ）を第２ニューラルネットワークの入力とする。これに応じて、第２ニューラルネットワークは、利得予測を行うことにより、該ｎ番目の音声フレームに対応する利得Ｇ＿（ｎ）を取得する。

ｎ番目の音声フレームに対応する声門パラメータａｒ（ｎ）、対応する励起信号ｒ（ｎ）、及び対応する利得Ｇ＿（ｎ）を取得した後、この３つのパラメータに基づいて、ステップ７６０で合成フィルタリングを行うことにより、該ｎ番目の音声フレームに対応する強調音声信号ｓ＿ｅ（ｎ）を取得する。具体的には、線形予測分析の原理で音声合成を行ってもよい。線形予測分析の原理で音声合成を行うプロセスには、過去音声フレームの情報を利用する必要がある。具体的には、声門フィルタによって励起信号をフィルタリングするプロセスは、即ち、ｔ番目のサンプルポイントに対して、その前のｐ個の過去サンプルポイントの励起信号値を利用してｐ次の声門フィルタと畳み込むことにより、該サンプルポイントに対応するターゲット信号値を取得することである。声門フィルタが１６次のデジタルフィルタである場合、ｎ番目の音声フレームに対して合成処理を行うプロセスには、ｎ－１番目のフレームにおける最後のｐ個のサンプルポイントの情報を利用する必要もある。

以下、具体的な実施例を参照しながら、上記のステップ７２０、ステップ７３０、及びステップ７５０をさらに説明する。処理対象の音声信号のサンプリング周波数Ｆｓ＝１６０００Ｈｚ、フレーム長が２０ｍｓであると仮定すると、各々の音声フレームには、３２０個のサンプルポイントが含まれる。該方法で行われる短時間フーリエ変換は、６４０個のサンプルポイントを採用し、重畳サンプルポイントが３２０個であると仮定する。さらに、声門パラメータが線スペクトル周波数係数であり、即ち、ｎ番目の音声フレームに対応する声門パラメータがａｒ（ｎ）であり、対応するＬＳＦパラメータがＬＳＦ（ｎ）であると仮定し、声門フィルタを１６次のフィルタとする。

図８は、１つの具体的な実施例によって示された第１ニューラルネットワークの模式図である。図８に示すように、該第１ニューラルネットワークには、１つの長・短期記憶（ＬＳＴＭ：Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）層と、カスケードされた３つの全結合（ＦＣ：ＦｕｌｌＣｏｎｎｅｃｔｅｄ）層とが含まれる。そのうち、ＬＳＴＭ層は、隠れ層であり、２５６個のユニットを含む。ＬＳＴＭ層の入力は、ｎ番目の音声フレームの周波数領域での表現Ｓ（ｎ）である。本実施例において、ＬＳＴＭ層の入力は、３２１次元のＳＴＦＴ係数である。カスケードされた３つのＦＣ層のうち、最初の２つのＦＣ層に活性化関数σ（）が設定されており、設定された活性化関数は、第１ニューラルネットワークの非線形表現能力を増加させるためのものであり、最後のＦＣ層に活性化関数が設定されておらず、該最後のＦＣ層は、分類器として分類出力を行う。図８に示すように、下から上への３つのＦＣ層には、それぞれ５１２、５１２、１６個のユニットが含まれ、最後のＦＣ層の出力は、該ｎ番目の音声フレームに対応する１６次元の線スペクトル周波数係数ＬＳＦ（ｎ）、即ち、１６次の線スペクトル周波数係数である。

図９は、他の実施例によって示された第１ニューラルネットワークの入力及び出力の模式図である。ここで、図９における第１ニューラルネットワークの構造は、図８におけるのと同じである。図８に比べると、図９における第１ニューラルネットワークの入力は、該ｎ番目の音声フレームの１つ前の音声フレーム（即ち、ｎ－１番目のフレーム）の線スペクトル周波数係数ＬＳＦ（ｎ－１）をさらに含む。図９に示すように、２番目のＦＣ層には、参考情報として、ｎ番目の音声フレームの１つ前の音声フレームの線スペクトル周波数係数ＬＳＦ（ｎ－１）が埋め込まれている。隣接する２つの音声フレームのＬＳＦパラメータの類似性が非常に高いため、ｎ番目の音声フレームの過去音声フレームに対応するＬＳＦパラメータを参考情報とすると、ＬＳＦパラメータの予測の確度を向上させることができる。

図１０は、１つの具体的な実施例によって示された第２ニューラルネットワークの模式図である。図１０に示すように、第２ニューラルネットワークには、１つのＬＳＴＭ層と、１つのＦＣ層とが含まれる。そのうち、ＬＳＴＭ層は、隠れ層であり、１２８個のユニットを含み、ＦＣ層は、入力が５１２次元のベクトルであり、出力が１次元の利得である。１つの具体的な実施例において、ｎ番目の音声フレームの過去音声フレーム利得Ｇ＿ｐｒｅ（ｎ）は、ｎ番目の音声フレームの前の４つの音声フレームに対応する利得、即ち、
Ｇ＿ｐｒｅ（ｎ）＝｛Ｇ（ｎ－１），Ｇ（ｎ－２），Ｇ（ｎ－３），Ｇ（ｎ－４）｝
と定義されてもよい。

もちろん、選択される利得予測用の過去音声フレームの数は、上記に挙げられた例に限らず、具体的には実際の必要に応じて選択して使用してもよい。

上記に示されたような第１ニューラルネットワーク及び第２ニューラルネットワークの構造において、ネットワークは、Ｍ－ｔｏ－Ｎのマッピング関係（Ｎ＜＜Ｍ）を呈する。即ち、ニューラルネットワークは、入力情報の次元がＭであり、出力情報の次元がＮである。第１ニューラルネットワーク及び第２ニューラルネットワークの構造が極めて大きく簡略化され、ニューラルネットワークモデルの複雑さが低減される。

図１１は、１つの具体的な実施例によって示された第３ニューラルネットワークの模式図である。図１１に示すように、該第３ニューラルネットワークには、１つのＬＳＴＭ層と、３つのＦＣ層とが含まれる。そのうち、ＬＳＴＭ層は、隠れ層であり、２５６個のユニットを含み、ＬＳＴＭの入力が、ｎ番目の音声フレームに対応する３２１次元のＳＴＦＴ係数Ｓ（ｎ）である。３つのＦＣ層に含まれるユニットの数は、それぞれ、５１２、５１２、及び３２１であり、最後のＦＣ層から、３２１次元の、ｎ番目の音声フレームに対応する励起信号の周波数領域での表現Ｒ（ｎ）が出力される。下から上への３つのＦＣ層のうち、最初の２つのＦＣ層に、モデルの非線形表現能力を向上させるための活性化関数が設定されており、分類出力を行うための最後のＦＣ層に活性化関数が設定されていない。

図８～１１に示された第１ニューラルネットワーク、第２ニューラルネットワーク、及び第３ニューラルネットワークの構造は、例示的な例に過ぎない。他の実施例では、深層学習のオープンソースプラットフォームに相応のネットワーク構造を設定することに応じて訓練を行ってもよい。

以下、本願の装置実施例を紹介する。該装置は、本願の上記実施例における方法を実行するために用いることができる。本願の装置実施例に披露されていない細部について、本願の上記の方法の実施例を参照する。

図１２は、一実施例によって示された音声強調装置のブロック図である。図１２に示すように、該音声強調装置は、
ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得する声門パラメータ予測モジュール１２１０と、
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得する利得予測モジュール１２２０と、
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得する励起信号予測モジュール１２３０と、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得する合成モジュール１２４０と、を含む。

本願のいくつかの実施例において、合成モジュール１２４０は、前記ターゲット音声フレームに対応する声門パラメータに基づいて、声門フィルタを構築する声門フィルタ構築ユニットと、前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第１音声信号を取得するフィルタリングユニットと、前記ターゲット音声フレームに対応する利得で、前記第１音声信号を増幅処理することにより、前記ターゲット音声フレームに対応する増強音声信号を取得する増幅ユニットと、を含む。

本願のいくつかの実施例において、前記ターゲット音声フレームには、複数のサンプルポイントが含まれ、前記声門フィルタは、Ｋ次（Ｋは正の整数）のフィルタであり、前記励起信号には、前記ターゲット音声フレームにおける複数のサンプルポイントのそれぞれに対応する励起信号値が含まれ、フィルタリングユニットは、前記ターゲット音声フレームにおける各サンプルポイントの前のＫ個のサンプルポイントに対応する励起信号値と前記Ｋ次のフィルタとを畳み込むことにより、前記ターゲット音声フレームにおける各サンプルポイントのターゲット信号値を取得する畳み込みユニットと、前記ターゲット音声フレームにおける全てのサンプルポイントに対応するターゲット信号値を時間順に組み合わせることにより、前記第１音声信号を取得する組み合わせユニットと、を含む。本願のいくつかの実施例において、前記声門フィルタは、Ｋ次のフィルタであり、前記声門パラメータには、Ｋ次の線スペクトル周波数パラメータ又はＫ次の線形予測係数が含まれる。

本願のいくつかの実施例において、声門パラメータ予測モジュール１２１０は、前記ターゲット音声フレームの周波数領域での表現を第１ニューラルネットワークに入力する第１入力ユニットであって、前記第１ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータとに基づいて訓練されたものである、第１入力ユニットと、前記第１ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する声門パラメータを出力する第１出力ユニットと、を含む。

本願のいくつかの実施例において、声門パラメータ予測モジュール１２１０は、さらに、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータを参考として、前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するように構成される。

本願のいくつかの実施例において、声門パラメータ予測モジュール１２１０は、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとを第１ニューラルネットワークに入力する第２入力ユニットであって、前記第１ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータと、前記サンプル音声フレームの過去音声フレームに対応する声門パラメータとに基づいて訓練されたものである、第２入力ユニットと、前記第１ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとに基づいて予測を行い、前記ターゲット音声フレームに対応する声門パラメータを出力する第２出力ユニットと、を含む。

本願のいくつかの実施例において、利得予測モジュール１２２０は、前記ターゲット音声フレームの過去音声フレームに対応する利得を第２ニューラルネットワークに入力する第３入力ユニットであって、前記第２ニューラルネットワークは、サンプル音声フレームに対応する利得と、前記サンプル音声フレームの過去音声フレームに対応する利得とに基づいて訓練されたものである、第３入力ユニットと、前記第２ニューラルネットワークによって、前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対応する利得を出力する第３出力ユニットと、を含む。

本願のいくつかの実施例において、励起信号予測モジュール１２３０は、前記ターゲット音声フレームの周波数領域での表現を第３ニューラルネットワークに入力する第４入力ユニットであって、前記第３ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する励起信号の周波数領域での表現とに基づいて訓練されたものである、第４入力ユニットと、前記第３ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する励起信号の周波数領域での表現を出力する第４出力ユニットと、を含む。

本願のいくつかの実施例において、音声強調装置は、前記ターゲット音声フレームの時間領域信号を取得する取得モジュールと、前記ターゲット音声フレームの時間領域信号を時間周波数変換することにより、前記ターゲット音声フレームの周波数領域での表現を取得する時間周波数変換モジュールと、をさらに含む。

本願のいくつかの実施例において、取得モジュールは、さらに、第２音声信号を取得し、前記第２音声信号をフレーム化することにより、前記ターゲット音声フレームの時間領域信号を取得するように構成され、前記第２音声信号は、収集された音声信号、又は、符号化音声を復号化した音声信号である。

本願のいくつかの実施例において、音声増強装置は、前記ターゲット音声フレームに対応する増強音声信号の再生又は符号化伝送を行う処理モジュールをさらに含む。

図１３は、本願の実施例を実現することに好適な電子機器のコンピュータシステムの構成の模式図を示す。

説明すべきものとして、図１３に示された電子機器のコンピュータシステム１３００は、一例に過ぎず、本願の実施例の機能及び使用範囲にいかなる制限も与えるべきではない。

図１３に示すように、コンピュータシステム１３００は、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１３０１を含み、ＣＰＵ１３０１は、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）１３０２に記憶されたプログラム、又は、記憶部１３０８からランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３０３にロードされたプログラムに基づいて、各種の適当な動作及び処理、例えば、上記実施例における方法を実行することができる。ＲＡＭ１３０３には、システム動作に必要な各種のプログラム及びデータがさらに記憶される。ＣＰＵ１３０１、ＲＯＭ１３０２、及びＲＡＭ１３０３は、バス１３０４を介して互いに接続される。入力／出力（Ｉ／Ｏ：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース１３０５もバス１３０４に接続される。

Ｉ／Ｏインタフェース１３０５には、キーボード、マウスなどを含む入力部１３０６と、例えば、陰極線管（ＣＲＴ：ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）など、及びスピーカーなどを含む出力部１３０７と、ハードディスクなどを含む記憶部１３０８と、例えば、ローカルエリアネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カード、モデムなどのネットワークインタフェースカードを含む通信部１３０９とが接続される。通信部１３０９は、インターネットのようなネットワークを介して、通信処理を実行する。ドライバー１３１０も、必要に応じて、Ｉ／Ｏインタフェース１３０５に接続される。例えば、磁気ディスク、光ディスク、磁気光学ディスク、半導体メモリなどの取り外し可能な媒体１３１１は、必要に応じて、取り外し可能な媒体１３１１から読み取られたコンピュータプログラムが必要に応じて記憶部１３０８にインストールされるように、ドライバー１３１０に取り付けられる。

特に、本願の実施例によれば、上記でフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は、コンピュータ可読媒体に搭載されたコンピュータプログラムが含まれるコンピュータプログラム製品を含み、該コンピュータプログラムには、フローチャートに示される方法を実行するためのプログラムコードが含まれる。このような実施例では、該コンピュータプログラムは、通信部１３０９によって、ネットワークからダウンロード及びインストールされ、及び／又は、取り外し可能な媒体１３１１からインストールされてもよい。該コンピュータプログラムは、中央処理装置（ＣＰＵ）１３０１によって実行されると、本願のシステムで限定された各種の機能を実行させる。

説明すべきものとして、本願の実施例に示されたコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、あるいは、上記の両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置、又はデバイス、あるいは、上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数の導線がある電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、光記憶デバイス、磁気記憶デバイス、あるいは、上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。本願では、コンピュータ可読記憶媒体は、プログラムを含み又は記憶した任意の有形の媒体であってもよく、該プログラムは、命令実行システム、装置、又はデバイスによって使用されるか、あるいは、これらと組み合わせて使用されてもよい。一方、本願では、コンピュータ可読信号媒体は、ベースバンドで又はキャリアの一部として伝播されるデータ信号を含んでもよく、該データ信号には、コンピュータ可読プログラムコードが搭載される。このような伝播されるデータ信号は、電磁気信号、光信号、又は上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は、命令実行システム、装置、又はデバイスによって使用されるか、あるいは、これらと組み合わせて使用されるためのプログラムを送信、伝播、又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、無線、有線など、又は上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体で伝送されてもよい。

図面中のフローチャート及びブロック図は、本願の各種の実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能、及び動作を図示している。そのうち、フローチャート又はブロック図における各ブロックは、モジュール、プログラムセグメント、又はコードの一部を表すことができ、上記モジュール、プログラムセグメント、又はコードの一部には、所定の論理機能を実現するための１つ又は複数の実行可能命令が含まれる。別の注意すべきものとして、代替としてのいくつかの実現では、ブロックに記載された機能は、図面に記載された順序とは異なる順序で行われてもよい。例えば、連続して示される２つのブロックは、実際には、基本的に並行して実行される場合があり、関連する機能によっては、逆の順序で実行される場合もある。別の注意すべきものとして、ブロック図又はフローチャートにおける各ブロック、及び、ブロック図又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用の、ハードウェアに基づくシステムで実現されてもよく、あるいは、専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよい。

本願の実施例の説明に係るユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよく、説明されたユニットは、プロセッサに設置されてもよい。ここで、これらのユニットの名称は、ある場合には該ユニット自体を限定するものではない。

別の態様として、本願では、コンピュータ可読記憶媒体も提供されており、該コンピュータ可読記憶媒体は、上記実施例で説明された電子機器に含まれるものであってもよいし、該電子機器に組み立てされることなく単独で存在するものであってもよい。上記コンピュータ可読記憶媒体には、コンピュータ可読命令が搭載され、該コンピュータ可読命令は、プロセッサによって実行されると、上記のいずれかの実施例における方法を実現させる。

本願の一態様によれば、電子機器がさらに提供されている。この電子機器は、プロセッサと、プロセッサによって実行されると、上記のいずれかの実施例における方法を実現させるコンピュータ可読命令が記憶されているメモリと、を備える。

本願の実施例の一態様によれば、コンピュータ命令を含むコンピュータプログラム製品又はコンピュータプログラムが提供されている。該コンピュータ命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサが該コンピュータ命令を実行すると、該コンピュータ機器に上記のいずれかの実施例における方法を実行させる。

注意すべきものとして、上記の詳細な説明では、動作を実行するための機器の若干のモジュール又はユニットが言及されているが、このような分割は強制的ではない。実際には、本願の実施形態によれば、上述した２つ以上のモジュール又はユニットの特徴及び機能は、１つのモジュール又はユニットに具体化されてもよい。逆に、上述した１つのモジュール又はユニットの特徴及び機能は、複数のモジュール又はユニットによって具体化されるように、さらに分割されてもよい。

上記の実施形態の説明によれば、当業者には容易に理解されるように、ここに記載された例示的な実施形態は、ソフトウェアによって実現されてもよいし、ソフトウェアと必要なハードウェアとの組み合わせによって実現されてもよい。このため、本願の実施形態による構成は、ソフトウェア製品の形で具現されてもよい。該ソフトウェア製品は、不揮発性記憶媒体（ＣＤ－ＲＯＭ、Ｕディスク、モバイルハードディスクなどであってもよい）又はネットワークに記憶されてもよく、コンピューティング機器（パーソナルコンピュータ、サーバ、タッチ端末、又はネットワーク機器などであってもよい）に、本願の実施形態による方法を実行させる若干の命令を含む。

当業者は、明細書を考慮して、ここで開示された実施形態を実施した後、本願の他の実施形態を容易に想到し得る。本願は、本願の任意の変形、用途、又は適応的な変更が包括されることを趣旨とする。これらの変形、用途、又は適応的な変更は、本願の一般的な原理に従い、本願に開示されていない本技術分野における技術常識又は慣用の技術的手段を含む。

理解すべきものとして、本願は、上記で説明されて図面に示された精確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正及び変更が可能である。本願の範囲は、添付の特許請求の範囲によってのみ限定される。

Claims

コンピュータ機器が実行する音声強調方法であって、
ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップと、
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得するステップと、
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得するステップと、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップと、
を含み、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップは、
前記ターゲット音声フレームに対応する声門パラメータに基づいて、声門フィルタを構築するステップと、
前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第１音声信号を取得するステップと、
前記ターゲット音声フレームに対応する利得で、前記第１音声信号を増幅処理することにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップと、を含む、
音声強調方法。
前記ターゲット音声フレームには、複数のサンプルポイントが含まれ、前記声門フィルタは、Ｋ次（Ｋは正の整数）のフィルタであり、前記励起信号には、前記ターゲット音声フレームにおける複数のサンプルポイントのそれぞれに対応する励起信号値が含まれ、
前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第１音声信号を取得するステップは、
前記ターゲット音声フレームにおける各サンプルポイントの前のＫ個のサンプルポイントに対応する励起信号値と前記Ｋ次のフィルタとを畳み込むことにより、前記ターゲット音声フレームにおける各サンプルポイントのターゲット信号値を取得するステップと、
前記ターゲット音声フレームにおける全てのサンプルポイントに対応するターゲット信号値を時間順に組み合わせることにより、前記第１音声信号を取得するステップと、を含む、
請求項１に記載の音声強調方法。
前記声門フィルタは、Ｋ次（Ｋは正の整数）のフィルタであり、前記声門パラメータには、Ｋ次の線スペクトル周波数パラメータ又はＫ次の線形予測係数が含まれる、
請求項１に記載の音声強調方法。
前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップは、
前記ターゲット音声フレームの周波数領域での表現を第１ニューラルネットワークに入力するステップであって、前記第１ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータとに基づいて訓練されたものである、ステップと、
前記第１ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する声門パラメータを出力するステップと、を含む、
請求項１に記載の音声強調方法。
前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップは、
前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータを参考として、前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップを含む、
請求項１に記載の音声強調方法。
前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータを参考として、前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップは、
前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとを第１ニューラルネットワークに入力するステップであって、前記第１ニューラルネットワークは、サンプル音声フレームの周波数領域での表現、前記サンプル音声フレームに対応する声門パラメータ、及び前記サンプル音声フレームの過去音声フレームに対応する声門パラメータによって訓練されたものである、ステップと、
前記第１ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとに基づいて予測を行い、前記ターゲット音声フレームに対応する声門パラメータを出力するステップと、を含む、
請求項５に記載の音声強調方法。
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得するステップは、
前記ターゲット音声フレームの過去音声フレームに対応する利得を第２ニューラルネットワークに入力するステップであって、前記第２ニューラルネットワークは、サンプル音声フレームに対応する利得と、前記サンプル音声フレームの過去音声フレームに対応する利得とに基づいて訓練されたものである、ステップと、
前記第２ニューラルネットワークによって、前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対応する利得を出力するステップと、を含む、
請求項１に記載の音声強調方法。
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得するステップは、
前記ターゲット音声フレームの周波数領域での表現を第３ニューラルネットワークに入力するステップであって、前記第３ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する励起信号の周波数領域での表現とに基づいて訓練されたものである、ステップと、
前記第３ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する励起信号の周波数領域での表現を出力するステップと、を含む、
請求項１に記載の音声強調方法。
前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップの前に、
前記ターゲット音声フレームの時間領域信号を取得するステップと、
前記ターゲット音声フレームの時間領域信号を時間周波数変換することにより、前記ターゲット音声フレームの周波数領域での表現を取得するステップと、をさらに含む、
請求項１に記載の音声強調方法。
前記ターゲット音声フレームの時間領域信号を取得するステップは、
第２音声信号を取得するステップであって、前記第２音声信号は、収集された音声信号、又は、符号化音声を復号化した音声信号である、ステップと、
前記第２音声信号をフレーム化することにより、前記ターゲット音声フレームの時間領域信号を取得するステップと、を含む、
請求項９に記載の音声強調方法。
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップの後に、
前記ターゲット音声フレームに対応する強調音声信号の再生又は符号化伝送を行うステップをさらに含む、
請求項１に記載の音声強調方法。
音声強調装置であって、
ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得する声門パラメータ予測モジュールと、
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得する利得予測モジュールと、
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得する励起信号予測モジュールと、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得する合成モジュールと、
を含み、
前記合成モジュールは、
前記ターゲット音声フレームに対応する声門パラメータに基づいて、声門フィルタを構築し
前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第１音声信号を取得し、及び
前記ターゲット音声フレームに対応する利得で、前記第１音声信号を増幅処理することにより、前記ターゲット音声フレームに対応する強調音声信号を取得することを実行する、
音声強調装置。
電子機器であって、
プロセッサと、
前記プロセッサによって実行されると、請求項１乃至１１のいずれか１項に記載の音声強調方法を実現させるコンピュータ可読命令が記憶されているメモリと、
を備える電子機器。
コンピュータに、請求項１乃至１１のいずれか１項に記載の音声強調方法を実行させるためのプログラム。