JP7615510B2 - 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム - Google Patents

音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム Download PDF

Info

Publication number
JP7615510B2
JP7615510B2 JP2023538919A JP2023538919A JP7615510B2 JP 7615510 B2 JP7615510 B2 JP 7615510B2 JP 2023538919 A JP2023538919 A JP 2023538919A JP 2023538919 A JP2023538919 A JP 2023538919A JP 7615510 B2 JP7615510 B2 JP 7615510B2
Authority
JP
Japan
Prior art keywords
speech frame
target speech
glottal
target
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023538919A
Other languages
English (en)
Other versions
JP2024502287A (ja
Inventor
シャオ,ウェイ
シー,ユーペン
ワン,メン
シャン,シンドン
ウー,ズロン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2024502287A publication Critical patent/JP2024502287A/ja
Application granted granted Critical
Publication of JP7615510B2 publication Critical patent/JP7615510B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本願は、2021年2月8日に中国特許庁に提出された、出願番号が第202110171244.6であり、発明の名称が「音声強調方法、装置、機器、及び記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容は参照することにより本願に組み込まれている。
本願は、音声処理の技術分野に関し、具体的には、音声強調方法、装置、機器、及び記憶媒体に関する。
音声通信の利便性及び適時性により、音声通信の応用はますます幅広くなっており、例えば、クラウド会議の会議参加者の間で音声信号が伝送される。ただし、音声通信では、音声信号にノイズが混入している可能性がある。音声信号に混入しているノイズは、通信品質の劣化を招き、ユーザの聴覚体験に極めて大きな影響を与える。このため、如何に音声を強調処理してノイズを除去するかは、従来技術において緊急に解決されるべき技術的問題である。
本願の実施例は、音声強調を実現して音声信号の品質を向上させる音声強調方法、装置、機器、及び記憶媒体を提供する。
本願のその他の特徴及び利点は、以下の詳細な説明により明らかになり、又は、部分的に本願の実践により把握される。
本願の実施例の一態様によれば、音声強調方法が提供されている。この方法は、
ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップと、
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得するステップと、
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得するステップと、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップと、を含む。
本願の実施例の他の態様によれば、音声強調装置が提供されている。この装置は、
ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得する声門パラメータ予測モジュールと、
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得する利得予測モジュールと、
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得する励起信号予測モジュールと、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得する合成モジュールと、を含む。
本願の実施例の他の態様によれば、電子機器が提供されている。この電子機器は、プロセッサと、前記プロセッサによって実行されると、上記のような音声強調方法を実現させるコンピュータ可読命令が記憶されているメモリと、を備える。
本願の実施例の他の態様によれば、コンピュータ可読記憶媒体が提供されている。このコンピュータ可読記憶媒体には、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令は、プロセッサによって実行されると、上記のような音声強調方法を実現させる。
理解すべきものとして、上記の一般的な説明及び以下の詳細な説明は、例示的で解釈的なものに過ぎず、本願を制限するものではない。
ここでの図面は、明細書に組み込まれて、本明細書の一部を構成し、本願に適合する実施例を示し、明細書とともに本願の原理を説明するために使用される。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者にとって、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。図面では、
1つの具体的な実施例によって示されたVoIPシステムにおける音声通信リンクの模式図である。 音声信号生成のデジタルモデルの模式図を示す。 オリジナルの音声信号から分解された励起信号及び声門フィルタの周波数応答の模式図を示す。 本願の一実施例によって示された音声強調方法のフローチャートである。 図4に対応する実施例のステップ440の一実施例におけるフローチャートである。 本願の一実施例によって示された窓掛け・オーバーラップによって音声フレームに対して短時間フーリエ変換を行うことの模式図である。 本願の1つの具体的な実施例によって示された音声強調のフローチャートである。 本願の一実施例によって示された第1ニューラルネットワークの模式図である。 本願の他の実施例によって示された第1ニューラルネットワークの入力及び出力の模式図である。 本願の一実施例によって示された第2ニューラルネットワークの模式図である。 本願の一実施例によって示された第3ニューラルネットワークの模式図である。 本願の一実施例によって示された音声強調装置のブロック図である。 本願の実施例を実現することに好適な電子機器のコンピュータシステムの構成の模式図を示す。
図面を参照して、例示的な実施形態をより完全に説明する。しかしながら、例示的な実施形態は、様々な形式で実施されることができ、ここで述べられる模範例に限定されるものとして理解されるべきではない。逆に、これらの実施形態を提供することにより、本願がより全面的かつ完全になり、例示的な実施形態の構想が全面的に当業者に伝えられる。
なお、説明される特徴、構成、又は特性は、任意の適切な方式で1つ又は複数の実施例に組み合わせることができる。以下の説明において、多くの具体的な細部を提供することにより、本願の実施例に対する十分な理解を提供する。しかしながら、当業者が認識すべきものとして、本願の構成を実施するには、特定の細部のうち1つ又は複数がなくてもよいし、又は、他の方法、構成要素、装置、ステップなどを採用してもよい。他の場合には、本願の各態様をあいまいにしないように、公知の方法、装置、実現、又は動作を詳しく示したり説明したりしない。
図面に示されているブロック図は、単なる機能エンティティであり、必ずしも物理的に独立したエンティティに対応する必要はない。即ち、これらの機能エンティティは、ソフトウェアで実現されてもよく、あるいは、1つ又は複数のハードウェアモジュール又は集積回路で実現されてもよく、あるいは、異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置で実現されてもよい。
図面に示されているフローチャートは、例示的な説明に過ぎず、必ずしも全ての内容及び操作/ステップを含むわけではなく、説明された順序で実行する必要もない。例えば、ある操作/ステップは、分解することができ、ある操作/ステップは、マージ又は部分的にマージすることができるので、実際に実行される順序は、実際の状況に応じて変更される可能性がある。
説明すべきものとして、本明細書で言及される「複数」は、2つ以上を指す。「及び/又は」は、関連オブジェクトの関連関係を記述するものであり、3種類の関係があり得ることを表す。例えば、A及び/又はBは、Aが単独で存在する場合、A及びBが同時に存在する場合、Bが単独で存在する場合という3つの場合を表すことができる。文字「/」は、一般的に、前後の関連オブジェクトが「又は」の関係にあることを表す。
音声信号におけるノイズは、音声品質を大幅に低下させて、ユーザの聴覚体験に影響を与える。そこで、音声信号の品質を向上させるために、音声信号の強調処理を行う必要がある。これにより、できるだけノイズを除去して、信号におけるオリジナルの音声信号(即ち、ノイズが含まれない純粋な信号)を保持する。音声の強調処理を実現するために、本願発明が提案されている。
本願発明は、音声通話の応用シナリオ、例えば、インスタントメッセージングアプリケーションによる音声通信、ゲームアプリケーションにおける音声通話に適用可能である。具体的には、音声の送信側、音声の受信側、又は音声通信サービスを提供するサービス側で本願発明に従って音声強調を行うことができる。
クラウド会議は、オンライン勤務における重要な一環である。クラウド会議において、クラウド会議の参加者の音声収集装置は、発言者の音声信号を収集した後に、収集された音声信号をその他の会議参加者に送信する必要がある。このプロセスは、複数の参加者の間での音声信号の伝送及び再生に関し、音声信号に混入されたノイズ信号を処理しなければ、会議参加者の聴覚体験に極めて大きな影響を与える。このようなシナリオでは、本願発明を応用してクラウド会議の音声信号を強調することができる。これにより、会議参加者が聞き取った音声信号は、強調された音声信号であり、音声信号の品質が向上する。
クラウド会議は、クラウドコンピューティング技術に基づく高効率で、便利な、低コストの会議形式である。利用者は、インターネットインタフェースを介して、簡単で使いやすい操作を行うだけで、迅速かつ高効率に世界中のチーム及び顧客と、音声、データファイル、及びビデオを同期的に共有することができる。一方、会議中のデータの伝送、処理などの複雑な技術は、クラウド会議のサービス提供者が利用者を補助することにより操作される。
現在、中国国内のクラウド会議は、主にサービスとしてのソフトウェア(SaaS:Software as a Service)モードを主体とするサービス内容に焦点を当てて、電話、ネットワーク、ビデオなどのサービス形式を含む。クラウドコンピューティングに基づくビデオ会議がクラウド会議と呼ばれる。クラウド会議の時代において、データの伝送、処理、記憶は、全てビデオ会議提供者のコンピュータリソースによって処理され、ユーザは、さらに高価なハードウェアを購入したり煩雑なソフトウェアをインストールしたりする必要が全くなく、クライアントを開いて該当するインタフェースに入るだけで、高効率な遠隔会議を行うことができる。
クラウド会議システムは、マルチサーバの動的クラスタ配置をサポートし、複数台の高性能サーバを提供し、会議の安定性、安全性、可用性を大幅に向上させる。近年、ビデオ会議は、コミュニケーション効率を大幅に向上させ、コミュニケーションコストを持続的に低減させ、内部管理レベルのアップグレードをもたらすことができるため、多くのユーザに人気があり、政府、軍隊、交通、輸送、金融、事業者、教育、企業などの各分野に幅広く応用されている。
図1は、1つの具体的な実施例によって示されたネットワーク電話(VoIP:Voice over Internet Protocol)システムにおける音声通信リンクの模式図である。図1に示すように、送信側110と受信側120のネットワーク接続に基づき、送信側110と受信側120は、音声伝送を行うことができる。
図1に示すように、送信側110は、収集モジュール111と、前強調処理モジュール112と、符号化モジュール113と、を含む。そのうち、収集モジュール111は、音声信号を収集し、収集した音響信号をデジタル信号に変換することができ、前強調処理モジュール112は、収集された音声信号を強調することにより、収集された音声信号におけるノイズを除去し、音声信号の品質を向上させる。符号化モジュール113は、強調された音声信号を符号化することにより、音声信号の伝送中の耐干渉性を向上させる。前強調処理モジュール112は、本願の方法に従って音声強調を行い、音声を強調してから、符号化圧縮及び伝送を行うことができ、このように、受信側で受信された信号がノイズの影響を受けなくなることを保証できる。
受信側120は、復号化モジュール121と、後強調モジュール122と、再生モジュール123と、を含む。復号化モジュール121は、受信された符号化音声信号を復号化することにより、復号化された音声信号を取得し、後強調モジュール122は、復号化された音声信号の強調処理を行い、再生モジュール123は、強調処理後の音声信号を再生する。後強調モジュール122も本願の方法に従って音声強調を行うことができる。いくつかの実施例において、受信側120は、音響効果調節モジュールをさらに含んでもよく、該音響効果調節モジュールは、強調された音声信号の音響効果調節を行う。
具体的な実施例において、受信側120のみで、又は送信側110のみで本願の方法に従って音声強調を行ってもよく、もちろん、送信側110と受信側120の両方で本願の方法に従って音声強調を行ってもよい。
いくつかの応用シナリオにおいて、VoIPシステムにおける端末機器は、VoIP通信をサポートすることができる以外に、その他のサードパーティのプロトコル、例えば、従来の公共交換電話網(PSTN:Public Switched Telephone Network)回線電話をサポートすることもできる。一方、従来のPSTNサービスは音声強調を行うことができず、このようなシナリオにおいては、受信側としての端末で本願の方法に従って音声強調を行ってもよい。
本願発明を具体的に説明する前に、音声信号の生成について紹介する必要がある。音声信号は、脳の制御下の人体の発音器官の生理的運動によって生成されるものである。即ち、気管では、一定のエネルギーのノイズのような衝撃信号(励起信号に相当)が発生し、衝撃信号が人間の声帯(声帯が声門フィルタに相当)に衝撃を与え、略周期的な開閉が発生し、口腔によって増幅された後、声が発する(音声信号が出力される)。
図2は、音声信号生成のデジタルモデルの模式図を示す。このデジタルモデルによって、音声信号の生成プロセスを記述することができる。図2に示すように、励起信号が声門フィルタに衝撃を与えた後、さらに利得制御を行って、音声信号を出力する。ここで、声門フィルタは、声門パラメータによって限定される。このプロセスは、下記の数式で表すことができる。
ここで、x(n)は入力された音声信号を表し、Gは利得を表し、線形予測利得とも呼ばれ、r(n)は励起信号を表し、ar(n)は声門フィルタを表す。
図3は、1つのオリジナルの音声信号から分解された励起信号及び声門フィルタの周波数応答の模式図を示し、図3aは、該オリジナルの音声信号の周波数応答の模式図を示し、図3bは、該オリジナルの音声信号から分解された声門フィルタの周波数応答の模式図を示し、図3cは、該オリジナルの音声信号から分解された励起信号の周波数応答の模式図を示す。図3に示すように、該オリジナルの音声信号の周波数応答の模式図における起伏部分は、声門フィルタの周波数応答の模式図におけるピーク位置に対応し、励起信号は、該オリジナルの音声信号に対して線形予測(LP:Linear Prediction)分析を行った残差信号に相当するため、それに対応する周波数応答が緩やかである。
上記から分かるように、1つのオリジナルの音声信号(即ち、ノイズが含まれない音声信号)から励起信号、声門フィルタ、及び利得を分解することができ、分解された励起信号、声門フィルタ、及び利得は、該オリジナルの音声信号を表現することに使用可能であり、ここで、声門フィルタは、声門パラメータによって表現できる。逆に、1つのオリジナルの音声信号に対応する励起信号、声門フィルタを決定するための声門パラメータ、及び利得が知られている場合、対応する励起信号、声門フィルタ、及び利得に基づいて該オリジナルの音声信号を再構成することができる。
本願発明は、該原理に基づき、1つの処理対象の音声信号に基づいて、該音声信号におけるオリジナルの音声信号に対応する声門パラメータ、励起信号、及び利得を予測し、その後、得られた声門パラメータ、励起信号、及び利得に基づいて音声合成を行うのである。合成された音声信号は、該処理対象の音声信号におけるオリジナルの音声信号に相当する。このため、合成された信号は、ノイズが除去された信号に相当する。該プロセスでは、該処理対象の音声信号の強調が実現されるため、合成された信号は、該処理対象の音声信号に対応する強調音声信号とも呼ばれる。
図4は、本願の一実施例によって示された音声強調方法のフローチャートである。該方法は、処理能力を具備するコンピュータ機器、例えば、サーバや端末などによって実行されてもよい。ここでは、具体的な限定を行わない。図4に示すように、該方法は、少なくとも、ステップ410から440を含む。以下、詳しく紹介する。
ステップ410では、ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得する。
音声信号は、定常ランダムに変化するのではなく、時間とともに変化するが、短時間内で強い相関があり、即ち、音声信号には短期間の相関性がある。このため、本願発明では、音声フレームを単位として音声強調を行う。ターゲット音声フレームとは、現在の強調処理対象の音声フレームを指す。
ターゲット音声フレームの周波数領域での表現(「周波数領域表現」とも呼ばれる)は、該ターゲット音声フレームの時間領域信号に対して時間周波数変換を行うことにより取得することができ、時間周波数変換は、例えば、短時間フーリエ変換(STFT:Short-term Fourier transform)であってもよい。周波数領域での表現は、振幅スペクトルや複素スペクトルなどであってもよく、ここでは具体的な限定を行わない。
声門パラメータとは、声門フィルタを構築するためのパラメータを指し、声門パラメータが決定されると、それに応じて声門フィルタが決定され、声門フィルタはデジタルフィルタである。声門パラメータは、線形予測符号化(LPC:Linear Predictive Coding)係数であってもよく、線スペクトル周波数(LSF:Line Spectral Frequency)パラメータであってもよい。ターゲット音声フレームに対応する声門パラメータの数は、声門フィルタの次数と相関する。前記声門フィルタがK次のフィルタである場合、前記声門パラメータは、K次のLSFパラメータ又はK次のLPC係数を含み、ここで、LSFパラメータとLPC係数は相互に変換することができる。
1つのp次の声門フィルタは、数式2で表すことができる。
ここで、
(外1)
はLPC係数であり、pは声門フィルタの次数であり、zは声門フィルタの入力信号である。
数式2を基にして、
のようにする場合、
を得ることができる。
物理的には、P(z)とQ(z)は、それぞれ声門開放と声門閉鎖の周期的な変化法則を表す。多項式P(z)とQ(z)の根は、複素平面上で交互に出現し、複素平面の単位円上に分布する一連の角周波数であり、LSFパラメータは、即ち、複素平面の単位円上の、P(z)とQ(z)の根に対応する角周波数であり、n番目の音声フレームに対応するLSFパラメータLSF(n)は、ωで表すことができ、もちろん、n番目の音声フレームに対応するLSFパラメータLSF(n)は、該n番目の音声フレームに対応するP(z)の根及び対応するQ(z)の根で直接に表すこともできる。n番目の音声フレームに対応するP(z)とQ(z)の複素平面での根をθとして定義すると、n番目の音声フレームに対応するLSFパラメータは、数式6で表す。
ここで、Rel{θ}は複素数θの実部を表し、Imag{θ}は複素数θの虚部を表す。
ステップ410で行われる声門パラメータ予測とは、ターゲット音声フレームにおけるオリジナルの音声信号を再構成するための声門パレメータの予測を指す。一実施例では、訓練されたニューラルネットワークモデルによって、該ターゲット音声フレームに対応する声門パレメータを予測してもよい。
本願のいくつかの実施例において、ステップ410は、前記ターゲット音声フレームの周波数領域での表現を第1ニューラルネットワークに入力するステップであって、前記第1ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータとに基づいて訓練されたものである、ステップと、前記第1ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する声門パラメータを出力するステップと、を含む。
第1ニューラルネットワークとは、声門パラメータ予測を行うためのニューラルネットワークモデルを指す。ここで、第1ニューラルネットワークは、長・短期記憶ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、全結合ニューラルネットワークなどによって構築されたモデルであってもよく、ここでは具体的な限定を行わない。
サンプル音声フレームの周波数領域での表現は、サンプル音声フレームの時間領域信号に対して時間周波数変換を行うことにより得られたものであり、該周波数領域での表現は、振幅スペクトルや複素スペクトルなどであってもよく、ここでは具体的な限定を行わない。
本願のいくつかの実施例において、サンプル音声フレームで示される信号は、既知のオリジナルの音声信号と既知のノイズ信号とを組み合わせることにより取得することができる。オリジナルの音声信号が知られている場合、オリジナルの音声信号に対して線形予測分析を行うことにより、各サンプル音声フレームに対応する声門パラメータを取得することができる。
訓練プロセスでは、サンプル音声フレームの周波数領域での表現を第1ニューラルネットワークに入力した後、第1ニューラルネットワークによって、サンプル音声フレームの周波数領域での表現に基づいて声門パラメータ予測を行い、予測声門パラメータを出力し、次に、予測声門パラメータと、該サンプル音声フレームにおけるオリジナルの音声信号に対応する声門パラメータとを比較し、両者が一致しない場合、第1ニューラルネットワークがサンプル音声フレームの周波数領域での表現に基づいて出力した予測声門パラメータが、該サンプル音声フレームにおけるオリジナルの音声信号に対応する声門パラメータと一致するまで、第1ニューラルネットワークのパラメータを調整する。訓練終了後、該第1ニューラルネットワークは、入力された音声フレームの周波数領域での表現に基づいて、該音声フレームにおけるオリジナルの音声信号に対応する声門パラメータを正確に予測する能力を学習した。
本願のいくつかの実施例では、音声フレーム間に相関性があり、隣接する2つの音声フレーム間の周波数領域特徴の類似性が高いため、ターゲット音声フレームの前の過去音声フレームに対応する声門パラメータを参照して、ターゲット音声フレームに対応する声門パラメータを予測してもよい。本実施例において、ステップ410は、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータを参考として、前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップを含む。
過去音声フレームとターゲット音声フレームとの間に相関性があり、ターゲット音声フレームの過去音声フレームに対応する声門パラメータと、ターゲット音声フレームに対応する声門パラメータとの間に類似性があるため、ターゲット音声フレームの過去音声フレームにおけるオリジナルの音声信号に対応する声門パラメータを参考として、ターゲット音声フレームの声門パラメータの予測プロセスを監督することにより、声門パラメータ予測の確度を向上させることができる。
本願の一実施例では、音声フレームが近いほど声門パラメータの類似性が高くなるため、ターゲット音声フレームに近い過去音声フレームに対応する声門パラメータを参考とすると、予測の確度をさらに保証することができる。例えば、ターゲット音声フレームの1つ前の音声フレームに対応する声門パラメータを参考としてもよい。具体的な実施例において、参考とする過去音声フレームの数は、1つのフレームであってもよいし、複数のフレームであってもよく、実際の必要に応じて選択して使用してもよい。
ターゲット音声フレームの過去音声フレームに対応する声門パラメータは、該過去音声フレームに対して声門パラメータ予測を行うことにより得られた声門パラメータであってもよい。言い換えれば、声門パラメータ予測プロセスでは、過去音声フレームに対して予測された声門パラメータを再利用して、現在の音声フレームの声門パラメータ予測プロセスを監督する。
本願のいくつかの実施例では、第1ニューラルネットワークを利用して声門パラメータを予測するシナリオにおいて、ターゲット音声フレームの周波数領域での表示を入力とするに加えて、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータも該第1ニューラルネットワークの入力とすることにより、声門パラメータ予測を行う。本実施例において、ステップ410は、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとを第1ニューラルネットワークに入力するステップであって、前記第1ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータと、前記サンプル音声フレームの過去音声フレームに対応する声門パラメータとに基づいて訓練されたものである、ステップと、前記第1ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとに基づいて予測を行い、前記ターゲット音声フレームに対応する声門パラメータを出力するステップと、を含む。
本実施例の第1ニューラルネットワークの訓練プロセスでは、サンプル音声フレームの周波数領域での表現と、サンプル音声フレームの過去音声フレームに対応する声門パラメータとを第1ニューラルネットワークに入力し、該第1ニューラルネットワークによって予測声門パラメータを出力し、出力した予測声門パラメータが、該サンプル音声フレームにおけるオリジナルの音声信号に対応する声門パラメータと一致しない場合、出力した予測声門パラメータが、該サンプル音声フレームにおけるオリジナルの音声信号に対応する声門パラメータと一致するまで、第1ニューラルネットワークのパラメータを調整する。訓練終了後、該第1ニューラルネットワークは、音声フレームの周波数領域での表現と、該音声フレームの過去音声フレームに対応する声門パラメータとに基づいて、該音声フレームにおけるオリジナルの音声信号を再構成するための声門パラメータを予測する能力を学習した。
引き続いて図4を参照すると、ステップ420では、前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得する。
過去音声フレームに対応する利得とは、過去音声フレームおけるオリジナルの音声信号を再構成するための利得を指す。同様に、ステップ420で予測されたターゲット音声フレームに対応する利得は、ターゲット音声フレームおけるオリジナルの音声信号を再構成するためのものである。
本願のいくつかの実施例では、深層学習によって、ターゲット音声フレームに対して利得予測を行ってもよい。即ち、構築されたニューラルネットワークモデルによって利得予測を行う。説明の便宜上、利得予測を行うためのニューラルネットワークモデルを第2ニューラルネットワークと呼ぶ。該第2ニューラルネットワークは、長・短期記憶ニューラルネットワーク、畳み込みニューラルネットワーク、全結合ニューラルネットワークなどによって構築されたモデルであってもよい。
本願の一実施例において、ステップ420は、前記ターゲット音声フレームの過去音声フレームに対応する利得を第2ニューラルネットワークに入力するステップであって、前記第2ニューラルネットワークは、サンプル音声フレームに対応する利得と、前記サンプル音声フレームの過去音声フレームに対応する利得とに基づいて訓練されたものである、ステップと、前記第2ニューラルネットワークによって、前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対応する利得を出力するステップと、を含んでもよい。
サンプル音声フレームで示される信号は、既知のオリジナルの音声信号と既知のノイズ信号とを組み合わせることにより取得することができる。このため、オリジナルの音声信号が知られている場合、該オリジナルの音声信号に対して線形予測分析を行うことに応じて、各サンプル音声フレームに対応する利得、即ち、該サンプル音声フレームにおけるオリジナルの音声信号を再構成するための利得を決定することができる。
ターゲット音声フレームの過去音声フレームに対応する利得は、該第2ニューラルネットワークによって該過去音声フレームに対して利得予測を行うことにより得られたものであってもよい。言い換えれば、過去音声フレームに対して予測された利得を再利用して、ターゲット音声フレームに対して利得予測を行うプロセスにおける第2ニューラルネットワークの入力とする。
第2ニューラルネットワークを訓練するプロセスでは、サンプル音声フレームの過去音声フレームに対応する利得を第2ニューラルネットワークに入力し、次に、第2ニューラルネットワークによって、入力されたサンプル音声フレームの過去音声フレームに対応する利得に基づいて利得予測を行い、予測利得を出力し、さらに、予測利得と、該サンプル音声フレームに対応する利得とに基づいて、第2ニューラルネットワークのパラメータを調整し、即ち、予測利得が、該サンプル音声フレームに対応する利得と一致しない場合、第2ニューラルネットワークがサンプル音声フレームに対して出力した予測利得が、該サンプル音声フレームに対応する利得と一致するまで、第2ニューラルネットワークのパラメータを調整する。上記のような訓練プロセスを経ると、第2ニューラルネットワークは、ある音声フレームの過去音声フレームに対応する利得に基づいて、該音声フレームに対応する利得を予測する能力を学習し、利得予測を正確に行うことができる。
ステップ430では、前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得する。
ステップ430で行われる励起信号予測とは、ターゲット音声フレームにおけるオリジナルの音声信号を再構成するための励起信号の予測を指す。このため、取得されたターゲット音声フレームに対応する励起信号は、ターゲット音声フレームおけるオリジナルの音声信号の再構成に使用可能である。
本願のいくつかの実施例では、深層学習によって励起信号の予測を行い、即ち、構築されたニューラルネットワークモデルによって励起信号予測を行ってもよい。説明の便宜上、励起信号予測を行うためのニューラルネットワークモデルを第3ニューラルネットワークと呼ぶ。該第3ニューラルネットワークは、長・短期記憶ニューラルネットワーク、畳み込みニューラルネットワーク、全結合ニューラルネットワークなどによって構築されたモデルであってもよい。
本願のいくつかの実施例において、ステップ430は、前記ターゲット音声フレームの周波数領域での表現を第3ニューラルネットワークに入力するステップであって、前記第3ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する励起信号の周波数領域での表現とに基づいて訓練されたものである、ステップと、前記第3ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する励起信号の周波数領域での表現を出力するステップと、を含む。
サンプル音声フレームに対応する励起信号とは、サンプル音声フレームにおけるオリジナルの音声信号の再構成に使用可能な励起信号を指す。サンプル音声フレームに対応する励起信号は、サンプル音声フレームにおけるオリジナルの音声信号に対して線形予測分析を行うことにより決定することができる。励起信号の周波数領域での表現は、励起信号の振幅スペクトルや複素スペクトルであってもよく、ここでは具体的な限定を行わない。
第3ニューラルネットワークを訓練するプロセスでは、サンプル音声フレームの周波数領域での表現を第3ニューラルネットワークに入力し、次に、第3ニューラルネットワークによって、入力されたサンプル音声フレームの周波数領域での表現に基づいて励起信号予測を行い、予測励起信号の周波数領域での表現を出力し、さらに、予測励起信号の周波数領域での表現と、該サンプル音声フレームに対応する励起信号の周波数領域での表現とに基づいて、第3ニューラルネットワークのパラメータを調整し、即ち、予測励起信号の周波数領域での表現が、該サンプル音声フレームに対応する励起信号の周波数領域での表現と一致しない場合、第3ニューラルネットワークがサンプル音声フレームに対して出力した予測励起信号の周波数領域での表現が、該サンプル音声フレームに対応する励起信号の周波数領域での表現と一致するまで、第3ニューラルネットワークのパラメータを調整する。上記のような訓練プロセスを経ると、第3ニューラルネットワークは、ある音声フレームの周波数領域での表現に基づいて、該音声フレームに対応する励起信号を予測する能力を学習し、励起信号予測を正確に行うことができる。
ステップ440では、前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得する。
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号を取得した後、この3つのパラメータに基づいて線形予測分析を行って合成処理を実現することにより、該ターゲット音声フレームに対応する強調音声信号を取得してもよい。具体的には、まず、ターゲット音声フレームに対応する声門パラメータに基づいて声門フィルタを構築し、次に、該ターゲット音声フレームに対応する利得と、対応する励起信号とを参照して、上記の数式1によって音声合成を行うことにより、ターゲット音声フレームに対応する強調音声信号を取得してもよい。
本願のいくつかの実施例において、図5に示すように、ステップ440は、ステップ510から530を含む。
ステップ510では、前記ターゲット音声フレームに対応する声門パラメータに基づいて、声門フィルタを構築する。
声門パラメータがLPC係数である場合、直接に上記の数式2によって声門フィルタの構築を行ってもよい。声門フィルタがK次のフィルタである場合、ターゲット音声フレームに対応する声門パラメータは、K次のLPC係数、即ち、上記の数式2における
(外2)
を含む。他の実施例において、上記の数式2における定数1もLPC係数とされてもよい。
声門パラメータがLSFパラメータである場合、LSFパラメータをLPC係数に変換してから、上記の数式2によって声門フィルタを構築してもよい。
ステップ520では、前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第1音声信号を取得する。
フィルタリング処理は、即ち、時間領域における畳み込みである。このため、上記のように声門フィルタによって励起信号をフィルタリングするプロセスは、時間領域に変換して行うことができる。ターゲット音声フレームに対応する励起信号の周波数領域での表示を予測したうえで、励起信号の周波数領域での表示を時間領域に変換することにより、ターゲット音声フレームに対応する励起信号の時間領域での信号を取得する。
本願発明において、ターゲット音声フレームは、デジタル信号であり、複数のサンプルポイントを含む。声門フィルタによって励起信号をフィルタリングすることは、即ち、あるサンプルポイントの前の過去サンプルポイントと該声門フィルタとを畳み込むことにより、該サンプルポイントに対応するターゲット信号値を取得することである。本願のいくつかの実施例において、前記ターゲット音声フレームには、複数のサンプルポイントが含まれ、前記声門フィルタは、K次(Kは正の整数)のフィルタであり、前記励起信号には、前記ターゲット音声フレームにおける複数のサンプルポイントのそれぞれに対応する励起信号値が含まれる。上記のようなフィルタリングプロセスによれば、ステップ520は、前記ターゲット音声フレームにおける各サンプルポイントの前のK個のサンプルポイントに対応する励起信号値と前記K次のフィルタとを畳み込むことにより、前記ターゲット音声フレームにおける各サンプルポイントのターゲット信号値を取得するステップと、前記ターゲット音声フレームにおける全てのサンプルポイントに対応するターゲット信号値を時間順に組み合わせることにより、前記第1音声信号を取得するステップと、を含む。ここで、K次のフィルタの表現式は、上記の数式1を参照すればよい。つまり、ターゲット音声フレームにおけるサンプルポイント毎に、その前のK個のサンプルポイントに対応する励起信号値を利用してK次のフィルタと畳み込むことにより、各サンプルポイントに対応するターゲット信号値を取得する。
理解できるように、ターゲット音声フレームにおける最初のサンプルポイントの場合、該最初のサンプルポイントに対応するターゲット信号値を計算するには、該ターゲット音声フレームの1つ前の音声フレームにおける最後のK個のサンプルポイントの励起信号値を用いる必要がある。同様に、該ターゲット音声フレームにおける2番目のサンプルポイントの場合、ターゲット音声フレームにおける2番目のサンプルポイントに対応するターゲット信号値を取得するために、ターゲット音声フレームの1つ前の音声フレームにおける最後の(K-1)個のサンプルポイントの励起信号値、及び、ターゲット音声フレームにおける最初のサンプルポイントの励起信号値を用いてK次のフィルタと畳み込む必要がある。
総括すると、ステップ502には、ターゲット音声フレームの過去音声フレームに対応する励起信号値も必要となる。所要する過去音声フレームにおけるサンプルポイントの数は、声門フィルタの次数と相関している。即ち、声門フィルタがK次である場合、ターゲット音声フレームの1つ前の音声フレームにおける最後のK個のサンプルポイントに対応する励起信号値が必要となる。
ステップ530では、前記ターゲット音声フレームに対応する利得で、前記第1音声信号を増幅処理することにより、前記ターゲット音声フレームに対応する増強音声信号を取得する。
上記のようなステップ510~530によって、ターゲット音声フレームに対して予測された声門パラメータ、励起信号、及び利得に対する音声合成が実現され、ターゲット音声フレームの強調音声信号が取得される。
本願発明では、ターゲット音声フレームの周波数領域での表現に基づいて、ターゲット音声フレームにおけるオリジナルの音声信号を再構成するための声門パラメータ及び励起信号を予測し、ターゲット音声フレームの過去音声フレームの利得に基づいて、ターゲット音声フレームにおけるオリジナルの音声信号を再構成するための利得を予測する。次に、予測されたターゲット音声フレームに対応する声門パラメータ、対応する励起信号、及び対応する利得に対して音声合成を行う。これは、ターゲット音声フレームにおけるオリジナルの音声信号の再構成に相当する。合成処理によって得られた信号は、即ち、ターゲット音声フレームに対応する強調音声信号であり、音声フレームの強調が実現され、音声信号の品質が向上する。
関連技術において、スペクトル推定及びスペクトル回帰予測の方式で音声強調を行うことが存在する。スペクトル推定の音声強調方式では、一段の混合音声に音声部分とノイズ部分とが含まれると考えられるため、統計モデルなどによってノイズを推定することができる。混合音声に対応するスペクトルから、ノイズに対応するスペクトルを減算し、残るのは音声スペクトルである。これにより、混合音声に対応するスペクトルから、ノイズに対応するスペクトルを減算したスペクトルに基づいて、クリーンな音声信号を復元する。スペクトル回帰予測の音声強調方式では、ニューラルネットワークによって、音声フレームに対応するマスキング閾値を予測し、次に、該マスキング閾値に基づいて、混合信号スペクトルに対して利得制御を行うことにより、強調されたスペクトルを取得する。該マスキング閾値は、該音声フレームにおける各々の周波数点における音声成分及びノイズ成分の割合を反映している。
上記のスペクトル推定及びスペクトル回帰予測による音声強調方式は、ノイズスペクトルの事後確率に基づく推定であり、推定されたノイズが不正確である場合があり得る。例えば、キーボードを叩くなどの過渡ノイズが瞬時に発生するため、推定されたノイズスペクトルが非常に不正確である。これにより、ノイズ抑制効果が良くない。ノイズスペクトルの予測が不正確である場合に、推定されたノイズスペクトルに応じてオリジナルの混合音声信号を処理すると、混合音声信号における音声の歪みを引き起こすか、又はノイズ抑制効果の劣化を引き起こす可能性がある。従って、この場合、音声忠実度とノイズ抑制との間の折衷が必要となる。
本願発明では、声門パラメータが音声生成の物理的プロセスにおける声門特徴と強い相関を有するため、予測された声門パラメータに基づいて音声を合成することにより、ターゲット音声フレームにおけるオリジナルの音声信号の音声構造が効果的に保証される。従って、予測された声門パラメータ、励起信号、及び利得に対して合成を行うことによりターゲット音声フレームの強調音声信号を取得することは、ターゲット音声フレームにおけるオリジナルの音声信号が削減されることを効果的に回避することができ、音声構造が効果的に保護される。そして、ターゲット音声フレームに対応する声門パラメータ、励起信号、及び利得を予測した後、オリジナルのノイズ付きの音声を処理することがなくなるため、音声忠実度とノイズ抑制との両者の間の折衷も不要になる。
本願のいくつかの実施例において、ステップ410の前に、該方法は、前記ターゲット音声フレームの時間領域信号を取得するステップと、前記ターゲット音声フレームの時間領域信号を時間周波数変換することにより、前記ターゲット音声フレームの周波数領域での表現を取得するステップと、をさらに含む。
時間周波数変換は、短時間フーリエ変換(STFT:Short-term Fourier transform)であってもよい。周波数領域での表現は、振幅スペクトルや複素スペクトルなどであってもよく、ここでは具体的な限定を行わない。
短時間フーリエ変換では、窓掛け・オーバーラップの操作を採用してフレーム間の不平滑化を解消する。図6は、1つの具体的な実施例によって示された短時間フーリエ変換における窓掛け・オーバーラップの模式図である。図6において、50%の窓掛け・オーバーラップの操作が採用され、短時間フーリエ変換が640個のサンプルポイントに対するものである場合、該窓関数の重畳サンプル数(hop-size)は320である。窓掛けに使用される窓関数は、ハニング(Hanning)窓であってもよく、もちろん、その他の窓関数を採用してもよく、ここでは具体的な限定を行わない。
その他の実施例において、50%以外の窓掛け・オーバーラップの操作を採用してもよい。例えば、短時間フーリエ変換が512個のサンプルポイントに対するものである場合、1つの音声フレームに320個のサンプルポイントが含まれれば、1つ前の音声フレームの192個のサンプルポイントをオーバーラップするだけでよい。
本願のいくつかの実施例において、前記ターゲット音声フレームの時間領域信号を取得するステップは、第2音声信号を取得するステップであって、前記第2音声信号は、収集された音声信号、又は、符号化音声信号を復号化した音声信号である、ステップと、前記第2音声信号をフレーム化することにより、前記ターゲット音声フレームの時間領域信号を取得するステップと、を含む。
いくつかの実例では、設定されたフレーム長で第2音声信号をフレーム化してもよい。該フレーム長は、実際の必要に応じて設定されてもよい。例えば、フレーム長は、20msに設定されてもよい。
上記のように、本願発明は、音声強調のために送信側に適用されてもよいし、音声強調のために受信側に適用されてもよい。
本願発明が送信側に適用される場合、該第2音声信号は、送信側で収集された音声信号である。第2音声信号をフレーム化することにより、複数の音声フレームを取得する。フレーム化によって音声フレームが取得された後、各々の音声フレームをターゲット音声フレームとして、上記のステップ410~440のプロセスでターゲット音声フレームを強調してもよい。さらに、ターゲット音声フレームに対応する強調音声信号を取得した後、該増強音声信号を符号化することにより、得られた符号化音声信号に基づいて伝送を行ってもよい。
一実施例において、直接収集された音声信号がアナログ信号であるので、信号処理を便利に行うために、フレーム化の前に、さらに音声信号をデジタル化する必要がある。設定されたサンプリングレートで、収集された音声信号をサンプリングしてもよい。設定されたサンプリングレートは、16000Hz、8000Hz、32000Hz、48000Hzなどであってもよく、具体的には、実際の必要に応じて設定されてもよい。
本願発明が受信側に適用される場合、該第2音声信号は、受信された符号化音声信号を復号化した音声信号である。第2音声信号をフレーム化することにより、複数の音声フレームを取得した後、該複数の音声フレームをターゲット音声フレームとして、上記のステップ410~440のプロセスでターゲット音声フレームを強調することにより、ターゲット音声フレームの強調音声信号を取得する。さらに、ターゲット音声フレームに対応する強調音声信号を再生してもよい。取得された強調音声信号は、ターゲット音声フレームの強調前の信号に比べて、ノイズが既に除去されており、音声信号の品質がより高いため、ユーザにとって、聴覚体験がより良い。
以下、具体的な実施例を参照しながら、本願発明をさらに説明する。
図7は、1つの具体的な実施例によって示された音声強調方法のフローチャートである。n番目の音声フレームをターゲット音声フレームとすると仮定すると、該n番目の音声フレームの時間領域信号はs(n)となる。図7に示すように、ステップ710では、該n番目の音声フレームを時間周波数変換することにより、該n番目の音声フレームの周波数領域での表現S(n)を取得する。S(n)は、振幅スペクトルであってもよいし、複素スペクトルであってもよく、ここでは具体的な限定を行わない。
n番目の音声フレームの周波数領域での表現S(n)を取得した後、ステップ720によって、該n番目の音声フレームに対応する声門パラメータを予測し、ステップ730及び740によって、該ターゲット音声フレームに対応する励起信号を取得することができる。
ステップ720では、n番目の音声フレームの周波数領域での表現S(n)のみを第1ニューラルネットワークの入力としてもよいし、該ターゲット音声フレームの過去音声フレームに対応する声門パラメータP_pre(n)と、n番目の音声フレームの周波数領域での表現S(n)とを第1ニューラルネットワークの入力としてもよい。第1ニューラルネットワークは、入力された情報に基づいて声門パラメータ予測を行うことにより、該n番目の音声フレームに対応する声門パラメータar(n)を取得することができる。
ステップ730では、n番目の音声フレームの周波数領域での表現S(n)を第3ニューラルネットワークの入力とする。該第3ニューラルネットワークは、入力情報に基づいて励起信号予測を行い、n番目の音声フレームに対応する励起信号の周波数領域での表現R(n)を出力する。これを基にして、ステップ740では、周波数時間変換を行うことにより、n番目の音声フレームに対応する励起信号の周波数領域での表現R(n)を時間領域信号r(n)に変換することができる。
n番目の音声フレームに対応する利得は、ステップ750によって取得される。ステップ750では、n番目の音声フレームの過去音声フレームの利得G_pre(n)を第2ニューラルネットワークの入力とする。これに応じて、第2ニューラルネットワークは、利得予測を行うことにより、該n番目の音声フレームに対応する利得G_(n)を取得する。
n番目の音声フレームに対応する声門パラメータar(n)、対応する励起信号r(n)、及び対応する利得G_(n)を取得した後、この3つのパラメータに基づいて、ステップ760で合成フィルタリングを行うことにより、該n番目の音声フレームに対応する強調音声信号s_e(n)を取得する。具体的には、線形予測分析の原理で音声合成を行ってもよい。線形予測分析の原理で音声合成を行うプロセスには、過去音声フレームの情報を利用する必要がある。具体的には、声門フィルタによって励起信号をフィルタリングするプロセスは、即ち、t番目のサンプルポイントに対して、その前のp個の過去サンプルポイントの励起信号値を利用してp次の声門フィルタと畳み込むことにより、該サンプルポイントに対応するターゲット信号値を取得することである。声門フィルタが16次のデジタルフィルタである場合、n番目の音声フレームに対して合成処理を行うプロセスには、n-1番目のフレームにおける最後のp個のサンプルポイントの情報を利用する必要もある。
以下、具体的な実施例を参照しながら、上記のステップ720、ステップ730、及びステップ750をさらに説明する。処理対象の音声信号のサンプリング周波数Fs=16000Hz、フレーム長が20msであると仮定すると、各々の音声フレームには、320個のサンプルポイントが含まれる。該方法で行われる短時間フーリエ変換は、640個のサンプルポイントを採用し、重畳サンプルポイントが320個であると仮定する。さらに、声門パラメータが線スペクトル周波数係数であり、即ち、n番目の音声フレームに対応する声門パラメータがar(n)であり、対応するLSFパラメータがLSF(n)であると仮定し、声門フィルタを16次のフィルタとする。
図8は、1つの具体的な実施例によって示された第1ニューラルネットワークの模式図である。図8に示すように、該第1ニューラルネットワークには、1つの長・短期記憶(LSTM:Long-Short Term Memory)層と、カスケードされた3つの全結合(FC:Full Connected)層とが含まれる。そのうち、LSTM層は、隠れ層であり、256個のユニットを含む。LSTM層の入力は、n番目の音声フレームの周波数領域での表現S(n)である。本実施例において、LSTM層の入力は、321次元のSTFT係数である。カスケードされた3つのFC層のうち、最初の2つのFC層に活性化関数σ()が設定されており、設定された活性化関数は、第1ニューラルネットワークの非線形表現能力を増加させるためのものであり、最後のFC層に活性化関数が設定されておらず、該最後のFC層は、分類器として分類出力を行う。図8に示すように、下から上への3つのFC層には、それぞれ512、512、16個のユニットが含まれ、最後のFC層の出力は、該n番目の音声フレームに対応する16次元の線スペクトル周波数係数LSF(n)、即ち、16次の線スペクトル周波数係数である。
図9は、他の実施例によって示された第1ニューラルネットワークの入力及び出力の模式図である。ここで、図9における第1ニューラルネットワークの構造は、図8におけるのと同じである。図8に比べると、図9における第1ニューラルネットワークの入力は、該n番目の音声フレームの1つ前の音声フレーム(即ち、n-1番目のフレーム)の線スペクトル周波数係数LSF(n-1)をさらに含む。図9に示すように、2番目のFC層には、参考情報として、n番目の音声フレームの1つ前の音声フレームの線スペクトル周波数係数LSF(n-1)が埋め込まれている。隣接する2つの音声フレームのLSFパラメータの類似性が非常に高いため、n番目の音声フレームの過去音声フレームに対応するLSFパラメータを参考情報とすると、LSFパラメータの予測の確度を向上させることができる。
図10は、1つの具体的な実施例によって示された第2ニューラルネットワークの模式図である。図10に示すように、第2ニューラルネットワークには、1つのLSTM層と、1つのFC層とが含まれる。そのうち、LSTM層は、隠れ層であり、128個のユニットを含み、FC層は、入力が512次元のベクトルであり、出力が1次元の利得である。1つの具体的な実施例において、n番目の音声フレームの過去音声フレーム利得G_pre(n)は、n番目の音声フレームの前の4つの音声フレームに対応する利得、即ち、
G_pre(n)={G(n-1),G(n-2),G(n-3),G(n-4)}
と定義されてもよい。
もちろん、選択される利得予測用の過去音声フレームの数は、上記に挙げられた例に限らず、具体的には実際の必要に応じて選択して使用してもよい。
上記に示されたような第1ニューラルネットワーク及び第2ニューラルネットワークの構造において、ネットワークは、M-to-Nのマッピング関係(N<<M)を呈する。即ち、ニューラルネットワークは、入力情報の次元がMであり、出力情報の次元がNである。第1ニューラルネットワーク及び第2ニューラルネットワークの構造が極めて大きく簡略化され、ニューラルネットワークモデルの複雑さが低減される。
図11は、1つの具体的な実施例によって示された第3ニューラルネットワークの模式図である。図11に示すように、該第3ニューラルネットワークには、1つのLSTM層と、3つのFC層とが含まれる。そのうち、LSTM層は、隠れ層であり、256個のユニットを含み、LSTMの入力が、n番目の音声フレームに対応する321次元のSTFT係数S(n)である。3つのFC層に含まれるユニットの数は、それぞれ、512、512、及び321であり、最後のFC層から、321次元の、n番目の音声フレームに対応する励起信号の周波数領域での表現R(n)が出力される。下から上への3つのFC層のうち、最初の2つのFC層に、モデルの非線形表現能力を向上させるための活性化関数が設定されており、分類出力を行うための最後のFC層に活性化関数が設定されていない。
図8~11に示された第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークの構造は、例示的な例に過ぎない。他の実施例では、深層学習のオープンソースプラットフォームに相応のネットワーク構造を設定することに応じて訓練を行ってもよい。
以下、本願の装置実施例を紹介する。該装置は、本願の上記実施例における方法を実行するために用いることができる。本願の装置実施例に披露されていない細部について、本願の上記の方法の実施例を参照する。
図12は、一実施例によって示された音声強調装置のブロック図である。図12に示すように、該音声強調装置は、
ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得する声門パラメータ予測モジュール1210と、
前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得する利得予測モジュール1220と、
前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得する励起信号予測モジュール1230と、
前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得する合成モジュール1240と、を含む。
本願のいくつかの実施例において、合成モジュール1240は、前記ターゲット音声フレームに対応する声門パラメータに基づいて、声門フィルタを構築する声門フィルタ構築ユニットと、前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第1音声信号を取得するフィルタリングユニットと、前記ターゲット音声フレームに対応する利得で、前記第1音声信号を増幅処理することにより、前記ターゲット音声フレームに対応する増強音声信号を取得する増幅ユニットと、を含む。
本願のいくつかの実施例において、前記ターゲット音声フレームには、複数のサンプルポイントが含まれ、前記声門フィルタは、K次(Kは正の整数)のフィルタであり、前記励起信号には、前記ターゲット音声フレームにおける複数のサンプルポイントのそれぞれに対応する励起信号値が含まれ、フィルタリングユニットは、前記ターゲット音声フレームにおける各サンプルポイントの前のK個のサンプルポイントに対応する励起信号値と前記K次のフィルタとを畳み込むことにより、前記ターゲット音声フレームにおける各サンプルポイントのターゲット信号値を取得する畳み込みユニットと、前記ターゲット音声フレームにおける全てのサンプルポイントに対応するターゲット信号値を時間順に組み合わせることにより、前記第1音声信号を取得する組み合わせユニットと、を含む。本願のいくつかの実施例において、前記声門フィルタは、K次のフィルタであり、前記声門パラメータには、K次の線スペクトル周波数パラメータ又はK次の線形予測係数が含まれる。
本願のいくつかの実施例において、声門パラメータ予測モジュール1210は、前記ターゲット音声フレームの周波数領域での表現を第1ニューラルネットワークに入力する第1入力ユニットであって、前記第1ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータとに基づいて訓練されたものである、第1入力ユニットと、前記第1ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する声門パラメータを出力する第1出力ユニットと、を含む。
本願のいくつかの実施例において、声門パラメータ予測モジュール1210は、さらに、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータを参考として、前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するように構成される。
本願のいくつかの実施例において、声門パラメータ予測モジュール1210は、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとを第1ニューラルネットワークに入力する第2入力ユニットであって、前記第1ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータと、前記サンプル音声フレームの過去音声フレームに対応する声門パラメータとに基づいて訓練されたものである、第2入力ユニットと、前記第1ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとに基づいて予測を行い、前記ターゲット音声フレームに対応する声門パラメータを出力する第2出力ユニットと、を含む。
本願のいくつかの実施例において、利得予測モジュール1220は、前記ターゲット音声フレームの過去音声フレームに対応する利得を第2ニューラルネットワークに入力する第3入力ユニットであって、前記第2ニューラルネットワークは、サンプル音声フレームに対応する利得と、前記サンプル音声フレームの過去音声フレームに対応する利得とに基づいて訓練されたものである、第3入力ユニットと、前記第2ニューラルネットワークによって、前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対応する利得を出力する第3出力ユニットと、を含む。
本願のいくつかの実施例において、励起信号予測モジュール1230は、前記ターゲット音声フレームの周波数領域での表現を第3ニューラルネットワークに入力する第4入力ユニットであって、前記第3ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する励起信号の周波数領域での表現とに基づいて訓練されたものである、第4入力ユニットと、前記第3ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する励起信号の周波数領域での表現を出力する第4出力ユニットと、を含む。
本願のいくつかの実施例において、音声強調装置は、前記ターゲット音声フレームの時間領域信号を取得する取得モジュールと、前記ターゲット音声フレームの時間領域信号を時間周波数変換することにより、前記ターゲット音声フレームの周波数領域での表現を取得する時間周波数変換モジュールと、をさらに含む。
本願のいくつかの実施例において、取得モジュールは、さらに、第2音声信号を取得し、前記第2音声信号をフレーム化することにより、前記ターゲット音声フレームの時間領域信号を取得するように構成され、前記第2音声信号は、収集された音声信号、又は、符号化音声を復号化した音声信号である。
本願のいくつかの実施例において、音声増強装置は、前記ターゲット音声フレームに対応する増強音声信号の再生又は符号化伝送を行う処理モジュールをさらに含む。
図13は、本願の実施例を実現することに好適な電子機器のコンピュータシステムの構成の模式図を示す。
説明すべきものとして、図13に示された電子機器のコンピュータシステム1300は、一例に過ぎず、本願の実施例の機能及び使用範囲にいかなる制限も与えるべきではない。
図13に示すように、コンピュータシステム1300は、中央処理装置(CPU:Central Processing Unit)1301を含み、CPU1301は、読み出し専用メモリ(ROM:Read-Only Memory)1302に記憶されたプログラム、又は、記憶部1308からランダムアクセスメモリ(RAM:Random Access Memory)1303にロードされたプログラムに基づいて、各種の適当な動作及び処理、例えば、上記実施例における方法を実行することができる。RAM1303には、システム動作に必要な各種のプログラム及びデータがさらに記憶される。CPU1301、ROM1302、及びRAM1303は、バス1304を介して互いに接続される。入力/出力(I/O:Input/Output)インタフェース1305もバス1304に接続される。
I/Oインタフェース1305には、キーボード、マウスなどを含む入力部1306と、例えば、陰極線管(CRT:Cathode Ray Tube)、液晶ディスプレイ(LCD:Liquid Crystal Display)など、及びスピーカーなどを含む出力部1307と、ハードディスクなどを含む記憶部1308と、例えば、ローカルエリアネットワーク(LAN:Local Area Network)カード、モデムなどのネットワークインタフェースカードを含む通信部1309とが接続される。通信部1309は、インターネットのようなネットワークを介して、通信処理を実行する。ドライバー1310も、必要に応じて、I/Oインタフェース1305に接続される。例えば、磁気ディスク、光ディスク、磁気光学ディスク、半導体メモリなどの取り外し可能な媒体1311は、必要に応じて、取り外し可能な媒体1311から読み取られたコンピュータプログラムが必要に応じて記憶部1308にインストールされるように、ドライバー1310に取り付けられる。
特に、本願の実施例によれば、上記でフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は、コンピュータ可読媒体に搭載されたコンピュータプログラムが含まれるコンピュータプログラム製品を含み、該コンピュータプログラムには、フローチャートに示される方法を実行するためのプログラムコードが含まれる。このような実施例では、該コンピュータプログラムは、通信部1309によって、ネットワークからダウンロード及びインストールされ、及び/又は、取り外し可能な媒体1311からインストールされてもよい。該コンピュータプログラムは、中央処理装置(CPU)1301によって実行されると、本願のシステムで限定された各種の機能を実行させる。
説明すべきものとして、本願の実施例に示されたコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、あるいは、上記の両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置、又はデバイス、あるいは、上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数の導線がある電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM:Erasable Programmable Read Only Memory)、フラッシュメモリ、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM:Compact Disc Read-Only Memory)、光記憶デバイス、磁気記憶デバイス、あるいは、上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。本願では、コンピュータ可読記憶媒体は、プログラムを含み又は記憶した任意の有形の媒体であってもよく、該プログラムは、命令実行システム、装置、又はデバイスによって使用されるか、あるいは、これらと組み合わせて使用されてもよい。一方、本願では、コンピュータ可読信号媒体は、ベースバンドで又はキャリアの一部として伝播されるデータ信号を含んでもよく、該データ信号には、コンピュータ可読プログラムコードが搭載される。このような伝播されるデータ信号は、電磁気信号、光信号、又は上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は、命令実行システム、装置、又はデバイスによって使用されるか、あるいは、これらと組み合わせて使用されるためのプログラムを送信、伝播、又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、無線、有線など、又は上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体で伝送されてもよい。
図面中のフローチャート及びブロック図は、本願の各種の実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能、及び動作を図示している。そのうち、フローチャート又はブロック図における各ブロックは、モジュール、プログラムセグメント、又はコードの一部を表すことができ、上記モジュール、プログラムセグメント、又はコードの一部には、所定の論理機能を実現するための1つ又は複数の実行可能命令が含まれる。別の注意すべきものとして、代替としてのいくつかの実現では、ブロックに記載された機能は、図面に記載された順序とは異なる順序で行われてもよい。例えば、連続して示される2つのブロックは、実際には、基本的に並行して実行される場合があり、関連する機能によっては、逆の順序で実行される場合もある。別の注意すべきものとして、ブロック図又はフローチャートにおける各ブロック、及び、ブロック図又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用の、ハードウェアに基づくシステムで実現されてもよく、あるいは、専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよい。
本願の実施例の説明に係るユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよく、説明されたユニットは、プロセッサに設置されてもよい。ここで、これらのユニットの名称は、ある場合には該ユニット自体を限定するものではない。
別の態様として、本願では、コンピュータ可読記憶媒体も提供されており、該コンピュータ可読記憶媒体は、上記実施例で説明された電子機器に含まれるものであってもよいし、該電子機器に組み立てされることなく単独で存在するものであってもよい。上記コンピュータ可読記憶媒体には、コンピュータ可読命令が搭載され、該コンピュータ可読命令は、プロセッサによって実行されると、上記のいずれかの実施例における方法を実現させる。
本願の一態様によれば、電子機器がさらに提供されている。この電子機器は、プロセッサと、プロセッサによって実行されると、上記のいずれかの実施例における方法を実現させるコンピュータ可読命令が記憶されているメモリと、を備える。
本願の実施例の一態様によれば、コンピュータ命令を含むコンピュータプログラム製品又はコンピュータプログラムが提供されている。該コンピュータ命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサが該コンピュータ命令を実行すると、該コンピュータ機器に上記のいずれかの実施例における方法を実行させる。
注意すべきものとして、上記の詳細な説明では、動作を実行するための機器の若干のモジュール又はユニットが言及されているが、このような分割は強制的ではない。実際には、本願の実施形態によれば、上述した2つ以上のモジュール又はユニットの特徴及び機能は、1つのモジュール又はユニットに具体化されてもよい。逆に、上述した1つのモジュール又はユニットの特徴及び機能は、複数のモジュール又はユニットによって具体化されるように、さらに分割されてもよい。
上記の実施形態の説明によれば、当業者には容易に理解されるように、ここに記載された例示的な実施形態は、ソフトウェアによって実現されてもよいし、ソフトウェアと必要なハードウェアとの組み合わせによって実現されてもよい。このため、本願の実施形態による構成は、ソフトウェア製品の形で具現されてもよい。該ソフトウェア製品は、不揮発性記憶媒体(CD-ROM、Uディスク、モバイルハードディスクなどであってもよい)又はネットワークに記憶されてもよく、コンピューティング機器(パーソナルコンピュータ、サーバ、タッチ端末、又はネットワーク機器などであってもよい)に、本願の実施形態による方法を実行させる若干の命令を含む。
当業者は、明細書を考慮して、ここで開示された実施形態を実施した後、本願の他の実施形態を容易に想到し得る。本願は、本願の任意の変形、用途、又は適応的な変更が包括されることを趣旨とする。これらの変形、用途、又は適応的な変更は、本願の一般的な原理に従い、本願に開示されていない本技術分野における技術常識又は慣用の技術的手段を含む。
理解すべきものとして、本願は、上記で説明されて図面に示された精確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正及び変更が可能である。本願の範囲は、添付の特許請求の範囲によってのみ限定される。

Claims (14)

  1. コンピュータ機器が実行する音声強調方法であって、
    ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップと、
    前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得するステップと、
    前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得するステップと、
    前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップと、
    を含み、
    前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップは、
    前記ターゲット音声フレームに対応する声門パラメータに基づいて、声門フィルタを構築するステップと、
    前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第1音声信号を取得するステップと、
    前記ターゲット音声フレームに対応する利得で、前記第1音声信号を増幅処理することにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップと、を含む、
    音声強調方法。
  2. 前記ターゲット音声フレームには、複数のサンプルポイントが含まれ、前記声門フィルタは、K次(Kは正の整数)のフィルタであり、前記励起信号には、前記ターゲット音声フレームにおける複数のサンプルポイントのそれぞれに対応する励起信号値が含まれ、
    前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第1音声信号を取得するステップは、
    前記ターゲット音声フレームにおける各サンプルポイントの前のK個のサンプルポイントに対応する励起信号値と前記K次のフィルタとを畳み込むことにより、前記ターゲット音声フレームにおける各サンプルポイントのターゲット信号値を取得するステップと、
    前記ターゲット音声フレームにおける全てのサンプルポイントに対応するターゲット信号値を時間順に組み合わせることにより、前記第1音声信号を取得するステップと、を含む、
    請求項に記載の音声強調方法。
  3. 前記声門フィルタは、K次(Kは正の整数)のフィルタであり、前記声門パラメータには、K次の線スペクトル周波数パラメータ又はK次の線形予測係数が含まれる、
    請求項に記載の音声強調方法。
  4. 前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップは、
    前記ターゲット音声フレームの周波数領域での表現を第1ニューラルネットワークに入力するステップであって、前記第1ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する声門パラメータとに基づいて訓練されたものである、ステップと、
    前記第1ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する声門パラメータを出力するステップと、を含む、
    請求項1に記載の音声強調方法。
  5. 前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップは、
    前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータを参考として、前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップを含む、
    請求項1に記載の音声強調方法。
  6. 前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータを参考として、前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップは、
    前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとを第1ニューラルネットワークに入力するステップであって、前記第1ニューラルネットワークは、サンプル音声フレームの周波数領域での表現、前記サンプル音声フレームに対応する声門パラメータ、及び前記サンプル音声フレームの過去音声フレームに対応する声門パラメータによって訓練されたものである、ステップと、
    前記第1ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現と、前記ターゲット音声フレームの過去音声フレームに対応する声門パラメータとに基づいて予測を行い、前記ターゲット音声フレームに対応する声門パラメータを出力するステップと、を含む、
    請求項に記載の音声強調方法。
  7. 前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得するステップは、
    前記ターゲット音声フレームの過去音声フレームに対応する利得を第2ニューラルネットワークに入力するステップであって、前記第2ニューラルネットワークは、サンプル音声フレームに対応する利得と、前記サンプル音声フレームの過去音声フレームに対応する利得とに基づいて訓練されたものである、ステップと、
    前記第2ニューラルネットワークによって、前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対応する利得を出力するステップと、を含む、
    請求項1に記載の音声強調方法。
  8. 前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得するステップは、
    前記ターゲット音声フレームの周波数領域での表現を第3ニューラルネットワークに入力するステップであって、前記第3ニューラルネットワークは、サンプル音声フレームの周波数領域での表現と、前記サンプル音声フレームに対応する励起信号の周波数領域での表現とに基づいて訓練されたものである、ステップと、
    前記第3ニューラルネットワークによって、前記ターゲット音声フレームの周波数領域での表現に基づいて、前記ターゲット音声フレームに対応する励起信号の周波数領域での表現を出力するステップと、を含む、
    請求項1に記載の音声強調方法。
  9. 前記ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得するステップの前に、
    前記ターゲット音声フレームの時間領域信号を取得するステップと、
    前記ターゲット音声フレームの時間領域信号を時間周波数変換することにより、前記ターゲット音声フレームの周波数領域での表現を取得するステップと、をさらに含む、
    請求項1に記載の音声強調方法。
  10. 前記ターゲット音声フレームの時間領域信号を取得するステップは、
    第2音声信号を取得するステップであって、前記第2音声信号は、収集された音声信号、又は、符号化音声を復号化した音声信号である、ステップと、
    前記第2音声信号をフレーム化することにより、前記ターゲット音声フレームの時間領域信号を取得するステップと、を含む、
    請求項に記載の音声強調方法。
  11. 前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得するステップの後に、
    前記ターゲット音声フレームに対応する強調音声信号の再生又は符号化伝送を行うステップをさらに含む、
    請求項1に記載の音声強調方法。
  12. 音声強調装置であって、
    ターゲット音声フレームの周波数領域での表現に基づいて、声門パラメータ予測を行うことにより、前記ターゲット音声フレームに対応する声門パラメータを取得する声門パラメータ予測モジュールと、
    前記ターゲット音声フレームの過去音声フレームに対応する利得に基づいて、前記ターゲット音声フレームに対して利得予測を行うことにより、前記ターゲット音声フレームに対応する利得を取得する利得予測モジュールと、
    前記ターゲット音声フレームの周波数領域での表現に基づいて、励起信号予測を行うことにより、前記ターゲット音声フレームに対応する励起信号を取得する励起信号予測モジュールと、
    前記ターゲット音声フレームに対応する声門パラメータ、前記ターゲット音声フレームに対応する利得、及び前記ターゲット音声フレームに対応する励起信号に対して合成処理を行うことにより、前記ターゲット音声フレームに対応する強調音声信号を取得する合成モジュールと、
    を含み、
    前記合成モジュールは、
    前記ターゲット音声フレームに対応する声門パラメータに基づいて、声門フィルタを構築し
    前記声門フィルタによって、前記ターゲット音声フレームに対応する励起信号をフィルタリングすることにより、第1音声信号を取得し、及び
    前記ターゲット音声フレームに対応する利得で、前記第1音声信号を増幅処理することにより、前記ターゲット音声フレームに対応する強調音声信号を取得することを実行する、
    音声強調装置。
  13. 電子機器であって、
    プロセッサと、
    前記プロセッサによって実行されると、請求項1乃至1のいずれか1項に記載の音声強調方法を実現させるコンピュータ可読命令が記憶されているメモリと、
    を備える電子機器。
  14. コンピュータに、請求項1乃至1のいずれか1項に記載の音声強調方法を実行させるためのプログラム。
JP2023538919A 2021-02-08 2022-01-27 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム Active JP7615510B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110171244.6 2021-02-08
CN202110171244.6A CN113571079B (zh) 2021-02-08 2021-02-08 语音增强方法、装置、设备及存储介质
PCT/CN2022/074225 WO2022166738A1 (zh) 2021-02-08 2022-01-27 语音增强方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2024502287A JP2024502287A (ja) 2024-01-18
JP7615510B2 true JP7615510B2 (ja) 2025-01-17

Family

ID=78161158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023538919A Active JP7615510B2 (ja) 2021-02-08 2022-01-27 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US12361959B2 (ja)
EP (1) EP4283618A4 (ja)
JP (1) JP7615510B2 (ja)
CN (1) CN113571079B (ja)
WO (1) WO2022166738A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571079B (zh) * 2021-02-08 2025-07-11 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN115101088A (zh) * 2022-06-08 2022-09-23 维沃移动通信有限公司 音频信号恢复方法、装置、电子设备及介质
US20240331715A1 (en) * 2023-04-03 2024-10-03 Samsung Electronics Co., Ltd. System and method for mask-based neural beamforming for multi-channel speech enhancement
CN116631419B (zh) * 2023-05-29 2025-11-14 小米科技(武汉)有限公司 语音信号的处理方法、装置、电子设备和存储介质
CN116721671A (zh) * 2023-07-25 2023-09-08 迈普通信技术股份有限公司 语音增益控制方法、装置、语音控制设备及存储介质
CN119068876B (zh) * 2024-08-19 2025-05-02 美的集团(上海)有限公司 唤醒设备识别方法、装置、设备、存储介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304843B1 (en) 1999-01-05 2001-10-16 Motorola, Inc. Method and apparatus for reconstructing a linear prediction filter excitation signal
WO2004040555A1 (ja) 2002-10-31 2004-05-13 Fujitsu Limited 音声強調装置
CN111554322A (zh) 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4586193A (en) * 1982-12-08 1986-04-29 Harris Corporation Formant-based speech synthesizer
US5748838A (en) * 1991-09-24 1998-05-05 Sensimetrics Corporation Method of speech representation and synthesis using a set of high level constrained parameters
NZ313705A (en) * 1995-07-27 1998-11-25 British Telecomm Assessment of signal quality
EP1160764A1 (en) * 2000-06-02 2001-12-05 Sony France S.A. Morphological categories for voice synthesis
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
CN101281744B (zh) * 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
CN101616059B (zh) * 2008-06-27 2011-09-14 华为技术有限公司 一种丢包隐藏的方法和装置
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
CN105469805B (zh) * 2012-03-01 2018-01-12 华为技术有限公司 一种语音频信号处理方法和装置
GB2508417B (en) * 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
SG11201510510PA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved signal fade out in different domains during error concealment
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
US10014007B2 (en) * 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) * 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US20160343366A1 (en) * 2015-05-19 2016-11-24 Google Inc. Speech synthesis model selection
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
CA3004700C (en) * 2015-10-06 2021-03-23 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN107248411B (zh) * 2016-03-29 2020-08-07 华为技术有限公司 丢帧补偿处理方法和装置
US10657437B2 (en) * 2016-08-18 2020-05-19 International Business Machines Corporation Training of front-end and back-end neural networks
US20180330713A1 (en) * 2017-05-14 2018-11-15 International Business Machines Corporation Text-to-Speech Synthesis with Dynamically-Created Virtual Voices
WO2018209556A1 (en) * 2017-05-16 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for speech synthesis
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
WO2019195619A1 (en) * 2018-04-04 2019-10-10 Pindrop Security, Inc. Voice modification detection using physical models of speech production
US10650806B2 (en) * 2018-04-23 2020-05-12 Cerence Operating Company System and method for discriminative training of regression deep neural networks
US10741192B2 (en) * 2018-05-07 2020-08-11 Qualcomm Incorporated Split-domain speech signal enhancement
CN109065067B (zh) * 2018-08-16 2022-12-06 福建星网智慧科技有限公司 一种基于神经网络模型的会议终端语音降噪方法
CN110018808A (zh) 2018-12-25 2019-07-16 瑞声科技(新加坡)有限公司 一种音质调整方法及装置
CN111739544B (zh) * 2019-03-25 2023-10-20 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质
CN111554309B (zh) * 2020-05-15 2024-11-22 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN111554323B (zh) * 2020-05-15 2025-02-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN111554308B (zh) * 2020-05-15 2024-10-15 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
US12433530B2 (en) * 2020-07-10 2025-10-07 EMOCOG Co., Ltd. Voice characteristic-based method and device for predicting alzheimer's disease
CN113571080B (zh) * 2021-02-08 2024-11-08 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN113571079B (zh) * 2021-02-08 2025-07-11 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN113763973A (zh) * 2021-04-30 2021-12-07 腾讯科技(深圳)有限公司 音频信号增强方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304843B1 (en) 1999-01-05 2001-10-16 Motorola, Inc. Method and apparatus for reconstructing a linear prediction filter excitation signal
WO2004040555A1 (ja) 2002-10-31 2004-05-13 Fujitsu Limited 音声強調装置
CN111554322A (zh) 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP4283618A4 (en) 2024-06-19
CN113571079B (zh) 2025-07-11
CN113571079A (zh) 2021-10-29
WO2022166738A1 (zh) 2022-08-11
US20230050519A1 (en) 2023-02-16
US12361959B2 (en) 2025-07-15
JP2024502287A (ja) 2024-01-18
EP4283618A1 (en) 2023-11-29

Similar Documents

Publication Publication Date Title
JP7615510B2 (ja) 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム
JP7636088B2 (ja) 音声強調方法、装置、機器及びコンピュータプログラム
CN113140225A (zh) 语音信号处理方法、装置、电子设备及存储介质
CN114333892B (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333893B (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333891B (zh) 一种语音处理方法、装置、电子设备和可读介质
WO2024055751A1 (zh) 音频数据处理方法、装置、设备、存储介质及程序产品
CN111326166B (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
CN113571081B (zh) 语音增强方法、装置、设备及存储介质
CN116110424B (zh) 一种语音带宽扩展方法及相关装置
HK40052887A (en) Speech enhancement method, device, equipment and storage medium
CN113707163A (zh) 语音处理方法及其装置和模型训练方法及其装置
HK40052886A (en) Speech enhancement method, device, equipment and storage medium
HK40052885B (zh) 语音增强方法、装置、设备及存储介质
HK40052885A (en) Speech enhancement method, device, equipment and storage medium
HK40071037A (en) Voice processing method and apparatus, electronic device, and readable medium
HK40070826A (en) Voice processing method and apparatus, electronic device, and readable medium
HK40052886B (zh) 语音增强方法、装置、设备及存储介质
HK40071035A (zh) 一种语音处理方法、装置、电子设备和可读介质
HK40071037B (zh) 一种语音处理方法、装置、电子设备和可读介质
HK40071035B (zh) 一种语音处理方法、装置、电子设备和可读介质
HK40070826B (zh) 一种语音处理方法、装置、电子设备和可读介质
Nisa et al. A Mathematical Approach to Speech Enhancement for Speech Recognition and Speaker Identification Systems
HK40046825B (zh) 语音信号处理方法、装置、电子设备及存储介质
WO2025248322A1 (en) Audio processing method, model training method and apparatuses

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241212

R150 Certificate of patent or registration of utility model

Ref document number: 7615510

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150