JP2021516369A - 混合音声の認識方法、装置及びコンピュータ可読記憶媒体 - Google Patents

混合音声の認識方法、装置及びコンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP2021516369A
JP2021516369A JP2020547178A JP2020547178A JP2021516369A JP 2021516369 A JP2021516369 A JP 2021516369A JP 2020547178 A JP2020547178 A JP 2020547178A JP 2020547178 A JP2020547178 A JP 2020547178A JP 2021516369 A JP2021516369 A JP 2021516369A
Authority
JP
Japan
Prior art keywords
voice
vector
adaptive
mixed
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020547178A
Other languages
English (en)
Other versions
JP7177167B2 (ja
Inventor
ワン,ジュン
チェン,ジエ
スゥ,ダン
ユィ,ドォン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2021516369A publication Critical patent/JP2021516369A/ja
Application granted granted Critical
Publication of JP7177167B2 publication Critical patent/JP7177167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

本願の実施例は、混合音声の認識方法、混合音声の認識装置及びコンピュータ可読記憶媒体を提供する。該混合音声の認識方法は、適応音声と混合音声の入力をモニタリングしたとき、前記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、前記ターゲットオブジェクトの音声特徴に基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するステップとを含み、ここで、前記適応音声は、予め設定された音声情報を含む音声であり、前記混合音声は、前記適応音声の後に入力された非適応音声である。【選択図】図2

Description

本願は、2018年5月24日に中国特許庁に提出された、出願番号が201810436511.6、発明の名称が「混合音声の認識方法、装置及びコンピュータ可読記憶媒体」である中国特許出願に基づく優先権を主張するものであり、その全ての内容は参照により本願に組み込まれるものとする。
本願は、音声認識の技術分野に属し、具体的には、混合音声の認識方法、混合音声の認識装置及びコンピュータ可読記憶媒体に関する。
音声は、言語の音響表現として、人間が情報を伝達するための最も自然で効果的で便利な手段の1つである。近年、コンピュータ音声認識技術は、非常に進歩してきた。しかしながら、人々が音声をコンピュータに入力して音声認識を行うとき、入力された音声が環境ノイズ、部屋の残響、さらに他の話者の音声によって干渉されることは避けられない。これらの干渉により、最終的にコンピュータが収集した音声は純粋な音声ではなく、ノイズによって汚染された音声(即ち、混合音声)である。近年、混合音声信号の分離と認識に対処するために、ディープアトラクタネットワークなどの、ディープラーニングに基づく方法とシステムが多く開発されている。ディープアトラクタネットワーク(即ち、Deep Attractor Network)は、混合音声の各時間周波数ウィンドウに区分可能な埋め込みベクトルを生成するとともに、混合音声の各話者にアトラクタを生成し、そして埋め込みベクトルからこれらのアトラクタまでの距離を算出することにより、対応する時間周波数ウィンドウが対応する話者に帰属するマスク(即ち、Mask)を推定し、その後にこれらのMaskを用いて混合音声の各話者の時間周波数領域での表現を算出する。
本願の実施例は、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にする混合音声の認識方法、混合音声の認識装置及びコンピュータ可読記憶媒体を提供する。
本願の実施例の第1の態様に係る混合音声の認識方法は、
音声の入力をモニタリングするステップと、
適応音声と混合音声の入力をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するステップとを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。
本願の実施例の第2の態様に係る混合音声の認識装置は、
音声の入力をモニタリングするためのモニタリングユニットと、
上記モニタリングユニットが適応音声と混合音声の入力をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するための取得ユニットと、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するための特定ユニットとを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。
本願の実施例の第3の態様に係る混合音声の認識装置は、メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを含む。上記コンピュータプログラムが当該プロセッサによって実行されるとき、上記第1の態様に記載の混合音声の認識方法が実現される。
本願の実施例の第4の態様に係るコンピュータ可読記憶媒体は、コンピュータプログラムを記憶しているコンピュータ可読記憶媒体である。上記コンピュータプログラムがプロセッサによって実行されるとき、上記第1の態様に記載の混合音声の認識方法が実現される。
以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願の実施例に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
本願の実施例における技術手段をより明確に説明するために、以下、実施例又は従来技術の説明に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は本願のいくつかの実施例に過ぎず、当業者であれば、創造的な労働をせずにこれらの図面に基づいて他の図面を得ることができる。
本願の実施例に係る応用シーンの概略図である。 本願の実施例に係る混合音声の認識方法のフロー構成の概略図である。 本願の実施例に係る混合音声の認識方法の別のフロー構成の概略図である。 本願の実施例に係る認識ネットワークの概略構成図である。 本願の実施例に係る別の認識ネットワークの概略構成図である。 本願の実施例に係る混合音声の認識方法のさらに別のフロー構成の概略図である。 本願の実施例に係るさらに別の認識ネットワークの概略構成図である。 本願の実施例に係る混合音声の認識装置の概略構成図である。 本発明の実施例に係る混合音声の認識装置の別の概略構成図である。 本発明の実施例に係る混合音声の認識装置のさらに別の概略構成図である。
以下の説明では、限定ではなく例示を目的として、本願の実施例を完全に理解するために、例えば、特定のシステム構成、技術などの具体的な詳細が提供される。しかしながら、これらの具体的な詳細がない他の実施例においても本願を実現できることは当業者に自明である。他の場合では、不必要な詳細が本願の説明を妨げないように、周知のシステム、装置、回路及び方法の詳細な説明が省略される。
以下の方法実施例における各ステップの番号の大きさは実行順序の前後を意味するものではなく、各過程の実行順序はその機能と内部ロジックにより決められるものであり、各実施例の実施過程を限定するものではないと理解されるべきである。
本願に係る技術手段を説明するために、以下、具体的な実施例により説明する。
図1は本願の実施例に係る応用シーンの概略図である。図1に示すように、ユーザ20は、コンピュータ装置10と音声対話を行うことができる。コンピュータ装置10は、マイク又はマイクアレイを有してよい。コンピュータ装置は、様々な端末装置、例えばスマートスピーカー、スマートテレビ、スマート音声アシスタント、携帯電話、タブレット、電子ブックリーダー、スマートメガネ、スマートウォッチ、ラップトップコンピュータ及びデスクトップコンピュータなどであってよい。
本願の実施例は、混合音声の認識方法を提供し、図2を参照して、本願の実施例に係る混合音声の認識方法は、以下のステップ101〜103を含む。
ステップ101では、音声の入力をモニタリングする。
本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイク又はマイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、又は、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングすると、該音声をコンピュータ装置に送信する。コンピュータ装置は、様々な端末装置であってもよいし、サーバであってもよい。
ステップ102では、上記入力された音声において適応音声及び混合音声をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得する。
本願の実施例では、上記適応音声は、予め設定された音声情報を含む音声である。コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シーンでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード(例えば、「ピンポンピンポン」)を含む音声であるため、該応用シーンでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。ウェイクアップワードは、予め設定されてよい。
本願の実施例によれば、ステップ102では、音声特徴認識アルゴリズム(例えばメル周波数ケプストラム係数(MFCC、Mel−frequency cepstral coefficients)アルゴリズム)に基づいて、上記適応音声からターゲットオブジェクトの音声特徴を抽出してよい。
もちろん、ステップ102では、他の方式により上記適応音声からターゲットオブジェクトの音声特徴を抽出してもよく、詳細について、後の実施例の説明を参照されたい。
ステップ103では、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。
ここで、上記混合音声は、上記適応音声の後にマイクアレイによってモニタリングされて上記コンピュータ装置に入力された非適応音声である。
ステップ103では、コンピュータ装置は、上記ターゲットオブジェクトの音声特徴に基づいて、類似度尤度アルゴリズムによって上記混合音声から、上記ターゲットオブジェクトの音声特徴と類似する音声特徴を認識し、さらに、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することができる。
以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例に係る方法は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができ、応用シーンで干渉話者とターゲットオブジェクトとの位置が比較的に近い場合であっても、ターゲットオブジェクトの音声を正確に復元し、後続処理における被干渉音声に対する命令認識精度を向上させることができる。例えば、スマートスピーカーという応用シーンでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願の実施例に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
以下、別の実施例により本願に係る混合音声の認識方法を説明し、図3を参照して、本願の実施例に係る混合音声の認識方法は、以下のステップ201〜205を含む。
ステップ201では、音声の入力をモニタリングする。
本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、又は、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングすると、該音声をコンピュータ装置に送信する。コンピュータ装置は、様々な端末装置であってもよいし、サーバであってもよい。
ステップ202では、上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれK次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得する。
ここで、上記適応音声は予め設定された音声情報を含む音声であり、上記Kは1以上であり、例えば、40を取り得るものである。
本願の実施例では、コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シーンでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード(例えば、「ピンポンピンポン」)を含む音声であるため、該応用シーンでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。ウェイクアップワードは、予め設定されてよい。
混合音声は、上記適応音声の後に入力された非適応音声である。実際のスマート音声対話シナリオにおいて、特に、遠隔発話の状況では、様々な話者の音声が混ざることがよくあり、その結果、入力された音声が混合音声になり、本願の実施例に係る混合認識方法は、混合音声からターゲットオブジェクトに属する音声を特定するためのものである。
ステップ202では、コンピュータ装置は、上記適応音声のスペクトルと上記混合音声のスペクトルとをディープニューラルネットワークによりK次元のベクトル空間にマッピングして、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することができる。例えば、上記ディープニューラルネットワークは、各層に600個のノードを有してよい4層の双方向長・短期記憶ネットワーク(LSTM、Long Short−Term Memory)で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えば畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)と他のネットワーク構造とが結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願の実施例は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
具体的には、本願の実施例に係るスペクトルは、音声を短時間フーリエ変換した後、短時間フーリエ変換の結果の対数を取って得られる。
以下、例を挙げてステップ202を説明し、上付き
Figure 2021516369
は適応音声を、上付き
Figure 2021516369
は混合音声を表し、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、入力された音声のうちt番目のフレームの音声のスペクトルを表し(fはスペクトル次元のシリアル番号を表し、tは時間次元のフレームシリアル番号を表す)、そして、適応音声のスペクトルは
Figure 2021516369
と、混合音声のスペクトルは
Figure 2021516369
と表すことができる。そして、ステップ202では、それぞれ適応音声の入力スペクトル
Figure 2021516369

と混合音声の入力スペクトル
Figure 2021516369

とをディープニューラルネットワークによりK次元のベクトルにマッピングして、適応音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369
は適応音声のt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)と混合音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369


Figure 2021516369

は混合音声のt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)とを取得することができる。
ステップ203では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。
本願の実施例では、式
Figure 2021516369
により上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369
を算出することができ、式中、T1は適応音声のフレーム数を表す。
或いは、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、ステップ203では、適応音声のスペクトルを一定のスペクトル閾値と比較し、適応音声のあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル幅が適応スペクトルの比較値よりも大きければ、該フレームを適応音声の有効フレームとしてもよく、ステップ203では、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。ここで、上記適応スペクトルの比較値は、適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しい。具体的には、適応音声の教師ありラベル
Figure 2021516369

を設定し、適応音声の各フレームのスペクトルをそれぞれ、最大スペクトル幅とスペクトル閾値Γとの間の差と比較し、適応音声のあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル幅が適応スペクトルの比較値(即ち、適応音声の最大スペクトル幅とΓとの間の差)よりも大きければ、該時間周波数ウィンドウに対応する適応音声の教師ありラベル
Figure 2021516369

は1を取り、そうでなければ、
Figure 2021516369

は0を取ってよく、具体的な式は、以下の式(1)として表すことができる。
Figure 2021516369
式中、Γの値は、例えば40dBを取る。適応音声の入力スペクトルはディープニューラルネットワークによりK次元(例えば、K=40)空間のベクトルにマッピングされる。
上記適応音声の有効フレームが各ベクトル次元におけるベクトルに基づいて、上記適応音声が各ベクトル次元における平均ベクトルを取得することは、各ベクトル次元毎に、上記適応音声の各フレームが対応するベクトル次元におけるベクトルに対応するフレームの教師ありラベルを其々乗算した後に加算して、上記適応音声の有効フレームが対応するベクトル次元における総和ベクトルを取得することと、上記適応音声の有効フレームが各ベクトル次元における総和ベクトルを上記適応音声の各フレームの教師ありラベルの和で其々除算して、上記適応音声が各ベクトル次元における平均ベクトルを取得することとを含む。具体的には、上記適応音声の有効フレームが各ベクトル次元におけるベクトルに基づいて、上記適応音声が各ベクトル次元における平均ベクトルを取得することは、以下の式(2)により実現することができる。
Figure 2021516369
ただし、
Figure 2021516369

は、上記適応音声のベクトル次元kでの平均ベクトルを表し、k∈[1,K]である。
ステップ204では、上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定する。
ステップ204では、コンピュータ装置は、混合音声の各フレームの各ベクトル次元でのベクトルと音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して、ターゲットオブジェクトの音声を復元するようにし、推定方法は、式(3)に示すとおりである。
Figure 2021516369
上記式(3)において、
Figure 2021516369

は、上記混合音声のt番目のフレームのマスクを表し、
Figure 2021516369

及び
Figure 2021516369

については、前述の説明を参照することができる。
混合音声のあるフレーム(即ち、時間周波数ウィンドウ)のベクトルと音声抽出子の内積距離が小さいほど、該フレームがターゲットオブジェクトに帰属する確率が大きくなり、その分、第3式により推定される、該時間周波数ウィンドウに対応するマスクも大きくなる。
ステップ205では、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。
本願の実施例では、上記混合音声の各フレームのマスクを取得すると、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することができる。具体的には、該マスクを用いて上記混合音声に重み付けを行うことによって、上記混合音声のうち上記ターゲットオブジェクトに属する音声を1フレームごとに抽出することができ、マスクが大きいほど、対応する時間周波数ウィンドウの音声も多く抽出される。
なお、図3に示す実施例では、上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするが、もちろん、他の実施例では、他の方式でターゲットオブジェクトの各ベクトル次元での音声抽出子を選択してもよい。
他の実施形態としては、例えば、上記ステップ202の後、クラスタリングアルゴリズム(例えば、K−meansアルゴリズム)に基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定してもよい。上記ステップ204の代わりに、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定し、ここでは、上記ターゲットセントロイドベクトルは、同一のベクトル次元で上記適応音声の平均ベクトルとの距離が最小であるセントロイドベクトルである。
他の実施形態としては、例えば、上記ステップ203の後、それぞれ、予め設定されたM(上記Mは1よりも大きい)個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較してもよい。上記ステップ204の代わりに、上記M個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子を、ターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定する。
図3に示す混合音声の認識フローを実現するために、本願の実施例では、該混合音声の認識フローを実現するための認識ネットワークを予め構築し、そして、該認識ネットワークをトレーニングしてよい。
一応用シーンでは、上記認識ネットワークの概略構成図は、図4aに示すとおりである。以下、図4aを参照しながら上記認識ネットワークのトレーニング過程を説明する。
1、認識ネットワークをトレーニングするための適応音声サンプルと混合音声サンプルとをディープニューラルネットワークに入力し、該ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向LSTM層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばCNN及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
本応用シナリオでは、上付き
Figure 2021516369
は適応音声サンプルを、上付き
Figure 2021516369
は混合音声サンプルを表し、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、入力された音声のうちt番目のフレームの音声のスペクトルを表し(fはスペクトル次元のシリアル番号を表し、tは時間次元のフレームシリアル番号を表す)、そして、適応音声サンプルのスペクトルは
Figure 2021516369

と、混合音声サンプルのスペクトルは
Figure 2021516369

と表すことができ、そして、それぞれ適応音声サンプルの入力スペクトル
Figure 2021516369

と混合音声サンプルの入力スペクトル
Figure 2021516369

とをディープニューラルネットワークによりK次元のベクトルにマッピングして、適応音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369
は適応音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)と混合音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369
は混合音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)とを取得することができる。
2、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、適応音声サンプルの教師ありラベル
Figure 2021516369

を設定し、適応音声サンプルの各フレームのスペクトルをそれぞれ、最大スペクトル幅とスペクトル閾値Γとの間の差と比較し、適応音声サンプルのあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル幅が適応スペクトルの比較値(即ち、適応音声サンプルの最大スペクトル幅とΓとの間の差)よりも大きければ、該時間周波数ウィンドウに対応する適応音声サンプルの教師ありラベル
Figure 2021516369
は1を取り、そうでなければ、
Figure 2021516369

は0を取り、具体的な式は、式(4)として表すことができる。
Figure 2021516369
本応用シーンでは、適応音声サンプルのベクトル
Figure 2021516369

と教師ありラベル
Figure 2021516369

を用いてターゲットオブジェクトのベクトル空間での音声抽出子
Figure 2021516369

を推定する。各ベクトル次元において、上記適応音声サンプルの各フレームが対応するベクトル次元におけるベクトルに、対応するフレームの教師ありラベルを其々乗算した後に加算して、上記適応音声サンプルの有効フレームが対応するベクトル次元における総和ベクトルを取得し、上記適応音声サンプルの有効フレームが各ベクトル次元における総和ベクトルを上記適応音声サンプルの各フレームの教師ありラベルの和で其々除算して、上記適応音声サンプルが各ベクトル次元における平均ベクトルを取得し、計算方法は、式(5)に示すとおりである。
Figure 2021516369
式中、Γの値は、例えば40dBを取る。適応音声の入力スペクトルはディープニューラルネットワークによりK次元(例えば、K=40)空間のベクトルにマッピングされる。
3、混合音声サンプルの各フレームの各ベクトル次元でのベクトルと音声抽出子
Figure 2021516369

との間の距離を測定することにより、ターゲットオブジェクトが復元されるMaskを推定し、推定方法は、式(6)に示すとおりであり、時間周波数ウィンドウと音声抽出子との内積距離が小さいほど、該時間周波数ウィンドウがターゲットオブジェクトに帰属する確率が大きくなり、そして、式(6)により推定された対応する時間周波数ウィンドウのMaskが大きくなり、混合音声サンプルのうち対応する時間周波数ウィンドウの音声も多く抽出される。
Figure 2021516369
上記式(6)において、
Figure 2021516369

は、上記混合音声サンプルのt番目のフレームのマスクを表し、
Figure 2021516369

及び
Figure 2021516369

については、前述の説明を参照することができる。
4、推定されたMaskによって復元されたターゲットオブジェクトの音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築した後、該目的関数を最小化することによりネットワーク全体をトレーニングし、該目的関数Lは、式(7)に示すとおりであってよい。
Figure 2021516369
上記式(7)において、
Figure 2021516369

は、ターゲットオブジェクトの参照音声のt番目のフレームでのスペクトル(即ち、参照音声スペクトル)を表す。上記式(7)は、標準的なL2再構成誤差である。再構成誤差が復元された音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出されたターゲットオブジェクトの音声品質を最適化することができる。
別の応用シーンでは、上記認識ネットワークの概略構成図は図4bに示すとおりであってもよい。本応用シーンでは、認識ネットワークのトレーニング過程は適応音声サンプルを入力する必要がなく、すなわち、ターゲットオブジェクトと干渉オブジェクトを区別しない。以下、図4bを参照しながら上記認識ネットワークのトレーニング過程を説明する。
1、混合音声サンプルに合計C個の話者の音声があると仮定し、各話者の教師ありラベル
Figure 2021516369
を取得するために、混合音声サンプルにおける低エネルギーのスペクトルウィンドウのノイズを先に除去し、その後に混合音声サンプルの各話者の音声スペクトル幅について、ある話者のあるフレームでの音声スペクトル幅がいずれも該フレームでの他の話者のスペクトル幅よりも大きければ、該話者の該フレームでの対応する
Figure 2021516369
は1を取り、そうでなければ0を取る。
本応用シナリオでは、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、混合音声サンプルのt番目のフレームの音声のスペクトルを表し、混合音声サンプルの入力スペクトル
Figure 2021516369

をディープニューラルネットワークによりK次元のベクトルにマッピングして、混合音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369
は混合音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)を取得する。上記ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向LSTM層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばCNN及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
2、混合音声サンプルのベクトル
Figure 2021516369

と教師ありラベル
Figure 2021516369
を用いて各話者のベクトル空間での音声抽出子
Figure 2021516369
を推定し、計算方法は、式(8)に示すとおりである。
Figure 2021516369
3、混合音声サンプルの各フレームの各ベクトル次元でのベクトルと各音声抽出子との間の距離を測定することにより、各話者のMaskを推定し、推定方法は、式(9)に示すとおりである。
Figure 2021516369
上記式(9)において、
Figure 2021516369

は、上記混合音声サンプルのt番目のフレームの、話者cに関するマスクを表し、
Figure 2021516369


Figure 2021516369

については、前述の説明を参照することができる。
4、各話者のMaskを用いて混合音声サンプルのうち各話者の音声を抽出する。
5、推定されたMaskによって復元された各話者の音声と、対応する話者の参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築した後、該目的関数を最小化することにより、ネットワーク全体をトレーニングし、該目的関数Lは、式(10)に示すとおりであってよい。
Figure 2021516369
上記式(10)において、
Figure 2021516369

は話者cの参照音声のt番目のフレームのスペクトル(即ち、参照音声スペクトル)を表す。上記式(10)は、標準的なL2再構成誤差である。再構成誤差が復元された各話者と、対応する話者の参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出された全ての話者の音声品質を最適化することができる。
以上より、本願の実施例は、適応音声と混合音声の入力をモニタリングしたとき、適応音声のスペクトルと混合音声のスペクトルとをそれぞれK次元のベクトル空間に埋め込み、また、適応音声に基づいてターゲットオブジェクトに音声抽出子を決定し、その後に混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、混合音声の各フレームのマスクを推定し、最後にマスクに基づいて混合音声のうち該ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願における音声抽出子の決定が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
以下、別の実施例により本願に係る混合音声の認識方法を説明し、本実施例は、図3に示す実施例と比べて、本実施例では認識ネットワーク(即ち、混合音声の認識を実現するためのネットワーク)に順伝播型ニューラルネットワークを導入して元のベクトル空間を規則化されたベクトル空間にマッピングすることにより、該認識ネットワークをトレーニングして得られた音声抽出子の分布が相対的に集中し安定するという点で異なる。図5に示すように、本願の実施例に係る混合音声の認識方法は、以下のステップ301〜306を含む。
ステップ301では、音声の入力をモニタリングする。
本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングした後、該音声をコンピュータ装置に送信する。
ステップ302では、上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれK次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得する。
ここで、上記適応音声は予め設定された音声情報を含む音声であり、上記Kは1以上であり、例えば、40を取り得るものである。
本願の実施例では、コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シナリオでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード(例えば、「ピンポンピンポン」)を含む音声であるため、該応用シナリオでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。
混合音声は、上記適応音声の後に入力された非適応音声であり、実際のスマート音声対話シーンにおいて、特に、遠隔発話の状況では、様々な話者の音声が混ざることがよくあり、その結果、入力された音声が混合音声になり、本願の実施例に係る混合認識方法は、混合音声からターゲットオブジェクトに属する音声を特定するためのものである。
ステップ302では、コンピュータ装置は、上記適応音声のスペクトルと上記混合音声のスペクトルとをディープニューラルネットワークによりK次元のベクトル空間にマッピングして、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することができる。例えば、上記ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向LSTM層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えば畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願の実施例は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
具体的には、本願の実施例に係るスペクトルは、音声を短時間フーリエ変換した後、短時間フーリエ変換の結果の対数を取って得られる。
以下、例を挙げてステップ302を説明し、上付き
Figure 2021516369
は適応音声を、上付き
Figure 2021516369
は混合音声を表し、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、入力された音声のうちt番目のフレームの音声のスペクトルを表し(fはスペクトル次元のシリアル番号を表し、tは時間次元のフレームシリアル番号を表す)、そして、適応音声のスペクトルは
Figure 2021516369

と、混合音声のスペクトルは
Figure 2021516369
と表すことができる。そして、ステップ302では、それぞれ適応音声の入力スペクトル
Figure 2021516369
と混合音声の入力スペクトル
Figure 2021516369

とをディープニューラルネットワークによりK次元のベクトルにマッピングして、適応音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369

は適応音声のt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)と混合音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369

は混合音声のt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)とを取得することができる。
ステップ303では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。
本願の実施例では、式
Figure 2021516369

により上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369

を算出することができ、式中、T1は適応音声のフレーム数を表す。
或いは、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、ステップ303では、適応音声のスペクトルを一定のスペクトル閾値と比較し、適応音声のあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル幅が適応スペクトルの比較値よりも大きければ、該フレームを適応音声の有効フレームとしてもよく、ステップ303では、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。ここで、上記適応スペクトルの比較値は、適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しい。具体的には、適応音声の教師ありラベル
Figure 2021516369

を設定し、適応音声の各フレームのスペクトルをそれぞれ、最大スペクトル幅とスペクトル閾値Γとの間の差と比較し、適応音声のあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル幅が適応スペクトルの比較値(即ち、適応音声の最大スペクトル幅とΓとの間の差)よりも大きければ、該時間周波数ウィンドウに対応する適応音声の教師ありラベル
Figure 2021516369

は1を取り、そうでなければ、
Figure 2021516369

は0を取り、具体的な式は、前述の式(1)を参照することができ、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することは、前述の式(2)により実現することができる。
ステップ304では、上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得する。
本願の実施例では、上記順伝播型ニューラルネットワークは、各層のノード数が256である2層のネットワークであってよい。前述の例によりさらに説明し、上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369

と上記混合音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

を2K次元のベクトルに合わせて上記順伝播型ニューラルネットワークに入力し、K次元の規則ベクトル
Figure 2021516369

を出力し、具体的には、該順伝播型ニューラルネットワークの関数は、式(11)に示すように表すことができる。
Figure 2021516369
上記式(11)において、f(・)は、ディープニューラルネットワークにより学習された非線形マッピング関数を表し、その役割は、元のベクトル空間を新たなベクトル空間(即ち、規則化されたベクトル空間)にマッピングすることである。
ステップ305では、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得する。
本願の実施例における、認識ネットワークをトレーニングして得られた音声抽出子は、分布が安定し集中するという特性を有するため、本願の実施例では、上記認識ネットワークをトレーニングして得られた全ての音声抽出子のセントロイドを、予め設定された音声抽出子として用いることができる。本願の実施例では、混合音声の認識過程で音声抽出子を再推定する必要がないため、本願の実施例に係る混合音声の認識方法は、1フレームごとのリアルタイム処理を好適に実現することができる。
ステップ306では、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。
本願の実施例では、上記混合音声の各フレームのマスクを取得すると、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することができる。具体的には、該マスクを用いて上記混合音声に重み付けを行うことによって、上記混合音声のうち上記ターゲットオブジェクトに属する音声を1フレームごとに抽出することができ、マスクが大きいほど、対応する時間周波数ウィンドウの音声も多く抽出される。
以下、図5に示す混合音声の認識フローを実現するための認識ネットワークを説明し、該認識ネットワークの概略構成図は、図6に示すとおりである。以下、図6を参照しながら上記認識ネットワークのトレーニング過程を説明する。
1、認識ネットワークをトレーニングするための適応音声サンプルと混合音声サンプルとをディープニューラルネットワークに入力し、該ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向LSTM層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばCNN及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
本応用シナリオでは、上付き
Figure 2021516369
は適応音声サンプルを、上付き
Figure 2021516369
は混合音声サンプルを表し、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、入力された音声のうちt番目のフレームの音声のスペクトルを表し(fはスペクトル次元のシリアル番号を表し、tは時間次元のフレームシリアル番号を表す)、そして、適応音声サンプルのスペクトルは
Figure 2021516369

と、混合音声サンプルのスペクトルは
Figure 2021516369

と表すことができ、そして、それぞれ適応音声サンプルの入力スペクトル
Figure 2021516369

と混合音声サンプルの入力スペクトル
Figure 2021516369

とをディープニューラルネットワークによりK次元のベクトルにマッピングして、適応音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369

は適応音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)と混合音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369

は混合音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)とを取得することができる。
2、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、適応音声サンプルの教師ありラベル
Figure 2021516369

を設定し、適応音声サンプルの各フレームのスペクトルをそれぞれ、最大スペクトル幅とスペクトル閾値Γとの間の差と比較し、適応音声サンプルのあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル幅が適応スペクトルの比較値(即ち、適応音声サンプルの最大スペクトル幅とΓとの間の差)よりも大きければ、該時間周波数ウィンドウに対応する適応音声サンプルの教師ありラベル
Figure 2021516369

は1を取り、そうでなければ、
Figure 2021516369

は0を取り、具体的な式は、前述の式(4)を参照することができる。
本応用シーンでは、上記適応音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

と教師ありラベル

Figure 2021516369

に基づいて、上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369

を算出し、算出方法は、上記式(5)に示すとおりである。
3、上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369

と上記混合音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

を2K次元のベクトルに合わせて順伝播型ニューラルネットワークに入力し、K次元の規則ベクトル
Figure 2021516369

を出力し、具体的には、該順伝播型ニューラルネットワークの関数は、上記式(11)に示すように表すことができる。順伝播型ニューラルネットワークの説明については、ステップ304の説明を参照することができるので、ここでは説明を省略する。
4、混合音声サンプルにおけるターゲットオブジェクトの教師ありラベル
Figure 2021516369
を取得するために、混合音声サンプルにおける低エネルギーのスペクトルウィンドウのノイズを先に除去し、その後に混合音声サンプルにおけるターゲットオブジェクトの音声スペクトル幅について、ターゲットオブジェクトのあるフレームでの音声スペクトル幅がいずれも該フレームでの干渉ターゲットオブジェクトのスペクトル幅よりも大きければ、ターゲットオブジェクトの該フレームでの対応する
Figure 2021516369
は1を取り、そうでなければ、0を取る。
5、規則ベクトル
Figure 2021516369

と混合音声サンプルにおけるターゲットオブジェクトの教師ありラベル
Figure 2021516369

に基づいて、式(12)により規則化された音声抽出子
Figure 2021516369
を推定する。
Figure 2021516369
6、各フレームの各ベクトル次元での規則ベクトル
Figure 2021516369

と規則化された音声抽出子
Figure 2021516369
との間の距離を測定することにより、ターゲットオブジェクトが復元されるMaskを推定し、推定方法は、式(13)に示すとおりであり、時間周波数ウィンドウと音声抽出子との内積距離が小さいほど、該時間周波数ウィンドウがターゲットオブジェクトに帰属する確率が大きくなり、そして、式(12)により推定された対応する時間周波数ウィンドウのMaskが大きくなり、混合音声サンプルのうち対応する時間周波数ウィンドウの音声も多く抽出される。
Figure 2021516369
上記式(13)において、
Figure 2021516369
は、上記混合音声サンプルのt番目のフレームのマスクを表す。
7、推定されたMaskによって復元されたターゲットオブジェクトの音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築し、該目的関数を最小化することにより、ネットワーク全体をトレーニングし、該目的関数Lは、式(14)に示すとおりであってよい。
Figure 2021516369
上記式(14)において、
Figure 2021516369
は、ターゲットオブジェクトの参照音声のt番目のフレームでのスペクトル(即ち、参照音声スペクトル)を表す。上記式(14)は、標準的なL2再構成誤差である。再構成誤差が復元された音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出されたターゲットオブジェクトの音声品質を最適化することができる。
混合音声サンプルとは異なり、実際の混合音声認識において、入力された混合音声のうちどの音声がターゲットオブジェクトに属するかが分からないため、混合音声におけるターゲットオブジェクトの教師ありラベルが未知であり、したがって、先に述べたように、上記認識ネットワークをトレーニングして得られた全ての音声抽出子のセントロイドを、予め設定された音声抽出子として用いることができ、図3に示す実施例のステップ305では、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得する。
本願の実施例は、混合音声の認識装置を提供する。図7に示すように、本願の実施例に係る混合音声の認識装置は、
音声の入力をモニタリングするためのモニタリングユニット71と、
モニタリングユニット71が上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するための取得ユニット72と、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するための特定ユニット73とを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。
図7に示す実施例に基づいて、図8に示すように、取得ユニット72は、
モニタリングユニット71が、予め設定された音声情報を含む音声である適応音声と、上記適応音声の後に入力された非適応音声である混合音声の入力をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれ、K(上記Kは1以上)次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するための空間マッピングユニット721と、
上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出するための算出ユニット722と、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するためのマスク推定ユニット723とを含み、
特定ユニット73は、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定してもよい。
任意選択で、算出ユニット722は、具体的には、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出するために用いられてもよく、ここで、上記適応音声の有効フレームとは、上記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームであり、上記適応スペクトルの比較値は、上記適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しい。
任意選択で、本願の実施例に係る混合音声の認識装置は、さらに、上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するための規則化ユニットを含んでもよい。マスク推定ユニット723は、具体的には、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得するために用いられてもよい。
任意選択で、本願の実施例に係る混合音声の認識装置は、さらに、クラスタリングアルゴリズムに基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定するためのクラスタリングユニットを含んでもよい。マスク推定ユニット723は、具体的には、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するために用いられてもよい。
本願の実施例に係る混合音声の認識装置は、さらに、それぞれ、予め設定されたM(上記Mは1よりも大きい)個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較するための比較ユニットを含んでもよい。マスク推定ユニット723は、具体的には、上記M個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子を、ターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するために用いられてもよい。
なお、本発明の実施例に係る混合音声の認識装置は、上記方法実施例における全ての技術手段を実現することができ、各機能モジュールの機能は、上記方法実施例における方法により具体的に実現することができ、その具体的な実現過程については、上記実施例における関連説明を参照することができ、ここでは説明を省略する。
以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
本願の実施例は、別の混合音声の認識装置を提供し、図9を参照して、本願の実施例に係る混合音声の認識装置は、さらに、メモリ81と、1つ以上のプロセッサ82(図9では1つのみが示される)と、メモリ81に記憶されプロセッサで実行可能なコンピュータプログラムとを含む。ここで、メモリ82は、ソフトウェアプログラム及びモジュールを記憶するためのものであり、プロセッサ82は、メモリ81に記憶されているソフトウェアプログラム及びユニットを実行することにより、様々な機能アプリケーション及びデータ処理を実行する。具体的には、プロセッサ82は、メモリ81に記憶されている上記コンピュータプログラムを実行することにより、
音声の入力をモニタリングするステップと、
上記モニタリングユニットが適応音声と混合音声の入力をモニタリングしたとき、取得ユニットが上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、
特定ユニットが上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するステップとを実現し、
ここで、上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。
以上が第1種の可能な実現形態であると仮定し、第1種の可能な実現形態に基づいて提供される第2種の可能な実現形態では、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得することは、
上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれ、K(上記Kは1以上)次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することと、
上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定することと
上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することとを含む。
第2種の可能な実現形態に基づいて提供される第3種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することは、具体的には、
上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することであり、上記適応音声の有効フレームとは、上記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームであり、上記適応スペクトルの比較値は、上記適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しい。
上記第3種の可能な実現形態に基づいて提供される第4種の可能な実現形態では、上記算出ユニットは、具体的には、各ベクトル次元毎に、上記適応音声の各フレームの対応するベクトル次元でのベクトルにそれぞれ対応するフレームの教師ありラベルを乗算した後に加算して、上記適応音声の有効フレームの対応するベクトル次元での総和ベクトルを取得し、上記適応音声の有効フレームの各ベクトル次元での総和ベクトルをそれぞれ上記適応音声の各フレームの教師ありラベルの和で除算して、上記適応音声の各ベクトル次元での平均ベクトルを取得するために用いられ、
ここで、上記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームの教師ありラベルは1を取り、上記適応音声における、スペクトル幅が適応スペクトルの比較値以下であるフレームの教師ありラベルは0を取る。
上記第2種の可能な実現形態、又は上記第3種の可能な実現形態、又は上記第4種の可能な実現形態に基づいて提供される第5種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出した後、プロセッサ82は、メモリ81に記憶されている上記コンピュータプログラムを実行することにより、さらに、
上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するステップの代わりに、
それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得するステップとを実現する。
上記第2種の可能な実現形態、又は上記第3種の可能な実現形態、又は上記第4種の可能な実現形態に基づいて提供される第6種の可能な実現形態では、上記適応音声のベクトルと上記混合音声のベクトルとをそれぞれK次元のベクトル空間に埋め込んだ後、プロセッサ82は、メモリ81に記憶されている上記コンピュータプログラムを実行することにより、さらに、
クラスタリングアルゴリズムに基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを実現し、ここで、上記ターゲットセントロイドベクトルとは、同一のベクトル次元で上記適応音声の平均ベクトルとの距離が最小であるセントロイドベクトルである。
上記第2種の可能な実現形態、又は上記第3種の可能な実現形態、又は上記第4種の可能な実現形態に基づいて提供される第7種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出した後、プロセッサ82は、メモリ81に記憶されている上記コンピュータプログラムを実行することにより、さらに、
それぞれ、予め設定されたM(上記Mは1よりも大きい)個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、上記M個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子をターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを実現する。
任意選択で、図9に示すように、上記混合音声の認識装置は、さらに、1つ以上の入力装置83(図9では1つのみが示される)及び1つ以上の出力装置84(図9では1つのみが示される)を含んでもよい。メモリ81、プロセッサ82、入力装置83及び出力装置84は、バス85を介して接続される。
なお、本願の実施例では、いわゆるプロセッサ82は、中央処理装置(Central Processing Unit、CPU)であってもよいし、他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field−Programmable Gate Array、FPGA)又は他のプログラマブル論理デバイス、離散ゲート又はトランジスタ論理デバイス、離散ハードウェアコンポーネントなどであってもよい。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の一般的なプロセッサなどであってもよい。
入力装置83は、キーボード、タッチパネル、指紋収集センサ(ユーザの指紋情報と指紋の方向情報を収集するためのものである。)、マイクなどを含んでよく、出力装置84は、ディスプレイ、スピーカーなどを含んでよい。
メモリ84は、リードオンリーメモリ及びランダムアクセスメモリを含み、プロセッサ81に命令及びデータを提供してよい。メモリ84の一部又は全部は、不揮発性ランダムアクセスメモリを含んでもよい。
以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
当業者であれば明確に理解できるように、便利かつ簡潔に説明するために、上記各機能ユニット、モジュールの区分によって例を挙げて説明したものにすぎず、実際の応用には、必要に応じて上記機能を割り当てて、異なる機能ユニット、モジュールにより完成させ、すなわち上記装置の内部構造を異なる機能ユニット又はモジュールに分割することにより、前述した全部又は一部の機能を完成させる。実施例における各機能ユニット、モジュールは、1つの処理ユニットに集積されてもよいし、各ユニットとして独立して物理的に存在してもよいし、さらに2つ以上のユニットが1つのユニットに集積されてもよく、上記集積されるユニットは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。また、各機能ユニット、モジュールの具体的な名称は、互いに区分しやすいように採用されたものに過ぎず、本願の保護範囲を限定するものではない。上記システムにおけるユニット、モジュールの具体的な動作過程について、前述の方法実施例における対応する過程を参照することができ、ここでは説明を省略する。
上記実施例では、各々の実施例についての説明はそれぞれ重要点があり、ある実施例に詳しく説明または記載しない部分は、他の実施例における関連説明を参照することができる。
当業者であれば理解できるように、本明細書で開示された実施例に基づいて説明された様々な例のユニット及びアルゴリズムステップの結合は、電子ハードウェア、又はコンピュータソフトウェア及び電子ハードウェアの組み合わせによって実現することができる。これらの機能がハードウェアの形態で実行されるかソフトウェアの形態で実行されるかは、技術手段の特定の応用及び設計上の制約条件によって決まる。当業者であれば、それぞれの特定の応用に対して、異なる方法を使用して説明した機能を実現することができるが、このような実現は本願の範囲を超えると見なすべきではない。
本願に係る実施例では、開示された装置及び方法は、他の方式で実現され得ることを理解されたい。例えば、上記説明されたシステムの実施例は例示的なものにすぎず、例えば、上記モジュール又はユニットの分割は、論理的な機能の分割にすぎず、実際の実施においては他の分割仕様があってもよく、例えば、複数のユニット又はコンポーネントを組み合わせてもよいし、もう1つのシステムに集積されてもよいし、一部の特徴が無視されるか又は実行されなくてもよい。一方、図示又は検討された相互結合又は直接結合又は通信接続は、いくつかのインタフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
上記分離部材として説明されたユニットは、物理的に分離してもよいし、物理的に分離しなくてもよく、ユニットとして表示された部材は、物理的なユニットであってもよいし、物理的なユニットでなくてもよく、即ち、1つの場所に位置してもよいし、複数のネットワークユニット上に分布してもよい。本願の実施例の目的を達成するために、実際の需要に応じて、その中の一部又は全部のユニットを選択することができる。
上記集積されたユニットは、ソフトウェア機能ユニットの形態で実現されて独立な製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本願では、上記方法実施例に係る方法を実現する全部又は一部のフローは、コンピュータプログラムによって関連するハードウェアに命令を与えて完成することもでき、上記コンピュータプログラムは、コンピュータ可読記憶媒体に記憶することができ、プロセッサによって実行されるとき、上記各方法実施例のステップを実現することができる。ここで、上記コンピュータプログラムは、コンピュータプログラムコードを含み、上記コンピュータプログラムコードは、ソースコード形式、オブジェクトコード形式、実行可能ファイル又は何らかの中間形式などであってもよい。上記コンピュータ可読記憶媒体は、上記コンピュータプログラムコードを格納できる如何なるエンティティや装置、記録媒体、Uディスク、リムーバブルハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、リードオンリーメモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、電気搬送波信号、電気通信信号、及びソフトウェア配布媒体などを含んでもよい。なお、上記コンピュータ可読記憶媒体に含まれるコンテンツは、司法管轄区内の法律及び特許実務の要件に従って適宜に増減可能であり、例えば、いくつかの司法管轄区では、法律及び特許実務によって、コンピュータ可読記憶媒体には、電気搬送波信号及び電気通信信号が含まれない。
上記実施例は、本願の技術手段を説明するためのものに過ぎず、それを制限するものではない。前述の実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、依然として前述の各実施例に記載の技術手段を変更し、又はその一部の技術的特徴に等価置換を行うことができ、これらの変更や置換は、対応する技術手段を実質的に本願の各実施例の技術手段の要旨と範囲から逸脱させるものではなく、いずれも本願の保護範囲内に含まれるべきである。
本願は、2018年5月24日に中国特許庁に提出された、出願番号が201810436511.6、発明の名称が「混合音声の認識方法、装置及びコンピュータ可読記憶媒体」である中国特許出願に基づく優先権を主張するものであり、その全ての内容は参照により本願に組み込まれるものとする。
本願は、音声認識の技術分野に属し、具体的には、混合音声の認識方法、混合音声の認識装置及びコンピュータ可読記憶媒体に関する。
音声は、言語の音響表現として、人間が情報を伝達するための最も自然で効果的で便利な手段の1つである。近年、コンピュータ音声認識技術は、非常に進歩してきた。しかしながら、人々が音声をコンピュータに入力して音声認識を行うとき、入力された音声が環境ノイズ、部屋の残響、さらに他の話者の音声によって干渉されることは避けられない。これらの干渉により、最終的にコンピュータが収集した音声は純粋な音声ではなく、ノイズによって汚染された音声(即ち、混合音声)である。近年、混合音声信号の分離と認識に対処するために、ディープアトラクタネットワークなどの、ディープラーニングに基づく方法とシステムが多く開発されている。ディープアトラクタネットワーク(即ち、Deep Attractor Network)は、混合音声の各時間周波数ウィンドウに区分可能な埋め込みベクトルを生成するとともに、混合音声の各話者にアトラクタを生成し、そして埋め込みベクトルからこれらのアトラクタまでの距離を算出することにより、対応する時間周波数ウィンドウが対応する話者に帰属するマスク(即ち、Mask)を推定し、その後にこれらのMaskを用いて混合音声の各話者の時間周波数領域での表現を算出する。
本願の実施例は、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にする混合音声の認識方法、混合音声の認識装置及びコンピュータ可読記憶媒体を提供する。
本願の実施例の第1の態様に係る混合音声の認識方法は、
音声の入力をモニタリングするステップと、
適応音声と混合音声の入力をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するステップとを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。
本願の実施例の第2の態様に係る混合音声の認識装置は、
音声の入力をモニタリングするためのモニタリングユニットと、
上記モニタリングユニットが適応音声と混合音声の入力をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するための取得ユニットと、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するための特定ユニットとを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。
本願の実施例の第3の態様に係る混合音声の認識装置は、メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを含む。上記コンピュータプログラムが当該プロセッサによって実行されるとき、上記第1の態様に記載の混合音声の認識方法が実現される。
本願の実施例の第4の態様に係るコンピュータ可読記憶媒体は、コンピュータプログラムを記憶しているコンピュータ可読記憶媒体である。上記コンピュータプログラムがプロセッサによって実行されるとき、上記第1の態様に記載の混合音声の認識方法が実現される。
以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願の実施例に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
本願の実施例における技術手段をより明確に説明するために、以下、実施例又は従来技術の説明に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は本願のいくつかの実施例に過ぎず、当業者であれば、創造的な労働をせずにこれらの図面に基づいて他の図面を得ることができる。
本願の実施例に係る応用シーンの概略図である。 本願の実施例に係る混合音声の認識方法のフロー構成の概略図である。 本願の実施例に係る混合音声の認識方法の別のフロー構成の概略図である。 本願の実施例に係る認識ネットワークの概略構成図である。 本願の実施例に係る別の認識ネットワークの概略構成図である。 本願の実施例に係る混合音声の認識方法のさらに別のフロー構成の概略図である。 本願の実施例に係るさらに別の認識ネットワークの概略構成図である。 本願の実施例に係る混合音声の認識装置の概略構成図である。 本発明の実施例に係る混合音声の認識装置の別の概略構成図である。 本発明の実施例に係る混合音声の認識装置のさらに別の概略構成図である。
以下の説明では、限定ではなく例示を目的として、本願の実施例を完全に理解するために、例えば、特定のシステム構成、技術などの具体的な詳細が提供される。しかしながら、これらの具体的な詳細がない他の実施例においても本願を実現できることは当業者に自明である。他の場合では、不必要な詳細が本願の説明を妨げないように、周知のシステム、装置、回路及び方法の詳細な説明が省略される。
以下の方法実施例における各ステップの番号の大きさは実行順序の前後を意味するものではなく、各過程の実行順序はその機能と内部ロジックにより決められるものであり、各実施例の実施過程を限定するものではないと理解されるべきである。
本願に係る技術手段を説明するために、以下、具体的な実施例により説明する。
図1は本願の実施例に係る応用シーンの概略図である。図1に示すように、ユーザ20は、コンピュータ装置10と音声対話を行うことができる。コンピュータ装置10は、マイク又はマイクアレイを有してよい。コンピュータ装置は、様々な端末装置、例えばスマートスピーカー、スマートテレビ、スマート音声アシスタント、携帯電話、タブレット、電子ブックリーダー、スマートメガネ、スマートウォッチ、ラップトップコンピュータ及びデスクトップコンピュータなどであってよい。
本願の実施例は、混合音声の認識方法を提供し、図2を参照して、本願の実施例に係る混合音声の認識方法は、以下のステップ101〜103を含む。
ステップ101では、音声の入力をモニタリングする。
本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイク又はマイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、又は、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングすると、該音声をコンピュータ装置に送信する。コンピュータ装置は、様々な端末装置であってもよいし、サーバであってもよい。
ステップ102では、上記入力された音声において適応音声及び混合音声をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得する。
本願の実施例では、上記適応音声は、予め設定された音声情報を含む音声である。コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シーンでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード(例えば、「ピンポンピンポン」)を含む音声であるため、該応用シーンでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。ウェイクアップワードは、予め設定されてよい。
本願の実施例によれば、ステップ102では、音声特徴認識アルゴリズム(例えばメル周波数ケプストラム係数(MFCC、Mel−frequency cepstral coefficients)アルゴリズム)に基づいて、上記適応音声からターゲットオブジェクトの音声特徴を抽出してよい。
もちろん、ステップ102では、他の方式により上記適応音声からターゲットオブジェクトの音声特徴を抽出してもよく、詳細について、後の実施例の説明を参照されたい。
ステップ103では、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。
ここで、上記混合音声は、上記適応音声の後にマイクアレイによってモニタリングされて上記コンピュータ装置に入力された非適応音声である。
ステップ103では、コンピュータ装置は、上記ターゲットオブジェクトの音声特徴に基づいて、類似度尤度アルゴリズムによって上記混合音声から、上記ターゲットオブジェクトの音声特徴と類似する音声特徴を認識し、さらに、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することができる。
以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例に係る方法は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができ、応用シーンで干渉話者とターゲットオブジェクトとの位置が比較的に近い場合であっても、ターゲットオブジェクトの音声を正確に復元し、後続処理において干渉を受ける音声命令に対する認識精度を向上させることができる。例えば、スマートスピーカーという応用シーンでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願の実施例に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
以下、別の実施例により本願に係る混合音声の認識方法を説明し、図3を参照して、本願の実施例に係る混合音声の認識方法は、以下のステップ201〜205を含む。
ステップ201では、音声の入力をモニタリングする。
本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、又は、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングすると、該音声をコンピュータ装置に送信する。コンピュータ装置は、様々な端末装置であってもよいし、サーバであってもよい。
ステップ202では、上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれK次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得する。
ここで、上記適応音声は予め設定された音声情報を含む音声であり、上記Kは1以上であり、例えば、40を取り得るものである。
本願の実施例では、コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シーンでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード(例えば、「ピンポンピンポン」)を含む音声であるため、該応用シーンでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。ウェイクアップワードは、予め設定されてよい。
混合音声は、上記適応音声の後に入力された非適応音声である。実際のスマート音声対話シナリオにおいて、特に、遠隔発話の状況では、様々な話者の音声が混ざることがよくあり、その結果、入力された音声が混合音声になり、本願の実施例に係る混合認識方法は、混合音声からターゲットオブジェクトに属する音声を特定するためのものである。
ステップ202では、コンピュータ装置は、上記適応音声のスペクトルと上記混合音声のスペクトルとをディープニューラルネットワークによりK次元のベクトル空間にマッピングして、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することができる。例えば、上記ディープニューラルネットワークは、各層に600個のノードを有してよい4層の双方向長・短期記憶ネットワーク(LSTM、Long Short−Term Memory)で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えば畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)と他のネットワーク構造とが結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング(ゲート付き)畳み込みニューラルネットワークなどを用いても良い。本願の実施例は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
具体的には、本願の実施例に係るスペクトルは、音声を短時間フーリエ変換した後、短時間フーリエ変換の結果の対数を取って得られる。
以下、例を挙げてステップ202を説明し、上付き
Figure 2021516369
は適応音声を、上付き
Figure 2021516369
は混合音声を表し、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、入力された音声のうちt番目のフレームの音声のスペクトルを表し(fはスペクトル次元のシリアル番号(シーケンス番号とも言う)を表し、tは時間次元のフレームシリアル番号を表す)、そして、適応音声のスペクトルは
Figure 2021516369
と、混合音声のスペクトルは
Figure 2021516369
と表すことができる。そして、ステップ202では、それぞれ適応音声の入力スペクトル
Figure 2021516369

と混合音声の入力スペクトル
Figure 2021516369

とをディープニューラルネットワークによりK次元のベクトルにマッピングして、適応音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369
は適応音声のt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)と混合音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369


Figure 2021516369

は混合音声のt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)とを取得することができる。
ステップ203では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。
本願の実施例では、式
Figure 2021516369
により上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369
を算出することができ、式中、T1は適応音声のフレーム数を表す。
或いは、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、ステップ203では、適応音声のスペクトルを一定のスペクトル閾値と比較し、適応音声のあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル振幅(spectral amplitude)が適応スペクトルの比較値よりも大きければ、該フレームを適応音声の有効フレームとしてもよく、ステップ203では、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。ここで、上記適応スペクトルの比較値は、適応音声の最大スペクトル振幅と予め設定されたスペクトル閾値との間の差に等しい。具体的には、適応音声の教師ありラベル
Figure 2021516369

を設定し、適応音声の各フレームのスペクトルをそれぞれ、最大スペクトル振幅とスペクトル閾値Γとの間の差と比較し、適応音声のあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル振幅が適応スペクトルの比較値(即ち、適応音声の最大スペクトル振幅とΓとの間の差)よりも大きければ、該時間周波数ウィンドウに対応する適応音声の教師ありラベル
Figure 2021516369

は1を取り、そうでなければ、
Figure 2021516369

は0を取ってよく、具体的な式は、以下の式(1)として表すことができる。
Figure 2021516369
式中、Γの値は、例えば40dBを取る。適応音声の入力スペクトルはディープニューラルネットワークによりK次元(例えば、K=40)空間のベクトルにマッピングされる。
上記適応音声の有効フレームが各ベクトル次元におけるベクトルに基づいて、上記適応音声が各ベクトル次元における平均ベクトルを取得することは、各ベクトル次元毎に、上記適応音声の各フレームが対応するベクトル次元におけるベクトルに対応するフレームの教師ありラベルを其々乗算した後に加算して、上記適応音声の有効フレームが対応するベクトル次元における総和ベクトルを取得することと、上記適応音声の有効フレームが各ベクトル次元における総和ベクトルを上記適応音声の各フレームの教師ありラベルの和で其々除算して、上記適応音声が各ベクトル次元における平均ベクトルを取得することとを含む。具体的には、上記適応音声の有効フレームが各ベクトル次元におけるベクトルに基づいて、上記適応音声が各ベクトル次元における平均ベクトルを取得することは、以下の式(2)により実現することができる。
Figure 2021516369
ただし、
Figure 2021516369

は、上記適応音声のベクトル次元kでの平均ベクトルを表し、k∈[1,K]である。
ステップ204では、上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子(extractor)として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定する。
ステップ204では、コンピュータ装置は、混合音声の各フレームの各ベクトル次元でのベクトルと音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して、ターゲットオブジェクトの音声を復元するようにし、推定方法は、式(3)に示すとおりである。
Figure 2021516369
上記式(3)において、
Figure 2021516369

は、上記混合音声のt番目のフレームのマスクを表し、
Figure 2021516369

及び
Figure 2021516369

については、前述の説明を参照することができる。
混合音声のあるフレーム(即ち、時間周波数ウィンドウ)のベクトルと音声抽出子の内積距離が小さいほど、該フレームがターゲットオブジェクトに帰属する確率が大きくなり、その分、第3式により推定される、該時間周波数ウィンドウに対応するマスクも大きくなる。
ステップ205では、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。
本願の実施例では、上記混合音声の各フレームのマスクを取得すると、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することができる。具体的には、該マスクを用いて上記混合音声に重み付けを行うことによって、上記混合音声のうち上記ターゲットオブジェクトに属する音声を1フレームごとに抽出することができ、マスクが大きいほど、対応する時間周波数ウィンドウの音声も多く抽出される。
なお、図3に示す実施例では、上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするが、もちろん、他の実施例では、他の方式でターゲットオブジェクトの各ベクトル次元での音声抽出子を選択してもよい。
他の実施形態としては、例えば、上記ステップ202の後、クラスタリングアルゴリズム(例えば、K−meansアルゴリズム)に基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定してもよい。上記ステップ204の代わりに、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定し、ここでは、上記ターゲットセントロイドベクトルは、同一のベクトル次元で上記適応音声の平均ベクトルとの距離が最小であるセントロイドベクトルである。
他の実施形態としては、例えば、上記ステップ203の後、それぞれ、予め設定されたM(上記Mは1よりも大きい)個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較してもよい。上記ステップ204の代わりに、上記M個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子を、ターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定する。
図3に示す混合音声の認識フローを実現するために、本願の実施例では、該混合音声の認識フローを実現するための認識ネットワークを予め構築し、そして、該認識ネットワークをトレーニングしてよい。
一応用シーンでは、上記認識ネットワークの概略構成図は、図4aに示すとおりである。以下、図4aを参照しながら上記認識ネットワークのトレーニング過程を説明する。
1、認識ネットワークをトレーニングするための適応音声サンプルと混合音声サンプルとをディープニューラルネットワークに入力し、該ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向LSTM層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばCNN及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
本応用シナリオでは、上付き
Figure 2021516369
は適応音声サンプルを、上付き
Figure 2021516369
は混合音声サンプルを表し、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、入力された音声のうちt番目のフレームの音声のスペクトルを表し(fはスペクトル次元のシリアル番号を表し、tは時間次元のフレームシリアル番号を表す)、そして、適応音声サンプルのスペクトルは
Figure 2021516369

と、混合音声サンプルのスペクトルは
Figure 2021516369

と表すことができ、そして、それぞれ適応音声サンプルの入力スペクトル
Figure 2021516369

と混合音声サンプルの入力スペクトル
Figure 2021516369

とをディープニューラルネットワークによりK次元のベクトルにマッピングして、適応音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369
は適応音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)と混合音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369
は混合音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)とを取得することができる。
2、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、適応音声サンプルの教師ありラベル
Figure 2021516369

を設定し、適応音声サンプルの各フレームのスペクトルをそれぞれ、最大スペクトル振幅とスペクトル閾値Γとの間の差と比較し、適応音声サンプルのあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル振幅が適応スペクトルの比較値(即ち、適応音声サンプルの最大スペクトル振幅とΓとの間の差)よりも大きければ、該時間周波数ウィンドウに対応する適応音声サンプルの教師ありラベル
Figure 2021516369
は1を取り、そうでなければ、
Figure 2021516369

は0を取り、具体的な式は、式(4)として表すことができる。
Figure 2021516369
本応用シーンでは、適応音声サンプルのベクトル
Figure 2021516369

と教師ありラベル
Figure 2021516369

を用いてターゲットオブジェクトのベクトル空間での音声抽出子
Figure 2021516369

を推定する。各ベクトル次元において、上記適応音声サンプルの各フレームが対応するベクトル次元におけるベクトルに、対応するフレームの教師ありラベルを其々乗算した後に加算して、上記適応音声サンプルの有効フレームが対応するベクトル次元における総和ベクトルを取得し、上記適応音声サンプルの有効フレームが各ベクトル次元における総和ベクトルを上記適応音声サンプルの各フレームの教師ありラベルの和で其々除算して、上記適応音声サンプルが各ベクトル次元における平均ベクトルを取得し、計算方法は、式(5)に示すとおりである。
Figure 2021516369
式中、Γの値は、例えば40dBを取る。適応音声の入力スペクトルはディープニューラルネットワークによりK次元(例えば、K=40)空間のベクトルにマッピングされる。
3、混合音声サンプルの各フレームの各ベクトル次元でのベクトルと音声抽出子
Figure 2021516369

との間の距離を測定することにより、ターゲットオブジェクトが復元されるMaskを推定し、推定方法は、式(6)に示すとおりであり、時間周波数ウィンドウと音声抽出子との内積距離が小さいほど、該時間周波数ウィンドウがターゲットオブジェクトに帰属する確率が大きくなり、そして、式(6)により推定された対応する時間周波数ウィンドウのMaskが大きくなり、混合音声サンプルのうち対応する時間周波数ウィンドウの音声も多く抽出される。
Figure 2021516369
上記式(6)において、
Figure 2021516369

は、上記混合音声サンプルのt番目のフレームのマスクを表し、
Figure 2021516369

及び
Figure 2021516369

については、前述の説明を参照することができる。
4、推定されたMaskによって復元されたターゲットオブジェクトの音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築した後、該目的関数を最小化することによりネットワーク全体をトレーニングし、該目的関数Lは、式(7)に示すとおりであってよい。
Figure 2021516369
上記式(7)において、
Figure 2021516369

は、ターゲットオブジェクトの参照音声のt番目のフレームでのスペクトル(即ち、参照音声スペクトル)を表す。上記式(7)は、標準的なL2再構成誤差である。再構成誤差が復元された音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出されたターゲットオブジェクトの音声品質を最適化することができる。
別の応用シーンでは、上記認識ネットワークの概略構成図は図4bに示すとおりであってもよい。本応用シーンでは、認識ネットワークのトレーニング過程は適応音声サンプルを入力する必要がなく、すなわち、ターゲットオブジェクトと干渉オブジェクトを区別しない。以下、図4bを参照しながら上記認識ネットワークのトレーニング過程を説明する。
1、混合音声サンプルに合計C個の話者の音声があると仮定し、各話者の教師ありラベル
Figure 2021516369
を取得するために、混合音声サンプルにおける低エネルギーのスペクトルウィンドウのノイズを先に除去し、その後に混合音声サンプルの各話者の音声スペクトル振幅について、ある話者のあるフレームでの音声スペクトル振幅がいずれも該フレームでの他の話者のスペクトル振幅よりも大きければ、該話者の該フレームでの対応する
Figure 2021516369
は1を取り、そうでなければ0を取る。
本応用シナリオでは、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、混合音声サンプルのt番目のフレームの音声のスペクトルを表し、混合音声サンプルの入力スペクトル
Figure 2021516369

をディープニューラルネットワークによりK次元のベクトルにマッピングして、混合音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369
は混合音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)を取得する。上記ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向LSTM層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばCNN及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
2、混合音声サンプルのベクトル
Figure 2021516369

と教師ありラベル
Figure 2021516369
を用いて各話者のベクトル空間での音声抽出子
Figure 2021516369
を推定し、計算方法は、式(8)に示すとおりである。
Figure 2021516369
3、混合音声サンプルの各フレームの各ベクトル次元でのベクトルと各音声抽出子との間の距離を測定することにより、各話者のMaskを推定し、推定方法は、式(9)に示すとおりである。
Figure 2021516369
上記式(9)において、
Figure 2021516369

は、上記混合音声サンプルのt番目のフレームの、話者cに関するマスクを表し、
Figure 2021516369


Figure 2021516369

については、前述の説明を参照することができる。
4、各話者のMaskを用いて混合音声サンプルのうち各話者の音声を抽出する。
5、推定されたMaskによって復元された各話者の音声と、対応する話者の参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築した後、該目的関数を最小化することにより、ネットワーク全体をトレーニングし、該目的関数Lは、式(10)に示すとおりであってよい。
Figure 2021516369
上記式(10)において、
Figure 2021516369

は話者cの参照音声のt番目のフレームのスペクトル(即ち、参照音声スペクトル)を表す。上記式(10)は、標準的なL2再構成誤差である。再構成誤差が復元された各話者と、対応する話者の参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出された全ての話者の音声品質を最適化することができる。
以上より、本願の実施例は、適応音声と混合音声の入力をモニタリングしたとき、適応音声のスペクトルと混合音声のスペクトルとをそれぞれK次元のベクトル空間に埋め込み、また、適応音声に基づいてターゲットオブジェクトに音声抽出子を決定し、その後に混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、混合音声の各フレームのマスクを推定し、最後にマスクに基づいて混合音声のうち該ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願における音声抽出子の決定が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
以下、別の実施例により本願に係る混合音声の認識方法を説明し、本実施例は、図3に示す実施例と比べて、本実施例では認識ネットワーク(即ち、混合音声の認識を実現するためのネットワーク)に順伝播型ニューラルネットワークを導入して元のベクトル空間を規則化(regularization)されたベクトル空間にマッピングすることにより、該認識ネットワークをトレーニングして得られた音声抽出子の分布が相対的に集中し安定するという点で異なる。図5に示すように、本願の実施例に係る混合音声の認識方法は、以下のステップ301〜306を含む。
ステップ301では、音声の入力をモニタリングする。
本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングした後、該音声をコンピュータ装置に送信する。
ステップ302では、上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれK次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得する。
ここで、上記適応音声は予め設定された音声情報を含む音声であり、上記Kは1以上であり、例えば、40を取り得るものである。
本願の実施例では、コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シナリオでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード(例えば、「ピンポンピンポン」)を含む音声であるため、該応用シナリオでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。
混合音声は、上記適応音声の後に入力された非適応音声であり、実際のスマート音声対話シーンにおいて、特に、遠隔発話の状況では、様々な話者の音声が混ざることがよくあり、その結果、入力された音声が混合音声になり、本願の実施例に係る混合認識方法は、混合音声からターゲットオブジェクトに属する音声を特定するためのものである。
ステップ302では、コンピュータ装置は、上記適応音声のスペクトルと上記混合音声のスペクトルとをディープニューラルネットワークによりK次元のベクトル空間にマッピングして、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することができる。例えば、上記ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向LSTM層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えば畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング畳み込みニューラルネットワークなどを用いても良い。本願の実施例は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
具体的には、本願の実施例に係るスペクトルは、音声を短時間フーリエ変換した後、短時間フーリエ変換の結果の対数を取って得られる。
以下、例を挙げてステップ302を説明し、上付き
Figure 2021516369
は適応音声を、上付き
Figure 2021516369
は混合音声を表し、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、入力された音声のうちt番目のフレームの音声のスペクトルを表し(fはスペクトル次元のシリアル番号を表し、tは時間次元のフレームシリアル番号を表す)、そして、適応音声のスペクトルは
Figure 2021516369

と、混合音声のスペクトルは
Figure 2021516369
と表すことができる。そして、ステップ302では、それぞれ適応音声の入力スペクトル
Figure 2021516369
と混合音声の入力スペクトル
Figure 2021516369

とをディープニューラルネットワークによりK次元のベクトルにマッピングして、適応音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369

は適応音声のt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)と混合音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369

は混合音声のt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)とを取得することができる。
ステップ303では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。
本願の実施例では、式
Figure 2021516369

により上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369

を算出することができ、式中、T1は適応音声のフレーム数を表す。
或いは、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、ステップ303では、適応音声のスペクトルを一定のスペクトル閾値と比較し、適応音声のあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル振幅が適応スペクトルの比較値よりも大きければ、該フレームを適応音声の有効フレームとしてもよく、ステップ303では、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。ここで、上記適応スペクトルの比較値は、適応音声の最大スペクトル振幅と予め設定されたスペクトル閾値との間の差に等しい。具体的には、適応音声の教師ありラベル
Figure 2021516369

を設定し、適応音声の各フレームのスペクトルをそれぞれ、最大スペクトル振幅とスペクトル閾値Γとの間の差と比較し、適応音声のあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル振幅が適応スペクトルの比較値(即ち、適応音声の最大スペクトル振幅とΓとの間の差)よりも大きければ、該時間周波数ウィンドウに対応する適応音声の教師ありラベル
Figure 2021516369

は1を取り、そうでなければ、
Figure 2021516369

は0を取り、具体的な式は、前述の式(1)を参照することができ、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することは、前述の式(2)により実現することができる。
ステップ304では、上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得する。
本願の実施例では、上記順伝播型ニューラルネットワークは、各層のノード数が256である2層のネットワークであってよい。前述の例によりさらに説明し、上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369

と上記混合音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

を2K次元のベクトルに合わせて上記順伝播型ニューラルネットワークに入力し、K次元の規則ベクトル
Figure 2021516369

を出力し、具体的には、該順伝播型ニューラルネットワークの関数は、式(11)に示すように表すことができる。
Figure 2021516369
上記式(11)において、f(・)は、ディープニューラルネットワークにより学習された非線形マッピング関数を表し、その役割は、元のベクトル空間を新たなベクトル空間(即ち、規則化されたベクトル空間)にマッピングすることである。
ステップ305では、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得する。
本願の実施例における、認識ネットワークをトレーニングして得られた音声抽出子は、分布が安定し集中するという特性を有するため、本願の実施例では、上記認識ネットワークをトレーニングして得られた全ての音声抽出子のセントロイドを、予め設定された音声抽出子として用いることができる。本願の実施例では、混合音声の認識過程で音声抽出子を再推定する必要がないため、本願の実施例に係る混合音声の認識方法は、1フレームごとのリアルタイム処理を好適に実現することができる。
ステップ306では、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。
本願の実施例では、上記混合音声の各フレームのマスクを取得すると、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することができる。具体的には、該マスクを用いて上記混合音声に重み付けを行うことによって、上記混合音声のうち上記ターゲットオブジェクトに属する音声を1フレームごとに抽出することができ、マスクが大きいほど、対応する時間周波数ウィンドウの音声も多く抽出される。
以下、図5に示す混合音声の認識フローを実現するための認識ネットワークを説明し、該認識ネットワークの概略構成図は、図6に示すとおりである。以下、図6を参照しながら上記認識ネットワークのトレーニング過程を説明する。
1、認識ネットワークをトレーニングするための適応音声サンプルと混合音声サンプルとをディープニューラルネットワークに入力し、該ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向LSTM層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばCNN及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。
本応用シナリオでは、上付き
Figure 2021516369
は適応音声サンプルを、上付き
Figure 2021516369
は混合音声サンプルを表し、
Figure 2021516369
は対数領域の短時間フーリエ変換であり、入力された音声のうちt番目のフレームの音声のスペクトルを表し(fはスペクトル次元のシリアル番号を表し、tは時間次元のフレームシリアル番号を表す)、そして、適応音声サンプルのスペクトルは
Figure 2021516369

と、混合音声サンプルのスペクトルは
Figure 2021516369

と表すことができ、そして、それぞれ適応音声サンプルの入力スペクトル
Figure 2021516369

と混合音声サンプルの入力スペクトル
Figure 2021516369

とをディープニューラルネットワークによりK次元のベクトルにマッピングして、適応音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369

は適応音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)と混合音声サンプルの各フレームの各ベクトル次元でのベクトル
Figure 2021516369

Figure 2021516369

は混合音声サンプルのt番目のフレームのk番目のベクトル次元でのベクトルを表し、k)とを取得することができる。
2、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、適応音声サンプルの教師ありラベル
Figure 2021516369

を設定し、適応音声サンプルの各フレームのスペクトルをそれぞれ、最大スペクトル振幅とスペクトル閾値Γとの間の差と比較し、適応音声サンプルのあるフレーム(即ち、ある時間周波数ウィンドウ)のスペクトル振幅が適応スペクトルの比較値(即ち、適応音声サンプルの最大スペクトル振幅とΓとの間の差)よりも大きければ、該時間周波数ウィンドウに対応する適応音声サンプルの教師ありラベル
Figure 2021516369

は1を取り、そうでなければ、
Figure 2021516369

は0を取り、具体的な式は、前述の式(4)を参照することができる。
本応用シーンでは、上記適応音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

と教師ありラベル

Figure 2021516369

に基づいて、上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369

を算出し、算出方法は、上記式(5)に示すとおりである。
3、上記適応音声の各ベクトル次元での平均ベクトル
Figure 2021516369

と上記混合音声の各フレームの各ベクトル次元でのベクトル
Figure 2021516369

を2K次元のベクトルに合わせて順伝播型ニューラルネットワークに入力し、K次元の規則ベクトル
Figure 2021516369

を出力し、具体的には、該順伝播型ニューラルネットワークの関数は、上記式(11)に示すように表すことができる。順伝播型ニューラルネットワークの説明については、ステップ304の説明を参照することができるので、ここでは説明を省略する。
4、混合音声サンプルにおけるターゲットオブジェクトの教師ありラベル
Figure 2021516369
を取得するために、混合音声サンプルにおける低エネルギーのスペクトルウィンドウのノイズを先に除去し、その後に混合音声サンプルにおけるターゲットオブジェクトの音声スペクトル振幅について、ターゲットオブジェクトのあるフレームでの音声スペクトル振幅がいずれも該フレームでの干渉ターゲットオブジェクトのスペクトル振幅よりも大きければ、ターゲットオブジェクトの該フレームでの対応する
Figure 2021516369
は1を取り、そうでなければ、0を取る。
5、規則ベクトル
Figure 2021516369

と混合音声サンプルにおけるターゲットオブジェクトの教師ありラベル
Figure 2021516369

に基づいて、式(12)により規則化された音声抽出子
Figure 2021516369
を推定する。
Figure 2021516369
6、各フレームの各ベクトル次元での規則ベクトル
Figure 2021516369

と規則化された音声抽出子
Figure 2021516369
との間の距離を測定することにより、ターゲットオブジェクトが復元されるMaskを推定し、推定方法は、式(13)に示すとおりであり、時間周波数ウィンドウと音声抽出子との内積距離が小さいほど、該時間周波数ウィンドウがターゲットオブジェクトに帰属する確率が大きくなり、そして、式(12)により推定された対応する時間周波数ウィンドウのMaskが大きくなり、混合音声サンプルのうち対応する時間周波数ウィンドウの音声も多く抽出される。
Figure 2021516369
上記式(13)において、
Figure 2021516369
は、上記混合音声サンプルのt番目のフレームのマスクを表す。
7、推定されたMaskによって復元されたターゲットオブジェクトの音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築し、該目的関数を最小化することにより、ネットワーク全体をトレーニングし、該目的関数Lは、式(14)に示すとおりであってよい。
Figure 2021516369
上記式(14)において、
Figure 2021516369
は、ターゲットオブジェクトの参照音声のt番目のフレームでのスペクトル(即ち、参照音声スペクトル)を表す。上記式(14)は、標準的なL2再構成誤差である。再構成誤差が復元された音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出されたターゲットオブジェクトの音声品質を最適化することができる。
混合音声サンプルとは異なり、実際の混合音声認識において、入力された混合音声のうちどの音声がターゲットオブジェクトに属するかが分からないため、混合音声におけるターゲットオブジェクトの教師ありラベルが未知であり、したがって、先に述べたように、上記認識ネットワークをトレーニングして得られた全ての音声抽出子のセントロイドを、予め設定された音声抽出子として用いることができ、図3に示す実施例のステップ305では、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得する。
本願の実施例は、混合音声の認識装置を提供する。図7に示すように、本願の実施例に係る混合音声の認識装置は、
音声の入力をモニタリングするためのモニタリングユニット71と、
モニタリングユニット71が上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するための取得ユニット72と、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するための特定ユニット73とを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。
図7に示す実施例に基づいて、図8に示すように、取得ユニット72は、
モニタリングユニット71が、予め設定された音声情報を含む音声である適応音声と、上記適応音声の後に入力された非適応音声である混合音声の入力をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれ、K(上記Kは1以上)次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するための空間マッピングユニット721と、
上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出するための算出ユニット722と、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するためのマスク推定ユニット723とを含み、
特定ユニット73は、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定してもよい。
任意選択で、算出ユニット722は、具体的には、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出するために用いられてもよく、ここで、上記適応音声の有効フレームとは、上記適応音声における、スペクトル振幅が適応スペクトルの比較値よりも大きいフレームであり、上記適応スペクトルの比較値は、上記適応音声の最大スペクトル振幅と予め設定されたスペクトル閾値との間の差に等しい。
任意選択で、本願の実施例に係る混合音声の認識装置は、さらに、上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するための規則ユニットを含んでもよい。マスク推定ユニット723は、具体的には、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得するために用いられてもよい。
任意選択で、本願の実施例に係る混合音声の認識装置は、さらに、クラスタリングアルゴリズムに基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定するためのクラスタリングユニットを含んでもよい。マスク推定ユニット723は、具体的には、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するために用いられてもよい。
本願の実施例に係る混合音声の認識装置は、さらに、それぞれ、予め設定されたM(上記Mは1よりも大きい)個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較するための比較ユニットを含んでもよい。マスク推定ユニット723は、具体的には、上記M個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子を、ターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するために用いられてもよい。
なお、本発明の実施例に係る混合音声の認識装置は、上記方法実施例における全ての技術手段を実現することができ、各機能モジュールの機能は、上記方法実施例における方法により具体的に実現することができ、その具体的な実現過程については、上記実施例における関連説明を参照することができ、ここでは説明を省略する。
以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
本願の実施例は、別の混合音声の認識装置を提供し、図9を参照して、本願の実施例に係る混合音声の認識装置は、さらに、メモリ81と、1つ以上のプロセッサ82(図9では1つのみが示される)と、メモリ81に記憶されプロセッサで実行可能なコンピュータプログラムとを含む。ここで、メモリ82は、ソフトウェアプログラム及びモジュールを記憶するためのものであり、プロセッサ82は、メモリ81に記憶されているソフトウェアプログラム及びユニットを実行することにより、様々な機能アプリケーション及びデータ処理を実行する。具体的には、プロセッサ82は、メモリ81に記憶されている上記コンピュータプログラムを実行することにより、
音声の入力をモニタリングするステップと、
上記モニタリングユニットが適応音声と混合音声の入力をモニタリングしたとき、取得ユニットが上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、
特定ユニットが上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するステップとを実現し、
ここで、上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。
以上が第1種の可能な実現形態であると仮定し、第1種の可能な実現形態に基づいて提供される第2種の可能な実現形態では、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得することは、
上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれ、K(上記Kは1以上)次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することと、
上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定することと
上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することとを含む。
第2種の可能な実現形態に基づいて提供される第3種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することは、具体的には、
上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することであり、上記適応音声の有効フレームとは、上記適応音声における、スペクトル振幅が適応スペクトルの比較値よりも大きいフレームであり、上記適応スペクトルの比較値は、上記適応音声の最大スペクトル振幅と予め設定されたスペクトル閾値との間の差に等しい。
上記第3種の可能な実現形態に基づいて提供される第4種の可能な実現形態では、上記算出ユニットは、具体的には、各ベクトル次元毎に、上記適応音声の各フレームの対応するベクトル次元でのベクトルにそれぞれ対応するフレームの教師ありラベルを乗算した後に加算して、上記適応音声の有効フレームの対応するベクトル次元での総和ベクトルを取得し、上記適応音声の有効フレームの各ベクトル次元での総和ベクトルをそれぞれ上記適応音声の各フレームの教師ありラベルの和で除算して、上記適応音声の各ベクトル次元での平均ベクトルを取得するために用いられ、
ここで、上記適応音声における、スペクトル振幅が適応スペクトルの比較値よりも大きいフレームの教師ありラベルは1を取り、上記適応音声における、スペクトル振幅が適応スペクトルの比較値以下であるフレームの教師ありラベルは0を取る。
上記第2種の可能な実現形態、又は上記第3種の可能な実現形態、又は上記第4種の可能な実現形態に基づいて提供される第5種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出した後、プロセッサ82は、メモリ81に記憶されている上記コンピュータプログラムを実行することにより、さらに、
上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するステップの代わりに、
それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得するステップとを実現する。
上記第2種の可能な実現形態、又は上記第3種の可能な実現形態、又は上記第4種の可能な実現形態に基づいて提供される第6種の可能な実現形態では、上記適応音声のベクトルと上記混合音声のベクトルとをそれぞれK次元のベクトル空間に埋め込んだ後、プロセッサ82は、メモリ81に記憶されている上記コンピュータプログラムを実行することにより、さらに、
クラスタリングアルゴリズムに基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを実現し、ここで、上記ターゲットセントロイドベクトルとは、同一のベクトル次元で上記適応音声の平均ベクトルとの距離が最小であるセントロイドベクトルである。
上記第2種の可能な実現形態、又は上記第3種の可能な実現形態、又は上記第4種の可能な実現形態に基づいて提供される第7種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出した後、プロセッサ82は、メモリ81に記憶されている上記コンピュータプログラムを実行することにより、さらに、
それぞれ、予め設定されたM(上記Mは1よりも大きい)個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、上記M個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子をターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを実現する。
任意選択で、図9に示すように、上記混合音声の認識装置は、さらに、1つ以上の入力装置83(図9では1つのみが示される)及び1つ以上の出力装置84(図9では1つのみが示される)を含んでもよい。メモリ81、プロセッサ82、入力装置83及び出力装置84は、バス85を介して接続される。
なお、本願の実施例では、いわゆるプロセッサ82は、中央処理装置(Central Processing Unit、CPU)であってもよいし、他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field−Programmable Gate Array、FPGA)又は他のプログラマブル論理デバイス、離散ゲート又はトランジスタ論理デバイス、離散ハードウェアコンポーネントなどであってもよい。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の一般的なプロセッサなどであってもよい。
入力装置83は、キーボード、タッチパネル、指紋収集センサ(ユーザの指紋情報と指紋の方向情報を収集するためのものである。)、マイクなどを含んでよく、出力装置84は、ディスプレイ、スピーカーなどを含んでよい。
メモリ84は、リードオンリーメモリ及びランダムアクセスメモリを含み、プロセッサ81に命令及びデータを提供してよい。メモリ84の一部又は全部は、不揮発性ランダムアクセスメモリを含んでもよい。
以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者(即ち、ターゲットオブジェクト)の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。
当業者であれば明確に理解できるように、便利かつ簡潔に説明するために、上記各機能ユニット、モジュールの区分によって例を挙げて説明したものにすぎず、実際の応用には、必要に応じて上記機能を割り当てて、異なる機能ユニット、モジュールにより完成させ、すなわち上記装置の内部構造を異なる機能ユニット又はモジュールに分割することにより、前述した全部又は一部の機能を完成させる。実施例における各機能ユニット、モジュールは、1つの処理ユニットに集積されてもよいし、各ユニットとして独立して物理的に存在してもよいし、さらに2つ以上のユニットが1つのユニットに集積されてもよく、上記集積されるユニットは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。また、各機能ユニット、モジュールの具体的な名称は、互いに区分しやすいように採用されたものに過ぎず、本願の保護範囲を限定するものではない。上記システムにおけるユニット、モジュールの具体的な動作過程について、前述の方法実施例における対応する過程を参照することができ、ここでは説明を省略する。
上記実施例では、各々の実施例についての説明はそれぞれ重要点があり、ある実施例に詳しく説明または記載しない部分は、他の実施例における関連説明を参照することができる。
当業者であれば理解できるように、本明細書で開示された実施例に基づいて説明された様々な例のユニット及びアルゴリズムステップの結合は、電子ハードウェア、又はコンピュータソフトウェア及び電子ハードウェアの組み合わせによって実現することができる。これらの機能がハードウェアの形態で実行されるかソフトウェアの形態で実行されるかは、技術手段の特定の応用及び設計上の制約条件によって決まる。当業者であれば、それぞれの特定の応用に対して、異なる方法を使用して説明した機能を実現することができるが、このような実現は本願の範囲を超えると見なすべきではない。
本願に係る実施例では、開示された装置及び方法は、他の方式で実現され得ることを理解されたい。例えば、上記説明されたシステムの実施例は例示的なものにすぎず、例えば、上記モジュール又はユニットの分割は、論理的な機能の分割にすぎず、実際の実施においては他の分割仕様があってもよく、例えば、複数のユニット又はコンポーネントを組み合わせてもよいし、もう1つのシステムに集積されてもよいし、一部の特徴が無視されるか又は実行されなくてもよい。一方、図示又は検討された相互結合又は直接結合又は通信接続は、いくつかのインタフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
上記分離部材として説明されたユニットは、物理的に分離してもよいし、物理的に分離しなくてもよく、ユニットとして表示された部材は、物理的なユニットであってもよいし、物理的なユニットでなくてもよく、即ち、1つの場所に位置してもよいし、複数のネットワークユニット上に分布してもよい。本願の実施例の目的を達成するために、実際の需要に応じて、その中の一部又は全部のユニットを選択することができる。
上記集積されたユニットは、ソフトウェア機能ユニットの形態で実現されて独立な製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本願では、上記方法実施例に係る方法を実現する全部又は一部のフローは、コンピュータプログラムによって関連するハードウェアに命令を与えて完成することもでき、上記コンピュータプログラムは、コンピュータ可読記憶媒体に記憶することができ、プロセッサによって実行されるとき、上記各方法実施例のステップを実現することができる。ここで、上記コンピュータプログラムは、コンピュータプログラムコードを含み、上記コンピュータプログラムコードは、ソースコード形式、オブジェクトコード形式、実行可能ファイル又は何らかの中間形式などであってもよい。上記コンピュータ可読記憶媒体は、上記コンピュータプログラムコードを格納できる如何なるエンティティや装置、記録媒体、Uディスク、リムーバブルハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、リードオンリーメモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、電気搬送波信号、電気通信信号、及びソフトウェア配布媒体などを含んでもよい。なお、上記コンピュータ可読記憶媒体に含まれるコンテンツは、司法管轄区内の法律及び特許実務の要件に従って適宜に増減可能であり、例えば、いくつかの司法管轄区では、法律及び特許実務によって、コンピュータ可読記憶媒体には、電気搬送波信号及び電気通信信号が含まれない。
上記実施例は、本願の技術手段を説明するためのものに過ぎず、それを制限するものではない。前述の実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、依然として前述の各実施例に記載の技術手段を変更し、又はその一部の技術的特徴に等価置換を行うことができ、これらの変更や置換は、対応する技術手段を実質的に本願の各実施例の技術手段の要旨と範囲から逸脱させるものではなく、いずれも本願の保護範囲内に含まれるべきである。

Claims (14)

  1. コンピュータ装置が実行する混合音声の認識方法であって、
    音声の入力をモニタリングするステップと、
    適応音声と混合音声の入力をモニタリングしたとき、前記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、
    前記ターゲットオブジェクトの音声特徴に基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するステップとを含み、
    前記適応音声は、予め設定された音声情報を含む音声であり、前記混合音声は、前記適応音声の後に入力された非適応音声であることを特徴とする混合音声の認識方法。
  2. 適応音声に基づいてターゲットオブジェクトの音声特徴を取得する前記ステップは、
    予め設定された音声情報を含む音声である前記適応音声のスペクトルと、前記適応音声の後に入力された非適応音声である前記混合音声のスペクトルとをそれぞれ、K(前記Kは1以上)次元のベクトル空間に埋め込んで、前記適応音声の各フレームの各ベクトル次元でのベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するステップと、
    前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するステップと、
    前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ前記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、前記混合音声の各フレームのマスクを推定するステップとを含み、
    前記ターゲットオブジェクトの音声特徴に基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するステップは、
    前記混合音声の各フレームのマスクに基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するステップであることを特徴とする、請求項1に記載の混合音声の認識方法。
  3. 前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するステップは、具体的には、
    前記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するステップであり、前記適応音声の有効フレームとは、前記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームであり、前記適応スペクトルの比較値は、前記適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しいことを特徴とする、請求項2に記載の混合音声の認識方法。
  4. 前記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するステップは、
    各ベクトル次元毎に、前記適応音声の各フレームの対応するベクトル次元でのベクトルにそれぞれ対応するフレームの教師ありラベルを乗算した後に加算して、前記適応音声の有効フレームの対応するベクトル次元での総和ベクトルを取得するステップと、
    前記適応音声の有効フレームの各ベクトル次元での総和ベクトルをそれぞれ前記適応音声の各フレームの教師ありラベルの和で除算して、前記適応音声の各ベクトル次元での平均ベクトルを取得するステップとを含み、
    前記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームの教師ありラベルは1を取り、前記適応音声における、スペクトル幅が適応スペクトルの比較値以下であるフレームの教師ありラベルは0を取ることを特徴とする、請求項3に記載の混合音声の認識方法。
  5. 前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出した後に、さらに、
    前記適応音声の各ベクトル次元での平均ベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するステップと、
    前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ前記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、前記混合音声の各フレームのマスクを推定するステップの代わりに、それぞれ前記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、前記混合音声の各フレームのマスクを推定して取得するステップとを含むことを特徴とする、請求項2〜4のいずれか一項に記載の混合音声の認識方法。
  6. 前記適応音声のスペクトルと前記混合音声のスペクトルとをそれぞれK次元のベクトル空間に埋め込んだ後に、さらに、
    クラスタリングアルゴリズムに基づいて前記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、前記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定するステップと、
    前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、前記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを含み、
    前記ターゲットセントロイドベクトルとは、同一のベクトル次元で前記適応音声の平均ベクトルとの距離が最小であるセントロイドベクトルであることを特徴とする、請求項2〜4のいずれか一項に記載の混合音声の認識方法。
  7. 前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出した後に、さらに、
    それぞれ、予め設定されたM(前記Mは1よりも大きい)個の音声抽出子と前記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較するステップと、
    前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、前記M個の音声抽出子のうち、前記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子をターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを含むことを特徴とする、請求項2〜4のいずれか一項に記載の混合音声の認識方法。
  8. 前記適応音声のスペクトルと前記混合音声のスペクトルとをそれぞれK次元のベクトル空間に埋め込んで、前記適応音声の各フレームの各ベクトル次元でのベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するステップは、具体的には、
    前記適応音声のスペクトルと前記混合音声のスペクトルとをディープニューラルネットワークによりK次元のベクトル空間にマッピングして、前記適応音声の各フレームの各ベクトル次元でのベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するステップであることを特徴とする、請求項2〜4のいずれか一項に記載の混合音声の認識方法。
  9. 前記ディープニューラルネットワークは、各層に600個のノードを有する4層の双方向長・短期記憶ネットワークで構成されることを特徴とする、請求項8に記載の混合音声の認識方法。
  10. 前記Kは40を取ることを特徴とする、請求項8に記載の混合音声の認識方法。
  11. 音声の入力をモニタリングするためのモニタリングユニットと、
    前記モニタリングユニットが適応音声と混合音声の入力をモニタリングしたとき、前記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するための取得ユニットと、
    前記ターゲットオブジェクトの音声特徴に基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するための特定ユニットとを含み、
    前記適応音声は、予め設定された音声情報を含む音声であり、前記混合音声は、前記適応音声の後に入力された非適応音声であることを特徴とする混合音声の認識装置。
  12. 前記取得ユニットは、
    前記モニタリングユニットが、予め設定された音声情報を含む音声である適応音声と、前記適応音声の後に入力された非適応音声である混合音声の入力をモニタリングしたとき、前記適応音声のスペクトルと前記混合音声のスペクトルとをそれぞれ、K(前記Kは1以上)次元のベクトル空間に埋め込んで、前記適応音声の各フレームの各ベクトル次元でのベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するための空間マッピングユニットと、
    前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するための算出ユニットと、
    前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ前記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、前記混合音声の各フレームのマスクを推定するためのマスク推定ユニットとを含み、
    前記特定ユニットは、具体的には、前記混合音声の各フレームのマスクに基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するために用いられることを特徴とする、請求項11に記載の混合音声の認識装置。
  13. メモリと、プロセッサと、前記メモリに記憶され前記プロセッサで実行可能なコンピュータプログラムとを含む混合音声の認識装置であって、
    前記コンピュータプログラムが前記プロセッサによって実行されるとき、請求項1〜10のいずれか一項に記載の方法のステップが実現されることを特徴とする、混合音声の認識装置。
  14. コンピュータプログラムを記憶しているコンピュータ可読記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されるとき、請求項1〜10のいずれか一項に記載の方法のステップが実現されることを特徴とするコンピュータ可読記憶媒体。
JP2020547178A 2018-05-24 2019-04-17 混合音声の特定方法、装置及びコンピュータプログラム Active JP7177167B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810507294.5A CN108962237B (zh) 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质
CN201810507294.5 2018-05-24
PCT/CN2019/082978 WO2019223457A1 (zh) 2018-05-24 2019-04-17 混合语音识别方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021516369A true JP2021516369A (ja) 2021-07-01
JP7177167B2 JP7177167B2 (ja) 2022-11-22

Family

ID=64499498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020547178A Active JP7177167B2 (ja) 2018-05-24 2019-04-17 混合音声の特定方法、装置及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11996091B2 (ja)
EP (1) EP3806089B1 (ja)
JP (1) JP7177167B2 (ja)
CN (3) CN108962237B (ja)
WO (1) WO2019223457A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023127058A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN108962237B (zh) * 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN111696571A (zh) * 2019-03-15 2020-09-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110459237B (zh) * 2019-04-12 2020-11-20 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110265060B (zh) * 2019-06-04 2021-05-11 广东工业大学 一种基于密度聚类的说话人数目自动检测方法
CN111370018B (zh) * 2020-02-28 2023-10-24 维沃移动通信有限公司 音频数据的处理方法、电子设备及介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111583916B (zh) * 2020-05-19 2023-07-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111754982A (zh) * 2020-06-19 2020-10-09 平安科技(深圳)有限公司 语音通话的噪声消除方法、装置、电子设备及存储介质
CN111667817A (zh) * 2020-06-22 2020-09-15 平安资产管理有限责任公司 一种语音识别方法、装置、计算机系统及可读存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112614492A (zh) * 2020-12-09 2021-04-06 通号智慧城市研究设计院有限公司 基于时空信息融合的声纹识别方法、系统及存储介质
US20220406324A1 (en) * 2021-06-18 2022-12-22 Samsung Electronics Co., Ltd. Electronic device and personalized audio processing method of the electronic device
CN113409776B (zh) * 2021-06-30 2024-06-07 南京领行科技股份有限公司 一种语音识别方法、装置、电子设备及存储介质
CN113436633B (zh) * 2021-06-30 2024-03-12 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质
CN114882914B (zh) * 2022-06-16 2024-06-18 中国电信股份有限公司 混叠音处理方法、装置和存储介质
CN116978358A (zh) * 2022-10-21 2023-10-31 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和介质
CN116168687B (zh) * 2023-04-24 2023-07-21 北京探境科技有限公司 一种语音数据处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109361A (ja) * 2002-09-17 2004-04-08 Toshiba Corp 指向性設定装置、指向性設定方法及び指向性設定プログラム
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
JP2019095551A (ja) * 2017-11-21 2019-06-20 ヤフー株式会社 生成装置、生成方法、および生成プログラム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620546B2 (en) 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
KR101670313B1 (ko) 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
CN102201236B (zh) * 2011-04-06 2012-12-19 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
KR101305373B1 (ko) * 2011-12-16 2013-09-06 서강대학교산학협력단 관심음원 제거방법 및 그에 따른 음성인식방법
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN104049721B (zh) * 2013-03-11 2019-04-26 联想(北京)有限公司 信息处理方法及电子设备
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN105280183B (zh) * 2015-09-10 2017-06-20 百度在线网络技术(北京)有限公司 语音交互方法和系统
US9892731B2 (en) * 2015-09-28 2018-02-13 Trausti Thor Kristjansson Methods for speech enhancement and speech recognition using neural networks
CN105895078A (zh) 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 动态选择语音模型的语音识别方法及装置
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
JP6616182B2 (ja) * 2015-12-25 2019-12-04 綜合警備保障株式会社 話者認識装置、判別値生成方法及びプログラム
US10741195B2 (en) * 2016-02-15 2020-08-11 Mitsubishi Electric Corporation Sound signal enhancement device
EP3469584B1 (en) * 2016-06-14 2023-04-19 The Trustees of Columbia University in the City of New York Neural decoding of attentional selection in multi-speaker environments
CN107689948B (zh) * 2016-08-22 2020-09-01 赛灵思公司 应用于神经网络硬件加速系统的高效数据访存管理装置
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
KR102562287B1 (ko) * 2016-10-14 2023-08-02 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
US10192553B1 (en) * 2016-12-20 2019-01-29 Amazon Technologes, Inc. Initiating device speech activity monitoring for communication sessions
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
IT201700044093A1 (it) * 2017-04-21 2018-10-21 Telecom Italia Spa Metodo e sistema di riconoscimento del parlatore
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
CN108962237B (zh) * 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109361A (ja) * 2002-09-17 2004-04-08 Toshiba Corp 指向性設定装置、指向性設定方法及び指向性設定プログラム
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
JP2019095551A (ja) * 2017-11-21 2019-06-20 ヤフー株式会社 生成装置、生成方法、および生成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023127058A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Also Published As

Publication number Publication date
CN111445905B (zh) 2023-08-08
CN108962237A (zh) 2018-12-07
US11996091B2 (en) 2024-05-28
JP7177167B2 (ja) 2022-11-22
EP3806089A1 (en) 2021-04-14
WO2019223457A1 (zh) 2019-11-28
EP3806089B1 (en) 2024-06-19
CN110797021A (zh) 2020-02-14
CN108962237B (zh) 2020-12-04
EP3806089A4 (en) 2021-07-21
US20200372905A1 (en) 2020-11-26
CN110797021B (zh) 2022-06-07
CN111445905A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
JP2021516369A (ja) 混合音声の認識方法、装置及びコンピュータ可読記憶媒体
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN107564513B (zh) 语音识别方法及装置
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
JP2022531574A (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
US20150228277A1 (en) Voiced Sound Pattern Detection
WO2019227574A1 (zh) 语音模型训练方法、语音识别方法、装置、设备及介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN112435684A (zh) 语音分离方法、装置、计算机设备和存储介质
KR20190108804A (ko) 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
KR20190032868A (ko) 음성인식 방법 및 그 장치
CN114582325A (zh) 音频检测方法、装置、计算机设备、存储介质
WO2018001125A1 (zh) 一种音频识别方法和装置
Marković et al. Partial mutual information based input variable selection for supervised learning approaches to voice activity detection
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
Zhu et al. A robust and lightweight voice activity detection algorithm for speech enhancement at low signal-to-noise ratio
CN114664288A (zh) 一种语音识别方法、装置、设备及可存储介质
CN113593525A (zh) 口音分类模型训练和口音分类方法、装置和存储介质
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200918

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221110

R150 Certificate of patent or registration of utility model

Ref document number: 7177167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150