JP2021516369A

JP2021516369A - 混合音声の認識方法、装置及びコンピュータ可読記憶媒体

Info

Publication number: JP2021516369A
Application number: JP2020547178A
Authority: JP
Inventors: ワン，ジュン; チェン，ジエ; スゥ，ダン; ユィ，ドォン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2018-05-24
Filing date: 2019-04-17
Publication date: 2021-07-01
Anticipated expiration: 2039-04-17
Also published as: CN111445905B; CN108962237A; US11996091B2; JP7177167B2; EP3806089A1; WO2019223457A1; EP3806089B1; CN110797021A; CN108962237B; EP3806089A4; US20200372905A1; CN110797021B; CN111445905A

Abstract

本願の実施例は、混合音声の認識方法、混合音声の認識装置及びコンピュータ可読記憶媒体を提供する。該混合音声の認識方法は、適応音声と混合音声の入力をモニタリングしたとき、前記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、前記ターゲットオブジェクトの音声特徴に基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するステップとを含み、ここで、前記適応音声は、予め設定された音声情報を含む音声であり、前記混合音声は、前記適応音声の後に入力された非適応音声である。【選択図】図２

Description

本願は、２０１８年５月２４日に中国特許庁に提出された、出願番号が２０１８１０４３６５１１．６、発明の名称が「混合音声の認識方法、装置及びコンピュータ可読記憶媒体」である中国特許出願に基づく優先権を主張するものであり、その全ての内容は参照により本願に組み込まれるものとする。

本願は、音声認識の技術分野に属し、具体的には、混合音声の認識方法、混合音声の認識装置及びコンピュータ可読記憶媒体に関する。

音声は、言語の音響表現として、人間が情報を伝達するための最も自然で効果的で便利な手段の１つである。近年、コンピュータ音声認識技術は、非常に進歩してきた。しかしながら、人々が音声をコンピュータに入力して音声認識を行うとき、入力された音声が環境ノイズ、部屋の残響、さらに他の話者の音声によって干渉されることは避けられない。これらの干渉により、最終的にコンピュータが収集した音声は純粋な音声ではなく、ノイズによって汚染された音声（即ち、混合音声）である。近年、混合音声信号の分離と認識に対処するために、ディープアトラクタネットワークなどの、ディープラーニングに基づく方法とシステムが多く開発されている。ディープアトラクタネットワーク（即ち、ＤｅｅｐＡｔｔｒａｃｔｏｒＮｅｔｗｏｒｋ）は、混合音声の各時間周波数ウィンドウに区分可能な埋め込みベクトルを生成するとともに、混合音声の各話者にアトラクタを生成し、そして埋め込みベクトルからこれらのアトラクタまでの距離を算出することにより、対応する時間周波数ウィンドウが対応する話者に帰属するマスク（即ち、Ｍａｓｋ）を推定し、その後にこれらのＭａｓｋを用いて混合音声の各話者の時間周波数領域での表現を算出する。

本願の実施例は、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にする混合音声の認識方法、混合音声の認識装置及びコンピュータ可読記憶媒体を提供する。

本願の実施例の第１の態様に係る混合音声の認識方法は、
音声の入力をモニタリングするステップと、
適応音声と混合音声の入力をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するステップとを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。

本願の実施例の第２の態様に係る混合音声の認識装置は、
音声の入力をモニタリングするためのモニタリングユニットと、
上記モニタリングユニットが適応音声と混合音声の入力をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するための取得ユニットと、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するための特定ユニットとを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。

本願の実施例の第３の態様に係る混合音声の認識装置は、メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを含む。上記コンピュータプログラムが当該プロセッサによって実行されるとき、上記第１の態様に記載の混合音声の認識方法が実現される。

本願の実施例の第４の態様に係るコンピュータ可読記憶媒体は、コンピュータプログラムを記憶しているコンピュータ可読記憶媒体である。上記コンピュータプログラムがプロセッサによって実行されるとき、上記第１の態様に記載の混合音声の認識方法が実現される。

以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者（即ち、ターゲットオブジェクト）の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願の実施例に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。

本願の実施例における技術手段をより明確に説明するために、以下、実施例又は従来技術の説明に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は本願のいくつかの実施例に過ぎず、当業者であれば、創造的な労働をせずにこれらの図面に基づいて他の図面を得ることができる。
本願の実施例に係る応用シーンの概略図である。本願の実施例に係る混合音声の認識方法のフロー構成の概略図である。本願の実施例に係る混合音声の認識方法の別のフロー構成の概略図である。本願の実施例に係る認識ネットワークの概略構成図である。本願の実施例に係る別の認識ネットワークの概略構成図である。本願の実施例に係る混合音声の認識方法のさらに別のフロー構成の概略図である。本願の実施例に係るさらに別の認識ネットワークの概略構成図である。本願の実施例に係る混合音声の認識装置の概略構成図である。本発明の実施例に係る混合音声の認識装置の別の概略構成図である。本発明の実施例に係る混合音声の認識装置のさらに別の概略構成図である。

以下の説明では、限定ではなく例示を目的として、本願の実施例を完全に理解するために、例えば、特定のシステム構成、技術などの具体的な詳細が提供される。しかしながら、これらの具体的な詳細がない他の実施例においても本願を実現できることは当業者に自明である。他の場合では、不必要な詳細が本願の説明を妨げないように、周知のシステム、装置、回路及び方法の詳細な説明が省略される。

以下の方法実施例における各ステップの番号の大きさは実行順序の前後を意味するものではなく、各過程の実行順序はその機能と内部ロジックにより決められるものであり、各実施例の実施過程を限定するものではないと理解されるべきである。

本願に係る技術手段を説明するために、以下、具体的な実施例により説明する。

図１は本願の実施例に係る応用シーンの概略図である。図１に示すように、ユーザ２０は、コンピュータ装置１０と音声対話を行うことができる。コンピュータ装置１０は、マイク又はマイクアレイを有してよい。コンピュータ装置は、様々な端末装置、例えばスマートスピーカー、スマートテレビ、スマート音声アシスタント、携帯電話、タブレット、電子ブックリーダー、スマートメガネ、スマートウォッチ、ラップトップコンピュータ及びデスクトップコンピュータなどであってよい。

本願の実施例は、混合音声の認識方法を提供し、図２を参照して、本願の実施例に係る混合音声の認識方法は、以下のステップ１０１〜１０３を含む。

ステップ１０１では、音声の入力をモニタリングする。

本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイク又はマイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、又は、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングすると、該音声をコンピュータ装置に送信する。コンピュータ装置は、様々な端末装置であってもよいし、サーバであってもよい。

ステップ１０２では、上記入力された音声において適応音声及び混合音声をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得する。

本願の実施例では、上記適応音声は、予め設定された音声情報を含む音声である。コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シーンでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード（例えば、「ピンポンピンポン」）を含む音声であるため、該応用シーンでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。ウェイクアップワードは、予め設定されてよい。

本願の実施例によれば、ステップ１０２では、音声特徴認識アルゴリズム（例えばメル周波数ケプストラム係数（ＭＦＣＣ、Ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ）アルゴリズム）に基づいて、上記適応音声からターゲットオブジェクトの音声特徴を抽出してよい。

もちろん、ステップ１０２では、他の方式により上記適応音声からターゲットオブジェクトの音声特徴を抽出してもよく、詳細について、後の実施例の説明を参照されたい。

ステップ１０３では、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。

ここで、上記混合音声は、上記適応音声の後にマイクアレイによってモニタリングされて上記コンピュータ装置に入力された非適応音声である。

ステップ１０３では、コンピュータ装置は、上記ターゲットオブジェクトの音声特徴に基づいて、類似度尤度アルゴリズムによって上記混合音声から、上記ターゲットオブジェクトの音声特徴と類似する音声特徴を認識し、さらに、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することができる。

以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例に係る方法は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができ、応用シーンで干渉話者とターゲットオブジェクトとの位置が比較的に近い場合であっても、ターゲットオブジェクトの音声を正確に復元し、後続処理における被干渉音声に対する命令認識精度を向上させることができる。例えば、スマートスピーカーという応用シーンでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者（即ち、ターゲットオブジェクト）の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願の実施例に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。

以下、別の実施例により本願に係る混合音声の認識方法を説明し、図３を参照して、本願の実施例に係る混合音声の認識方法は、以下のステップ２０１〜２０５を含む。

ステップ２０１では、音声の入力をモニタリングする。

本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、又は、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングすると、該音声をコンピュータ装置に送信する。コンピュータ装置は、様々な端末装置であってもよいし、サーバであってもよい。

ステップ２０２では、上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれＫ次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得する。

ここで、上記適応音声は予め設定された音声情報を含む音声であり、上記Ｋは１以上であり、例えば、４０を取り得るものである。

本願の実施例では、コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シーンでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード（例えば、「ピンポンピンポン」）を含む音声であるため、該応用シーンでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。ウェイクアップワードは、予め設定されてよい。

混合音声は、上記適応音声の後に入力された非適応音声である。実際のスマート音声対話シナリオにおいて、特に、遠隔発話の状況では、様々な話者の音声が混ざることがよくあり、その結果、入力された音声が混合音声になり、本願の実施例に係る混合認識方法は、混合音声からターゲットオブジェクトに属する音声を特定するためのものである。

ステップ２０２では、コンピュータ装置は、上記適応音声のスペクトルと上記混合音声のスペクトルとをディープニューラルネットワークによりＫ次元のベクトル空間にマッピングして、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することができる。例えば、上記ディープニューラルネットワークは、各層に６００個のノードを有してよい４層の双方向長・短期記憶ネットワーク（ＬＳＴＭ、ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ）で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えば畳み込みニューラルネットワーク（ＣＮＮ、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）と他のネットワーク構造とが結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願の実施例は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。

具体的には、本願の実施例に係るスペクトルは、音声を短時間フーリエ変換した後、短時間フーリエ変換の結果の対数を取って得られる。

以下、例を挙げてステップ２０２を説明し、上付き

は適応音声を、上付き

は混合音声を表し、

は対数領域の短時間フーリエ変換であり、入力された音声のうちｔ番目のフレームの音声のスペクトルを表し（ｆはスペクトル次元のシリアル番号を表し、ｔは時間次元のフレームシリアル番号を表す）、そして、適応音声のスペクトルは

と、混合音声のスペクトルは

と表すことができる。そして、ステップ２０２では、それぞれ適応音声の入力スペクトル

と混合音声の入力スペクトル

とをディープニューラルネットワークによりＫ次元のベクトルにマッピングして、適応音声の各フレームの各ベクトル次元でのベクトル

（

は適応音声のｔ番目のフレームのｋ番目のベクトル次元でのベクトルを表し、ｋ）と混合音声の各フレームの各ベクトル次元でのベクトル

（

は混合音声のｔ番目のフレームのｋ番目のベクトル次元でのベクトルを表し、ｋ）とを取得することができる。

ステップ２０３では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。

本願の実施例では、式

により上記適応音声の各ベクトル次元での平均ベクトル

を算出することができ、式中、Ｔ１は適応音声のフレーム数を表す。

或いは、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、ステップ２０３では、適応音声のスペクトルを一定のスペクトル閾値と比較し、適応音声のあるフレーム（即ち、ある時間周波数ウィンドウ）のスペクトル幅が適応スペクトルの比較値よりも大きければ、該フレームを適応音声の有効フレームとしてもよく、ステップ２０３では、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。ここで、上記適応スペクトルの比較値は、適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しい。具体的には、適応音声の教師ありラベル

を設定し、適応音声の各フレームのスペクトルをそれぞれ、最大スペクトル幅とスペクトル閾値Γとの間の差と比較し、適応音声のあるフレーム（即ち、ある時間周波数ウィンドウ）のスペクトル幅が適応スペクトルの比較値（即ち、適応音声の最大スペクトル幅とΓとの間の差）よりも大きければ、該時間周波数ウィンドウに対応する適応音声の教師ありラベル

は１を取り、そうでなければ、

は０を取ってよく、具体的な式は、以下の式（１）として表すことができる。

式中、Γの値は、例えば４０ｄＢを取る。適応音声の入力スペクトルはディープニューラルネットワークによりＫ次元（例えば、Ｋ＝４０）空間のベクトルにマッピングされる。

上記適応音声の有効フレームが各ベクトル次元におけるベクトルに基づいて、上記適応音声が各ベクトル次元における平均ベクトルを取得することは、各ベクトル次元毎に、上記適応音声の各フレームが対応するベクトル次元におけるベクトルに対応するフレームの教師ありラベルを其々乗算した後に加算して、上記適応音声の有効フレームが対応するベクトル次元における総和ベクトルを取得することと、上記適応音声の有効フレームが各ベクトル次元における総和ベクトルを上記適応音声の各フレームの教師ありラベルの和で其々除算して、上記適応音声が各ベクトル次元における平均ベクトルを取得することとを含む。具体的には、上記適応音声の有効フレームが各ベクトル次元におけるベクトルに基づいて、上記適応音声が各ベクトル次元における平均ベクトルを取得することは、以下の式（２）により実現することができる。

ただし、

は、上記適応音声のベクトル次元ｋでの平均ベクトルを表し、ｋ∈［１，Ｋ］である。

ステップ２０４では、上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定する。

ステップ２０４では、コンピュータ装置は、混合音声の各フレームの各ベクトル次元でのベクトルと音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して、ターゲットオブジェクトの音声を復元するようにし、推定方法は、式（３）に示すとおりである。

上記式（３）において、

は、上記混合音声のｔ番目のフレームのマスクを表し、

及び

については、前述の説明を参照することができる。

混合音声のあるフレーム（即ち、時間周波数ウィンドウ）のベクトルと音声抽出子の内積距離が小さいほど、該フレームがターゲットオブジェクトに帰属する確率が大きくなり、その分、第３式により推定される、該時間周波数ウィンドウに対応するマスクも大きくなる。

ステップ２０５では、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。

本願の実施例では、上記混合音声の各フレームのマスクを取得すると、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することができる。具体的には、該マスクを用いて上記混合音声に重み付けを行うことによって、上記混合音声のうち上記ターゲットオブジェクトに属する音声を１フレームごとに抽出することができ、マスクが大きいほど、対応する時間周波数ウィンドウの音声も多く抽出される。

なお、図３に示す実施例では、上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするが、もちろん、他の実施例では、他の方式でターゲットオブジェクトの各ベクトル次元での音声抽出子を選択してもよい。

他の実施形態としては、例えば、上記ステップ２０２の後、クラスタリングアルゴリズム（例えば、Ｋ−ｍｅａｎｓアルゴリズム）に基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定してもよい。上記ステップ２０４の代わりに、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定し、ここでは、上記ターゲットセントロイドベクトルは、同一のベクトル次元で上記適応音声の平均ベクトルとの距離が最小であるセントロイドベクトルである。

他の実施形態としては、例えば、上記ステップ２０３の後、それぞれ、予め設定されたＭ（上記Ｍは１よりも大きい）個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較してもよい。上記ステップ２０４の代わりに、上記Ｍ個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子を、ターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定する。

図３に示す混合音声の認識フローを実現するために、本願の実施例では、該混合音声の認識フローを実現するための認識ネットワークを予め構築し、そして、該認識ネットワークをトレーニングしてよい。

一応用シーンでは、上記認識ネットワークの概略構成図は、図４ａに示すとおりである。以下、図４ａを参照しながら上記認識ネットワークのトレーニング過程を説明する。

１、認識ネットワークをトレーニングするための適応音声サンプルと混合音声サンプルとをディープニューラルネットワークに入力し、該ディープニューラルネットワークは、各層に６００個のノードを有する４層の双方向ＬＳＴＭ層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばＣＮＮ及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。

本応用シナリオでは、上付き

は適応音声サンプルを、上付き

は混合音声サンプルを表し、

は対数領域の短時間フーリエ変換であり、入力された音声のうちｔ番目のフレームの音声のスペクトルを表し（ｆはスペクトル次元のシリアル番号を表し、ｔは時間次元のフレームシリアル番号を表す）、そして、適応音声サンプルのスペクトルは

と、混合音声サンプルのスペクトルは

と表すことができ、そして、それぞれ適応音声サンプルの入力スペクトル

と混合音声サンプルの入力スペクトル

とをディープニューラルネットワークによりＫ次元のベクトルにマッピングして、適応音声サンプルの各フレームの各ベクトル次元でのベクトル

（

は適応音声サンプルのｔ番目のフレームのｋ番目のベクトル次元でのベクトルを表し、ｋ）と混合音声サンプルの各フレームの各ベクトル次元でのベクトル

（

は混合音声サンプルのｔ番目のフレームのｋ番目のベクトル次元でのベクトルを表し、ｋ）とを取得することができる。

２、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、適応音声サンプルの教師ありラベル

を設定し、適応音声サンプルの各フレームのスペクトルをそれぞれ、最大スペクトル幅とスペクトル閾値Γとの間の差と比較し、適応音声サンプルのあるフレーム（即ち、ある時間周波数ウィンドウ）のスペクトル幅が適応スペクトルの比較値（即ち、適応音声サンプルの最大スペクトル幅とΓとの間の差）よりも大きければ、該時間周波数ウィンドウに対応する適応音声サンプルの教師ありラベル

は１を取り、そうでなければ、

は０を取り、具体的な式は、式（４）として表すことができる。

本応用シーンでは、適応音声サンプルのベクトル

と教師ありラベル

を用いてターゲットオブジェクトのベクトル空間での音声抽出子

を推定する。各ベクトル次元において、上記適応音声サンプルの各フレームが対応するベクトル次元におけるベクトルに、対応するフレームの教師ありラベルを其々乗算した後に加算して、上記適応音声サンプルの有効フレームが対応するベクトル次元における総和ベクトルを取得し、上記適応音声サンプルの有効フレームが各ベクトル次元における総和ベクトルを上記適応音声サンプルの各フレームの教師ありラベルの和で其々除算して、上記適応音声サンプルが各ベクトル次元における平均ベクトルを取得し、計算方法は、式（５）に示すとおりである。

３、混合音声サンプルの各フレームの各ベクトル次元でのベクトルと音声抽出子

との間の距離を測定することにより、ターゲットオブジェクトが復元されるＭａｓｋを推定し、推定方法は、式（６）に示すとおりであり、時間周波数ウィンドウと音声抽出子との内積距離が小さいほど、該時間周波数ウィンドウがターゲットオブジェクトに帰属する確率が大きくなり、そして、式（６）により推定された対応する時間周波数ウィンドウのＭａｓｋが大きくなり、混合音声サンプルのうち対応する時間周波数ウィンドウの音声も多く抽出される。

上記式（６）において、

は、上記混合音声サンプルのｔ番目のフレームのマスクを表し、

及び

については、前述の説明を参照することができる。

４、推定されたＭａｓｋによって復元されたターゲットオブジェクトの音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築した後、該目的関数を最小化することによりネットワーク全体をトレーニングし、該目的関数Ｌは、式（７）に示すとおりであってよい。

上記式（７）において、

は、ターゲットオブジェクトの参照音声のｔ番目のフレームでのスペクトル（即ち、参照音声スペクトル）を表す。上記式（７）は、標準的なＬ２再構成誤差である。再構成誤差が復元された音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出されたターゲットオブジェクトの音声品質を最適化することができる。

別の応用シーンでは、上記認識ネットワークの概略構成図は図４ｂに示すとおりであってもよい。本応用シーンでは、認識ネットワークのトレーニング過程は適応音声サンプルを入力する必要がなく、すなわち、ターゲットオブジェクトと干渉オブジェクトを区別しない。以下、図４ｂを参照しながら上記認識ネットワークのトレーニング過程を説明する。

１、混合音声サンプルに合計Ｃ個の話者の音声があると仮定し、各話者の教師ありラベル

を取得するために、混合音声サンプルにおける低エネルギーのスペクトルウィンドウのノイズを先に除去し、その後に混合音声サンプルの各話者の音声スペクトル幅について、ある話者のあるフレームでの音声スペクトル幅がいずれも該フレームでの他の話者のスペクトル幅よりも大きければ、該話者の該フレームでの対応する

は１を取り、そうでなければ０を取る。

本応用シナリオでは、

は対数領域の短時間フーリエ変換であり、混合音声サンプルのｔ番目のフレームの音声のスペクトルを表し、混合音声サンプルの入力スペクトル

をディープニューラルネットワークによりＫ次元のベクトルにマッピングして、混合音声サンプルの各フレームの各ベクトル次元でのベクトル

（

は混合音声サンプルのｔ番目のフレームのｋ番目のベクトル次元でのベクトルを表し、ｋ）を取得する。上記ディープニューラルネットワークは、各層に６００個のノードを有する４層の双方向ＬＳＴＭ層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばＣＮＮ及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。

２、混合音声サンプルのベクトル

と教師ありラベル

を用いて各話者のベクトル空間での音声抽出子

を推定し、計算方法は、式（８）に示すとおりである。

３、混合音声サンプルの各フレームの各ベクトル次元でのベクトルと各音声抽出子との間の距離を測定することにより、各話者のＭａｓｋを推定し、推定方法は、式（９）に示すとおりである。

上記式（９）において、

は、上記混合音声サンプルのｔ番目のフレームの、話者ｃに関するマスクを表し、

と

については、前述の説明を参照することができる。

４、各話者のＭａｓｋを用いて混合音声サンプルのうち各話者の音声を抽出する。

５、推定されたＭａｓｋによって復元された各話者の音声と、対応する話者の参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築した後、該目的関数を最小化することにより、ネットワーク全体をトレーニングし、該目的関数Ｌは、式（１０）に示すとおりであってよい。

上記式（１０）において、

は話者ｃの参照音声のｔ番目のフレームのスペクトル（即ち、参照音声スペクトル）を表す。上記式（１０）は、標準的なＬ２再構成誤差である。再構成誤差が復元された各話者と、対応する話者の参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出された全ての話者の音声品質を最適化することができる。

以上より、本願の実施例は、適応音声と混合音声の入力をモニタリングしたとき、適応音声のスペクトルと混合音声のスペクトルとをそれぞれＫ次元のベクトル空間に埋め込み、また、適応音声に基づいてターゲットオブジェクトに音声抽出子を決定し、その後に混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、混合音声の各フレームのマスクを推定し、最後にマスクに基づいて混合音声のうち該ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者（即ち、ターゲットオブジェクト）の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願における音声抽出子の決定が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。

以下、別の実施例により本願に係る混合音声の認識方法を説明し、本実施例は、図３に示す実施例と比べて、本実施例では認識ネットワーク（即ち、混合音声の認識を実現するためのネットワーク）に順伝播型ニューラルネットワークを導入して元のベクトル空間を規則化されたベクトル空間にマッピングすることにより、該認識ネットワークをトレーニングして得られた音声抽出子の分布が相対的に集中し安定するという点で異なる。図５に示すように、本願の実施例に係る混合音声の認識方法は、以下のステップ３０１〜３０６を含む。

ステップ３０１では、音声の入力をモニタリングする。

本願の実施例では、マイクアレイによって音声の入力をモニタリングすることにより、音声入力のノイズ干渉を低減することができる。上記マイクアレイは、コンピュータ装置と有線又は無線で接続されてもよいし、コンピュータ装置に埋め込まれてもよい。上記マイクアレイは、音声の入力をモニタリングした後、該音声をコンピュータ装置に送信する。

ステップ３０２では、上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれＫ次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得する。

本願の実施例では、コンピュータ装置が上記入力された音声において予め設定された音声情報を含む音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。例えば、スマートスピーカーという応用シナリオでは、通常、スマートスピーカーの音声制御機能をウェイクアップするために、ウェイクアップ音声を入力する必要があり、ウェイクアップ音声がウェイクアップワード（例えば、「ピンポンピンポン」）を含む音声であるため、該応用シナリオでは、ウェイクアップ音声を適応音声とすることができる。スマートスピーカーがウェイクアップ音声の入力をモニタリングしたとき、適応音声の入力をモニタリングしたと考えられる。

混合音声は、上記適応音声の後に入力された非適応音声であり、実際のスマート音声対話シーンにおいて、特に、遠隔発話の状況では、様々な話者の音声が混ざることがよくあり、その結果、入力された音声が混合音声になり、本願の実施例に係る混合認識方法は、混合音声からターゲットオブジェクトに属する音声を特定するためのものである。

ステップ３０２では、コンピュータ装置は、上記適応音声のスペクトルと上記混合音声のスペクトルとをディープニューラルネットワークによりＫ次元のベクトル空間にマッピングして、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することができる。例えば、上記ディープニューラルネットワークは、各層に６００個のノードを有する４層の双方向ＬＳＴＭ層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えば畳み込みニューラルネットワーク（ＣＮＮ、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、グラフ畳み込みニューラルネットワークなどを用いても良い。本願の実施例は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。

以下、例を挙げてステップ３０２を説明し、上付き

は適応音声を、上付き

は混合音声を表し、

と、混合音声のスペクトルは

と表すことができる。そして、ステップ３０２では、それぞれ適応音声の入力スペクトル

と混合音声の入力スペクトル

（

ステップ３０３では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。

本願の実施例では、式

により上記適応音声の各ベクトル次元での平均ベクトル

或いは、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、ステップ３０３では、適応音声のスペクトルを一定のスペクトル閾値と比較し、適応音声のあるフレーム（即ち、ある時間周波数ウィンドウ）のスペクトル幅が適応スペクトルの比較値よりも大きければ、該フレームを適応音声の有効フレームとしてもよく、ステップ３０３では、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。ここで、上記適応スペクトルの比較値は、適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しい。具体的には、適応音声の教師ありラベル

は１を取り、そうでなければ、

は０を取り、具体的な式は、前述の式（１）を参照することができ、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することは、前述の式（２）により実現することができる。

ステップ３０４では、上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得する。

本願の実施例では、上記順伝播型ニューラルネットワークは、各層のノード数が２５６である２層のネットワークであってよい。前述の例によりさらに説明し、上記適応音声の各ベクトル次元での平均ベクトル

と上記混合音声の各フレームの各ベクトル次元でのベクトル

を２Ｋ次元のベクトルに合わせて上記順伝播型ニューラルネットワークに入力し、Ｋ次元の規則ベクトル

を出力し、具体的には、該順伝播型ニューラルネットワークの関数は、式（１１）に示すように表すことができる。

上記式（１１）において、ｆ（・）は、ディープニューラルネットワークにより学習された非線形マッピング関数を表し、その役割は、元のベクトル空間を新たなベクトル空間（即ち、規則化されたベクトル空間）にマッピングすることである。

ステップ３０５では、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得する。

本願の実施例における、認識ネットワークをトレーニングして得られた音声抽出子は、分布が安定し集中するという特性を有するため、本願の実施例では、上記認識ネットワークをトレーニングして得られた全ての音声抽出子のセントロイドを、予め設定された音声抽出子として用いることができる。本願の実施例では、混合音声の認識過程で音声抽出子を再推定する必要がないため、本願の実施例に係る混合音声の認識方法は、１フレームごとのリアルタイム処理を好適に実現することができる。

ステップ３０６では、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。

以下、図５に示す混合音声の認識フローを実現するための認識ネットワークを説明し、該認識ネットワークの概略構成図は、図６に示すとおりである。以下、図６を参照しながら上記認識ネットワークのトレーニング過程を説明する。

本応用シナリオでは、上付き

は適応音声サンプルを、上付き

は混合音声サンプルを表し、

と、混合音声サンプルのスペクトルは

と混合音声サンプルの入力スペクトル

（

は１を取り、そうでなければ、

は０を取り、具体的な式は、前述の式（４）を参照することができる。

本応用シーンでは、上記適応音声の各フレームの各ベクトル次元でのベクトル

と教師ありラベル

に基づいて、上記適応音声の各ベクトル次元での平均ベクトル

を算出し、算出方法は、上記式（５）に示すとおりである。

３、上記適応音声の各ベクトル次元での平均ベクトル

を２Ｋ次元のベクトルに合わせて順伝播型ニューラルネットワークに入力し、Ｋ次元の規則ベクトル

を出力し、具体的には、該順伝播型ニューラルネットワークの関数は、上記式（１１）に示すように表すことができる。順伝播型ニューラルネットワークの説明については、ステップ３０４の説明を参照することができるので、ここでは説明を省略する。

４、混合音声サンプルにおけるターゲットオブジェクトの教師ありラベル

を取得するために、混合音声サンプルにおける低エネルギーのスペクトルウィンドウのノイズを先に除去し、その後に混合音声サンプルにおけるターゲットオブジェクトの音声スペクトル幅について、ターゲットオブジェクトのあるフレームでの音声スペクトル幅がいずれも該フレームでの干渉ターゲットオブジェクトのスペクトル幅よりも大きければ、ターゲットオブジェクトの該フレームでの対応する

は１を取り、そうでなければ、０を取る。

５、規則ベクトル

と混合音声サンプルにおけるターゲットオブジェクトの教師ありラベル

に基づいて、式（１２）により規則化された音声抽出子

を推定する。

６、各フレームの各ベクトル次元での規則ベクトル

と規則化された音声抽出子

との間の距離を測定することにより、ターゲットオブジェクトが復元されるＭａｓｋを推定し、推定方法は、式（１３）に示すとおりであり、時間周波数ウィンドウと音声抽出子との内積距離が小さいほど、該時間周波数ウィンドウがターゲットオブジェクトに帰属する確率が大きくなり、そして、式（１２）により推定された対応する時間周波数ウィンドウのＭａｓｋが大きくなり、混合音声サンプルのうち対応する時間周波数ウィンドウの音声も多く抽出される。

上記式（１３）において、

は、上記混合音声サンプルのｔ番目のフレームのマスクを表す。

７、推定されたＭａｓｋによって復元されたターゲットオブジェクトの音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を、上記認識ネットワークの目的関数により再構築し、該目的関数を最小化することにより、ネットワーク全体をトレーニングし、該目的関数Ｌは、式（１４）に示すとおりであってよい。

上記式（１４）において、

は、ターゲットオブジェクトの参照音声のｔ番目のフレームでのスペクトル（即ち、参照音声スペクトル）を表す。上記式（１４）は、標準的なＬ２再構成誤差である。再構成誤差が復元された音声とターゲットオブジェクトの参照音声との間のスペクトル誤差を反映するため、上記認識ネットワークをトレーニングするとき、勾配を生成することにより、グローバルな誤差を低減して、抽出されたターゲットオブジェクトの音声品質を最適化することができる。

混合音声サンプルとは異なり、実際の混合音声認識において、入力された混合音声のうちどの音声がターゲットオブジェクトに属するかが分からないため、混合音声におけるターゲットオブジェクトの教師ありラベルが未知であり、したがって、先に述べたように、上記認識ネットワークをトレーニングして得られた全ての音声抽出子のセントロイドを、予め設定された音声抽出子として用いることができ、図３に示す実施例のステップ３０５では、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得する。

本願の実施例は、混合音声の認識装置を提供する。図７に示すように、本願の実施例に係る混合音声の認識装置は、
音声の入力をモニタリングするためのモニタリングユニット７１と、
モニタリングユニット７１が上記入力された音声において適応音声と混合音声をモニタリングしたとき、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するための取得ユニット７２と、
上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するための特定ユニット７３とを含み、
上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。

図７に示す実施例に基づいて、図８に示すように、取得ユニット７２は、
モニタリングユニット７１が、予め設定された音声情報を含む音声である適応音声と、上記適応音声の後に入力された非適応音声である混合音声の入力をモニタリングしたとき、上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれ、Ｋ（上記Ｋは１以上）次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するための空間マッピングユニット７２１と、
上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出するための算出ユニット７２２と、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するためのマスク推定ユニット７２３とを含み、
特定ユニット７３は、上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定してもよい。

任意選択で、算出ユニット７２２は、具体的には、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出するために用いられてもよく、ここで、上記適応音声の有効フレームとは、上記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームであり、上記適応スペクトルの比較値は、上記適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しい。

任意選択で、本願の実施例に係る混合音声の認識装置は、さらに、上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するための規則化ユニットを含んでもよい。マスク推定ユニット７２３は、具体的には、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得するために用いられてもよい。

任意選択で、本願の実施例に係る混合音声の認識装置は、さらに、クラスタリングアルゴリズムに基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定するためのクラスタリングユニットを含んでもよい。マスク推定ユニット７２３は、具体的には、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するために用いられてもよい。

本願の実施例に係る混合音声の認識装置は、さらに、それぞれ、予め設定されたＭ（上記Ｍは１よりも大きい）個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較するための比較ユニットを含んでもよい。マスク推定ユニット７２３は、具体的には、上記Ｍ個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子を、ターゲットオブジェクトの対応するベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するために用いられてもよい。

なお、本発明の実施例に係る混合音声の認識装置は、上記方法実施例における全ての技術手段を実現することができ、各機能モジュールの機能は、上記方法実施例における方法により具体的に実現することができ、その具体的な実現過程については、上記実施例における関連説明を参照することができ、ここでは説明を省略する。

以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができる。例えば、スマートスピーカーという応用シナリオでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者（即ち、ターゲットオブジェクト）の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。

本願の実施例は、別の混合音声の認識装置を提供し、図９を参照して、本願の実施例に係る混合音声の認識装置は、さらに、メモリ８１と、１つ以上のプロセッサ８２（図９では１つのみが示される）と、メモリ８１に記憶されプロセッサで実行可能なコンピュータプログラムとを含む。ここで、メモリ８２は、ソフトウェアプログラム及びモジュールを記憶するためのものであり、プロセッサ８２は、メモリ８１に記憶されているソフトウェアプログラム及びユニットを実行することにより、様々な機能アプリケーション及びデータ処理を実行する。具体的には、プロセッサ８２は、メモリ８１に記憶されている上記コンピュータプログラムを実行することにより、
音声の入力をモニタリングするステップと、
上記モニタリングユニットが適応音声と混合音声の入力をモニタリングしたとき、取得ユニットが上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、
特定ユニットが上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定するステップとを実現し、
ここで、上記適応音声は、予め設定された音声情報を含む音声であり、上記混合音声は、上記適応音声の後に入力された非適応音声である。

以上が第１種の可能な実現形態であると仮定し、第１種の可能な実現形態に基づいて提供される第２種の可能な実現形態では、上記適応音声に基づいてターゲットオブジェクトの音声特徴を取得することは、
上記適応音声のスペクトルと上記混合音声のスペクトルとをそれぞれ、Ｋ（上記Ｋは１以上）次元のベクトル空間に埋め込んで、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することと、
上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定することと
上記混合音声の各フレームのマスクに基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定することとを含む。

第２種の可能な実現形態に基づいて提供される第３種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することは、具体的には、
上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することであり、上記適応音声の有効フレームとは、上記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームであり、上記適応スペクトルの比較値は、上記適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しい。

上記第３種の可能な実現形態に基づいて提供される第４種の可能な実現形態では、上記算出ユニットは、具体的には、各ベクトル次元毎に、上記適応音声の各フレームの対応するベクトル次元でのベクトルにそれぞれ対応するフレームの教師ありラベルを乗算した後に加算して、上記適応音声の有効フレームの対応するベクトル次元での総和ベクトルを取得し、上記適応音声の有効フレームの各ベクトル次元での総和ベクトルをそれぞれ上記適応音声の各フレームの教師ありラベルの和で除算して、上記適応音声の各ベクトル次元での平均ベクトルを取得するために用いられ、
ここで、上記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームの教師ありラベルは１を取り、上記適応音声における、スペクトル幅が適応スペクトルの比較値以下であるフレームの教師ありラベルは０を取る。

上記第２種の可能な実現形態、又は上記第３種の可能な実現形態、又は上記第４種の可能な実現形態に基づいて提供される第５種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出した後、プロセッサ８２は、メモリ８１に記憶されている上記コンピュータプログラムを実行することにより、さらに、
上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定するステップの代わりに、
それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得するステップとを実現する。

上記第２種の可能な実現形態、又は上記第３種の可能な実現形態、又は上記第４種の可能な実現形態に基づいて提供される第６種の可能な実現形態では、上記適応音声のベクトルと上記混合音声のベクトルとをそれぞれＫ次元のベクトル空間に埋め込んだ後、プロセッサ８２は、メモリ８１に記憶されている上記コンピュータプログラムを実行することにより、さらに、
クラスタリングアルゴリズムに基づいて上記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、上記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、上記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを実現し、ここで、上記ターゲットセントロイドベクトルとは、同一のベクトル次元で上記適応音声の平均ベクトルとの距離が最小であるセントロイドベクトルである。

上記第２種の可能な実現形態、又は上記第３種の可能な実現形態、又は上記第４種の可能な実現形態に基づいて提供される第７種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出した後、プロセッサ８２は、メモリ８１に記憶されている上記コンピュータプログラムを実行することにより、さらに、
それぞれ、予め設定されたＭ（上記Ｍは１よりも大きい）個の音声抽出子と上記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較するステップと、
上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、上記Ｍ個の音声抽出子のうち、上記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子をターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを実現する。

任意選択で、図９に示すように、上記混合音声の認識装置は、さらに、１つ以上の入力装置８３（図９では１つのみが示される）及び１つ以上の出力装置８４（図９では１つのみが示される）を含んでもよい。メモリ８１、プロセッサ８２、入力装置８３及び出力装置８４は、バス８５を介して接続される。

なお、本願の実施例では、いわゆるプロセッサ８２は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）であってもよいし、他の汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）又は他のプログラマブル論理デバイス、離散ゲート又はトランジスタ論理デバイス、離散ハードウェアコンポーネントなどであってもよい。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の一般的なプロセッサなどであってもよい。

入力装置８３は、キーボード、タッチパネル、指紋収集センサ（ユーザの指紋情報と指紋の方向情報を収集するためのものである。）、マイクなどを含んでよく、出力装置８４は、ディスプレイ、スピーカーなどを含んでよい。

メモリ８４は、リードオンリーメモリ及びランダムアクセスメモリを含み、プロセッサ８１に命令及びデータを提供してよい。メモリ８４の一部又は全部は、不揮発性ランダムアクセスメモリを含んでもよい。

当業者であれば明確に理解できるように、便利かつ簡潔に説明するために、上記各機能ユニット、モジュールの区分によって例を挙げて説明したものにすぎず、実際の応用には、必要に応じて上記機能を割り当てて、異なる機能ユニット、モジュールにより完成させ、すなわち上記装置の内部構造を異なる機能ユニット又はモジュールに分割することにより、前述した全部又は一部の機能を完成させる。実施例における各機能ユニット、モジュールは、１つの処理ユニットに集積されてもよいし、各ユニットとして独立して物理的に存在してもよいし、さらに２つ以上のユニットが１つのユニットに集積されてもよく、上記集積されるユニットは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。また、各機能ユニット、モジュールの具体的な名称は、互いに区分しやすいように採用されたものに過ぎず、本願の保護範囲を限定するものではない。上記システムにおけるユニット、モジュールの具体的な動作過程について、前述の方法実施例における対応する過程を参照することができ、ここでは説明を省略する。

上記実施例では、各々の実施例についての説明はそれぞれ重要点があり、ある実施例に詳しく説明または記載しない部分は、他の実施例における関連説明を参照することができる。

当業者であれば理解できるように、本明細書で開示された実施例に基づいて説明された様々な例のユニット及びアルゴリズムステップの結合は、電子ハードウェア、又はコンピュータソフトウェア及び電子ハードウェアの組み合わせによって実現することができる。これらの機能がハードウェアの形態で実行されるかソフトウェアの形態で実行されるかは、技術手段の特定の応用及び設計上の制約条件によって決まる。当業者であれば、それぞれの特定の応用に対して、異なる方法を使用して説明した機能を実現することができるが、このような実現は本願の範囲を超えると見なすべきではない。

本願に係る実施例では、開示された装置及び方法は、他の方式で実現され得ることを理解されたい。例えば、上記説明されたシステムの実施例は例示的なものにすぎず、例えば、上記モジュール又はユニットの分割は、論理的な機能の分割にすぎず、実際の実施においては他の分割仕様があってもよく、例えば、複数のユニット又はコンポーネントを組み合わせてもよいし、もう１つのシステムに集積されてもよいし、一部の特徴が無視されるか又は実行されなくてもよい。一方、図示又は検討された相互結合又は直接結合又は通信接続は、いくつかのインタフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。

上記分離部材として説明されたユニットは、物理的に分離してもよいし、物理的に分離しなくてもよく、ユニットとして表示された部材は、物理的なユニットであってもよいし、物理的なユニットでなくてもよく、即ち、１つの場所に位置してもよいし、複数のネットワークユニット上に分布してもよい。本願の実施例の目的を達成するために、実際の需要に応じて、その中の一部又は全部のユニットを選択することができる。

上記集積されたユニットは、ソフトウェア機能ユニットの形態で実現されて独立な製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本願では、上記方法実施例に係る方法を実現する全部又は一部のフローは、コンピュータプログラムによって関連するハードウェアに命令を与えて完成することもでき、上記コンピュータプログラムは、コンピュータ可読記憶媒体に記憶することができ、プロセッサによって実行されるとき、上記各方法実施例のステップを実現することができる。ここで、上記コンピュータプログラムは、コンピュータプログラムコードを含み、上記コンピュータプログラムコードは、ソースコード形式、オブジェクトコード形式、実行可能ファイル又は何らかの中間形式などであってもよい。上記コンピュータ可読記憶媒体は、上記コンピュータプログラムコードを格納できる如何なるエンティティや装置、記録媒体、Ｕディスク、リムーバブルハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、リードオンリーメモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、電気搬送波信号、電気通信信号、及びソフトウェア配布媒体などを含んでもよい。なお、上記コンピュータ可読記憶媒体に含まれるコンテンツは、司法管轄区内の法律及び特許実務の要件に従って適宜に増減可能であり、例えば、いくつかの司法管轄区では、法律及び特許実務によって、コンピュータ可読記憶媒体には、電気搬送波信号及び電気通信信号が含まれない。

上記実施例は、本願の技術手段を説明するためのものに過ぎず、それを制限するものではない。前述の実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、依然として前述の各実施例に記載の技術手段を変更し、又はその一部の技術的特徴に等価置換を行うことができ、これらの変更や置換は、対応する技術手段を実質的に本願の各実施例の技術手段の要旨と範囲から逸脱させるものではなく、いずれも本願の保護範囲内に含まれるべきである。

ステップ１０１では、音声の入力をモニタリングする。

以上より、本願の実施例では、適応音声と混合音声の入力をモニタリングしたとき、該適応音声に基づいてターゲットオブジェクトの音声特徴を取得し、上記ターゲットオブジェクトの音声特徴に基づいて、上記混合音声のうち上記ターゲットオブジェクトに属する音声を特定する。本願の実施例に係る方法は、適応音声を導入してターゲットオブジェクトの音声特徴を学習することにより、混合音声からターゲットオブジェクトの音声を特定して、混合音声のうちターゲットオブジェクトの音声の追跡を容易にすることができ、応用シーンで干渉話者とターゲットオブジェクトとの位置が比較的に近い場合であっても、ターゲットオブジェクトの音声を正確に復元し、後続処理において干渉を受ける音声命令に対する認識精度を向上させることができる。例えば、スマートスピーカーという応用シーンでは、ウェイクアップ音声を適応音声としてウェイクアップ音声話者（即ち、ターゲットオブジェクト）の特徴を学習し、そして、ウェイクアップ音声の後に入力された混合音声から、ウェイクアップ音声話者に属する音声を認識し追跡することができる。また、本願の実施例に係るターゲットオブジェクトの音声特徴が混合音声話者の数に依存しないため、本願の実施例では、混合音声の認識過程で混合音声話者の数を事前に知るか又は推定する必要がない。

ステップ２０１では、音声の入力をモニタリングする。

ステップ２０２では、コンピュータ装置は、上記適応音声のスペクトルと上記混合音声のスペクトルとをディープニューラルネットワークによりＫ次元のベクトル空間にマッピングして、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することができる。例えば、上記ディープニューラルネットワークは、各層に６００個のノードを有してよい４層の双方向長・短期記憶ネットワーク（ＬＳＴＭ、ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ）で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えば畳み込みニューラルネットワーク（ＣＮＮ、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）と他のネットワーク構造とが結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング（ゲート付き）畳み込みニューラルネットワークなどを用いても良い。本願の実施例は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。

以下、例を挙げてステップ２０２を説明し、上付き

は適応音声を、上付き

は混合音声を表し、

は対数領域の短時間フーリエ変換であり、入力された音声のうちｔ番目のフレームの音声のスペクトルを表し（ｆはスペクトル次元のシリアル番号（シーケンス番号とも言う）を表し、ｔは時間次元のフレームシリアル番号を表す）、そして、適応音声のスペクトルは

と、混合音声のスペクトルは

と混合音声の入力スペクトル

（

本願の実施例では、式

により上記適応音声の各ベクトル次元での平均ベクトル

或いは、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、ステップ２０３では、適応音声のスペクトルを一定のスペクトル閾値と比較し、適応音声のあるフレーム（即ち、ある時間周波数ウィンドウ）のスペクトル振幅（spectral amplitude）が適応スペクトルの比較値よりも大きければ、該フレームを適応音声の有効フレームとしてもよく、ステップ２０３では、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。ここで、上記適応スペクトルの比較値は、適応音声の最大スペクトル振幅と予め設定されたスペクトル閾値との間の差に等しい。具体的には、適応音声の教師ありラベル

を設定し、適応音声の各フレームのスペクトルをそれぞれ、最大スペクトル振幅とスペクトル閾値Γとの間の差と比較し、適応音声のあるフレーム（即ち、ある時間周波数ウィンドウ）のスペクトル振幅が適応スペクトルの比較値（即ち、適応音声の最大スペクトル振幅とΓとの間の差）よりも大きければ、該時間周波数ウィンドウに対応する適応音声の教師ありラベル

は１を取り、そうでなければ、

ただし、

ステップ２０４では、上記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子（extractor）として、それぞれ上記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定する。

上記式（３）において、

は、上記混合音声のｔ番目のフレームのマスクを表し、

及び

については、前述の説明を参照することができる。

１、認識ネットワークをトレーニングするための適応音声サンプルと混合音声サンプルとをディープニューラルネットワークに入力し、該ディープニューラルネットワークは、各層に６００個のノードを有する４層の双方向ＬＳＴＭ層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばＣＮＮ及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。

本応用シナリオでは、上付き

は適応音声サンプルを、上付き

は混合音声サンプルを表し、

と、混合音声サンプルのスペクトルは

と混合音声サンプルの入力スペクトル

（

を設定し、適応音声サンプルの各フレームのスペクトルをそれぞれ、最大スペクトル振幅とスペクトル閾値Γとの間の差と比較し、適応音声サンプルのあるフレーム（即ち、ある時間周波数ウィンドウ）のスペクトル振幅が適応スペクトルの比較値（即ち、適応音声サンプルの最大スペクトル振幅とΓとの間の差）よりも大きければ、該時間周波数ウィンドウに対応する適応音声サンプルの教師ありラベル

は１を取り、そうでなければ、

本応用シーンでは、適応音声サンプルのベクトル

と教師ありラベル

上記式（６）において、

及び

については、前述の説明を参照することができる。

上記式（７）において、

を取得するために、混合音声サンプルにおける低エネルギーのスペクトルウィンドウのノイズを先に除去し、その後に混合音声サンプルの各話者の音声スペクトル振幅について、ある話者のあるフレームでの音声スペクトル振幅がいずれも該フレームでの他の話者のスペクトル振幅よりも大きければ、該話者の該フレームでの対応する

は１を取り、そうでなければ０を取る。

本応用シナリオでは、

（

は混合音声サンプルのｔ番目のフレームのｋ番目のベクトル次元でのベクトルを表し、ｋ）を取得する。上記ディープニューラルネットワークは、各層に６００個のノードを有する４層の双方向ＬＳＴＭ層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えばＣＮＮ及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング畳み込みニューラルネットワークなどを用いても良い。本願は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。

２、混合音声サンプルのベクトル

と教師ありラベル

を用いて各話者のベクトル空間での音声抽出子

を推定し、計算方法は、式（８）に示すとおりである。

上記式（９）において、

と

については、前述の説明を参照することができる。

上記式（１０）において、

以下、別の実施例により本願に係る混合音声の認識方法を説明し、本実施例は、図３に示す実施例と比べて、本実施例では認識ネットワーク（即ち、混合音声の認識を実現するためのネットワーク）に順伝播型ニューラルネットワークを導入して元のベクトル空間を規則化(regularization)されたベクトル空間にマッピングすることにより、該認識ネットワークをトレーニングして得られた音声抽出子の分布が相対的に集中し安定するという点で異なる。図５に示すように、本願の実施例に係る混合音声の認識方法は、以下のステップ３０１〜３０６を含む。

ステップ３０１では、音声の入力をモニタリングする。

ステップ３０２では、コンピュータ装置は、上記適応音声のスペクトルと上記混合音声のスペクトルとをディープニューラルネットワークによりＫ次元のベクトル空間にマッピングして、上記適応音声の各フレームの各ベクトル次元でのベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを取得することができる。例えば、上記ディープニューラルネットワークは、各層に６００個のノードを有する４層の双方向ＬＳＴＭ層で構成される。もちろん、上記ディープニューラルネットワークの代わりに、各種の他の有効な新規モデル構造、例えば畳み込みニューラルネットワーク（ＣＮＮ、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）及び他のネットワーク構造が結合したモデル、又は他のネットワーク構造、例えば時間遅延ネットワーク、ゲーティング畳み込みニューラルネットワークなどを用いても良い。本願の実施例は、ディープニューラルネットワークのモデルタイプ及びトポロジー構造を限定しない。

以下、例を挙げてステップ３０２を説明し、上付き

は適応音声を、上付き

は混合音声を表し、

と、混合音声のスペクトルは

と混合音声の入力スペクトル

（

本願の実施例では、式

により上記適応音声の各ベクトル次元での平均ベクトル

或いは、低エネルギーのスペクトルウィンドウのノイズを除去して適応音声の有効フレームを取得するために、ステップ３０３では、適応音声のスペクトルを一定のスペクトル閾値と比較し、適応音声のあるフレーム（即ち、ある時間周波数ウィンドウ）のスペクトル振幅が適応スペクトルの比較値よりも大きければ、該フレームを適応音声の有効フレームとしてもよく、ステップ３０３では、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出する。ここで、上記適応スペクトルの比較値は、適応音声の最大スペクトル振幅と予め設定されたスペクトル閾値との間の差に等しい。具体的には、適応音声の教師ありラベル

は１を取り、そうでなければ、

本応用シナリオでは、上付き

は適応音声サンプルを、上付き

は混合音声サンプルを表し、

と、混合音声サンプルのスペクトルは

と混合音声サンプルの入力スペクトル

（

は１を取り、そうでなければ、

と教師ありラベル

３、上記適応音声の各ベクトル次元での平均ベクトル

を取得するために、混合音声サンプルにおける低エネルギーのスペクトルウィンドウのノイズを先に除去し、その後に混合音声サンプルにおけるターゲットオブジェクトの音声スペクトル振幅について、ターゲットオブジェクトのあるフレームでの音声スペクトル振幅がいずれも該フレームでの干渉ターゲットオブジェクトのスペクトル振幅よりも大きければ、ターゲットオブジェクトの該フレームでの対応する

は１を取り、そうでなければ、０を取る。

５、規則ベクトル

に基づいて、式（１２）により規則化された音声抽出子

を推定する。

６、各フレームの各ベクトル次元での規則ベクトル

と規則化された音声抽出子

上記式（１３）において、

上記式（１４）において、

任意選択で、算出ユニット７２２は、具体的には、上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出するために用いられてもよく、ここで、上記適応音声の有効フレームとは、上記適応音声における、スペクトル振幅が適応スペクトルの比較値よりも大きいフレームであり、上記適応スペクトルの比較値は、上記適応音声の最大スペクトル振幅と予め設定されたスペクトル閾値との間の差に等しい。

任意選択で、本願の実施例に係る混合音声の認識装置は、さらに、上記適応音声の各ベクトル次元での平均ベクトルと上記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するための規則ユニットを含んでもよい。マスク推定ユニット７２３は、具体的には、それぞれ上記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、上記混合音声の各フレームのマスクを推定して取得するために用いられてもよい。

第２種の可能な実現形態に基づいて提供される第３種の可能な実現形態では、上記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することは、具体的には、
上記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、上記適応音声の各ベクトル次元での平均ベクトルを算出することであり、上記適応音声の有効フレームとは、上記適応音声における、スペクトル振幅が適応スペクトルの比較値よりも大きいフレームであり、上記適応スペクトルの比較値は、上記適応音声の最大スペクトル振幅と予め設定されたスペクトル閾値との間の差に等しい。

上記第３種の可能な実現形態に基づいて提供される第４種の可能な実現形態では、上記算出ユニットは、具体的には、各ベクトル次元毎に、上記適応音声の各フレームの対応するベクトル次元でのベクトルにそれぞれ対応するフレームの教師ありラベルを乗算した後に加算して、上記適応音声の有効フレームの対応するベクトル次元での総和ベクトルを取得し、上記適応音声の有効フレームの各ベクトル次元での総和ベクトルをそれぞれ上記適応音声の各フレームの教師ありラベルの和で除算して、上記適応音声の各ベクトル次元での平均ベクトルを取得するために用いられ、
ここで、上記適応音声における、スペクトル振幅が適応スペクトルの比較値よりも大きいフレームの教師ありラベルは１を取り、上記適応音声における、スペクトル振幅が適応スペクトルの比較値以下であるフレームの教師ありラベルは０を取る。

Claims

コンピュータ装置が実行する混合音声の認識方法であって、
音声の入力をモニタリングするステップと、
適応音声と混合音声の入力をモニタリングしたとき、前記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するステップと、
前記ターゲットオブジェクトの音声特徴に基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するステップとを含み、
前記適応音声は、予め設定された音声情報を含む音声であり、前記混合音声は、前記適応音声の後に入力された非適応音声であることを特徴とする混合音声の認識方法。
適応音声に基づいてターゲットオブジェクトの音声特徴を取得する前記ステップは、
予め設定された音声情報を含む音声である前記適応音声のスペクトルと、前記適応音声の後に入力された非適応音声である前記混合音声のスペクトルとをそれぞれ、Ｋ（前記Ｋは１以上）次元のベクトル空間に埋め込んで、前記適応音声の各フレームの各ベクトル次元でのベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するステップと、
前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するステップと、
前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ前記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、前記混合音声の各フレームのマスクを推定するステップとを含み、
前記ターゲットオブジェクトの音声特徴に基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するステップは、
前記混合音声の各フレームのマスクに基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するステップであることを特徴とする、請求項１に記載の混合音声の認識方法。
前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するステップは、具体的には、
前記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するステップであり、前記適応音声の有効フレームとは、前記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームであり、前記適応スペクトルの比較値は、前記適応音声の最大スペクトル幅と予め設定されたスペクトル閾値との間の差に等しいことを特徴とする、請求項２に記載の混合音声の認識方法。
前記適応音声の有効フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するステップは、
各ベクトル次元毎に、前記適応音声の各フレームの対応するベクトル次元でのベクトルにそれぞれ対応するフレームの教師ありラベルを乗算した後に加算して、前記適応音声の有効フレームの対応するベクトル次元での総和ベクトルを取得するステップと、
前記適応音声の有効フレームの各ベクトル次元での総和ベクトルをそれぞれ前記適応音声の各フレームの教師ありラベルの和で除算して、前記適応音声の各ベクトル次元での平均ベクトルを取得するステップとを含み、
前記適応音声における、スペクトル幅が適応スペクトルの比較値よりも大きいフレームの教師ありラベルは１を取り、前記適応音声における、スペクトル幅が適応スペクトルの比較値以下であるフレームの教師ありラベルは０を取ることを特徴とする、請求項３に記載の混合音声の認識方法。
前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出した後に、さらに、
前記適応音声の各ベクトル次元での平均ベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを予めトレーニングされた順伝播型ニューラルネットワークに入力して、各フレームの各ベクトル次元での規則ベクトルを取得するステップと、
前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ前記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、前記混合音声の各フレームのマスクを推定するステップの代わりに、それぞれ前記各フレームの各ベクトル次元での規則ベクトルと予め設定された音声抽出子との間の距離を測定することにより、前記混合音声の各フレームのマスクを推定して取得するステップとを含むことを特徴とする、請求項２〜４のいずれか一項に記載の混合音声の認識方法。
前記適応音声のスペクトルと前記混合音声のスペクトルとをそれぞれＫ次元のベクトル空間に埋め込んだ後に、さらに、
クラスタリングアルゴリズムに基づいて前記混合音声の各フレームの各ベクトル次元でのベクトルを処理することにより、前記混合音声の各ベクトル次元での、異なる話者の音声に対応するセントロイドベクトルを決定するステップと、
前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、前記混合音声の各ベクトル次元でのターゲットセントロイドベクトルをターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを含み、
前記ターゲットセントロイドベクトルとは、同一のベクトル次元で前記適応音声の平均ベクトルとの距離が最小であるセントロイドベクトルであることを特徴とする、請求項２〜４のいずれか一項に記載の混合音声の認識方法。
前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出した後に、さらに、
それぞれ、予め設定されたＭ（前記Ｍは１よりも大きい）個の音声抽出子と前記適応音声の各ベクトル次元での平均ベクトルとの間の距離を比較するステップと、
前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子とするステップの代わりに、前記Ｍ個の音声抽出子のうち、前記適応音声のあるベクトル次元での平均ベクトルとの距離が最小である音声抽出子をターゲットオブジェクトの対応するベクトル次元での音声抽出子とするステップとを含むことを特徴とする、請求項２〜４のいずれか一項に記載の混合音声の認識方法。
前記適応音声のスペクトルと前記混合音声のスペクトルとをそれぞれＫ次元のベクトル空間に埋め込んで、前記適応音声の各フレームの各ベクトル次元でのベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するステップは、具体的には、
前記適応音声のスペクトルと前記混合音声のスペクトルとをディープニューラルネットワークによりＫ次元のベクトル空間にマッピングして、前記適応音声の各フレームの各ベクトル次元でのベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するステップであることを特徴とする、請求項２〜４のいずれか一項に記載の混合音声の認識方法。
前記ディープニューラルネットワークは、各層に６００個のノードを有する４層の双方向長・短期記憶ネットワークで構成されることを特徴とする、請求項８に記載の混合音声の認識方法。
前記Ｋは４０を取ることを特徴とする、請求項８に記載の混合音声の認識方法。
音声の入力をモニタリングするためのモニタリングユニットと、
前記モニタリングユニットが適応音声と混合音声の入力をモニタリングしたとき、前記適応音声に基づいてターゲットオブジェクトの音声特徴を取得するための取得ユニットと、
前記ターゲットオブジェクトの音声特徴に基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するための特定ユニットとを含み、
前記適応音声は、予め設定された音声情報を含む音声であり、前記混合音声は、前記適応音声の後に入力された非適応音声であることを特徴とする混合音声の認識装置。
前記取得ユニットは、
前記モニタリングユニットが、予め設定された音声情報を含む音声である適応音声と、前記適応音声の後に入力された非適応音声である混合音声の入力をモニタリングしたとき、前記適応音声のスペクトルと前記混合音声のスペクトルとをそれぞれ、Ｋ（前記Ｋは１以上）次元のベクトル空間に埋め込んで、前記適応音声の各フレームの各ベクトル次元でのベクトルと前記混合音声の各フレームの各ベクトル次元でのベクトルとを取得するための空間マッピングユニットと、
前記適応音声の各フレームの各ベクトル次元でのベクトルに基づいて、前記適応音声の各ベクトル次元での平均ベクトルを算出するための算出ユニットと、
前記適応音声の各ベクトル次元での平均ベクトルをターゲットオブジェクトの各ベクトル次元での音声抽出子として、それぞれ前記混合音声の各フレームの各ベクトル次元でのベクトルと、対応するベクトル次元での音声抽出子との間の距離を測定することにより、前記混合音声の各フレームのマスクを推定するためのマスク推定ユニットとを含み、
前記特定ユニットは、具体的には、前記混合音声の各フレームのマスクに基づいて、前記混合音声のうち前記ターゲットオブジェクトに属する音声を特定するために用いられることを特徴とする、請求項１１に記載の混合音声の認識装置。
メモリと、プロセッサと、前記メモリに記憶され前記プロセッサで実行可能なコンピュータプログラムとを含む混合音声の認識装置であって、
前記コンピュータプログラムが前記プロセッサによって実行されるとき、請求項１〜１０のいずれか一項に記載の方法のステップが実現されることを特徴とする、混合音声の認識装置。
コンピュータプログラムを記憶しているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるとき、請求項１〜１０のいずれか一項に記載の方法のステップが実現されることを特徴とするコンピュータ可読記憶媒体。