JP2021500593A

JP2021500593A - 対象音声検出方法及び装置

Info

Publication number: JP2021500593A
Application number: JP2020517383A
Authority: JP
Inventors: マー，フォン; ワン，ハイクン; ワン，チグォ; フー，グォピン
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-10-23
Filing date: 2018-07-16
Publication date: 2021-01-07
Anticipated expiration: 2038-07-16
Also published as: ES2964131T3; EP3703054B1; CN107785029B; US11308974B2; CN107785029A; WO2019080551A1; US20200342890A1; KR20200066367A; EP3703054A4; KR102401217B1; JP7186769B2; EP3703054C0; EP3703054A1

Abstract

対象音声検出方法及び装置であって、その方法はマイクロホンアレイに基づき集音した音響信号を受信すること（Ｓ１０１）と、前記音響信号をビームフォーミング処理し、方向が異なるビームを取得すること（Ｓ１０２）と、前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出すること（Ｓ１０３）と、抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得すること（Ｓ１０４）と、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得すること（Ｓ１０５）と、を含む。従って、検出結果の正確性を高めることができる。

Description

本願は２０１７年１０月２３日に中国国家知識産権局へ提出した出願番号２０１７１０９９４１９４．５、出願名称「対象音声検出方法及び装置」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。

本出願は、音声信号処理分野に関し、具体的には対象音声検出方法及び装置に関する。

音声は、最も自然かつ便利なインタラクション方式の一つとして、日常生活や仕事において幅広く用いられている。音声符号化や雑音低減などの音声信号処理は、ホットな研究テーマとして関連分野の研究者らに注目されている。音声の雑音低減を例にすると、対象音声を検出することは、雑音を低減するのに最も重要なステップとして、その検出精度が雑音低減効果に直接影響を及ぼしており、対象音声の検出が正確に行われていない場合、雑音低減過程において、有効音声の歪みが深刻なものになるため、対象音声を正確に検出することには重大な意義を持っている。

従来の対象音声の検出手法としては、主に以下の２種類が知られている。

１．強度差に基づいた対象音声検出
例えば、まず主マイクロホンの信号に対し雑音低減を行い、雑音が低減された主マイクロホンの信号と副マイクロホンの信号との強度差を利用して音声検出を行うか、又は、音声基準信号と雑音基準信号とのエネルギーの差に基づき、対象音声の検出を行う。このような方法は、主マイクロホンで集音した対象信号の強度が副マイクロホンで受信した対象信号の強度よりも大きく、雑音信号の強度が両マイクロホンにおいて同様であるとの仮設に基づくものである。例えば、信号対雑音比が高い場合は主マイクロフホンと副マイクロフホンとのエネルギーの比は１よりも大きく、信号対雑音比が低い場合はそのエネルギーの比は１よりも小さい。

このような強度差に基づいた対象音声検出方法には利用上の制限があり、つまり、対象信号から主マイクロホンと副マイクロホンまでに到達する強度差が所定の閾値（例えば３ｄｂ以上）に達さない限り有効ではない。また、雑音が大きく、信号対雑音比が低い場合には、対象音声の検出確率がやや低い。

２．機械学習に基づく対象音声検出
例えば、単一チャンネルの雑音信号を入力とし、理想バイナリマスク（Ideal Binary Mask、ＩＢＭ）又は理想比マスク（Ideal Ratio Mask、ＩＲＭ）を出力とした場合には、そ
の出力値は、対象音声が存在することの根拠と考えられる。または、多重チャンネルデータを用い、多重チャンネルを単一チャンネルに合成したものを入力として、さらにマスクを得る。

従来の機械学習に基づく対象音声検出方法には、単一チャンネル情報だけでは情報が十分に利用されず、対象音声の検出効果が低い一方、多重チャンネル情報を利用しても、各ニューラルネットワーク（Neural Network）では１つの原信号又は１つの混合信号の処理しか行われず、多重チャンネルの空間情報が十分に利用されず、他の方向からの人間の音声による干渉が雑音に含まれると効果が劇的に低下するといったような問題点がある。

発明が解決しょうとする技術課題

本出願の実施例は対象音声検出装置及び方法を提供し、従来の対象音声検出方法における適用場面上の制限、低い信号対雑音比環境で検出する際、情報利用の不十分による検出効果が不良であるといった１つまたは複数の問題を解決する。

従って、本出願は以下の技術案を提供する。

マイクロホンアレイに基づき集音した音響信号を受信することと、
前記音響信号をビームフォーミング処理し、方向が異なるビームを取得することと、
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することと、
抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得することと、
前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得することと、
を含む対象音声検出方法。

好ましくは、前記対象音声検出モデルは、
対象音声検出モデルのトポロジー構造を決定し、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングし、
前記トレーニングデータの検出特徴を抽出し、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得することにより構築される。

好ましくは、前記対象音声検出モデルは分類モデル又は回帰モデルであり、前記対象音声検出モデルの出力は、現フレームの周波数ごとの理想バイナリマスク又は理想比マスクである。

好ましくは、前記検出特徴は、空間次元情報、周波数次元情報、時間次元情報を含む。

好ましくは、前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することは、
各フレームの各周波数において、各ビーム信号と、マイクロホンアレイに基づき集音した音響信号とを順次に組み合わせることで、多次元空間ベクトルを取得することと、
前記多次元空間ベクトルの要素ごとにそれぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得することと、
前記空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得することと、を含む。

好ましくは、前記方法は、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することをさらに含み、
前記モデル出力結果に基づき、現フレームが対象音声フレームであるかどうかを判断することは、
前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得することを含む。

好ましくは、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取
得することは、
前記方向が異なるビームから、音声参照信号及び雑音参照信号を取得し、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、
音声参照信号と雑音参照信号とのパワーの比を算出し、
前記パワーの比に基づき、前記強度差に基づいた検出結果を取得することを含む。

受信モジュールと、ビームフォーミングモジュールと、検出特徴抽出モジュールと、第１の検出モジュールと、検出結果出力モジュールと、を含む対象音声検出装置において、前記受信モジュールは、マイクロホンアレイに基づき集音した音響信号を受信し、前記ビームフォーミングモジュールへ出力し、
前記ビームフォーミングモジュールは、入力された前記音響信号をビームフォーミング処理し、方向が異なるビームを取得し、
前記検出特徴抽出モジュールは、その入力がそれぞれ前記受信モジュール及び前記ビームフォーミングモジュールの出力に接続され、前記音響信号と前記方向が異なるビームとに基づき、検出特徴をフレーム毎に抽出し、抽出した検出特徴を前記第１の検出モジュールへ出力し、
前記第１の検出モジュールは、前記検出特徴抽出モジュールにより抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得し、前記モデル出力結果を前記検出結果出力モジュールに送信し、
前記検出結果出力モジュールは、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。

好ましくは、前記対象音声検出モデルを構築するモデル構築モジュールをさらに含み、前記モデル構築モジュールは、
前記対象音声検出モデルのトポロジー構造を決定する構造設計ユニットと、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングするトレーニングデータ処理ユニットと、
前記トレーニングデータの検出特徴を抽出する特徴抽出ユニットと、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得するトレーニングユニットと、を含む、

好ましくは、前記対象音声検出モデルは分類モデルまたは回帰モデルである。

好ましくは、入力が前記ビームフォーミングモジュールの出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得し、かつ、前記強度差に基づいた検出結果を前記検出結果出力モジュールに送信する第２の検出モジュールをさらに含み、
前記検出結果出力モジュールは、前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する。

好ましくは、前記第２の検出モジュールは、
前記方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニットと、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニットと、
前記パワーの比から、前記強度差に基づいた検出結果を取得する結果検出ユニットと、
を含む。

１つのコンピュータユニットにより、前述のいずれかに記載の対象音声検出方法のステップを実行させるコンピュータプログラムコードを記憶するコンピュータ読み取り可能な
記憶媒体。

プロセッサ、メモリ、システムバスを含む対象音声検出装置において、
前記プロセッサと前記メモリとが、前記システムバスを介して接続され、
前記メモリには、命令を含む一つまたは複数のプログラムが記憶され、前記命令が前記プロセッサによって実行された場合に前述のいずれかに記載の対象音声検出方法を前記プロセッサに実行させる。

端末装置で実行された場合に、前述のいずれかに記載の対象音声検出方法を前記端末装置に実行させることを特徴とするコンピュータプログラム製品

本出願の実施例で提供される対象音声検出方法及び装置は、マイクロホンアレイに基づき集音した音声信号を受信し、前記音声信号をビームフォーミング処理し方向が異なるビームを取得し、前記音声信号と前記方向が異なるビームとに基づいて検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声の検出正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。

そして、強度差に基づいた検出結果をさらに合わせ、すなわち、強度差に基づいた検出結果とモデルに基づいた検出結果とを統合して、現フレームに対応する対象音声の検出結果を取得することにより、検出結果の正確性をさらに向上する。

本出願の実施例又は従来技術の技術解決案をより明確に説明するためには、以下、実施例に使用される図面を簡単に説明する。明らかに、下記の図面は、本出願に記載される実施例の一部に過ぎず、当業者であれば、これらの図面から他の図面を得ることができる。
本出願の実施例における対象音声検出方法のフローチャートである。本出願の実施例における対象音声検出モデルの構築フローチャートである。本出願の実施例における対象音声検出方法のもう一つのフローチャートである。本出願の実施例における対象音声検出装置の構造模式図である。本出願の実施例におけるモデル構築モジュールの模式図である。本出願の実施例における対象音声検出装置のもう一つの構造模式図である。

当業者が本出願の実施例の解決案をよりよく理解するため、以下の図面及び実施形態を合わせて本出願の実施例を詳細に説明する。

図１は、本出願の実施例における対象音声検出方法のフローチャートであり、以下のステップを含む。

ステップ１０１：マイクロホンアレイに基づき集音した音声信号を受信する。
実際の応用上では、音声信号は集音された後、さらに前処理することが必要である。
Ｍ個のマイクロホンを備えるマイクロホンアレイによる音声信号の受信を例にすると、集音された信号はそれぞれ、Ｘ_１（ｔ）、Ｘ_２（ｔ）・・・Ｘ_Ｍ（ｔ）である。
前処理とは、主に、受信した音声信号を時間領域から周波数領域に変換し、周波数領域信号

を取得することをいう。その中で、ｋは信号の周波数（０，１，・・・，Ｋ）、ｌはフレーム番号を表す。

ステップ１０２：音声信号をビームフォーミング処理し、方向が異なるビームを取得する。
ビームフォーミングとしては、従来技術を用いることができ、例えば、方向推定に基づく適応アルゴリズムや信号構成に基づくビームフォーミング方法などが挙げられるが、これについて、本出願の実施例では限定しない。ビームフォーミングアルゴリズムについては、マイクロホンアレイはそのゲインが空間領域内のある方向に対し高くなる一方、他の方向に対し低くなり、あたかも一方向に向くビームを形成するように主にマイクロホンアレイで集音した信号を処理する。

Ｍ個のマイクロホンにより、メインローブ分布のＮ個の異なる方向に向くビームが形成され、ビームフォーマにより、Ｎ個の方向のビームが得られる。

その中、Ｗ^ｎ（ｋ,ｌ）が、第ｎの方向に向いた第ｋの周波数帯域におけるビームフォー
マの係数を表し、異なるビームフォーミング方法によって決定される。

ステップ１０３：音声信号と方向が異なるビームとに基づき、フレーム毎に検出特徴を抽出する。
検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法は以下のとおりである。

を予め設定された目的方向の出力信号とし、

を非目的方向の出力信号とする。

１．空間次元情報Ｖ_１（ｋ,ｌ）
具体的には、各フレームの各周波数において、得られた各ビーム信号とマイクロホンアレイで集音した音声信号とを順次組み合わせ、多次元空間ベクトルを得る。例えば、Ｍ個のマイクロホンにより、メインローブ分布のＮ個の異なる方向に向くビームを形成し、各フレームの各周波数においてＮ個のビーム信号とＭ個のマイクロホン信号とを（Ｍ＋Ｎ）次元空間ベクトルＶ_１（ｋ,ｌ）に組み合わせる。

説明すべき点については、実際の応用上では、目的方向の信号

、他の方向の信号

、マイクロホンで集音した音声信号に対する組み合わせの順序は制限されない。

２．周波数次元情報
まず、上記多次元空間ベクトルの要素ごとに、それぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得する。例えば、上記Ｖ_１（ｋ,l）の要素ごとに、それぞれＭＤ（ｋ,ｌ）＝ｆ（Ｖ_１（ｋ,l））（その中、ｆ（ｘ）＝|ｘ|^２）で表すモジュロ演算を行い、
さらに、第ｌフレームの全ての周波数におけるモジュロＭＤ（ｋ,l）を組み合わせること
で、（Ｍ+Ｎ）*Ｋ次元周波数ベクトルを取得する。

３．時間次元情報
空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得する。例えば、上記Ｖ_２（ｌ）をフレーム拡張し、前後においてそれぞれＰフレームを拡張することで、（Ｍ+Ｎ）*Ｋ*２Ｐ次元の時間次元
情報を取得する。

ステップ１０４：抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得する。
すなわち、上記現フレームｌに対応する空間次元、周波数次元及び時間次元を考慮した検出特徴Ｖ_３（ｌ）を、予め構築された対象音声検出モデルに入力し、現フレームｌの各周波数ｋの理想バイナリマスク（ＩＢＭ、Ideal Binary Mask）又は理想比マスク（ＩＲＭ
、Ideal Ratio Mask）として出力する。ＩＲＭとしての出力を例にすると、モデルの出力がＩ_{ｍｏｄｅｌ}（ｋ,ｌ）と定義してよい。

対象音声検出モデルとしては分類モデル又は回帰モデルが挙げられるが、ＩＲＭとして出力する場合は回帰モデルとなり、さもなければ分類モデルとなる。

対象音声検出モデルとしては、ディープニューラルネットワーク（ＤＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）などのニューラルネットワークモデルが具体的に使用される。

ステップ１０５：モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。
モデル出力結果としては、ＩＢＭ又はＩＲＭが挙げられる。モデル出力がＩＢＭである場合には、現フレームが対象音声フレームであるかどうかを当該出力に基づき直ちに判断することができる。モデル出力がＩＲＭである場合には、さらに設定された閾値に基づき判断する必要があり、当該閾値を超える場合は対象音声フレームと判断され、さもなければ非対象音声フレームと判断される。モデル出力のＩＲＭを直接、対応する検出結果とすることも無論可能である。

上記対象音声検出モデルの構築フローは、図２に示すように、以下のステップを含む。

ステップ２０１：対象音声検出モデルのトポロジー構造を決定する。
前述にも言及したように、対象音声検出モデルとして、分類モデルまたは回帰モデルが挙げられるが、本出願の実施例では限定しない。

ステップ２０２：クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、トレーニングデータに対し対象音声情報をラベリングする。
クリーン音声には、対象音声を含む。

ステップ２０３：トレーニングデータの検出特徴を抽出する。
検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法は前述のとおりである。

ステップ２０４：検出特徴及びラベリング情報に基づき、トレーニングして対象音声検出モデルのパラメータを取得する。

本出願の実施例で提供される対象音声検出方法では、マイクロホンアレイに基づき音声信号を集音し、音声信号をビームフォーミング処理し方向が異なるビームを取得し、音声信号と方向が異なるビームとに基づき検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声の検出正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。

対象音声の検出結果の精度をさらに高めるために、本出願における方法のもう一つの実施例においては、強度差及び検出モデルに基づいた２つの検出方法結果の対象音声検出方法をさらに提供する。

図３は、本出願の実施例における対象音声検出方法のフローチャートであり、以下のステップを含む。

ステップ３０１：マイクロホンアレイに基づき、集音した音声信号を受信する。

ステップ３０２：音声信号をビームフォーミング処理し、方向が異なるビームを取得する。

ステップ３０３：強度差に基づき、対象音声の検出を実行し、強度差に基づいた検出結果を取得する。

具体的には、まず、方向が異なるビームから音声参照信号及び雑音参照信号を取得する。次は、音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、かつ音声参照信号と雑音参照信号とのパワーの比を算出する。最後に、パワーの比に基づき、強度差に基づいた検出結果を取得する。

仮に音声参照信号をＦに、雑音参照信号をＵにすれば、そのエネルギー比は下式で定義される。

その中、Ｐ_Ｆ（ｋ,ｌ）、Ｐ_Ｕ（ｋ,ｌ）はそれぞれ、音声参照信号、雑音参照信号のパワー推定値であり、パワー推定は１次の再帰法により行う。

その中で、Ｘ_Ｆ（ｋ,ｌ）は音声参照信号、すなわち、メインローブの方向を目的方向
に向けてビームフォーミングした信号であり、対象音声に向けてメインローブ方向を固定するビームフォーミングアルゴリズムにより得られる。これらのアルゴリズムとしては、遅延和ビームフォーミング（Delay and Sumbeamforming）、定ビーム幅ビームフォーマ（Constant Beam-widthbeam‐former）、スーパゲインビームフォーミング（Super‐Gainbeamforming）などが挙げられる。

Ｘ_Ｕ（ｋ,ｌ）は雑音参照信号、すなわち、ヌル点の方向を目的方向に向けてビームフ
ォーミングした信号であり、適応ブロッキング行列により取得することができる。雑音参照信号は、例えば、周波数領域正規化最小平均二乗（ＮＬＭＳ）適応法によりフィルター更新を行うことで得られる。

その中、Ｗ_Ｎ（ｋ,ｌ）は適応ブロッキング行列の係数で、αは一定の学習ステップサ
イズであり、例えば、このステップサイズを０．０５としてよい。上付きの*は複素共役
を表し、δは小さい正数であり、例えば、δを０．００１としてよい。Ｉ_{ｒａｔｉｏ}（ｋ,ｌ）は現在の周波数における対象音声の検出結果である。

その中、閾値ｔｈ１及びｔｈ２は多くの実験及び／又は経験を踏まえて得られるものである。例えば、ｔｈ２を２、ｔｈ１を０．５としてよい。

説明すべき点については、１つの閾値ｔｈを設けてもよい。Ｉ_{ｒａｔｉｏ}（ｋ,ｌ）が
当該閾値ｔｈを超える場合、現フレームは対象音声フレームであると判断し、さもなければ現フレームは非対象音声フレームであると判断する。

ステップ３０４：検出モデルに基づき対象音声の検出を行い、モデルに基づいた検出結果を取得する。
検出モデルに基づいた対象音声の検出は、上述した図１のステップ１０３〜ステップ１０４を参照し、ここでは繰り返さない。

ステップ３０５：強度差に基づいた検出結果とモデルに基づいた検出結果とを統合して、現フレームに対応する対象音声の検出結果を取得する。

具体的には、Ｉ_{ｍｏｄｅｌ}（ｋ,ｌ）及びＩ_{ｒａｔｉｏ}（ｋ,ｌ）に基づき、協同的に判断を行う。音声雑音対策うちの適応雑音除去（ＡＮＣ、Adaptive Noise Cancellation）
を例とし、対象音声の有無を以下の通り判断する。

その中、閾値ｔｈ３、ｔｈ４、ｔｈ５及びｔｈ６は多くの実験及び／又は経験を踏まえて得られるものである。例えば、ｔｈ３を０．５、ｔｈ４を０．５、ｔｈ５を０．２５、ｔｈ６を０．２５としてよい。

説明すべき点については、対象音声検出モデルとして分類モデルを用い、かつ、強度差に基づいた検出結果も０又は１の二値データとなる場合、両方式の検出結果を統合する際
に、論理「ＡＮＤ」もしくは論理「ＯＲ」の統合方式を用いることができる。もちろん、実際の適用上においては、他の統合方式を採用することもでき、本出願の実施例では限定しない。

説明すべき点については、上記ステップ３０３とステップ３０４とは、それぞれ異なる方法による対象音声検出プロセスであり、独立して行われ、かつ時間的前後関係はないため、並行に実行しても、いずれかのステップを先行に実行してもよい。

このように、本出願の実施例における対象音声検出方法では、信号対雑音比の低い環境下でも正確な検出結果を取得するのみならず、強度差に基づいた検出結果を合わせることができるため、検出結果の正確性をさらに高めた。

本出願の実施例においてコンピュータ読み取り可能な記録媒体を提供し、コンピュータプログラムコードを記憶し、コンピュータプログラムコードは１つのコンピュータユニットにて実行され、コンピュータユニットに本出願の対象音声検出実施例における各ステップを実行させる。

対象音声検出装置であって、プロセッサ、メモリ、システムバスを含む。

プロセッサ及びメモリは、システムバスを介して接続される。

メモリは、1つ又は複数のプログラムを記憶し、1つ又は複数のプログラムは命令を含み、命令はプロセッサで実行される場合に、プロセッサに本出願の対象音声検出実施例における各ステップを実行させる。

コンピュータプログラム製品であって、コンピュータプログラム製品が端末装置で実行される時、端末装置に本出願の対象音声検出実施例における各ステップを実行させることを特徴とする。

本出願の実施例においては、さらに、対象音声検出装置を提供する。図４に示すように、当該装置の構造模式図である。

当該実施例において、当該装置は、受信モジュール４０１と、ビームフォーミングモジュール４０２と、検出特徴抽出モジュール４０３と、第１の検出モジュール４０４と、検出結果出力モジュール４０５と、を含む。

ここで、受信モジュール４０１は、マイクロホンアレイに基づき集音した音声信号を受信し、それをビームフォーミングモジュール４０２へ出力する。

ビームフォーミングモジュール４０２は、入力された音声信号をビームフォーミング処理し、方向が異なるビームを取得する。

検出特徴抽出モジュール４０３は、その入力がそれぞれ受信モジュール４０１及びビームフォーミングモジュール４０２の出力に接続され、音声信号と方向が異なるビームとに基づき、フレーム毎に検出特徴を抽出し、抽出した検出特徴を第１の検出モジュール４０４へ出力する

第１の検出モジュール４０４は、検出特徴抽出モジュール４０３により抽出された現フレームの検出特徴を予め構築された対象音声検出モデル４００に入力し、取得したモデル出力結果を、検出結果出力モジュール４０５に送信する。

検出結果出力モジュール４０５は、モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。

説明すべき点については、上記受信モジュール４０１は、音声信号の集音後、音声信号に対し前処理を行う必要がある。前処理とは受信した音声信号を時間領域から周波数領域に変換し、周波数信号を取得することである。

上記検出特徴抽出モジュール４０３により抽出された検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法については、前述本出願の実施例に記載した説明を参照にすることができるため、ここでは繰り返さない。

上記対象音声検出モデル４００としては分類モデル又は回帰モデルが挙げられるが、具体的には、対応するモデル構築モジュールで予め構築することができる。モデル構築モジュールについては、本出願における装置の一部であってもよく、本出願における装置と独立するものであってもよく、本出願の実施例では限定しない。

図５は、本出願の実施例におけるモデル構築モジュールの構造を示し、この構造は以下の各ユニットを含む。

構造設計ユニット５１は、対象音声検出モデルのトポロジー構造を決定する。

トレーニングデータ処理ユニット５２は、クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、トレーニングデータに対し対象音声情報をラベリングする。

特徴抽出ユニット５３は、トレーニングデータの検出特徴を抽出する。

トレーニングユニット５４は、検出特徴及びラベリング情報に基づき、トレーニングして対象音声検出モデルのパラメータを取得する。

説明すべき点については、対象音声検出モデルの構築過程において、特徴抽出ユニット５３で抽出される検出特徴も空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法については、前述本出願の実施例に記載した説明を参照することができるため、ここでは繰り返さない。

本出願の実施例で提供される対象音声検出装置は、マイクロホンアレイに基づき、音声信号を集音し、音声信号をビームフォーミング処理し、方向が異なるビームを取得し、音声信号と方向が異なるビームとに基づき検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声検出の正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。

図６は、本出願の実施例における対象音声検出装置のもう一つの構造模式図である。

当該実施例において、図５に示された実施例と異なる点としては、当該装置にはさらに、第２の検出モジュール４０６を含む。

第２の検出モジュール４０６は、その入力がビームフォーミングモジュール４０２の出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取
得し、かつ、強度差に基づいた検出結果を検出結果出力モジュール４０５に送信する。

第２の検出モジュール４０６は、具体的に、以下の各ユニットを含んでよい。

方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニット。

音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニット。

パワーの比から、強度差に基づいた検出結果を取得する結果検出ユニット。

従って、当該実施例において、検出結果出力モジュール４０５は、強度差に基づいた検出結果とモデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する。その具体的な統合方法については、前述の本出願の実施例に記載した説明を参照することができるため、ここでは繰り返さない。

本出願の実施例における対象音声検出装置は、モデルと強度差のそれぞれに基づく方法により対象音声の検出を行う上で、この２つの異なる方法による検出結果を総合的に評価することにより、得られる検出結果をより正確にすることができる。

本明細書の各実施例はプログレッシブな方式で記載し、各実施例間の同一または類似する部分は互いに参照でき、各実施例はその他の実施例との相違点について重点を置いて記載される。また、以上のように記載される装置の実施例は例示的なものであり、ここで、分割部品として述べられたユニットは物理的な分割であってもよく、そうでなくてもよい。ユニットとして示される部品は物理的なユニットであってもよく、そうでなくてもよい。また、1つの箇所に位置するか、複数のネットワークユニットに分散する場合がある。
実際のニーズに応じて、その一部又は全部のモジュールを選択して、本実施例の解決案の目的を果たすことができる。当業者であれば、創造的な労働をせずに容易に理解して実施することができる。

以上、本出願の実施例を詳細に説明し、本文では具体的な実施形態を用いて本出願を説明し、以上の実施例の説明は本出願を理解するための方法及び装置である。また、当業者にとっては、本出願のアイデアに基づき具体的な実施形態及び応用範囲を変更することができ、以上のことから、本明細書の内容は本出願への制限と理解すべきではない。

Claims

マイクロホンアレイに基づき集音した音響信号を受信することと、
前記音響信号をビームフォーミング処理し、方向が異なるビームを取得することと、
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することと、
抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得することと、
前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得することと、
を含むことを特徴とする対象音声検出方法。
前記対象音声検出モデルは、
前記対象音声検出モデルのトポロジー構造を決定し、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングし、
前記トレーニングデータの検出特徴を抽出し、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得することにより構築される、
ことを特徴とする請求項１に記載の方法。
前記対象音声検出モデルは分類モデル又は回帰モデルであり、前記対象音声検出モデルの出力は、現フレームの周波数ごとの理想バイナリマスク又は理想比マスクである、
ことを特徴とする請求項１に記載の方法。
前記検出特徴は、空間次元情報、周波数次元情報、時間次元情報を含む、
ことを特徴とする請求項１〜３のいずれか１項に記載の方法。
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することは、
各フレームの各周波数において、各ビーム信号と、マイクロホンアレイに基づき集音した音響信号とを順次組み合わせることで、多次元空間ベクトルを取得することと、
前記多次元空間ベクトルの要素ごとにそれぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得することと、
前記空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得することと、を含む、
ことを特徴とする請求項１に記載の方法。
強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することをさらに含み、
前記モデル出力結果に基づき、現フレームが対象音声フレームであるかどうかを判断することは、
前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得することを含む、
ことを特徴とする請求項１〜３、５のいずれか１項に記載の方法。
前記した、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することは、
前記方向が異なるビームから、音声参照信号及び雑音参照信号を取得し、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、
音声参照信号と雑音参照信号とのパワーの比を算出し、
前記パワーの比に基づき、前記強度差に基づいた検出結果を取得することを含む、
ことを特徴とする請求項６に記載の方法。
受信モジュールと、ビームフォーミングモジュールと、検出特徴抽出モジュールと、第１の検出モジュールと、検出結果出力モジュールと、を含む対象音声検出装置において、
前記受信モジュールは、マイクロホンアレイに基づき集音した音響信号を受信し、前記ビームフォーミングモジュールへ出力し、
前記ビームフォーミングモジュールは、入力された前記音響信号をビームフォーミング処理し、方向が異なるビームを取得し、
前記検出特徴抽出モジュールは、その入力がそれぞれ前記受信モジュール及び前記ビームフォーミングモジュールの出力に接続され、前記音響信号と前記方向が異なるビームとに基づき、検出特徴をフレーム毎に抽出し、抽出した検出特徴を前記第１の検出モジュールへ出力し、
前記第１の検出モジュールは、前記検出特徴抽出モジュールにより抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得し、前記モデル出力結果を前記検出結果出力モジュールに送信し、
前記検出結果出力モジュールは、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する、
ことを特徴とする対象音声検出装置。
前記対象音声検出モデルを構築するモデル構築モジュールをさらに含み、
前記モデル構築モジュールは、
対象音声検出モデルのトポロジー構造を決定する構造設計ユニットと、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングするトレーニングデータ処理ユニットと、
前記トレーニングデータの検出特徴を抽出する特徴抽出ユニットと、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得するトレーニングユニットと、を含む、
ことを特徴とする請求項８に記載の装置。
前記対象音声検出モデルは分類モデルまたは回帰モデルである、
ことを特徴とする請求項８に記載の装置。
入力が前記ビームフォーミングモジュールの出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得し、かつ、前記強度差に基づいた検出結果を前記検出結果出力モジュールに送信する第２の検出モジュールをさらに含み、
前記検出結果出力モジュールは、前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する、
ことを特徴とする請求項８〜１０のいずれか１項に記載の装置。
前記第２の検出モジュールは、
前記方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニットと、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニットと、
前記パワーの比から、前記強度差に基づいた検出結果を取得する結果検出ユニットと、を含む、
ことを特徴とする請求項１１に記載の装置。
１つのコンピュータユニットにより、請求項１〜７のいずれか１項に記載の人とコンピュータとの相互作用に適用される方法のステップを実行させるコンピュータプログラムコードを記憶する、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
プロセッサ、メモリ、システムバスを含む対象音声検出装置において、
前記プロセッサと前記メモリとが、前記システムバスを介して接続され、
前記メモリには、命令を含む一つまたは複数のプログラムが記憶され、前記命令が前記プロセッサによって実行された場合に請求項１〜７のいずれか１項に記載の方法を前記プロセッサに実行させる、
ことを特徴とする対象音声検出装置。
端末装置で実行された場合に、請求項１〜７のいずれか１項に記載の方法を前記端末装置に実行させる、
ことを特徴とするコンピュータプログラム製品。