JP6594839B2

JP6594839B2 - 話者数推定装置、話者数推定方法、およびプログラム

Info

Publication number: JP6594839B2
Application number: JP2016200546A
Authority: JP
Inventors: 厚志安藤; 太一浅見; 義和山口; 哲小橋川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-10-12
Filing date: 2016-10-12
Publication date: 2019-10-23
Anticipated expiration: 2036-10-12
Also published as: JP2018063313A

Description

この発明は、マイクロホンによる収録音に含まれる話者の数を推定する技術に関する。

収録音から「いつ、だれが話したか」を推定する技術は、話者ダイアライゼーション技術と呼ばれている。話者ダイアライゼーション技術は、例えば会議音声に対する会議の自動アノテーションや話者のインデキシング、議事録自動作成などへの応用が期待できる。

話者ダイアライゼーションでは、まず収録音に対して音声区間検出を行い、「いつ」話したかを推定する。次に、音声区間に対して特徴量抽出を行った後、特徴量をクラスタリングすることで話者が同じである音声区間を推定する。特徴量は、例えばメル周波数ケプストラム係数（MFCC: Mel-Frequency Cepstrum Coefficient）が用いられ、複数チャネルで収録した場合は、到来方向推定により求めた音源の到来方向（DOA: Direction of arrival）が用いられる（例えば、非特許文献１参照）。

特徴量をクラスタリングする際には、クラスタ数が既知であることが望ましい。これは、クラスタ数を未知とするクラスタリングアルゴリズム（例えばボトムアップクラスタリングなど）に比べ、クラスタ数を既知とするクラスタリングアルゴリズムの方が雑音に頑健であり、クラスタリング精度が高いとされているためである。話者ダイアライゼーションにおいては、クラスタ数は収録音に含まれる話者数と等価であることから、収録音に含まれる話者数を得ることで、話者ダイアライゼーションの雑音頑健性および精度が向上すると言える。

収録音に含まれる話者数を推定する従来技術として、到来方向推定に基づく手法が提案されている（例えば、非特許文献２参照）。到来方向推定に基づく従来技術では、時間ごとに音声の到来方向を推定し、その到来方向の分布に基づいて話者数を推定する。

X. Anguera, S. Bozonnet, N. Evans, C. Fredouille, G. Friedland, O. Vinyals, "Speaker Diarization: A Review of Recent Research," in IEEE Trans. on Audio, Speech, and Language Processing, vol. 20, no. 2, pp. 356-370, 2012. K. Ishiguro, T. Yamada, S. Araki and T. Nakatani, "A Probabilistic Speaker Clustering for DOA-Based Diarization," in IEEE WASPAA 2009, pp. 241-244, 2009.

従来技術では、到来方向の情報を利用するため、少なくとも２本以上のマイクロホンで収録を行う必要がある。一方で、会議音声の収録にはICレコーダ等の単一のマイクロホンが用いられることが多く、このような場合には従来技術を適用することができない。

この発明の目的は、上述のような点に鑑みて、単一のマイクロホンによる収録音に含まれる話者数を推定することができる話者数推定技術を提供することである。

上記の課題を解決するために、この発明の話者数推定装置は、単一のマイクロホンで収録した収録音から音声区間を抽出する音声区間抽出部と、音声区間ごとに話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、話者特徴ベクトルに対して主成分分析を行い、寄与率が所定の値より大きい主成分の数を収録音に含まれる話者数として出力する話者数推定部と、を含む。

この発明によれば、単一のマイクロホンによる収録音に含まれる話者数を推定することが可能となる。この結果、話者ダイアライゼーションの精度が向上する。

図１は、この発明と従来技術との相違点を説明するための図である。図２は、実際の話者数と主成分分析結果との関係を説明するための図である。図３は、話者数推定装置の機能構成を例示する図である。図４は、話者数推定方法の処理手続きを例示する図である。

最初に発明の概要を説明する。この発明のポイントは、音声区間ごとに話者特徴ベクトルを抽出する点と、収録音に含まれる話者特徴ベクトルの主成分に着目する点にある。以下、各ポイントについて詳しく説明する。

話者特徴ベクトルはテキスト非依存型の話者認識において広く用いられており、任意の長さの音声から抽出可能な話者性を表現するベクトルである。話者特徴ベクトルは単一のマイクロホンによる収録音からも求めることができる。話者特徴ベクトルの抽出および話者特徴抽出モデルの事前学習方法は下記参考文献１に開示されている。
〔参考文献１〕小川哲司、塩田さやか、“i-vectorを用いた話者認識”、日本音響学会誌、vol. 70(6)、pp. 332-339、2014年6月

話者特徴ベクトルは、理想的には、同一話者であればどの音声区間からも同じものが抽出される（図１Ａ参照）。このことから、収録音全体での話者特徴ベクトル系列の行列に対して、独立な話者特徴ベクトルの数が収録音に含まれる話者数であると考えられる。しかしながら、実際には、同一話者であっても残響や雑音の影響を受けてわずかに異なるものとなり、同じ話者特徴ベクトルが抽出されることはない（図１Ｂ参照）。この性質を考慮して、この発明では、話者特徴ベクトル系列に主成分分析を行い、寄与率が一定以上である主成分の数を収録音に含まれる話者数とする。このとき、話者特徴ベクトルは話者内での分散（例えば、残響や雑音の影響による変動）に比べて話者間の変動が大きいと仮定しており、寄与率が一定以下である主成分は残響や雑音の影響による話者特徴ベクトルの変動とみなす。

図２は、２名の話者が含まれる収録音（Ａ）および４名の話者が含まれる収録音（Ｂ）それぞれに対して、抽出した話者特徴ベクトル系列を主成分分析したときの寄与率の例である。図２では寄与率が高い主成分を点線で囲んでいるが、寄与率が高い主成分の数と収録音に含まれる話者数とが一致していることがわかる。

以下、この発明の実施の形態について詳細に説明する。この発明の実施形態は、単一のマイクロホンによる収録音を入力とし、その収録音に含まれる話者の数を推定して出力する話者数推定装置および方法である。

実施形態の話者数推定装置は、図３に例示するように、音声区間検出部１、話者特徴ベクトル抽出部２、話者数推定部３、ＵＢＭモデル記憶部４、および話者特徴抽出モデル記憶部５を含む。この話者数推定装置が、図４に例示する各ステップの処理を行うことにより実施形態の話者数推定方法が実現される。

話者数推定装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。話者数推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。話者数推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。話者数推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

ＵＢＭモデル記憶部４には、話者特徴ベクトルを抽出する際に用いるユニバーサルバックグラウンドモデル(UBM: Universal Background Model、以下ＵＢＭモデルと呼ぶ)が記憶されている。ＵＢＭモデルは音声のモデルを表すガウス混合モデル（GMM: Gaussian Mixture Model）である。ＵＢＭモデルは事前学習により得ているものとする。

話者特徴抽出モデル記憶部５には、話者特徴ベクトルを抽出する際に用いる話者特徴抽出モデルが記憶されている。話者特徴抽出モデルは、上記参考文献１に記載されたパラメータT, Σである。話者特徴抽出モデルは事前学習により得ているものとする。

ステップＳ１において、音声区間検出部１は、単一のマイクロホンで収録された収録音を入力とし、その収録音に対して音声区間検出を行い、一つ以上の音声区間を得る。音声区間の検出は、例えば、パワーのしきい値に基づく手法を利用することができる。この手法では、例えばフレーム幅25ミリ秒、シフト幅10ミリ秒ごとに音声を分割し、フレーム内のパワーの総和が一定以上である場合は当該フレームを音声とみなし、そうでない場合は非音声とみなす。そして、音声と判定されたフレームが連続する区間をまとめて一つの音声区間とする。また、音声区間の検出は、パワーのしきい値に基づく手法とは異なるアルゴリズムを用いてもよい。例えば、音声・雑音GMMモデルの尤度比に基づく手法などを用いることができる。検出した音声区間の情報は話者特徴ベクトル抽出部２へ送られる。

ステップＳ２において、話者特徴ベクトル抽出部２は、音声区間検出部１から音声区間の情報を受け取り、音声区間ごとに話者特徴ベクトルを抽出し、話者特徴ベクトル系列を得る。話者特徴ベクトルとしては、例えば、i-vectorを用いることができる。i-vectorの抽出方法は、上記参考文献１に記載されている。話者特徴ベクトル抽出部２は、はじめに、１つの音声区間に対し、音響特徴ベクトル系列を求める。音響特徴ベクトルはメル周波数ケプストラム係数（MFCC）の各次元の値をベクトル表記したものを用いるものとし、MFCC抽出のフレーム幅は例えば25ミリ秒、シフト幅は例えば10ミリ秒とする。次に、話者特徴ベクトル抽出部２は、音響特徴ベクトル系列からi-vectorを抽出する。i-vectorの抽出には、ＵＢＭモデル記憶部４に記憶されているＵＢＭモデルおよび話者特徴抽出モデル記憶部５に記憶されている話者特徴抽出モデルを用いる。音声区間１つに対しi-vectorを１つ抽出し、これらを時系列に並べることで話者特徴ベクトル系列を得る。抽出した話者特徴ベクトル系列は話者数推定部３へ送られる。

ステップＳ３において、話者数推定部３は、話者特徴ベクトル抽出部２から話者特徴ベクトル系列を受け取り、その話者特徴ベクトル系列から話者数の推定を行う。話者数推定部３は、はじめに、話者特徴ベクトル系列に対して主成分分析を適用する。これにより、話者特徴ベクトル系列の主成分と、主成分ごとの寄与率を得る。次に、話者数推定部３は、主成分ごとの寄与率に対して、しきい値よりも大きい主成分の数を話者数として出力する。寄与率のしきい値は人手により設定するものとし、例えば0.08とする。

上記のように構成することにより、実施形態の話者数推定装置によれば、単一のマイクロホンで収録した収録音であっても、話者数を推定することができる。これにより、話者ダイアライゼーションにおいてクラスタ数が既知のアルゴリズムを用いることが可能となり、雑音頑健性および精度が向上する。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１音声区間検出部
２話者特徴ベクトル抽出部
３話者数推定部
４ＵＢＭモデル記憶部
５話者特徴抽出モデル記憶部

Claims

単一のマイクロホンで収録した収録音から音声区間を抽出する音声区間抽出部と、
上記音声区間ごとに話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、
上記話者特徴ベクトルに対して主成分分析を行い、寄与率が所定の値より大きい主成分の数を上記収録音に含まれる話者数として出力する話者数推定部と、
を含む話者数推定装置。
単一のマイクロホンで収録した収録音から音声区間を抽出する音声区間抽出ステップと、
上記音声区間ごとに話者特徴ベクトルを抽出する話者特徴ベクトル抽出ステップと、
上記話者特徴ベクトルに対して主成分分析を行い、寄与率が所定の値より大きい主成分の数を上記収録音に含まれる話者数として出力する話者数推定ステップと、
を含む話者数推定方法。
請求項１に記載の話者数推定装置としてコンピュータを機能させるためのプログラム。