JP7143955B2

JP7143955B2 - 推定装置、推定方法、および、推定プログラム

Info

Publication number: JP7143955B2
Application number: JP2021541355A
Authority: JP
Inventors: 直弘俵; 歩相名神山; 哲小橋川; 厚徳小川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-09-29
Anticipated expiration: 2039-08-19
Also published as: JPWO2021033233A1; WO2021033233A1; US11996086B2; US20220335928A1

Description

本発明は、対象者（話者）の音声に基づいて話者の属性を推定する推定装置、推定方法、および、推定プログラムに関する。

従来、話者の音声から、話者の属性（話者属性）を推定する技術がある。例えば、話者属性として、年齢（子供:CH／大人:AD／老人:EL）及び性別（男性:MA／女性:FE）の組み合わせからなる６クラス（CH-MA,CH-FE,AD-MA,AD-FE,EL-MA,EL-FE）を想定した場合、当該技術により、話者が上記の６クラスのうち、いずれのクラスに属するかを推定することができる。その結果、例えば、話者の属性に合わせたインタフェースを提供したり、コールセンタ等において話者の属性に合わせたオペレータの対応を機械的に支援したりすることができる。なお、非特許文献１には、発話単位の音響特徴量（MFCC（Mel-Frequency Cepstrum Coefficients）等）を入力とし、DNN（Deep Neural Network）を用いて話者のクラスを推定する技術が開示されている。

Pegah Ghahremani, Phani Sankar Nidadavolu, Nanxin Chen, Jesus Villalba, Daniel Povey, Sanjeev Khudanpur, Najim Dehak, "End-to-End Deep Neural Network Age Estimation", pp.277-281, 2018.

ここで、未知の話者に対しても頑健な推定が可能なモデルを構築するためには、正解の話者属性を付与した大量の教師データが必要となる。しかしながら、一般的に入手しやすい教師データ用の音声データセットにはこのような話者属性が付与されていないことが多いため、学習に充分な量の教師データを用意するにはコストがかかる。また、充分な量の教師データが用意できないと、過学習により、未知の話者に対する話者属性の推定精度が低下してしまうという問題がある。

そこで、本発明は、前記した問題を解決し、話者属性が付与された充分な量の教師データがなくとも、話者属性を精度よく推定することを課題とする。

前記した課題を解決するため、話者属性の推定対象の音声信号を含む音声信号群を複数のクラスタにクラスタリングするクラスタリング部と、前記複数のクラスタの中から、前記推定対象の音声信号の属するクラスタを特定するクラスタ特定部と、音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記特定したクラスタ内の音声信号の話者属性の推定を行う第１の話者属性推定部と、前記特定したクラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の属性を推定し、当該クラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の話者属性の推定結果として出力する第２の話者属性推定部と、を備えることを特徴とする。

本発明によれば、話者属性が付与された充分な量の教師データがなくとも、話者属性を精度よく推定することができる。

図１は、第１の実施形態の推定装置の概要を説明するための図である。図２は、第１の実施形態の推定装置の構成例を示す図である。図３は、第１の実施形態の推定装置の処理手順の例を示すフローチャートである。図４は、第２の実施形態の推定装置の構成例を示す図である。図５は、第２の実施形態の推定装置の処理手順の例を示すフローチャートである。図６は、第１の実施形態の推定装置による話者属性の分類の実験結果を示す図である。図７は、推定プログラムを実行するコンピュータの例を示す図である。

以下、図面を参照しながら、本発明を実施するための形態（実施形態）を第１の実施形態および第２の実施形態に分けて説明する。各実施形態の推定装置は、話者属性の推定対象の音声信号を入力として、その音声信号の話者属性を推定する。本発明は以下に説明する各実施形態に限定されない。

［第１の実施形態］
［概要］
第１の実施形態の推定装置の概要を説明する。推定装置は、従来技術のように話者属性の推定対象の音声信号（対象者の音声信号）のみに基づいて話者属性を推定するのではなく、対象者の音声信号以外の音声信号を含む音声信号の属するクラスタ内の話者属性の推定結果を用いて、対象者の話者属性を推定する。つまり、推定装置は、対象者の音声信号の属するクラスタ内の音声信号（つまり、対象者の音声信号と似ている音声信号）の話者属性の推定結果を用いて、対象者の話者属性を推定することを特徴とする。このことを、図１を参照しながら説明する。

推定装置は、例えば、対象者の音声信号を含む音声信号群をクラスタＣ_１，Ｃ_２，Ｃ_３にクラスタリングする。そして、推定装置は、クラスタＣ_１，Ｃ_２，Ｃ_３それぞれについて当該クラスタに属する音声信号の話者属性（例えば、h_１～h_４）を推定する。ここでの話者属性の推定には、音声信号の特徴量（音声特徴量）と、学習済みの話者属性推定モデル（音声特徴量に基づき当該音声信号の話者属性を推定するためのモデル）とを用いる。

ここで、推定装置は、当該クラスタに属する各音声信号の話者属性の推定結果に基づき、当該クラスタ全体の属性の推定を行う。例えば、推定装置は、対象者の音声信号がクラスタＣ_１に属し、当該クラスタＣ_１内の音声信号それぞれの話者属性の推定結果がｈ_１、ｈ_１およびｈ_２である場合を考える。この場合、クラスタＣ_１にはｈ_１の話者属性が最も多いので、推定装置は、クラスタＣ_１全体の属性をｈ_１と推定し、対象者の音声信号の話者属性もｈ_１と推定する。

つまり、「音声特徴量が類似する話者は同じクラスタに分類されやすい」との仮定に基づき、推定装置は、対象者の音声信号の属するクラスタと同じクラスタの音声信号に対して付与される確率の高い話者属性を当該対象者の話者属性として推定する。

このような推定装置によれば、例えば、話者属性が付与された充分な量の教師データがなくとも、話者属性を精度よく推定することができる。

［構成］
次に、図２を用いて推定装置１０の構成例を説明する。推定装置１０は、例えば、音声データ記憶部１１１と、話者属性推定モデル１１２と、クラスタリング部１３１と、クラスタ特定部１３２と、音声データ選択部１３３と、第１の話者属性推定部１３４と、制御部１３５と、第２の話者属性推定部１３６とを備える。

音声データ記憶部１１１は、様々な話者の音声信号が蓄積される。なお、この音声データ記憶部１１１に蓄積される音声信号には話者の属性ラベルが付与されている必要はない。

話者属性推定モデル１１２は、音声信号の特徴量を入力として、当該音声信号の話者属性を推定するためのモデルである。この話者属性推定モデル１１２は、入力された音声信号の特徴量から当該音声信号の話者属性を推定するよう、教師データによる学習を実施済みであるものとする。この話者属性推定モデル１１２は、例えば、非特許文献１等の手法により予め学習されたニューラルネットワークにより実現される。

なお、音声データ記憶部１１１および話者属性推定モデル１１２は、例えば、推定装置１０の記憶部（図示省略）に装備される。この音声データ記憶部１１１および話者属性推定モデル１１２は、推定装置１０の外部に設置されていてもよい。

クラスタリング部１３１は、音声信号のクラスタリングを行う。例えば、クラスタリング部１３１は、対象者の音声信号と、音声データ記憶部１１１に蓄積されている音声信号とをクラスタリングする。

例えば、クラスタリング部１３１は、対象者の音声信号と音声データ記憶部１１１に蓄積された音声信号とから、それぞれの話者表現ベクトルを抽出し、この話者表現ベクトルを、k-means法等でクラスタリングする。話者表現ベクトルの抽出は、例えば、以下の文献１に示す技術を用いる。

文献１：N Dehak, PJ Kenny, R Dehak, P Dumouchel, P Ouellet, “Front-End Factor Analysis for Speaker Verification”, IEEE Transactions on Audio, Speech, and Language Processing 19 (4), 788-798 (2010)

クラスタ特定部１３２は、クラスタリング部１３１によるクラスタリングにより得られたクラスタのうち、対象者の音声信号が属するクラスタ（分析対象クラスタ）を特定する。

音声データ選択部１３３は、クラスタ特定部１３２で特定した分析対象クラスタに属する音声信号の中から、後述の第１の話者属性推定部１３４によりまだ話者属性が推定されていない音声信号を１つ選択する。

第１の話者属性推定部１３４は、音声データ選択部１３３で選択した音声信号の話者属性を推定する。具体的には、第１の話者属性推定部１３４は、音声データ選択部１３３で選択した音声信号（具体的には当該音声信号の音響特徴量）を話者属性推定モデル１１２に入力することにより、当該音声信号の話者属性を推定する。第１の話者属性推定部１３４が上記の処理を繰り返すことにより、分析対象クラスタに属する各音声信号の話者属性を推定する。

制御部１３５は、クラスタ特定部１３２で特定した分析対象クラスタに属する所定数の音声信号について、第１の話者属性推定部１３４により話者属性の推定を行わせるように制御する。

例えば、制御部１３５は、クラスタ特定部１３２で特定した分析対象クラスタに属する音声信号中に、まだ第１の話者属性推定部１３４により推定していない音声信号がある場合は、音声データ選択部１３３に、まだ話者属性が推定されていない音声信号を選択させる。そして、分析対象クラスタに属する音声信号中に、第１の話者属性推定部１３４により推定していない音声信号がなければ、第２の話者属性推定部１３６による処理を実行させる。

なお、後述するように、第２の話者属性推定部１３６は、上記の処理により得られた分析対象クラスタに属する各音声信号に対する話者属性の推定結果について多数決を取ることで、対象者の音声信号の話者属性を推定する。よって、分析対象クラスタ内の音声信号のうち、多数決を取れる程度の数の音声信号について話者属性の推定結果が出ていればよい。したがって、分析対象クラスタに属する音声信号の数が膨大な場合は、制御部１３５は、その一部について話者属性の推定を実施するようすれば、分析対象クラスタ内の全ての音声信号について話者属性の推定を行うことは必須ではない。

第２の話者属性推定部１３６は、第１の話者属性推定部１３４により推定された、分析対象クラスタ内の音声信号の話者属性の推定結果を用いて、当該分析対象クラスタ全体の話者属性を推定する。そして、第２の話者属性推定部１３６は、当該分析対象クラスタ全体の話者属性の推定結果を、対象者の音声信号の話者属性の推定結果として出力する。

換言すると、第２の話者属性推定部１３６は、第１の話者属性推定部１３４による分析対象クラスタの音声信号の話者属性の推定結果を用いて、当該分析対象クラスタ内の音声信号に対して付与されやすい話者属性を、対象者の音声信号に対する話者属性として推定する。

例えば、第２の話者属性推定部１３６が、対象者の音声信号に対して尤もらしいと思われる話者属性を１つ推定して出力する場合は、分析対象クラスタ内の音声信号に付与され話者属性のうち最も多い話者属性を対象者の音声信号の話者属性として決定する。

あるいは、第２の話者属性推定部１３６が、対象者の音声信号に対して、話者属性ごとに当該話者属性である確率を出力する場合は、分析対象クラスタ内の音声信号の話者属性に付与された確率を足し合わせた結果、最も確率が高くなる話者属性を対象者の音声信号に対する話者属性として決定する。

［処理手順］
次に図３を用いて、推定装置１０の処理手順の例を説明する。まず、推定装置１０が対象者の音声信号（推定対象の音声信号）の入力を受け付けると（Ｓ１）、クラスタリング部１３１は、推定対象の音声信号と、音声データ記憶部１１１の音声信号とをクラスタリングする（Ｓ２）。そして、クラスタ特定部１３２は、推定対象の音声信号の属するクラスタ（分析対象クラスタ）を特定する（Ｓ３）。

Ｓ３の後、第１の話者属性推定部１３４は、話者属性推定モデル１１２を用いて、Ｓ３で特定されたクラスタ（分析対象クラスタ）に属する音声信号の話者属性を推定する（Ｓ４）。そして、第２の話者属性推定部１３６は、Ｓ３で特定されたクラスタ（分析対象クラスタ）に属する音声信号の話者属性の推定結果に基づき、推定対象の音声信号の話者属性を推定する（Ｓ５）。つまり、第２の話者属性推定部１３６は、分析対象クラスタに属する音声信号それぞれの話者属性の推定結果に基づき、当該分析対象クラスタ内の音声信号に対して付与されやすい話者属性を推定する。そして、第２の話者属性推定部１３６は、当該分析対象クラスタ内の音声信号に対して付与されやすい属性を、推定対象の音声信号の話者属性として推定する。その後、第２の話者属性推定部１３６は、当該推定対象の音声信号の話者属性の推定結果を出力する（Ｓ６）。

このようにすることで、推定装置１０は、話者属性が付与された充分な量の教師データがなくとも、音声信号の話者属性を精度よく推定することができる。

なお、推定装置１０の第１の話者属性推定部１３４および話者属性推定モデル１１２がニューラルネットワークにより実現される場合、第１の話者属性推定部１３４は、例えば、以下のようにして処理を行う。

例えば、前後10フレームを結合し得られた21フレーム分の音声特徴量を、上記のニューラルネットワークへの入力とする場合、当該ニューラルネットワークは、１層の畳み込み層と４層の全結合層を経て、話者属性の数（クラス数）と同じ次元のベクトルを出力する。なお、以下の説明においてニューラルネットワークの最下層から第１層、第２層…と呼ぶこととする。

例えば、当該ニューラルネットワークの第１層は、畳み込み層で、中心フレームの前後10フレームを入力とし512次元のベクトルに変換して出力する。また、当該ニューラルネットワークの第２層から第４層では、下層の出力である512次元のベクトルを全結合層により512次元のベクトルに変換して出力する。さらに、当該ニューラルネットワークの第５層では、第４層の出力である512次元ベクトルを全結合層により変換し、クラス数と同じ6次元ベクトルを出力する。

また、当該ニューラルネットワークの第６層では、第５層から21フレームごとに得られる6次元ベクトルに対し、発話単位で平均をとった後に正解クラスラベルとのソフトマックス損失を算出することで、発話単位での6クラス分類を行う。

［第２の実施形態］
［概要］
第２の実施形態の推定装置１０ａの概要を説明する。第１の実施形態と同じ構成は同じ符号を付して説明を省略する。第２の実施形態の推定装置１０ａは、複数の音声信号（音声信号の集合）の話者属性を推定する。なお、推定装置１０ａにより推定された音声信号の集合の話者属性の推定結果は、例えば、他の分析・解析処理に利用したり、教師データとして他のAIのモデル学習に用いたりすることができる。

［構成］
図４を用いて推定装置１０ａの構成例を説明する。推定装置１０ａは、例えば、クラスタリング部１３１ａと、クラスタ選択部１３２ａと、音声データ選択部１３３ａと、第３の話者属性推定部１３４ａと、制御部１３５ａと、第４の話者属性推定部１３６ａと、終了判定部１３７とを備える。

クラスタリング部１３１ａは、推定対象の音声信号の集合を複数のクラスタにクラスタリングする。クラスタリングの方法は、第１の実施形態で述べたクラスタリング部１３１と同様である。

クラスタ選択部１３２ａは、クラスタリング部１３１ａのクラスタリングにより得られた複数のクラスタの中から、後述の処理によりまだ話者属性を推定していないクラスタ（未処理のクラスタ）を１つ選択する。

音声データ選択部１３３ａは、クラスタ選択部１３２ａで選択したクラスタに属する音声信号の中から、後述の第３の話者属性推定部１３４ａにより話者属性が推定されていない音声信号を１つ選択する。

第３の話者属性推定部１３４ａは、第１の実施形態と同様に、音声データ選択部１３３ａで選択した音声信号の話者属性を推定する。具体的には、第３の話者属性推定部１３４は、音声データ選択部１３３ａで選択した音声信号（音響特徴量）を話者属性推定モデル１１２に入力することにより、当該音声信号の話者属性の推定結果を得る。第３の話者属性推定部１３４ａが上記の処理を繰り返すことにより、推定対象の音声信号の集合のクラスタそれぞれの音声信号の話者属性を推定する。

制御部１３５ａは、クラスタ選択部１３２ａで選択したクラスタに属する所定数の音声信号について、第３の話者属性推定部１３４ａにより話者属性の推定を行わせるように制御する。

例えば、制御部１３５ａは、クラスタ選択部１３２ａで選択したクラスタに属する音声信号中に、まだ第３の話者属性推定部１３４ａにより推定していない音声信号がある場合、音声データ選択部１３３ａに音声信号を選択させる。

第４の話者属性推定部１３６ａは、クラスタ選択部１３２ａで選択したクラスタに対する話者属性を推定して出力する。つまり、第４の話者属性推定部１３６ａは、クラスタリング部１３１ａにより得られた複数のクラスタのうち、クラスタ選択部１３２ａにより選択されたクラスタについて、当該クラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の話者属性を推定する。第４の話者属性推定部１３６ａは、上記の処理を繰り返すことにより、複数のクラスタそれぞれの話者属性の推定結果を得る。そして、第４の話者属性推定部１３６ａは、上記の複数のクラスタそれぞれの話者属性の推定結果を、推定対象の音声信号の集合の話者属性の推定結果として出力する。

例えば、第４の話者属性推定部１３６ａが、推定対象の音声信号に対して尤もらしいと思われる話者属性を１つ決定して出力する場合は、クラスタ内の音声信号に付与された話者属性のうち最も多い話者属性を当該クラスタの話者属性として決定する。

あるいは、第４の話者属性推定部１３６ａが、推定対象の音声信号に対して、話者属性ごとに当該話者属性である確率を出力する場合は、クラスタ内の音声信号に付与された確率を足し合わせた結果、最も確率が高くなる話者属性を当該クラスタの話者属性として決定する。

終了判定部１３７は、クラスタリング部１３１ａにより得られたすべてのクラスタについて、第４の話者属性推定部１３６ａによる推定結果が得られたか否かを判定する。ここで、終了判定部１３７により、まだいずれかのクラスタについて第４の話者属性推定部１３６ａによる推定結果が得られていないと判定された場合、クラスタ選択部１３２ａは未処理のクラスタを選択する。

［処理手順］
次に、図５を用いて、推定装置１０ａの処理手順の例を説明する。まず、推定装置１０ａが推定対象の音声信号の集合の入力を受け付けると（Ｓ１１）、クラスタリング部１３１ａは、入力された推定対象の音声信号の集合をクラスタリングする（Ｓ１２）。そして、クラスタ選択部１３２ａは、Ｓ１２のクラスタリングにより得られたクラスタの中から未選択のクラスタを１つ選択する（Ｓ１３）。そして、第３の話者属性推定部１３４ａは、話者属性推定モデル１１２を用いて、Ｓ１３で選択されたクラスタに属する音声信号の話者属性を推定する（Ｓ１４）。そして、第４の話者属性推定部１３６ａは、Ｓ１３で選択されたクラスタに属する音声信号の話者属性の推定結果に基づき、当該クラスタの話者属性を推定する（Ｓ１５）。つまり、第４の話者属性推定部１３６ａは、当該クラスタに属する音声信号それぞれの話者属性の推定結果に基づき、当該クラスタ内の音声信号に対して付与されやすい話者属性を推定する。その後、終了判定部１３７は、すべてのクラスタに対し、話者属性の推定を終了したか否かを判定し（Ｓ１６）、すべてのクラスタに対し、当該クラスタの話者属性の推定を終了したと判定した場合（Ｓ１６でＹｅｓ）、第４の話者属性推定部１３６ａは、音声信号の集合の話者属性の推定結果を出力する（Ｓ１７）。一方、終了判定部１３７が、話者属性の推定を終了していないクラスタがあると判定した場合（Ｓ１６でＮｏ）、Ｓ１３の処理へ戻る。

このようにすることで、推定装置１０ａは、音声信号の集合についても話者属性を精度よく推定することができる。

［実験結果］
次に、本実施形態の推定装置１０による音声信号の話者属性の推定の実験結果を説明する。

まず、上記の実験の条件を説明する。ここでは、年齢および性別情報が付与された音声信号として、独自に収集した男女140話者による読み上げ発話音声コーパスを用いた。

発話音声コーパスにおける1発話あたりの平均発話長は約3秒で、1話者あたり平均発話数は504発話である。サンプリング周波数16000Hz、量子化ビット16bitで収録した音声に対し、窓幅20ミリ秒の20次元のMel-Frequency Cepstrum Coefficients(MFCC)を算出した。チャネルの影響を除去するため、短時間ケプストラム平均正規化を行った。また、話者の重複がないように50、48、42話者を抽出し、それぞれ学習、開発、評価セットとした。各年齢性別クラスに含まれる話者数はすべて同じである。また、評価尺度には各クラスに対する平均精度を用いた。

話者クラスタリングに用いるi-vectorを算出するため、128混合のuniversal background modelと400次元のtotal variance 行列、および、話者に対する150次元の線形判別分析を日本語話し言葉コーパスの全講演を用いて学習した。

ここで、複数の異なるモデルを用いたアンサンブルを行うために、学習率0.01のStochastic Gradient Discent(SGD)法により最適化したDNNと、学習率0.1のAdam法により最適化したDNNとの2種類のDNNを構築した。過学習を防ぐため各DNNの学習時のエポック数の上限はそれぞれ100と20とし、開発セットに対する分類精度が最大となったモデルを選択した。

そして、上記のSGD法とAdam法で学習した２つのモデルをスコアレベルで統合したモデル（以下、適宜「fusion」と称す）を用いて、上記の発話音声コーパスの年齢性別クラスの分類を行ったところ分類の正確度（accurancy）は0.59であった。

一方、本実施形態の推定装置のように、例えば、発話音声コーパスの音声信号をクラスタリングした上で、各クラスタ内の音声信号の話者属性を上記のfusionにより推定し、各クラスタ内の音声信号の話者属性のうち最も多い話者属性を当該クラスタの話者属性とする（クラスタ内投票を行う）ことで、上記の発話音声コーパスの年齢性別クラスの分類を行ったところ、発話音声コーパスの分類の正確度（accurancy）は0.72に向上した。

図６に各年齢性別クラス（CH-MA,CH-FE,AD-MA,AD-FE,EL-MA,EL-FE）のconfusion matrixを示す。図６に示すconfusion matrixの縦軸は、年齢性別クラスのGrand truth（正解）を示し、横軸は年齢性別クラスのEstimated labels（分類結果）を示す。図６の符号６０１は、上記のクラスタ内投票を行わずに、発話音声コーパスの年齢性別クラスの分類を行った結果を示す。図６の符号６０２は本実施形態の推定装置１０にように、上記のクラスタ内投票を行い、発話音声コーパスの年齢性別クラスの分類を行った結果を示す。いずれも、モデルは上記のfusionを用いた。図６に示すように、本実施形態の推定装置１０にように、上記のクラスタ内投票を行った方が各年齢性別クラスの分類精度が向上したことが確認できた。

［プログラム］
また、上記の実施形態で述べた推定装置１０，１０ａの機能を実現するプログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を推定装置１０，１０ａとして機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）等がその範疇に含まれる。また、推定装置１０，１０ａを、クラウドサーバに実装してもよい。

図７を用いて、上記のプログラム（推定プログラム）を実行するコンピュータの一例を説明する。図７に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図７に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した音声データ記録部１１１、話者属性推定モデル１１２は、例えばハードディスクドライブ１０９０やメモリ１０１０に装備される。

そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、上記の推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０，１０ａ推定装置
１１１音声データ記憶部
１１２話者属性推定モデル
１３１，１３１ａクラスタリング部
１３２クラスタ特定部
１３２ａクラスタ選択部
１３３，１３３ａ音声データ選択部
１３４第１の話者属性推定部
１３４ａ第３の話者属性推定部
１３５，１３５ａ制御部
１３６第２の話者属性推定部
１３６ａ第４の話者属性推定部
１３７終了判定部

Claims

話者属性の推定対象の音声信号を含む音声信号群を複数のクラスタにクラスタリングするクラスタリング部と、
前記複数のクラスタの中から、前記推定対象の音声信号の属するクラスタを特定するクラスタ特定部と、
音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記特定したクラスタ内の音声信号の話者属性の推定を行う第１の話者属性推定部と、
前記特定したクラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の属性を推定し、当該クラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の話者属性の推定結果として出力する第２の話者属性推定部と、
を備えることを特徴とする推定装置。
前記第２の話者属性推定部は、
前記特定したクラスタ内の音声信号の話者属性の推定結果に基づき、当該クラスタに最も多い話者属性を、当該クラスタ全体の話者属性の推定結果とする
ことを特徴とする請求項１に記載の推定装置。
前記第１の話者属性推定部は、
前記音声信号の話者属性の推定を行う際、当該音声信号の話者属性が当該話者属性である確率を前記話者属性ごとに算出し、
前記第２の話者属性推定部は、
前記特定したクラスタに属する音声信号の話者属性の確率を足し合わせた結果、最も確率が高い話者属性を、当該クラスタ全体の話者属性の推定結果とする
ことを特徴とする請求項１に記載の推定装置。
前記第１の話者属性推定部は、ニューラルネットワークを用いて前記推定対象の音声信号の話者属性の推定を行う
ことを特徴とする請求項１に記載の推定装置。
話者属性の推定対象の音声信号の集合を複数のクラスタにクラスタリングするクラスタリング部と、
音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記複数のクラスタそれぞれについて、当該クラスタ内の音声信号の話者属性の推定を行う第３の話者属性推定部と、
前記複数のクラスタそれぞれについて、当該クラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の話者属性を推定し、前記複数のクラスタそれぞれのクラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の集合の話者属性の推定結果として出力する第４の話者属性推定部と、
を備えることを特徴とする推定装置。
推定装置により実行される推定方法であって、
話者属性の推定対象の音声信号を含む音声信号群を複数のクラスタにクラスタリングする工程と、
前記複数のクラスタの中から、前記推定対象の音声信号の属するクラスタを特定する工程と、
音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記特定したクラスタ内の音声信号の話者属性の推定を行う工程と、
前記特定したクラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の話者属性を推定し、当該クラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の話者属性の推定結果として出力する工程と、
を含むことを特徴とする推定方法。
話者属性の推定対象の音声信号を含む音声信号群を複数のクラスタにクラスタリングするステップと、
前記複数のクラスタの中から、前記推定対象の音声信号の属するクラスタを特定するステップと、
音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記特定したクラスタ内の音声信号の話者属性の推定を行うステップと、
前記特定したクラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の話者属性を推定し、当該クラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の話者属性の推定結果として出力するステップと、
をコンピュータに実行させることを特徴とする推定プログラム。