JP2018081169A

JP2018081169A - 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム

Info

Publication number: JP2018081169A
Application number: JP2016222351A
Authority: JP
Inventors: 歩相名神山; Hosona Kamiyama; 哲小橋川; Satoru Kobashigawa; 山口　義和; Yoshikazu Yamaguchi; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2018-05-24
Anticipated expiration: 2036-11-15
Also published as: JP6553015B2

Abstract

【課題】高精度に話者属性を推定する。【解決手段】属性ラベル作成部が、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する（ステップＳ２）。深層学習部が、学習音声のフレーム毎の音響特徴量系列と属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する（ステップＳ３）。事後確率計算部が、入力音声のフレーム毎の音響特徴量系列からディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する（ステップＳ５）。識別部が、話者属性毎に事後確率系列の対数和を求め、最も値が高い話者属性を識別結果として出力する（ステップＳ６）。【選択図】図３

Description

この発明は、音声から話者の属性を推定する技術に関する。

音声対話ロボットやコールセンターにおけるマーケティング情報収集等のために、音声から話者の属性（例えば、性別や年代等）を識別する技術が必要とされている。話者の属性を識別する従来技術としては、入力音声の声質をi-vectorに変換し、そのi-vectorをサポートベクターマシン（SVM: Support Vector Machine）を用いて識別する手法や、混合ガウスモデル（GMM: Gaussian Mixture Model）を用いて識別する手法が存在する（例えば、非特許文献１参照）。

宮森翔子他、"ちょっとした一言の音声認識による子ども利用者判別法の検討"、情報科学技術フォーラム講演論文集、vol. 9(3)、pp. 469-472、2010年

従来の話者属性推定技術では、識別率の向上が課題である。従来技術による話者属性推定の識別率は、成人男性、成人女性、子ども（男女）の３クラスの場合、80〜90％程度である。特に、学習データに含まれている属性に関係ない特徴（例えば、雑音や音声のクリッピング等）が識別対象の音声に含まれていた際の誤識別を防ぐ必要がある。

従来技術では、識別結果の確からしさを求められないことも課題である。例えば、音声対話ロボット等で誤った識別結果に基づいて応答を返してしまうとユーザに不快感を与えてしまう場合があるため、識別結果が確実ではない場合はニュートラルな属性として応答を返す必要がある。また、音声入力中に属性を識別し、逐次確からしさを求められるようになれば、識別結果に基づいた素早い応答を返すことができるようになる。

この発明は、上述のような点に鑑みて、従来よりも高精度に話者属性を推定することができる話者属性推定技術を提供することを目的とする。

上記の課題を解決するために、この発明の話者属性推定システムは、学習装置と推定装置とを含む。学習装置は、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、学習音声のフレーム毎の音響特徴量系列と属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、を含む。推定装置は、入力音声のフレーム毎の音響特徴量系列からディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、話者属性毎に求めた事後確率系列の対数和に基づいて話者属性を識別する識別部と、を含む。

この発明によれば、雑音や属性以外のスペクトル特徴（例えば、クリップ音等）に頑健な推定が可能となり、高精度に話者の属性（例えば、性別や年代等）を推定することができる。また、識別結果の信頼性を求めることができるため、例えば、音声対話ロボット等では素早い応答が可能となる。

図１は、第一実施形態の学習装置の機能構成を例示する図である。図２は、第一実施形態の推定装置の機能構成を例示する図である。図３は、第一実施形態の話者属性推定方法の処理手続きを例示する図である。図４は、クリップ音の作成方法を説明するための図である。図５は、第二実施形態の学習装置の機能構成を例示する図である。図６は、第二実施形態の話者属性推定方法の処理手続きを例示する図である。図７は、第三実施形態の学習装置の機能構成を例示する図である。図８は、第三実施形態の話者属性推定方法の処理手続きを例示する図である。図９は、第四実施形態の学習装置の機能構成を例示する図である。図１０は、第四実施形態の推定装置の機能構成を例示する図である。図１１は、第四実施形態の話者属性推定方法の処理手続きを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態では、深層学習モデルを利用して入力音声の逐次事後確率を求め、その事後確率を合計した対数事後確率を用いて話者属性の推定を行う。これにより、従来よりも高精度に話者属性を推定することが可能となる。

第一実施形態の話者属性推定システムは、例えば、学習データからディープニューラルネットワーク（DNN: Deep Neural Network）モデル（以下、DNNモデル）を学習する学習装置と、学習したDNNモデルを用いて入力音声の話者属性を推定する推定装置とを含む。第一実施形態の学習装置は、図１に示すように、学習データ記憶部１０、特徴量抽出部１１、属性ラベル作成部１２、深層学習部１３、およびDNNモデル記憶部２０を備える。第一実施形態の推定装置は、図２に示すように、DNNモデル記憶部２０、特徴量抽出部２１、事後確率計算部２２、および識別部２３を含む。この学習装置および推定装置が、図３に示す各ステップの処理を行うことにより第一実施形態の話者属性推定方法が実現される。

学習装置および推定装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知または専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、学習装置および推定装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および推定装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。学習装置および推定装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

学習データ記憶部１０には、DNNモデルの学習に用いる学習データが記憶されている。学習データは、学習音声s(k, t)と属性情報L(k)とを含む。k（=0, 1, …, K）は学習音声の番号である。t（=0, 1, …, T_k-1）はサンプル時間である。T_kはk番目の学習音声の時間長である。s(k, t)はサンプリング周波数をf_s[Hz]とした場合のサンプル時間tにおけるk番目の学習音声の振幅である。L(k)はk番目の学習音声の話者属性を示す数値である。例えば、L(k)=0は「成人男性」、L(k)=1は「成人女性」、L(k)=2は「子ども」のように表現される。

図３を参照して、第一実施形態の学習装置および推定装置が実行する話者属性推定方法の処理手続きを説明する。

ステップＳ１において、学習装置の特徴量抽出部１１は、学習データ記憶部１０に記憶された学習音声s(k, t)を読み出し、その学習音声s(k, t)からメル周波数ケプストラム係数（MFCC: Mel-Frequency Cepstrum Coefficient）の音響特徴量系列c(k, i, j)を抽出して出力する。i（=0, 1, 2, …, I_k-1）はフレーム番号、I_kはk番目の学習音声のフレーム数、j（=0, 1, 2, …, J_k-1）は音響特徴量の次元を示す番号、J_kはk番目の学習音声の音響特徴量の次元数である。メル周波数ケプストラム係数は公知の方法で抽出を行えばよい。例えば、12次元とそのΔ特徴量、Δパワー特徴量を利用するとよい。分析フレーム幅は10ミリ秒程度がよい。抽出した音響特徴量系列c(k, i, j)は属性ラベル作成部１２および深層学習部１３へ送られる。

ステップＳ２において、学習装置の属性ラベル作成部１２は、学習データ記憶部１０に記憶された属性情報L(k)を読み出し、学習音声のフレーム数I_kの属性ラベル系列l(k, i)を作成する。具体的には、全フレーム（i=0, 1, …, I_k-1）について、l(k, i)=L(k)を設定する。作成した属性ラベル系列l(k, i)は深層学習部１３へ送られる。

ステップＳ３において、学習装置の深層学習部１３は、特徴量抽出部１１から受け取った学習音声s(k, t)の音響特徴量系列c(k, i, j)と、属性ラベル作成部１２から受け取った学習音声s(k, t)の属性ラベル系列l(k, i)とを用いて、式（１）となるDNNモデルλを学習する。

DNNモデルは、画像認識や音声認識で使われており、細かい特徴を学習することができる。p(m|λ, c(k, i, j))は、特徴量c(k, i, j)が属性m（=0, 1, …, M）に属する事後確率である。属性mは、例えば、m=0は「成人男性」、m=1は「成人女性」、m=2は「子ども」等とする。DNNモデルの学習は、全音声（k=0, 1, 2, …, K）の全フレーム（i=0, 1, 2, …, I_k-1）について、その属性ラベルl(k, i)を用いて行う。学習したDNNモデルλは、DNNモデル記憶部２０に記憶する。

ステップＳ４において、推定装置の特徴量抽出部２１は、入力された音声s'(t)からメル周波数ケプストラム係数の音響特徴量系列c'(i, j)（i=0, 1, …, I-1、j=0, 1, …, J-1、Iは入力音声のフレーム数、Jは入力音声の音響特徴量の次元数）を抽出して出力する。抽出した音響特徴量系列c'(i, j)は事後確率計算部２２へ送られる。

ステップＳ５において、推定装置の事後確率計算部２２は、特徴量抽出部２１から受け取った入力音声s'(t)の音響特徴量系列c'(i, j)から、DNNモデル記憶部２０に記憶されたDNNモデルλを用いて、事後確率系列q(i, m)=p(m|λ, c'(i, j))（i=0, 1, …, I-1、m=0, 1, …, M）を計算する。計算した事後確率系列q(i, m)は識別部２３へ送られる。

ステップＳ６において、推定装置の識別部２３は、事後確率計算部２２から受け取った事後確率系列q(i, m)から話者属性L'を識別して出力する。話者属性の識別は、式（２）により、全フレームの事後確率の対数和を求め、最も値が高い話者属性を識別結果として出力する。

［第二実施形態］
音声対話ロボット等では、音声を入力する際にマイクに近付き過ぎたりして、振幅が振り切れているクリップ音が入力されることがある。学習データの一部にクリップ音を含む学習音声が存在すると、同じクリップ音が入力された際に、本来の属性とは違い、このクリップ音の特徴がある属性に識別されてしまうことがある。そのため、第二実施形態では、図４に示すように、学習データからクリッピングしたクリップ音を作成し、学習データに追加することで、クリップ音の特徴に引きずられずに本来の属性に識別することを可能とする。

第二実施形態の学習装置は、図５に示すように、学習データ記憶部１０、特徴量抽出部１１、属性ラベル作成部１２、深層学習部１３、およびDNNモデル記憶部２０を第一実施形態と同様に備え、クリップ音合成部１４をさらに備える。この学習装置と第一実施形態の推定装置とが、図６に示す各ステップの処理を行うことにより第二実施形態の話者属性推定方法が実現される。

図６を参照して、第二実施形態の話者属性推定方法の処理手続きを説明する。以下では、上述の第一実施形態との相違点を中心に説明する。

ステップＳ７において、学習装置のクリップ音合成部１４は、学習データ記憶部１０に記憶された学習音声s(k, t)を読み出し、その学習音声s(k, t)の振幅を増幅し、所定の閾値を超えた振幅をその閾値に丸めてクリップ音S(k, t)を合成する。合成したクリップ音S(k, t)は学習データ記憶部１０に記憶する。

具体的には、クリップ音合成部１４は、以下のようにしてクリップ音を合成する。

１．学習音声s(k, t)の振幅をa倍した音声S(k, t)=a*s(k, t)（k=0, 1, …, K、t=0, 1, …, T_k-1）を作成する。

２．音声S(k, t)のうち所定の閾値±h（h>0）を超える値を丸めるために、全学習音声（k=0, 1, …, K）の全サンプル（t=0, 1, …, T_k-1）について、以下のように設定する。

（ア）S(k, t)>hの場合、S(k, t)=hとする
（イ）S(k, t)<-hの場合、S(k, t)=-hとする。

aの値は複数の値を設定して実施するとよい。例えば、a=1, 3, 6等で実施するとよい。このようにして合成したクリップ音は、図４に示すような波形を示す。

学習装置の以降の処理では、追加したクリップ音S(k, t)を学習音声s(k, t)と同様に利用する。これにより、推定装置の入力音声s'(t)がクリップした音声であっても、話者属性を正しく推定することが可能となる。

［第三実施形態］
話者属性は無声音には特徴が現れにくいため、無声音の影響により識別を誤ることがある。また、音声を発声していない区間を含む場合は該当部分の周囲の雑音を学習データに含んでしまうことにより誤識別をすることがある。そのため、属性識別は有声音に限って行うとよい。そこで、第三実施形態では、学習データの無声音または無音の部分にラベルデータを与えて、無声音または無音の確率が高い場合は識別の対象から除外することで、識別率を高くすることを可能とする。

第三実施形態の学習装置は、図７に示すように、学習データ記憶部１０、特徴量抽出部１１、属性ラベル作成部１２、深層学習部１３、クリップ音合成部１４、およびDNNモデル記憶部２０を第二実施形態と同様に備え、有声無声判定部１５をさらに備える。この学習装置と第一実施形態の推定装置とが、図８に示す各ステップの処理を行うことにより第三実施形態の話者属性推定方法が実現される。

図８を参照して、第三実施形態の話者属性推定方法の処理手続きを説明する。以下では、上述の第二実施形態との相違点を中心に説明する。

ステップＳ８において、学習装置の有声無声判定部１５は、学習データ記憶部１０に記憶された学習音声s(k, t)を読み出し、その学習音声s(k, t)の有声無声区間を判定し、有声無声情報v(k, i)を生成する。生成した有声無声情報v(k, i)はクリップ音合成部１４により合成されたクリップ音S(k, t)と関連付けて学習データ記憶部１０に記憶する。有声無声情報v(k, i)は、例えば、k番目の学習音声s(k, t)のi番目のフレームが有声の場合はv(k, i)=1とし、無声の場合はv(k, i)=0とする。有声無声の判定は、特徴量抽出部１１と同様のフレーム幅で行い、基本周波数抽出の一般的な方法で行えばよい。

ステップＳ２において、学習装置の属性ラベル作成部１２は、学習データ記憶部１０に記憶された属性情報L(k)および有声無声情報v(k, i)を読み出し、学習音声のフレーム数分の属性ラベル系列l(k, i)を作成する。具体的には、全フレーム（i=0, 1, …, I_k-1）について、有声部（v(k, i)=1の場合）はl(k, i)=L(k)を設定し、無声部（v(k, i)=0の場合）はl(k, i)=-1を設定する。

ステップＳ３において、学習装置の深層学習部１３は、第一実施形態と同様にして、DNNモデルλを学習する。第三実施形態のDNNモデルλは、無声部（l(k, i)=-1）を属性m=-1として、特徴量c(k, i, j)が属性m（=-1, 0, 1, …, M）に属する事後確率となる。

ステップＳ５において、推定装置の事後確率計算部２２は、第一実施形態と同様にして、事後確率系列q(i, m)（i=0, 1, …, I-1、m=-1, 0, 1, …, M）を計算する。

ステップＳ６において、推定装置の識別部２３は、事後確率計算部２２から受け取った事後確率系列q(i, m)から話者属性L'を識別して出力する。第三実施形態の識別部２３は、無声部を属性m=-1として学習しているため、式（３）に示す関数f(i, m)を用いて有声部のみに限定して識別を行う。

［第四実施形態］
第四実施形態では、学習時の事後確率系列と推定時の事後確率系列との分布から識別結果の確からしさを示す信頼度を求める。信頼度は、0以上1以下の数値であり、1に近づけば近づくほど識別結果L'が確かな結果と言うことができる。信頼度を利用することで、例えば、音声対話ロボット等が信頼度に応じて適切な応答を選択するなどを行うことが可能となる。

第四実施形態の学習装置は、図９に示すように、学習データ記憶部１０、特徴量抽出部１１、属性ラベル作成部１２、深層学習部１３、およびDNNモデル記憶部２０を第一実施形態と同様に備え、学習データ事後確率計算部１６、信頼度パラメータ学習部１７、および信頼度パラメータ記憶部３０をさらに備える。第四実施形態の推定装置は、図１０に示すように、DNNモデル記憶部２０、特徴量抽出部２１、事後確率計算部２２、および識別部２３を第一実施形態と同様に備え、信頼度計算部２４および信頼度パラメータ記憶部３０をさらに備える。この学習装置および推定装置が、図１１に示す各ステップの処理を行うことにより第四実施形態の話者属性推定方法が実現される。

図９では第一実施形態の学習装置に対して第四実施形態の考え方を適用した構成を示したが、第四実施形態の考え方は第二実施形態および第三実施形態に適用することもできる。すなわち、第四実施形態の学習装置は、クリップ音合成部１４および有声無声判定部１５の一方もしくは両方を備えていてもよい。

図１１を参照して、第四実施形態の話者属性推定方法の処理手続きを説明する。以下では、上述の第一実施形態との相違点を中心に説明する。

ステップＳ９において、学習装置の学習データ事後確率計算部１６は、特徴量抽出部１１が学習音声s(k, t)から抽出した音響特徴量系列c(k, i, j)から、深層学習部１３が学習したDNNモデルλを用いて、事後確率系列q'(k, i, m)=p(m|λ, c(k, i, j))（k=0, 1, …, K、i=0, 1, …, I_k-1、m=0, 1, …, M）を計算する。計算した事後確率系列q'(k, i, m)は信頼度パラメータ学習部１７へ送られる。

ステップＳ１０において、学習装置の信頼度パラメータ学習部１７は、学習データ事後確率計算部１６から受け取った事後確率系列q'(k, i, m)および属性ラベル作成部１２が作成した属性ラベル系列l(k, i)から、信頼度を求めるための事後確率系列の平均μ(m)、標準偏差σ(m)、フレーム数n(m)を計算する。以下、これらを総称して信頼度パラメータと呼ぶ。計算した信頼度パラメータμ(m), σ(m), n(m)は信頼度パラメータ記憶部３０に記憶する。

具体的には、信頼度パラメータ学習部１７は、以下のようにして信頼度パラメータμ(m), σ(m), n(m)を求める。

１．式（４）により、フレーム数n(m)および事後確率合計値s(m)を求める。

２．全属性（m=0, 1, …, M）について、平均μ(m)=s(m)/n(m)を求める。

３．全属性（m=0, 1, …, M）について、式（５）により、平均からの差分合計値d(m)を求める。

４．全属性（m=0, 1, …, M）について、式（６）により、標準偏差σ(m)を求める。

ステップＳ１１において、推定装置の信頼度計算部２４は、事後確率計算部２２が出力する事後確率系列q(i, m)および識別部２３が出力する話者属性L'から、信頼度パラメータ記憶部３０に記憶された信頼度パラメータμ(m), σ(m), n(m)を用いて、信頼度rを求める。求めた信頼度rは識別結果L'と共に出力する。信頼度rは、事後確率系列q(i, m)について属性m=L'としたときの事後確率系列q(i, L')の平均μ'、標準偏差σ'、フレーム数n'にて求められる分布と、事前に求めた信頼度パラメータμ(m), σ(m), n(m)に基づく分布とに基づき求めることができる。

具体的には、信頼度計算部２４は、以下のようにして信頼度rを求める。

１．式（７）により、フレーム数n'および事後確率合計値s'を求める。

２．平均μ'=s'/n'を求める。

３．式（８）により、平均からの差分合計値d'を求める。

４．式（９）により、標準偏差σ'を求める。

５．式（10）により、統計量tを求める。

６．t>0であり、自由度n'+n(L')-2のt分布T(x)において、上記５で求めた統計量tを用いて、式（11）の信頼度rを求める。

信頼度計算部２４は、信頼度パラメータμ(m), σ(m), n(m)を使わずに、以下のようにして信頼度rを求めることもできる。このときの信頼度は、各属性の事後確率系列の平均・分散値から、求める属性の平均値が有意に高いか否かを判定するための値である。この場合、学習装置は、学習データ事後確率計算部１６、信頼度パラメータ学習部１７、および信頼度パラメータ記憶部３０を備えなくてもよい。また、推定装置は、信頼度パラメータ記憶部３０を備えなくてもよい。

１．式（12）により、フレーム数n'と各属性の事後確率合計値s'(m)を求める。

２．各属性の平均μ'(m)=s'(m)/n'を求める。

３．式（13）により、各属性の平均からの差分合計値d'(m)を求める。

４．式（14）により、各属性の標準偏差σ'(m)を求める。

５．式（15）により、識別された話者属性L'と他の話者属性との統計量t(m)を求める。

６．t(m)>0であり、自由度2n'-2のt(m)分布T_m(x)において、上記５で求めた統計量t(m)を用いて、式（16）の信頼度rの平均値を求める。

1-rはt検定における事後確率が平均μとなる確率を表す。例えば、1-r<0.05の場合、5％の有意水準にて事前に求めた属性m以外に属する話者属性における平均の事後確率μ(m)より有意に事後確率系列μが高いと言える。この発生する確率を1から引いた値を信頼度として、識別結果L'の確からしさとして使うことが可能である。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０学習データ記憶部
１１特徴量抽出部
１２属性ラベル作成部
１３深層学習部
１４クリップ音合成部
１５有声無声判定部
１６学習データ事後確率計算部
１７信頼度パラメータ学習部
２０ DNNモデル記憶部
２１特徴量抽出部
２２事後確率計算部
２３識別部
２４信頼度計算部
３０信頼度パラメータ記憶部

Claims

学習装置と推定装置とを含む話者属性推定システムであって、
上記学習装置は、
学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
を含み、
上記推定装置は、
入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
を含む話者属性推定システム。
請求項１に記載の話者属性推定システムであって、
上記学習装置は、
上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成するクリップ音合成部をさらに含む、
話者属性推定システム。
請求項２に記載の話者属性推定システムであって、
上記学習装置は、
上記学習音声のフレーム毎に有声か無声かを示す有声無声情報を生成する有声無声判定部をさらに含み、
上記属性ラベル作成部は、上記有声無声情報に基づいて、有声のフレームは上記属性情報の値を設定し、無声のフレームは無声であることを表す値を設定して上記属性ラベル系列を作成するものである、
話者属性推定システム。
請求項１から３のいずれかに記載の話者属性推定システムであって、
上記学習装置は、
上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する学習データ事後確率計算部と、
上記学習音声の事後確率系列の分布を表す信頼度パラメータを計算する信頼度パラメータ学習部と、
をさらに含み、
上記推定装置は、
上記信頼度パラメータが表す分布と上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部をさらに含む、
話者属性推定システム。
請求項１から３のいずれかに記載の話者属性推定システムであって、
上記推定装置は、
識別された話者属性に関する上記入力音声の事後確率系列の分布と他の話者属性に関する上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部をさらに含む、
話者属性推定システム。
学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
を含む学習装置。
入力音声のフレーム毎の音響特徴量系列から予め学習したディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
を含み、
上記ディープニューラルネットワークは、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いて学習したものである、
推定装置。
属性ラベル作成部が、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、
深層学習部が、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習し、
事後確率計算部が、入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
識別部が、話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する、
話者属性推定方法。
請求項６に記載の学習装置または請求項７に記載の推定装置としてコンピュータを機能させるためのプログラム。