JP6804639B2

JP6804639B2 - 属性識別装置、属性識別方法、プログラム

Info

Publication number: JP6804639B2
Application number: JP2019519570A
Authority: JP
Inventors: 歩相名神山; 哲小橋川; 厚志安藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-05-25
Filing date: 2018-05-11
Publication date: 2020-12-23
Anticipated expiration: 2038-05-11
Also published as: US11133012B2; WO2018216511A1; JPWO2018216511A1; US11756554B2; US20210383812A1; US20210104248A1

Description

本発明は、発話音声から話者の属性を識別する技術に関する。

音声対話ロボットやコールセンターにおけるマーケティング情報収集のために、音声から属性（例えば、性別や年代）を識別する技術が必要とされている。属性識別のための従来技術として、GMM(Gaussian Mixture Model)を用いて属性を識別する方法（非特許文献１）やSVM(Support Vector Machine)を用いて音声から抽出したi-vectorにより属性を識別する方法などがある。

これらの従来技術では、周囲の雑音の影響により、属性を誤識別してしまうことがある。特に、音声や音楽が含まれるラジオ放送やテレビ放送等が雑音（以下、テレビ雑音ともいう）として発話音声に重畳した場合、複数の音声が混在してしまう。この場合、発話音声とテレビ雑音に含まれる音声とを区別することが難しいため、属性を誤って識別することになる。

そこで、予め雑音を重畳した音声を対象に機械学習を行うことにより、頑健な属性識別を実現する方法も提案されている（非特許文献２）。

宮森翔子，西村竜一，栗原理沙，入野俊夫，河原英紀，"ちょっとした一言の音声認識による子ども利用者判別法の検討"，FIT(電子情報通信学会・情報処理学会)運営委員会，情報科学技術フォーラム講演論文集 9(3)，pp.469-472，2010．中村哲，"実音響環境に頑健な音声認識を目指して"，電子情報通信学会，信学技報，EA2002-12，SP2002-12，pp.31-36，2002．

しかし、テレビ雑音に含まれる音声や音楽の影響による雑音状況は非常に多岐にわたるため、どのような雑音状況に対しても頑健に動作するように網羅的に学習することは不可能である。また、一部の雑音状況に限定した学習データを用いて学習すると、雑音に含まれる音声を属性識別の特徴として学習してしまうため、かえって静音環境下での識別において誤りを発生させる原因にもなりうる。そのため、ユーザの満足度の度合い（以下、ユーザビリティという）を考慮するならば、誤った識別結果を与えるよりはその結果を棄却する方がよいが、一律に属性識別結果を出すことにより、ユーザビリティが低下してしまうという問題が生じていた。

そこで本発明では、属性識別結果の信頼度が低い場合に当該結果を棄却することができる属性識別技術を提供することを目的とする。

本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。

本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。

本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部を含み、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出部を用いて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。

本発明によれば、属性識別結果の確からしさを示す信頼度が低い場合に属性識別結果を棄却することにより、ユーザビリティの低下を防ぐことができる。

属性識別装置１００の構成の一例を示すブロック図である。属性識別装置１００の動作の一例を示すフローチャートである。事後確率と信頼度の時間変化の一例を示す図である。事後確率と信頼度の時間変化の一例を示す図である。属性識別装置１０１の構成の一例を示すブロック図である。属性識別装置１０１の動作の一例を示すフローチャートである。属性識別装置１０２の構成の一例を示すブロック図である。属性識別装置１０２の動作の一例を示すフローチャートである。信頼度算出モデル学習装置２００の構成の一例を示すブロック図である。信頼度算出モデル学習装置２００の動作の一例を示すフローチャートである。事後確率の時間変化の一例を示す図である。事後確率の時間変化の一例を示す図である。事後確率の時間変化の一例を示す図である。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜定義＞
以下、各実施形態で用いる用語について説明する。

音声s(t)は、サンプリング周波数をf_s[Hz]とした場合の、サンプル時間t(t=0,1,…,T_k-1、ただし、T_kは1以上の整数)における振幅である。また、特徴量x(i)は、音声s(t)のフレームi(i=0,1,…,I、ただし、Iは0以上の整数であり、I+1は音声s(t)から生成されたフレーム数を表す)から抽出される特徴量である。例えば、MFCC(Mel-Frequency Cepstral Coefficient)や基本周波数を特徴量として、適切な分析フレーム幅とフレームシフト（例えば、分析フレーム幅50ms、フレームシフト25ms）で抽出することができる。

属性とは、発話音声の話者を識別するためのクラス（属性値）の集合のことである。例えば、属性“性別”に対しては、クラスとして「男性」、「女性」がある。属性“年代”に対しては、クラスとして「１０代」、「２０代」、「３０代」などがある。また、性別と年代を組み合わせた属性を考えてもよく、この場合、例えば、クラスとして「成人男性」、「成人女性」、「子ども」などが考えられる。一般に、クラス（属性値）をc(c=0,1,…,C、ただし、Cは0以上の整数であり、C+1はクラス数を表す)と表す。例えば、性別識別の場合の属性値cは、c=0のとき「男性」、c=1のとき「女性」を表すなどとすればよい。また、属性識別モデルλ_cは、フレームiの特徴量x(i)を入力として、特徴量がx(i)である場合にクラスがcである事後確率p(c|x(i))(c=0,1,…,C)を出力するモデルである。属性識別モデルλ_cは、例えば、DNN(Deep Neural Network)などのニューラルネットワークを用いて実現することができる。

＜第一実施形態＞
以下、図１〜図２を参照して属性識別装置１００について説明する。図１は、属性識別装置１００の構成を示すブロック図である。図２は、属性識別装置１００の動作を示すフローチャートである。図１に示すように属性識別装置１００は、事後確率算出部１１０、信頼度算出部１２０、属性識別結果生成部１３０、記録部１９０を含む。記録部１９０は、属性識別装置１００の処理に必要な情報を適宜記録する構成部である。例えば、属性識別結果生成部１３０が用いる閾値δを事前に記録しておく。

また、属性識別装置１００は、属性識別モデル９３０のデータを適宜読み込み、処理を実行する。なお、図１は、属性識別モデル９３０が外部の記録部に記録されている図となっているが、属性識別装置１００に含まれる記録部１９０に記録するように構成してもよい。以下、本実施形態では、両者を区別することなく、属性識別モデルλ_cと表現する。

属性識別装置１００は、入力音声s(t)から、入力音声s(t)の話者に関する属性の識別結果である属性識別結果Lを生成し、出力する。

図２に従い属性識別装置１００の動作について説明する。事後確率算出部１１０は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する（Ｓ１１０）。具体的には、事後確率算出部１１０は、属性識別モデルλ_cを用いて、入力音声s(t)のフレームiから抽出した特徴量x(i)がクラスcである事後確率p(c|x(i))を求め、q(c,i)=p(c|x(i))とする。ここで、0≦q(c,i)≦1(c=0,1,…,C、i=0,1,…,I)、Σ_cq(c,i)=1(i=0,1,…,I)が成り立つ。

信頼度算出部１２０は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する（Ｓ１２０）。ここで、クラスcの信頼度r(c)は、クラスcが正しい属性識別結果である程度を示す値であり、信頼度r(c)を0≦r(c)≦1を満たし、かつ、1に近づけば近づくほど属性識別結果が確からしいことを示す指標として定義する。例えば、信頼度r(c)を、次式のようにクラスごとの事後確率の平均として定義してもよい。

また、信頼度r(c)を、次式のようにクラスごとの事後確率の積を用いて定義してもよい。

なお、式(2)を用いて信頼度r(c)を定義する場合、ほとんどの入力音声に対してr(c)が1に近い値（例えば、0.9999）となり、属性識別結果生成部１３０での最尤推定クラスc^を棄却するか否かを決定するための閾値δの設定が繊細となることがある。そこで、適当なパラメータv(0<v<1)を用いて、0から1の間をなだらかに変化する式x^vを用いて、信頼度r(c)を次式のように定義してもよい。

属性識別結果生成部１３０は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)とクラスcの信頼度r(c)から、入力音声s(t)の属性識別結果Lを生成する（Ｓ１３０）。具体的には、属性識別結果生成部１３０は、まず、事後確率系列{q(c,i)}(i=0,1,…,I)から、次式により、最尤推定クラスc^を求める。式からわかるように、最尤推定クラスとは、最も確からしい属性であると推定されるクラスである。

次に、信頼度r(c^)と閾値δ(0<δ<1)を比較し、r(c^)≧δ（またはr(c^)>δ）の場合、最尤推定クラスc^を属性識別結果Lとし、r(c^)<δ（またはr(c^)≦δ）の場合、最尤推定クラスc^を棄却し、棄却を表すφを属性識別結果Lとする。

なお、r(c^)<δまたはr(c^)≦δであることを、信頼度r(c^)が小さいことを示す所定の範囲にあるという。

図３Ａ及び図３Ｂは、事後確率の時間変化と、v=1/32とした場合の式(3)で定義される信頼度の時間変化を示す。図３Ａは、入力音声のみの場合の事後確率と信頼度の変化、図３Ｂは、入力音声にテレビ雑音が重畳している場合の事後確率と信頼度の変化である。入力音声のみの場合は、入力音声の長さがある程度長くなると、信頼度が最終的に1に近い値をとるクラスが出現するのに対し、テレビ雑音を重畳した入力音声の場合は、各クラスとも入力音声のみの場合よりも低い値をとる傾向があり、1に近い値をとるクラスがないことがわかる。このような特徴が信頼度にあるため、最尤推定クラスの信頼度が所定の閾値δに達しない場合に、誤識別かもしれない確実性の低いクラスであるとして棄却することが可能となる。

（変形例１）
属性識別装置１００では、事後確率系列{q(c,i)}(i=0,1,…,I)を属性識別結果生成部１３０の入力とするように構成したが、事後確率系列{q(c,i)}(i=0,1,…,I)を用いることなく、属性識別結果Lを生成するように構成してもよい。以下、図４〜図５を参照して属性識別装置１０１について説明する。図４は、属性識別装置１０１の構成を示すブロック図である。図５は、属性識別装置１０１の動作を示すフローチャートである。図４に示すように属性識別装置１０１は、事後確率算出部１１０、信頼度算出部１２０、属性識別結果生成部１３１、記録部１９０を含む。

図５に従い属性識別装置１０１の動作について説明する。事後確率算出部１１０は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する（Ｓ１１０）。信頼度算出部１２０は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する（Ｓ１２０）。

属性識別結果生成部１３１は、クラスcの信頼度r(c)から、入力音声s(t)の属性識別結果Lを生成する（Ｓ１３１）。具体的には、属性識別結果生成部１３１は、まず、クラスcの信頼度r(c)から、次式により、最尤推定クラスc^を求める。

（変形例２）
また、属性識別装置１００では、信頼度r(c)を属性識別結果生成部１３０の入力とするように構成したが、事後確率系列{q(c,i)}(i=0,1,…,I)のみを入力とするように構成してもよい。この場合、最尤推定クラスに対してのみ信頼度を算出することになる。以下、図６〜図７を参照して属性識別装置１０２について説明する。図６は、属性識別装置１０２の構成を示すブロック図である。図７は、属性識別装置１０２の動作を示すフローチャートである。図６に示すように属性識別装置１０２は、事後確率算出部１１０、属性識別結果生成部１３２、記録部１９０を含む。

図７に従い属性識別装置１０２の動作について説明する。事後確率算出部１１０は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する（Ｓ１１０）。

属性識別結果生成部１３２は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、入力音声s(t)の属性識別結果Lを生成する（Ｓ１３２）。具体的には、属性識別結果生成部１３２は、まず、事後確率系列{q(c,i)}(i=0,1,…,I)から、式(4)により、最尤推定クラスc^を求める。次に、属性識別結果生成部１３２は、最尤推定クラスc^の信頼度r(c^)を算出する。算出には式(1)〜(3)を用いることができ、例えば、属性識別結果生成部１３２が信頼度算出部１２０を含むように構成すればよい。最後に、信頼度r(c^)と閾値δ(0<δ<1)を比較し、r(c^)≧δ（またはr(c^)>δ）の場合、最尤推定クラスc^を属性識別結果Lとし、r(c^)<δ（またはr(c^)≦δ）の場合、最尤推定クラスc^を棄却し、棄却を表すφを属性識別結果Lとする。

本発明によれば、属性識別結果の確からしさを示す信頼度が低い場合に属性識別結果を棄却することにより、ユーザビリティの低下を防ぐことができ、信頼できない識別結果をユーザに提示することによる不快感を抑制することができる。

＜第二実施形態＞
第一実施形態では、式(1)〜(3)のような数式を用いて信頼度を算出した。第二実施形態では、数式を用いる代わりに、信頼度算出モデルを用いて信頼度を算出する。つまり、第二実施形態の属性識別装置は、信頼度算出モデルを用いて、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する点においてのみ、第一実施形態の各属性識別装置と異なる。この信頼度算出モデルを学習するのが、信頼度算出モデル学習装置２００である。信頼度算出モデルは、属性識別装置が処理を開始する前に属性識別装置の記録部に記録しておくことになる。

以下、図８〜図９を参照して、信頼度算出モデル学習装置２００について説明する。図８は、信頼度算出モデル学習装置２００の構成を示すブロック図である。図９は、信頼度算出モデル学習装置２００の動作を示すフローチャートである。図８に示すように信頼度算出モデル学習装置２００は、雑音重畳音声生成部２１０、事後確率算出部１１０、属性識別結果生成部２３０、信頼度ラベル生成部２４０、信頼度算出モデル学習部２５０、記録部２９０を含む。記録部２９０は、信頼度算出モデル学習装置２００の処理に必要な情報を適宜記録する構成部である。例えば、信頼度算出モデル学習部２５０が学習に用いる信頼度ラベル付き事後確率系列データベースを記録する。

また、信頼度算出モデル学習装置２００は、音声データベース９１０、雑音データベース９２０、属性識別モデル９３０の各データを適宜読み込み、処理を実行する。なお、図８は、音声データベース９１０、雑音データベース９２０、属性識別モデル９３０のそれぞれが外部の記録部に記録されている図となっているが、信頼度算出モデル学習装置２００に含まれる記録部２９０に記録するように構成してもよい。

音声データベース９１０は、M+1個の音声s_m(t)(m=0,1,…,M、ただし、Mは0以上の整数)と音声s_m(t)の属性ラベルA_mの組である属性ラベル付き音声によって構成されるデータベースである。音声s_m(t)の属性ラベルA_mは、音声s_m(t)の話者の属性値（クラス）であり、属性識別結果の正解を示すラベルである。また、雑音データベース９２０は、J+1個の雑音n_j(t) (j=0,1,…,J、ただし、Jは0以上の整数)によって構成されるデータベースである。雑音データベース９２０に含まれる各雑音n_j(t)は、例えば、実際のラジオ放送やテレビ放送のような音声・音楽を含むものである。属性識別モデル９３０は、第一実施形態で用いた属性識別モデルλ_cである。

信頼度算出モデル学習装置２００は、音声データベース９１０、雑音データベース９２０、属性識別モデル９３０を用いて、クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルを学習する。

図９に従い信頼度算出モデル学習装置２００の動作について説明する。雑音重畳音声生成部２１０は、音声データベース９１０の音声s_m(t)(m=0,1,…,M)、雑音データベース９２０の雑音n_j(t)(j=0,1,…,J)から、雑音重畳音声x_m(t)を生成する（Ｓ２１０）。具体的には、雑音重畳音声生成部２１０は、ランダムな値j、α、aを音声s_m(t)ごとに生成し、次式にて雑音重畳音声x_m(t)を生成する。

ここで、jは音声に重畳する雑音を選択するためのインデックスであり、0≦j≦Jである。また、αはSN比であり、音声と雑音のパワーが同程度のときはSN比-20dBから30dBの値、つまり、α=10^-20/10〜10^30/10とするとよい。aは使用する雑音の区間を選択する値であり、雑音n_j(t)の時間長を超えない範囲でランダムに選択すればよい。

事後確率算出部１１０は、雑音重畳音声x_m(t)から、雑音重畳音声x_m(t)のフレームiがクラスcである事後確率q_m(c,i)の系列である事後確率系列{q_m(c,i)}(i=0,1,…,I_m、ただし、I_mは0以上の整数)を算出する（Ｓ１１０）。

属性識別結果生成部２３０は、クラスcの事後確率系列{q_m(c,i)}(i=0,1,…,I_m)から、音声s_m(t)の属性識別結果L_mを生成する（Ｓ２３０）。具体的には、属性識別結果生成部２３０は、次式により、最尤推定クラスc^_mを求め、最尤推定クラスc^_mを属性識別結果L_mとする。

信頼度ラベル生成部２４０は、音声s_m(t)の属性ラベルA_mを用いて、属性識別結果L_mから、信頼度算出モデルの学習に用いる信頼度ラベルr_mを生成する（Ｓ２４０）。例えば、L_m=A_mである（つまり、属性識別結果が正解である）場合にr_m=1、それ以外である（つまり、属性識別結果が正解でない）場合にr_m=0とする。

信頼度ラベル生成部２４０は、最尤推定クラスc^_mの事後確率系列{q_m(c^_m,i)}(i=0,1,…,I_m)と信頼度ラベルr_mの組である信頼度ラベル付き事後確率系列を記録部２９０に記録し、信頼度ラベル付き事後確率系列データベースを構成する。

信頼度算出モデル学習部２５０は、信頼度ラベル付き事後確率系列データベースを用いて、クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルλ_rを学習する（Ｓ２５０）。信頼度算出モデルλ_rは、時系列データを扱うため、例えば、LSTM(Long Short-Term Memory)、RNN(Recurrent Neural Network)などのニューラルネットワークとして構成するとよい。

図１０Ａ，図１０Ｂ，図１０Ｃは、事後確率の時間変化を示す。図１０Ａは、雑音を重畳せずに正しい識別結果が得られたときの事後確率の変化、図１０Ｂは、雑音重畳音声に対して正しい識別結果が得られたときの事後確率の変化、図１０Ｃは、雑音重畳音声に対して正しい識別結果が得られなかったときの事後確率の変化である。図１０Ｂと図１０Ｃには、以下説明する２つの違いがある。

図１０Ｂのように正しい識別結果が得られたときは、ある特定のクラスが高い事後確率になりやすいのに対し、図１０Ｃのように正しい識別結果が得られていないときは、複数のクラスが時間経過とともに交互に高い事後確率となる。また、図１０Ｂのように正しい識別結果が得られたときは、ある程度時間が経過すると、事後確率が1に近い値で推移するのに対し、図１０Ｃのように正しい識別結果が得られていないときは、時間が経過しても事後確率が比較的高い値を示すこともなく、また高い値になったとしてもその時間が比較的短い。

このように、事後確率の時間変化のパターンが正しい識別結果が得られたときとそうでないときで異なるため、時系列データを扱うモデルとして信頼度算出モデルλ_rを学習することができ、信頼度を算出することが可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims

Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、
前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
を含む属性識別装置であって、
前記属性識別結果生成部は、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別装置。
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、
前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
を含む属性識別装置であって、
前記属性識別結果生成部は、
前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別装置。
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
を含む属性識別装置であって、
前記属性識別結果生成部は、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部を含み、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出部を用いて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別装置。
請求項１ないし３のいずれか１項に記載の属性識別装置であって、
前記信頼度算出部は、
クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルを用いて、前記信頼度r(c)を算出する
ことを特徴とする属性識別装置。
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップと、
前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
を含む属性識別方法であって、
前記属性識別結果生成ステップは、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別方法。
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップと、
前記属性識別装置が、前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
を含む属性識別方法であって、
前記属性識別結果生成ステップは、
前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別方法。
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
を含む属性識別方法であって、
前記属性識別結果生成ステップは、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップを含み、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出ステップにおいて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別方法。
請求項１ないし４のいずれか１項に記載の属性識別装置としてコンピュータを機能させるためのプログラム。