JP6804639B2 - 属性識別装置、属性識別方法、プログラム - Google Patents

属性識別装置、属性識別方法、プログラム Download PDF

Info

Publication number
JP6804639B2
JP6804639B2 JP2019519570A JP2019519570A JP6804639B2 JP 6804639 B2 JP6804639 B2 JP 6804639B2 JP 2019519570 A JP2019519570 A JP 2019519570A JP 2019519570 A JP2019519570 A JP 2019519570A JP 6804639 B2 JP6804639 B2 JP 6804639B2
Authority
JP
Japan
Prior art keywords
attribute identification
class
attribute
reliability
posterior probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019519570A
Other languages
English (en)
Other versions
JPWO2018216511A1 (ja
Inventor
歩相名 神山
歩相名 神山
哲 小橋川
哲 小橋川
厚志 安藤
厚志 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2018216511A1 publication Critical patent/JPWO2018216511A1/ja
Application granted granted Critical
Publication of JP6804639B2 publication Critical patent/JP6804639B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、発話音声から話者の属性を識別する技術に関する。
音声対話ロボットやコールセンターにおけるマーケティング情報収集のために、音声から属性(例えば、性別や年代)を識別する技術が必要とされている。属性識別のための従来技術として、GMM(Gaussian Mixture Model)を用いて属性を識別する方法(非特許文献1)やSVM(Support Vector Machine)を用いて音声から抽出したi-vectorにより属性を識別する方法などがある。
これらの従来技術では、周囲の雑音の影響により、属性を誤識別してしまうことある。特に、音声や音楽が含まれるラジオ放送やテレビ放送等が雑音(以下、テレビ雑音ともいう)として発話音声に重畳した場合、複数の音声が混在してしまう。この場合、発話音声とテレビ雑音に含まれる音声とを区別することが難しいため、属性を誤って識別することになる。
そこで、予め雑音を重畳した音声を対象に機械学習を行うことにより、頑健な属性識別を実現する方法も提案されている(非特許文献2)。
宮森翔子,西村竜一,栗原理沙,入野俊夫,河原英紀,"ちょっとした一言の音声認識による子ども利用者判別法の検討",FIT(電子情報通信学会・情報処理学会)運営委員会,情報科学技術フォーラム講演論文集 9(3),pp.469-472,2010. 中村哲,"実音響環境に頑健な音声認識を目指して",電子情報通信学会,信学技報,EA2002-12,SP2002-12,pp.31-36,2002.
しかし、テレビ雑音に含まれる音声や音楽の影響による雑音状況は非常に多岐にわたるため、どのような雑音状況に対しても頑健に動作するように網羅的に学習することは不可能である。また、一部の雑音状況に限定した学習データを用いて学習すると、雑音に含まれる音声を属性識別の特徴として学習してしまうため、かえって静音環境下での識別において誤りを発生させる原因にもなりうる。そのため、ユーザの満足度の度合い(以下、ユーザビリティという)を考慮するならば、誤った識別結果を与えるよりはその結果を棄却する方がよいが、一律に属性識別結果を出すことにより、ユーザビリティが低下してしまうという問題が生じていた。
そこで本発明では、属性識別結果の信頼度が低い場合に当該結果を棄却することができる属性識別技術を提供することを目的とする。
本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。
本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。
本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部を含み、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出部を用いて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。
本発明によれば、属性識別結果の確からしさを示す信頼度が低い場合に属性識別結果を棄却することにより、ユーザビリティの低下を防ぐことができる。
属性識別装置100の構成の一例を示すブロック図である。 属性識別装置100の動作の一例を示すフローチャートである。 事後確率と信頼度の時間変化の一例を示す図である。 事後確率と信頼度の時間変化の一例を示す図である。 属性識別装置101の構成の一例を示すブロック図である。 属性識別装置101の動作の一例を示すフローチャートである。 属性識別装置102の構成の一例を示すブロック図である。 属性識別装置102の動作の一例を示すフローチャートである。 信頼度算出モデル学習装置200の構成の一例を示すブロック図である。 信頼度算出モデル学習装置200の動作の一例を示すフローチャートである。 事後確率の時間変化の一例を示す図である。 事後確率の時間変化の一例を示す図である。 事後確率の時間変化の一例を示す図である。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<定義>
以下、各実施形態で用いる用語について説明する。
音声s(t)は、サンプリング周波数をfs[Hz]とした場合の、サンプル時間t(t=0,1,…,Tk-1、ただし、Tkは1以上の整数)における振幅である。また、特徴量x(i)は、音声s(t)のフレームi(i=0,1,…,I、ただし、Iは0以上の整数であり、I+1は音声s(t)から生成されたフレーム数を表す)から抽出される特徴量である。例えば、MFCC(Mel-Frequency Cepstral Coefficient)や基本周波数を特徴量として、適切な分析フレーム幅とフレームシフト(例えば、分析フレーム幅50ms、フレームシフト25ms)で抽出することができる。
属性とは、発話音声の話者を識別するためのクラス(属性値)の集合のことである。例えば、属性“性別”に対しては、クラスとして「男性」、「女性」がある。属性“年代”に対しては、クラスとして「10代」、「20代」、「30代」などがある。また、性別と年代を組み合わせた属性を考えてもよく、この場合、例えば、クラスとして「成人男性」、「成人女性」、「子ども」などが考えられる。一般に、クラス(属性値)をc(c=0,1,…,C、ただし、Cは0以上の整数であり、C+1はクラス数を表す)と表す。例えば、性別識別の場合の属性値cは、c=0のとき「男性」、c=1のとき「女性」を表すなどとすればよい。また、属性識別モデルλcは、フレームiの特徴量x(i)を入力として、特徴量がx(i)である場合にクラスがcである事後確率p(c|x(i))(c=0,1,…,C)を出力するモデルである。属性識別モデルλcは、例えば、DNN(Deep Neural Network)などのニューラルネットワークを用いて実現することができる。
<第一実施形態>
以下、図1〜図2を参照して属性識別装置100について説明する。図1は、属性識別装置100の構成を示すブロック図である。図2は、属性識別装置100の動作を示すフローチャートである。図1に示すように属性識別装置100は、事後確率算出部110、信頼度算出部120、属性識別結果生成部130、記録部190を含む。記録部190は、属性識別装置100の処理に必要な情報を適宜記録する構成部である。例えば、属性識別結果生成部130が用いる閾値δを事前に記録しておく。
また、属性識別装置100は、属性識別モデル930のデータを適宜読み込み、処理を実行する。なお、図1は、属性識別モデル930が外部の記録部に記録されている図となっているが、属性識別装置100に含まれる記録部190に記録するように構成してもよい。以下、本実施形態では、両者を区別することなく、属性識別モデルλcと表現する。
属性識別装置100は、入力音声s(t)から、入力音声s(t)の話者に関する属性の識別結果である属性識別結果Lを生成し、出力する。
図2に従い属性識別装置100の動作について説明する。事後確率算出部110は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する(S110)。具体的には、事後確率算出部110は、属性識別モデルλcを用いて、入力音声s(t)のフレームiから抽出した特徴量x(i)がクラスcである事後確率p(c|x(i))を求め、q(c,i)=p(c|x(i))とする。ここで、0≦q(c,i)≦1(c=0,1,…,C、i=0,1,…,I)、Σcq(c,i)=1(i=0,1,…,I)が成り立つ。
信頼度算出部120は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する(S120)。ここで、クラスcの信頼度r(c)は、クラスcが正しい属性識別結果である程度を示す値であり、信頼度r(c)を0≦r(c)≦1を満たし、かつ、1に近づけば近づくほど属性識別結果が確からしいことを示す指標として定義する。例えば、信頼度r(c)を、次式のようにクラスごとの事後確率の平均として定義してもよい。
Figure 0006804639
また、信頼度r(c)を、次式のようにクラスごとの事後確率の積を用いて定義してもよい。
Figure 0006804639
なお、式(2)を用いて信頼度r(c)を定義する場合、ほとんどの入力音声に対してr(c)が1に近い値(例えば、0.9999)となり、属性識別結果生成部130での最尤推定クラスc^を棄却するか否かを決定するための閾値δの設定が繊細となることがある。そこで、適当なパラメータv(0<v<1)を用いて、0から1の間をなだらかに変化する式xvを用いて、信頼度r(c)を次式のように定義してもよい。
Figure 0006804639
属性識別結果生成部130は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)とクラスcの信頼度r(c)から、入力音声s(t)の属性識別結果Lを生成する(S130)。具体的には、属性識別結果生成部130は、まず、事後確率系列{q(c,i)}(i=0,1,…,I)から、次式により、最尤推定クラスc^を求める。式からわかるように、最尤推定クラスとは、最も確からしい属性であると推定されるクラスである。
Figure 0006804639
次に、信頼度r(c^)と閾値δ(0<δ<1)を比較し、r(c^)≧δ(またはr(c^)>δ)の場合、最尤推定クラスc^を属性識別結果Lとし、r(c^)<δ(またはr(c^)≦δ)の場合、最尤推定クラスc^を棄却し、棄却を表すφを属性識別結果Lとする。
なお、r(c^)<δまたはr(c^)≦δであることを、信頼度r(c^)が小さいことを示す所定の範囲にあるという。
図3A及び図3Bは、事後確率の時間変化と、v=1/32とした場合の式(3)で定義される信頼度の時間変化を示す。図3Aは、入力音声のみの場合の事後確率と信頼度の変化、図3Bは、入力音声にテレビ雑音が重畳している場合の事後確率と信頼度の変化である。入力音声のみの場合は、入力音声の長さがある程度長くなると、信頼度が最終的に1に近い値をとるクラスが出現するのに対し、テレビ雑音を重畳した入力音声の場合は、各クラスとも入力音声のみの場合よりも低い値をとる傾向があり、1に近い値をとるクラスがないことがわかる。このような特徴が信頼度にあるため、最尤推定クラスの信頼度が所定の閾値δに達しない場合に、誤識別かもしれない確実性の低いクラスであるとして棄却することが可能となる。
(変形例1)
属性識別装置100では、事後確率系列{q(c,i)}(i=0,1,…,I)を属性識別結果生成部130の入力とするように構成したが、事後確率系列{q(c,i)}(i=0,1,…,I)を用いることなく、属性識別結果Lを生成するように構成してもよい。以下、図4〜図5を参照して属性識別装置101について説明する。図4は、属性識別装置101の構成を示すブロック図である。図5は、属性識別装置101の動作を示すフローチャートである。図4に示すように属性識別装置101は、事後確率算出部110、信頼度算出部120、属性識別結果生成部131、記録部190を含む。
図5に従い属性識別装置101の動作について説明する。事後確率算出部110は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する(S110)。信頼度算出部120は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する(S120)。
属性識別結果生成部131は、クラスcの信頼度r(c)から、入力音声s(t)の属性識別結果Lを生成する(S131)。具体的には、属性識別結果生成部131は、まず、クラスcの信頼度r(c)から、次式により、最尤推定クラスc^を求める。
Figure 0006804639
次に、信頼度r(c^)と閾値δ(0<δ<1)を比較し、r(c^)≧δ(またはr(c^)>δ)の場合、最尤推定クラスc^を属性識別結果Lとし、r(c^)<δ(またはr(c^)≦δ)の場合、最尤推定クラスc^を棄却し、棄却を表すφを属性識別結果Lとする。
(変形例2)
また、属性識別装置100では、信頼度r(c)を属性識別結果生成部130の入力とするように構成したが、事後確率系列{q(c,i)}(i=0,1,…,I)のみを入力とするように構成してもよい。この場合、最尤推定クラスに対してのみ信頼度を算出することになる。以下、図6〜図7を参照して属性識別装置102について説明する。図6は、属性識別装置102の構成を示すブロック図である。図7は、属性識別装置102の動作を示すフローチャートである。図6に示すように属性識別装置102は、事後確率算出部110、属性識別結果生成部132、記録部190を含む。
図7に従い属性識別装置102の動作について説明する。事後確率算出部110は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する(S110)。
属性識別結果生成部132は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、入力音声s(t)の属性識別結果Lを生成する(S132)。具体的には、属性識別結果生成部132は、まず、事後確率系列{q(c,i)}(i=0,1,…,I)から、式(4)により、最尤推定クラスc^を求める。次に、属性識別結果生成部132は、最尤推定クラスc^の信頼度r(c^)を算出する。算出には式(1)〜(3)を用いることができ、例えば、属性識別結果生成部132が信頼度算出部120を含むように構成すればよい。最後に、信頼度r(c^)と閾値δ(0<δ<1)を比較し、r(c^)≧δ(またはr(c^)>δ)の場合、最尤推定クラスc^を属性識別結果Lとし、r(c^)<δ(またはr(c^)≦δ)の場合、最尤推定クラスc^を棄却し、棄却を表すφを属性識別結果Lとする。
本発明によれば、属性識別結果の確からしさを示す信頼度が低い場合に属性識別結果を棄却することにより、ユーザビリティの低下を防ぐことができ、信頼できない識別結果をユーザに提示することによる不快感を抑制することができる。
<第二実施形態>
第一実施形態では、式(1)〜(3)のような数式を用いて信頼度を算出した。第二実施形態では、数式を用いる代わりに、信頼度算出モデルを用いて信頼度を算出する。つまり、第二実施形態の属性識別装置は、信頼度算出モデルを用いて、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する点においてのみ、第一実施形態の各属性識別装置と異なる。この信頼度算出モデルを学習するのが、信頼度算出モデル学習装置200である。信頼度算出モデルは、属性識別装置が処理を開始する前に属性識別装置の記録部に記録しておくことになる。
以下、図8〜図9を参照して、信頼度算出モデル学習装置200について説明する。図8は、信頼度算出モデル学習装置200の構成を示すブロック図である。図9は、信頼度算出モデル学習装置200の動作を示すフローチャートである。図8に示すように信頼度算出モデル学習装置200は、雑音重畳音声生成部210、事後確率算出部110、属性識別結果生成部230、信頼度ラベル生成部240、信頼度算出モデル学習部250、記録部290を含む。記録部290は、信頼度算出モデル学習装置200の処理に必要な情報を適宜記録する構成部である。例えば、信頼度算出モデル学習部250が学習に用いる信頼度ラベル付き事後確率系列データベースを記録する。
また、信頼度算出モデル学習装置200は、音声データベース910、雑音データベース920、属性識別モデル930の各データを適宜読み込み、処理を実行する。なお、図8は、音声データベース910、雑音データベース920、属性識別モデル930のそれぞれが外部の記録部に記録されている図となっているが、信頼度算出モデル学習装置200に含まれる記録部290に記録するように構成してもよい。
音声データベース910は、M+1個の音声sm(t)(m=0,1,…,M、ただし、Mは0以上の整数)と音声sm(t)の属性ラベルAmの組である属性ラベル付き音声によって構成されるデータベースである。音声sm(t)の属性ラベルAmは、音声sm(t)の話者の属性値(クラス)であり、属性識別結果の正解を示すラベルである。また、雑音データベース920は、J+1個の雑音nj(t) (j=0,1,…,J、ただし、Jは0以上の整数)によって構成されるデータベースである。雑音データベース920に含まれる各雑音nj(t)は、例えば、実際のラジオ放送やテレビ放送のような音声・音楽を含むものである。属性識別モデル930は、第一実施形態で用いた属性識別モデルλcである。
信頼度算出モデル学習装置200は、音声データベース910、雑音データベース920、属性識別モデル930を用いて、クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルを学習する。
図9に従い信頼度算出モデル学習装置200の動作について説明する。雑音重畳音声生成部210は、音声データベース910の音声sm(t)(m=0,1,…,M)、雑音データベース920の雑音nj(t)(j=0,1,…,J)から、雑音重畳音声xm(t)を生成する(S210)。具体的には、雑音重畳音声生成部210は、ランダムな値j、α、aを音声sm(t)ごとに生成し、次式にて雑音重畳音声xm(t)を生成する。
Figure 0006804639
ここで、jは音声に重畳する雑音を選択するためのインデックスであり、0≦j≦Jである。また、αはSN比であり、音声と雑音のパワーが同程度のときはSN比-20dBから30dBの値、つまり、α=10-20/10〜1030/10とするとよい。aは使用する雑音の区間を選択する値であり、雑音nj(t)の時間長を超えない範囲でランダムに選択すればよい。
事後確率算出部110は、雑音重畳音声xm(t)から、雑音重畳音声xm(t)のフレームiがクラスcである事後確率qm(c,i)の系列である事後確率系列{qm(c,i)}(i=0,1,…,Im、ただし、Imは0以上の整数)を算出する(S110)。
属性識別結果生成部230は、クラスcの事後確率系列{qm(c,i)}(i=0,1,…,Im)から、音声sm(t)の属性識別結果Lmを生成する(S230)。具体的には、属性識別結果生成部230は、次式により、最尤推定クラスc^mを求め、最尤推定クラスc^mを属性識別結果Lmとする。
Figure 0006804639
信頼度ラベル生成部240は、音声sm(t)の属性ラベルAmを用いて、属性識別結果Lmから、信頼度算出モデルの学習に用いる信頼度ラベルrmを生成する(S240)。例えば、Lm=Amである(つまり、属性識別結果が正解である)場合にrm=1、それ以外である(つまり、属性識別結果が正解でない)場合にrm=0とする。
Figure 0006804639
信頼度ラベル生成部240は、最尤推定クラスc^mの事後確率系列{qm(c^m,i)}(i=0,1,…,Im)と信頼度ラベルrmの組である信頼度ラベル付き事後確率系列を記録部290に記録し、信頼度ラベル付き事後確率系列データベースを構成する。
信頼度算出モデル学習部250は、信頼度ラベル付き事後確率系列データベースを用いて、クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルλrを学習する(S250)。信頼度算出モデルλrは、時系列データを扱うため、例えば、LSTM(Long Short-Term Memory)、RNN(Recurrent Neural Network)などのニューラルネットワークとして構成するとよい。
図10A,図10B,図10Cは、事後確率の時間変化を示す。図10Aは、雑音を重畳せずに正しい識別結果が得られたときの事後確率の変化、図10Bは、雑音重畳音声に対して正しい識別結果が得られたときの事後確率の変化、図10Cは、雑音重畳音声に対して正しい識別結果が得られなかったときの事後確率の変化である。図10Bと図10Cには、以下説明する2つの違いがある。
図10Bのように正しい識別結果が得られたときは、ある特定のクラスが高い事後確率になりやすいのに対し、図10Cのように正しい識別結果が得られていないときは、複数のクラスが時間経過とともに交互に高い事後確率となる。また、図10Bのように正しい識別結果が得られたときは、ある程度時間が経過すると、事後確率が1に近い値で推移するのに対し、図10Cのように正しい識別結果が得られていないときは、時間が経過しても事後確率が比較的高い値を示すこともなく、また高い値になったとしてもその時間が比較的短い。
このように、事後確率の時間変化のパターンが正しい識別結果が得られたときとそうでないときで異なるため、時系列データを扱うモデルとして信頼度算出モデルλrを学習することができ、信頼度を算出することが可能となる。
本発明によれば、属性識別結果の確からしさを示す信頼度が低い場合に属性識別結果を棄却することにより、ユーザビリティの低下を防ぐことができ、信頼できない識別結果をユーザに提示することによる不快感を抑制することができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims (8)

  1. Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
    入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
    を含む属性識別装置であって、
    前記属性識別結果生成部は、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
    属性識別装置。
  2. Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
    入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、
    前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
    を含む属性識別装置であって、
    前記属性識別結果生成部は、
    前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
    属性識別装置。
  3. Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
    入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
    を含む属性識別装置であって、
    前記属性識別結果生成部は、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部を含み、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出部を用いて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
    属性識別装置。
  4. 請求項1ないし3のいずれか1項に記載の属性識別装置であって、
    前記信頼度算出部は、
    クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルを用いて、前記信頼度r(c)を算出する
    ことを特徴とする属性識別装置。
  5. Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
    属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
    前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップと、
    前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
    を含む属性識別方法であって、
    前記属性識別結果生成ステップは、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
    属性識別方法。
  6. Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
    属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
    前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップと、
    前記属性識別装置が、前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
    を含む属性識別方法であって、
    前記属性識別結果生成ステップは、
    前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
    属性識別方法。
  7. Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
    属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
    前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
    を含む属性識別方法であって、
    前記属性識別結果生成ステップは、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップを含み、
    前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出ステップにおいて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
    属性識別方法。
  8. 請求項1ないし4のいずれか1項に記載の属性識別装置としてコンピュータを機能させるためのプログラム。
JP2019519570A 2017-05-25 2018-05-11 属性識別装置、属性識別方法、プログラム Active JP6804639B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017103384 2017-05-25
JP2017103384 2017-05-25
PCT/JP2018/018388 WO2018216511A1 (ja) 2017-05-25 2018-05-11 属性識別装置、属性識別方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2018216511A1 JPWO2018216511A1 (ja) 2020-02-27
JP6804639B2 true JP6804639B2 (ja) 2020-12-23

Family

ID=64395566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019519570A Active JP6804639B2 (ja) 2017-05-25 2018-05-11 属性識別装置、属性識別方法、プログラム

Country Status (3)

Country Link
US (2) US11133012B2 (ja)
JP (1) JP6804639B2 (ja)
WO (1) WO2018216511A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11996086B2 (en) * 2019-08-19 2024-05-28 Nippon Telegraph And Telephone Corporation Estimation device, estimation method, and estimation program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3840221B2 (ja) * 2003-11-06 2006-11-01 キヤノン株式会社 音声認識装置及び方法
JP2006121611A (ja) * 2004-10-25 2006-05-11 Nippon Telegraph & Telephone West Corp 電話システム、電話システム管理装置および広告コンテンツ配信方法、ならびに広告コンテンツ配信プログラムと記録媒体
JP2006208483A (ja) * 2005-01-25 2006-08-10 Sony Corp 聴取者の関心事項の調査を支援する装置,方法,プログラム及び記録媒体
JP5250576B2 (ja) * 2010-02-25 2013-07-31 日本電信電話株式会社 ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
US20140330566A1 (en) * 2013-05-06 2014-11-06 Linkedin Corporation Providing social-graph content based on a voice print
JP6246636B2 (ja) * 2014-03-20 2017-12-13 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム

Also Published As

Publication number Publication date
US11133012B2 (en) 2021-09-28
WO2018216511A1 (ja) 2018-11-29
JPWO2018216511A1 (ja) 2020-02-27
US11756554B2 (en) 2023-09-12
US20210383812A1 (en) 2021-12-09
US20210104248A1 (en) 2021-04-08

Similar Documents

Publication Publication Date Title
Laraba et al. Dance performance evaluation using hidden Markov models
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP6812381B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP2017097188A (ja) 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム
US20170206904A1 (en) Classifying signals using feature trajectories
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP6816047B2 (ja) 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
JP6804639B2 (ja) 属性識別装置、属性識別方法、プログラム
JPWO2019215904A1 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
Xu et al. Contrastive novelty-augmented learning: Anticipating outliers with large language models
US20200019875A1 (en) Parameter calculation device, parameter calculation method, and non-transitory recording medium
JP7111017B2 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
US11514311B2 (en) Automated data slicing based on an artificial neural network
JP2018132678A (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
WO2021044606A1 (ja) 学習装置、推定装置、それらの方法、およびプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
US20240086774A1 (en) Training method, training device, and non-transitory computer-readable recording medium
CN115497482B (zh) 一种语音对话方法及相关装置
US11894017B2 (en) Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program
CN116886991B (zh) 生成视频资料的方法、装置、终端设备以及可读存储介质
WO2023119672A1 (ja) 推定方法、推定装置及び推定プログラム
JP6852167B2 (ja) コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
CN115171669A (zh) 一种语音数据处理方法及装置
Vaishnavi et al. Interview Supporting System Using Facial Features
CN116152717A (zh) 联合生成判别特征的开放行为识别方法、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191010

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191010

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20191010

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20191010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201202

R150 Certificate of patent or registration of utility model

Ref document number: 6804639

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150